版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息第一頁,共93頁。2目錄第一節(jié)生物信息學(xué)數(shù)據(jù)庫概述
1第二節(jié)核酸序列數(shù)據(jù)庫
2第三節(jié)蛋白質(zhì)數(shù)據(jù)庫
3第四節(jié)基因組數(shù)據(jù)庫4第五節(jié)疾病基因數(shù)據(jù)庫
5第二頁,共93頁。3第一節(jié)生物信息學(xué)數(shù)據(jù)庫概述一生物信息學(xué)數(shù)據(jù)庫的類型二生物信息數(shù)據(jù)收集與存貯三生物信息學(xué)數(shù)據(jù)庫的查找第三頁,共93頁。4一、生物信息學(xué)數(shù)據(jù)庫的類型文獻(xiàn)數(shù)據(jù)庫
突變數(shù)據(jù)庫
圖譜數(shù)據(jù)庫
結(jié)構(gòu)數(shù)據(jù)庫
序列數(shù)據(jù)庫
類型按收錄信息內(nèi)容分
第四頁,共93頁。5二、生物信息數(shù)據(jù)收集與存貯(一)生物信息數(shù)據(jù)的收集生物信息數(shù)據(jù)收集與存貯
(二)生物信息數(shù)據(jù)的存貯第五頁,共93頁。6(一)生物信息數(shù)據(jù)的收集數(shù)據(jù)庫與數(shù)據(jù)庫合作數(shù)據(jù)庫與測序中心合作數(shù)據(jù)庫與期刊合作建庫的初期4.?dāng)?shù)據(jù)交換
3.成批發(fā)送
2.直接發(fā)送
1.人工收集
第六頁,共93頁。7(二)生物信息數(shù)據(jù)的存貯1.記錄格式主要有:EMBL格式、GenBank格式存貯格式2.序列格式又稱Pearson格式第七頁,共93頁。三、生物信息學(xué)數(shù)據(jù)庫的查找(一)通過搜索引擎查找(二)通過專門的生物信息學(xué)數(shù)據(jù)庫目錄查詢從)。(三)通過生物信息學(xué)中心資源導(dǎo)航查詢一些著名的生物信息學(xué)中心不僅自己建立和維護(hù)大量的生物信息數(shù)據(jù)庫,而且一般在網(wǎng)上提供資源導(dǎo)航。
第八頁,共93頁。9第二節(jié)核酸序列數(shù)據(jù)庫一GenBank二EMBL-Bank三DDBJ第九頁,共93頁。10(一)GenBank概述一、GenBank(二)GenBank檢索第十頁,共93頁。(一)GenBank概述是由美國國家生物技術(shù)信息中心(NCBI)管理和維護(hù)大型、綜合性的公共核酸序列數(shù)據(jù)庫,包括所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)和生物學(xué)注釋。第十一頁,共93頁。12國際核酸序列數(shù)據(jù)庫協(xié)作體INSDC
DDBJ
EMBL
GenBank
第十二頁,共93頁。(一)GenBank概述GenBank的數(shù)據(jù)來源于約260000個物種,每月新增1700多個物種。大約12%的序列來自于人類,其中8%是人類的EST序列。每條GenBank數(shù)據(jù)記錄包含對序列的簡要描述、它的科學(xué)命名、物種分類名稱、參考文獻(xiàn)、序列特征表以及序列本身。序列特征表里包含對序列生物學(xué)特征注釋,如編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點或修飾位點等。所有數(shù)據(jù)記錄被劃分成若干個子庫,如細(xì)菌類(BCT)、病毒類(VRL)、靈長類(PRI)、嚙齒類(ROD)以及EST數(shù)據(jù)、基因組序列數(shù)據(jù)(GSS)、高通量基因組序列數(shù)據(jù)(HTG)等19類,其中EST數(shù)據(jù)等又被分成若干子庫。第十三頁,共93頁。(二)GenBank檢索Entrez是NCBI生物信息學(xué)數(shù)據(jù)庫集成檢索系統(tǒng),可以檢索以下生物信息學(xué)數(shù)據(jù)庫。第十四頁,共93頁。例如,查找H1N1流感病毒(H1N1FluVirus)的核酸序列。其檢索步驟是:第十五頁,共93頁。(1)進(jìn)入Entrez主頁(/gquery/),在提問框輸入H1N1FluVirus。第十六頁,共93頁。
(2)點擊“GO”,得到各個數(shù)據(jù)庫的檢索結(jié)果。第十七頁,共93頁。(3)點擊“Nucleotide:Coresubsetofnucleotidesequencerecords”,得到GenBank核酸序列數(shù)據(jù)庫中的4801條記錄簡要格式(Summary)。第十八頁,共93頁。(4)點擊記錄的標(biāo)題,即可獲取該記錄的詳細(xì)信息。第十九頁,共93頁。20(一)EMBL-Bank概述二、EMBL-Bank(二)EMBL-Bank檢索第二十頁,共93頁。(一)EMBL-Bank概述EMBL-Bank(http://www.ebi.ac.uk/embl/)是國際三大核酸序列數(shù)據(jù)庫之一,創(chuàng)建于1982年?,F(xiàn)由歐洲生物信息學(xué)研究所(EBI)管理和維護(hù),主要收集歐洲產(chǎn)生的核酸序列數(shù)據(jù)。到2009年8月,EMBL-Bank(101版)的核酸序列達(dá)到163656234條,堿基數(shù)達(dá)到283748816763個。對于每條核酸序列,相關(guān)信息包括序列名稱、序列、染色體定位、關(guān)鍵字、來源生物體、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點等。第二十一頁,共93頁。(二)EMBL-Bank檢索獲取EMBL-Bank的核酸序列數(shù)據(jù)主要是通過SRS(SequenceRetrievalSystem)序列檢索系統(tǒng)由LionBioscience公司繼續(xù)開發(fā),而成為一個商業(yè)軟件,科研單位只要與它簽訂協(xié)議即可獲得該軟件的免費(fèi)使用權(quán)。SRS是一個開放式的,可以根據(jù)需要安裝不同的數(shù)據(jù)庫。第二十二頁,共93頁。SRS查詢方法通過EBI的SRS服務(wù)器(http://srs.ebi.ac.uk)進(jìn)入QuickSearch界面。點擊“LibraryPage”,即數(shù)據(jù)庫選擇頁。選擇好要檢索的數(shù)據(jù)庫后,SRS提供三種查詢方式。(1)QuickSearch(快速查詢)(2)StandardQuery(標(biāo)準(zhǔn)查詢)(3)ExtendedQuery(擴(kuò)展查詢)第二十三頁,共93頁。(1)QuickSearch(快速查詢)第二十四頁,共93頁。(2)StandardQuery(標(biāo)準(zhǔn)查詢)第二十五頁,共93頁。(3)ExtendedQuery(擴(kuò)展查詢)第二十六頁,共93頁。標(biāo)準(zhǔn)查詢后的結(jié)果第二十七頁,共93頁。CS116935的詳細(xì)信息第二十八頁,共93頁。29(一)DDBJ概述三、DDBJ(二)DDBJ檢索第二十九頁,共93頁。(一)DDBJ概述DDBJ(DNADataBankofJapan,日本核酸數(shù)據(jù)庫,http://www.ddbj.nig.ac.jp/index-e.html)創(chuàng)建于1986,現(xiàn)由日本國家遺傳學(xué)研究所的生物信息中心(CIB/DDBJ)管理和維護(hù)。截止至2009年9月,DDBJ(79版)共收錄108,593,519條序列,106,684,379,504個堿基。DDBJ主頁除了提供SRS、ARSA、TXSearch、BLAST等數(shù)據(jù)檢索功能外,還提供SAKURA、MSS、Sequin數(shù)據(jù)提交工具和CLUSTALW、FASTA、BLAST等數(shù)據(jù)分析工具。第三十頁,共93頁。(二)DDBJ檢索通過getentry、ARSA、SRS、TXSearch、BLAST、PSI-BLAST、FASTA、SSEARCH等檢索工具可以獲取DDBJ數(shù)據(jù)。前四種用于檢索DDBJ數(shù)據(jù)庫中的原始數(shù)據(jù),其中g(shù)etentry屬于存取號檢索,SRS和ARSA屬于關(guān)鍵詞檢索,TXSearch屬于分類檢索;后4種對用戶提供的序列或片斷作同源性分析。第三十一頁,共93頁。32第三節(jié)蛋白質(zhì)數(shù)據(jù)庫
一蛋白質(zhì)序列數(shù)據(jù)庫
二蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫
三蛋白質(zhì)功能數(shù)據(jù)庫第三十二頁,共93頁。33一、蛋白質(zhì)序列數(shù)據(jù)庫
(三)TrEMBL
(四)GenPept
(二)SWISS-PROT
(一)PIR
(五)UniProt
(六)OWL
第三十三頁,共93頁。(一)PIR
創(chuàng)建于1984年。1988年,美國NBRF、日本國際蛋白質(zhì)信息數(shù)據(jù)庫(JapanInternationalProteinInformationDatabase,JIPID)與德國的慕尼黑蛋白質(zhì)序列信息中心(MunichInformationCenterforProteinSequences,MIPS)合作成立國際蛋白質(zhì)序列信息中心(PIR-International)。第75.03版的PIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋詳略分成四個子庫:PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經(jīng)驗證,注釋最為詳盡;PIR2中包含尚未確定的冗余序列;PIR3中的序列尚未加檢驗,也未加注釋;PIR4包括其他渠道獲得的序列,既未驗證,也無注釋。網(wǎng)址:第三十四頁,共93頁。PIR主頁第三十五頁,共93頁。(二)SWISS-PROT創(chuàng)建于1986年由瑞士生物信息學(xué)研究所(SwissInstituteofBioinformatics,SIB)和歐洲生物信息研究所(EBI)共同維護(hù)和管理。1994年,SIB創(chuàng)建蛋白質(zhì)專家分析系統(tǒng)(ExpertProteinAnalysisSystem,ExPASy)(http://www.expasy.Ch),除了開發(fā)、維護(hù)和管理SWISS-PROT數(shù)據(jù)庫外,還提供蛋白質(zhì)序列、結(jié)構(gòu)、功能和蛋白質(zhì)2D圖譜等蛋白質(zhì)信息資源到2009年10月,SWISS-PROT(57.11版)收錄了512994條序列,包含180531504個氨基酸。網(wǎng)址:/sprot/第三十六頁,共93頁。(三)TrEMBL
創(chuàng)建于1996年,意即“TranslationofEMBL”,是計算機(jī)翻譯并注釋的蛋白質(zhì)序列數(shù)據(jù)庫,收錄的序列是從EMBL中的cDNA序列翻譯得到的。記錄采用SWISS-PROT數(shù)據(jù)庫格式。TrEMBL分為兩個部分:SP-TrEMBL和REM-TrEMBL。SP-TrEMBL的條目已經(jīng)專家分類并且給予SWISS-PROT存取號,但尚未通過人工審查,最終將收入SWISS-PROT。REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T細(xì)胞受體、少于8個氨基酸堿基的多肽、人工合成序列、專利序列等。第三十七頁,共93頁。(四)GenPept
由GenBank中的cDNA序列翻譯得到的蛋白質(zhì)序列數(shù)據(jù)庫。網(wǎng)址:/genbank/genpept/)第三十八頁,共93頁。(五)UniProt
將PIR、SWISS-PROT和TrEMBL3個蛋白質(zhì)數(shù)據(jù)庫統(tǒng)一起來組建而成,包含3個部分:(1)UniProtKnowledgebase(UniProtKB),這是蛋白質(zhì)序列、功能、分類、交叉引用等蛋白質(zhì)知識庫,記錄經(jīng)過人工篩選和注釋;(2)UniRef(UniProtNon-redundantReference)數(shù)據(jù)庫,將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中,以便提高搜索速度;目前,根據(jù)序列相似程度形成3個子庫,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProtArchive),是UniProt存檔庫,收錄所有蛋白質(zhì)序列。用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP下載數(shù)據(jù)。網(wǎng)址:第三十九頁,共93頁。UniProt主頁第四十頁,共93頁。(六)OWL
1994年由英國里茲(Leeds)大學(xué)和Warrington的Daresbury國家實驗室合作創(chuàng)建并維護(hù)的一個復(fù)合型數(shù)據(jù)庫。數(shù)據(jù)來源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等數(shù)據(jù)庫,去重后整合而成的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。第四十一頁,共93頁。OWL主頁第四十二頁,共93頁。小結(jié):①SWISSPROT的序列經(jīng)過嚴(yán)格審核,注釋完善,但數(shù)量仍較少。②PIR數(shù)據(jù)量較大,但包含未經(jīng)驗證的序列,注釋也不完善。③TrEMBL和GenPept的數(shù)據(jù)量最大,且隨核酸序列數(shù)據(jù)庫的更新而更新,但是由于TrEMBL和GenPept均是由核酸序列經(jīng)過計算機(jī)程序翻譯生成的,這兩個數(shù)據(jù)庫中的序列錯誤率較大,并存在較多的冗余序列。④OWL中的序列雖具有較好的代表性,但采用某些標(biāo)準(zhǔn)取舍序列,導(dǎo)致某些數(shù)據(jù)不完整。⑤UniProt中的序列具有較好的代表性,數(shù)據(jù)較完整。
第四十三頁,共93頁。44二、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫
(三)DSSP
(四)HSSP
(二)MMDB(一)PDB
(五)SCOP
(六)CATH
第四十四頁,共93頁。(一)PDB創(chuàng)建于1971年,是國際上最著名、最完整的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫。最先由美國Brookhaven國家實驗室負(fù)責(zé)維護(hù)和管理,從1998年開始,由結(jié)構(gòu)生物信息學(xué)合作研究協(xié)會(RCSB)負(fù)責(zé)管理。到2009年12月統(tǒng)計,PDB數(shù)據(jù)庫已經(jīng)收錄了利用X線衍射、NMR、電子顯微鏡實驗數(shù)據(jù)或理論計算得出的蛋白質(zhì)、核酸、蛋白質(zhì)/核酸復(fù)合物等結(jié)構(gòu)數(shù)據(jù)61808條,而且數(shù)據(jù)增長速度相當(dāng)快。
第四十五頁,共93頁。PDB數(shù)據(jù)庫以文本文件格式存放數(shù)據(jù),每條記錄即是一個獨立的文件,包括物種來源、化合物名稱、原子坐標(biāo)、結(jié)構(gòu)提交者以及有關(guān)文獻(xiàn)等基本注釋信息。此外,還包括分辨率、結(jié)構(gòu)因子,溫度系數(shù)、主鏈數(shù)目、配體分子式、金屬離子、二級結(jié)構(gòu)信息、二硫鍵位置等和結(jié)構(gòu)有關(guān)的數(shù)據(jù)。第四十六頁,共93頁。PDB主頁第四十七頁,共93頁。(二)MMDB
MMDB是NCBI的分子模型數(shù)據(jù)庫,收錄了由晶體衍射和核磁共振實驗研究得到的蛋白質(zhì)三維結(jié)構(gòu)。MMDB采用ASN.1記錄格式,而不是采用PDB記錄格式。MMDB結(jié)構(gòu)與原始的PDB結(jié)構(gòu)相比,增加了許多附加信息,如經(jīng)程序驗證的顯性化學(xué)圖像,一致的二級結(jié)構(gòu)衍生定義,與MEDLINE相匹配的引用等。MMDB可利用Entrez進(jìn)行文本查詢。MMDB檢索項包含PDB、MMDB的存取號,源自PDB注釋記錄的自由文本,作者名及其它書目檢索項。VAST(矢量分析檢索工具)用于檢索三維結(jié)構(gòu)的相似性。它舍棄了序列信息,而單純依靠由二級結(jié)構(gòu)衍生的三維矢量指標(biāo)進(jìn)行檢索。Cn3D是一種新的三維結(jié)構(gòu)瀏覽器,用于瀏覽MMDB數(shù)據(jù)記錄。第四十八頁,共93頁。(三)DSSPDSSP是一個蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫。目前,收錄了59474條記錄。DSSP對蛋白質(zhì)二級結(jié)構(gòu)劃分得比較詳細(xì),共分7種二級結(jié)構(gòu),其編碼含義如下:H代表螺旋,E代表折疊,G和I分別代表3-螺旋和螺旋,B代表孤立的橋,T代表氫鍵轉(zhuǎn)折,S代表彎曲。圖8-8是一個具體的蛋白質(zhì)二級結(jié)構(gòu)實例,其上面一行代表蛋白質(zhì)序列,下面一行是對于各個氨基酸殘基所處二級結(jié)構(gòu)的注釋。網(wǎng)址:http://swift.cmbi.ru.nl/gv/dssp/)第四十九頁,共93頁。(四)HSSP
HSSP是一個基于蛋白質(zhì)同源的蛋白質(zhì)結(jié)構(gòu)。目前,收錄了58774條記錄。對于一個蛋白質(zhì),HSSP組合二級結(jié)構(gòu)、三維結(jié)構(gòu)數(shù)據(jù)和序列數(shù)據(jù),其數(shù)據(jù)主要來源于PDB及其它蛋白質(zhì)序列數(shù)據(jù)庫,如SWISS-PROT。HSSP不僅是蛋白質(zhì)家族序列比對數(shù)據(jù)庫,同時該數(shù)據(jù)庫隱含了二級結(jié)構(gòu)和空間結(jié)構(gòu)信息,覆蓋了SWISS-PROT中27%的蛋白質(zhì)。HSSP有助于分析蛋白質(zhì)的保守區(qū)域,確定有意義的序列模式,研究蛋白質(zhì)的進(jìn)化關(guān)系,研究蛋白的折疊,也有助于蛋白質(zhì)的分子設(shè)計。第五十頁,共93頁。(五)SCOP
SCOP是英國醫(yī)學(xué)研究委員會分子生物學(xué)實驗室和蛋白質(zhì)工程中心開發(fā)的,基于Web的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫分類、檢索和分析系統(tǒng)。SCOP按結(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類,主要劃分為全型、全型、以平行折疊為主的/型、以反平行折疊為主的+型等11類。然后,再將屬于同一結(jié)構(gòu)類型的蛋白質(zhì)按照折疊(Fold)、超家族(Superfamily)、家族(Families)、蛋白質(zhì)結(jié)構(gòu)域(ProteinDomains)、單個PDB蛋白質(zhì)結(jié)構(gòu)層次組織起來。
第五十一頁,共93頁。SCOP主頁第五十二頁,共93頁。(六)CATH
CATH是一個關(guān)于已知蛋白質(zhì)結(jié)構(gòu)域的分級分類數(shù)據(jù)庫,由英國倫敦大學(xué)開發(fā)和維護(hù)。CATH主要有四個層次:類(Class,C)、構(gòu)架(Architecture,A)、拓?fù)?Topology,T)和同源超家族(Homologysuperfamily,H)。CATH的類與SCOP數(shù)據(jù)庫類似,主要根據(jù)二級結(jié)構(gòu)劃分為、、+、/等結(jié)構(gòu)類型。構(gòu)架層次描述結(jié)構(gòu)域的形狀,主要由其二級結(jié)構(gòu)的取向決定。拓?fù)鋵用枋龅氖钦郫B家族的水平。同源超家族層次則將對此具有同源性的蛋白質(zhì)聚類在一起。
第五十三頁,共93頁。CATH主頁第五十四頁,共93頁。55三、蛋白質(zhì)功能數(shù)據(jù)庫
(三)STRING(二)DIP
(一)BOND
(四)KEGG
第五十五頁,共93頁。(一)BOND
BOND是生物分子網(wǎng)絡(luò)數(shù)據(jù)庫,創(chuàng)建于2005年,由UnleashedInformatics公司管理和維護(hù)。主要收錄生物分子及其蛋白質(zhì)序列、結(jié)構(gòu)和相互作用等數(shù)據(jù),其中生物分子包括蛋白質(zhì)、DNA、RNA、配基、復(fù)合體、基因、光子(photon)等。BOND集成了多個重要數(shù)據(jù)庫,如BIND(生物分子相互作用網(wǎng)絡(luò)數(shù)據(jù)庫)、SMID(小分子相互作用數(shù)據(jù)庫)、Genbank、GO(基因本體)、OMIM、conserveddomains(保守功能域)、交叉參考數(shù)據(jù)庫、完整基因組等。第五十六頁,共93頁。BOND主頁第五十七頁,共93頁。(二)DIP
DIP專門存放實驗確定的蛋白質(zhì)之間相互作用的數(shù)據(jù),既包括經(jīng)典實驗手段確定的蛋白質(zhì)相互作用,也包括高通量實驗手段確定的蛋白質(zhì)相互作用數(shù)據(jù)。數(shù)據(jù)要經(jīng)過人工審核和采用計算方法自動驗證后加入數(shù)據(jù)庫。數(shù)據(jù)的自動驗證有3種指標(biāo),即EPRIndex、PVMScore和DPVScore。在目前缺乏蛋白質(zhì)相互作用數(shù)據(jù)金標(biāo)準(zhǔn)的現(xiàn)實情況下,DIP為采用計算的方法自動驗證高通量技術(shù)產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù)做了開拓性的工作。DIP還利用XML技術(shù)專門開發(fā)了一種用來存放和交換蛋白質(zhì)相互作用數(shù)據(jù)的xin格式。第五十八頁,共93頁。DIP主頁第五十九頁,共93頁。(三)STRING
STRING不僅存貯實驗確定的蛋白質(zhì)相互作用數(shù)據(jù),而且還存貯預(yù)測的蛋白質(zhì)相互作用數(shù)據(jù),并對各種預(yù)測方法的準(zhǔn)確性給出了相應(yīng)的權(quán)重,對于采用經(jīng)典實驗方法研究蛋白質(zhì)的功能、生物學(xué)意義具有非常重要的意義。數(shù)據(jù)來源有4種,一是高通量實驗技術(shù)產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù),二是由保守的共表達(dá)數(shù)據(jù)推導(dǎo)出的蛋白質(zhì)功能聯(lián)系,三是文獻(xiàn)搜索得到的蛋白質(zhì)相互作用數(shù)據(jù),四是采用預(yù)測蛋白質(zhì)相互作用的方法,根據(jù)基因組中基因的上下文關(guān)系(genomiccontext)預(yù)測得到的蛋白質(zhì)相互作用數(shù)據(jù)。目前STRING數(shù)據(jù)庫已經(jīng)包括179個物種中的736429個蛋白,覆蓋率相當(dāng)高。第六十頁,共93頁。STRING主頁第六十一頁,共93頁。(四)KEGG
京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫?;蚪M信息存貯在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;功能信息存貯在PATHWAY數(shù)據(jù)庫里,包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號傳遞、細(xì)胞周期,還包括同系保守的子通路等信息;KEGG的另一個數(shù)據(jù)庫是LIGAND,包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達(dá)圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費(fèi)獲取。第六十二頁,共93頁。KEGG主頁第六十三頁,共93頁。64第四節(jié)基因組數(shù)據(jù)庫一EntrezGonomes
二Ensembl
三UCSCGenomeBrowser
四其他基因組數(shù)據(jù)庫
第六十四頁,共93頁。一、EntrezGonomes
NCBI提供的,是世界上最大、最完整的多物種的基因組資源。目前已收錄5937個物種的8500多條記錄,按生物體分成古細(xì)菌(Archaea)、細(xì)菌(Bacteria)、真核生物(Eukaryotae)、病毒(Viruses)、類病毒(Viroids)和質(zhì)粒(Plasmids)六大類。提供了各種基因組圖譜,包括完整的染色體、序列圖譜、遺傳圖譜、物理圖譜和連續(xù)子(contigs)圖譜。可以通過Entrez進(jìn)行關(guān)鍵詞搜索,也可以通過MapViewer進(jìn)行瀏覽、檢索及編輯。網(wǎng)址:第六十五頁,共93頁。EntrezGonomes主頁第六十六頁,共93頁。(一)MapViewer
MapViewer是一種從眾多資源中匯集圖譜和序列信息的圖譜瀏覽器。它既允許用戶瀏覽和檢索某有機(jī)體完整基因組信息,又允許用戶在序列水平,通過瀏覽單個染色體圖譜或某染色體上的特定區(qū)域,探查完整基因組信息。對于每一個基因組,MapViewer從4個層次揭示其信息:
生物體主頁(HomePage)
基因組瀏覽(GenomeView)
圖譜瀏覽(MapView)
序列瀏覽(SequenceView)
第六十七頁,共93頁。(二)MapViewer的使用
MapViewer主頁第六十八頁,共93頁。檢索結(jié)果
第六十九頁,共93頁。有關(guān)ARMS2更詳細(xì)的信息
第七十頁,共93頁。二、Ensembl
Ensembl是一個有關(guān)人類基因組及其他物種基因組的綜合數(shù)據(jù)庫。始建于1996年,由EMBL-EBI和Sanger研究所共同開發(fā)。目前包括人類、小鼠、斑馬魚、馬、猩猩等幾十種生物基因組的注釋分析。Ensembl主要根據(jù)已經(jīng)測得的基因組序列,定位所有已知基因,并預(yù)測未知新基因,同時為這些基因提供功能、疾病相關(guān)特征等方面的注釋信息。Ensembl基因組注釋的核心部分是基因預(yù)測,這部分工作的好壞直接影響最終結(jié)果。第七十一頁,共93頁。Ensembl主頁第七十二頁,共93頁。三、UCSCGenomeBrowser
UCSCGenomeBrowser是美國加利福尼亞大學(xué)SantaCruz分校的JimKent等建立的人類基因組圖譜三大門戶網(wǎng)站之一。目前該數(shù)據(jù)庫采用NCBI拼接整合的人類基因組序列作為平臺,提供了很多基因組中的定位數(shù)據(jù),包括染色體區(qū)帶、連續(xù)子和間隙、mRNA和表達(dá)序列標(biāo)簽(EST)、預(yù)測基因、單核苷酸多態(tài)(SNPs)、STS的遺傳和放射雜交圖譜、重復(fù)序列、鼠同源序列、斑馬魚(Tetraodonnigroviridis)同源序列等。大多數(shù)據(jù)與其他數(shù)據(jù)庫鏈接,如RefSeq、LocusLink、PubMed、GeneLynx、GenCards、AceView等。第七十三頁,共93頁。UCSCGenomeBrowser主頁第七十四頁,共93頁。75鼠基因組數(shù)據(jù)庫
人類基因組數(shù)據(jù)庫
線蟲基因組數(shù)據(jù)庫
四、其他基因組數(shù)據(jù)庫(一)GDB(二)MDB
(三)ACEDB
第七十五頁,共93頁。(一)GDBGDB(人類基因組數(shù)據(jù)庫)由美國JohnHopkins大學(xué)于1990年建立,1998年年底移至加拿大多倫多兒童醫(yī)院生物信息中心。GDB采用表格方式給出基因組結(jié)構(gòu)數(shù)據(jù),包括基因單位、PCR位點、細(xì)胞遺傳標(biāo)記、EST、連續(xù)子、重復(fù)片段等;并可顯示基因組圖譜,包括細(xì)胞遺傳圖、連鎖圖、放射雜交圖、連續(xù)子圖、轉(zhuǎn)錄圖等,并給出等位基因等基因多態(tài)性數(shù)據(jù)庫。第七十六頁,共93頁。(二)MDBMDB(鼠基因組數(shù)據(jù)庫,)由Jackson實驗室于1997年創(chuàng)建。收錄遺傳、物理、比較圖譜數(shù)據(jù)、克隆/探針/PCR信息、基因的表型描述、突變和老鼠種株的遺傳記、哺乳類同源性確定、參考文獻(xiàn)等。網(wǎng)址:第七十七頁,共93頁。(三)ACEDB
ACEDB(線蟲基因組數(shù)據(jù)庫,)是一種被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具組,適用于許多動物和植物的基因組計劃。ACEDB以豐富的圖形界面提供信息,包括有具體顯示的基因圖譜、物理圖譜、新陳代謝的途徑和序列等。數(shù)據(jù)采用面向?qū)ο蟮男问竭M(jìn)行組織,如相關(guān)的文獻(xiàn)、基因、描述和克隆的DNA等??捎糜趯S玫臄?shù)據(jù)分析以及許多永久性數(shù)據(jù)的采集。第七十八頁,共93頁。79第五節(jié)疾病基因數(shù)據(jù)庫
一OMIM
二GeneCards
三突變數(shù)據(jù)庫
四單核苷酸多態(tài)性數(shù)據(jù)庫
第七十九頁,共93頁。80一、OMIMOMIM概述
OMIM數(shù)據(jù)的存貯
OMIM檢索
OMIM在醫(yī)學(xué)遺傳學(xué)中的應(yīng)用價值
(二)(一)(三)(四)第八十頁,共93頁。(一)OMIM概述
“在線人類孟德爾遺傳”(OnlineMendelianInheritanceinMan,OMIM),是在美國JohnHopkins大學(xué)醫(yī)學(xué)院VictorA.McKusick教授編撰的《人類孟德爾遺傳》一書的基礎(chǔ)上發(fā)展起來的,內(nèi)容包括所有已知的遺傳病、遺傳決定的性狀及其基因,除了簡略描述各種疾病的臨床特征、診斷、鑒別診斷、治療與預(yù)防外等文本資料,還提供已知有關(guān)疾病相關(guān)基因的連鎖關(guān)系、染色體定位、組成結(jié)構(gòu)和功能、動物模型,并附有其相關(guān)的圖片、研究歷史和參考文獻(xiàn)。
第八十一頁,共93頁。82OMIM具有以下主要特點:及時性
準(zhǔn)確性
全面性
實用性
它不僅是一個人類基因和遺傳疾病的數(shù)據(jù)庫,更重要的是一個不斷更新的知識庫,內(nèi)容每天更新。一旦遇到涉及某一新遺傳性疾病的論文,要經(jīng)過幾位高級臨床醫(yī)師的嚴(yán)格審查、討論,方可載入
從200多種雜志發(fā)表的論文和專著中積累資料,不僅包括單基因病,而且包括染色體病、多基因病、線粒體病資料。
使科研人員從浩瀚的文獻(xiàn)中解脫出來,快速掌握某種疾病的遺傳學(xué)知識。
第八十二頁,共93頁。(二)OMIM數(shù)據(jù)的存貯
OMIM每一條記錄都有一個唯一的編號,即OMIM存貯號,對應(yīng)一個基因或者是某種疾病。OMIM存貯號采用6位數(shù)字系統(tǒng),如下表。MIM存貯號遺傳特征1(100000-)
2(200000-)常染色體(或表型為常染色體遺傳)建立于1994.5.15以前3(300000-)X一連鎖(或表型呈X一連鎖)4(400000-)Y一連鎖(或表型呈Y一連鎖)5(500000-)線粒體遺傳(或表型為母系遺傳)6(600000-)常染色體(或表型為常染色體遺傳)建立于1994.5.15以后第八十三頁,共93頁。OMIM存貯號前通常帶有一種符號。*號表示序列已知的基因;#號表示分子基礎(chǔ)已知的表型;+號表示序列和表型已知的基因;%號表示孟德爾表型或表型位點已證實但是分子基礎(chǔ)未知;^表明該記錄已經(jīng)刪除或者賦予了新的OMIM存貯號。如果OMIM存貯號前不帶符號,則表明該記錄是一種尚未得以證實的孟德爾表型。第八十四頁,共93頁。(三)OMIM檢索
1.“0MIM”的Entrez檢索
檢索方法與GenBank的Entrez檢索相同(詳見本章第二節(jié)),可以用記錄內(nèi)檢索字段中出現(xiàn)的任何詞(包括基因符號、疾病名稱、癥狀、染色體定位、著者等)。詞與詞間可以用字段名稱加以限定,也可用邏輯運(yùn)算符相連進(jìn)行復(fù)合檢索。2.“SearchOMIM”檢索是在Entrez檢索的基礎(chǔ)上,根據(jù)OMIM記錄的字段特點,給出限制性檢索字段的復(fù)選,以及染色體位置選擇和數(shù)據(jù)時間段的限定。
第八十五頁,共93頁。3.“SearchGeneMap”(基因圖譜檢索)是針對OMIM所描述的表達(dá)基因及疾病基因的細(xì)胞遺傳學(xué)定位圖(染色體定位)的檢索??梢暂斎牖蚍枴⒓膊?、染色體定位來檢索(性染色體x、Y須大寫),如“CYP1”、“5”、“1pter”、“Xq”或“alzheimer”。4.“SearchMorbidMap”(疾病圖譜檢索)與基因圖譜檢索相同。第八十六頁,共93頁。87(四)OMIM在醫(yī)學(xué)遺傳學(xué)中的應(yīng)用價值1234利用OMIMstatistics了解最新的有關(guān)遺傳病、性狀及基因的信息。
利用OMIM數(shù)據(jù)庫獲得遺傳病診斷、咨詢及治療的資料。
利用OMIM數(shù)據(jù)庫獲取遺傳病最新、最詳細(xì)的研究資料。
利用OMIM的Genemap和MorbidMap獲取疾病基因定位的詳細(xì)資料。
第八十七頁,共93頁。二、GeneCardsGeneCards是一個收集并展示人類基因及其產(chǎn)物和相關(guān)疾病等綜合信息的知識平臺,由以色列的Weizmann研究所基因組研究中心和生物信息學(xué)中心共同開發(fā)。內(nèi)容包括基因命名及描述(Aliases&Descriptions)、基因組定位(GenomicLocation)、蛋白質(zhì)特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝店店長聘用合同樣本
- 2025商務(wù)英語寫作合同條款常用句
- 以下選項屬于建設(shè)工程施工合同的特點的為
- 電商平臺的運(yùn)營經(jīng)理聘用合同
- 工地施工塔吊租賃合同
- 攝影攝像設(shè)備租賃合同樣本
- 體育場館草坪鋪設(shè)合同
- 環(huán)保設(shè)備租賃協(xié)議樣本
- 教學(xué)秘書崗位合同樣本
- 酒店客房洗衣服務(wù)合同管理方案
- 小學(xué)生良好習(xí)慣的養(yǎng)成(課堂PPT)
- 單片機(jī)C語言音樂播放程序
- 空冷島詳解ppt課件
- IATF16949作業(yè)準(zhǔn)備驗證及停工后驗證規(guī)定
- 石墨坩堝生產(chǎn)制造項目規(guī)劃設(shè)計方案(75頁)
- 消防聯(lián)動調(diào)試記錄表通用
- EN10204-2004中文版
- (重要)高中數(shù)學(xué)數(shù)列十種求通項和七種求和方法,練習(xí)及答案
- 教師師德考核記錄表
- 江蘇省對口單招計算機(jī)原理教案課件
- 300MW機(jī)組熱力系統(tǒng)計算與經(jīng)濟(jì)性分析
評論
0/150
提交評論