利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息

上傳人：s*** IP屬地：浙江上傳時間：2023-05-07 格式：PPTX 頁數(shù)：93 大?。?.51MB 積分：25 舉報 版權(quán)申訴

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息_第2頁

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息_第3頁

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息_第4頁

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息_第5頁

已閱讀5頁，還剩88頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息第一頁，共93頁。2目錄第一節(jié)生物信息學(xué)數(shù)據(jù)庫概述

1第二節(jié)核酸序列數(shù)據(jù)庫

2第三節(jié)蛋白質(zhì)數(shù)據(jù)庫

3第四節(jié)基因組數(shù)據(jù)庫4第五節(jié)疾病基因數(shù)據(jù)庫

5第二頁，共93頁。3第一節(jié)生物信息學(xué)數(shù)據(jù)庫概述一生物信息學(xué)數(shù)據(jù)庫的類型二生物信息數(shù)據(jù)收集與存貯三生物信息學(xué)數(shù)據(jù)庫的查找第三頁，共93頁。4一、生物信息學(xué)數(shù)據(jù)庫的類型文獻(xiàn)數(shù)據(jù)庫

突變數(shù)據(jù)庫

圖譜數(shù)據(jù)庫

結(jié)構(gòu)數(shù)據(jù)庫

序列數(shù)據(jù)庫

類型按收錄信息內(nèi)容分

第四頁，共93頁。5二、生物信息數(shù)據(jù)收集與存貯（一）生物信息數(shù)據(jù)的收集生物信息數(shù)據(jù)收集與存貯

（二）生物信息數(shù)據(jù)的存貯第五頁，共93頁。6（一）生物信息數(shù)據(jù)的收集數(shù)據(jù)庫與數(shù)據(jù)庫合作數(shù)據(jù)庫與測序中心合作數(shù)據(jù)庫與期刊合作建庫的初期4．?dāng)?shù)據(jù)交換

3．成批發(fā)送

2．直接發(fā)送

1．人工收集

第六頁，共93頁。7（二）生物信息數(shù)據(jù)的存貯1．記錄格式主要有：EMBL格式、GenBank格式存貯格式2．序列格式又稱Pearson格式第七頁，共93頁。三、生物信息學(xué)數(shù)據(jù)庫的查找（一）通過搜索引擎查找（二）通過專門的生物信息學(xué)數(shù)據(jù)庫目錄查詢從）。（三）通過生物信息學(xué)中心資源導(dǎo)航查詢一些著名的生物信息學(xué)中心不僅自己建立和維護(hù)大量的生物信息數(shù)據(jù)庫，而且一般在網(wǎng)上提供資源導(dǎo)航。

第八頁，共93頁。9第二節(jié)核酸序列數(shù)據(jù)庫一GenBank二EMBL-Bank三DDBJ第九頁，共93頁。10（一）GenBank概述一、GenBank（二）GenBank檢索第十頁，共93頁。（一）GenBank概述是由美國國家生物技術(shù)信息中心(NCBI)管理和維護(hù)大型、綜合性的公共核酸序列數(shù)據(jù)庫，包括所有已知的核酸序列和蛋白質(zhì)序列，以及與它們相關(guān)的文獻(xiàn)和生物學(xué)注釋。第十一頁，共93頁。12國際核酸序列數(shù)據(jù)庫協(xié)作體INSDC

DDBJ

EMBL

GenBank

第十二頁，共93頁。（一）GenBank概述GenBank的數(shù)據(jù)來源于約260000個物種，每月新增1700多個物種。大約12%的序列來自于人類，其中8%是人類的EST序列。每條GenBank數(shù)據(jù)記錄包含對序列的簡要描述、它的科學(xué)命名、物種分類名稱、參考文獻(xiàn)、序列特征表以及序列本身。序列特征表里包含對序列生物學(xué)特征注釋，如編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點或修飾位點等。所有數(shù)據(jù)記錄被劃分成若干個子庫，如細(xì)菌類（BCT）、病毒類（VRL）、靈長類（PRI）、嚙齒類（ROD）以及EST數(shù)據(jù)、基因組序列數(shù)據(jù)（GSS）、高通量基因組序列數(shù)據(jù)（HTG）等19類，其中EST數(shù)據(jù)等又被分成若干子庫。第十三頁，共93頁。（二）GenBank檢索Entrez是NCBI生物信息學(xué)數(shù)據(jù)庫集成檢索系統(tǒng)，可以檢索以下生物信息學(xué)數(shù)據(jù)庫。第十四頁，共93頁。例如，查找H1N1流感病毒（H1N1FluVirus）的核酸序列。其檢索步驟是：第十五頁，共93頁。（1）進(jìn)入Entrez主頁（/gquery/），在提問框輸入H1N1FluVirus。第十六頁，共93頁。

（2）點擊“GO”，得到各個數(shù)據(jù)庫的檢索結(jié)果。第十七頁，共93頁。（3）點擊“Nucleotide:Coresubsetofnucleotidesequencerecords”，得到GenBank核酸序列數(shù)據(jù)庫中的4801條記錄簡要格式（Summary）。第十八頁，共93頁。(4）點擊記錄的標(biāo)題，即可獲取該記錄的詳細(xì)信息。第十九頁，共93頁。20（一）EMBL-Bank概述二、EMBL-Bank（二）EMBL-Bank檢索第二十頁，共93頁。（一）EMBL-Bank概述EMBL-Bank(http://www.ebi.ac.uk/embl/)是國際三大核酸序列數(shù)據(jù)庫之一，創(chuàng)建于1982年?，F(xiàn)由歐洲生物信息學(xué)研究所(EBI)管理和維護(hù)，主要收集歐洲產(chǎn)生的核酸序列數(shù)據(jù)。到2009年8月，EMBL-Bank（101版）的核酸序列達(dá)到163656234條，堿基數(shù)達(dá)到283748816763個。對于每條核酸序列，相關(guān)信息包括序列名稱、序列、染色體定位、關(guān)鍵字、來源生物體、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點等。第二十一頁，共93頁。（二）EMBL-Bank檢索獲取EMBL-Bank的核酸序列數(shù)據(jù)主要是通過SRS（SequenceRetrievalSystem）序列檢索系統(tǒng)由LionBioscience公司繼續(xù)開發(fā)，而成為一個商業(yè)軟件，科研單位只要與它簽訂協(xié)議即可獲得該軟件的免費(fèi)使用權(quán)。SRS是一個開放式的，可以根據(jù)需要安裝不同的數(shù)據(jù)庫。第二十二頁，共93頁。SRS查詢方法通過EBI的SRS服務(wù)器（http://srs.ebi.ac.uk）進(jìn)入QuickSearch界面。點擊“LibraryPage”，即數(shù)據(jù)庫選擇頁。選擇好要檢索的數(shù)據(jù)庫后，SRS提供三種查詢方式。（1）QuickSearch(快速查詢)（2）StandardQuery(標(biāo)準(zhǔn)查詢)（3）ExtendedQuery(擴(kuò)展查詢)第二十三頁，共93頁。（1）QuickSearch(快速查詢)第二十四頁，共93頁。（2）StandardQuery(標(biāo)準(zhǔn)查詢)第二十五頁，共93頁。（3）ExtendedQuery(擴(kuò)展查詢)第二十六頁，共93頁。標(biāo)準(zhǔn)查詢后的結(jié)果第二十七頁，共93頁。CS116935的詳細(xì)信息第二十八頁，共93頁。29（一）DDBJ概述三、DDBJ（二）DDBJ檢索第二十九頁，共93頁。（一）DDBJ概述DDBJ(DNADataBankofJapan，日本核酸數(shù)據(jù)庫，http://www.ddbj.nig.ac.jp/index-e.html)創(chuàng)建于1986，現(xiàn)由日本國家遺傳學(xué)研究所的生物信息中心（CIB/DDBJ）管理和維護(hù)。截止至2009年9月，DDBJ（79版）共收錄108,593,519條序列,106,684,379,504個堿基。DDBJ主頁除了提供SRS、ARSA、TXSearch、BLAST等數(shù)據(jù)檢索功能外，還提供SAKURA、MSS、Sequin數(shù)據(jù)提交工具和CLUSTALW、FASTA、BLAST等數(shù)據(jù)分析工具。第三十頁，共93頁。（二）DDBJ檢索通過getentry、ARSA、SRS、TXSearch、BLAST、PSI-BLAST、FASTA、SSEARCH等檢索工具可以獲取DDBJ數(shù)據(jù)。前四種用于檢索DDBJ數(shù)據(jù)庫中的原始數(shù)據(jù)，其中g(shù)etentry屬于存取號檢索，SRS和ARSA屬于關(guān)鍵詞檢索，TXSearch屬于分類檢索；后4種對用戶提供的序列或片斷作同源性分析。第三十一頁，共93頁。32第三節(jié)蛋白質(zhì)數(shù)據(jù)庫

一蛋白質(zhì)序列數(shù)據(jù)庫

二蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫

三蛋白質(zhì)功能數(shù)據(jù)庫第三十二頁，共93頁。33一、蛋白質(zhì)序列數(shù)據(jù)庫

（三）TrEMBL

（四）GenPept

（二）SWISS-PROT

（一）PIR

（五）UniProt

（六）OWL

第三十三頁，共93頁。（一）PIR

創(chuàng)建于1984年。1988年，美國NBRF、日本國際蛋白質(zhì)信息數(shù)據(jù)庫（JapanInternationalProteinInformationDatabase,JIPID）與德國的慕尼黑蛋白質(zhì)序列信息中心（MunichInformationCenterforProteinSequences,MIPS）合作成立國際蛋白質(zhì)序列信息中心（PIR-International）。第75.03版的PIR數(shù)據(jù)庫按照數(shù)據(jù)的性質(zhì)和注釋詳略分成四個子庫：PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經(jīng)驗證，注釋最為詳盡；PIR2中包含尚未確定的冗余序列；PIR3中的序列尚未加檢驗，也未加注釋；PIR4包括其他渠道獲得的序列，既未驗證，也無注釋。網(wǎng)址：第三十四頁，共93頁。PIR主頁第三十五頁，共93頁。（二）SWISS-PROT創(chuàng)建于1986年由瑞士生物信息學(xué)研究所（SwissInstituteofBioinformatics，SIB）和歐洲生物信息研究所（EBI）共同維護(hù)和管理。1994年，SIB創(chuàng)建蛋白質(zhì)專家分析系統(tǒng)(ExpertProteinAnalysisSystem，ExPASy)(http://www.expasy.Ch)，除了開發(fā)、維護(hù)和管理SWISS-PROT數(shù)據(jù)庫外，還提供蛋白質(zhì)序列、結(jié)構(gòu)、功能和蛋白質(zhì)2D圖譜等蛋白質(zhì)信息資源到2009年10月，SWISS-PROT（57.11版）收錄了512994條序列，包含180531504個氨基酸。網(wǎng)址：/sprot/第三十六頁，共93頁。（三）TrEMBL

創(chuàng)建于1996年，意即“TranslationofEMBL”，是計算機(jī)翻譯并注釋的蛋白質(zhì)序列數(shù)據(jù)庫，收錄的序列是從EMBL中的cDNA序列翻譯得到的。記錄采用SWISS-PROT數(shù)據(jù)庫格式。TrEMBL分為兩個部分：SP-TrEMBL和REM-TrEMBL。SP-TrEMBL的條目已經(jīng)專家分類并且給予SWISS-PROT存取號，但尚未通過人工審查，最終將收入SWISS-PROT。REM-TrEMBL包含其他剩余序列，主要是免疫球蛋白、T細(xì)胞受體、少于8個氨基酸堿基的多肽、人工合成序列、專利序列等。第三十七頁，共93頁。（四）GenPept

由GenBank中的cDNA序列翻譯得到的蛋白質(zhì)序列數(shù)據(jù)庫。網(wǎng)址：/genbank/genpept/）第三十八頁，共93頁。（五）UniProt

將PIR、SWISS-PROT和TrEMBL3個蛋白質(zhì)數(shù)據(jù)庫統(tǒng)一起來組建而成，包含3個部分：（1）UniProtKnowledgebase（UniProtKB），這是蛋白質(zhì)序列、功能、分類、交叉引用等蛋白質(zhì)知識庫，記錄經(jīng)過人工篩選和注釋；（2）UniRef（UniProtNon-redundantReference）數(shù)據(jù)庫，將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中，以便提高搜索速度；目前，根據(jù)序列相似程度形成3個子庫，即UniRef100、UniRef90和UniRef50；（3）UniParc（UniProtArchive），是UniProt存檔庫，收錄所有蛋白質(zhì)序列。用戶可以通過文本查詢數(shù)據(jù)庫，可以利用BLAST程序搜索數(shù)據(jù)庫，也可以直接通過FTP下載數(shù)據(jù)。網(wǎng)址：第三十九頁，共93頁。UniProt主頁第四十頁，共93頁。（六）OWL

1994年由英國里茲（Leeds）大學(xué)和Warrington的Daresbury國家實驗室合作創(chuàng)建并維護(hù)的一個復(fù)合型數(shù)據(jù)庫。數(shù)據(jù)來源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等數(shù)據(jù)庫，去重后整合而成的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。第四十一頁，共93頁。OWL主頁第四十二頁，共93頁。小結(jié)：①SWISSPROT的序列經(jīng)過嚴(yán)格審核，注釋完善，但數(shù)量仍較少。②PIR數(shù)據(jù)量較大，但包含未經(jīng)驗證的序列，注釋也不完善。③TrEMBL和GenPept的數(shù)據(jù)量最大，且隨核酸序列數(shù)據(jù)庫的更新而更新，但是由于TrEMBL和GenPept均是由核酸序列經(jīng)過計算機(jī)程序翻譯生成的，這兩個數(shù)據(jù)庫中的序列錯誤率較大，并存在較多的冗余序列。④OWL中的序列雖具有較好的代表性，但采用某些標(biāo)準(zhǔn)取舍序列，導(dǎo)致某些數(shù)據(jù)不完整。⑤UniProt中的序列具有較好的代表性，數(shù)據(jù)較完整。

第四十三頁，共93頁。44二、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫

（三）DSSP

（四）HSSP

（二）MMDB（一）PDB

（五）SCOP

（六）CATH

第四十四頁，共93頁。（一）PDB創(chuàng)建于1971年，是國際上最著名、最完整的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫。最先由美國Brookhaven國家實驗室負(fù)責(zé)維護(hù)和管理，從1998年開始，由結(jié)構(gòu)生物信息學(xué)合作研究協(xié)會(RCSB)負(fù)責(zé)管理。到2009年12月統(tǒng)計，PDB數(shù)據(jù)庫已經(jīng)收錄了利用X線衍射、NMR、電子顯微鏡實驗數(shù)據(jù)或理論計算得出的蛋白質(zhì)、核酸、蛋白質(zhì)/核酸復(fù)合物等結(jié)構(gòu)數(shù)據(jù)61808條，而且數(shù)據(jù)增長速度相當(dāng)快。

第四十五頁，共93頁。PDB數(shù)據(jù)庫以文本文件格式存放數(shù)據(jù)，每條記錄即是一個獨立的文件，包括物種來源、化合物名稱、原子坐標(biāo)、結(jié)構(gòu)提交者以及有關(guān)文獻(xiàn)等基本注釋信息。此外，還包括分辨率、結(jié)構(gòu)因子，溫度系數(shù)、主鏈數(shù)目、配體分子式、金屬離子、二級結(jié)構(gòu)信息、二硫鍵位置等和結(jié)構(gòu)有關(guān)的數(shù)據(jù)。第四十六頁，共93頁。PDB主頁第四十七頁，共93頁。（二）MMDB

MMDB是NCBI的分子模型數(shù)據(jù)庫，收錄了由晶體衍射和核磁共振實驗研究得到的蛋白質(zhì)三維結(jié)構(gòu)。MMDB采用ASN.1記錄格式，而不是采用PDB記錄格式。MMDB結(jié)構(gòu)與原始的PDB結(jié)構(gòu)相比，增加了許多附加信息，如經(jīng)程序驗證的顯性化學(xué)圖像，一致的二級結(jié)構(gòu)衍生定義，與MEDLINE相匹配的引用等。MMDB可利用Entrez進(jìn)行文本查詢。MMDB檢索項包含PDB、MMDB的存取號，源自PDB注釋記錄的自由文本，作者名及其它書目檢索項。VAST（矢量分析檢索工具）用于檢索三維結(jié)構(gòu)的相似性。它舍棄了序列信息，而單純依靠由二級結(jié)構(gòu)衍生的三維矢量指標(biāo)進(jìn)行檢索。Cn3D是一種新的三維結(jié)構(gòu)瀏覽器，用于瀏覽MMDB數(shù)據(jù)記錄。第四十八頁，共93頁。(三)DSSPDSSP是一個蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)庫。目前，收錄了59474條記錄。DSSP對蛋白質(zhì)二級結(jié)構(gòu)劃分得比較詳細(xì)，共分7種二級結(jié)構(gòu)，其編碼含義如下：H代表螺旋，E代表折疊，G和I分別代表3-螺旋和螺旋，B代表孤立的橋，T代表氫鍵轉(zhuǎn)折，S代表彎曲。圖8-8是一個具體的蛋白質(zhì)二級結(jié)構(gòu)實例，其上面一行代表蛋白質(zhì)序列，下面一行是對于各個氨基酸殘基所處二級結(jié)構(gòu)的注釋。網(wǎng)址：http://swift.cmbi.ru.nl/gv/dssp/）第四十九頁，共93頁。（四）HSSP

HSSP是一個基于蛋白質(zhì)同源的蛋白質(zhì)結(jié)構(gòu)。目前，收錄了58774條記錄。對于一個蛋白質(zhì)，HSSP組合二級結(jié)構(gòu)、三維結(jié)構(gòu)數(shù)據(jù)和序列數(shù)據(jù)，其數(shù)據(jù)主要來源于PDB及其它蛋白質(zhì)序列數(shù)據(jù)庫，如SWISS-PROT。HSSP不僅是蛋白質(zhì)家族序列比對數(shù)據(jù)庫，同時該數(shù)據(jù)庫隱含了二級結(jié)構(gòu)和空間結(jié)構(gòu)信息，覆蓋了SWISS-PROT中27%的蛋白質(zhì)。HSSP有助于分析蛋白質(zhì)的保守區(qū)域，確定有意義的序列模式，研究蛋白質(zhì)的進(jìn)化關(guān)系，研究蛋白的折疊，也有助于蛋白質(zhì)的分子設(shè)計。第五十頁，共93頁。（五）SCOP

SCOP是英國醫(yī)學(xué)研究委員會分子生物學(xué)實驗室和蛋白質(zhì)工程中心開發(fā)的，基于Web的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫分類、檢索和分析系統(tǒng)。SCOP按結(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類，主要劃分為全型、全型、以平行折疊為主的/型、以反平行折疊為主的+型等11類。然后，再將屬于同一結(jié)構(gòu)類型的蛋白質(zhì)按照折疊(Fold)、超家族(Superfamily)、家族(Families)、蛋白質(zhì)結(jié)構(gòu)域（ProteinDomains）、單個PDB蛋白質(zhì)結(jié)構(gòu)層次組織起來。

第五十一頁，共93頁。SCOP主頁第五十二頁，共93頁。（六）CATH

CATH是一個關(guān)于已知蛋白質(zhì)結(jié)構(gòu)域的分級分類數(shù)據(jù)庫，由英國倫敦大學(xué)開發(fā)和維護(hù)。CATH主要有四個層次：類(Class，C)、構(gòu)架(Architecture，A)、拓?fù)?Topology，T)和同源超家族(Homologysuperfamily,H)。CATH的類與SCOP數(shù)據(jù)庫類似，主要根據(jù)二級結(jié)構(gòu)劃分為、、+、/等結(jié)構(gòu)類型。構(gòu)架層次描述結(jié)構(gòu)域的形狀，主要由其二級結(jié)構(gòu)的取向決定。拓?fù)鋵用枋龅氖钦郫B家族的水平。同源超家族層次則將對此具有同源性的蛋白質(zhì)聚類在一起。

第五十三頁，共93頁。CATH主頁第五十四頁，共93頁。55三、蛋白質(zhì)功能數(shù)據(jù)庫

（三）STRING（二）DIP

（一）BOND

（四）KEGG

第五十五頁，共93頁。（一）BOND

BOND是生物分子網(wǎng)絡(luò)數(shù)據(jù)庫，創(chuàng)建于2005年，由UnleashedInformatics公司管理和維護(hù)。主要收錄生物分子及其蛋白質(zhì)序列、結(jié)構(gòu)和相互作用等數(shù)據(jù)，其中生物分子包括蛋白質(zhì)、DNA、RNA、配基、復(fù)合體、基因、光子（photon）等。BOND集成了多個重要數(shù)據(jù)庫，如BIND（生物分子相互作用網(wǎng)絡(luò)數(shù)據(jù)庫)、SMID（小分子相互作用數(shù)據(jù)庫）、Genbank、GO（基因本體）、OMIM、conserveddomains（保守功能域）、交叉參考數(shù)據(jù)庫、完整基因組等。第五十六頁，共93頁。BOND主頁第五十七頁，共93頁。（二）DIP

DIP專門存放實驗確定的蛋白質(zhì)之間相互作用的數(shù)據(jù)，既包括經(jīng)典實驗手段確定的蛋白質(zhì)相互作用，也包括高通量實驗手段確定的蛋白質(zhì)相互作用數(shù)據(jù)。數(shù)據(jù)要經(jīng)過人工審核和采用計算方法自動驗證后加入數(shù)據(jù)庫。數(shù)據(jù)的自動驗證有3種指標(biāo)，即EPRIndex、PVMScore和DPVScore。在目前缺乏蛋白質(zhì)相互作用數(shù)據(jù)金標(biāo)準(zhǔn)的現(xiàn)實情況下，DIP為采用計算的方法自動驗證高通量技術(shù)產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù)做了開拓性的工作。DIP還利用XML技術(shù)專門開發(fā)了一種用來存放和交換蛋白質(zhì)相互作用數(shù)據(jù)的xin格式。第五十八頁，共93頁。DIP主頁第五十九頁，共93頁。（三）STRING

STRING不僅存貯實驗確定的蛋白質(zhì)相互作用數(shù)據(jù)，而且還存貯預(yù)測的蛋白質(zhì)相互作用數(shù)據(jù)，并對各種預(yù)測方法的準(zhǔn)確性給出了相應(yīng)的權(quán)重，對于采用經(jīng)典實驗方法研究蛋白質(zhì)的功能、生物學(xué)意義具有非常重要的意義。數(shù)據(jù)來源有4種，一是高通量實驗技術(shù)產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù)，二是由保守的共表達(dá)數(shù)據(jù)推導(dǎo)出的蛋白質(zhì)功能聯(lián)系，三是文獻(xiàn)搜索得到的蛋白質(zhì)相互作用數(shù)據(jù)，四是采用預(yù)測蛋白質(zhì)相互作用的方法，根據(jù)基因組中基因的上下文關(guān)系（genomiccontext）預(yù)測得到的蛋白質(zhì)相互作用數(shù)據(jù)。目前STRING數(shù)據(jù)庫已經(jīng)包括179個物種中的736429個蛋白，覆蓋率相當(dāng)高。第六十頁，共93頁。STRING主頁第六十一頁，共93頁。（四）KEGG

京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能，聯(lián)系基因組信息和功能信息的知識庫?；蚪M信息存貯在GENES數(shù)據(jù)庫里，包括完整和部分測序的基因組序列；功能信息存貯在PATHWAY數(shù)據(jù)庫里，包括圖解的細(xì)胞生化過程如代謝、膜轉(zhuǎn)運(yùn)、信號傳遞、細(xì)胞周期，還包括同系保守的子通路等信息；KEGG的另一個數(shù)據(jù)庫是LIGAND，包含關(guān)于化學(xué)物質(zhì)、酶分子、酶反應(yīng)等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜，比較基因組圖譜和操作表達(dá)圖譜，以及其它序列比較、圖形比較和通路計算的工具，可以免費(fèi)獲取。第六十二頁，共93頁。KEGG主頁第六十三頁，共93頁。64第四節(jié)基因組數(shù)據(jù)庫一EntrezGonomes

二Ensembl

三UCSCGenomeBrowser

四其他基因組數(shù)據(jù)庫

第六十四頁，共93頁。一、EntrezGonomes

NCBI提供的，是世界上最大、最完整的多物種的基因組資源。目前已收錄5937個物種的8500多條記錄，按生物體分成古細(xì)菌（Archaea）、細(xì)菌（Bacteria）、真核生物（Eukaryotae）、病毒（Viruses）、類病毒（Viroids）和質(zhì)粒（Plasmids）六大類。提供了各種基因組圖譜，包括完整的染色體、序列圖譜、遺傳圖譜、物理圖譜和連續(xù)子（contigs）圖譜。可以通過Entrez進(jìn)行關(guān)鍵詞搜索，也可以通過MapViewer進(jìn)行瀏覽、檢索及編輯。網(wǎng)址：第六十五頁，共93頁。EntrezGonomes主頁第六十六頁，共93頁。（一）MapViewer

MapViewer是一種從眾多資源中匯集圖譜和序列信息的圖譜瀏覽器。它既允許用戶瀏覽和檢索某有機(jī)體完整基因組信息，又允許用戶在序列水平，通過瀏覽單個染色體圖譜或某染色體上的特定區(qū)域，探查完整基因組信息。對于每一個基因組，MapViewer從4個層次揭示其信息：

生物體主頁（HomePage）

基因組瀏覽（GenomeView）

圖譜瀏覽（MapView）

序列瀏覽（SequenceView）

第六十七頁，共93頁。（二）MapViewer的使用

MapViewer主頁第六十八頁，共93頁。檢索結(jié)果

第六十九頁，共93頁。有關(guān)ARMS2更詳細(xì)的信息

第七十頁，共93頁。二、Ensembl

Ensembl是一個有關(guān)人類基因組及其他物種基因組的綜合數(shù)據(jù)庫。始建于1996年，由EMBL-EBI和Sanger研究所共同開發(fā)。目前包括人類、小鼠、斑馬魚、馬、猩猩等幾十種生物基因組的注釋分析。Ensembl主要根據(jù)已經(jīng)測得的基因組序列，定位所有已知基因，并預(yù)測未知新基因，同時為這些基因提供功能、疾病相關(guān)特征等方面的注釋信息。Ensembl基因組注釋的核心部分是基因預(yù)測，這部分工作的好壞直接影響最終結(jié)果。第七十一頁，共93頁。Ensembl主頁第七十二頁，共93頁。三、UCSCGenomeBrowser

UCSCGenomeBrowser是美國加利福尼亞大學(xué)SantaCruz分校的JimKent等建立的人類基因組圖譜三大門戶網(wǎng)站之一。目前該數(shù)據(jù)庫采用NCBI拼接整合的人類基因組序列作為平臺，提供了很多基因組中的定位數(shù)據(jù)，包括染色體區(qū)帶、連續(xù)子和間隙、mRNA和表達(dá)序列標(biāo)簽(EST)、預(yù)測基因、單核苷酸多態(tài)（SNPs）、STS的遺傳和放射雜交圖譜、重復(fù)序列、鼠同源序列、斑馬魚（Tetraodonnigroviridis）同源序列等。大多數(shù)據(jù)與其他數(shù)據(jù)庫鏈接，如RefSeq、LocusLink、PubMed、GeneLynx、GenCards、AceView等。第七十三頁，共93頁。UCSCGenomeBrowser主頁第七十四頁，共93頁。75鼠基因組數(shù)據(jù)庫

人類基因組數(shù)據(jù)庫

線蟲基因組數(shù)據(jù)庫

四、其他基因組數(shù)據(jù)庫（一）GDB（二）MDB

（三）ACEDB

第七十五頁，共93頁。（一）GDBGDB（人類基因組數(shù)據(jù)庫）由美國JohnHopkins大學(xué)于1990年建立，1998年年底移至加拿大多倫多兒童醫(yī)院生物信息中心。GDB采用表格方式給出基因組結(jié)構(gòu)數(shù)據(jù)，包括基因單位、PCR位點、細(xì)胞遺傳標(biāo)記、EST、連續(xù)子、重復(fù)片段等；并可顯示基因組圖譜，包括細(xì)胞遺傳圖、連鎖圖、放射雜交圖、連續(xù)子圖、轉(zhuǎn)錄圖等，并給出等位基因等基因多態(tài)性數(shù)據(jù)庫。第七十六頁，共93頁。（二）MDBMDB（鼠基因組數(shù)據(jù)庫，）由Jackson實驗室于1997年創(chuàng)建。收錄遺傳、物理、比較圖譜數(shù)據(jù)、克隆/探針/PCR信息、基因的表型描述、突變和老鼠種株的遺傳記、哺乳類同源性確定、參考文獻(xiàn)等。網(wǎng)址：第七十七頁，共93頁。（三）ACEDB

ACEDB（線蟲基因組數(shù)據(jù)庫，）是一種被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具組，適用于許多動物和植物的基因組計劃。ACEDB以豐富的圖形界面提供信息，包括有具體顯示的基因圖譜、物理圖譜、新陳代謝的途徑和序列等。數(shù)據(jù)采用面向?qū)ο蟮男问竭M(jìn)行組織，如相關(guān)的文獻(xiàn)、基因、描述和克隆的DNA等?？捎糜趯Ｓ玫臄?shù)據(jù)分析以及許多永久性數(shù)據(jù)的采集。第七十八頁，共93頁。79第五節(jié)疾病基因數(shù)據(jù)庫

一OMIM

二GeneCards

三突變數(shù)據(jù)庫

四單核苷酸多態(tài)性數(shù)據(jù)庫

第七十九頁，共93頁。80一、OMIMOMIM概述

OMIM數(shù)據(jù)的存貯

OMIM檢索

OMIM在醫(yī)學(xué)遺傳學(xué)中的應(yīng)用價值

（二）（一）（三）（四）第八十頁，共93頁。（一）OMIM概述

“在線人類孟德爾遺傳”（OnlineMendelianInheritanceinMan，OMIM），是在美國JohnHopkins大學(xué)醫(yī)學(xué)院VictorA．McKusick教授編撰的《人類孟德爾遺傳》一書的基礎(chǔ)上發(fā)展起來的，內(nèi)容包括所有已知的遺傳病、遺傳決定的性狀及其基因，除了簡略描述各種疾病的臨床特征、診斷、鑒別診斷、治療與預(yù)防外等文本資料，還提供已知有關(guān)疾病相關(guān)基因的連鎖關(guān)系、染色體定位、組成結(jié)構(gòu)和功能、動物模型，并附有其相關(guān)的圖片、研究歷史和參考文獻(xiàn)。

第八十一頁，共93頁。82OMIM具有以下主要特點：及時性

準(zhǔn)確性

全面性

實用性

它不僅是一個人類基因和遺傳疾病的數(shù)據(jù)庫，更重要的是一個不斷更新的知識庫，內(nèi)容每天更新。一旦遇到涉及某一新遺傳性疾病的論文，要經(jīng)過幾位高級臨床醫(yī)師的嚴(yán)格審查、討論，方可載入

從200多種雜志發(fā)表的論文和專著中積累資料，不僅包括單基因病，而且包括染色體病、多基因病、線粒體病資料。

使科研人員從浩瀚的文獻(xiàn)中解脫出來，快速掌握某種疾病的遺傳學(xué)知識。

第八十二頁，共93頁。（二）OMIM數(shù)據(jù)的存貯

OMIM每一條記錄都有一個唯一的編號，即OMIM存貯號，對應(yīng)一個基因或者是某種疾病。OMIM存貯號采用6位數(shù)字系統(tǒng)，如下表。MIM存貯號遺傳特征1(100000-)

2(200000-)常染色體(或表型為常染色體遺傳)建立于1994．5．15以前3(300000-)X一連鎖(或表型呈X一連鎖)4(400000-)Y一連鎖(或表型呈Y一連鎖)5(500000-)線粒體遺傳(或表型為母系遺傳)6(600000-)常染色體(或表型為常染色體遺傳)建立于1994．5．15以后第八十三頁，共93頁。OMIM存貯號前通常帶有一種符號。*號表示序列已知的基因；#號表示分子基礎(chǔ)已知的表型；+號表示序列和表型已知的基因；%號表示孟德爾表型或表型位點已證實但是分子基礎(chǔ)未知；^表明該記錄已經(jīng)刪除或者賦予了新的OMIM存貯號。如果OMIM存貯號前不帶符號，則表明該記錄是一種尚未得以證實的孟德爾表型。第八十四頁，共93頁。（三）OMIM檢索

１．“0MIM”的Entrez檢索

檢索方法與GenBank的Entrez檢索相同(詳見本章第二節(jié))，可以用記錄內(nèi)檢索字段中出現(xiàn)的任何詞(包括基因符號、疾病名稱、癥狀、染色體定位、著者等)。詞與詞間可以用字段名稱加以限定，也可用邏輯運(yùn)算符相連進(jìn)行復(fù)合檢索。2.“SearchOMIM”檢索是在Entrez檢索的基礎(chǔ)上，根據(jù)OMIM記錄的字段特點，給出限制性檢索字段的復(fù)選，以及染色體位置選擇和數(shù)據(jù)時間段的限定。

第八十五頁，共93頁。3.“SearchGeneMap”(基因圖譜檢索)是針對OMIM所描述的表達(dá)基因及疾病基因的細(xì)胞遺傳學(xué)定位圖(染色體定位)的檢索?？梢暂斎牖蚍枴⒓膊?、染色體定位來檢索(性染色體x、Y須大寫)，如“CYP1”、“5”、“1pter”、“Xq”或“alzheimer”。4.“SearchMorbidMap”(疾病圖譜檢索)與基因圖譜檢索相同。第八十六頁，共93頁。87（四）OMIM在醫(yī)學(xué)遺傳學(xué)中的應(yīng)用價值1234利用OMIMstatistics了解最新的有關(guān)遺傳病、性狀及基因的信息。

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷、咨詢及治療的資料。

利用OMIM數(shù)據(jù)庫獲取遺傳病最新、最詳細(xì)的研究資料。

利用OMIM的Genemap和MorbidMap獲取疾病基因定位的詳細(xì)資料。

第八十七頁，共93頁。二、GeneCardsGeneCards是一個收集并展示人類基因及其產(chǎn)物和相關(guān)疾病等綜合信息的知識平臺，由以色列的Weizmann研究所基因組研究中心和生物信息學(xué)中心共同開發(fā)。內(nèi)容包括基因命名及描述（Aliases&Descriptions）、基因組定位（GenomicLocation）、蛋白質(zhì)特征

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 醫(yī)學(xué)資料

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息

文檔簡介

溫馨提示

最新文檔

評論

利用OMIM數(shù)據(jù)庫獲得遺傳病診斷-首都醫(yī)科大學(xué)研究生醫(yī)學(xué)信息

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔