生物信息數(shù)據(jù)庫(kù)與生物信息中心.ppt_第1頁(yè)
生物信息數(shù)據(jù)庫(kù)與生物信息中心.ppt_第2頁(yè)
生物信息數(shù)據(jù)庫(kù)與生物信息中心.ppt_第3頁(yè)
生物信息數(shù)據(jù)庫(kù)與生物信息中心.ppt_第4頁(yè)
生物信息數(shù)據(jù)庫(kù)與生物信息中心.ppt_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、王祿山,補(bǔ)正機(jī)應(yīng)用,生物信息數(shù)據(jù)庫(kù)和生物信息中心,教學(xué)大綱,生命情報(bào)學(xué)生命學(xué)和補(bǔ)正機(jī)技術(shù)的交叉。 生物信息學(xué)的研究?jī)?nèi)容: (1)生物資訊中心;(2)生物資訊數(shù)據(jù)庫(kù)和格式。 關(guān)生物資訊數(shù)據(jù)的檢索工具Entrez文獻(xiàn)的檢索和管理軟件Reference manager序列同源檢索分析工具Blast核酸、 蛋白質(zhì)序列比對(duì)分析軟件DS geneDNASIS生物大分子空間三次元結(jié)構(gòu)顯示和分析軟件Rasmol生物圖像比較分析軟件Scion Image (NIH image )生物科學(xué)數(shù)據(jù)處理軟件Origin,重要生物信息中心重要生物信息數(shù)據(jù)庫(kù)檢索工具生物分析相關(guān)軟件, 生物情報(bào)研究?jī)?nèi)容,一,重要生物情報(bào)中心

2、Bioinformatics Centres,ncbinationalcenterforbiotechnologyinformation (us ) www.NCBI.NLM.NIH.govebieuropeanbioinformaticsinstitutute www.ebi.AC.ukddbjdnadatabankofjapan (jp ) www.ddbj.nig.AC.jpexpasyexpertofproteinanalysissystem www.expasy.chpdbproteindatabank (us ) /pdb/CBI pku北京牌高等院校生物中

3、國(guó)生物信息中心(cn NCBI:http:/www.NCBI.NLM.NIH.gov,/, 兩個(gè)平面文件(flat-file )信息按順序存儲(chǔ)在文件中,特定格式的記錄查詢(xún)密碼(Entry )由“獲取號(hào)”(accession # )唯一地確定同一文件與不同文件之間的信息關(guān)聯(lián)關(guān)于Relations、語(yǔ)義匹配、生物信息數(shù)據(jù)問(wèn)題消息源分布在五洲四海的不同站點(diǎn)的多個(gè)數(shù)據(jù)源的全局問(wèn)題是, 無(wú)法立即得到答案painfullycollectingunstructuredinformationaroundthesitesmanuallyputtingpiecestoge

4、therhopefullygetting the right PP 消息源的特征是:數(shù)據(jù)集成,其是自主的、分布式的、異構(gòu)的、數(shù)據(jù)集成的、等等,生物信息的最重要的任務(wù)是從大量的數(shù)據(jù)中提取新的知識(shí)。 生物數(shù)據(jù)庫(kù)的種類(lèi)、序列數(shù)據(jù)庫(kù)核酸序列數(shù)據(jù)庫(kù)(EMBL、GenBank、DDBJ )是蛋白質(zhì)序列數(shù)據(jù)庫(kù)(Swissprot、PIR )結(jié)構(gòu)數(shù)據(jù)庫(kù)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB )蛋白質(zhì)分類(lèi)數(shù)據(jù)庫(kù)(SCOP、CATH )其他序列數(shù)據(jù)庫(kù),主要核酸序列數(shù)據(jù)庫(kù): GenBank,EMBL,DDBJ主要蛋白質(zhì)序列數(shù)據(jù)庫(kù)3360swissproool美國(guó)的核酸數(shù)據(jù)庫(kù)GenBankBanson,d.a.et al.(199

5、8 ) nucleicacidsres 歐洲分子生物學(xué)研究所的EMBL數(shù)據(jù)庫(kù)也于1982年開(kāi)始服務(wù)日本于1984年建立了國(guó)家級(jí)核酸數(shù)據(jù)庫(kù)DDBJ,1987年正式提供了服務(wù)。 從那個(gè)時(shí)候開(kāi)始,DNA序列的數(shù)據(jù)從80年代初期的百支序列,從數(shù)十萬(wàn)鹽化學(xué)基上升到現(xiàn)在的110億鹽化學(xué)基。 也就是說(shuō),僅僅18年間,數(shù)據(jù)量就增加了近10萬(wàn)倍。 核酸序列數(shù)據(jù)庫(kù)、核酸序列、核酸序列是由4種核苷酸的字母(ATGC )符號(hào)組成的序列。 蛋白質(zhì)序列數(shù)據(jù)庫(kù)SWISS-PROT和PIR是國(guó)際上兩個(gè)主要的蛋白質(zhì)序列數(shù)據(jù)庫(kù),目前,這些個(gè)兩個(gè)數(shù)據(jù)庫(kù)在EMBL和GenBank數(shù)據(jù)庫(kù)上建構(gòu)著鏡像站點(diǎn)。 SWISS-PROT數(shù)據(jù)庫(kù)包

6、含從EMBL翻譯的蛋白質(zhì)序列,并對(duì)這些個(gè)序列進(jìn)行了驗(yàn)證和標(biāo)注。 PIR數(shù)據(jù)庫(kù)的數(shù)據(jù)由由美國(guó)家生物科技情報(bào)中心(NCBI )根據(jù)GenBank的DNA排列進(jìn)行了翻譯。蛋白質(zhì)序列mniqqlalqnikgnwrnykvflscfaifasfaymsvivhpymketmwyqnvrwgliicniiisffilystsifiearkkelglymlmgatksnvigvimteqmligvfanifgg vvvvlsfisalriwnikiirlkefrtdkkektsmrlcifgliclgigyalalqttmptiafyfpvsilvfgtyfsfthgtaqilelikrnkkimytyp

7、ylfivnqlshrmkklshrmkkkk hevfaegmveqllhqygyddfqsmsfvgvyasfqskgeteiatlmkeseynqearkqqktyhpkgsvtlvynkynhpnmydqkeiqlqvmnqtysff hdedfdgiankvpdsekmiyrgytlpn snmelyvnmkafgditlfvgsfisilffltscsivyfkwhniasdrkeygalsklgmtkeevwrisrwqlcmlffsfisilffscsivyfkwhnialskeygalsklgmtkeevwrisrwqlc 蛋白質(zhì)數(shù)據(jù)庫(kù)的種類(lèi)和特征,生物大分子三次元結(jié)構(gòu)數(shù)據(jù)庫(kù)

8、,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB蛋白質(zhì)分類(lèi)數(shù)據(jù)庫(kù)SCOP和CATH,蛋白質(zhì)結(jié)構(gòu)庫(kù)(PDB ),實(shí)驗(yàn)得到的三次元蛋白質(zhì)結(jié)構(gòu)都是蛋白質(zhì)數(shù)據(jù)庫(kù)PDB(/pdb )中存儲(chǔ)的pdb是國(guó)際上主要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),雖然不像蛋白質(zhì)序列數(shù)據(jù)庫(kù)那么龐大,但其增長(zhǎng)速度很快。 在PDB中,存儲(chǔ)了由x射線和核磁共振(NMR )決定的結(jié)構(gòu)數(shù)據(jù)。 蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)結(jié)構(gòu)容納了構(gòu)成蛋白質(zhì)分子的所有原子的三度空間坐標(biāo)值。 蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)、結(jié)構(gòu)分類(lèi)(SCOP ) cath (類(lèi)、體系結(jié)構(gòu)、拓?fù)?、歸屬地)、蛋白質(zhì)SCOP數(shù)據(jù)庫(kù)將蛋白質(zhì)結(jié)構(gòu)從不同的層次分類(lèi)第一個(gè)分類(lèi)階層是家族,通常將序列相似程度在

9、30%以上的蛋白質(zhì)歸屬于同一家族,有較明確的進(jìn)化關(guān)系。 超家族:序列相似性低,說(shuō)明結(jié)構(gòu)和功能特性有共同的進(jìn)化起源,視為超家族。 折疊日式榻榻米類(lèi)型:不論有無(wú)共同的進(jìn)化起源,只要二級(jí)結(jié)構(gòu)單位具有相同的序列和拓?fù)浞治?,就可以認(rèn)為這些個(gè)的蛋白質(zhì)具有相同的折疊日式榻榻米方式。 在這些個(gè)的情況下,構(gòu)造的類(lèi)似性主要依賴(lài)于二級(jí)結(jié)構(gòu)單位的排列方式和拓?fù)浞治觥?蛋白質(zhì)構(gòu)造分類(lèi)數(shù)據(jù)庫(kù)CATH,類(lèi)型Class,信息幀工作體系,拓?fù)浞治鐾負(fù)浜屯葱訦omology。 分類(lèi)的基礎(chǔ)是蛋白質(zhì)結(jié)構(gòu)域。 與SCOP不同,CATH將蛋白質(zhì)分類(lèi)為a主類(lèi)、b主類(lèi)、a b類(lèi)(a/b型和a b型)和低二級(jí)結(jié)構(gòu)類(lèi)4種。 低二級(jí)結(jié)構(gòu)類(lèi)是指二

10、級(jí)結(jié)構(gòu)成分含量低的蛋白質(zhì)分子。 CATH數(shù)據(jù)庫(kù)的第二個(gè)分類(lèi)基于超二級(jí)結(jié)構(gòu)的螺旋和折疊排列,無(wú)論它們之間的連接關(guān)系如何。 第三層由拓?fù)浞治鼋Y(jié)構(gòu),即二級(jí)結(jié)構(gòu)的形狀與二級(jí)結(jié)構(gòu)相連接。 第四層是結(jié)構(gòu)的同源性,由序列比較到結(jié)構(gòu)比較決定。 CATH數(shù)據(jù)庫(kù)的最后一個(gè)級(jí)別是序列級(jí)別,該級(jí)別在結(jié)構(gòu)域中的序列同源性超過(guò)35%時(shí)將被認(rèn)為具有高級(jí)結(jié)構(gòu)和功能相似性。 對(duì)于大的結(jié)構(gòu)域,至少60%的結(jié)構(gòu)域必須與小的相同。 蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)CATH,染色體組數(shù)據(jù)庫(kù),GDB人類(lèi)基因組數(shù)據(jù)庫(kù)AceDB線蟲(chóng)染色體組數(shù)據(jù)庫(kù),四,數(shù)據(jù)庫(kù)檢索工具,Entrez SRS,http:/www.ncbi SRS 、SRS、序列重復(fù)系統(tǒng)、

11、isapowerfuldatabasemanagementsystemdevelopedspecificallyforbiologicaldatabases.thegoalofsrsistoprovideanefficientaccesstoddo e omatterinwhatformataretheyavailableandallowingforcomplexsearchcriteria .數(shù)據(jù)庫(kù)記錄的格式和檢索關(guān)道路交叉口字,核酸/蛋白質(zhì)數(shù)據(jù)庫(kù)記錄的構(gòu)成一個(gè)數(shù)據(jù)庫(kù)查詢(xún)密碼(entry )通常由原始序列數(shù)據(jù)和描述這些個(gè)數(shù)據(jù)的生物科學(xué)信息的注釋這兩部分構(gòu)成。 評(píng)論中包含的信息與對(duì)應(yīng)的順序數(shù)據(jù)

12、同樣重要,具有應(yīng)用價(jià)值,值得注意。 序列部分和注釋部分都有固定格式,計(jì)算機(jī)能夠讀取。 各數(shù)據(jù)庫(kù)的具體格式不同,大致分為GenBank和EMBL兩種樣式。 GenBank、GenBank和GenBank格式:每個(gè)條目都是純文本文件。 每行的左邊或空格或識(shí)別詞,識(shí)別詞是完整的英語(yǔ)而不是縮寫(xiě)。 為了與embl對(duì)照,列在下表中。 GenBank條目。 使用與EMBL和DDBJ數(shù)據(jù)庫(kù)統(tǒng)一的大量關(guān)牛鼻子字。 格式可以分為三個(gè)部分。 1 )標(biāo)題包含從LOCUS行到ORIGIN行有關(guān)整個(gè)序列的信息(描述字符)2)序列“注釋”的特性是注釋的核心部分3 )序列本身(Sequence 注:所有核苷酸數(shù)據(jù)庫(kù)查詢(xún)密碼(

13、EMBL/GenBank/DDBJ )在最后一行以/結(jié)尾。 EMBL、EMBL和EMBL格式:歐洲分子生物學(xué)EMBL數(shù)據(jù)庫(kù)中的每個(gè)條目都是純文本文件,每行開(kāi)頭都有兩個(gè)大寫(xiě)的標(biāo)識(shí)標(biāo)志,后面的表中提供了常規(guī)標(biāo)識(shí)標(biāo)志。 識(shí)別標(biāo)志“專(zhuān)業(yè)技術(shù)膩?zhàn)臃郾怼盕T包含與GenBank和DDBJ定義統(tǒng)一的一組牛鼻子字。 下歐洲國(guó)家多數(shù)采用SWISS-PROT、ENZYME、TRANSFAC等與EMBL相符的格式。 數(shù)據(jù)庫(kù)記錄注釋查詢(xún)密碼和內(nèi)容說(shuō)明,數(shù)據(jù)庫(kù)記錄注釋查詢(xún)密碼和內(nèi)容說(shuō)明(cont.),簡(jiǎn)單的GenBank記錄, locus af 0620693808 bpmrnainv 02-mar-2000定義限制支持完成CDs.accession af 062069版本af 062069.2 gi 3360714484關(guān)鍵字Arthropoda; 刺猬屬; 梅洛斯托馬特; Xiphosura; Limulidae; 參考1 (基本1 to 3808 )自動(dòng)電池,B.-A .安德rews,A.W .Calman, b .我是w.c.titleamyosiniifromlimuluseyesisaclock-regulatedphosphoproteinjournalj.neuro sci.(1998 ) inpre

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論