生物信息學(xué),實驗一_第1頁
生物信息學(xué),實驗一_第2頁
生物信息學(xué),實驗一_第3頁
生物信息學(xué),實驗一_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、實驗一 文獻(xiàn)檢索和瀏覽各大生物分子數(shù)據(jù)庫一、 實驗?zāi)康?、學(xué)習(xí)文獻(xiàn)檢索方法2、了解生物信息學(xué)常用數(shù)據(jù)庫的結(jié)構(gòu)二、實驗內(nèi)容本實驗通過登陸GenBank、EMBL、DDBJ三個國際上權(quán)威的核酸序列數(shù)據(jù)庫、GDB基因組數(shù)據(jù)庫、人類基因組數(shù)據(jù)庫Ensembl、表達(dá)序列標(biāo)記數(shù)據(jù)庫dbEST、序列標(biāo)記位點數(shù)據(jù)庫dbSTS,以及PIR、SWISS-PROT、TrEMBL蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)倉庫UniProt、生物大分子數(shù)據(jù)庫 PDB等,了解各數(shù)據(jù)庫的結(jié)構(gòu),。三、實驗儀器、設(shè)備及材料計算機(jī)(聯(lián)網(wǎng))四、實驗原理建立生物分子數(shù)據(jù)庫的動因是由于生物分子數(shù)據(jù)的高速增長,而另一方面也是為了滿足分子生物學(xué)及相關(guān)領(lǐng)

2、域研究人員迅速獲得最新實驗數(shù)據(jù)的要求。生物分子信息分析已經(jīng)成為分子生物學(xué)研究必備的一種方法。數(shù)據(jù)庫及其相關(guān)的分析軟件是生物信息學(xué)研究和應(yīng)用的重要基礎(chǔ),也是分子生物學(xué)研究必備的工具。國際上權(quán)威的核酸序列數(shù)據(jù)庫有三個,分別是美國生物技術(shù)信息中心(NCBI)的GenBank(/web/Genbank/index/html)、歐洲分子生物學(xué)實驗室的EMBL-Bank(簡稱EMBL,http:/ww.ebi.ac.uk/embl/index/html)及日本遺傳研究所的DDBJ(http:/www.ddbj.nig.ac.jp/)。三個數(shù)據(jù)庫中的數(shù)據(jù)基本一致,

3、僅在數(shù)據(jù)格式上有所差別,對于特定的查詢,三個數(shù)據(jù)庫的響應(yīng)結(jié)果一樣GDB(/)是一個出現(xiàn)較早的基因組數(shù)據(jù)庫。目前GDB包含對下述三種對象的描述:(1)人類基因組區(qū)域,包括基因、克隆、PCR標(biāo)記物、斷點、細(xì)胞遺傳學(xué)標(biāo)記、易碎位點、 EST、綜合區(qū)域、contigs、重復(fù)等;(2)人類基因組圖譜,包含細(xì)胞遺傳學(xué)圖譜、連接圖譜、輻射混合圖譜、contig 圖譜、集成圖譜,所有這些圖譜都可以被直觀地顯示出來;(3)人類基因組中的變化,包括基因突變和基因多態(tài)性,加上等位基因頻率數(shù)據(jù)。Ensembl (/)是一個綜合性基因組數(shù)據(jù)庫,

4、Ensembl包括所有公開的人類基因組DNA序列,通過注釋形成的關(guān)于序列的特征?,F(xiàn)在包括其他基因組,如大鼠、小鼠、線蟲、果蠅等。Ensembl提供多種查詢方式:(1)通過關(guān)鍵字查詢;(2)用BLAST進(jìn)行相似序列的搜索;(3)另一種更直觀的方式是顯示各染色體;用戶可以在染色體水平上選擇感興趣的位點,逐層放大瀏覽整個基因組。dbEST (/dbEST/)是GenBank的一個部分,該數(shù)據(jù)庫包括不同生物的EST序列數(shù)據(jù)及其它相關(guān)信息,主要從大量不同組織和器官得到的短mRNA片段。dbSTS(/d

5、bSTS/)是NCBI的一個數(shù)據(jù)源,是GenBank的一個部分。包含基因組短標(biāo)記序列(STS)的組成和定位信息。可通過BLAST搜索STS序列;或通過FTP下載序列。PIR(/)是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。其中所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行分類。PIR還提供一個蛋白質(zhì)序列數(shù)據(jù)庫、相關(guān)數(shù)據(jù)庫和輔助工具的集成系統(tǒng),用戶可以迅速查找、比較蛋白質(zhì)序列,得到與蛋白質(zhì)相關(guān)的眾多信息。PIR提供三種類型的檢索服務(wù):一是基于文本的交互式查詢,用戶通過關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)的序

6、列相似性搜索,包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html)是目前國際上比較權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫,其中的蛋白質(zhì)序列是經(jīng)過注釋的;與其他蛋白質(zhì)序列數(shù)據(jù)庫比較,SWISS-PROT有三個明顯的特點:(1)注釋,在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻(xiàn)、分類信息(蛋白質(zhì)生物來源的描述);注釋包括:(A)蛋白質(zhì)的功能描述;(B)翻譯后修飾;(C)域和功能位點,如鈣結(jié)合

7、區(qū)域、ATP結(jié)合位點等;(D)蛋白質(zhì)的二級結(jié)構(gòu);(E)蛋白質(zhì)的四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等;(F)與其它蛋白質(zhì)的相似性;(G)由于缺乏該蛋白質(zhì)而引起的疾病;(H)序列的矛盾、變化等。(2)最小冗余:盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。如果不同來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫的連接:對于每一個登錄項,有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息。TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是與SWISS-PROT相關(guān)的一個數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CD

8、S)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。蛋白質(zhì)數(shù)據(jù)倉庫UniProt包括:Swiss-Prot、TrEMBL、PIR ;用戶可以通過文本查詢數(shù)據(jù)庫,可以利用BLAST程序搜索數(shù)據(jù)庫,也可以直接通過FTP下載數(shù)據(jù)。UniProt包含3個部分:(1)UniProt Knowledgebase(UniProt)蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)數(shù)據(jù)庫將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中以便提高搜索速度;(3)UniProt Archive(UniParc)資源庫,

9、記錄所有蛋白質(zhì)序列的歷史。PDB(/pdb/)是國際上最著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫,PDB中含有通過實驗(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu)。PDB的每條記錄有兩種序列信息,一種是顯式序列信息(explicit sequence):在PDB文件中,以關(guān)鍵字SEQRES作為顯式序列標(biāo)記,以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。一種是隱式序列信息(implicit sequence) :PDB的隱式序列即為立體化學(xué)數(shù)據(jù),包括每個原子的名稱和原子的三維坐標(biāo)。 五、實驗步驟(一)使用中文期刊網(wǎng)和Entrez信息查詢系統(tǒng)檢索與禽流感相關(guān)的文獻(xiàn)

10、,并閱讀感興趣文獻(xiàn)的摘要或全文。1、使用中文期刊網(wǎng)檢索與禽流感相關(guān)的文獻(xiàn)(1)輸入,進(jìn)入我校的圖書館,點擊“中文數(shù)據(jù)庫”按鈕,進(jìn)入了中文數(shù)據(jù)庫界面,再點擊“中文期刊網(wǎng)”按鈕, 進(jìn)入中國知識資源總庫CNKI 系列數(shù)據(jù)庫界面,點擊“中國期刊全文數(shù)據(jù)庫”按鈕 ,進(jìn)入中國期刊全文數(shù)據(jù)庫界面;(2)在中國期刊全文數(shù)據(jù)庫界面的檢索項中可選擇檢索種類(主題或關(guān)鍵詞或作者等),再填寫相關(guān)的檢索詞,最后點擊“檢索”按鈕,進(jìn)行檢索文獻(xiàn)。以禽流感為例,選擇檢索種類為主題,檢索詞項填寫“禽流感”,點擊“檢索”按鈕,顯示共有記錄,按年排列。 (3)另外,對檢索結(jié)果可以進(jìn)行相應(yīng)的限制,如時間

11、從哪年到哪年。若剛才檢索的禽流感相關(guān)的結(jié)果,只需要2007年,可輸入2007到2007,按“檢索”按鈕,;當(dāng)然,還可以有多個關(guān)鍵詞,且還可以選擇“在結(jié)果中檢索”按鈕。2、使用Entrez信息查詢系統(tǒng)檢索與禽流感相關(guān)的文獻(xiàn)(1)調(diào)用Internet瀏覽器并在其地址欄輸入Entrez網(wǎng)址(/Entrez)進(jìn)入NCBI主頁,進(jìn)入Entrez Home頁面,在search across database欄內(nèi)輸入關(guān)鍵詞Avian Influenza/Bird Flu點擊go查詢。顯示記錄,可依次點擊開,并閱讀感興趣文獻(xiàn)的摘

12、要或全文。當(dāng)然,還可以直接進(jìn)入NCBI主頁(/),在search欄中選擇PubMed,在for欄中填寫關(guān)鍵詞Avian Influenza/Bird Flu,最后點擊go。(2)練習(xí)使用AND OR BUT邏輯詞來限定關(guān)鍵詞,如Bird Flu AND human cases 等查詢?nèi)烁腥厩萘鞲械南嚓P(guān)記錄,比較查詢結(jié)果。(3)學(xué)習(xí)使用limits等限制字段查詢方式,檢索與禽流感相關(guān)的文獻(xiàn),并統(tǒng)計檢索結(jié)果。比較不同檢索方式的查詢效率。A、直接進(jìn)入NCBI主

13、頁(/),選擇Pubmed文獻(xiàn)數(shù)據(jù)庫, 點擊search欄下方的limits,進(jìn)入與Pubmed有關(guān)的限制字段設(shè)置,如選擇Title等不同字段,及限制期刊類型,作者,日期等進(jìn)行查詢。 B、Preview(搜索結(jié)果預(yù)覽)/Index(索引詞表檢索)的應(yīng)用。所謂的索引詞表檢索是當(dāng)你選定查詢字段并鍵入檢索詞如Bird Flu時,點擊Index ,這時返回一個在該字段中的以“Bird Flu”開始的索引詞表窗口,后面括弧中的數(shù)字代表包含該索引詞的記錄條數(shù);選擇一個或幾個關(guān)鍵詞,點擊Preview可進(jìn)行結(jié)果的預(yù)覽

14、,點擊Go可獲得查詢結(jié)果。 C、點擊History,可以看到該次練習(xí)結(jié)果頁面的歷史記錄。包括所采用的主題詞、查詢字段范圍、花費時間、及相應(yīng)結(jié)果等。(二)瀏覽各大數(shù)據(jù)庫網(wǎng)站進(jìn)入核酸序列數(shù)據(jù)庫GenBank(/web/Genbank/index/html)(包括其上的一些子數(shù)據(jù)庫如dbEST、dbSTS)、EMBL-Bank(簡稱EMBL,http:/ww.ebi.ac.uk/embl/index/html)及DDBJ(http:/www.dd bj.nig.ac.jp/);進(jìn)入基因組數(shù)據(jù)庫GDB(/)和Ens

15、embl (/);進(jìn)入蛋白質(zhì)序列數(shù)據(jù)庫PIR(/)、SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html、TrEMBL (http:/www.ebi.ac.uk/trembl/index.html);進(jìn)入生物大分子數(shù)據(jù)庫PDB(/pdb/)。點擊其上的一些按鈕,了解這些數(shù)據(jù)庫的結(jié)構(gòu)。 (1)使用Entrez信息查詢系統(tǒng)檢索與禽流感相關(guān)的核酸序列,鏈接提取其中一條感興趣的序列內(nèi)容,閱讀序列格式的解釋,理解其含義。進(jìn)入NC

16、BI主頁,進(jìn)入Entrez Home頁面,在Search后的輸入欄中輸入關(guān)鍵詞H5N1,點擊go查詢,再選擇Nucleotide數(shù)據(jù)庫,共有9632條記錄。閱讀查詢結(jié)果,選擇一條感興趣的核酸序列,點擊該序列與數(shù)據(jù)庫的超鏈接,閱讀序列格式的解釋,理解其含義。(2)GenBank數(shù)據(jù)庫序列格式的FASTA序列格式顯示與保存;以上一步驟所獲得的感興趣核酸序列結(jié)果頁面為例,在顯示模式“Display”的下拉菜單中選擇一個需要的序列格式如FASTA序列格式,然后點擊Display按鈕,結(jié)果就出現(xiàn)該序列的FASTA格式。如果需要保存該條序列信息,可以直接通過點擊瀏覽器IE的“文件”菜單中的另存為命令將序列保存到本地計算機(jī);也可以利用Entrez系統(tǒng)自身的保存功能,即點擊Send to,選擇File,就會出現(xiàn)保存文件相應(yīng)的窗口,然后按指示操作即可。(3) 使用SRS信息查詢系統(tǒng)檢索在Entrez中查詢的同一條核酸序列,連接提取該序列內(nèi)容,閱讀序列格式的解釋,理解其含義;比較NCBI與EMBL中序列格式的異同。調(diào)用Internet瀏覽器并在其地址欄輸入SRS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論