Entrez是一個(gè)由NCBI創(chuàng)建并維護(hù)的基于Web界面的綜合生物_第1頁(yè)
Entrez是一個(gè)由NCBI創(chuàng)建并維護(hù)的基于Web界面的綜合生物_第2頁(yè)
Entrez是一個(gè)由NCBI創(chuàng)建并維護(hù)的基于Web界面的綜合生物_第3頁(yè)
Entrez是一個(gè)由NCBI創(chuàng)建并維護(hù)的基于Web界面的綜合生物_第4頁(yè)
Entrez是一個(gè)由NCBI創(chuàng)建并維護(hù)的基于Web界面的綜合生物_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生命科學(xué)學(xué)院2002級(jí)生物技術(shù)系蔡曉龍學(xué)號(hào):021402161Full-text Electronic JournalsEntrez ReadmePubMedOMIMNucleotide Sequence3D StructureMaps&GenomesProtein SequenceTaxonomy一、Entrez簡(jiǎn)介Entrez是一個(gè)由NCBI創(chuàng)建并維護(hù)的基于Web界面的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng),通用網(wǎng)址為: 。Entrez提供了對(duì)GeneBank,EMBL,DDBJ,PIR-International,PRF,SWISS-PROT及PDB等數(shù)據(jù)庫(kù)超過(guò)105000個(gè)物種的序列數(shù)據(jù)的

2、整合訪問(wèn)。對(duì)于著作目錄或引用文獻(xiàn)檢索,可通過(guò)對(duì)收錄了1100多萬(wàn)篇生物醫(yī)學(xué)論文的PubMed著作目錄數(shù)據(jù)庫(kù)檢索獲得;Entrez還可以使用染色體圖譜數(shù)據(jù)庫(kù)及遺傳數(shù)據(jù)庫(kù);同時(shí),它還可以檢索來(lái)自GeneBank和其他數(shù)據(jù)庫(kù)的蛋白質(zhì)序列數(shù)據(jù)、基因組圖譜數(shù)據(jù)、來(lái)自分子模型數(shù)據(jù)庫(kù)(MMDB)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群序列數(shù)據(jù)集,并在數(shù)據(jù)庫(kù)間建立非常完善的聯(lián)系。Entrez數(shù)據(jù)庫(kù)關(guān)系如下圖:Medline數(shù)據(jù)庫(kù)核酸序列數(shù)據(jù)庫(kù)Entrez蛋白質(zhì)序列數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)結(jié)構(gòu)數(shù)據(jù)庫(kù)Entrez使用也很方便,所有操作都可以在網(wǎng)絡(luò)瀏覽器上完成,并提供廣泛的搜索方式,可將搜索限定在特定的范圍,大大加快了檢索速度,同時(shí)也

3、有利于對(duì)檢索結(jié)果的分析。用戶還可以利用Entrez上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來(lái)實(shí)現(xiàn)復(fù)雜的檢索查詢(xún)工作。Entrez的另一個(gè)特點(diǎn)是把數(shù)據(jù)庫(kù)和應(yīng)用程序結(jié)合在一起,如通過(guò)“Related sequence”可以直接找到與查詢(xún)所的蛋白序列同源的其它蛋白質(zhì),在用PubMed查文獻(xiàn)時(shí),還可通過(guò)點(diǎn)擊“Related Articles”查找到相關(guān)文獻(xiàn)。二、Entrez的數(shù)據(jù)庫(kù)組成Entrez系統(tǒng)將不同類(lèi)型的信息歸類(lèi)到不同數(shù)據(jù)庫(kù)中,大大加快了檢索速度,并有利于用戶對(duì)檢索結(jié)果進(jìn)行分析。Nucleotide:收錄了來(lái)自Gene

4、Bank,EMBL,DDBJ的數(shù)據(jù)庫(kù)記錄。Protein:收錄了來(lái)自GeneBank,EMBL,DDBJ的數(shù)據(jù)庫(kù)編碼區(qū)的翻譯蛋白質(zhì)序列、PIR數(shù)據(jù)庫(kù)、PRF數(shù)據(jù)庫(kù)、SWISS-PROT數(shù)據(jù)庫(kù)及PDB數(shù)據(jù)庫(kù)的蛋白序列信息。Genome :收錄了來(lái)自多個(gè)物種的基因組、完整染色體及contig的基因圖譜、物理圖譜及序列圖譜信息。 Structure:收錄了來(lái)自PDB數(shù)據(jù)庫(kù)的結(jié)果信息,同時(shí)提供了與參考文獻(xiàn)、序列數(shù)據(jù)庫(kù)及分類(lèi)數(shù)據(jù)庫(kù)(Taxonomy)的鏈接。Popset:收錄了在系統(tǒng)進(jìn)化樹(shù)分析或基因變異分析中產(chǎn)生的比對(duì)序列群,包括核酸序列群和蛋白質(zhì)序列群。OMIM:提供了一個(gè)人類(lèi)基因及遺傳重組信息的目錄

5、。Taxonomy:提供所有在NCBI遺傳數(shù)據(jù)庫(kù)中具有一條以上蛋白質(zhì)或核酸信息的物種的名稱(chēng)目錄。Bookself:提供了所有在Entrez記錄中引用的參考文獻(xiàn)。Probeset:NCBI的基因表達(dá)及雜交數(shù)據(jù)庫(kù),收錄了大量關(guān)于基因表達(dá)、調(diào)控及核酸雜交相關(guān)的相關(guān)數(shù)據(jù)。3d domain:收錄了來(lái)自NCBI保守結(jié)構(gòu)域數(shù)據(jù)庫(kù)的蛋白質(zhì)結(jié)構(gòu)域信息。Unists:序列標(biāo)簽位點(diǎn)(STSs)數(shù)據(jù)庫(kù),收錄了來(lái)自STS、RHdb、GDB、各種人類(lèi)基因圖譜、各種小鼠基因圖譜的STS及圖譜信息。Database interlinking:提供了與本數(shù)據(jù)庫(kù)或與其他數(shù)據(jù)庫(kù)中其他記錄的交叉鏈接。下圖為分類(lèi)數(shù)據(jù)庫(kù)的界面,您可以

6、通過(guò)鼠標(biāo)直接選中需要進(jìn)入查詢(xún)的數(shù)據(jù)庫(kù),其界面十分簡(jiǎn)潔明了,如圖中畫(huà)紅圈的為Nucleotide核酸數(shù)據(jù)庫(kù),其圖標(biāo)也提供了一定的信息。 三、Entrez的操作界面進(jìn)入Entrez主頁(yè)后,用戶需根據(jù)實(shí)際需要選擇數(shù)據(jù)庫(kù),Entrez的默認(rèn)數(shù)據(jù)庫(kù)為PubMed,用戶可從左側(cè)“Search”的下拉框中選擇數(shù)據(jù)庫(kù)。右側(cè)為檢索對(duì)話框,用戶可以通過(guò)在檢索框內(nèi)輸入檢索條目,然后再選擇界面上的“GO”按鈕,或者鍵盤(pán)上的回車(chē)鍵即可執(zhí)行簡(jiǎn)單的檢索功能,點(diǎn)擊“CLEAR”按鈕可以清除輸入并進(jìn)行新的檢索,具體如下圖所示。Entrez的精華在于其提供的 “Limits”、“Preview/Index”、“History”、

7、“Clipbord”和“Detail”五個(gè)界面,只有充分理解并熟練運(yùn)用這幾個(gè)界面進(jìn)行復(fù)雜的檢索,才能充分發(fā)揮Entrez的強(qiáng)大功能。(一)Limits在Entrez主頁(yè)下單擊“Limits”可鏈接至Limits界面。由于同的Entrez數(shù)據(jù)庫(kù)的記錄都是不同的,因而針對(duì)不同的數(shù)據(jù)庫(kù)的檢索限制可能都會(huì)有細(xì)微差別。進(jìn)入后,可通過(guò)在Limits界面將檢索限定到特定的范圍。常用的限制范圍有:領(lǐng)域,發(fā)表類(lèi)型,出版日期,語(yǔ)言等。此外,還可以通過(guò)排除特定種類(lèi)的記錄如“Exclude ESTs”來(lái)實(shí)現(xiàn)縮小檢索范圍。(二)Preview/Index在Entrez主頁(yè)下單擊“Preview/Index”可鏈接至Pr

8、eview/Index界面。在Preview/Index界面下的“all fields”下拉框中提供了一字母順序排列的檢索范圍列表,允許用戶直接選定特定的范圍進(jìn)行檢索,和上文中的“Limits”一樣,不同的數(shù)據(jù)庫(kù)其Preview/Index界面也存在差別。進(jìn)入界面后,在右側(cè)文本框中輸入相應(yīng)的檢索詞,點(diǎn)擊“Preview”,將在下面的列表中列出所有與選定的檢索此相關(guān)的其它標(biāo)準(zhǔn)檢索詞,可單擊選定特定的標(biāo)準(zhǔn)檢索詞,并單擊“AND”完成檢索詞的輸入;點(diǎn)擊“Index”則可以從給出的檢索詞列表中直接選擇特定的檢索詞。(三)History在Entrez主頁(yè)下單擊“History”可鏈接至History界面

9、。History提供了用戶在一個(gè)數(shù)據(jù)庫(kù)中進(jìn)行的所有連續(xù)檢索的過(guò)程,通過(guò)History,用戶可以方便的查看以前的檢索結(jié)果,對(duì)以前的檢索結(jié)果進(jìn)行修改,更重要的是用戶可以對(duì)所有的檢索結(jié)果進(jìn)行布爾運(yùn)算。下面是一個(gè)有關(guān)應(yīng)用的實(shí)例。EXAMPLE:檢索Streptomyces,Pseudomonas以及glucanase的相關(guān)內(nèi)容,然后利用歷史記錄對(duì)這些結(jié)果進(jìn)行綜合。步驟:1、選擇蛋白質(zhì)數(shù)據(jù)庫(kù)2、在提問(wèn)框中輸入“Streptomyces” 并且選擇go執(zhí)行檢索3、選擇clear(消除)4、在提問(wèn)框中輸入“pseudomonas”并且選擇go執(zhí)行檢索5、選擇clear(清除)6、在提問(wèn)框中輸入“glucan

10、ase”并且選擇go執(zhí)行檢索7、選擇History1、用布爾運(yùn)算符和檢索標(biāo)號(hào)綜合你以前的檢索結(jié)果,ex:(#1OR#2)and#3,然后選擇go2、再次選擇History回顧檢索History及結(jié)果(四)Clipbord在Entrez主頁(yè)下單擊“Clipbord”可鏈接至Clipbord界面。Clipbord剪貼板是一個(gè)用于臨時(shí)儲(chǔ)存結(jié)果的區(qū)域,應(yīng)該注意檢索結(jié)果并不是自動(dòng)保存到剪貼板中的,而是一個(gè)被動(dòng)的過(guò)程。在檢索結(jié)果界面上選定想要保存到剪貼板中的記錄,并點(diǎn)擊“Add to Clipbord”機(jī)可以保存到剪貼板中。剪貼板中最多能把包存500條記錄,并在不再是用1小時(shí)后自動(dòng)清除。在此期間可查看并保

11、存位于剪貼板中的記錄??梢栽谝幌盗械臋z索輸出結(jié)果中通過(guò)點(diǎn)擊文檔編號(hào)相鄰的檢查框?qū)⑽臋n添加到剪貼板,然后點(diǎn)擊剪貼板按鈕,就可以看到選中的文檔已經(jīng)被添加到剪貼板了。剪貼板上的項(xiàng)目將以默認(rèn)的Summary格式顯示??梢钥吹竭@些文檔將再次被編號(hào),且號(hào)碼呈綠色顯示其位于剪貼板,這種特征是非常有意義的,因?yàn)槿绻阃ㄟ^(guò)其他檢索策略再次獲得了這些文檔,那么他們的編號(hào)仍將以綠色顯示以提示他們已被加到剪貼板了。這些文檔也可以通過(guò)點(diǎn)擊他們號(hào)碼附近的檢查框且選擇“Remove From Clipboard”按鈕而轉(zhuǎn)移出剪貼板。(五)Detail通過(guò)點(diǎn)擊Details按鈕,可以顯示用Entrez檢索的檢索策略、用名及語(yǔ)

12、法規(guī)則,Details窗口也可以顯示可用的錯(cuò)誤信息,可以注意到Details報(bào)告展示了被檢數(shù)據(jù)庫(kù),所獲文檔數(shù)(包括到文檔的鏈接)以及你所輸入的檢索項(xiàng)(ie:不經(jīng)Entrez加工編譯)。在Details窗中,你可以修改或再次執(zhí)行你的檢索策略,通過(guò)檢索按鈕可執(zhí)行檢索。四、Entrez檢索途徑1、主題檢索:通過(guò)直接輸入所要檢索的內(nèi)容,設(shè)置限制條件,運(yùn)用布爾運(yùn)算式檢索課題。主題詞如果不止一個(gè)Entrez將會(huì)自動(dòng)加上AND,16S RNA和16SANDRNA的記錄是完全一致的。如果要使用Entrez檢索一個(gè)術(shù)語(yǔ),則可以在術(shù)語(yǔ)周?chē)与p引號(hào)。例如”16s RNA”與 16s AND RNA相比檢索的文檔要少

13、而且有效。2、作者檢索:利用作者姓名檢索可按以下各式:姓加名的第一個(gè)字母(johnson d)但不能在其中使用任何標(biāo)點(diǎn)。這種格式要求Entrez在作者范圍內(nèi)進(jìn)行搜索,Entrez會(huì)自動(dòng)地截取作者名字來(lái)判斷是否與檢索要求一致,,如果僅僅在輸入框中輸入姓氏(johnson),那么Entrez將在所有領(lǐng)域搜索那一條目,而非僅限于作者領(lǐng)域。3、標(biāo)簽信息檢索:對(duì)一個(gè)特定的引文或序列,其最精確的檢索方法之一是利用它的標(biāo)簽信息(IDENTIFIER)。標(biāo)簽信息是指一個(gè)特定的引文或序列在特定數(shù)據(jù)庫(kù)中的編號(hào)。例如Mediline(即PubMed)數(shù)據(jù)庫(kù)中引文的標(biāo)簽信息被稱(chēng)為UID號(hào),對(duì)于一個(gè)序列的標(biāo)簽信息則稱(chēng)為

14、GI號(hào)。如搜索數(shù)據(jù)庫(kù)中檢索編號(hào)為UID 88067898的引文信息,用戶只需在Entrez的搜索窗口輸入U(xiǎn)ID 88067898,就可以容易得獲得相關(guān)引文。4、分子量檢索:NCBI對(duì)Entrez蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行了分子量檢索需要NIH的分光光度值。Lewis Pannell在這方面提供了技術(shù)幫助。分子量檢所需要一個(gè)固定的六位數(shù)字查詢(xún),前面的數(shù)字可用0填充(而并非字母O。分子量檢測(cè)可就一個(gè)分子量進(jìn)行檢測(cè):002002Molecular Weight或者運(yùn)用“:”就分子量的范圍進(jìn)行檢索:002002:002009Molecular Weight。分子量檢索也可與其他檢索途徑進(jìn)行組合。例如,可用機(jī)體種

15、類(lèi)進(jìn)行限制:002002:002009Molecular Weight AND human機(jī)體種類(lèi)。五、Entrez檢索問(wèn)題說(shuō)明1、名詞列表格式(List term):當(dāng)輸入一個(gè)檢索詞后,Entrebz將列出與此相關(guān)的該領(lǐng)域中所有標(biāo)準(zhǔn)的檢索詞名稱(chēng)。如果有必要,您可以選擇一或多個(gè)標(biāo)準(zhǔn)名詞進(jìn)行檢索。2、自動(dòng)格式(automatic):如果您輸入的檢索詞超過(guò)一個(gè),Entrez會(huì)以AND自動(dòng)將之組合起來(lái),如果您想檢索一個(gè)術(shù)語(yǔ),不希望Entrez將之自動(dòng)組合,則可以在術(shù)語(yǔ)周?chē)与p引號(hào)代替,如“genome imprinting”與genome AND imprinting相比,檢索的文檔要少而且有效得多

16、。3、截詞符:截詞符可以方便地檢測(cè)一給定的字符串為首的所有記錄。具體方法是在檢索詞組后面加“*”以檢索所有以給定字符串為首的詞組內(nèi)容。例如,檢索詞組“immunologolb*”可以在數(shù)據(jù)庫(kù)檢索到含有諸如“immunoglobulin, immunoglobulins,immunoglobin, immunoglobins”的記錄。才可以檢索含有截取詞組的前六百條記錄,如果一個(gè)截詞符檢索可在數(shù)據(jù)庫(kù)中產(chǎn)生多于600條的記錄,比如輸入檢索條目“bact*”就可能產(chǎn)生這種情況,那么Entrez將給他如下警報(bào),所以當(dāng)遇到檢索記錄多于600條時(shí),須將詞根加長(zhǎng)以縮小其記錄范圍。在詞組中含有空格的項(xiàng)目是不能

17、用這種截詞符檢索法檢索到的,例如,如果你輸入“chromo*”那么你將搜索到諸如含有chromobacterium的文檔,但不能檢索到諸如 chromo helicase 的文檔,而左手側(cè)截取的條目則不能被檢索到。4、布爾運(yùn)算符:Entrez支持布爾運(yùn)算布爾運(yùn)算式,有利于用戶利用多重條件的布爾運(yùn)算式得到搜索結(jié)果。在Entrez中可用的布爾運(yùn)算符是:AND:AND可以連接兩個(gè)檢索詞組以指導(dǎo)Entrez對(duì)同時(shí)含有兩個(gè)項(xiàng)的文檔檢索OR:OR運(yùn)算符則可指導(dǎo)Entrez對(duì)含有兩個(gè)詞組中任意一項(xiàng)的文檔進(jìn)行檢索NOT:NOT運(yùn)算符指導(dǎo)Entrez對(duì)符合詞組1且不符合詞組2的文檔進(jìn)行檢索。Entrez使用布爾

18、運(yùn)算符的規(guī)則和語(yǔ)法要求是:1、布爾運(yùn)算符AND ,OR,NOT必須用大寫(xiě)字母盤(pán)輸入(例如:?jiǎn)?dòng)OR應(yīng)答原件)2、Entrez在執(zhí)行布爾運(yùn)算符時(shí)是按從左到右的順序,但可以通過(guò)引入()而改變其讀取順序。()內(nèi)的命令先作為一個(gè)小單元執(zhí)行,然后再與其他此作合并為一個(gè)完整的檢索策略。例如,檢索頂:GLP3 AND(response element or promoter)在被檢索時(shí),首先執(zhí)行的是()內(nèi)的 OR運(yùn)算符,然后再于GLP3用AND運(yùn)算符計(jì)算需要說(shuō)明的是,Entrez允許在檢索對(duì)話框中輸入由布爾運(yùn)算符(AND, OR, NOT)及對(duì)檢索范圍進(jìn)行限定的限定條件進(jìn)行復(fù)雜的檢索,其格式是:檢索詞檢索范圍,如下圖所示。5、范圍檢索:范圍檢索可就四個(gè)數(shù)據(jù)元素進(jìn)行:數(shù)據(jù)收錄號(hào)ACCN,序列長(zhǎng)度SLEN,分子量MOLWT和日期MDAT和PDAT。范圍算符是冒號(hào)“:”采用此檢索將檢出由“:”分開(kāi)的數(shù)據(jù)收錄號(hào)、序列長(zhǎng)度、分子量或日期所代表的范圍內(nèi)的所有

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論