版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
生物信息學第七章
基因注釋與功能分類哈爾濱醫(yī)科大學李亦學、寧尚偉生物信息學第一節(jié)引言背景隨著后基因組(post-genomics)時代研究的不斷深入,基因組學的研究任務已由最開始的基因組序列識別,漸漸轉(zhuǎn)移到在整體分子水平對功能進行研究。一個重要標志是功能基因組學(functionalgenomics)的不斷發(fā)展。任務功能基因組學的主要任務之一是進行基因組功能注釋(genomeannotation),了解基因的功能,認識基因與疾病的關(guān)系,掌握基因的產(chǎn)物及其在生命活動中的作用等。意義快速有效的基因注釋對進一步識別基因,研究基因的表達調(diào)控機制,研究基因在生物體代謝途徑中的地位,分析基因、基因產(chǎn)物之間的相互作用關(guān)系,預測和發(fā)現(xiàn)蛋白質(zhì)功能,揭示生命的起源和進化等具有重要的意義。第二節(jié)
基因注釋數(shù)據(jù)庫GeneAnnotationDatabase一、研究人員已經(jīng)掌握了大量的全基因組數(shù)據(jù),同時關(guān)于基因、基因產(chǎn)物以及生物學通路的數(shù)據(jù)也越來越多,解釋生物學實驗的結(jié)果,尤其從基因組角度,需要系統(tǒng)的方法。二、在基因組范圍內(nèi)描述蛋白質(zhì)功能十分復雜,最好的工具就是計算機程序,提供結(jié)構(gòu)化的標準的生物學模型,以便計算機程序進行分析,成為從整體水平系統(tǒng)研究基因及其產(chǎn)物的一項基本需求。
基因注釋數(shù)據(jù)庫產(chǎn)生的原因
一、基因本體(geneontology,GO)數(shù)據(jù)庫基因本體數(shù)據(jù)庫是GO組織(GeneOntologyConsortium)在2000年構(gòu)建的一個結(jié)構(gòu)化的標準生物學模型,旨在建立基因及其產(chǎn)物知識的標準詞匯體系,涵蓋了基因的細胞組分(cellularcomponent)、分子功能(molecularfunction)、生物學過程(biologicalprocess)。GO數(shù)據(jù)庫主頁GO數(shù)據(jù)庫最初收錄的基因信息來源于3個模式生物數(shù)據(jù)庫:果蠅、酵母和小鼠,隨后相繼收錄了更多數(shù)據(jù),其中包括國際上主要的植物,動物和微生物基因組數(shù)據(jù)庫。GO術(shù)語在多個合作數(shù)據(jù)庫中的統(tǒng)一使用,促進了各類數(shù)據(jù)庫對基因描述的一致性。
GO數(shù)據(jù)庫收錄的基因組數(shù)據(jù)列表
GO數(shù)據(jù)庫收錄的基因組數(shù)據(jù)列表GO注釋體系特點GO通過控制注釋詞匯的層次結(jié)構(gòu)使得研究人員能夠從不同層面查詢和使用基因注釋信息。從整體上來看GO注釋系統(tǒng)是一個有向無環(huán)圖(directedacyclicgraphs),包含三個分支,即:生物學過程(biologicalprocess),分子功能(molecularfunction)和細胞組分(cellularcomponent)。注釋系統(tǒng)中每一個結(jié)點(node)都是基因或蛋白的一種描述,結(jié)點之間保持嚴格的關(guān)系,即“isa”或“partof”。GO中生物學過程的DNA代謝部分功能類示意圖1.用關(guān)鍵詞檢索GO數(shù)據(jù)庫檢索GO數(shù)據(jù)庫通常先進入AmiGO2.0的首頁。在GO數(shù)據(jù)庫中,每條記錄都有一個數(shù)據(jù)標識號GO:XXXXXX和對應的術(shù)語。因此檢索時需要知道待查基因的數(shù)字標識號或術(shù)語,將它們直接輸入框中檢索即可。如果檢索的基因或蛋白質(zhì)存在別名,可在檢索框下勾選“geneorproteins”,并在檢索框中輸入別名檢索;“exactmatch”表示是否完全匹配,可供選擇。二、使用GO數(shù)據(jù)庫
AmiGO2檢索網(wǎng)頁這里以檢索神經(jīng)細胞分化因子6(NEUROD6)為例,選擇“AdvancedSearch”下的“Genesandgeneproducts”選項,在檢索框中輸入“NEUROD6”,運行后所得基因產(chǎn)物檢索結(jié)果如圖所示。舉例
AmiGO2檢索結(jié)果示例檢索得到的六個記錄分別是不同物種中的神經(jīng)源性分化因子6,點擊物種為人類“Homosapiens”的“NEUROD6”記錄,得到結(jié)果如圖所示,顯示了該基因的基本信息,包括類型、物種、名稱來源等信息。
AmiGO2基因描述示例1檢索下方還顯示了該基因產(chǎn)物的關(guān)聯(lián)(geneproductassociations)圖,要查看該基因的分子功能,可點擊“directannotation”中的記錄查看,如點擊“proteindimerizationactivity”的結(jié)果如圖所示。此外,還列舉了該功能的詳細注釋,包括“Associations”、“GraphViews”、“InferredTreeView”、“AncestorsandChildren”和“Mappings”等。如點擊可視化視圖“GraphViews”就可清晰地顯示該分子功能構(gòu)成的復雜功能網(wǎng)狀結(jié)構(gòu),既有上下隸屬關(guān)系,也存在平行關(guān)系。AmiGO2查詢結(jié)果圖形視圖2.用序列檢索GO數(shù)據(jù)庫在AmiGO1.8
版本中,對于未知基因名的序列,還可以用序列直接檢索GO數(shù)據(jù)庫。點擊AmiGO1.8首頁上方的“BLAST”。界面風格類似于其他數(shù)據(jù)庫BLAST搜索的網(wǎng)頁,在檢索框中輸入氨基酸或核酸序列,網(wǎng)頁能自動識別并相應地做BLASTP或BLASTX和數(shù)據(jù)庫中的序列比對。這里以檢索RPIA基因的序列為例,如圖所示。AmiGO1.8BLAST序列檢索網(wǎng)頁
1.簡介京都基因與基因組百科全書(Kyotoencyclopediaofgenesandgenomes,KEGG)
是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫,它整合了基因組學、生物化學以及系統(tǒng)功能組學的信息,有助于研究者把基因及表達信息作為一個整體網(wǎng)絡進行研究。三、京都基因與基因組百科全書KEGG提供的整合代謝途徑查詢十分出色,包括碳水化合物、核苷酸、氨基酸等代謝及有機物的生物降解,不僅提供了所有可能的代謝途徑,還對催化各步反應的酶進行了全面的注解,包含其氨基酸序列、到PDB數(shù)據(jù)庫的鏈接等。此外,KEGG還提供基于Java的圖形工具訪問基因組圖譜、比較基因組圖譜和操作表達圖譜,以及其他序列比較、圖形比較和通路計算的工具。因此,KEGG數(shù)據(jù)庫是進行生物體內(nèi)代謝分析、代謝網(wǎng)絡分析等研究的強有力工具之一。KEGG目前共包含了19個子數(shù)據(jù)庫,它們被分類成系統(tǒng)信息、基因組信息和化學信息三個類別。KEGG存儲內(nèi)容
基因組信息存儲在GENES數(shù)據(jù)庫里,包括全部完整的基因組序列和部分測序的基因組序列,并伴有實時更新的基因相關(guān)功能的注釋。
KEGG中化學信息的6個數(shù)據(jù)庫被稱為KEGGLIGAND數(shù)據(jù)庫,包含化學物質(zhì)、酶分子、酶化反應等信息。KEGGBRITE數(shù)據(jù)庫是一個包含多個生物學對象的基于功能進行等級劃分的本體論數(shù)據(jù)庫,它包括分子、細胞、物種、疾病、藥物、以及它們之間的關(guān)系。一些小的通路模塊被存儲在MODULE數(shù)據(jù)庫中,該數(shù)據(jù)庫還存儲了其他的一些相關(guān)功能的模塊以及化合物信息。KEGGDRUG數(shù)據(jù)庫存儲了目前在日本所有非處方藥和美國的大部分處方藥品。KEGGDISEASE是一個存儲疾病基因、通路、藥物、以及疾病診斷標記等信息的新型數(shù)據(jù)庫。KEGG通常被看作是生物系統(tǒng)的計算機表示,它囊括了生物系統(tǒng)中的各個對象與對象之間的關(guān)系。在分子層面、細胞層面、組織層面都可以對數(shù)據(jù)庫進行檢索。每個數(shù)據(jù)庫中的檢索條目按照一定規(guī)律被賦予一個檢索號,也就是ID。表中列出了KEGG的13個核心數(shù)據(jù)庫的檢索號。KEGG數(shù)據(jù)庫的注釋與檢索
KEGG的13個核心數(shù)據(jù)庫的檢索號另外一種化學注釋的方法是以小分子化學結(jié)構(gòu)的生物學意義為特征來實現(xiàn)的。在KEGG數(shù)據(jù)庫中,酶與酶之間的反應信息以及相關(guān)的化學結(jié)構(gòu)信息分別存儲在KEGGREACTION數(shù)據(jù)庫和KEGGREPAIR數(shù)據(jù)庫中。每個化合物的化學結(jié)構(gòu)都被轉(zhuǎn)化為RDM(atomtypechangesatR:reactioncenterD:differenceatomM:matchedatom)模式。KEGG數(shù)據(jù)庫存儲的RDM模式下面以人類編碼葡萄糖磷酸變位酶的基因“PGM1”為例:首先進入KEGG首頁,在首頁頂端的輸入框中輸入人類葡萄糖磷酸變位酶基因名稱“PGM1”KEGG數(shù)據(jù)庫的注釋與檢索
KEGG查詢首頁點擊搜索按鈕“GO”進入查詢結(jié)果頁面,該頁面會列出針對基因“PGM1”在KEGG數(shù)據(jù)庫中的搜索結(jié)果,除人類外,包含“PGM1”基因的物種條目也會被列出。查詢結(jié)果其中排在第一位的是人類基因“PGM1”的相關(guān)信息,點擊該條目進入到詳細信息頁面。該頁面以表格的形式列出了該基因有關(guān)的詳細信息,包括基因編號,基因的詳細定義,所編碼的酶的編號,基因所在通路,以及序列的編碼信息。同時,在頁面的右側(cè)還提供了該基因在其他分子生物學數(shù)據(jù)庫的鏈接,如OMIM、NCBI、GenBank等。詳細信息頁面通過點擊相應的鏈接,我們可以進入該基因相應信息的頁面。在pathway這一欄中列出了該基因所在的生物學通路,點擊編號為hsa00010(糖酵解/糖異生通路)的通路,進入到該通路的相應頁面。該編號為hsa00010的通路頁面以簡單的幾何圖形顯示出了糖酵解/糖異生相關(guān)生物過程。圖中紅色的方框即為基因“PGM1”所編碼的酶,以此就可以通過該酶所在位置以及通路的拓撲結(jié)構(gòu)來綜合分析基因。通路圖此外,可以通過頁面頂部的下拉列表框來選擇該通路在其他物種中的信息,也可以通過該列表框的選擇來查看相關(guān)的基因、酶、反應、化合物等相關(guān)通路信息。KEGGPATHWAY還存儲了一些人類疾病通路數(shù)據(jù),這些疾病通路被分為六個子類:癌癥、免疫系統(tǒng)疾病、神經(jīng)退行性疾病、循環(huán)系統(tǒng)疾病、代謝障礙、傳染病循環(huán)系統(tǒng)疾病。KEGG數(shù)據(jù)庫的改進與更新
KEGGDRUG數(shù)據(jù)庫也在不斷地完善,其中的藥物數(shù)據(jù)幾乎涵蓋了日本的所有非處方藥和美國的大部分處方藥品。DRUG是一個以存儲結(jié)構(gòu)為基礎(chǔ)的數(shù)據(jù)庫,每條記錄都包含唯一的化學結(jié)構(gòu)以及該藥物的標準名稱,以及藥物的藥效、靶點信息、類別信息等。藥物的靶點通過KEGGPATHWAY查詢,藥物的分類信息是KEGGBRITE數(shù)據(jù)庫的一部分,通過藥物的標準名稱可以找到該藥物的商品名,還可以找到藥物銷售的標簽信息。此外,DRUG還包括一些天然的藥物和中藥的信息,有些藥物被日本藥典所收錄。為了滿足日益增長的科學研究需求,KEGG數(shù)據(jù)庫在最近幾年里不斷擴充,新增加的50多個通路使KEGGPATHWAY數(shù)據(jù)庫更加完善。這50多個新增加的通路包括信號傳導通路、細胞生物過程通路和人類疾病通路等。KEGG對通路數(shù)據(jù)新增了兩個補充內(nèi)容:第一個補充是一張全局通路圖,這張全局通路圖是通過手工拼接KEGG的120多個現(xiàn)存通路圖生成的,存儲為SVG文件。另一個補充內(nèi)容是KEGGMODULE數(shù)據(jù)庫,這是一個收集了通路模塊以及其他一些功能單元的新型數(shù)據(jù)庫,功能模塊是在KEGG子通路中被定義為一些小的片段,通常包括幾個連續(xù)的反應步驟、操縱子、調(diào)控單元,以及通過基因組比對得到的系統(tǒng)發(fā)生單元和分子的復合物等。第三節(jié)
基因集功能富集分析GeneSetEnrichmentAnalysis一組基因直接注釋的結(jié)果是得到大量的功能結(jié)點。這些功能具有概念上的交疊現(xiàn)象,導致分析結(jié)果冗余,不利于進一步的精細分析,所以研究人員希望對得到的功能結(jié)點加以過濾和篩選,以便獲得更有意義的功能信息。進行基因集功能富集分析的原因富集分析方法通常是分析一組基因在某個功能結(jié)點上是否過出現(xiàn)(over-presentation)。這個原理可以由單個基因的注釋分析發(fā)展到大基因集合的成組分析。由于分析的結(jié)論是基于一組相關(guān)的基因,而不是根據(jù)單個基因,所以富集分析方法增加了研究的可靠性,同時也能夠識別出與生物現(xiàn)象最相關(guān)的生物過程。一、富集分析算法
富集分析中常用的統(tǒng)計方法有累計超幾何分布、Fisher精確檢驗等。累計超幾何分布:Fisher精確檢驗:基于不同的算法原理,可以將目前的常用富集分析工具分為三類:單一富集分析(singularenrichmentanalysis),基因集富集分析(genesetenrichmentanalysis),模塊富集分析(modularenrichmentanalysis)。二、常用富集分析軟件
這里以目前應用較為廣泛的DAVID為例對基因集進行具體分析。DAVID是一個綜合工具,不但提供基因富集分析,還提供基因間I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版海鮮連鎖餐飲品牌加盟合同3篇
- 2025年度旅游住宿滅四害服務合同及旅客健康保障協(xié)議4篇
- 2025年個人二手皮卡買賣合同標準版
- 2025年度門衛(wèi)室安保人員福利保障合同范本3篇
- 2025年度個人期房買賣合同(智能家居系統(tǒng)安全性能保障)2篇
- 2025年度外墻石材裝飾工程承攬合同4篇
- 2025年度大學兼職教師教學質(zhì)量考核合同
- 二零二五年度城市公園綠化苗木批發(fā)合同范本3篇
- 2025年度農(nóng)業(yè)現(xiàn)代化種植基地承包合同4篇
- 2025年度模具加工綠色制造與節(jié)能減排合同3篇
- 中級半導體分立器件和集成電路裝調(diào)工技能鑒定考試題庫(含答案)
- 2024年江西生物科技職業(yè)學院單招職業(yè)技能測試題庫帶解析答案
- 橋本甲狀腺炎-90天治療方案
- (2024年)安全注射培訓課件
- 2024版《建設(shè)工程開工、停工、復工安全管理臺賬表格(流程圖、申請表、報審表、考核表、通知單等)》模版
- 部編版《道德與法治》六年級下冊教材分析萬永霞
- 粘液腺肺癌病理報告
- 酒店人防管理制度
- 油田酸化工藝技術(shù)
- 上海高考英語詞匯手冊列表
- 移動商務內(nèi)容運營(吳洪貴)任務五 其他內(nèi)容類型的生產(chǎn)
評論
0/150
提交評論