微生物群落多樣性測序與功能分析_第1頁
微生物群落多樣性測序與功能分析_第2頁
微生物群落多樣性測序與功能分析_第3頁
微生物群落多樣性測序與功能分析_第4頁
微生物群落多樣性測序與功能分析_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、微生物群落多樣性測序與功能分析微生物群落測序是指對微生物群體進行高通量測序,通過分析測序序列的構(gòu)成分析特定環(huán)境中微生物群體的構(gòu)成情況或基因的組成以及功能。借助不同環(huán)境下微生物群落的構(gòu)成差異分析我們可以分析微生物與環(huán)境因素或宿主之間的關(guān)系,尋找標志性菌群或特定功能的基因。對微生物群落進行測序包括兩類,一類是通過16srDNA,18srDNAITS區(qū)域進行擴增測序分析微生物的群體構(gòu)成和多樣性;還有一類是宏基因組測序,是不經(jīng)過分離培養(yǎng)微生物,而對所有微生物DNA8行測序,從而分析微生物群落構(gòu)成,基因構(gòu)成,挖掘有應(yīng)用價值的基因資源。以16srDNA擴增進行測序分析主要用于微生物群落多樣性和構(gòu)成的分析,

2、目前的生物信息學分析也可以基于16srDNA的測序?qū)ξ⑸锶郝涞幕驑?gòu)成和代謝途徑進行預測分析,大大拓展了我們對于環(huán)境微生物的微生態(tài)認知。目前我們根據(jù)16s的測序數(shù)據(jù)可以將微生物群落分類到種(species)(一般只能對部分菌進行種的鑒定),甚至對亞種級別進行分析,幾個概念:16SrDNA(或16SrRNQ:16SrRNA基因是編碼原核生物核糖體小亞基的基因,長度約為1542bp,其分子大小適中,突變率小,是細菌系統(tǒng)分類學研究中最常用和最有用的標志。16SrRNA基因序列包括9個可變區(qū)和10個保守區(qū),保守區(qū)序列反映了物種間的親緣關(guān)系,而可變區(qū)序列則能體現(xiàn)物種間的差異。16SrRNA基因測序以細

3、菌16SrRNA基因測序為主,核心是研究樣品中的物種分類、物種豐度以及系統(tǒng)進化。OTUoperationaltaxonomicunits(OTUs)在微生物的免培養(yǎng)分析中經(jīng)常用到,通過提取樣品的總基因組DNA禾J用16SrRNAITS的通用引物進行PCR擴增,通過測序以后就可以分析樣品中的微生物多樣性,那怎么區(qū)分這些不同的序列呢,這個時候就需要引入operationaltaxonomicunits,一般情況下,如果序列之間,比如不同的16SrRNA序列的相似性高于97%ft可以把它定義為一個OTU每個OTM應(yīng)于一個不同的16SrRNA序列,也就是每個OTlM應(yīng)于一個不同的細菌(微生物)種。通過

4、OTS析,就可以知道樣品中的微生物多樣性和不同微生物的豐度。測序區(qū)段:由于16srDNA較長(1.5kb),我們只能對其中經(jīng)常變化的區(qū)域也就是可變區(qū)進行測序。16srDNA包含有9個可變區(qū),分別是v1-v9。一般我們對v3-v4雙可變區(qū)域進行擴增和測序,也有對v1-v3區(qū)進行擴增測序。工具/原料 16srDNA測序首先需要提取環(huán)境樣品的DNA這些DNA以來自土壤、糞便、空氣或水體等任何來源。 提取DNAt需要經(jīng)過質(zhì)檢和純化,一般16srDNA測序擴增對DNAB總量要求并不高,總量大于100ng,濃度大于10ng/ul一般都可以滿足要求。如果是來自和寄主共生的環(huán)境如昆蟲的腸道微生物,提取時可能包

5、括了寄主本身的大量DNA又tDNAB總量要求會提高。微生物菌群多樣性測序受DNAIS取和擴增影響很大,不同的擴增區(qū)段和擴增引物甚至PCR1環(huán)數(shù)的差異都會對結(jié)果有所影響。因而建議同一項目不同樣品的都采用相同的條件和測序方法,這樣相互之間才存在可比性。 完成PCR1后的產(chǎn)物一般可以直接上測序儀測序,在上機測序前我們需要對所有樣本進行定量和均一化,通常要進行熒光定量PCR完成定量的樣品混合后就可以上機測序。 16srDNAW序目前可以采用多種不同的測序儀進行測序,包括羅氏的454,Illumina的MiSeq,Life的PGhMPacbio的RSII三代測序儀。不同的儀器各有優(yōu)缺點,目前最主流的是I

6、llumina公司的MiSeq,因為其在通量、長度和價格三者之間最為平衡。MiSeq測序儀可以產(chǎn)生2x300bp的測序讀長,一次可以產(chǎn)生15Gb的測序數(shù)據(jù)遠遠大于其他測序儀的測序通量。方法/步驟1. 116srDNA分析基本流程:數(shù)據(jù)預處理OTU分析2. 2原始數(shù)據(jù)處理:原始測序數(shù)據(jù)需要去除接頭序列,并將雙端測序序列進行拼接成單條序列。根據(jù)測序barcode序列區(qū)分不同的樣本序列。過濾低質(zhì)量序列和無法比對到16srDNA數(shù)據(jù)庫的序列。3. 3OTS類和統(tǒng)計:OTU(operationaltaxonomicunits)是在系統(tǒng)發(fā)生學研究或群體遺傳學研究中,為了便于進行分析,人為給某一個分類單元(

7、品系,種,屬,分組等)設(shè)置的同一標志。通常按照97%的相似性閾值將序列劃分為不同的OTU,每一個OTU通常被視為一個微生物物種。相似性小于97%ft可以認為屬于不同的種,相似性小于93%-95%可以認為屬于不同的屬。樣品中的微生物多樣性和不同微生物的豐度都是基于對OTU的分析。使用QIIME(version1.8.0)工具包進行統(tǒng)計注釋。使用QIIME(version1.9.0,進行比對,比對方法uclust,identity0.9。然后對每個OTUs彳Treads數(shù)目統(tǒng)計。下面的2個表,其中一個表是對每個樣本的測序數(shù)量和OTIM目進行統(tǒng)計,并且在表格中列出了測序覆蓋的完整度(顯示前10個樣本

8、)。另一個表是對每個樣本在分類字水平上的數(shù)量進行統(tǒng)計,并且在表格中列出了在每個分類字水平上的物種數(shù)目(顯示前10個樣本)??梢钥吹浇^大部分的OTU分類到了屬(Genu,也有很多分類到了種(Species)。但是仍然有很多無法完全分類到種一級,這是由于環(huán)境微生物本身存在非常豐富的多樣性,還有大量的菌仍然沒有被測序和發(fā)現(xiàn)。測序數(shù)目統(tǒng)計表主要是對每個樣本的測序數(shù)量和OTU&目進行統(tǒng)計,并且在表格中列出了測序覆蓋的完整度(顯示前10個樣本,如果樣本超過10個,請查看結(jié)果中otu_stat.txt文件)其中SampleName表示樣本名稱;SampleSize表示樣本序列總數(shù);OTUsNumb味示注釋上

9、的OTlM目;OTUsSe求示注釋上OTU勺樣本序歹總數(shù)。Coverage是指各樣品文庫的覆蓋率,其數(shù)值越高,則樣本中序列沒有被測出的概率越低。該指數(shù)實際反映了本次測序結(jié)果是否代表樣本的真實情況。計算公式為:C=1-n1/N其中n1=只含有一條序列的OTUB數(shù)目;N=抽樣中出現(xiàn)的總的序列數(shù)目。分類水平統(tǒng)計表主要是對每個樣本在分類學水平上的數(shù)量進行統(tǒng)計,并且在表格中列出了在每個分類學水平上的物種數(shù)目(只顯示前10個樣本,如果樣本超過10個,請查看結(jié)果中taxon_all.txt文件)其中SampleName示樣本名稱;Phylum表示分類到門的OTlC量;Class表示分類到綱的OT吸量;Ord

10、er表示分類到目的OTLK量;Family表示分類到科的OTUfc!;Genus表示分類到屬的OT吸量;Species表示分類到種的OTUt量。OTU&息收上利塞崗湖556334576304663715Q3151763B827638546372523?516676667566705554wig56243904加482005142150117.5.4669766946693546S31325515QM7.53S007500750053m2223287150517,5,163136312631251235208.57158175,65443:54154384死62n6/1271EO317J.3S例

11、559155根44672092Z39TU觸目知H倬統(tǒng)計表OIUsNumbrOTUsSeqison.3r21023839207819100.9315011U797聒651aS0.92050322.6.33047410S675872?09O5O122.U6557374510.9150317.5,48網(wǎng)61110626的120915O3L7.53gim虱8261727360.9315OJI7.519Q517106836942709工5的17方通808958997647M1503L7.4.3710338355nrnr54316lyrhraLcGia4. 4我們還可以對這些種屬的構(gòu)成進行柱狀圖顯示:橫坐

12、標中每一個條形圖代表一個樣本,縱坐標代表該分類層級的序列數(shù)目或比例。同一種顏色代表相同的分類級別。圖中的每根柱子中的顏色表示該樣本在不同級別(門、綱、目等)的序列數(shù)目,序列數(shù)目只計算級別最低的分類,例如在屬中計算過了,則在科中則不重復計算。Q:為什么要選擇V3-V4區(qū)的測序長度?為什么有些文獻是V6區(qū),有什么區(qū)別?A:16SrRNA總長約1540bp,包含9個可變區(qū)。由于高通量測序的測序長度的限制,不可能將16SrRNA的9個可變區(qū)全部測序,所以在PCRT增時往往只能選擇1-3個可變區(qū)作為擴增片段。Kozich等評估了Miseq測序儀分析的不同16SrRNA可變區(qū)的準確性發(fā)現(xiàn),測定V4區(qū)效果最

13、佳。根據(jù)我們的測序長度,v3-v4區(qū)是最佳選擇。比例高的前10個屬橫成住狀網(wǎng)樣本種屬比例r-tavETWBrf1:卜匚HiCrrvnrfr-A-b3_vflr?v3fi5. 5我們還需要對樣本之間或分組之間的OTU!行比較獲得韋恩圖:注意,韋恩圖目前一般最多只能顯示5個樣本或分組,過多的樣本無法無法進行韋恩圖繪制OTU比較韋恩圖(二5個樣本I陰口6. 6樣品構(gòu)成豐度:稀釋曲線微生物多樣性分析中需要驗證測序數(shù)據(jù)量是否足以反映樣品中的物種多樣性,稀釋曲線(豐富度曲線)可以用來檢驗這一指標。稀釋曲線是用來評價測序量是否足以覆蓋所有類群,并間接反映樣品中物種的豐富程度。稀釋曲線是利用已測得16SrDN

14、A序列中已知的各種OTU勺相對比例,來計算抽取n個(n小于測得reads序列總數(shù))reads時出現(xiàn)OTLM量的期望值,然后根據(jù)一組n值(一般為一組小于總序列數(shù)的等差數(shù)列)與其相對應(yīng)的OT吸量的期望值做出曲線來。當曲線趨于平緩或者達到平臺期時也就可以認為測序深度已經(jīng)基本覆蓋到樣品中所有的物種;反之,則表示樣品中物種多樣性較高,還存在較多未被測序檢測到的物種。下圖中的稀釋曲線橫坐標代表隨機抽取的序列數(shù)量;縱坐標代表觀測到的OTLB量。樣本曲線的延伸終點的橫坐標位置為該樣本的測序數(shù)量,如果曲線趨于平坦表明測序已趨于飽和,增加測序數(shù)據(jù)無法再找到更多的OTU反之表明不飽和,增加數(shù)據(jù)量可以發(fā)現(xiàn)更多OTUl

15、aoooaoooG000observed200010000200003000040000500006000070.二方陽cqun匚2三PerSample7. 7Shannon-Winner曲線Shannon-Wiener曲線,是利用shannon指數(shù)來進行繪制的,反映樣品中微生物多樣性的指數(shù),利用各樣品的測序量在不同測序深度時的微生物多樣性指數(shù)構(gòu)建曲線,以此反映各樣本在不同測序數(shù)量時的微生物多樣性。當曲線趨向平坦時,說明測序數(shù)據(jù)量足夠大,可以反映樣品中絕大多數(shù)的微生物物種信息。與上圖一樣,橫坐標代表隨機抽取的序列數(shù)量;縱坐標代表的是反映物種多樣性的Shannon指數(shù)。樣本曲線的延伸終點的橫坐標

16、位置為該樣本的測序數(shù)量,如果曲線趨于平坦表明測序已趨于飽和,增加測序數(shù)據(jù)無法再找到更多的OTU反之表明不飽和,增加數(shù)據(jù)量可以發(fā)現(xiàn)更多OTU其中曲線的最高點也就是該樣本的Shannon指數(shù),指數(shù)越高表明樣品的物種多樣性越高。Q:Shannon指數(shù)怎么算的?A:Shannon指數(shù)公式:其中,Sobs=實際測量出的OTLK目;ni=含有i條序列的OT曲目;N=所有的序列數(shù)。shannon:SamplelO1001000030000MOOD50DODtOOOO70r?Lc-如眄Lequ0ncetPerSampleeQUcPHm中55E3ZuoEfflM-SJEHHshanncn二一W1加8. 8Ran

17、k-Abundance曲線用于同時解釋樣品多樣性的兩個方面,即樣品所含物種的豐富程度和均勻程度。物種的豐富程度由曲線在橫軸上的長度來反映,曲線越寬,表示物種的組成越豐富;物種組成的均勻程度由曲線的形狀來反映,曲線越平坦,表示物種組成的均勻程度越高。一般超過20個樣本圖就會變得非常復雜而且不美觀,所以一般20個樣本以下會做該圖,圖片保存為結(jié)果目錄中rank.pdf。橫坐標代表物種排序的數(shù)量;縱坐標代表觀測到的相對豐度。樣本曲線的延伸終點的橫坐標位置為該樣本的物種數(shù)量,如果曲線越平滑下降表明樣本的物種多樣性越高,而曲線快速陡然下降表明樣本中的優(yōu)勢菌群所占比例很高,多樣性較低。5rank150316

18、.3.?150316.3.7一050322.6.3-O5O3ZZ.C4150317.5.41503173.3150317.5.115Q317.5.6150317.4.3150317.4,7150316.3.4150317.4.4150316.3.1150316.3.3150317.5315Q317r?15u*:bJrL5G3174S9.Alpha多樣性(樣本內(nèi)多樣性)Alpha多樣性是指一個特定區(qū)域或者生態(tài)系統(tǒng)內(nèi)的多樣性,常用的度量指樣性指數(shù)(Shannon-wienerdiversityindex)、辛普森多樣性指數(shù)標有Chaol豐富度估計量(Chaolrichnessestimator)、

19、香農(nóng)-威納多diversityindex計算菌群豐度:Chao.ace;計算菌群多樣性:ShannonSimpson。Simpson指數(shù)值越大,說明群落多樣性越高;Shannon指數(shù)越大,說明群落多樣性越高。表中顯示前10個樣本,如果樣本大于10個,詳見結(jié)果目錄中的alpha_div.txt。Q:能不能解釋下每個指數(shù)(如chao1、shannon)?A:Chaol:是用chaol算法估計群落中含OTU數(shù)目的指數(shù),chaol在生態(tài)學中常用來估計物種總數(shù),由Chao(1984)最早提出。Chaol值越大代表物種總數(shù)越多。Schao1=Sobs+n1(n1-1)/2(n2+1)其中Schao1為估計

20、的OTU&,Sobs為觀測到的OTUt,n1為只有一條序列的OTUK目,n2為只有兩條序列的OTUK目。Shannon:用來估算樣品中微生物的多樣性指數(shù)之一。它與Simpson多樣性指數(shù)均為常用的反映alpha多樣性的指數(shù)。Shannon值越大,說明群落多樣性越高。Ace:用來估計群落中含有OTU數(shù)目的指數(shù),由Chao提出,是生態(tài)學中估計物種總數(shù)的常用指數(shù)之一,與Chao1的算法不同。Simpson:用來估算樣品中微生物的多樣性指數(shù)之一,由EdwardHughSimpson(1949)提出,在生態(tài)學中常用來定量的描述一個區(qū)域的生物多樣性。Simpson指數(shù)值越大,說明群落多樣性越高。辛普森多樣

21、性指數(shù)=隨機取樣的兩個個體屬于不同種的概率=1-隨機取樣的兩個個體屬于同種的概率1chaolshdnri0門*ce5imp50n|88S7.623310.504693S2.60S9099640我乳182910X32B64M.6566099露T12.7d80.139810,11716444.6984。弼7T12.3d740L2045igni7512725609951T13.7d7965,87687,S953U.9Q43Tl,15d6648553510.4627)9971T13A5d9425.8634103676門上的T133d415.735950214&22B74S10. 10Beta多樣性分析

22、(樣品間差異分析)Beta多樣性度量時空尺度上物種組成的變化,是生物多樣性的重要組成部分,與許多生態(tài)學和進化生物學問題密切相關(guān),因此在最近10年間成為生物多樣性研究的熱點問題之一。PCoA析PCoA(principalco-ordinatesanalysis)是一種研究數(shù)據(jù)相似性或差異性的可視化方法,通過一系列的特征值和特征向量進行排序后,選擇主要排在前幾位的特征值,PCoA可以找到距離矩陣中最主要的坐標,結(jié)果是數(shù)據(jù)矩陣的一個旋轉(zhuǎn),它沒有改變樣品點之間的相互位置關(guān)系,只是改變了坐標系統(tǒng)。通過PCoA可以觀察個體或群體間的差異。每一個點代表一個樣本,相同顏色的點來自同一個分組,兩點之間距離越近表

23、明兩者的群落構(gòu)成差異越小。PCoA有多張圖,分別代表的PCoA1-2,2-3,3-1。1M)71北in|,下3al/r.Trt5Vf-ft#*UIvT-F1ML11. 11NMD舒析(非度量多維尺度分析)NMDSNonmetricMultidimensionalScaling)常用于比對樣本組之間的差異,可以基于進化關(guān)系或數(shù)量距離矩陣。橫軸和縱軸:表示基于進化或者數(shù)量距離矩陣的數(shù)值在二維表中成圖。與PC6析的主要差異在于考量了進化上的信息。每一個點代表一個樣本,相同顏色的點來自同一個分組,兩點之間距離越近表明兩者的群落構(gòu)成差異越小。回融S,iSttllIB9153101rfSOJI?5IMdl

24、T3dllawira.*IW317.5JPijojiiirst聞w*皿17好9tW3TB3.fIMI)1*|1*-1WlvA1?1B;517I*1S0HTiTW3?*隼541,iMJg,#!*AJH4*4Ltmi12.12PC6析主成分分析PCA(Principalcomponentanalysis)是一種研究數(shù)據(jù)相似性或差異性的可視化方法,通過一系列的特征值和特征向量進行排序后,選擇主要的前幾位特征值,采取降維的思想,PCA可以找到距離矩陣中最主要的坐標,結(jié)果是數(shù)據(jù)矩陣的一個旋轉(zhuǎn),它沒有改變樣品點之間的相互位置關(guān)系,只是改變了坐標系統(tǒng)。詳細關(guān)于主成分分析的解釋推薦大家看一篇文章,觀察個體或群

25、體間的差異。每一個點代表一個樣本,相同顏色的點來自同一個分組,兩點之間距離越近表明兩者的群落構(gòu)成差異越小。以上三個圖可能遇到的問題:1: PCAPcoANMD析分別是基于什么數(shù)據(jù)畫的?回答:PCAPcoA,NMD價析均是基于OTS類taxon數(shù)據(jù)所畫,用的是R語言Vegan包中的相關(guān)函數(shù)畫成,其中PcoA與NMDS5要基于樣本之間的距離矩陣才能畫成。2: PCA分析如果圖中大部分點集中在一起,少數(shù)點在很遠的外圍,是什么原因造成的?回答:是因為樣本OTS類時候,少數(shù)樣本某些菌含量特別高所造成,導致這些樣本偏離正常范圍,建議單獨拿出這些樣本觀察,看是否是實驗錯誤。3: PCA分析時,不是有PC1,

26、PC2PC3三個坐標嗎?是給出三張圖嗎?還是三維立體圖?回答:PCA作圖時,會得出PC1,PC2,PC3三個坐標,可以根據(jù)PC12,PC13,PC2價別作圖,一般給出的是PC12的圖,當PC12圖質(zhì)量不好,看不出明顯的樣本分類效果時,可以看PC13或PC23的圖分類是否清晰,也可以用R語言rgl包做出PC123三維圖。QIIME本身結(jié)果中有提供PCA勺三維圖結(jié)果,可以通過網(wǎng)頁打開。13.13LDA差異貢獻分析PC用口LDA的差別在于,PCA它所作的只是將整組數(shù)據(jù)整體映射到最方便表示這組數(shù)據(jù)的坐標軸上,映射時沒有利用任何數(shù)據(jù)內(nèi)部的分類信息,是無監(jiān)督的,而LDA是由監(jiān)督的,增加了種屬之間的信息關(guān)系

27、后,結(jié)合顯著性差異標準測試(克魯斯卡爾-沃利斯檢驗和兩兩Wilcoxon測試)和線性判別分析的方法進行特征選擇。除了可以檢測重要特征,他還可以根據(jù)效應(yīng)值進行功能特性排序,這些功能特性可以解釋頂部的大部分生物學差異。詳細說明可以參考這篇文章不同顏色代表不同樣本或組之間的顯著差異物種。使用LefSe軟件分析獲得,其中顯著差異的logahthmicLDAscore設(shè)為2。問題:LDA分析有什么用?回答:組間差異顯著物種又可以稱作生物標記物(biomarkers),該分析主要是想找到組問在豐度上有顯著差異的物種。Cladogramf制lerahMlJMMKMvUc.J斗血4CM1cyroMcmi*iv

28、iKILMJIAKlMClAimMlCNCtFihdivrEM-CW-K#KEff4rwcu)Hi晦修qtf喊gLflCflMWL&ASCORE(laglO14 .物種進化樹的樣本群落分布圖是將不同樣本的群落構(gòu)成及分布以物種分類樹的形式在一個環(huán)圖中展示。數(shù)據(jù)經(jīng)過分析后,將物種分類樹和分類豐度信息通過軟件GraPhlAn(http:/GraPhlAn)進行繪制。其目的是將物種之間的進化關(guān)系以及不同樣本的物種分布豐度和最高分布樣本的信息在一個視覺集中的環(huán)圖中一次展示,其提供的信息量較其他圖最為豐富。中間為物種進化分類樹,不同顏色的分支代表不同的

29、綱(具體的代表顏色見右上角的圖例),之后外圈的灰色標示字母的環(huán)表示的是本次研究中比例最高的15個科(字母代表的科參見左上角的圖例)。之后的外圈提供的是熱力圖,如果樣本數(shù)二10個則繪制樣本,如果樣本數(shù)超過10個則按照分組繪制,每一環(huán)為一個樣本,根據(jù)其豐度繪制的熱力圖。最外圈為柱狀圖,繪制的是該屬所占比例最高的樣本的豐度和樣本顏色(樣本顏色見環(huán)最下方的樣本名字的顏色)。其中熱力圖和柱狀圖取值均為原比例值x10000后進行l(wèi)og2轉(zhuǎn)換后的值參考文獻:1. Vazquez-BaezaY,PirrungM,GonzalezA,KnightR.2013.Emperor:Atoolforvisualizin

30、ghigh-throughputmicrobialcommunitydata.Gigascience2(1):16.2. Legendre,P.andLegendre,L.1998.NumericalEcology.SecondEnglishEdition.DevelopmentsinEnvironmentalModelling20.Elsevier,Amsterdam.3. SegataN,IzardJ,WaldronL,etal.MetagenomicbiomarkerdiscoveryandexplanationJ.GenomeBiol,2011,12(6):R60.4. Langill

31、eMGI,ZaneveldJ,CaporasoJG,McDonaldD,KnightsD,ReyesJAetal.(2013).Predictivefunctionalprofilingofmicrobialcommunitiesusing16SrRNAmarkergenesequences.NatBiotechnol31:814821.4ClUmWlKMHMMeKMiLIMyatoMMTtaMM.15 .物種相關(guān)性分析根據(jù)各個物種在各個樣品中的豐度以及變化情況,計算物種之間的相關(guān)性,包括正相關(guān)和負相關(guān)。相關(guān)性分析使用CCREP算法,首先對原始16s測序數(shù)據(jù)的種屬數(shù)量進行標準化,然后進行Spe

32、arman和Pearson秩相關(guān)分析并進行統(tǒng)計檢驗,計算出各個物種之間的相關(guān)性,之后在所有物種中根據(jù)simscore絕對值的大小,挑選出相關(guān)性最高的前100組數(shù)據(jù),基于Cytoscap繪制共表達分析網(wǎng)絡(luò)圖,網(wǎng)絡(luò)圖米用兩種不同的形式表現(xiàn)出來。物種相關(guān)性網(wǎng)絡(luò)圖A:圖中每一個點代表一個物種,存在相關(guān)性的物種用連線連接,其中,紅色的連線代表負相關(guān),綠色的先代表正相關(guān),連線顏色的深淺代表相關(guān)性的高低。物種相關(guān)性網(wǎng)絡(luò)圖B:圖中每一個點代表一個物種,點的大小表示與其他物種的關(guān)聯(lián)關(guān)系的多少,其中與之有相關(guān)性的物種數(shù)越多,點的半徑和字體越大,連線的粗細代表兩物種之間相關(guān)性的大小,連線越粗,相關(guān)性越高。參考文獻:

33、SchwagerE,WeingartG,BielskiC,etal.CCREPECompositionalityCorrectedbyPermutationandRenormalizationJ.2014.16.聚類分析根據(jù)OUT數(shù)據(jù)進行標準化處理(1wlog10)之后,選取數(shù)目最多的前60個物種,基于Rheatmap進行作圖,熱圖中的每一個色塊代表一個樣品的一個屬的豐度,樣品橫向排列,屬縱向排列,兩個熱圖,差異是是否對樣品進行聚類,從聚類中可以了解樣品之間的相似性以及屬水平上的群落構(gòu)成相似性。如果聚類結(jié)果中出現(xiàn)大面積的白或黑是因為大量的菌含量非常低,導致都沒有數(shù)值,可以在繪制之前進行標準化操

34、作,對每一類菌單獨自身進行Z標準化。17 .群落功能差異分析通過對已有測序微生物基因組的基因功能的構(gòu)成進行分析后,我們可以通過16s測序獲得的物種構(gòu)成推測樣本中的功能基因的構(gòu)成,從而分析不同樣本和分組之間在功能上的差異(PICRUStNatureBiotechnology,1-10.82013)。通過對宏基因組測序數(shù)據(jù)功能分析和對應(yīng)16s預測功能分析結(jié)果的比較發(fā)現(xiàn),此方法的準確性在84%-95%對腸道微生物菌群和土壤菌群的功能分析接近95%能非常好的反映樣品中的功能基因構(gòu)成。為了能夠通過16s測序數(shù)據(jù)來準確的預測出功能構(gòu)成,首先需要對原始16s測序數(shù)據(jù)的種屬數(shù)量進行標準化,因為不同的種屬菌包含

35、的16s拷貝數(shù)不相同。然后將16s的種屬構(gòu)成信息通過構(gòu)建好的已測序基因組的種屬功能基因構(gòu)成表映射獲得預測的功能結(jié)果。(根據(jù)屬這個水平,對不同樣本間的物種豐度進行顯著性差異兩兩檢驗,我們這里的檢驗方法使用STAM中的two-sample中T-TEST方法,Pvalue值過濾為0.05,作Extenterrorbar圖。)此處提供COGKO基因預測以及KEG獻謝途徑預測。用戶也可自行使用我們提供的文件和軟件(STAMP對不同層級以及不同分組之間進行統(tǒng)計分析和制圖,以及選擇不同的統(tǒng)計方法和顯著性水平。參考文獻:DonovanH.Parksl,GeneW.Tyson,STAMP:statistical

36、analysisoftaxonomicandfunctionalprofiles,Bioinformatics(2014)30(21):3123-3124.doi:10.109318 .COG勾成差異分析圖圖中不同顏色代表不同的分組,列出了COG勾成在組間存在顯著差異的功能分類以及在各組的比例,此外右側(cè)還給出了差異的比例和置信區(qū)間以及P-valueHB-I113-10-fl.SCIO0023軌W0515IBM300250.01ft00230.M3&BM4Meanproportion卜Dnrncrinttwmproportmii(%尊3md|T|Signaatrfliirsductnniwcha

37、msm!.網(wǎng)iEF3|L|Replktton,-wn-MbakIUlirtniiMiM.ftbowmaiitrucvmndggEMhfIMimIheioctjranftpvnandmF-啪I的|H|CciMYfMtJftrKpwlAndEN.ZhunP|iMrQaiHiintr*ng,HcrelQorandvm.LR|G*nerjiTufW:tan0r山(D|Cticyt*(EeLdinfiuflfl,chrommoffK_Q網(wǎng)Chromothnslructviwxd亦nmc$|19 .KEGG弋謝途徑差異分析圖通過KEGG弋謝途徑的預測差異分析,我們可以了解到不同分組的樣品之間在微生物群落的

38、功能基因在代謝途徑上的差異,以及變化的高低。為我們了解群落樣本的環(huán)境適應(yīng)變化的代謝過程提供一種簡便快捷的方法。圖解讀:圖中不同顏色代表不同的分組,列出了在第三層級的構(gòu)成在組問存在顯著差異的KEGG弋謝途徑第三層分類以及在各組的比例,此外右側(cè)還給出了差異的比例和置信區(qū)間以及P-value。本例圖所顯示的是第三層級的KEG默謝途徑的差異分析,也可以針對第二或第一層的分級進行分析MemibftiiwWihmmx!*“Ceil岬橫川Rplictiin0ftadRwpeirLMlab&lnin時口11Mgl1事ndWtammEiwgpMmboiMuj|yt;an劭Eithes忸and帆七。gi.Nucl

39、wtidrMtbaiisniiSignBi節(jié)新包wetion日tara*mi工朝.j|Bl”offerptrxHds即1%的小玳:RIeFAEruynwFawm-k|XMvlilMliifriMOttieJMniziZ咻目OthetIoncountedransdorterb日EE(需七SylttEfWtmMlviiprutwrvs-3,Saqn&iingiMWculM島帕l網(wǎng)I.時依tlai|EmrownentdlAd喇Em|CeflfmtiMyarxlscretlcnIbncvganiicsntrwsportandnreEboismIOtHirtr-riMXKf,)CrlldiHlii3n|

40、口鵬.(國fMhEl.*ndIxKKleqrMWiQnofMCndfer|rmrl!必|alcortactorKand。宜*rm|EketCruntrdnrferLdmen|Wn54h-4qB7b4Ciazc3j3-doi3j3】&1JT9e-30.0260asB7ta3001COOM7如34M*J170c30.0)400199*1A&,0&114D$MinpfoportiarK%)DilFrrvfiH1inrriMnpraporfiomW)20 .基因的差異分析圖除了能對大的基因功能分類和代謝途徑進行預測外,我們還能提供精細的功能基因的數(shù)量和構(gòu)成的預測,以及進行樣本間以及組問的差異分析,并給

41、出具有統(tǒng)計意義和置信區(qū)間的分析結(jié)果。這一分析將我們對于樣本群落的差異進一步深入到了每一類基因的層面。圖解讀:圖中不同顏色代表不同的分組,列出了在組間/樣本間存在顯著差異的每一個功能基因(酶)以及在各組的比例,此外右側(cè)還給出了差異的比例和置信區(qū)間以及P-value。4,conhdeinceintervalsKDH20:pUCiUVBtfCMyRrAMterMe|EC2JLI口時舊hDMtriEkiMitti5JK4wimaK0J3M:履triHSiPWr*.DcuClumllybRCHJW;cirfoctiwnechfpt力h序preinCcmMbuHJl&Wtyperirwprat5*EU5*

42、八尸|,KO3=74&DMAbinding戶EeiH-NSbK07的:?AC-CMnfiAiwit與NjifLfM,j后期土卜K0Z1&BVMQtk-AmninFchalmrfAmpcnproteinO,QQ6BJ4-41.4T-49.5e-41lie-3KKD40:35【工二1L14QJ5aHKOI761gamma|EC44.1111Q&n“4匕附SMJ,Siijccin-fi-tiydlrBtff-3,1eyeg“kitdiefir-17.5J-a-4hyportM4口值科n19)4ROMT97n-gTtfEoro9uwwMirductiM|EC;L7.1.1dim】MX77msT|AttDvgQEC421,4149J7C-491(3143SCC7014MM|qWMOIj眄日刎M姓值創(chuàng)proCelAjQ1lie3111sMi匚e*protEinjIQle3;鼠6Wl0+CAHAi2,twwridlnes-yrttwsiil

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論