《二代測序分析》_第1頁
《二代測序分析》_第2頁
《二代測序分析》_第3頁
《二代測序分析》_第4頁
《二代測序分析》_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

工作進(jìn)展1整理課件RNA-sequences分析方法

hisat+stringtie+ballgown2整理課件HISAT1:index算法基于BWT和以BWT為根底的FM

index:

FM算法是以BWT為根底,在計(jì)算的過程中加了兩個參數(shù),一個是OCC,Occ[c,r]表示在BWT〔T〕中第r行之前出現(xiàn)字符c的個數(shù),因?yàn)槿绻颜麄€基因組存進(jìn)去,每次都要重頭數(shù)一遍,消耗量太大,所以是以幾百行為一組為一個checkpoint,這樣內(nèi)存就小了,也方便檢索;另外一個是SA,

記錄第r行在參考基因組中是什么位置,這個過程是在BWT操作中實(shí)現(xiàn)的。2:建立index的方式:全基因組FMindex和局部index〔特色,新的建索引庫策略〕核心算法會用到tophat3上HISAT在基因組范圍內(nèi)有48000個局部FMindex每個長度64k,通過測試數(shù)據(jù)和真實(shí)數(shù)據(jù)的比較,發(fā)現(xiàn)這是一個最快的軟件。HISAT的根本設(shè)計(jì)原理:HISAT利用bowtie2來建立很多低水平結(jié)果的FMindex,這些index包含兩種類型:1:全基因組index;2:大量的小FMindex,每個代表64k,也因?yàn)榻撕芏嘈〉膇ndex,所以總的內(nèi)存使用情況也較低3:100bp的reads至少跨越兩個exon的占34.5%,分為三類:1:每個外顯子至少16bp〔25.1〕;每個外顯子8-15bp〔5.1〕,每個外顯子1-7bp〔4.2〕;另外跨越三個的3.1%。針對每種reads都有相應(yīng)的比對策略根本的比對策略的思想是先在眾多index中找,如果比對上多個地方,就往兩邊延伸;4:根本的性能比照速度:110,193條reads/s,tophat1,954;利用模擬數(shù)據(jù)正確比對率〔99.2%〕,tophat2(97.4);在跨越2個exon,只有1-7bp的reads來說;

uniq比對率HISAT〔94.4〕tophat2(77.8)另外敏感度和準(zhǔn)確性HISAT〔97.3,94.8〕Tophat2〔90.6,82.6〕100bp,20M的reads用時26.7min,tophat21170分鐘3整理課件stringtieStringTie和Cufflinks算法比照cufflinksparsimony算法

(簡約算法):生成最少的亞型,這種算法沒有考慮轉(zhuǎn)錄豐度,在isoforms方面算的不準(zhǔn)。其在算表達(dá)量的時候,按照圖上的說法是用了最大似然冗余算法。stringTie先將reads分為不同的類,然后再針對每個類的reads生成一個拼接圖來確定轉(zhuǎn)錄本,之后每個轉(zhuǎn)錄本產(chǎn)生一個流神經(jīng)網(wǎng)絡(luò)的最大流算法來評估表達(dá)水平這個算法的意思對應(yīng)過來就是在一個基因處的假設(shè)干個轉(zhuǎn)錄本,如何分配reads的數(shù)目才能讓每個轉(zhuǎn)錄本的數(shù)目都處在最多的狀態(tài)。這個算法是求解最優(yōu)化的。在RNA組裝方面優(yōu)劣勢比照在組裝方面StringTie具有一些優(yōu)勢,在低表達(dá)的局部,閾值過濾5%的StringTie比閾值過濾10%的準(zhǔn)確度和敏感度還要高〔這里的準(zhǔn)確度和敏感度是把原始數(shù)據(jù)隨機(jī)抽取出來一局部數(shù)據(jù),看看這兩組隨機(jī)抽出來的數(shù)據(jù)的重合度如何和ROC是一個事情〕關(guān)于組裝效果,StringTie要好于cufflinks,StringTie可以正確組裝10990長的轉(zhuǎn)錄本,cunfflinks組裝長度為7187,同時他們又遠(yuǎn)遠(yuǎn)好于其他軟件。性能比照時間上來說:StringTie30min,cufflink81min,比其他軟件快3倍,內(nèi)存比cufflink少一半,找出來的基因中,cufflink找出來的70%在StringTie中有重合,相比于cufflink,StringTie在基因重構(gòu)方面對三種類型的基因更有效,分別是:低冗余,高exon數(shù)目和多重轉(zhuǎn)錄本。StringTie之所以能取得好的效果,是因?yàn)槟P椭杏袀€求最有的過程;其可以通過轉(zhuǎn)錄組的每個組裝平衡覆蓋度,算法自己可以通過合并覆蓋到的深度來限制組裝。4整理課件Ballgown

ballgown是一個R腳本,用來分析差異結(jié)果的,差異分布的結(jié)果是基于F-test來檢測的,和我們以前用的有些不同就測試內(nèi)存而言,cu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論