版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
工作進(jìn)展1整理課件RNA-sequences分析方法
hisat+stringtie+ballgown2整理課件HISAT1:index算法基于BWT和以BWT為根底的FM
index:
FM算法是以BWT為根底,在計(jì)算的過程中加了兩個參數(shù),一個是OCC,Occ[c,r]表示在BWT〔T〕中第r行之前出現(xiàn)字符c的個數(shù),因?yàn)槿绻颜麄€基因組存進(jìn)去,每次都要重頭數(shù)一遍,消耗量太大,所以是以幾百行為一組為一個checkpoint,這樣內(nèi)存就小了,也方便檢索;另外一個是SA,
記錄第r行在參考基因組中是什么位置,這個過程是在BWT操作中實(shí)現(xiàn)的。2:建立index的方式:全基因組FMindex和局部index〔特色,新的建索引庫策略〕核心算法會用到tophat3上HISAT在基因組范圍內(nèi)有48000個局部FMindex每個長度64k,通過測試數(shù)據(jù)和真實(shí)數(shù)據(jù)的比較,發(fā)現(xiàn)這是一個最快的軟件。HISAT的根本設(shè)計(jì)原理:HISAT利用bowtie2來建立很多低水平結(jié)果的FMindex,這些index包含兩種類型:1:全基因組index;2:大量的小FMindex,每個代表64k,也因?yàn)榻撕芏嘈〉膇ndex,所以總的內(nèi)存使用情況也較低3:100bp的reads至少跨越兩個exon的占34.5%,分為三類:1:每個外顯子至少16bp〔25.1〕;每個外顯子8-15bp〔5.1〕,每個外顯子1-7bp〔4.2〕;另外跨越三個的3.1%。針對每種reads都有相應(yīng)的比對策略根本的比對策略的思想是先在眾多index中找,如果比對上多個地方,就往兩邊延伸;4:根本的性能比照速度:110,193條reads/s,tophat1,954;利用模擬數(shù)據(jù)正確比對率〔99.2%〕,tophat2(97.4);在跨越2個exon,只有1-7bp的reads來說;
uniq比對率HISAT〔94.4〕tophat2(77.8)另外敏感度和準(zhǔn)確性HISAT〔97.3,94.8〕Tophat2〔90.6,82.6〕100bp,20M的reads用時26.7min,tophat21170分鐘3整理課件stringtieStringTie和Cufflinks算法比照cufflinksparsimony算法
(簡約算法):生成最少的亞型,這種算法沒有考慮轉(zhuǎn)錄豐度,在isoforms方面算的不準(zhǔn)。其在算表達(dá)量的時候,按照圖上的說法是用了最大似然冗余算法。stringTie先將reads分為不同的類,然后再針對每個類的reads生成一個拼接圖來確定轉(zhuǎn)錄本,之后每個轉(zhuǎn)錄本產(chǎn)生一個流神經(jīng)網(wǎng)絡(luò)的最大流算法來評估表達(dá)水平這個算法的意思對應(yīng)過來就是在一個基因處的假設(shè)干個轉(zhuǎn)錄本,如何分配reads的數(shù)目才能讓每個轉(zhuǎn)錄本的數(shù)目都處在最多的狀態(tài)。這個算法是求解最優(yōu)化的。在RNA組裝方面優(yōu)劣勢比照在組裝方面StringTie具有一些優(yōu)勢,在低表達(dá)的局部,閾值過濾5%的StringTie比閾值過濾10%的準(zhǔn)確度和敏感度還要高〔這里的準(zhǔn)確度和敏感度是把原始數(shù)據(jù)隨機(jī)抽取出來一局部數(shù)據(jù),看看這兩組隨機(jī)抽出來的數(shù)據(jù)的重合度如何和ROC是一個事情〕關(guān)于組裝效果,StringTie要好于cufflinks,StringTie可以正確組裝10990長的轉(zhuǎn)錄本,cunfflinks組裝長度為7187,同時他們又遠(yuǎn)遠(yuǎn)好于其他軟件。性能比照時間上來說:StringTie30min,cufflink81min,比其他軟件快3倍,內(nèi)存比cufflink少一半,找出來的基因中,cufflink找出來的70%在StringTie中有重合,相比于cufflink,StringTie在基因重構(gòu)方面對三種類型的基因更有效,分別是:低冗余,高exon數(shù)目和多重轉(zhuǎn)錄本。StringTie之所以能取得好的效果,是因?yàn)槟P椭杏袀€求最有的過程;其可以通過轉(zhuǎn)錄組的每個組裝平衡覆蓋度,算法自己可以通過合并覆蓋到的深度來限制組裝。4整理課件Ballgown
ballgown是一個R腳本,用來分析差異結(jié)果的,差異分布的結(jié)果是基于F-test來檢測的,和我們以前用的有些不同就測試內(nèi)存而言,cu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院科室調(diào)整申請書(6篇)
- 從細(xì)節(jié)出發(fā)如何通過標(biāo)準(zhǔn)化的操作提升實(shí)驗(yàn)效率
- 冰雪運(yùn)動中的自我認(rèn)知與挑戰(zhàn)
- 農(nóng)產(chǎn)品加工機(jī)械市場的消費(fèi)者偏好調(diào)研
- 辦公室學(xué)習(xí)文化的建立與習(xí)慣養(yǎng)成
- 農(nóng)村學(xué)校衛(wèi)生與健康教育情況分析
- 2025超市水果供貨合同協(xié)議書范本
- 2025民間個人之間借款合同范本
- 產(chǎn)品設(shè)計(jì)的情感化與技術(shù)化平衡
- 紫花苜蓿種子繁育基地建設(shè)項(xiàng)目可行性研究報告報批稿
- 軟件研發(fā)部績效考核方案三篇
- 像工程師那樣 教學(xué)設(shè)計(jì)-2023-2024學(xué)年科學(xué)五年級上冊蘇教版
- 2024至2030年中國SPA行業(yè)市場消費(fèi)調(diào)研及投融資戰(zhàn)略咨詢報告
- 成語故事《打草驚蛇》故事簡介
- 北京水務(wù)投資集團(tuán)有限公司招聘筆試題庫2024
- GB 1002-2024家用和類似用途單相插頭插座型式、基本參數(shù)和尺寸
- 2024年國家開放大學(xué)電大《文學(xué)概論》機(jī)考2套網(wǎng)絡(luò)課題庫及答案4-圖文
- 道路維修勞務(wù)合同協(xié)議書
- 暑假工雇傭協(xié)議模板
- 九年級化學(xué)下冊 9.1 溶液的形成教案2 (新版)新人教版
- 計(jì)算機(jī)設(shè)備出租行業(yè)發(fā)展趨勢及前景展望分析報告
評論
0/150
提交評論