微生物多樣性研究中測序原始數據及其處理方式(精編版)_第1頁
微生物多樣性研究中測序原始數據及其處理方式(精編版)_第2頁
微生物多樣性研究中測序原始數據及其處理方式(精編版)_第3頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、微生物多樣性研究中測序原始數據及其處理方式展開全文1. 原始 數據的解釋及相關概念原始數據的概念:a. 測序儀完成測序后生產的測序文件,經過單樣品拆分后,獲得的單樣品測序文件。b.或者 測序儀測序完成后, 由測序儀直接拆分的單樣品測序 文件。 我們常常稱之為 “ rawdata ”原始數據展示 (illumina 測序平臺、 fastq 格式文件 ):fastq 格式文件: 基于文本的, 保存生物序列 (通常是核酸序列) 和其質量信息的標準格式, 其實質是一種數據存儲格式,其序列以及質量都是使用一個 ascii 字符標示,最初有sanger 公司開發(fā), 目的是將 fasta 序列和質量數據放在

2、一起, 目前已經成為高通量測序結果的事實標準。對于 fastq 格式文件內容相關解釋:1)第一行以 “ ”開頭, 由文件識別標志和讀段名 (id)組成;2)第二行為堿基序列;3)第三行以 “ + ”開頭,也是由文件識別標志和讀段名( id)組成,其 id 可以省略,但 “ + 能省略;4)第四行是第二行中的序列內容每個堿基所對應的測序質量值。2. 數據質控高通量測序下機的原始數據 raw reads 中存在一些低質量數 據、接頭以及 barcode 序列等,為消除其對后續(xù)分析準確性 產生的影響,在數據下機以后對原始數據進行質控處理就成了至關重要的環(huán)節(jié)。數據質控的概念:將原始數據通過系列步驟(或

3、同時進行)質量控制篩選的過程。質控篩選后的數據,我們常常稱之為 “cleandata,”也稱之為 “可以進行后續(xù)分析的序列 ”。因各服務商提供的質控標準會略有不同,但大體包含(但不限于)如下幾方面:1)通過 index 提取序列,并作測序質量控制,質量達不到設置要求的去除,將序列與樣本對應;2)通過 overlap 完成拼接,去除 index 序列, overlap 長度 和錯配要達到設置的要求,拼接不上的舍棄;3)拼接完成且長度達不到設定要求的舍棄。?問題: cleandata (可用于分析的序列)跟最終參與分析的序列數量相等嗎?我們將在 otu 聚類環(huán)節(jié)給出答案。3. 原始數據的重要性原始數據一切數據分析的根本。分析過程文件、結果文件可以丟失,原始數據在,分析結果可以重現;原始數據一旦丟失,分析結果則不可重現;原始數據應及時索取或保存。獲取方式1 )服務商提供:硬盤、網盤、 u 盤、郵件等數據載體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論