8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第1頁
8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第2頁
8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第3頁
8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第4頁
8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

上海其明信息技術有限公司研發(fā)總監(jiān)蔡家華互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用其明信息研發(fā)總監(jiān)

蔡家華GCBI集合了文獻、樣本、生物數(shù)據(jù)庫、數(shù)據(jù)分析為一體的基因云平臺1如何用互聯(lián)網(wǎng)技術解決問題14點啟示ADCB單個樣本數(shù)據(jù)量大,生物信息數(shù)據(jù)庫數(shù)據(jù)量龐大,導致存儲、傳輸、整理、展現(xiàn)等問題數(shù)據(jù)量龐大生物數(shù)據(jù)庫應用廣泛、分析計算、注釋、解釋等方面都需要,其是真正的核心生物數(shù)據(jù)庫是核心數(shù)據(jù)量大,導致了數(shù)據(jù)分析的復雜度也隨之增加,如果充分利用現(xiàn)有的服務器資源成為關鍵需提升數(shù)據(jù)分析效率科研成果通過論文的方式來展現(xiàn),通過文獻能夠了解到前沿先進的理論,從中可以獲取到靈感文獻的重要性2大數(shù)據(jù)量帶來的問題數(shù)據(jù)存儲硬盤、磁盤已經(jīng)滿足不了生物數(shù)據(jù)存儲。數(shù)據(jù)備份更是雪上加霜。所以需要有磁盤容量大,易擴展及備份的存儲解決方案數(shù)據(jù)傳輸數(shù)據(jù)量龐大帶來了數(shù)據(jù)傳輸?shù)某杀靖摺鬏斅?、穩(wěn)定性差數(shù)據(jù)的展現(xiàn)密密麻麻的表格數(shù)據(jù),無法定位到有價值的內容。數(shù)據(jù)與數(shù)據(jù)的關聯(lián)性更是無法展現(xiàn)數(shù)據(jù)整理生物數(shù)據(jù)來自于不同的組織機構,沒有統(tǒng)一的數(shù)據(jù)格式規(guī)范。整理數(shù)據(jù)需要大量人工參與,效率低3數(shù)據(jù)存儲冷數(shù)據(jù)只用一次或者兩次的數(shù)據(jù)。比如樣本數(shù)據(jù),分析完后,原始數(shù)據(jù)很少再重復使用檢索數(shù)據(jù)通常會被根據(jù)不同的條件頻繁查找的數(shù)據(jù),比如文獻通用數(shù)據(jù)業(yè)務型數(shù)據(jù),數(shù)據(jù)與數(shù)據(jù)之間有關聯(lián)性;或者實體型數(shù)據(jù)文件數(shù)據(jù)數(shù)據(jù)以文件方式存儲,文件數(shù)多或者文件容量大高頻數(shù)據(jù)頻繁會被使用的數(shù)據(jù),而且對讀取效率有高要求。比如測序注釋數(shù)據(jù)4數(shù)據(jù)傳輸-樣本上傳其明北京機房24小時12分鐘千兆專線70G

WGS樣本分析結束2.5小時高速傳輸工具3小時中國30層全基因樣本上傳及分析流程5數(shù)據(jù)傳輸-數(shù)據(jù)同步USA中國tsunami-udp是一款專為網(wǎng)絡加速誕生的小工具用TCP進行傳輸控制、用UDP進行數(shù)據(jù)傳輸pubmed、geo樣本、tcga樣本、gene、SNP等數(shù)據(jù)的同步高速傳輸工具3倍提升6數(shù)據(jù)整理建立自動化流程,如:文獻(日更新):同步

->解析->索引->特征提取->入庫樣本(周更新):同步->校驗->標化->分析->入庫對于更新周期不固定或者結構時常變化數(shù)據(jù),需要人工干預。比如:dbSNP、gene等7數(shù)據(jù)展現(xiàn)傳統(tǒng)的excel滿足不了對大數(shù)據(jù)的處理樣本類型數(shù)據(jù)量芯片3萬~50萬全基因測序600萬+全外顯子測序4萬+RNA測序10萬通過統(tǒng)計圖展現(xiàn)數(shù)據(jù)的概況交互式圖形,快速定位到用戶想要的數(shù)據(jù)8關于文獻總文獻量27061130篇藥物關系數(shù)7942218篇疾病關系數(shù)10668989篇樣本關系數(shù)36421篇基因關系數(shù)796676篇截止于2017年4月19日50%15%20%10%5%文獻學院樣本雷達實驗室平臺訪問量9文獻處理相關技術pubmed同步模塊pubmed解析模塊pubmed挖掘模塊相似文獻模塊pubmed索引模塊搜索詞處理模塊GCBI文獻檢索網(wǎng)站文獻檢索文獻同步及挖掘基因、疾病、藥物、作者全文同步模塊10數(shù)據(jù)分析計算的問題內存的使用不當對內存的使用沒有預估,同一服務器并行執(zhí)行任務時容易導致內存溢出系統(tǒng)資源利用率低對CPU、磁盤IO的使用沒有預估…任務無法分解往往一個大流程任務,無法拆分子流程,不能做到并行,導致執(zhí)行效率低代碼冗余,維護性差例如同一個算法代碼在多個項目中都使用到,但是并沒有將其合理的抽象復用,導致很難維護

11數(shù)據(jù)分析計算的問題共享內存內存是服務器的稀缺資源。共享內存及分布式內存是解決內存不夠用的方案

系統(tǒng)資源預估及規(guī)劃一個任務程序所需的CPU、內存及Io需要事先評估,并且通過合理的資源管理有效確保多個任務能夠并行執(zhí)行

支持多線程及分布式多線程處理及分布式處理是一個比較通用的提升分析效率的問題,但首先需要確保任務的分解及最后的數(shù)據(jù)合并

代碼模塊化組件化開發(fā)或者模塊化開發(fā),能夠讓程序做到有效的復用,同時維護成本也將提升

12生物數(shù)據(jù)庫整合了20多款生物數(shù)據(jù)庫自有人群頻率數(shù)據(jù)13云服務自助服務通過基于瀏覽器的自服務界面,客戶可遠程安裝操作系統(tǒng),遠程集中管理分布在不同數(shù)據(jù)中心的云服務器成本優(yōu)勢云服務器租用用戶不需要支付任何押金就可享受服務,缺少了很少的中間步驟,按需支付,有效的降低了成本擴展能力提升云主機的基本特點就是分布式架構,所以可以輕而易舉地增加服務器,成倍擴展服務能力安全性高因為服務分布在多臺服務器、甚至多個機房,所以不容易徹底宕機,抗災容錯能力強,可以保證長時間在線2GCSAS測序分析系統(tǒng)1全基因測序分析數(shù)據(jù)預處理質控比對變異文件SNP/INDEL注釋結果整理評級fastq,bam,sraQ20,Q30,測序深度,有效數(shù)據(jù)比例…h(huán)g19,hg38vcf,ann,qc,

statistics2其它測序分析數(shù)據(jù)預處理質控比對變異文件SNP/INDEL注釋評級全外顯子及靶向捕獲測序RNA測序數(shù)據(jù)預處理比對組裝與定量基因/轉錄本注釋質控結果整理結果整理3測序高級分析2143特性可視化提供基于網(wǎng)頁的模式,用戶可以根據(jù)實際分析需求選擇分析組件,搭建分析流程分組差異分析在給定分組條件下,篩選出顯著性變化的轉錄本(基因)列表,從而更好地鑒定生物相關功能數(shù)據(jù)過濾根據(jù)不同的數(shù)據(jù)類型,提供與其相關的過濾規(guī)則及屬性,幫助用戶能夠快速的定位到有價值的數(shù)據(jù)多元化的分析組件除了差異分析以外,還提供了數(shù)據(jù)交集,扣集的處理。針對于基因數(shù)據(jù),提供了功能和通路的分析算法4分析可視化分析流程圖4分析可視化數(shù)據(jù)過濾3GCSAS的臨床應用1中國人乳腺癌易感基因分析平臺BRCA1/2易感基因的檢測、分析、報告與建議,用于輔助診療,并建立萬人級的中國人群BRCA1/2易感基因數(shù)據(jù)庫。

合作單位:國家人類基因組南方中心項目網(wǎng)址:應用方案:臨床基因檢測和分析平臺、生物信息數(shù)據(jù)庫構建方案2分子病理操作流程及數(shù)據(jù)管理系統(tǒng)系統(tǒng)規(guī)范操作流程、記錄重要步驟和數(shù)據(jù)進行統(tǒng)計與監(jiān)督,對分子病理檢測平臺產(chǎn)生的數(shù)據(jù)進行標準化處理、解析、分析、形成病理報告數(shù)據(jù)。合作單位:復旦大學附屬腫瘤醫(yī)院

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論