![8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第1頁](http://file4.renrendoc.com/view/9a0bc1f6324406251a3f92027dfc6ac0/9a0bc1f6324406251a3f92027dfc6ac01.gif)
![8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第2頁](http://file4.renrendoc.com/view/9a0bc1f6324406251a3f92027dfc6ac0/9a0bc1f6324406251a3f92027dfc6ac02.gif)
![8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第3頁](http://file4.renrendoc.com/view/9a0bc1f6324406251a3f92027dfc6ac0/9a0bc1f6324406251a3f92027dfc6ac03.gif)
![8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第4頁](http://file4.renrendoc.com/view/9a0bc1f6324406251a3f92027dfc6ac0/9a0bc1f6324406251a3f92027dfc6ac04.gif)
![8+互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用_第5頁](http://file4.renrendoc.com/view/9a0bc1f6324406251a3f92027dfc6ac0/9a0bc1f6324406251a3f92027dfc6ac05.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
上海其明信息技術有限公司研發(fā)總監(jiān)蔡家華互聯(lián)網(wǎng)技術在基因大數(shù)據(jù)中的應用其明信息研發(fā)總監(jiān)
蔡家華GCBI集合了文獻、樣本、生物數(shù)據(jù)庫、數(shù)據(jù)分析為一體的基因云平臺1如何用互聯(lián)網(wǎng)技術解決問題14點啟示ADCB單個樣本數(shù)據(jù)量大,生物信息數(shù)據(jù)庫數(shù)據(jù)量龐大,導致存儲、傳輸、整理、展現(xiàn)等問題數(shù)據(jù)量龐大生物數(shù)據(jù)庫應用廣泛、分析計算、注釋、解釋等方面都需要,其是真正的核心生物數(shù)據(jù)庫是核心數(shù)據(jù)量大,導致了數(shù)據(jù)分析的復雜度也隨之增加,如果充分利用現(xiàn)有的服務器資源成為關鍵需提升數(shù)據(jù)分析效率科研成果通過論文的方式來展現(xiàn),通過文獻能夠了解到前沿先進的理論,從中可以獲取到靈感文獻的重要性2大數(shù)據(jù)量帶來的問題數(shù)據(jù)存儲硬盤、磁盤已經(jīng)滿足不了生物數(shù)據(jù)存儲。數(shù)據(jù)備份更是雪上加霜。所以需要有磁盤容量大,易擴展及備份的存儲解決方案數(shù)據(jù)傳輸數(shù)據(jù)量龐大帶來了數(shù)據(jù)傳輸?shù)某杀靖摺鬏斅?、穩(wěn)定性差數(shù)據(jù)的展現(xiàn)密密麻麻的表格數(shù)據(jù),無法定位到有價值的內容。數(shù)據(jù)與數(shù)據(jù)的關聯(lián)性更是無法展現(xiàn)數(shù)據(jù)整理生物數(shù)據(jù)來自于不同的組織機構,沒有統(tǒng)一的數(shù)據(jù)格式規(guī)范。整理數(shù)據(jù)需要大量人工參與,效率低3數(shù)據(jù)存儲冷數(shù)據(jù)只用一次或者兩次的數(shù)據(jù)。比如樣本數(shù)據(jù),分析完后,原始數(shù)據(jù)很少再重復使用檢索數(shù)據(jù)通常會被根據(jù)不同的條件頻繁查找的數(shù)據(jù),比如文獻通用數(shù)據(jù)業(yè)務型數(shù)據(jù),數(shù)據(jù)與數(shù)據(jù)之間有關聯(lián)性;或者實體型數(shù)據(jù)文件數(shù)據(jù)數(shù)據(jù)以文件方式存儲,文件數(shù)多或者文件容量大高頻數(shù)據(jù)頻繁會被使用的數(shù)據(jù),而且對讀取效率有高要求。比如測序注釋數(shù)據(jù)4數(shù)據(jù)傳輸-樣本上傳其明北京機房24小時12分鐘千兆專線70G
WGS樣本分析結束2.5小時高速傳輸工具3小時中國30層全基因樣本上傳及分析流程5數(shù)據(jù)傳輸-數(shù)據(jù)同步USA中國tsunami-udp是一款專為網(wǎng)絡加速誕生的小工具用TCP進行傳輸控制、用UDP進行數(shù)據(jù)傳輸pubmed、geo樣本、tcga樣本、gene、SNP等數(shù)據(jù)的同步高速傳輸工具3倍提升6數(shù)據(jù)整理建立自動化流程,如:文獻(日更新):同步
->解析->索引->特征提取->入庫樣本(周更新):同步->校驗->標化->分析->入庫對于更新周期不固定或者結構時常變化數(shù)據(jù),需要人工干預。比如:dbSNP、gene等7數(shù)據(jù)展現(xiàn)傳統(tǒng)的excel滿足不了對大數(shù)據(jù)的處理樣本類型數(shù)據(jù)量芯片3萬~50萬全基因測序600萬+全外顯子測序4萬+RNA測序10萬通過統(tǒng)計圖展現(xiàn)數(shù)據(jù)的概況交互式圖形,快速定位到用戶想要的數(shù)據(jù)8關于文獻總文獻量27061130篇藥物關系數(shù)7942218篇疾病關系數(shù)10668989篇樣本關系數(shù)36421篇基因關系數(shù)796676篇截止于2017年4月19日50%15%20%10%5%文獻學院樣本雷達實驗室平臺訪問量9文獻處理相關技術pubmed同步模塊pubmed解析模塊pubmed挖掘模塊相似文獻模塊pubmed索引模塊搜索詞處理模塊GCBI文獻檢索網(wǎng)站文獻檢索文獻同步及挖掘基因、疾病、藥物、作者全文同步模塊10數(shù)據(jù)分析計算的問題內存的使用不當對內存的使用沒有預估,同一服務器并行執(zhí)行任務時容易導致內存溢出系統(tǒng)資源利用率低對CPU、磁盤IO的使用沒有預估…任務無法分解往往一個大流程任務,無法拆分子流程,不能做到并行,導致執(zhí)行效率低代碼冗余,維護性差例如同一個算法代碼在多個項目中都使用到,但是并沒有將其合理的抽象復用,導致很難維護
11數(shù)據(jù)分析計算的問題共享內存內存是服務器的稀缺資源。共享內存及分布式內存是解決內存不夠用的方案
系統(tǒng)資源預估及規(guī)劃一個任務程序所需的CPU、內存及Io需要事先評估,并且通過合理的資源管理有效確保多個任務能夠并行執(zhí)行
支持多線程及分布式多線程處理及分布式處理是一個比較通用的提升分析效率的問題,但首先需要確保任務的分解及最后的數(shù)據(jù)合并
代碼模塊化組件化開發(fā)或者模塊化開發(fā),能夠讓程序做到有效的復用,同時維護成本也將提升
12生物數(shù)據(jù)庫整合了20多款生物數(shù)據(jù)庫自有人群頻率數(shù)據(jù)13云服務自助服務通過基于瀏覽器的自服務界面,客戶可遠程安裝操作系統(tǒng),遠程集中管理分布在不同數(shù)據(jù)中心的云服務器成本優(yōu)勢云服務器租用用戶不需要支付任何押金就可享受服務,缺少了很少的中間步驟,按需支付,有效的降低了成本擴展能力提升云主機的基本特點就是分布式架構,所以可以輕而易舉地增加服務器,成倍擴展服務能力安全性高因為服務分布在多臺服務器、甚至多個機房,所以不容易徹底宕機,抗災容錯能力強,可以保證長時間在線2GCSAS測序分析系統(tǒng)1全基因測序分析數(shù)據(jù)預處理質控比對變異文件SNP/INDEL注釋結果整理評級fastq,bam,sraQ20,Q30,測序深度,有效數(shù)據(jù)比例…h(huán)g19,hg38vcf,ann,qc,
statistics2其它測序分析數(shù)據(jù)預處理質控比對變異文件SNP/INDEL注釋評級全外顯子及靶向捕獲測序RNA測序數(shù)據(jù)預處理比對組裝與定量基因/轉錄本注釋質控結果整理結果整理3測序高級分析2143特性可視化提供基于網(wǎng)頁的模式,用戶可以根據(jù)實際分析需求選擇分析組件,搭建分析流程分組差異分析在給定分組條件下,篩選出顯著性變化的轉錄本(基因)列表,從而更好地鑒定生物相關功能數(shù)據(jù)過濾根據(jù)不同的數(shù)據(jù)類型,提供與其相關的過濾規(guī)則及屬性,幫助用戶能夠快速的定位到有價值的數(shù)據(jù)多元化的分析組件除了差異分析以外,還提供了數(shù)據(jù)交集,扣集的處理。針對于基因數(shù)據(jù),提供了功能和通路的分析算法4分析可視化分析流程圖4分析可視化數(shù)據(jù)過濾3GCSAS的臨床應用1中國人乳腺癌易感基因分析平臺BRCA1/2易感基因的檢測、分析、報告與建議,用于輔助診療,并建立萬人級的中國人群BRCA1/2易感基因數(shù)據(jù)庫。
合作單位:國家人類基因組南方中心項目網(wǎng)址:應用方案:臨床基因檢測和分析平臺、生物信息數(shù)據(jù)庫構建方案2分子病理操作流程及數(shù)據(jù)管理系統(tǒng)系統(tǒng)規(guī)范操作流程、記錄重要步驟和數(shù)據(jù)進行統(tǒng)計與監(jiān)督,對分子病理檢測平臺產(chǎn)生的數(shù)據(jù)進行標準化處理、解析、分析、形成病理報告數(shù)據(jù)。合作單位:復旦大學附屬腫瘤醫(yī)院
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流倉儲中心的安全用電及節(jié)能技術介紹
- 旅游行業(yè)中的安全文化傳播與風險應對策略研究
- 校園網(wǎng)絡安全事件應對與處置策略研究
- 通過親子活動強化家庭成員間的情感連接
- 2025年度環(huán)保型混凝土居間服務合同
- 2025年度智慧環(huán)保項目經(jīng)理內部承包管理合同
- 現(xiàn)代家庭飲食平衡教育的重要性
- 2025年度鍋爐進出口貿易合同
- 2025年度車輛抵押給私人汽車租賃與保險代理合同
- 2025年度股東借款及公司戰(zhàn)略發(fā)展規(guī)劃合同
- 《梅大高速茶陽路段“5·1”塌方災害調查評估報告》專題警示學習
- 2024年09月北京中信銀行北京分行社會招考(917)筆試歷年參考題庫附帶答案詳解
- 《大健康解讀》課件
- 2025年度交通運輸規(guī)劃外聘專家咨詢協(xié)議3篇
- 2024年公司領導在新年動員會上的講話樣本(3篇)
- 人教版道德與法治二年級下冊《第一單元 讓我試試看》大單元整體教學設計2022課標
- 2024年3季度青島房地產(chǎn)市場季度簡報
- 蘇東坡詞十首
- 2023年天津市文化和旅游局直屬事業(yè)單位招聘考試真題及答案
- 電力系統(tǒng)分析(郝亮亮)
- 改善護理服務行動計劃方案
評論
0/150
提交評論