基于云平臺的生物醫(yī)學(xué)大數(shù)據(jù)中心_第1頁
基于云平臺的生物醫(yī)學(xué)大數(shù)據(jù)中心_第2頁
基于云平臺的生物醫(yī)學(xué)大數(shù)據(jù)中心_第3頁
基于云平臺的生物醫(yī)學(xué)大數(shù)據(jù)中心_第4頁
基于云平臺的生物醫(yī)學(xué)大數(shù)據(jù)中心_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于云平臺的生物醫(yī)學(xué)大數(shù)據(jù)中心長沙,2017年4月23日朱云平國家蛋白質(zhì)科學(xué)中心(北京)軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所zhuyunping@第四屆全國計算生物學(xué)與生物信息學(xué)學(xué)術(shù)會議提綱示例:蛋白質(zhì)組資源中心75生物大數(shù)據(jù)開發(fā)與利用4我國生物大數(shù)據(jù)基礎(chǔ)和差距1大數(shù)據(jù),大趨勢6生物數(shù)據(jù)中心建設(shè)2生物、醫(yī)療大數(shù)據(jù)3歐美生物大數(shù)據(jù)國家發(fā)展戰(zhàn)略大數(shù)據(jù),大趨勢全球數(shù)據(jù)總量2000年800TB2010年600EB2011年1.8ZB2012年2.7ZB…….2020年35ZB(IDC)全球數(shù)據(jù)每18個月翻一番

僅將2008年的數(shù)據(jù)印刷成書并整齊排列,其長度是地球到冥王星距離的10倍!MoneyPeopleData

生產(chǎn)資料中首次出現(xiàn)非物質(zhì)成分:數(shù)據(jù)趨勢一:資本經(jīng)濟(jì)時代

數(shù)據(jù)經(jīng)濟(jì)時代大數(shù)據(jù),大趨勢55趨勢二:數(shù)據(jù)及其服務(wù)成為國家戰(zhàn)略和經(jīng)濟(jì)的基礎(chǔ)設(shè)施擁有20萬臺服務(wù)器。希望2011年增加到80萬臺。超過45萬臺服務(wù)器。分布在全球25個地方。

4萬臺服務(wù)器分布在6個區(qū)域之中大數(shù)據(jù),大趨勢趨勢三:大數(shù)據(jù)的處理與利用能力體現(xiàn)了一個國家的國力與科技競爭力大數(shù)據(jù)加快了社會變遷、商業(yè)活動及科技發(fā)展的速度:一個產(chǎn)業(yè)在很短時間內(nèi)被顛覆(iPod+iTunes對音樂及隨身聽產(chǎn)業(yè)的顛覆)一家龍頭企業(yè)在很短時間內(nèi)被衰亡(摩托、諾基亞)科學(xué)研究的第四范式(TheForthParadigm)大數(shù)據(jù),大趨勢生物和醫(yī)療領(lǐng)域已成為大數(shù)據(jù)領(lǐng)域健康數(shù)據(jù)組學(xué)數(shù)據(jù)醫(yī)療數(shù)據(jù)生物和醫(yī)療領(lǐng)域已成為大數(shù)據(jù)領(lǐng)域目前,全球每年新增組學(xué)測序數(shù)據(jù)量達(dá)到EB級2014-1-15:Illumina發(fā)布HiSeqX,測序通量達(dá)到1,800,000,000

Kilobases(1.8T堿基)TheComingofBigDataEra“BigData”InitiativeMarch,2012生物大數(shù)據(jù)已經(jīng)成為歐美國家發(fā)展戰(zhàn)略大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)具有較強的領(lǐng)域相關(guān)性,生物大數(shù)據(jù)是美國國家大數(shù)據(jù)計劃的重要組成部分。DNA元件百科全書計劃(ENCODE)人類表觀基因組計劃(HEPProject)國際人類基因組單體型圖計劃(HapMap)GWAS計劃千人基因組計劃(1000GenomesProject)英國10萬人基因組計劃(UK100Kgenomeproject)FTP200220032003200320072012國際癌基因組計劃2006生物大數(shù)據(jù)已經(jīng)成為歐美國家發(fā)展戰(zhàn)略歐美主導(dǎo)的國際生命科學(xué)計劃產(chǎn)生的數(shù)據(jù)和知識成為國家資源我國生物大數(shù)據(jù)基礎(chǔ)和差距我國需要建立國家級生物大數(shù)據(jù)技術(shù)研發(fā)基地(RI)(DE)(CT)美國建成覆蓋本土的12個區(qū)域電子病歷數(shù)據(jù)中心,9個醫(yī)療知識中心,8個醫(yī)學(xué)影像與生物信息數(shù)據(jù)中心國際生物大數(shù)據(jù)中心的現(xiàn)狀基因組DDBJ/EMBL/GenBankEnsembl/UCSC,TCGA轉(zhuǎn)錄組GEO/ArrayExpress蛋白質(zhì)組PRIDE/PeptideAtlasEBI與NCBI以物理集中管理模式為主避免網(wǎng)絡(luò)瓶頸整合需要便于管理國際現(xiàn)狀及發(fā)展趨勢高通量生命組學(xué)研究技術(shù)所產(chǎn)生的各類海量生物信息科學(xué)數(shù)據(jù)爆炸式涌現(xiàn);離開了海量生物信息科學(xué)數(shù)據(jù)的支撐,生命科學(xué)、生物技術(shù)和醫(yī)學(xué)研究已經(jīng)寸步難行;生物信息科學(xué)數(shù)據(jù)量的增加和數(shù)據(jù)性質(zhì)的日益多元化和復(fù)雜化,要求將散在的數(shù)據(jù)集中管理,提高數(shù)據(jù)利用效率;

國際上生物信息科學(xué)數(shù)據(jù)資源高度集中,主要被西方大國所“壟斷”;在當(dāng)前形勢下,我國生物信息數(shù)據(jù)安全和數(shù)據(jù)利用效率面臨挑戰(zhàn)。生物信息科學(xué)數(shù)據(jù)共享建設(shè)存在的問題對生物信息科學(xué)數(shù)據(jù)共享的重要性認(rèn)識不足缺乏具體的共享政策和相應(yīng)的管理方法缺乏完善的生物信息科學(xué)數(shù)據(jù)管理的技術(shù)體系缺乏系統(tǒng)的生物信息科學(xué)數(shù)據(jù)共享服務(wù)體系生物數(shù)據(jù)中心建設(shè)的目標(biāo)針對實現(xiàn)國家生物大數(shù)據(jù)戰(zhàn)略和我國生物數(shù)據(jù)匯聚管理與共享利用的重大需求,重點突破組學(xué)數(shù)據(jù)中心和大型組學(xué)數(shù)據(jù)庫與知識庫系統(tǒng)關(guān)鍵技術(shù),建立國家生物數(shù)據(jù)中心,以及大型組學(xué)數(shù)據(jù)與知識管理及其服務(wù)系統(tǒng)。形成以物理集中為主、同時兼顧分布式共享的我國生物數(shù)據(jù)管理利用模式。維護(hù)國家生物數(shù)據(jù)主權(quán),提升我國生物大數(shù)據(jù)的國際競爭力。生物大數(shù)據(jù)中心架構(gòu)圖…生物大數(shù)據(jù)和大型知識庫數(shù)據(jù)中心代謝組數(shù)據(jù)定位組數(shù)據(jù)相互作用組數(shù)據(jù)功能組數(shù)據(jù)基因組數(shù)據(jù)轉(zhuǎn)錄組數(shù)據(jù)疾病

數(shù)據(jù)蛋白質(zhì)組數(shù)據(jù)生物過程數(shù)據(jù)藥物

數(shù)據(jù)互聯(lián)網(wǎng)基礎(chǔ)

設(shè)施

環(huán)境隱私保護(hù)、安全、授權(quán)、身份驗證、審計安全規(guī)范體系QoS管理、標(biāo)準(zhǔn)、規(guī)范、互操作

標(biāo)準(zhǔn)規(guī)范體系

生物大數(shù)據(jù)中心云環(huán)境自治管理運營維護(hù)體系計算資源、存儲資源、網(wǎng)絡(luò)資源生物大數(shù)據(jù)可視化應(yīng)用

服務(wù)生物大數(shù)據(jù)服務(wù):訪問門戶、API、軟件工具

搜索分析發(fā)布聚合組織管理生物大數(shù)據(jù)分析應(yīng)用生物大數(shù)據(jù)注釋服務(wù)數(shù)據(jù)資源注冊與發(fā)布生物大數(shù)據(jù)綜合檢索生物數(shù)據(jù)聚合與集成基于云環(huán)境的生物大數(shù)據(jù)

存儲管理生物大數(shù)據(jù)

云傳送

管理生物大數(shù)據(jù)

虛擬計算

環(huán)境管理生物大數(shù)據(jù)云

平臺國家生物數(shù)據(jù)中心門戶基因組數(shù)據(jù)蛋白質(zhì)組數(shù)據(jù)轉(zhuǎn)錄組數(shù)據(jù)其他類型數(shù)據(jù)實現(xiàn)國產(chǎn)主要的基礎(chǔ)科研數(shù)據(jù)的提交和收集統(tǒng)一的認(rèn)證系統(tǒng)數(shù)據(jù)集登記系統(tǒng)數(shù)據(jù)集間的關(guān)聯(lián)iProX結(jié)果展示搜索瀏覽下載公共數(shù)據(jù)微生物組數(shù)據(jù)知識庫數(shù)據(jù)分析工具數(shù)據(jù)可視化工具心血管疾病和腫瘤疾病大數(shù)據(jù)、區(qū)域醫(yī)療與健康大數(shù)據(jù),提供面向醫(yī)療健康的生物大數(shù)據(jù)示范應(yīng)用 特色組學(xué)數(shù)據(jù)庫生物大數(shù)據(jù)中心和知識庫數(shù)據(jù)庫元信息系統(tǒng)GSA基于云環(huán)境的組學(xué)大數(shù)據(jù)存儲管理技術(shù)與系統(tǒng)將數(shù)據(jù)類型劃分為元數(shù)據(jù)和原始生物數(shù)據(jù)進(jìn)行管理。采用負(fù)載均衡、查詢緩存、事件驅(qū)動響應(yīng)等技術(shù),滿足元數(shù)據(jù)查詢中高并發(fā)、低延時的技術(shù)要求。海量測序原始數(shù)據(jù)文件,采用Hadoop集群分布式文件系統(tǒng)對其進(jìn)行存儲組學(xué)大數(shù)據(jù)虛擬計算環(huán)境管理技術(shù)與系統(tǒng)針對組學(xué)大數(shù)據(jù)虛擬計算環(huán)境管理,構(gòu)建了層次化管理模型,提供了組件和Pipeline設(shè)計器(組件集合)來管理計算流程。根據(jù)計算分析組件的實際內(nèi)容,分別提供在容器、虛擬機(jī)和Hadoop/Spark框架的任務(wù)執(zhí)行環(huán)境。記錄用戶操作流程為后續(xù)審計或錯誤排查提供依據(jù)。組學(xué)數(shù)據(jù)云傳遞服務(wù)技術(shù)與系統(tǒng)組學(xué)數(shù)據(jù)云傳遞服務(wù)采用GridFTP與HDFS相結(jié)合策略。設(shè)計實現(xiàn)異步文件訪問(AsynchronousFileAccessPlugin)組件,將異步到達(dá)的網(wǎng)絡(luò)文件包轉(zhuǎn)化為HDFS文件同步寫操作,進(jìn)而提供GridFTP協(xié)議服務(wù)端,提供生物測序原始數(shù)據(jù)文件的分發(fā)服務(wù)。數(shù)據(jù)中心整體網(wǎng)站群架構(gòu)中英雙語單點登錄高可用服務(wù)高可用數(shù)據(jù)庫分布式文件存儲高速數(shù)據(jù)傳輸元數(shù)據(jù)收集及標(biāo)準(zhǔn)化元數(shù)據(jù)語義關(guān)系可視化基因組元數(shù)據(jù)語義關(guān)系蛋白質(zhì)組元數(shù)據(jù)語義關(guān)系24原始組學(xué)數(shù)據(jù)庫系統(tǒng)GSA:

Genome

Sequence

Archive美國NCBI中的SRA庫歐洲EBI的ENA/SRA庫日本DDBJ的DRA庫對應(yīng)GSA系統(tǒng)采用國際兼容規(guī)范,已獲得PNAS、CellResearch、CellStemCell等國際期刊認(rèn)可,已收錄組學(xué)數(shù)據(jù)1PBPRJCA000091直接服務(wù)于中科院先導(dǎo)項目“動物復(fù)雜性狀組學(xué)數(shù)據(jù)庫”、中科院重點項目“中國人群精準(zhǔn)醫(yī)學(xué)研究計劃”(1萬人職業(yè)人群,2萬人糖尿病專病隊列,不少于500例多種腫瘤的多組學(xué)測序)等兼容國際規(guī)范基因組原始數(shù)據(jù)系統(tǒng)GSA現(xiàn)有基因組學(xué)數(shù)據(jù)來源數(shù)據(jù)量類型數(shù)據(jù)量備注人230TB腫瘤70TB肝癌、白血病、乳腺癌、淋巴瘤、肺癌、神經(jīng)膠質(zhì)瘤、前列腺癌基因組、轉(zhuǎn)錄組和表觀組神經(jīng)系統(tǒng)疾病5TB阿爾茨海默病等基因組和轉(zhuǎn)錄組干細(xì)胞相關(guān)5TBES/HSC/MSC/iPS/CSC等基因組、轉(zhuǎn)錄組和表觀組其它疾病50TB心血管病、高原病、糖尿病、眼科病等基因組和轉(zhuǎn)錄組精準(zhǔn)人群隊列數(shù)據(jù)100TB精準(zhǔn)醫(yī)學(xué)項目數(shù)據(jù)動物100TB家養(yǎng)動物50TB豬、雞、牛、羊、狗、蠶、鯉魚等基因組和轉(zhuǎn)錄組模式動物20TB小鼠、斑馬魚、果蠅、文昌魚等基因組、表觀組和轉(zhuǎn)錄組其它動物30TB猴、小熊貓、對蝦、絳蟲、肺魚、盲鰻等基因組植物52TB經(jīng)濟(jì)作物10TB油菜、橡膠、小麥、玉米、高粱、大豆、葡萄、木薯、苜蓿等基因組和轉(zhuǎn)錄組藥用植物30TB人參、地黃、重樓、肉蓯蓉等道地中藥材基因組和轉(zhuǎn)錄組模式植物10TB水稻、擬南芥等基因組、轉(zhuǎn)錄組其它植物2TB紅樹、楊樹、松樹等基因組、轉(zhuǎn)錄組微生物2TB致病微生物、極端環(huán)境細(xì)菌基因組、動物腸道菌群等基因組和宏基因組、轉(zhuǎn)錄組總計384TB

公共組學(xué)數(shù)據(jù)來源數(shù)據(jù)量類型備注公共數(shù)據(jù)庫150TB虛擬中國人整合千人基因組等數(shù)據(jù),根據(jù)不同的人種和特征等創(chuàng)建動態(tài)的虛擬中國人基因組參考序列數(shù)據(jù)500TB腫瘤ICGC/TCGA/UK10K臨床資料和基因組等數(shù)據(jù)總計650TB

iProX--標(biāo)準(zhǔn)化的蛋白質(zhì)組綜合資源庫采用統(tǒng)一策略分析為國內(nèi)外研究人員提供穩(wěn)定的服務(wù)iProX數(shù)據(jù)提交共享系統(tǒng)iProX蛋白質(zhì)組數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入、展示人員權(quán)限管理質(zhì)譜數(shù)據(jù)分析平臺MSPP分析結(jié)果導(dǎo)入和展示蛋白質(zhì)組

原始數(shù)據(jù)

和實驗信息iProX數(shù)據(jù)集及鑒定結(jié)果信息生物學(xué)本體&數(shù)據(jù)標(biāo)準(zhǔn)結(jié)構(gòu)化的數(shù)據(jù)管理有效的權(quán)限管理集群任務(wù)分配/調(diào)度標(biāo)準(zhǔn)化信息收集與國際蛋白質(zhì)組數(shù)據(jù)共享聯(lián)盟ProteomeXchange標(biāo)準(zhǔn)兼容iProX--標(biāo)準(zhǔn)化的蛋白質(zhì)組綜合資源庫為CNHPP等大型蛋白質(zhì)組研究計劃提供支撐541個注冊用戶來自107個不同的單位獲得MCP、JPR、Proteomics等國際蛋白質(zhì)組領(lǐng)域頂級期刊認(rèn)可,提交的數(shù)據(jù)可直接被期刊接受審稿已收集多種類型的數(shù)據(jù),總數(shù)據(jù)量為100TB,自產(chǎn)數(shù)據(jù)30TB多物種:人、小鼠、酵母、果蠅、嗜熱菌等44種多組織器官、組分:肝、腸、胃等組織、細(xì)胞等62種不同疾?。焊伟⑽赴?、腸癌、肝纖維化等17種不同定量策略:無標(biāo)、SILAC、iTRAQ不同修飾類型:磷酸化、乙?;?、糖基化71TB數(shù)據(jù)完全開放共享,29TB申請授權(quán)共享中國科學(xué)院微生物研究所自主產(chǎn)生的微生物數(shù)據(jù)國內(nèi)科研院所和高校在研究過程中產(chǎn)生的微生物數(shù)據(jù)國際重要數(shù)據(jù)庫中的微生物數(shù)據(jù)數(shù)據(jù)來源數(shù)據(jù)庫數(shù)量記錄數(shù)/數(shù)據(jù)量微生物所自主數(shù)據(jù)17個~20000國際重要數(shù)據(jù)庫35個>60TB微生物組學(xué)相關(guān)數(shù)據(jù)庫整合元基因組數(shù)據(jù)管理和共享平臺建設(shè)預(yù)計可整合的總數(shù)據(jù)量目前已實現(xiàn)的數(shù)據(jù)情況Projects1276824Metagenomes2647424172Basepairs9.6Tbp5.51TbpSequences93billion53.4billionDatasize108T62T基礎(chǔ)數(shù)據(jù)中心數(shù)據(jù)量達(dá)到450TB、年均下載量11PB/main.php?id=100FTP:包括UniProt,EMBL,PDB等主流公共數(shù)據(jù)庫國際核酸序列數(shù)據(jù)庫EMBL官方發(fā)布站點1000genomes(亞洲地區(qū)唯一公眾鏡像)400+TB(通過獨立端口支持)Ensembl/UCSCGenomeBrowsebackend同時支持通過API和數(shù)據(jù)庫訪問公共數(shù)據(jù)資源NameDescriptionemblReleaseofEuropeanNucleotideArchive(ENA).blastAlocalversionoftheNRandotherNCBIdatabases.uniprotResourceofproteinsequenceandfunctionalinformation.spdPKUseretedproteindatabase.EnsemblGenomedatabasesforvertebratesandothereukaryoticspecies.GenomeAssembledgenomesequenceandannotationdata.interproFunctionalanalysisofproteinsbyclassifyingthemintofamiliesandpredictingdomainsandimportantsites.RefSeqAcomprehensive,integratedsetofreferencesequencesincludinggenomic,transcript,andprotein.LSD_2.0PKULeafSenescenceDatabase2.0.PDBAnewsetofcorrectedfilesprovidingaccesstodataonthe3-Dstructureofbiologicalmacromolecules.intactAfreelyavailable,opensourcedatabasesystemandanalysistoolsformolecularinteractiondata.hsspHomology-derivedstructuresofproteinsdatabase.gene3dAdatabaseofCATHstructuraldomaindataprojectedontothemajorsequencerepositories.fsspAllproteinchainsfromtheProteinDataBankwhicharelongerthan30residues.dsspDatabaseofsecondarystructureassignments(andmuchmore)foralloftheentriesinthePDB.cathAclassificationofproteinstructuresdownloadedfromtheProteinDataBank.GOAssignmentsofgeneproductstotheGOresource.pfamAcollectionofproteinfamilyalignments.rebaseTheRestrictionEnzymeDatabase.GATKThegatkresourcebundle.pirProteinInformationResource.組學(xué)數(shù)據(jù)間的層次關(guān)系33ExperimentSuper-projectProjectSampleRun(files)基因組數(shù)據(jù)一對多的關(guān)系GroupProjectSubproject(files)蛋白質(zhì)組數(shù)據(jù)一對多的關(guān)系Super-project其他組學(xué)數(shù)據(jù)保持統(tǒng)一的層次關(guān)系不同組學(xué)數(shù)據(jù)集間的關(guān)聯(lián)基因組數(shù)據(jù)集PRJCA000268轉(zhuǎn)錄組數(shù)據(jù)集ITX00003500蛋白質(zhì)組數(shù)據(jù)集IPX00019100外部網(wǎng)站的數(shù)據(jù)集A關(guān)聯(lián)數(shù)據(jù)集GroupProjectSubproject(files)關(guān)聯(lián)數(shù)據(jù)集關(guān)聯(lián)數(shù)據(jù)集數(shù)據(jù)庫、知識庫建設(shè)疾病相關(guān)的基因與遺傳變異知識庫常見病原體和宏基因組數(shù)據(jù)庫非編碼RNA數(shù)據(jù)庫LncRNA靶基因數(shù)據(jù)庫lncRNA2Target哺乳動物轉(zhuǎn)錄組數(shù)據(jù)庫MTD狼和狗SNP數(shù)據(jù)庫DogGSD小鼠組織轉(zhuǎn)錄因子蛋白DNA結(jié)合活性數(shù)據(jù)庫代表性疾病知識庫阿爾茨海默癥基因失調(diào)數(shù)據(jù)庫AlzBase乳腺癌多組學(xué)數(shù)據(jù)庫BCDB腦膠質(zhì)瘤數(shù)據(jù)庫GliomaDB基于wiki的肝臟數(shù)據(jù)庫LiverWiki基于wiki的疾病數(shù)據(jù)庫DiseaseWiki單氨基酸多態(tài)性數(shù)據(jù)庫dbSAP;糖鏈拓?fù)浣Y(jié)構(gòu)庫pGlycoDBDNA甲基化數(shù)據(jù)庫MethBank中國三個民族藥物基因組群體遺傳差異知識庫藥物代謝酶基因CYP450SNP功能知識庫分子網(wǎng)絡(luò)整合數(shù)據(jù)庫PathPPI水稻多組學(xué)數(shù)據(jù)庫IC4R高粱SNP數(shù)據(jù)庫擬南芥蛋白質(zhì)相互作用及基因型與表型關(guān)聯(lián)數(shù)據(jù)庫AtPID;植物轉(zhuǎn)錄因子數(shù)據(jù)庫PlantTFDB2000-2004Version11.Collectingdata2.

Classification2009-2012Version31.RNA-seqdata2.ncRNAexpression3.

Functionalannotation2005-2008Version2

1.Addourowndata2.Interaction3.Secondarystructure2013-2014Version41.RNA-seqdata2.ncRNAexpression3.ncRNAfunctionpredict4.ncRNAgene5.IDconversion6.ncRNAidentification/NAR,2005(33),D112-D115,Cited106xNAR,2008(36),D170-D172,Cited72xNAR,2012(40),D120-D125,Cited135xNAR,2014(42),D98-D103,Cited118xJanuary2005:NONCODEdatabasewasreportedby

Science

NetwatchFebruary2007:NONCODEdatabaseisindexedin

ISIWebofKnowledgeOctober2016:NONCODEdatabasewasupdatedto

NONCODE5.0NONCODE:adatabaseofalltypesofnoncodingRNAs(excepttRNAsandrRNAs)2015-2016Version51.conservationannotation2.Diseaseinformation3.high-qualitydatasets

NAR,2016(44),D203-208,Cited6xNONCODEtotalcitation437前臺頁面文獻(xiàn)搜索引擎文獻(xiàn)過濾引擎基本信息模塊中文解讀模塊全文信息模塊相關(guān)文獻(xiàn)模塊統(tǒng)計信息模塊用戶中心模塊用戶中心用戶基本信息文獻(xiàn)推薦模塊用戶收藏模塊用戶關(guān)注模塊用戶解讀模塊積分懸賞模塊用戶評論模塊后臺管理期刊管理模塊文獻(xiàn)管理模塊解讀管理模塊解讀審核模塊評論管理模塊用戶管理模塊系統(tǒng)管理模塊文獻(xiàn)傳遞資源管理節(jié)點管理任務(wù)管理系統(tǒng)管理統(tǒng)計信息技術(shù)支撐全文檢索引擎生物醫(yī)學(xué)知識庫語料庫本體庫數(shù)據(jù)挖掘平臺用戶數(shù)據(jù)分析平臺拓展科研信息服務(wù)平臺商品供應(yīng)平臺專業(yè)信息服務(wù)平臺健康服務(wù)社區(qū)醫(yī)療信息服務(wù)平臺SURFACEINTERNAL生物醫(yī)學(xué)文獻(xiàn)摘要和全文數(shù)據(jù)庫生物醫(yī)學(xué)在線資源信息檢索及推送系統(tǒng)工作流分析系統(tǒng)NGS數(shù)據(jù)分析工作流比較基因組學(xué)分析工作流個人基因組注釋和可視化流程長非編碼RNA注釋工作流基于Hadoop的從頭測序工作流DMETPlus基因芯片數(shù)據(jù)分析工作流DNA甲基化分析工作流RNA重亞硫酸鹽測序數(shù)據(jù)的映射和注釋工作流全基因組關(guān)聯(lián)分析工作流基因多態(tài)性檢測分析工作流蛋白質(zhì)組鑒定工作流蛋白質(zhì)翻譯后修飾鑒定工作流糖蛋白質(zhì)組數(shù)據(jù)分析工作流蛋白質(zhì)有標(biāo)定量工作流蛋白質(zhì)無標(biāo)定量工作流系統(tǒng)發(fā)育樹和進(jìn)化分析工作流差異表達(dá)分析和富集分析工作流CloudPhylo—適用于大數(shù)據(jù)集的系統(tǒng)發(fā)育樹構(gòu)建工具高通量數(shù)據(jù)分析平臺框架質(zhì)量控制序列比對表達(dá)定量差異表達(dá)基因及功能注釋可變剪接突變基因融合lncRNAs標(biāo)準(zhǔn)化的轉(zhuǎn)錄組數(shù)據(jù)處理工作流實現(xiàn)從表達(dá)定量到長非編碼RNA鑒定等多種功能39已整合開源軟件25種工作流CellDeathDis2013Genomics2013a,bBMCGenomics2013,2014PLoSOne2013,2015BBRC2015Oncotarget2015IntJMolSci2015Gene2014,2015JStemCellResTher2015WorldJSurgOncol2015FrontiersofMedicine,2016已發(fā)表SCI論文詹啟敏院士主持國家“十三五”出版工程“精準(zhǔn)醫(yī)學(xué)”系列圖書分冊《基因組學(xué)》和《轉(zhuǎn)錄組學(xué)》Springer出版集團(tuán)轉(zhuǎn)錄組分析工作流章節(jié)ChronicMyeloidLeukemiaMethodsandProtocols規(guī)范201610015109.1201610230708.5專利蛋白質(zhì)組數(shù)據(jù)分析平臺框架近十年的定量算法研究定量算法研究有標(biāo)定量工具SILVER無標(biāo)定量工具LFQuant絕對定量算法差異蛋白篩選算法創(chuàng)新工具研發(fā)實際應(yīng)用:在CHPP、CNHPP中得到了廣泛應(yīng)用綜合性定量軟件包PANDA定量結(jié)果分析及可視化工具PANDA-view相對定量算法:無標(biāo)、有標(biāo)LFQuant個人基因組與家系基因組管理、注釋與可視化個人基因組瀏覽器組學(xué)數(shù)據(jù)瀏覽器平臺ABrowse國際首個基于空間數(shù)據(jù)庫模型,支持地圖式平滑數(shù)據(jù)瀏覽、用戶在線批注及一鍵式提交到生物信息平臺中進(jìn)行分析的通用基因組瀏覽器框架;ABrowse2開放支持了數(shù)據(jù)可視化模塊,可以幫助用戶從海量的原始數(shù)據(jù)中直觀的提取歸納信息,識別數(shù)據(jù)中的規(guī)律和模式為用戶提供不間斷服務(wù)多個組學(xué)數(shù)據(jù)平臺、特色數(shù)據(jù)庫和知識庫以及公共數(shù)據(jù)資源和服務(wù)體系為用戶提供不間斷服務(wù),用戶累計訪問量超過1.44億次,其中組學(xué)數(shù)據(jù)中心、組學(xué)數(shù)據(jù)庫知識庫訪問量達(dá)3.29千萬次,公共數(shù)據(jù)資源訪問量達(dá)1.11億次。組學(xué)數(shù)據(jù)中心/特色數(shù)據(jù)庫和知識庫訪問量ABrowse組學(xué)數(shù)據(jù)瀏覽器平臺11559528MethBankDNA甲基化數(shù)據(jù)庫7167496LocExpress基于RNA-Seq表達(dá)量即時計算工具4706822GSDS基因結(jié)構(gòu)可視化工具2909504MTB哺乳動物轉(zhuǎn)錄組數(shù)據(jù)庫2669876diseasewiki基于wiki的疾病數(shù)據(jù)庫1484918SorGSD高粱SNP數(shù)據(jù)庫925688DoGSD狼和狗SNP數(shù)據(jù)庫613876AlzBase阿爾茨海默癥基因知識庫396917PlantTFDB植物轉(zhuǎn)錄因子數(shù)據(jù)平臺227270liverwiki基于wiki的肝臟數(shù)據(jù)庫153905iProX蛋白質(zhì)組數(shù)據(jù)共享系統(tǒng)118747GSA基因組數(shù)據(jù)共享系統(tǒng)33153AnnoLnc長非編碼RNA注釋工具14514IC4R水稻多組學(xué)數(shù)據(jù)庫3400

32,985,614生物信息公共數(shù)據(jù)資源達(dá)450TB(完全公開),年均下載量1.1PB,近一半來自國內(nèi)(55%)根據(jù)IP統(tǒng)計,2015.7-2016.7月FTP:3.75千萬次Web(瀏覽器):2.11千萬次WebServiceAPI:5.25千萬次公共數(shù)據(jù)資源和服務(wù)體系國內(nèi)用戶網(wǎng)絡(luò)來源分布統(tǒng)計中國~55%教育網(wǎng)iProX云平臺版(2.0版)正式上線采用標(biāo)準(zhǔn)/本體填寫實驗元信息,實現(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)提交47采用標(biāo)準(zhǔn)/本體填寫實驗元信息

更新本體解析方式分別通過EBI-OLS系統(tǒng)的API服務(wù)和直接下載控制詞匯表(obo/owl文件)兩種方法進(jìn)行CV解析,結(jié)合控制詞匯表中標(biāo)準(zhǔn)條目含有ID、標(biāo)準(zhǔn)命名和多項同義詞的特點,優(yōu)化了本地數(shù)據(jù)庫表結(jié)構(gòu)。iProX支持大文件上傳Thesizeofsinglefileexcceds142GBIntegratetheASPERAserverFilesizeisonlylimitedbythefilesystemiProX支持大規(guī)模數(shù)據(jù)傳輸U(kuò)ploadfilesin3batches,thesizeofdatafileexceed1TB標(biāo)準(zhǔn)化提交數(shù)據(jù)審核

—實現(xiàn)數(shù)據(jù)和實驗信息的人工校驗質(zhì)控51數(shù)據(jù)發(fā)布前,數(shù)據(jù)管理員對用戶提交的數(shù)據(jù)集元信息進(jìn)行逐條審核數(shù)據(jù)管理員對用戶提交的數(shù)據(jù)集進(jìn)行整體評分安全有效的數(shù)據(jù)文件下載及共享方式統(tǒng)一文件權(quán)限管理和共享方式:對每個用戶有權(quán)限訪問的項目和子項目,可以直接從文件列表處下載數(shù)據(jù)(http和Aspera),或者動態(tài)生成對應(yīng)文件下載鏈接和密碼52建立iProX數(shù)據(jù)的相關(guān)論文

自動查找和統(tǒng)計機(jī)制每天定時從PubMed和PMC中查找iProX數(shù)據(jù)是否有新的相關(guān)論文已經(jīng)發(fā)表,以郵件形式將新的數(shù)據(jù)列表發(fā)送給管理員PubMed數(shù)據(jù)庫PMC數(shù)據(jù)庫PubMed數(shù)據(jù)庫對結(jié)果進(jìn)行解析,篩選出有論文發(fā)表的項目IPX號PubMed數(shù)據(jù)庫與前一天搜索到的項目IPX號進(jìn)行比較若有更新,則將更新的數(shù)據(jù)列表發(fā)送給管理員iProX1.5的項目IPX號iProX2.0的項目IPX號通過iProX提交數(shù)據(jù)已發(fā)表論文數(shù)據(jù)集在iProX中的編號作者單位已發(fā)表論文IPX00037500ZhejiangUniversityO-GlcNAcylationofG6PDpromotesthepentosephosphatepathwayandtumorgrowth.

NatCommun.2015;6:8468.IPX00034300GuangzhouUniversityofChineseMedicineHumanfallopiantubeproteomeshowshighcoverageofmesenchymalstemcellsassociatedproteins.BiosciRep.2016Jan12;36(1):e00297.IPX00076800JinanUniversityPhosphoproteomeCharacterizationofHumanColorectalCancerSW620Cell-DerivedExosomesandNewPhosphositeDiscoveryforC-HPP.JProteomeRes.2016Nov4;15(11):4060-4072IPX00003600BGI-ShenzhenImprovementofpeptideidentificationwithconsideringtheabundanceofmRNAandpeptide.

BMCBioinformatics.2017;18:109.IPX00029500JinanUniversityCytoskeleton-centricproteintransportationbyexosomestransformstumor-favorablemacrophages.

Oncotarget.2016Oct11;7(41):67387–67402.通過iProX提交數(shù)據(jù)已發(fā)表論文數(shù)據(jù)集在iProX中的編號作者單位已發(fā)表論文IPX00067300AcademyofMilitaryMedicalSciencesProteomicProfilingofBifidobacteriumbifidumS17CultivatedUnderInVitroConditions.

FrontMicrobiol.2016;7:97.IPX00074700NationalCenterforProteinSciences(ThePHOENIXcenter,Beijing)ACell-type-resolvedLiverProteome.

MolCellProteomics.2016Oct;15(10):3190–3202IPX00075800HenanNormalUniversityProteomicprofilinganalysisrevealsthatglutathionesystemplaysimportantrolesrespondingtoosmoticstressinwheat(TriticumaestivumL.)roots.

PeerJ.2016;4:e2334.IPX00020200JinanUniversityFindingMissingProteinsfromtheEpigeneticallyManipulatedHumanCellwithStringentQualityCriteria.JProteomeRes.2015Sep4;14(9):3645-57IPX00080100JinanUniversitySWATH-basedproteomicsidentifiedcarbonicanhydrase2asapotentialdiagnosisbiomarkerfornasopharyngealcarcinoma.

SciRep.2017;7:41191.通過iProX提交數(shù)據(jù)已發(fā)表論文數(shù)據(jù)集在iProX

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論