生物醫(yī)學(xué)文本挖掘及其應(yīng)用演示文稿_第1頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用演示文稿_第2頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用演示文稿_第3頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用演示文稿_第4頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用演示文稿_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物醫(yī)學(xué)文本挖掘及其應(yīng)用演示文稿目前一頁\總數(shù)一百一十二頁\編于二十點(diǎn)(優(yōu)選)生物醫(yī)學(xué)文本挖掘及其應(yīng)用目前二頁\總數(shù)一百一十二頁\編于二十點(diǎn)例子:二者關(guān)系進(jìn)行性多灶性白質(zhì)腦?。╬rogressivemultifocalleukoencephalopathy,PML)抗體antibodiesMonoclonalantibodies,efalizumab(依法珠單克隆抗體)目前三頁\總數(shù)一百一十二頁\編于二十點(diǎn)自然語言處理讓計(jì)算機(jī)替我們看文獻(xiàn)吧!比較難:計(jì)算機(jī)需要專門的知識(shí)才能讀懂文本。自然語言處理(NaturalLanguageProcessing,NLP):專門訓(xùn)練計(jì)算機(jī)掌握這種知識(shí)的學(xué)科。生物醫(yī)學(xué)文本挖掘(Biomedicaltextmining)是一個(gè)專門處理生物學(xué)、醫(yī)學(xué)和化學(xué)文本的分支學(xué)科。也叫BioNLP有些人把NLP當(dāng)做textmining的同義詞。目前四頁\總數(shù)一百一十二頁\編于二十點(diǎn)Biomedicaltext生物醫(yī)學(xué)文本的格式多種多樣:病歷科研論文序列注釋公共健康指南文本的內(nèi)容多樣化,如習(xí)慣用語臨床有臨床上的行話實(shí)驗(yàn)室有自己對(duì)蛋白的命名方式這種差異造成了文本挖掘應(yīng)用往往面向特定類型的文本。尤其是對(duì)Medline文摘記錄的分析。易獲取免費(fèi)5目前五頁\總數(shù)一百一十二頁\編于二十點(diǎn)基本概念(1)術(shù)語(Term):專門領(lǐng)域里的名稱。術(shù)語集(terminology):術(shù)語的集合。生物醫(yī)學(xué)文本中到處是術(shù)語,是醫(yī)學(xué)知識(shí)的基本構(gòu)件。如各種細(xì)胞的名稱,蛋白質(zhì)、醫(yī)學(xué)設(shè)備、疾病、基因突變、化學(xué)物質(zhì)名、蛋白質(zhì)域的名稱。名稱如此重要,需要在文本中識(shí)別之,這個(gè)工作稱為生物醫(yī)學(xué)文獻(xiàn)中的命名體識(shí)別(NER,NamedEntityRecognition)。目前六頁\總數(shù)一百一十二頁\編于二十點(diǎn)基本概念(2)盡管術(shù)語的定義似乎很明確,但是很難精確定義。earlyprogressivemultifocalleukoencephalopathyRefertoearlyprogressivemultifocalleukoencephalopathyprogressivemultifocalleukoencephalopathymultifocalleukoencephalopathyLeukoencephalopathy目前七頁\總數(shù)一百一十二頁\編于二十點(diǎn)基本概念(3)Terminology:手工構(gòu)建的,因此是受控的。HUGO:基因術(shù)語集ICD:國際疾病分類法。GeneOntology:基因本體。不僅僅是術(shù)語列表,還包括:術(shù)語表+同義詞=thesaurus

術(shù)語表+術(shù)語之間的關(guān)系=taxonomies,ontology一旦一段文本與其中一個(gè)詞表對(duì)應(yīng)上,就和其他資源建立起聯(lián)系了。目前八頁\總數(shù)一百一十二頁\編于二十點(diǎn)人工標(biāo)引手工匹配MedlineabstractsMedicalSubjectHeadings(MeSH)Leukoencephalopathy,progressivemultifocal9目前九頁\總數(shù)一百一十二頁\編于二十點(diǎn)10目前十頁\總數(shù)一百一十二頁\編于二十點(diǎn)genenormalization自動(dòng)匹配:recognizingnamesofgenesMedlineabstractsmappingthemtotheircorrespondinggeneidentifiers(e.g.,EntrezGeneID)11目前十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)網(wǎng)上在線檢索的基因名稱信息目前十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)14目前十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)下載的基因名稱信息目前十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)NER的原理文本(PubMedAbstracts)軟件名稱(基因名,蛋白質(zhì)名)詞表目前十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)詞表之間的聯(lián)系詞表太多,又創(chuàng)建了詞表,把術(shù)語集匹配起來,詞表之詞表,超級(jí)詞表。metaBioThesaurus:多個(gè)詞表中蛋白質(zhì)的同義詞UnifiedMedicalLanguageSystem(UMLS):一體化醫(yī)學(xué)語言系統(tǒng),120多個(gè)詞表,4百萬個(gè)術(shù)語。目前十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)/pirwww/iprolink/biothesaurus.shtml

18目前十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前二十頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前二十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前二十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)術(shù)語識(shí)別工具Whatizit:識(shí)別多種術(shù)語,通過網(wǎng)頁。Abner:?jiǎn)螜C(jī)版,識(shí)別5種術(shù)語:蛋白、DNA、RNA、細(xì)胞株、細(xì)胞類型。更專指的術(shù)語識(shí)別工具:PepBank:用于肽類LSAT:用于alternativetranscripts提高PubMed檢索效果:semedico,novo|seekGoPubMed/GoGene目前二十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)24目前二十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)/~bsettles/abner/25目前二十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)A(Whatizit):蛋白-藍(lán)色,疾病-深紅,基因本體-淺紅,化學(xué)物質(zhì)-深紅,物種-紅色B(ABNER):蛋白和細(xì)胞株C(BIOCreAtIvEmetaserver)目前二十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)發(fā)現(xiàn)關(guān)系識(shí)別術(shù)語之后,下一步自然是尋找術(shù)語之間的關(guān)系。發(fā)現(xiàn)關(guān)系的最簡(jiǎn)單途徑就是共現(xiàn):在同一段文字中同時(shí)出現(xiàn)的兩個(gè)術(shù)語可能有關(guān)聯(lián)。例如,某種蛋白質(zhì)與一種疾病總是在同一文摘中出現(xiàn),有理由假設(shè)該蛋白與疾病的某個(gè)方面有關(guān)。共現(xiàn)的次數(shù)越多,越有意義??梢远颗判颍ㄟ^統(tǒng)計(jì)處理排除偶然的關(guān)聯(lián)。27目前二十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)關(guān)聯(lián)度假設(shè)有t1和t2兩個(gè)詞共現(xiàn),最簡(jiǎn)單的信度指標(biāo)就是含有這兩個(gè)詞的文章數(shù)c(t1t2),但是要標(biāo)準(zhǔn)化,去掉兩個(gè)詞各自出現(xiàn)頻次對(duì)共現(xiàn)次數(shù)的影響。點(diǎn)間互信息p為文章數(shù)除以文章總數(shù)。目前二十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)關(guān)系抽?。汗铂F(xiàn)GoDisease:/輸入‘‘leukoencephalopathy,progressive

multifocal’’[mh]目前二十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)返回結(jié)果:所有提及PML的文摘中的基因。出現(xiàn)次數(shù)越多的基因,越可能與PML有關(guān)聯(lián)。如果某基因在PML中不成比例地高于其他疾病,則該基因可能與PML有特殊關(guān)系。目前三十頁\總數(shù)一百一十二頁\編于二十點(diǎn)關(guān)系抽取:確切關(guān)系明確描述的關(guān)系:比共現(xiàn)更好的證據(jù)。例如:‘‘WedescribeaPMLina67-year-oldwomanwithadestructivepolyarthritis(多關(guān)節(jié)炎)associatedwithanti-JO1antibodies

treatedwithcorticosteroids’’PML與抗-JO1抗體有明確關(guān)系。將這種關(guān)系簡(jiǎn)化為三元體:兩個(gè)名詞+一個(gè)動(dòng)詞。PMLisassociatedwithanti-JO1antibodies識(shí)別動(dòng)詞:詞性標(biāo)注:part-of-speech(POS)tagger三元體表述因其簡(jiǎn)單而功能強(qiáng)大,但是忽略了文章中的重要的細(xì)節(jié)。比如有些證據(jù)是來自于臨床病例報(bào)告。目前三十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)SemanticKnowledgeRepresentationSKR:是基于UMLS進(jìn)行自然語言處理、提取文獻(xiàn)中概念的系列在線工具。目前三十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)其中MetaMap是SKR系統(tǒng)的核心組件。MMTx是完成MetaMap功能的Java工具包,它進(jìn)行的分析是語義層次上的分析。目前三十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)MetaMap工作原理目前三十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)MetaMap工作原理:切分“ocularcomplicationofmyastheniagravis”(重癥肌無力的眼部并發(fā)癥)“ocularcomplication”和“ofmyastheniagravis”“ocularcomplication”分為“[mod(ocular),head(complication)]目前三十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)MetaMap工作原理:產(chǎn)生變形體Ocular{[adj],0=””}Eye{[noun],2=”s”}同義詞Eyes{[noun],3=”si”}同義詞的復(fù)數(shù)Optic{[adj],4=”ss”}同義詞的同義詞Ophthalmic{[adj],4=”ss”}同義詞的同義詞Ophthalmia{[noun],7=”ssd”}同義詞的同義詞的變形Oculus{[noun],3=”d”}變形Oculi{[noun],4=”di”}同義詞的復(fù)數(shù)目前三十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前三十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)檢索候選詞及候選詞的評(píng)價(jià)檢索超級(jí)詞表,檢索到包含有至少一個(gè)變形體的候選字串集合。計(jì)算出與輸入的短語詞相匹配的候選詞,然后用4種指標(biāo)的加權(quán)平均組成的語言學(xué)評(píng)價(jià)函數(shù),計(jì)算輸入短語與候選詞之間的匹配程度:中心度:即包含中心詞;變形情況:距離倒數(shù)的平均值;覆蓋面和內(nèi)斂度:測(cè)量候選詞與文本的匹配程度和有多少個(gè)片段按照匹配程度排列這些候選詞。目前三十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前三十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)關(guān)系抽取:PPIprotein-proteininteractions(PPI):文本挖掘的重頭戲利用三元體表達(dá),構(gòu)建PPI網(wǎng)絡(luò),節(jié)點(diǎn)是蛋白質(zhì),動(dòng)詞為邊。分析文本挖掘出來的PPI網(wǎng)絡(luò)時(shí),應(yīng)當(dāng)注意閱讀和理解支撐信息。例如,蛋白質(zhì)間相互作用可以是直接的,也可以是間接的,取決于動(dòng)詞直接動(dòng)詞有tobind,tostabilize,tophosphorylate間接的動(dòng)詞有toinduce,totrigger,toblock。文獻(xiàn)中描述的蛋白質(zhì)相互作用的不同性質(zhì)部分地反映了所采用的實(shí)驗(yàn)方法和相互作用本身的性質(zhì)。常用的捕獲文本變異的方法就是把各種表達(dá)方式辨認(rèn)出來,并寫下捕獲這些變異的規(guī)則。捕獲磷酸化的模式,應(yīng)當(dāng)依次含有:一種酶的名字磷酸化的動(dòng)詞一種基質(zhì)的名字目前四十頁\總數(shù)一百一十二頁\編于二十點(diǎn)發(fā)現(xiàn)關(guān)系的工具FACTA:Medline文本中概念共現(xiàn)情況。MedGene和BioGene:利用共現(xiàn)發(fā)現(xiàn)基因優(yōu)先級(jí)別。Endeavour和G2D利用文本和其他數(shù)據(jù)源分析基因優(yōu)先級(jí)別。PolySearch利用啟發(fā)式加權(quán)技術(shù),給不同的共現(xiàn)不同的權(quán)重。Anni使用文本輪廓測(cè)量術(shù)語之間的關(guān)系。iHOP:挖掘PPI最流行的工具。RLIMS-P利用語言模式發(fā)現(xiàn)磷酸化過程中的激酶、基質(zhì)和磷酸。E3Miner發(fā)現(xiàn)泛素化,包括上下文信息。目前四十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前四十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)GoDisease+iHOP+Cytoscape目前四十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)發(fā)現(xiàn):DiscoveryBesidesfindingrelationships,textminersarealsointerestedindiscoveringrelationshipsSwanson:undiscoveredpublicknowledge【見例子1】目前四十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)文本挖掘的應(yīng)用實(shí)例Swanson關(guān)聯(lián)研究及其工具Arrowsmith的使用Bitola的使用用文獻(xiàn)輪廓挖掘微陣列表達(dá)數(shù)據(jù)DamienChaussabelMedlineR目前四十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)背景與意義發(fā)表文獻(xiàn)研究深入知識(shí)分裂fragmentationofscientificknowledge文獻(xiàn)量窮經(jīng)皓首并老死不相往來目前四十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)DonR.Swanson的研究跨學(xué)科間一定存在著潛在的未被發(fā)現(xiàn)的關(guān)聯(lián)文獻(xiàn)間隱性的關(guān)聯(lián)如何發(fā)現(xiàn)隱性關(guān)聯(lián)?尋找非相關(guān)互補(bǔ)性文獻(xiàn)text-basedinformaticsliterature-baseddiscovery目前四十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)DonR.Swanson的研究?jī)煞N互補(bǔ)的文獻(xiàn):一類文獻(xiàn)(AB):攝入A可能導(dǎo)致某種生理改變B另一類文獻(xiàn)(BC):B作用于某種疾病C即A作用于C。兩種非相關(guān)的文獻(xiàn):兩種文獻(xiàn)從沒有或很少被共同引用并且也不相互引用?;パa(bǔ)性和非相關(guān)性描述了在公開信息中存在著未被發(fā)現(xiàn)的有價(jià)值信息的模型結(jié)構(gòu)。目前四十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)Medline文獻(xiàn)集合DonR.Swanson的研究潛在的聯(lián)系雷諾氏病文獻(xiàn)食用魚油文獻(xiàn)血液粘稠度紅細(xì)胞脆性血液粘稠度紅細(xì)胞脆性目前四十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)閉合式的知識(shí)發(fā)現(xiàn)目前五十頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前五十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)ARROWSMITH3.0目前五十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)4822目前五十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前五十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前五十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前五十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)Asthmafamous?目前五十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)哮喘名人目前五十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)SYK:脾酪氨酸激酶目前五十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)SYK:脾酪氨酸激酶過敏性鼻炎Sykinhibitorsastreatmentforallergicrhinitis.

2008【SYK抑制劑治療過敏性鼻炎】AnintranasalSyk-kinaseinhibitor(R112)improvesthesymptomsofseasonalallergicrhinitisinaparkenvironment.

2005【鼻內(nèi)SYK抑制劑(R112)改善公園里過敏性鼻炎癥狀】

痛風(fēng)Crystal-inducedneutrophilactivation.IX.Syk-dependentactivationofclassIaphosphatidylinositol3-kinase.

2007【晶體誘發(fā)的中性粒細(xì)胞活化:Ia類磷脂酰肌醇3激酶的SYK依賴性活化】Crystal-inducedneutrophilactivation.VII.InvolvementofSykintheresponsestomonosodiumuratecrystals.

2001【晶體誘發(fā)的中性粒細(xì)胞活化:SYK參與對(duì)尿酸鈉晶體反應(yīng)的程度】目前六十頁\總數(shù)一百一十二頁\編于二十點(diǎn)過敏性鼻炎—SYK—痛風(fēng)過敏性鼻炎痛風(fēng)抑制劑治療中性粒細(xì)胞活化晶體誘發(fā)PI3KSYK目前六十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前六十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)B:基因和分子序列等語義類型目前六十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)TOLLreceptor目前六十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)可作為生物武器的潛在病毒能夠成為生物武器:致病性,傳播性。同時(shí)涉及到病毒這兩個(gè)特性的文章卻特別少。A:病毒毒力遺傳方面(virulence-genetic)C:病毒疾病傳播力病毒的昆蟲媒介傳播(insectvectors)空氣傳播(air)在空氣中的穩(wěn)定性(stabilityofvirusesinair)通過與A和C有共同聯(lián)系B找出更多符合條件的病毒。將得到的文獻(xiàn)經(jīng)過一些系列的處理,Arrowsmith列出了三個(gè)有意義的B-LIST(病毒的集合),通過進(jìn)一步的統(tǒng)計(jì)學(xué)分析和查閱文獻(xiàn),最終找出相對(duì)有意義的病毒(B)目前六十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)發(fā)現(xiàn)科研機(jī)構(gòu)間潛在的合作方向潛在合作方向美國斯坦福大學(xué)哥倫比亞大學(xué)醫(yī)學(xué)信息學(xué)研究領(lǐng)域發(fā)現(xiàn)科研機(jī)構(gòu)合作與交流的題目結(jié)果:更好地體現(xiàn):相似點(diǎn)(可以合作之處)和不同點(diǎn)(可以相互交流、學(xué)習(xí)之處)內(nèi)容詳細(xì)、明確:能體現(xiàn)出研究所使用的具體方法和側(cè)重點(diǎn)目前六十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)開放式的知識(shí)發(fā)現(xiàn)目前六十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)輸入單個(gè)的概念(疾病A),找到該概念的第一層相關(guān)概念并加以歸類(藥物B)。從第一層相關(guān)概念(藥物B)出發(fā),找到它們的相關(guān)概念,并加以歸類(基因C)。檢驗(yàn)基因和疾病是否有關(guān)聯(lián)。如果沒有,該基因與疾病有潛在的聯(lián)系而且并沒有文獻(xiàn)報(bào)道。提示:與疾病、生理學(xué)反應(yīng)或者其他表型相關(guān)的新基因、藥物或者神經(jīng)科學(xué)。目前六十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)BITOLA目前六十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前七十頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前七十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)syk目前七十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前七十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前七十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前七十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前七十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)內(nèi)容Swanson關(guān)聯(lián)研究及其工具Arrowsmith的使用Bitola的使用用文獻(xiàn)輪廓挖掘微陣列表達(dá)數(shù)據(jù)DamienChaussabelMedlineR目前七十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)運(yùn)用文獻(xiàn)輪廓

挖掘微陣列表達(dá)數(shù)據(jù)MiningmicroarrayexpressiondatabyliteratureprofilingDamienChaussabelMedlineR目前七十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)DamienChaussabel

AlanSherImmunobiologySection,LaboratoryofParasiticDiseases,NationalInstituteofAllergyandInfectiousDiseases,NationalInstitutesofHealth,Bethesda,MD20892,USAGenomeBiology2002,3(10):RESEARCH0055.目前七十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)目標(biāo)建立一種挖掘技術(shù)該技術(shù)以對(duì)文獻(xiàn)輪廓literatureprofiling的分析為基礎(chǔ)文獻(xiàn)輪廓:對(duì)于某一個(gè)主題(如某基因)而言,有相關(guān)文獻(xiàn)集合對(duì)于該基因的文獻(xiàn)集合,分析某些單詞在文摘中出現(xiàn)的頻次。目前八十頁\總數(shù)一百一十二頁\編于二十點(diǎn)文獻(xiàn)輪廓基因B基因C基因A相關(guān)文獻(xiàn)主題詞1頻次主題詞2頻次主題詞3頻次…………主題詞n頻次目前八十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)研究步驟檢索文獻(xiàn)分析文本過濾數(shù)據(jù)聚類分析目前八十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)1.檢索文獻(xiàn)從基因開始,分別找到與各種基因相關(guān)的論文標(biāo)題中含有基因名字的論文。人類基因命名委員會(huì)(HumanGeneNomenclatureCommittee,HGNC):官方名稱、縮寫、別名目前八十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)目前八十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)1.檢索文獻(xiàn)建立數(shù)據(jù)庫包括HGNC定義的10,500多種已知的人類基因用PubMed查詢格式的URL,例如:proteinkinaseCeta/htbin-post/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5D'PRKCH[ti]ORPKC-L[ti]ORPRKCL[ti]ORproteinkinaseCeta[ti]')上述紀(jì)錄按照GenBank和LocusLink的ID排列該數(shù)據(jù)庫可以作為Excel表格下載目前八十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)1.檢索文獻(xiàn)選70種基因,每一種基因的相關(guān)文獻(xiàn)以XML格式下載用Excel的宏命令抽取文摘,另存作為文本分析樣本PapersonGene70PapersonGene3PapersonGene2PapersonGene1目前八十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)2.分析文本對(duì)于每一個(gè)基因的相關(guān)紀(jì)錄的內(nèi)容,分析文摘中單詞出現(xiàn)的情況?!綯F】統(tǒng)計(jì)文摘中含有特定單詞的文獻(xiàn)數(shù)。【DF】例如:對(duì)于GADD45B基因的相關(guān)文獻(xiàn),有18.7%的文摘中含有單詞“Proliferation”。AbstractsonGene1單詞百分比=論文數(shù)/論文總數(shù)Proliferation18.7Active15.5infected14.8目前八十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)3.過濾數(shù)據(jù)每一種基因有幾萬條記錄。對(duì)文獻(xiàn)中發(fā)現(xiàn)的每一個(gè)單詞,標(biāo)上其出現(xiàn)的頻次數(shù)。這些單詞大多數(shù)對(duì)發(fā)現(xiàn)基因信息沒有用途:沒有特異性:'if,'because','cell','identified'很少使用:在很少的文獻(xiàn)中出現(xiàn)。第三類單詞:在某一種基因的文摘中出現(xiàn)頻率高【TF】。在所有文獻(xiàn)中出現(xiàn)頻率(基準(zhǔn)率)低【DF】??梢蕴峁┗虻南嚓P(guān)信息。目前八十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)RANTESY軸上的點(diǎn)為與RANTES基因相關(guān)的單詞,在25%以上的論文中出現(xiàn)過。隨機(jī)選取基因,計(jì)算這些詞的出現(xiàn)率,計(jì)算這些詞在不同基因文獻(xiàn)中出現(xiàn)的平均值。如果基因足夠的話,單詞的平均出現(xiàn)率趨于穩(wěn)定。出現(xiàn)率低于5%的單詞傳遞有關(guān)該基因的重要信息。如infection,secreted,chemokine等。目前八十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)3.過濾數(shù)據(jù)基準(zhǔn)率:在所有已知的人類基因中隨機(jī)抽取基因(250種)統(tǒng)計(jì)單詞出現(xiàn)頻率的平均值term1term2Term3termnGene1Gene2gene250平均值目前九十頁\總數(shù)一百一十二頁\編于二十點(diǎn)3.數(shù)據(jù)過濾單詞過濾的標(biāo)準(zhǔn):通過設(shè)定基準(zhǔn)率(5%),去掉在全部科技文獻(xiàn)中經(jīng)常出現(xiàn)的單詞每一個(gè)單詞在每一種基因上的出現(xiàn)率與基準(zhǔn)率的差值〉25%通過兩個(gè)基因過濾的單詞:一個(gè)單詞只有在至少2個(gè)以上的基因中共現(xiàn)才在確定基因關(guān)系方面有用。70個(gè)基因,25,000種單詞,只保留下來101種。可以調(diào)整單詞過濾的閾值:下調(diào)閾值,增加了噪音,檢索到更多的單詞。目前九十一頁\總數(shù)一百一十二頁\編于二十點(diǎn)3.數(shù)據(jù)過濾目前九十二頁\總數(shù)一百一十二頁\編于二十點(diǎn)4.聚類分析通過單詞出現(xiàn)情況,給具有同樣的文獻(xiàn)分布特征的基因進(jìn)行分組。經(jīng)過幾輪過濾之后,確定了單詞表,將該表用于建立一個(gè)單詞-基因矩陣。矩陣中對(duì)應(yīng)的是每一種基因和單詞出現(xiàn)值。采用基因聚類分析的軟件:Cluster/TreeView目前九十三頁\總數(shù)一百一十二頁\編于二十點(diǎn)聚類分析term1term2term3Gene1Gene2Gene3目前九十四頁\總數(shù)一百一十二頁\編于二十點(diǎn)4.聚類分析藍(lán)色:nuclearfactors橙色:receptor-ligandpair綠色:interferon-related紅色:chemokines紫色:MHCclassIantigen-presentationpathway黃色陰影:?jiǎn)卧~在文摘中出現(xiàn)的水平目前九十五頁\總數(shù)一百一十二頁\編于二十點(diǎn)4.聚類分析基因的功能分組明顯與免疫反應(yīng)有關(guān)。藍(lán)色:控制炎癥反應(yīng)和細(xì)胞凋亡的轉(zhuǎn)錄因子,這些基因和‘TNF’(theinflammatorymediatortumornecrosisfactor),‘death’或者‘a(chǎn)poptosis’同時(shí)出現(xiàn)較多。綠色:最大的一組基因,與‘interferon’有關(guān)(也叫‘IFN’和‘IFN-alpha’,)。STATs基因是干擾素信號(hào)傳導(dǎo)專門需要的因子。紅色:專門面向趨化因子(chemokines)。紫色:基因全部是I類MHC抗體表達(dá)通路基因。這些基因?qū)iT編碼把蛋白降解為肽的蛋白。根據(jù)抽取詞所表示的概念可以發(fā)現(xiàn)有價(jià)值的信息,用于快速探索和評(píng)估復(fù)雜數(shù)據(jù)集中的生物學(xué)意義。目前九十六頁\總數(shù)一百一十二頁\編于二十點(diǎn)4.聚類分析目前九十七頁\總數(shù)一百一十二頁\編于二十點(diǎn)聚類分析目前九十八頁\總數(shù)一百一十二頁\編于二十點(diǎn)單詞出現(xiàn)模式的分析目前九十九頁\總數(shù)一百一十二頁\編于二十點(diǎn)不同關(guān)聯(lián)程度的基因組通過文獻(xiàn)分布特征發(fā)現(xiàn)的關(guān)聯(lián)一組基因在功能上的關(guān)聯(lián)程度不同的基因組共享的單詞數(shù)關(guān)聯(lián)數(shù)同源基因116523協(xié)同基因101300隨機(jī)基因49109目前一百頁\總數(shù)一百一十二頁\編于二十點(diǎn)用文獻(xiàn)輪廓挖掘鼻咽癌微陣列表達(dá)數(shù)據(jù)黃仲曦,姚開泰(第一軍醫(yī)大學(xué)病理教研室腫瘤研究所)目的:探索鼻咽癌異常信號(hào)通路。方法:根據(jù)鼻咽癌微陣列表達(dá)譜,采用基于文獻(xiàn)輪廓的數(shù)據(jù)挖掘方法。從Medline文獻(xiàn)數(shù)據(jù)庫中提取與基因相關(guān)的文獻(xiàn)并分析詞的頻率,再根據(jù)重復(fù)發(fā)生和共發(fā)生的過濾標(biāo)準(zhǔn)提取功能相關(guān)的詞。最后根據(jù)詞的發(fā)生頻率對(duì)基因進(jìn)行功能聚類。結(jié)果:基因表達(dá)譜的112個(gè)差異表達(dá)基因聚成16組功能類別:4組暗示EBV感染、6組顯示鼻咽癌變過程、2組參與能量代謝、1組提示蛋白的異常磷酸化、2組與其它疾病相關(guān)、1組與肌肉組織活性相關(guān)。腫瘤發(fā)生發(fā)展過程中常見的P53和Rb信號(hào)通路的異常在本研究中則未發(fā)現(xiàn)。結(jié)論:鼻咽癌的發(fā)生發(fā)展可能由特殊的信號(hào)通路引起。目前一百零一頁\總數(shù)一百一十二頁\編于二十點(diǎn)用文獻(xiàn)輪廓挖掘大腸癌轉(zhuǎn)移芯片表達(dá)譜黃仲曦,孫青,丁彥青,姚開泰(第一軍醫(yī)大學(xué)病理教研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論