




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本挖掘及其應(yīng)用目的介紹生物信息學(xué)文本挖掘工具文本挖掘不再是信息專業(yè)的領(lǐng)域生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本目的介紹生物信息學(xué)文本挖掘工具文本挖掘不再是信息專業(yè)的領(lǐng)域目的介紹生物信息學(xué)文本挖掘工具例子:二者關(guān)系進(jìn)行性多灶性白質(zhì)腦?。╬rogressive multifocal leukoencephalopathy,PML) 抗體antibodiesMonoclonal antibodies,efalizumab(依法珠單克隆抗體) 例子:二者關(guān)系自然語(yǔ)言處理讓計(jì)算機(jī)替我們看文獻(xiàn)吧!比較難:計(jì)算機(jī)需要專門的知識(shí)才
2、能讀懂文本。自然語(yǔ)言處理(Natural Language Processing ,NLP):專門訓(xùn)練計(jì)算機(jī)掌握這種知識(shí)的學(xué)科。生物醫(yī)學(xué)文本挖掘(Biomedical text mining )是一個(gè)專門處理生物學(xué)、醫(yī)學(xué)和化學(xué)文本的分支學(xué)科。也叫BioNLP有些人把NLP當(dāng)做text mining的同義詞。自然語(yǔ)言處理讓計(jì)算機(jī)替我們看文獻(xiàn)吧!Biomedical text 生物醫(yī)學(xué)文本的格式多種多樣:病歷科研論文序列注釋公共健康指南文本的內(nèi)容多樣化,如習(xí)慣用語(yǔ)臨床有臨床上的行話實(shí)驗(yàn)室有自己對(duì)蛋白的命名方式這種差異造成了文本挖掘應(yīng)用往往面向特定類型的文本。尤其是對(duì)Medline文摘記錄的分析。易
3、獲取免費(fèi)5Biomedical text 生物醫(yī)學(xué)文本的格式多種多樣:基本概念(1)術(shù)語(yǔ)(Term):專門領(lǐng)域里的名稱。術(shù)語(yǔ)集(terminology):術(shù)語(yǔ)的集合。生物醫(yī)學(xué)文本中到處是術(shù)語(yǔ),是醫(yī)學(xué)知識(shí)的基本構(gòu)件。如各種細(xì)胞的名稱,蛋白質(zhì)、醫(yī)學(xué)設(shè)備、疾病、基因突變、化學(xué)物質(zhì)名、蛋白質(zhì)域的名稱。名稱如此重要, 需要在文本中識(shí)別之,這個(gè)工作稱為生物醫(yī)學(xué)文獻(xiàn)中的命名體識(shí)別(NER,Named Entity Recognition )?;靖拍睿?)術(shù)語(yǔ)(Term):專門領(lǐng)域里的名稱。基本概念(2)盡管術(shù)語(yǔ)的定義似乎很明確,但是很難精確定義。early progressive multifocal l
4、eukoencephalopathyRefer toearly progressive multifocal leukoencephalopathy progressive multifocal leukoencephalopathymultifocal leukoencephalopathyLeukoencephalopathy基本概念(2)盡管術(shù)語(yǔ)的定義似乎很明確,但是很難精確定義?;靖拍睿?)Terminology:手工構(gòu)建的,因此是受控的。HUGO:基因術(shù)語(yǔ)集ICD:國(guó)際疾病分類法。Gene Ontology:基因本體。不僅僅是術(shù)語(yǔ)列表,還包括:術(shù)語(yǔ)表+同義詞=thesaurus 術(shù)
5、語(yǔ)表+術(shù)語(yǔ)之間的關(guān)系=taxonomies, ontology一旦一段文本與其中一個(gè)詞表對(duì)應(yīng)上,就和其他資源建立起聯(lián)系了?;靖拍睿?)Terminology:手工構(gòu)建的,因此是受控人工標(biāo)引手工匹配Medline abstractsMedical Subject Headings (MeSH)Leukoencephalopathy,progressive multifocal 9人工標(biāo)引手工匹配Medline abstractsMedic1010gene normalization自動(dòng)匹配:recognizing names of genesMedline abstractsmapping t
6、hem to their corresponding gene identifiers (e.g., Entrez Gene ID)11gene normalization自動(dòng)匹配:recogniHGNC database of human gene names HUGO Gene Nomenclature CommitteeHGNC database of human gene na網(wǎng)上在線檢索的基因名稱信息網(wǎng)上在線檢索的基因名稱信息1414下載的基因名稱信息下載的基因名稱信息NER的原理文本(PubMed Abstracts)軟件名稱(基因名,蛋白質(zhì)名)詞表NER的原理文本(PubMed
7、Abstracts)軟件名稱詞表之間的聯(lián)系詞表太多,又創(chuàng)建了詞表,把術(shù)語(yǔ)集匹配起來(lái),詞表之詞表,超級(jí)詞表。metaBioThesaurus:多個(gè)詞表中蛋白質(zhì)的同義詞 Unified Medical Language System(UMLS):一體化醫(yī)學(xué)語(yǔ)言系統(tǒng),120多個(gè)詞表,4百萬(wàn)個(gè)術(shù)語(yǔ)。詞表之間的聯(lián)系詞表太多,又創(chuàng)建了詞表,把術(shù)語(yǔ)集匹配起來(lái),詞表1818生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件術(shù)語(yǔ)識(shí)別工具Whatizit:識(shí)別多種術(shù)語(yǔ),通過(guò)網(wǎng)頁(yè)。Abner:?jiǎn)螜C(jī)版,識(shí)別5種術(shù)語(yǔ):蛋白、DNA、RNA、細(xì)胞株、細(xì)胞類型。
8、更專指的術(shù)語(yǔ)識(shí)別工具:PepBank :用于肽類LSAT:用于alternative transcripts 提高 PubMed檢索效果:semedico , novo|seekGoPubMed/GoGene術(shù)語(yǔ)識(shí)別工具Whatizit:識(shí)別多種術(shù)語(yǔ),通過(guò)網(wǎng)頁(yè)。24242525A(Whatizit):蛋白-藍(lán)色,疾病-深紅,基因本體-淺紅,化學(xué)物質(zhì)-深紅,物種-紅色B(ABNER):蛋白和細(xì)胞株C(BIOCreAtIvE metaserver )A(Whatizit):蛋白-藍(lán)色,疾病-深紅,基因本體-淺發(fā)現(xiàn)關(guān)系識(shí)別術(shù)語(yǔ)之后,下一步自然是尋找術(shù)語(yǔ)之間的關(guān)系。發(fā)現(xiàn)關(guān)系的最簡(jiǎn)單途徑就是共現(xiàn):在同一
9、段文字中同時(shí)出現(xiàn)的兩個(gè)術(shù)語(yǔ)可能有關(guān)聯(lián)。例如,某種蛋白質(zhì)與一種疾病總是在同一文摘中出現(xiàn),有理由假設(shè)該蛋白與疾病的某個(gè)方面有關(guān)。共現(xiàn)的次數(shù)越多,越有意義。可以定量排序,通過(guò)統(tǒng)計(jì)處理排除偶然的關(guān)聯(lián)。27發(fā)現(xiàn)關(guān)系識(shí)別術(shù)語(yǔ)之后,下一步自然是尋找術(shù)語(yǔ)之間的關(guān)系。27關(guān)聯(lián)度假設(shè)有t1和t2兩個(gè)詞共現(xiàn),最簡(jiǎn)單的信度指標(biāo)就是含有這兩個(gè)詞的文章數(shù)c(t1t2),但是要標(biāo)準(zhǔn)化,去掉兩個(gè)詞各自出現(xiàn)頻次對(duì)共現(xiàn)次數(shù)的影響。點(diǎn)間互信息p為文章數(shù)除以文章總數(shù)。關(guān)聯(lián)度假設(shè)有t1和t2兩個(gè)詞共現(xiàn),最簡(jiǎn)單的信度指標(biāo)就是含有這關(guān)系抽?。汗铂F(xiàn)GoDisease:輸入leukoencephalopathy, progressive mu
10、ltifocalmh關(guān)系抽取:共現(xiàn)GoDisease:返回結(jié)果:所有提及PML的文摘中的基因。 出現(xiàn)次數(shù)越多的基因,越可能與PML有關(guān)聯(lián)。如果某基因在PML中不成比例地高于其他疾病,則該基因可能與PML有特殊關(guān)系。返回結(jié)果:關(guān)系抽取:確切關(guān)系明確描述的關(guān)系:比共現(xiàn)更好的證據(jù)。例如: We describe a PML in a 67-year-old woman with a destructive polyarthritis(多關(guān)節(jié)炎) associated with anti-JO1 antibodies treated with corticosteroids PML與抗-JO1抗體有明
11、確關(guān)系。 將這種關(guān)系簡(jiǎn)化為三元體:兩個(gè)名詞+一個(gè)動(dòng)詞。PML is associated with anti-JO1 antibodies識(shí)別動(dòng)詞:詞性標(biāo)注:part-of-speech (POS) tagger三元體表述因其簡(jiǎn)單而功能強(qiáng)大,但是忽略了文章中的重要的細(xì)節(jié)。比如有些證據(jù)是來(lái)自于臨床病例報(bào)告。關(guān)系抽?。捍_切關(guān)系明確描述的關(guān)系:比共現(xiàn)更好的證據(jù)。Semantic Knowledge RepresentationSKR:是基于UMLS進(jìn)行自然語(yǔ)言處理、提取文獻(xiàn)中概念的系列在線工具。Semantic Knowledge Representat其中MetaMap是SKR系統(tǒng)的核心組件。MM
12、Tx是完成MetaMap功能的Java工具包,它進(jìn)行的分析是語(yǔ)義層次上的分析。其中MetaMap是SKR系統(tǒng)的核心組件。MMTx是完成MeMetaMap工作原理MetaMap工作原理MetaMap工作原理:切分“ocular complication of myasthenia gravis” (重癥肌無(wú)力的眼部并發(fā)癥)“ocular complication”和“of myasthenia gravis”“ocular complication”分為“mod(ocular),head(complication)MetaMap工作原理:切分“ocular complicaMetaMap工作原理
13、:產(chǎn)生變形體Ocularadj,0=”Eyenoun,2=”s”同義詞Eyesnoun,3=”si”同義詞的復(fù)數(shù)Opticadj,4=”ss”同義詞的同義詞Ophthalmicadj,4=”ss”同義詞的同義詞Ophthalmianoun,7=”ssd”同義詞的同義詞的變形Oculusnoun,3=”d”變形Oculinoun,4=”di”同義詞的復(fù)數(shù)MetaMap工作原理:產(chǎn)生變形體Ocularadj,生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件檢索候選詞及候選詞的評(píng)價(jià)檢索超級(jí)詞表,檢索到包含有至少一個(gè)變形體的候選字串集合。計(jì)算出與輸入的短語(yǔ)詞相匹配的候選詞,然后用4種指標(biāo)的加權(quán)平均組成的語(yǔ)言學(xué)評(píng)價(jià)函數(shù),計(jì)
14、算輸入短語(yǔ)與候選詞之間的匹配程度:中心度:即包含中心詞;變形情況:距離倒數(shù)的平均值;覆蓋面和內(nèi)斂度:測(cè)量候選詞與文本的匹配程度和有多少個(gè)片段按照匹配程度排列這些候選詞。檢索候選詞及候選詞的評(píng)價(jià)檢索超級(jí)詞表,檢索到包含有至少一個(gè)變生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件關(guān)系抽?。篜PIprotein-protein interactions (PPI):文本挖掘的重頭戲利用三元體表達(dá),構(gòu)建PPI網(wǎng)絡(luò),節(jié)點(diǎn)是蛋白質(zhì),動(dòng)詞為邊。分析文本挖掘出來(lái)的PPI網(wǎng)絡(luò)時(shí),應(yīng)當(dāng)注意閱讀和理解支撐信息。例如,蛋白質(zhì)間相互作用可以是直接的,也可以是間接的,取決于動(dòng)詞直接動(dòng)詞有to bind, to stabilize, to p
15、hosphorylate間接的動(dòng)詞有to induce, to trigger, to block。 文獻(xiàn)中描述的蛋白質(zhì)相互作用的不同性質(zhì)部分地反映了所采用的實(shí)驗(yàn)方法和相互作用本身的性質(zhì)。常用的捕獲文本變異的方法就是把各種表達(dá)方式辨認(rèn)出來(lái),并寫下捕獲這些變異的規(guī)則。捕獲磷酸化的模式,應(yīng)當(dāng)依次含有:一種酶的名字磷酸化的動(dòng)詞一種基質(zhì)的名字關(guān)系抽?。篜PIprotein-protein intera發(fā)現(xiàn)關(guān)系的工具FACTA:Medline文本中概念共現(xiàn)情況。MedGene 和BioGene:利用共現(xiàn)發(fā)現(xiàn)基因優(yōu)先級(jí)別。Endeavour 和G2D 利用文本和其他數(shù)據(jù)源分析基因優(yōu)先級(jí)別。 PolySea
16、rch利用啟發(fā)式加權(quán)技術(shù),給不同的共現(xiàn)不同的權(quán)重。Anni使用文本輪廓測(cè)量術(shù)語(yǔ)之間的關(guān)系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用語(yǔ)言模式發(fā)現(xiàn)磷酸化過(guò)程中的激酶、基質(zhì)和磷酸。 E3Miner發(fā)現(xiàn)泛素化,包括上下文信息。發(fā)現(xiàn)關(guān)系的工具FACTA:Medline文本中概念共現(xiàn)情況。生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件GoDisease+iHOP+CytoscapeGoDisease+iHOP+Cytoscape發(fā)現(xiàn):DiscoveryBesides finding relationships, text miners are also interested in discovering
17、relationships Swanson:undiscovered public knowledge【見例子1】發(fā)現(xiàn):Discovery文本挖掘的應(yīng)用實(shí)例Swanson關(guān)聯(lián)研究及其工具Arrowsmith 的使用Bitola的使用用文獻(xiàn)輪廓挖掘微陣列表達(dá)數(shù)據(jù)Damien ChaussabelMedlineR文本挖掘的應(yīng)用實(shí)例Swanson關(guān)聯(lián)研究及其工具背景與意義發(fā)表文獻(xiàn)研究深入知識(shí)分裂fragmentation of scientific knowledge文獻(xiàn)量窮經(jīng)皓首并老死不相往來(lái)背景與意義發(fā)表文獻(xiàn)研究深入知識(shí)分裂文獻(xiàn)量窮經(jīng)皓首并老死不相往Don R. Swanson的研究跨學(xué)科間一定
18、存在著潛在的未被發(fā)現(xiàn)的關(guān)聯(lián)文獻(xiàn)間隱性的關(guān)聯(lián)如何發(fā)現(xiàn)隱性關(guān)聯(lián)?尋找非相關(guān)互補(bǔ)性文獻(xiàn)text-based informaticsliterature-based discoveryDon R. Swanson的研究跨學(xué)科間一定存在著潛在的未Don R. Swanson的研究?jī)煞N互補(bǔ)的文獻(xiàn):一類文獻(xiàn)(AB):攝入A可能導(dǎo)致某種生理改變B另一類文獻(xiàn)(BC):B作用于某種疾病C即A作用于C。兩種非相關(guān)的文獻(xiàn):兩種文獻(xiàn)從沒有或很少被共同引用并且也不相互引用?;パa(bǔ)性和非相關(guān)性描述了在公開信息中存在著未被發(fā)現(xiàn)的有價(jià)值信息的模型結(jié)構(gòu)。Don R. Swanson的研究?jī)煞N互補(bǔ)的文獻(xiàn):Medline文獻(xiàn)集合Don
19、 R. Swanson的研究潛在的聯(lián)系 雷諾氏病文獻(xiàn)食用魚油文獻(xiàn)血液粘稠度紅細(xì)胞脆性 血液粘稠度紅細(xì)胞脆性 Don R. Swanson的研究潛在的聯(lián)系 雷諾氏病食用魚閉合式的知識(shí)發(fā)現(xiàn)閉合式的知識(shí)發(fā)現(xiàn)生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件ARROWSMITH 3.0 ARROWSMITH 3.0 48224822生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件Asthma famous?Asthma famous?哮喘名人哮喘名人SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶過(guò)敏性鼻炎Syk inhibitors as treatment for all
20、ergic rhinitis.2008【SYK抑制劑治療過(guò)敏性鼻炎】An intranasal Syk-kinase inhibitor (R112) improves the symptoms of seasonal allergic rhinitis in a park environment.2005【鼻內(nèi)SYK抑制劑(R112)改善公園里過(guò)敏性鼻炎癥狀】痛風(fēng)Crystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase.2007【晶
21、體誘發(fā)的中性粒細(xì)胞活化:Ia類磷脂酰肌醇3激酶的SYK依賴性活化】Crystal-induced neutrophil activation. VII. Involvement of Syk in the responses to monosodium urate crystals.2001【晶體誘發(fā)的中性粒細(xì)胞活化:SYK參與對(duì)尿酸鈉晶體反應(yīng)的程度】SYK:脾酪氨酸激酶過(guò)敏性鼻炎Syk inhibitors 過(guò)敏性鼻炎SYK痛風(fēng)過(guò)敏性鼻炎痛風(fēng)抑制劑治療中性粒細(xì)胞活化晶體誘發(fā)PI3KSYK過(guò)敏性鼻炎SYK痛風(fēng)過(guò)敏性鼻炎痛風(fēng)抑制劑治療中性粒細(xì)胞活生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件B:基因和分子序列等語(yǔ)
22、義類型B:基因和分子序列等語(yǔ)義類型TOLL receptorTOLL receptor可作為生物武器的潛在病毒能夠成為生物武器:致病性,傳播性。同時(shí)涉及到病毒這兩個(gè)特性的文章卻特別少。A:病毒毒力遺傳方面(virulence- genetic)C:病毒疾病傳播力病毒的昆蟲媒介傳播(insect vectors)空氣傳播(air)在空氣中的穩(wěn)定性(stability of viruses in air)通過(guò)與A和C有共同聯(lián)系B找出更多符合條件的病毒。將得到的文獻(xiàn)經(jīng)過(guò)一些系列的處理,Arrowsmith列出了三個(gè)有意義的B-LIST(病毒的集合),通過(guò)進(jìn)一步的統(tǒng)計(jì)學(xué)分析和查閱文獻(xiàn),最終找出相對(duì)有意
23、義的病毒(B) 可作為生物武器的潛在病毒能夠成為生物武器:致病性,傳播性。同發(fā)現(xiàn)科研機(jī)構(gòu)間潛在的合作方向 潛在合作方向美國(guó)斯坦福大學(xué)哥倫比亞大學(xué)醫(yī)學(xué)信息學(xué)研究領(lǐng)域發(fā)現(xiàn)科研機(jī)構(gòu)合作與交流的題目結(jié)果:更好地體現(xiàn):相似點(diǎn)(可以合作之處)和不同點(diǎn)(可以相互交流、學(xué)習(xí)之處)內(nèi)容詳細(xì)、明確:能體現(xiàn)出研究所使用的具體方法和側(cè)重點(diǎn) 發(fā)現(xiàn)科研機(jī)構(gòu)間潛在的合作方向 潛在合作方向開放式的知識(shí)發(fā)現(xiàn)開放式的知識(shí)發(fā)現(xiàn)BITOLA 輸入單個(gè)的概念(疾病A),找到該概念的第一層相關(guān)概念并加以歸類(藥物B)。從第一層相關(guān)概念(藥物B)出發(fā),找到它們的相關(guān)概念,并加以歸類(基因C)。檢驗(yàn)基因和疾病是否有關(guān)聯(lián)。如果沒有,該基因與疾
24、病有潛在的聯(lián)系而且并沒有文獻(xiàn)報(bào)道。提示:與疾病、生理學(xué)反應(yīng)或者其他表型相關(guān)的新基因、藥物或者神經(jīng)科學(xué)。BITOLA 輸入單個(gè)的概念(疾病A),找到該概念的第一層BITOLABITOLA生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件syksyk生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件內(nèi)容Swanson關(guān)聯(lián)研究及其工具Arrowsmith 的使用Bitola的使用用文獻(xiàn)輪廓挖掘微陣列表達(dá)數(shù)據(jù)Damien ChaussabelMedlineR內(nèi)容Swanson關(guān)聯(lián)研究及其工具運(yùn)用文獻(xiàn)輪廓挖掘微陣列表達(dá)數(shù)據(jù)Mining
25、microarray expression data by literature profilingDamien ChaussabelMedlineR運(yùn)用文獻(xiàn)輪廓挖掘微陣列表達(dá)數(shù)據(jù)Mining microarDamien ChaussabelAlan SherImmunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USAGeno
26、me Biology 2002, 3(10):RESEARCH0055. Damien ChaussabelAlan SherImm目標(biāo)建立一種挖掘技術(shù)該技術(shù)以對(duì)文獻(xiàn)輪廓literature profiling的分析為基礎(chǔ)文獻(xiàn)輪廓:對(duì)于某一個(gè)主題(如某基因)而言,有相關(guān)文獻(xiàn)集合對(duì)于該基因的文獻(xiàn)集合,分析某些單詞在文摘中出現(xiàn)的頻次。目標(biāo)建立一種挖掘技術(shù)文獻(xiàn)輪廓基因B基因C基因A相關(guān)文獻(xiàn)主題詞1 頻次主題詞2 頻次主題詞3 頻次 主題詞n 頻次文獻(xiàn)輪廓基因B基因C基因A相關(guān)文獻(xiàn)主題詞1 頻次研究步驟檢索文獻(xiàn)分析文本過(guò)濾數(shù)據(jù)聚類分析研究步驟檢索文獻(xiàn)1.檢索文獻(xiàn)從基因開始,分別找到與各種基因相關(guān)的論文
27、標(biāo)題中含有基因名字的論文。人類基因命名委員會(huì)(Human Gene Nomenclature Committee, HGNC):官方名稱、縮寫、別名1.檢索文獻(xiàn)從基因開始,分別找到與各種基因相關(guān)的論文生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件1.檢索文獻(xiàn)建立數(shù)據(jù)庫(kù)包括HGNC定義的10,500多種已知的人類基因 用PubMed查詢格式的URL,例如: protein kinase C etaPRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti)上述紀(jì)錄按照GenBank和Locus Link的ID排列該數(shù)據(jù)庫(kù)可以作為Excel表格下載1.檢索
28、文獻(xiàn)建立數(shù)據(jù)庫(kù)1.檢索文獻(xiàn)選70種基因,每一種基因的相關(guān)文獻(xiàn)以XML格式下載用Excel的宏命令抽取文摘,另存作為文本分析樣本Papers on Gene 70Papers on Gene 3Papers on Gene 2Papers on Gene 11.檢索文獻(xiàn)選70種基因,每一種基因的相關(guān)文獻(xiàn)以XML格式下2.分析文本對(duì)于每一個(gè)基因的相關(guān)紀(jì)錄的內(nèi)容,分析文摘中單詞出現(xiàn)的情況?!綯F】統(tǒng)計(jì)文摘中含有特定單詞的文獻(xiàn)數(shù)。【DF】例如:對(duì)于GADD45B基因的相關(guān)文獻(xiàn),有18.7%的文摘中含有單詞“Proliferation”。Abstracts on Gene 12.分析文本對(duì)于每一個(gè)基因的
29、相關(guān)紀(jì)錄的內(nèi)容,分析文摘中單詞出3.過(guò)濾數(shù)據(jù)每一種基因有幾萬(wàn)條記錄。對(duì)文獻(xiàn)中發(fā)現(xiàn)的每一個(gè)單詞,標(biāo)上其出現(xiàn)的頻次數(shù)。這些單詞大多數(shù)對(duì)發(fā)現(xiàn)基因信息沒有用途:沒有特異性:if, because, cell, identified 很少使用:在很少的文獻(xiàn)中出現(xiàn)。第三類單詞:在某一種基因的文摘中出現(xiàn)頻率高【TF】。在所有文獻(xiàn)中出現(xiàn)頻率(基準(zhǔn)率)低【DF】??梢蕴峁┗虻南嚓P(guān)信息。3.過(guò)濾數(shù)據(jù)每一種基因有幾萬(wàn)條記錄。對(duì)文獻(xiàn)中發(fā)現(xiàn)的每一個(gè)單詞RANTESY軸上的點(diǎn)為與RANTES基因相關(guān)的單詞,在25%以上的論文中出現(xiàn)過(guò)。隨機(jī)選取基因,計(jì)算這些詞的出現(xiàn)率,計(jì)算這些詞在不同基因文獻(xiàn)中出現(xiàn)的平均值。如果基因足夠
30、的話,單詞的平均出現(xiàn)率趨于穩(wěn)定。出現(xiàn)率低于5%的單詞傳遞有關(guān)該基因的重要信息。如infection, secreted, chemokine 等。RANTESY軸上的點(diǎn)為與RANTES基因相關(guān)的單詞,在253.過(guò)濾數(shù)據(jù)基準(zhǔn)率:在所有已知的人類基因中隨機(jī)抽取基因(250種)統(tǒng)計(jì)單詞出現(xiàn)頻率的平均值3.過(guò)濾數(shù)據(jù)基準(zhǔn)率:3.數(shù)據(jù)過(guò)濾單詞過(guò)濾的標(biāo)準(zhǔn):通過(guò)設(shè)定基準(zhǔn)率(5%),去掉在全部科技文獻(xiàn)中經(jīng)常出現(xiàn)的單詞每一個(gè)單詞在每一種基因上的出現(xiàn)率與基準(zhǔn)率的差值25%通過(guò)兩個(gè)基因過(guò)濾的單詞:一個(gè)單詞只有在至少2個(gè)以上的基因中共現(xiàn)才在確定基因關(guān)系方面有用。70個(gè)基因,25,000種單詞,只保留下來(lái)101種。可以調(diào)
31、整單詞過(guò)濾的閾值:下調(diào)閾值,增加了噪音,檢索到更多的單詞。3.數(shù)據(jù)過(guò)濾單詞過(guò)濾的標(biāo)準(zhǔn):3.數(shù)據(jù)過(guò)濾3.數(shù)據(jù)過(guò)濾4.聚類分析通過(guò)單詞出現(xiàn)情況,給具有同樣的文獻(xiàn)分布特征的基因進(jìn)行分組。經(jīng)過(guò)幾輪過(guò)濾之后,確定了單詞表,將該表用于建立一個(gè)單詞-基因矩陣。矩陣中對(duì)應(yīng)的是每一種基因和單詞出現(xiàn)值。采用基因聚類分析的軟件:Cluster/TreeView 4.聚類分析通過(guò)單詞出現(xiàn)情況,給具有同樣的文獻(xiàn)分布特征的基因聚類分析聚類分析4.聚類分析藍(lán)色:nuclear factors橙色:receptor-ligand pair綠色:interferon-related紅色:chemokines紫色:MHC cla
32、ss I antigen-presentation pathway黃色陰影:?jiǎn)卧~在文摘中出現(xiàn)的水平4.聚類分析藍(lán)色:nuclear factors紅色:che4.聚類分析基因的功能分組明顯與免疫反應(yīng)有關(guān)。藍(lán)色:控制炎癥反應(yīng)和細(xì)胞凋亡的轉(zhuǎn)錄因子,這些基因和TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同時(shí)出現(xiàn)較多。 綠色:最大的一組基因,與interferon 有關(guān)(也叫 IFN和IFN-alpha,)。STATs基因是干擾素信號(hào)傳導(dǎo)專門需要的因子。 紅色:專門面向趨化因子(chemokines)
33、。紫色:基因全部是I類MHC抗體表達(dá)通路基因。這些基因?qū)iT編碼把蛋白降解為肽的蛋白。根據(jù)抽取詞所表示的概念可以發(fā)現(xiàn)有價(jià)值的信息,用于快速探索和評(píng)估復(fù)雜數(shù)據(jù)集中的生物學(xué)意義。4.聚類分析基因的功能分組明顯與免疫反應(yīng)有關(guān)。4.聚類分析4.聚類分析聚類分析聚類分析單詞出現(xiàn)模式的分析單詞出現(xiàn)模式的分析不同關(guān)聯(lián)程度的基因組通過(guò)文獻(xiàn)分布特征發(fā)現(xiàn)的關(guān)聯(lián)一組基因在功能上的關(guān)聯(lián)程度不同關(guān)聯(lián)程度的基因組通過(guò)文獻(xiàn)分布特征發(fā)現(xiàn)的關(guān)聯(lián)用文獻(xiàn)輪廓挖掘鼻咽癌微陣列表達(dá)數(shù)據(jù)黃仲曦,姚開泰(第一軍醫(yī)大學(xué)病理教研室腫瘤研究所)目的:探索鼻咽癌異常信號(hào)通路。方法:根據(jù)鼻咽癌微陣列表達(dá)譜,采用基于文獻(xiàn)輪廓的數(shù)據(jù)挖掘方法。從Medli
34、ne文獻(xiàn)數(shù)據(jù)庫(kù)中提取與基因相關(guān)的文獻(xiàn)并分析詞的頻率,再根據(jù)重復(fù)發(fā)生和共發(fā)生的過(guò)濾標(biāo)準(zhǔn)提取功能相關(guān)的詞。最后根據(jù)詞的發(fā)生頻率對(duì)基因進(jìn)行功能聚類。結(jié)果:基因表達(dá)譜的112個(gè)差異表達(dá)基因聚成16組功能類別:4組暗示EBV感染、6組顯示鼻咽癌變過(guò)程、2組參與能量代謝、1組提示蛋白的異常磷酸化、2組與其它疾病相關(guān)、1組與肌肉組織活性相關(guān)。腫瘤發(fā)生發(fā)展過(guò)程中常見的P53和Rb信號(hào)通路的異常在本研究中則未發(fā)現(xiàn)。結(jié)論:鼻咽癌的發(fā)生發(fā)展可能由特殊的信號(hào)通路引起。用文獻(xiàn)輪廓挖掘鼻咽癌微陣列表達(dá)數(shù)據(jù)黃仲曦,姚開泰(第一軍醫(yī)大用文獻(xiàn)輪廓挖掘大腸癌轉(zhuǎn)移芯片表達(dá)譜黃仲曦,孫青,丁彥青,姚開泰(第一軍醫(yī)大學(xué)病理教研室腫瘤研究所)目的:尋找新的大腸癌轉(zhuǎn)移相關(guān)基因。方法:根據(jù)大腸癌轉(zhuǎn)移芯片的表達(dá)譜,采用基于文獻(xiàn)輪廓的數(shù)據(jù)挖掘方法,從Medline文獻(xiàn)數(shù)據(jù)庫(kù)中提取基因的相關(guān)文獻(xiàn)并分析詞的頻率,再基于重復(fù)發(fā)生和共發(fā)生的過(guò)濾標(biāo)準(zhǔn)提取功能相關(guān)的詞,最后基于詞的發(fā)生頻率對(duì)基因進(jìn)行功能聚類,進(jìn)一步結(jié)合文獻(xiàn)及已有的分子生物學(xué)檢測(cè)結(jié)果進(jìn)行分析。結(jié)果:發(fā)現(xiàn)兩個(gè)新的可能與大腸癌轉(zhuǎn)移相關(guān)的基因TlAM1和NM23H1。用文獻(xiàn)輪廓挖掘大腸癌轉(zhuǎn)移芯片表達(dá)譜黃仲曦,孫青,丁彥青,姚開GenCLIPGenCLIP生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件文本挖掘的過(guò)程命名體
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年沈丘往年面試試題及答案
- 2025年python軟件測(cè)試面試題及答案
- 2025年碎步測(cè)量測(cè)試題及答案
- 2025年大白梨汽水測(cè)試題及答案
- 2025年公文格式小測(cè)試題及答案
- 2025年土壤污染工程試題及答案
- 創(chuàng)新創(chuàng)業(yè)全國(guó)管理決策模擬大賽安徽賽
- 2025年單招護(hù)理面試題及答案
- 2025年前期報(bào)建專員筆試題及答案
- 2025年杭州二?;瘜W(xué)試題及答案
- 醫(yī)療質(zhì)量管理制度相關(guān)知識(shí)考試試題
- 醫(yī)院病歷體格檢查表范本
- 二次供水設(shè)備保養(yǎng)維修方案(完整)
- 【直播帶貨的模式研究國(guó)內(nèi)外文獻(xiàn)綜述4300字(論文)】
- 高中英語(yǔ)-40篇英語(yǔ)短文搞定高中英語(yǔ)3500個(gè)單詞
- CIE-15-2004-Colorimetry原版完整文件
- 2023年新改版蘇教版五年級(jí)下冊(cè)科學(xué)全冊(cè)精編知識(shí)點(diǎn)(附問(wèn)答題總結(jié))
- 杭州國(guó)際動(dòng)漫節(jié)策劃書
- 2023年上海16區(qū)高考一模英語(yǔ)聽力合集附音頻含答案含原文
- 電氣自動(dòng)化課件
- 報(bào)價(jià)單模板(打印版)
評(píng)論
0/150
提交評(píng)論