醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第1頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第2頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第3頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第4頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上醫(yī)藥數(shù)據(jù)挖掘Data mining in medicine季海霞季海霞,女(漢族),山西朔州人,碩士在讀,主要研究方向?yàn)橹兴幒头肿由锘虮磉_(dá)山西省中醫(yī)藥研究院 , ,專心-專注-專業(yè)【中文摘要】數(shù)據(jù)挖掘是世紀(jì)末逐步形成的一個(gè)多種學(xué)科交叉的領(lǐng)域,至今已經(jīng)普遍地應(yīng)用在零售、醫(yī)藥、通訊、金融、航空、電子工程、旅館等具有眾多數(shù)據(jù)和需要數(shù)據(jù)深度分析的領(lǐng)域.本文從四個(gè)方面具體地介紹了數(shù)據(jù)挖掘的定義,過程,常見的數(shù)據(jù)挖掘算法和在中醫(yī)藥領(lǐng)域的應(yīng)用情況?!娟P(guān)鍵詞】醫(yī)藥、數(shù)據(jù)挖掘、算法、應(yīng)用【Abstract】Data mining is a multi-disciplinary fi

2、eld gradually formed at end of the century, has been widely applied in the fields that have a number of data and need in-depth analysis of data including retail, pharmaceutical, telecommunications, finance, aviation, electronic engineering, hotels, etc. In this paper,from four specific aspects ,intr

3、oduces definitions of data mining, process, common data mining algorithms and applications in the field of medicine.【Key words 】medicine;data mining; algorithms; using1簡介近來, 數(shù)據(jù)挖掘逐漸地引起了醫(yī)藥領(lǐng)域的極大關(guān)注, 其原因是醫(yī)藥數(shù)據(jù)的數(shù)量十分龐大, 且急需將這些數(shù)據(jù)快速而準(zhǔn)確的轉(zhuǎn)變成有用的醫(yī)藥知識和可以利用的信息, 從而可將獲取的知識和信息廣泛適宜的應(yīng)用于各類醫(yī)學(xué)應(yīng)用實(shí)踐中。并且數(shù)據(jù)挖掘作為數(shù)據(jù)庫與人工智能交叉融合的高端信

4、息處理技術(shù),其在一定程度上可以幫助人們借助現(xiàn)代信息處理技術(shù),獲得隱藏在數(shù)據(jù)中反映事物的本質(zhì)特點(diǎn)和預(yù)測事態(tài)發(fā)展趨向的有用知識,并且以這些知識為基礎(chǔ)可以用來輔助科學(xué)決策。 數(shù)據(jù)挖掘最新的描述性定義是由Usama M .Fayy yad 等1 給出的:數(shù)據(jù)挖掘即數(shù)據(jù)庫中的知識發(fā)現(xiàn)、描述、統(tǒng)計(jì)、分析與利用2,就是從大量的數(shù)據(jù)庫中提取人們感興趣的相關(guān)知識,這些知識是人們一開始未知的、隱藏的、密集的、模糊的、看起來似乎隨機(jī)的信息,其表現(xiàn)為規(guī)則、概念、模式、規(guī)律等形式3。也是從數(shù)據(jù)集中識別出有效的、新穎的、有潛在價(jià)值的, 以及最終可被理解的模式的非平凡過程。數(shù)據(jù)挖掘是一個(gè)多種應(yīng)用學(xué)科有機(jī)交叉形成的廣泛的領(lǐng)域

5、, 其包括知識庫系統(tǒng)、人工智能、數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、信息檢索、統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)、模式識別、高性能計(jì)算、知識獲取、和可視化等相關(guān)內(nèi)容4。其任務(wù)大體上可分為描述和分析預(yù)測數(shù)據(jù)的進(jìn)一步發(fā)展對事物的有效影響。2過程 從醫(yī)藥技術(shù)的多重角度來看,數(shù)據(jù)挖掘的基本過程如下圖1。圖1 數(shù)據(jù)挖掘的基本過程 并且在采集數(shù)據(jù)之后,抽樣和清理之類的工作還需再進(jìn)行。其清理的結(jié)果就是人們想要得到的數(shù)據(jù)樣本集。此外數(shù)據(jù)倉庫的數(shù)據(jù)應(yīng)用形式5也是一種數(shù)據(jù)存儲的有效形式,對數(shù)據(jù)挖掘應(yīng)用方面極大的有利。然后,就可以應(yīng)用各種算法來挖掘數(shù)據(jù)。但有的時(shí)候,還有需要返回到上一階段的情況出現(xiàn),重新將上述過程經(jīng)歷一遍或數(shù)遍。 3常用算法 數(shù)據(jù)

6、挖掘的采用基本算法根據(jù)其挖掘方式的不同可以分為有教師型和無教師型兩種形式,也就是所謂的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。首先在有監(jiān)督學(xué)習(xí)算法中,先會給與一個(gè)教師信號,對訓(xùn)練的樣本集中的每個(gè)輸入樣本能獲得分類代價(jià)和類別標(biāo)記,并且尋找能夠降低總成本價(jià)值的方向。其次在無監(jiān)督學(xué)習(xí)算法中卻沒有顯式的教師。 數(shù)據(jù)挖掘包括很多算法,主要包括組合或關(guān)聯(lián)、聚類、分類、估計(jì)、預(yù)測等等,如圖2所示。這些方法在實(shí)際應(yīng)用時(shí)具有各自的特色和適用條件,具體使用哪種數(shù)據(jù)挖掘算法,還是要根據(jù)具體的情況和應(yīng)用要求來選擇。其中一種算法有可能在一種情況下適用,但是在另一種情況下卻不太適用。圖2數(shù)據(jù)挖掘算法3.1 關(guān)聯(lián)分析 關(guān)聯(lián)分析即是從大量的數(shù)

7、據(jù)中來發(fā)現(xiàn)不同項(xiàng)或項(xiàng)集之間隱含的聯(lián)系或相互關(guān)聯(lián)。如果兩個(gè)或多個(gè)數(shù)據(jù)項(xiàng)之間的取值多次出現(xiàn)并且重復(fù)概率較高時(shí),那基本上可以確定它們之間就存在著某種隱秘而必然的關(guān)聯(lián),利用此特點(diǎn)就可以建立這些數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則。通常有用的關(guān)聯(lián)規(guī)則一般需要滿足設(shè)定的支持度和置信度這兩個(gè)條件,前者是一組項(xiàng)集記作關(guān)聯(lián)需要所要達(dá)到的最低聯(lián)系程度方可,而后者則是一個(gè)關(guān)聯(lián)規(guī)則的最低可靠程度。另外還可以加入相關(guān)性、應(yīng)用性、興趣度等有效參數(shù)來增加規(guī)則的潛在準(zhǔn)確性和精確度。關(guān)聯(lián)分析的目的則是查出數(shù)據(jù)庫中隱蔽的交叉聯(lián)系的網(wǎng)絡(luò),用來描述分析利用一組數(shù)據(jù)項(xiàng)目的關(guān)系和密切度。3.2 分類分析 分類分析即是在已有數(shù)據(jù)的基礎(chǔ)上制造出一個(gè)分類函數(shù)

8、或分類模型。該函數(shù)或模型能夠把數(shù)據(jù)庫中的記錄映射到一個(gè)給定的類別中,再進(jìn)行類別預(yù)測。例如,在臨床的研究中,依據(jù)患者的不同體征和癥狀可把疾病分為三種:早期、中期和晚期。因此在進(jìn)行類別分類分析時(shí),首先從數(shù)據(jù)中選出已經(jīng)分好類的數(shù)據(jù)集,再采用該數(shù)據(jù)集運(yùn)用的數(shù)據(jù)挖掘分類技術(shù)來建立分類模型,最后對未分類的數(shù)據(jù)進(jìn)行分類。3.3 聚類分析 聚類分析即是將數(shù)據(jù)集分為若干研究對象, 并且使一組內(nèi)的對象有著比較高的相似度,而不同組內(nèi)中的數(shù)據(jù)對象則沒有明顯的相似性。聚類分析的基本思想就是最大程度地出現(xiàn)組中數(shù)據(jù)對象相似度最大,同時(shí)組間數(shù)據(jù)對象相似度最小。其和分類分析的最大區(qū)別則是聚類分析并不依據(jù)類,也不需要訓(xùn)練集。在這

9、些類事先并不知道的情況下,將并沒有標(biāo)識的數(shù)據(jù)對象自動(dòng)劃分為不同的類。3.4 時(shí)間序列分析 時(shí)間序列分析即是指通過時(shí)間序列來搜索出重復(fù)發(fā)生率較高的模式,強(qiáng)調(diào)時(shí)間序列的影響。例如在臨床的研究過程中,在既往病史記錄中分析并發(fā)現(xiàn)疾病的某種趨勢規(guī)律,揭示其預(yù)測因子的回顧性研究。在時(shí)序的模式中,我們需要尋找出在某個(gè)最小時(shí)間內(nèi)出現(xiàn)的比率一直高于某一最小閾值的規(guī)則。而這種規(guī)則會因?yàn)樾蝿莸淖兓灾髡{(diào)整。時(shí)間序列分析則有三個(gè)基本功能:一是模式挖掘,通過分析時(shí)間序列的往來形態(tài)來研究事態(tài)的行為特點(diǎn);二是趨勢分析,利用歷史時(shí)間序列來預(yù)測數(shù)據(jù)的未來數(shù)值;三是相似性搜索,應(yīng)用距離度量來確定不同時(shí)間序列的相似性。3.5 決

10、策樹方法 決策樹是一種簡單的知識表示方法,將事例逐步分類成不同的類別。因?yàn)榉诸愐?guī)則是比較直觀明白的,所以易于人們理解。其基本思想是以最能區(qū)分不同類別的樣本屬性作為樹根,把訓(xùn)練集分為相應(yīng)的節(jié)點(diǎn),然后依次在每一塊樣本集中挑選出具有區(qū)別度的屬性,作為樹的第二層節(jié)點(diǎn)。依此類推,等到所有的葉節(jié)點(diǎn)都只包含某一類樣本時(shí)停止。構(gòu)建的樹就叫做決策樹。決策樹從功能上主要區(qū)分為兩種類型:分類樹和回歸樹。分類樹通常用于對離散變量做決策樹,而回歸樹則用于對連續(xù)變量做決策樹。3.6 神經(jīng)元網(wǎng)絡(luò)技術(shù) 神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計(jì)算領(lǐng)域里的一種重要方法,它是相關(guān)研究人員一直以來堅(jiān)持不懈進(jìn)行的對人腦神經(jīng)學(xué)習(xí)機(jī)能模擬所研究的明顯有效

11、成果,目前已廣泛成功地應(yīng)用于各相關(guān)工業(yè)部門的數(shù)據(jù)統(tǒng)計(jì)、描述分析利用中,極大地提高了各部門的工作效率。人工神經(jīng)網(wǎng)絡(luò)是模仿生物神經(jīng)網(wǎng)絡(luò)的特點(diǎn),以人工神經(jīng)元為基本運(yùn)算單元的一種分布式存貯信息的智能信息處理系統(tǒng)。通常人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用分為網(wǎng)絡(luò)構(gòu)建、規(guī)則提取等幾個(gè)階段。在構(gòu)建網(wǎng)絡(luò)階段,神經(jīng)網(wǎng)絡(luò)通過調(diào)整權(quán)重來達(dá)到能正確預(yù)測輸入的樣本數(shù)據(jù)的類別歸屬,網(wǎng)絡(luò)修剪則是通過設(shè)定權(quán)值向量對神經(jīng)網(wǎng)絡(luò)進(jìn)行簡化,而規(guī)則提取是針對設(shè)定的屬性通過一定的算法從結(jié)果集中提取符合要求、易于理解的規(guī)則。3.7 粗糙集理論 粗糙集理論是一種數(shù)學(xué)工具,用來刻畫不確定性和不完整性的,能有效地分析不精確、不完整、不一致等各種不完備的信息,還可

12、以對數(shù)據(jù)進(jìn)行推理和分析,繼而從中發(fā)現(xiàn)隱藏的相關(guān)知識,揭示其潛在的規(guī)律。粗糙集理論是在分類機(jī)制的基礎(chǔ)上的建立的將分類規(guī)定為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系卻構(gòu)成了對該空間的劃分。4在中醫(yī)藥領(lǐng)域的應(yīng)用情況 目前醫(yī)藥信息數(shù)據(jù)庫資源已比較豐富,數(shù)據(jù)挖掘技術(shù)以逐漸成為醫(yī)藥信息管理現(xiàn)代化重要組成的部分,各種算法更是在中醫(yī)藥領(lǐng)域中都有著重大的應(yīng)用。4.1 關(guān)聯(lián)分析法 其最常用的算法為Apfiofi算法。例如,姚美村等8以相關(guān)的文獻(xiàn)中已經(jīng)收錄的106例治療消渴?。ㄌ悄虿。┑闹兴帍?fù)方為研究對象,以關(guān)聯(lián)規(guī)則分析為研究工具進(jìn)行仔細(xì)的研究,先在單味藥層次上進(jìn)行了消渴病復(fù)方組成藥味之間的關(guān)聯(lián)模式研究,成功得挖掘出藥物

13、與上中下之間的緊密關(guān)聯(lián),以及藥物彼此之間的有效關(guān)聯(lián),結(jié)果與中醫(yī)專家對消渴病的治療方面的主要藥物的配伍情況基本一致。4.2 典型的分類分析 此種分析模型有決策樹模型、貝葉斯分類模型、神經(jīng)網(wǎng)絡(luò)模型和線性回歸模型等。例如,譚紅娜等10在研究MRI乳腺非腫塊樣強(qiáng)化病灶對乳腺癌的診斷價(jià)值時(shí),發(fā)現(xiàn)此類決策樹模型所具有的靈敏度、特異性和準(zhǔn)確率等均優(yōu)于傳統(tǒng)數(shù)據(jù)分析所利用統(tǒng)計(jì)學(xué)中的logistic線性回歸傳統(tǒng)模型,此發(fā)現(xiàn)有著重要的醫(yī)學(xué)數(shù)據(jù)分析預(yù)測意義,可能用于指導(dǎo)臨床治療。4.3 聚類方法 其中包括機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方法等。例如,梁偉雄等11用H指標(biāo)聚類對221例中風(fēng)病急性期病人癥候特點(diǎn)及其相關(guān)癥狀、脈象、舌象

14、的關(guān)系進(jìn)行了精密的統(tǒng)計(jì)分析,提出中風(fēng)急性期癥候可分為風(fēng)火癥、氣虛癥、痰瘀癥、陰虛陽亢癥4類。對于中醫(yī)對中風(fēng)的治療有指導(dǎo)性意義。4.4 時(shí)間序列分析 此類分析有一個(gè)重要的方法是相似時(shí)序法,即按時(shí)間順序查看事件數(shù)據(jù)庫,從中找出其他一個(gè)或多個(gè)相似的時(shí)序事件。例如,Simonsen L等12對美國的住院病人出院記錄數(shù)據(jù)庫進(jìn)行了時(shí)間序列分析,結(jié)果顯示13價(jià)肺炎疫苗(PCVl3)的使用與美國兒童全因肺炎住院率的顯著下降有關(guān)。其他研究者也一定程度的利用了此法,效果均顯示良好。4.5 決策樹 其中有不同算法,如ID3、HAID、CART等,這些不同的算法同時(shí)會產(chǎn)生不同的決策樹,其差異在于三個(gè)維度方面:在每層面

15、上樹可以拆分點(diǎn)的最大數(shù)量;建樹時(shí)拆分點(diǎn)選擇的準(zhǔn)確標(biāo)準(zhǔn);以及如何防止過度擬合來控制樹的過度生長。徐蕾等13通過決策樹C4.5算法篩選對辯癥分型的26個(gè)因素并按其重要程度排序,獲得了可用于準(zhǔn)確分類的決策規(guī)則,并且建立了能區(qū)分各類癥型、具有較高靈敏度和特異度的中醫(yī)辯癥模型,最后其得出了決策樹C4.5算法建立的模型效果好,可用于慢性胃炎中醫(yī)證型的較好鑒別診斷的結(jié)論。4.6 神經(jīng)網(wǎng)絡(luò) 此法其優(yōu)點(diǎn)為具有很強(qiáng)的自魯棒性、組織性和容錯(cuò)性,但也有其缺點(diǎn)為“黑箱”性,往往人們對網(wǎng)絡(luò)的學(xué)習(xí)和決策過程難以理解,但可以經(jīng)過好的提取算法和有關(guān)領(lǐng)域的專家的指導(dǎo)可得到一定程度上的解決。例如雍小嘉等14以中醫(yī)類方辭典的方劑為樣

16、本數(shù)據(jù),量化組方藥物的數(shù)據(jù),再同時(shí)采取單純?nèi)斯ど窠?jīng)網(wǎng)絡(luò)方法和神經(jīng)網(wǎng)絡(luò)方法結(jié)合在一起的屬性距離矩陣的高維數(shù)據(jù)方法,來通過藥物判斷方劑的基本相關(guān)功效。結(jié)果顯示結(jié)合了中醫(yī)先驗(yàn)知識的人工神經(jīng)網(wǎng)絡(luò)方法有較好的利用前景。5結(jié)論與展望 數(shù)據(jù)挖掘已經(jīng)滲透到各行各業(yè),對于人們的生活也逐漸起著越來越重要的作用,尤其是在醫(yī)藥臨床診斷研究方面正發(fā)揮著重大的作用,隨著,人們不斷地進(jìn)行著這方面的研究探索,我們有理由相信未來的醫(yī)藥和數(shù)據(jù)挖掘彼此的結(jié)合將會更加廣泛的造福于人類。6 參考文獻(xiàn)1Han JW.Kamber M .數(shù)據(jù)挖掘:概念與技術(shù) M .范明, 孟小峰,譯.北京:機(jī)械工業(yè)出版社, 2001 :50 -512 李

17、雄飛,李軍。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)M.北京:高等教育出版社,20053張穎,揚(yáng)鈞劉建平數(shù)據(jù)挖掘在中醫(yī)藥研究中的應(yīng)用J.遼寧中醫(yī)藥太學(xué)報(bào),2008,3:153 4陸汝鈐.世紀(jì)之交的知識工程與知識科學(xué)M .北京:清華大學(xué)出版社, 2001 :1015 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)M北京:電子工業(yè)出版社,20026 張大愚基于數(shù)據(jù)挖掘技術(shù)的新藥臨床試驗(yàn)綜合平臺的研究D成都:電子科技大學(xué),20087 武建虎關(guān)聯(lián)規(guī)則及其在肝癌病人資料分析研究中的應(yīng)用D上海:第二軍醫(yī)大學(xué)20058姚美村,艾路袁月梅,等消渴病復(fù)方配伍規(guī)律的關(guān)聯(lián)分析北京中醫(yī)藥大學(xué)學(xué)報(bào),200225(6):48509 徐蕾決策樹技術(shù)及其在醫(yī)學(xué)中

18、的應(yīng)用D上海:第二軍醫(yī)大學(xué)。200410 譚紅娜,蘇懿,李瑞敏,等數(shù)據(jù)挖掘技術(shù)判定MRI乳腺非腫塊樣強(qiáng)化病灶的初步研究J中華放射學(xué)雜志,2009,43(5):45545911 梁偉雄,溫澤淮歐愛華等中風(fēng)病急性期中醫(yī)癥候多元分析廣州中醫(yī)藥大學(xué)學(xué)報(bào),1998,15(4):29312 胡吉明,鮮學(xué)豐挖掘關(guān)聯(lián)規(guī)則算法中的研究與改進(jìn)J計(jì)算機(jī)技術(shù)與發(fā)展,2006(4):9910413徐蕾,賀佳,孟虹等基于信息熵的決策樹在慢性胃炎中醫(yī)辨證中的應(yīng)用第二軍醫(yī)大學(xué)學(xué)報(bào),200425:1009101214雍小嘉,彭京,宋姚屏采用高維數(shù)據(jù)歸約南藥物判定方劑功效上海中醫(yī)藥大學(xué)學(xué)報(bào)。2006,20(1):5456姓名(第一作者)季海霞個(gè)人照片(1寸電子版)工作單位山西省中醫(yī)藥研究院聯(lián)系電話0351-E-mail手機(jī)號碼聯(lián)系地址山西省太原市萬柏林區(qū)和平南路336號傳真0351-個(gè)人簡歷(200字左右) 本人本科期間專業(yè)為安徽醫(yī)科大學(xué)藥學(xué)院的中藥學(xué),在讀期間學(xué)習(xí)和掌握了生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論