



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘在醫(yī)學(xué)方面的應(yīng)用摘要:著信息技術(shù)的發(fā)展,采集、存儲和管理數(shù)據(jù)的手段日益完善。數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生。本文介紹數(shù)據(jù)挖掘的概念和應(yīng)用,以及國內(nèi)醫(yī)學(xué)方面數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀及展望。關(guān)鍵字:數(shù)據(jù)挖掘醫(yī)學(xué)Abstract:Thedisciplineofdataminingemergeswiththedevelopmentoftechnologyandmaturationofmethodsofdatacollection,storageandmanagement.Thepaperintroducestheconceptofdatamining.Thispaperintroducesdatamining
2、conceptsandapplications,aswellasdomesticmedicaldataminingapplicationstatusanditsprospect.KeyWords:datamining;biomedical1引言隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,信息技術(shù)已滲透到包括醫(yī)學(xué)在內(nèi)的各種領(lǐng)域。很多大中型醫(yī)院都相繼建立了自己的醫(yī)院信息系統(tǒng)(HIS),隨著HIS的應(yīng)用和不斷發(fā)展,數(shù)據(jù)庫中的數(shù)據(jù)量迅速膨脹,數(shù)據(jù)庫規(guī)模逐漸擴(kuò)大,復(fù)雜程度日益增加。但是盡管積累了大量的業(yè)務(wù)數(shù)據(jù),真正能將這些數(shù)據(jù)的價(jià)值挖掘出來,并運(yùn)用到醫(yī)院的臨床輔助診斷和日常管理決策中去的卻很少。提出了建立基于HIS系統(tǒng)的
3、醫(yī)學(xué)信息數(shù)據(jù)倉庫,在此基礎(chǔ)上,對數(shù)據(jù)倉庫中的醫(yī)療數(shù)據(jù)進(jìn)行疾病監(jiān)測、預(yù)測、醫(yī)院管理輔助決策等方面的數(shù)據(jù)挖掘。為醫(yī)務(wù)工作者、臨床管理人員、科研人員提供輔助決策與綜合分析的工具。在醫(yī)療方面具有重要的意義。2.數(shù)據(jù)挖掘技術(shù)介紹1. 1數(shù)據(jù)挖掘額的概念數(shù)據(jù)挖掘是商務(wù)智能應(yīng)用中較高層次的一項(xiàng)技術(shù),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程1。利用數(shù)據(jù)挖掘用戶將可以更加方便地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,用戶可以利用這些規(guī)律對某些符合特征的數(shù)據(jù)作出預(yù)測。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。先未知是指數(shù)據(jù)挖掘所得到的信息應(yīng)該
4、是先前不能憑直覺或一般的技術(shù)方法所能得到的信息,挖掘到的住處越是出乎意料就可能越有價(jià)值。在這方面的一個(gè)典型例子就是一家連鎖商店通過數(shù)據(jù)挖掘發(fā)現(xiàn)小孩尿布和啤酒之間有著驚人的聯(lián)系。而有效和可實(shí)用是數(shù)據(jù)挖掘的目的所在。數(shù)據(jù)挖掘的分析方法有很多種,針對不同的用途就有不同的分析方法,比較常見的分析方法有一下集幾種:分類、預(yù)測、相關(guān)性分組活關(guān)聯(lián)規(guī)則、聚類、估值、描述和可視化、復(fù)雜數(shù)據(jù)類型挖掘,包括文本數(shù)據(jù)挖掘。WEB數(shù)據(jù)挖掘、圖形圖像數(shù)據(jù)挖掘、視頻和音頻數(shù)據(jù)挖掘。2. 2數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程一般由三個(gè)主要的階段構(gòu)成:數(shù)據(jù)準(zhǔn)備、開采操作、結(jié)果表達(dá)和解釋,對知識的發(fā)現(xiàn)可以描述為這三個(gè)階段的反復(fù)過程。(
5、1)數(shù)據(jù)準(zhǔn)備這個(gè)階段又可進(jìn)一步分成三個(gè)子步驟:數(shù)據(jù)集成,數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件和多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行組合,解決語義模糊性,處理數(shù)據(jù)中的遺漏和清洗無效數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。(2)數(shù)據(jù)挖掘這個(gè)階段進(jìn)行實(shí)際性分析工作,包括的要點(diǎn)是:先決定如何產(chǎn)生假設(shè),是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設(shè),還是用戶自己對數(shù)據(jù)庫中可能包含的知識提出假設(shè),前一種稱為發(fā)現(xiàn)型的數(shù)據(jù)挖掘;后一種稱為驗(yàn)證型的數(shù)據(jù)挖掘。再選擇合適的工具進(jìn)行發(fā)掘知識的操作,最后進(jìn)行證實(shí)。(3)結(jié)果表述和解釋根據(jù)用戶的需求對提取的
6、信息進(jìn)行分析,挑選出有效信息,并且通過決策支持工具進(jìn)行移交。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來(例如采用信息可視化方法),還要對信息進(jìn)行過濾處理,如果不能令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來(例如采用信息可視化方法),還要對信息進(jìn)行過濾處理,如果不能令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過程。3. 3數(shù)據(jù)挖掘的功能(1)自動預(yù)測趨勢和行為:數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。(2)關(guān)聯(lián)分析:數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就
7、稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。(3)聚類:數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。(4)概念描述:概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。(5)偏差檢測:數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的
8、反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。3數(shù)據(jù)挖掘在醫(yī)學(xué)中的應(yīng)用4. 1數(shù)據(jù)挖掘在生物醫(yī)學(xué)/DN肝的應(yīng)用隨著全球人類基因組計(jì)劃(HumanGenomeProject)對人類24對染色體全部基因測序的完成,人類基因的研究將進(jìn)入全新的發(fā)展階段。因此對DNA勺序列模式分析是分子生物醫(yī)學(xué)領(lǐng)域工作者面臨的重要任務(wù),而數(shù)據(jù)挖掘成為DN剛析中的強(qiáng)有力的工具,并在以下方面對DNA的分析做出不小的貢獻(xiàn)。(1)DNA序列問相似搜索與比較:在基因分析中一個(gè)最為重要的搜索問題是DN醉列中的相似搜索和比較。對分別來自帶病和健康
9、組織的基因序列,進(jìn)行比較以識別兩類基因間的差異。做法可以是首先從兩類基因中檢索出基因序列,然后找出并比較每一類中頻繁出現(xiàn)的模式,通常在帶病樣本中出現(xiàn)頻度超出健康樣本的序列,可以認(rèn)為是導(dǎo)致疾病的基因因素;另一方面,在健康樣本中出現(xiàn)頻度超出帶病樣本的序列,可以認(rèn)為是抗疾病的因素。(2)關(guān)聯(lián)分析:同時(shí)出現(xiàn)的基因序列的識別:目前許多研究關(guān)注的是一個(gè)基因與另一個(gè)基因的比較。大部分疾病不是由單一基因引起的,而是基因組合起來共同起作用的結(jié)果。關(guān)聯(lián)分析方法可用于幫助確定在目標(biāo)樣本中同時(shí)出現(xiàn)的基因種類,此類分析將有助于發(fā)現(xiàn)基因組和x,-t基因間的交叉與聯(lián)系的研究。(3)路徑分析:發(fā)現(xiàn)在不同階段的致病基因:引起一
10、種疾病的基因可能不止一個(gè),不過不同基因可能在不同階段起著作用。如果能找到疾病發(fā)展的不同階段遺傳因素序列,就有可能開發(fā)針對疾病不同階段的治療藥物,從而取得更為有效的治療效果,在遺傳研究中路徑分析會起到重要的作用。5. )DNA序列分類:DN府列中有外顯子和內(nèi)含子,外顯子是被轉(zhuǎn)錄為信使RN鼾被翻譯成蛋白質(zhì)的序列,而內(nèi)顯子則不然。區(qū)分DN席列中的外顯子和內(nèi)含子也是很重要的,非線性相關(guān)統(tǒng)at法AMI(averagemutualinformation)是可行的,另外,神經(jīng)網(wǎng)絡(luò)、分類及聚類算法也是有用的。6. 2數(shù)據(jù)挖掘在醫(yī)學(xué)中的應(yīng)用(1)疾病診斷:正確的診斷對于指導(dǎo)病人的用藥及康復(fù)顯然是重要的,在臨床中
11、有些疾病錯(cuò)綜復(fù)雜,數(shù)據(jù)挖掘的有關(guān)分類分析可以應(yīng)用于疾病的診斷。粗糙集理論、人T神經(jīng)網(wǎng)絡(luò)、模糊邏輯分析在疾病診斷方面是有效的。國內(nèi)有學(xué)者將粗糙集理論應(yīng)用于中醫(yī)類風(fēng)濕的診斷,取得了滿意的效果,大大提高了診斷準(zhǔn)確率,國外A.Kusiak等將基于粗糙集理論的兩種算法應(yīng)用于實(shí)體性肺結(jié)節(jié)的診斷,診斷準(zhǔn)確率達(dá)100%,RoshawrmaScales等基于人工神經(jīng)網(wǎng)絡(luò)理論及模糊邏輯開發(fā)的對心血管疾病診斷的工具對疾病診斷的正確率達(dá)到92%。(2)疾病相關(guān)因素分析:在病案信息庫中有大量的關(guān)于病人的病情和病人的個(gè)人信息,包括年齡、性別、居住地、職業(yè)、生活情況等,對數(shù)據(jù)庫中的信息進(jìn)行關(guān)聯(lián)規(guī)則分析可以發(fā)現(xiàn)有意義的關(guān)系及
12、模式,某種疾病的相關(guān)發(fā)病危險(xiǎn)因素分析可以指導(dǎo)患者如何預(yù)防該疾病。JonathanC.Prather等成功地應(yīng)用數(shù)據(jù)挖掘的有關(guān)理論對Duke大學(xué)醫(yī)學(xué)中心的產(chǎn)科病人早產(chǎn)的3個(gè)危險(xiǎn)因素進(jìn)行了分析。(3)疾病預(yù)測:確定某些疾病的發(fā)展模式,根據(jù)病人的病史預(yù)測病情的發(fā)展趨勢,從而有針對性的預(yù)防疾病的發(fā)生。應(yīng)用粗糙集理論根據(jù)以往病例歸納出診斷規(guī)則,用來預(yù)測新的疾病的發(fā)生,現(xiàn)有的人工預(yù)測早產(chǎn)的準(zhǔn)確率只有17%38%,應(yīng)用粗糙集理論則可提高到68%90%。(4)在醫(yī)療質(zhì)量管理中的應(yīng)用:醫(yī)療保健領(lǐng)域的改革使得費(fèi)用壓力增加,另外一方面對醫(yī)院醫(yī)療質(zhì)量的需求也增高,以及其他醫(yī)療服務(wù)機(jī)構(gòu)的增多,使得醫(yī)院管理者比以往更關(guān)心
13、醫(yī)療及管理的質(zhì)量以及費(fèi)用一效益比率。醫(yī)療質(zhì)量管理的核心是數(shù)據(jù)、標(biāo)準(zhǔn)、計(jì)劃以及治療的質(zhì)量,這些質(zhì)量可以用不同的指數(shù)來衡量,數(shù)據(jù)挖掘可以幫助質(zhì)量管理者解決下列任務(wù):發(fā)現(xiàn)新的關(guān)于數(shù)據(jù)、標(biāo)準(zhǔn)、計(jì)劃以及治療的質(zhì)量指數(shù)的假說;檢驗(yàn)現(xiàn)有的關(guān)于數(shù)據(jù)、標(biāo)準(zhǔn)、計(jì)劃以及治療的質(zhì)量指數(shù)是否有效;提煉,粗糙化及調(diào)整關(guān)于數(shù)據(jù)、標(biāo)準(zhǔn)、計(jì)劃以及治療的質(zhì)量指數(shù)。常見的問題有:什么原因?qū)е逻`背標(biāo)準(zhǔn)?個(gè)人信息、年齡、性別是怎樣影響對標(biāo)準(zhǔn)的違背的?比如:若年齡因素和某種治療導(dǎo)致住院時(shí)間比標(biāo)準(zhǔn)住院時(shí)間長,是否考慮修改治療方案吸據(jù)挖掘可以幫助發(fā)現(xiàn)有關(guān)提高臨床服務(wù)效率及質(zhì)量潛力的證據(jù)。(5)在醫(yī)學(xué)圖像中的應(yīng)用:醫(yī)學(xué)領(lǐng)域中越來越多地應(yīng)用圖像
14、作為疾病診斷的工具,如SPECTCKMRI、PE偌,數(shù)據(jù)挖掘可以應(yīng)用于醫(yī)學(xué)圖像的分析。Sacha等成功地運(yùn)用基于貝葉斯分類的數(shù)據(jù)挖掘模式對心肌SPEC圖像進(jìn)行分類診斷。(6)在醫(yī)學(xué)其他方面的應(yīng)用:數(shù)據(jù)挖掘還應(yīng)用于毒理學(xué)方面,藥物的新的副作用發(fā)現(xiàn)。4.國內(nèi)生物醫(yī)學(xué)數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀及展望我國的醫(yī)院信息系統(tǒng)(HIS)經(jīng)過多年的自動化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。而且,醫(yī)院信息化發(fā)展是我國信息化建設(shè)的重要組成部分,國家對此給予了高度的重視并提供了大量政策上和經(jīng)濟(jì)上的支持,為行業(yè)性數(shù)據(jù)挖掘的實(shí)施提供了良好的政策環(huán)境和經(jīng)濟(jì)保障。在我國,盡管醫(yī)
15、學(xué)的數(shù)據(jù)極為豐富,但運(yùn)用數(shù)據(jù)挖掘技術(shù)分析和處理這些數(shù)據(jù)資源的研究尚處于起步階段。原因主要在于以下兩個(gè)方面:其一,數(shù)據(jù)挖掘采用許多復(fù)雜的數(shù)學(xué)工具,這可能使生物醫(yī)學(xué)科學(xué)研究者“望而卻步”。其實(shí),這種“恐懼”心理是不必要的。對于生物醫(yī)學(xué)領(lǐng)域的研究者而言,并不需要設(shè)計(jì)這些數(shù)學(xué)工具,他們需要的是理性地使用這些現(xiàn)有的工具。許多數(shù)據(jù)處理軟件包(如WekaBMiner、SPSSClementine和SASEnterpriseMiner等)都包含常用數(shù)據(jù)挖掘方法的功能。其二,當(dāng)前醫(yī)學(xué)教育中的知識結(jié)構(gòu)使大部分生物醫(yī)學(xué)研究者對“數(shù)據(jù)挖掘”這類數(shù)據(jù)分析處理技術(shù)不甚了解、也不甚敏感,也就更難以自覺地應(yīng)用。隨著生物醫(yī)學(xué)研
16、究人員對“數(shù)據(jù)挖掘”及其應(yīng)用的理解不斷深入,這種新穎的數(shù)據(jù)分析工具必將對生物醫(yī)學(xué)研究產(chǎn)生積極的促進(jìn)作用。5結(jié)語生物醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)復(fù)雜數(shù)據(jù)庫,包括電子病歷、醫(yī)學(xué)影像、病理參數(shù)、化驗(yàn)結(jié)果等。目前數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫,對復(fù)雜類型數(shù)據(jù)的挖掘尚在起步階段。造成這種局面的可能原因有:挖掘結(jié)果的可理解性欠佳;挖掘結(jié)果數(shù)量過大,難以處置:挖掘方法在實(shí)際應(yīng)用中與用戶的交互作用不理想等。數(shù)據(jù)挖掘在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對成熟的技術(shù)體系,特別是在數(shù)據(jù)挖掘設(shè)計(jì)、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用和各種挖掘算法的不斷改進(jìn)完善,結(jié)合生物醫(yī)學(xué)信息自身的特殊性和復(fù)雜性,處理好挖掘過程中的關(guān)鍵技術(shù),使數(shù)據(jù)挖掘技術(shù)在處理生物醫(yī)學(xué)資料中的功能日益強(qiáng)大。數(shù)據(jù)挖掘技術(shù)在生物醫(yī)學(xué)研究、醫(yī)療衛(wèi)生管理與決策中的應(yīng)用范圍也會越來越廣,并帶來可觀的經(jīng)濟(jì)和社會效益。參考文獻(xiàn):1康
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CMA-RQ 120-2023燃?xì)獗頇z測用光學(xué)接口及通信協(xié)議
- T/CMA HG026-2021轎車輪胎均勻性試驗(yàn)機(jī)和動平衡試驗(yàn)機(jī)校準(zhǔn)用輪胎
- T/CITS 0004-2022標(biāo)準(zhǔn)“領(lǐng)跑者”評價(jià)要求洗衣機(jī)檢驗(yàn)檢測服務(wù)
- T/CIS 67002-20213種劇毒鵝膏菌的物種鑒別PCR擴(kuò)增-Sanger測序法
- T/CIQA 13-2020進(jìn)出口礦產(chǎn)品品質(zhì)檢驗(yàn)證書格式標(biāo)準(zhǔn)
- T/CGCC 81-2023自有品牌術(shù)語與定義
- T/CGCC 67-2022城市商業(yè)綜合評價(jià)指南
- T/CGCC 45-2020網(wǎng)絡(luò)購物誠信服務(wù)體系評價(jià)指南
- T/CECS 10328-2023燃?xì)馊紵骶吖I(yè)互聯(lián)網(wǎng)標(biāo)識數(shù)據(jù)通用要求
- 生產(chǎn)經(jīng)營單位事故隱患內(nèi)部報(bào)告獎(jiǎng)勵(lì)制度
- 酒店客房管理制度
- DB13T 3030-2022 客運(yùn)索道運(yùn)營使用管理和維護(hù)保養(yǎng)規(guī)范
- 華為的國際化
- 自制飲品操作流程
- 酒店客房檢查表
- 項(xiàng)目驗(yàn)收ppt目錄課件
- ASME第八卷第一冊2015培訓(xùn)資料
- 2022版義務(wù)教育(數(shù)學(xué))課程標(biāo)準(zhǔn)(含2022年修訂部分)
- 經(jīng)肛門微創(chuàng)手術(shù)(TME)(課堂PPT)
- 新版【處置卡圖集】施工類各崗位應(yīng)急處置卡(20頁)
評論
0/150
提交評論