醫(yī)學數(shù)據(jù)挖掘與分析_第1頁
醫(yī)學數(shù)據(jù)挖掘與分析_第2頁
醫(yī)學數(shù)據(jù)挖掘與分析_第3頁
醫(yī)學數(shù)據(jù)挖掘與分析_第4頁
醫(yī)學數(shù)據(jù)挖掘與分析_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

醫(yī)學數(shù)據(jù)挖掘與分析第1頁,課件共35頁,創(chuàng)作于2023年2月8.1

數(shù)據(jù)挖掘的基本概念8.1.1數(shù)據(jù)挖掘的定義8.1.2數(shù)據(jù)挖掘的內(nèi)容8.1.3數(shù)據(jù)挖掘的功能第2頁,課件共35頁,創(chuàng)作于2023年2月8.1.1數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又有潛在的有用信息和知識的過程。這個定義包括幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的,發(fā)現(xiàn)的是用戶感興趣的知識,發(fā)現(xiàn)的知識要可接受、可理解、可運用,并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。數(shù)據(jù)挖掘一般有以下幾個主要步驟:數(shù)據(jù)收集;數(shù)據(jù)整理;數(shù)據(jù)挖掘;數(shù)據(jù)挖掘結果的評估;分析決策。第3頁,課件共35頁,創(chuàng)作于2023年2月8.1.2數(shù)據(jù)挖掘的內(nèi)容1.廣義知識(Generalization)2.關聯(lián)知識(Association)3.分類知識(Classification&Clustering)4.預測型知識(Prediction)第4頁,課件共35頁,創(chuàng)作于2023年2月8.1.3數(shù)據(jù)挖掘的功能1.自動預測趨勢和行為2.關聯(lián)分析3.聚類4.概念描述5.偏差檢測第5頁,課件共35頁,創(chuàng)作于2023年2月8.2常用的數(shù)據(jù)挖掘技術8.2.1決策樹8.2.2關聯(lián)規(guī)則8.2.3聚類分析第6頁,課件共35頁,創(chuàng)作于2023年2月8.2.1決策樹第7頁,課件共35頁,創(chuàng)作于2023年2月基本概念

決策樹方法(decisiontree)是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。具體講是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個節(jié)點,再根據(jù)該屬性字段的不同取值建立樹的分支,在每個分支子集中重復建立樹的下層節(jié)點和分支的過程。第8頁,課件共35頁,創(chuàng)作于2023年2月決策樹種類按照分類精確度和樹復雜程度的大小,分為單個決策樹和多個決策樹,多個決策樹是由單個決策樹合并得到。根據(jù)分割內(nèi)部節(jié)點時使用統(tǒng)一的還是不同的算法,分為單一決策樹和復合決策樹。其中,單一決策樹又可分為單變量(特征)決策樹和多變量決策樹,前者在樹中每一內(nèi)部節(jié)點處由數(shù)據(jù)的單一屬性決定樹的分支,后者在內(nèi)部節(jié)點處由通過數(shù)學或邏輯算子將某些屬性組合起來的新屬性決定樹的分支;復合決策樹中常用的算法有決策樹算法、線性判別函數(shù)和K最臨近分類器。根據(jù)每一樹葉子節(jié)點內(nèi)是否只含有相同類別的對象,可分為確定性決策樹和非確定性決策樹。根據(jù)分類或預測變量的特征,分為分類樹和回歸樹,分類樹是對離散變量做決策樹,回歸樹是對連續(xù)變量做決策樹。第9頁,課件共35頁,創(chuàng)作于2023年2月決策樹特點決策樹學習屬于機器學習的范疇,是一種類似于判別分析的有監(jiān)督的學習方法。從統(tǒng)計角度看,與假定數(shù)據(jù)源呈一固定概率分布,然后進行參數(shù)估計的常規(guī)分類方法相比,決策樹屬于嚴格“非參”方法,對于輸入數(shù)據(jù)高維屬性和分類標識具有更好的彈性和穩(wěn)健性。決策樹對于問題的分類是基于邏輯,而不是像傳統(tǒng)統(tǒng)計分類模型一樣基于樣本的統(tǒng)計屬性。決策樹分類耗時短,占用計算機資源少,效率高。分類結果簡單、明確、結構直觀,適用于較大規(guī)模的數(shù)據(jù)集研究。與神經(jīng)網(wǎng)絡和貝葉斯分類相比,決策樹更容易理解,能處理缺失值,同時處理有數(shù)值型、兩分類和多分類,有序型變量的數(shù)據(jù),能清楚顯示對分類或預測有意義的變量,并可生成一些規(guī)則(從根節(jié)點到每個葉子節(jié)點對應的路徑就是“規(guī)則”)為決策提供依據(jù)。第10頁,課件共35頁,創(chuàng)作于2023年2月決策樹應用疾病診斷治療基因與高分子序列分析醫(yī)院信息系統(tǒng)挖掘醫(yī)療政策分析醫(yī)療衛(wèi)生保健醫(yī)療資源利用評價第11頁,課件共35頁,創(chuàng)作于2023年2月8.2.2關聯(lián)規(guī)則第12頁,課件共35頁,創(chuàng)作于2023年2月基本概念關聯(lián)規(guī)則是形如X=>Y的表達式,其中X和Y是不相交的項集。關聯(lián)規(guī)則的強度可以用它的支持度和置信度來度量。支持度確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度,而置信度確定Y在包含X的事務中出現(xiàn)的頻繁程度。第13頁,課件共35頁,創(chuàng)作于2023年2月關聯(lián)規(guī)則種類基于規(guī)則中處理的變量的類別,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型?;谝?guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則?;谝?guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。第14頁,課件共35頁,創(chuàng)作于2023年2月關聯(lián)規(guī)則算法Apriori算法基于劃分的算法FP-樹頻集算法第15頁,課件共35頁,創(chuàng)作于2023年2月關聯(lián)規(guī)則挖掘過程首先,先從收集的數(shù)據(jù)集合中找出所有的高頻項目組。既指某一項目組出現(xiàn)的頻率相對于所有記錄而言,必須達到某一水平;然后利用前一步驟的高頻項目組來產(chǎn)生規(guī)則,在最小支持度的限制下,若一規(guī)則所求得的信賴度滿足最小支持度,稱此規(guī)則為關聯(lián)規(guī)則。其中同層關聯(lián)規(guī)則可以采用兩種支持度策略:(1)統(tǒng)一的最小支持度。對于不同的層,都使用同一個最小支持度。(2)遞減的最小支持度,不同層次的最小支持度也不同,較低層次的最小支持度相對較小。第16頁,課件共35頁,創(chuàng)作于2023年2月關聯(lián)規(guī)則的應用關聯(lián)技術的主要應用領域是商業(yè),它的主要挖掘?qū)ο笫鞘聞諗?shù)據(jù)庫。利用關聯(lián)技術從交易數(shù)據(jù)庫發(fā)現(xiàn)規(guī)則的過程稱為購物籃分析(marketbasketanalysis)。通過對商業(yè)數(shù)據(jù)庫中的海量銷售記錄進行分析,提取出反映顧客購物習慣和偏好的有用規(guī)則(或知識),可以決定商品的降價、擺放以及設計優(yōu)惠券等,也可以把得到的信息應用到促銷和廣告中,還可以服務于cross-sale。關聯(lián)技術不但在商業(yè)分析中得到了廣泛的應用,在其他領域也得到了應用,包括工程、醫(yī)療保健、金融證券分析、電信和保險業(yè)的錯誤校驗等。第17頁,課件共35頁,創(chuàng)作于2023年2月8.2.3聚類分析第18頁,課件共35頁,創(chuàng)作于2023年2月基本概念聚類是人類一項最基本的認識活動,如“物以類聚,人以群分”。所謂聚類就是按照事物的某些屬性,把事物聚集成類,使類間的相似性盡量小,類內(nèi)的相似性盡量大。其數(shù)學描述為:設給定數(shù)據(jù)集合,其中νi

為數(shù)據(jù)對象,根據(jù)數(shù)據(jù)對象間的相似程度將數(shù)據(jù)集合分成κ組,并滿足:則該過程稱為聚類,稱為簇。聚類的基本方法經(jīng)常是定義兩個對象之間的距離,也可采用不依賴于距離的方法:首先定義一個優(yōu)化目標,再優(yōu)化得到某個局部最小值。

第19頁,課件共35頁,創(chuàng)作于2023年2月聚類分析方法的分類

聚類分析方法很多,通常是針對數(shù)據(jù)庫中的記錄,根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個記錄所在類別(如,κ-平均算法、κ-中心點算法、基于凝聚的層次聚類和基于分裂的層次聚類等)。一般來說,對于相同的數(shù)據(jù)集,若采用不同的聚類方法,可能有不同的劃分結果。(1)按聚類的標準分,有統(tǒng)計聚類方法和概念聚類方法(2)按聚類的對象分,有數(shù)值聚類方法和符號值聚類方法(3)按聚類尺寸分,有基于距離聚類、基于密度聚類和基于連續(xù)的聚類第20頁,課件共35頁,創(chuàng)作于2023年2月聚類常用的算法聚類問題本質(zhì)上是一個優(yōu)化問題,即通過一種迭代運算使得系統(tǒng)的目標函數(shù)達到一個極小值。該目標函數(shù)為劃分的評價函數(shù)。通常采用距離作為劃分的評價標準,對數(shù)值屬性主要采用歐氏距離,而對符號屬性則通常采用Hamming距離。基于劃分的聚類算法通過優(yōu)化一個評價函數(shù)把數(shù)據(jù)集劃分為個部分。當采用聚類內(nèi)的距離的平方作為評價函數(shù)時,聚類內(nèi)的所有點向聚類中心匯集,因此采用基于距離的劃分評價函數(shù)方法得到的聚類是球形的。一般,不同的評價函數(shù)會優(yōu)先選擇不同的聚類結構。(1)κ-平均法(2)κ-中心點方法(3)層次聚類第21頁,課件共35頁,創(chuàng)作于2023年2月聚類分析的應用①經(jīng)濟領域:②生物學領域:③有貢獻的研究領域:數(shù)據(jù)挖掘(聚類可伸縮,各種復雜形狀類的識別,高維聚類等)統(tǒng)計學(主要集中在基于距離的聚類分析,發(fā)現(xiàn)球狀類)機器學習(無指導學習---聚類不依賴預先定義的類,不等同于分類)空間數(shù)據(jù)技術第22頁,課件共35頁,創(chuàng)作于2023年2月8.3數(shù)據(jù)挖掘在醫(yī)藥領域的應用1.數(shù)據(jù)挖掘在DNA分析中的應用2.數(shù)據(jù)挖掘在疾病輔助診斷中的應用3.數(shù)據(jù)挖掘在藥物開發(fā)中的應用4.數(shù)據(jù)挖掘在中醫(yī)藥研究中的應用第23頁,課件共35頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘在DNA分析中的應用隨著人類基因組計劃(HumanGenomeProject)以及分析生物學、信息科學的發(fā)展,DNA、RNA以及蛋白質(zhì)等生物數(shù)據(jù)空前增長,同時功能基因組和蛋白質(zhì)組的大量數(shù)據(jù)已開始涌現(xiàn)。如何分析這些數(shù)據(jù),從中獲得生物結構、功能的相關信息是基因組研究取得成果的決定性步驟。數(shù)據(jù)挖掘技術可以應用于異構、分布式基因數(shù)據(jù)庫的語義集成、DNA序列間相似搜索和比較、基因組合和基因間連鎖互換現(xiàn)象的關聯(lián)分析以及可視化工具和遺傳數(shù)據(jù)分析。第24頁,課件共35頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘在疾病輔助診斷中的應用采用數(shù)據(jù)挖掘可以通過對患者資料數(shù)據(jù)庫中大量歷史數(shù)據(jù)的處理,挖掘出有價值的診斷規(guī)則,這樣根據(jù)患者的年齡、性別、輔助檢查結果、生理生化指標等就可以做出診斷結論,從而排除了人為因素的干擾,客觀性強,此外由于處理的數(shù)據(jù)量很大,因此所得到的診斷規(guī)則有著較好的應用普遍性。目前國外已有不少這方面的成功案例,如采用貝葉斯學習分類方法對男女患者的CT圖像進行自動診斷、利用關聯(lián)規(guī)則找出頭部創(chuàng)傷患者作CT檢查的適應癥以及將數(shù)據(jù)挖掘用于肝癌遺傳綜合征的自動檢測、鈾礦工人中非惡性呼吸系統(tǒng)疾病流行的種族差異的研究都取得了理想的效果,顯示出數(shù)據(jù)挖掘技術用于疾病輔助診斷的廣闊的應用前景。第25頁,課件共35頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘在藥物開發(fā)中的應用在新藥的研究、開發(fā)過程中,先導化合物(leadcompound)的發(fā)掘是關鍵環(huán)節(jié),有兩種基本途徑,①是隨機篩選與意外發(fā)現(xiàn)。②是定向發(fā)掘。到目前為止國內(nèi)外在天然藥物研究領域主要采用的是隨機篩選,但是采用這種方法的開發(fā)周期長、研究費用高,采用數(shù)據(jù)挖掘技術建立的藥物開發(fā)系統(tǒng)可以用來尋找同藥效學相關的有效化學物質(zhì)基礎,確定藥效基團,指導新藥的研究與開發(fā),從而縮短新藥的研究開發(fā)周期,降低研究開發(fā)費用。第26頁,課件共35頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘在中醫(yī)藥研究中的應用目前,數(shù)據(jù)挖掘技術正逐漸在中醫(yī)藥研究中得到應用,成為促進中醫(yī)藥科研發(fā)展和實現(xiàn)中醫(yī)藥現(xiàn)代化的重要組成部分。姚美村等綜合文獻指出對中醫(yī)藥理論和實踐進行信息化、數(shù)字化、知識化能夠克服中醫(yī)名詞術語過于繁雜造成的中醫(yī)發(fā)展障礙,對于中醫(yī)藥信息進行文本數(shù)據(jù)挖掘是促進中醫(yī)藥信息結構化的途徑之一,該問題的解決,克服了中醫(yī)發(fā)展的最大障礙,極大的促進中醫(yī)藥現(xiàn)代化發(fā)展的進程。數(shù)據(jù)挖掘技術在中藥指紋圖譜、化學成分研究等方面也有文獻報道。馮雪松等對中藥指紋圖譜的特點及數(shù)據(jù)挖掘技術在其中的應用作了綜述。同時分析指出中藥指紋圖譜具有統(tǒng)計數(shù)學中多元隨機分布的“模糊性”,利用模糊數(shù)學、統(tǒng)計學、計算機技術等建立一種同時反應這兩種特征數(shù)據(jù)庫,存儲中藥指紋圖譜信息,在此基礎上應用數(shù)據(jù)挖掘技術發(fā)現(xiàn)和解析其中潛在的信息,以評價和控制中藥質(zhì)量及研究中藥定量組效關系。在中藥計算機化學研究中,陳凱先等認為對大量中藥化學成分進行藥效基團的建模研究,并對中藥化學成分數(shù)據(jù)庫進行柔性搜索,能夠為更充分利用中藥化學成分所含的化學信息提供技術支持。第27頁,課件共35頁,創(chuàng)作于2023年2月數(shù)據(jù)挖掘在中醫(yī)藥研究中的應用在方劑研究方面,姚美村等應用數(shù)據(jù)挖掘技術對消渴病復方配伍規(guī)律進行了關聯(lián)規(guī)則分析,將《中醫(yī)方劑大辭典》中治療消渴病的三消方劑共106個輸入設計好的數(shù)據(jù)庫中(以MS的Access為數(shù)據(jù)庫工具,建立數(shù)據(jù)庫),選擇SAS公司的數(shù)據(jù)挖掘系統(tǒng)EnterpriseMiner(EM)4.1為工具,應用其中的關聯(lián)規(guī)則方法進行消渴病復方特征的關聯(lián)性研究。結果顯示單味藥、兩味藥組合、三味藥組合的應用規(guī)律與歷代中醫(yī)在消渴病治療用藥方面的論述是一致的。蔣永光等從《中醫(yī)大辭典?方劑分冊》中篩選出1355首脾胃方;按照數(shù)據(jù)挖掘技術中對原始數(shù)據(jù)的預處理要求,進行方劑數(shù)據(jù)的規(guī)范化、結構化和數(shù)字化處理;根據(jù)方劑的數(shù)據(jù)特點,選用聚類分析、對應分析和頻繁集方法,進行多角度、多層次和量化的分析和處理,并形成了有關技術規(guī)則和處理程序。就脾胃方的核心藥物、方劑結構、藥對藥組和“方藥證”的對應關聯(lián)所進行的數(shù)據(jù)挖掘,結果基本符合中醫(yī)脾胃方組方用藥的一般規(guī)律和特點,并發(fā)現(xiàn)了一些值得深入研究的特殊配伍現(xiàn)象和模式。研究表明,數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)處理方法不同,能以線性和非線性方式進行數(shù)據(jù)解析,適宜對包含大量模糊和非量化數(shù)據(jù)的中醫(yī)方劑配伍規(guī)律的研究。但由于數(shù)據(jù)挖掘?qū)?shù)據(jù)質(zhì)量的要求高,因而數(shù)據(jù)預處理在方劑數(shù)據(jù)挖掘中工作量大,技術性強,是實現(xiàn)方劑配伍規(guī)律的知識發(fā)現(xiàn)的關鍵所在。第28頁,課件共35頁,創(chuàng)作于2023年2月8.4常用數(shù)據(jù)挖掘工具1.QUEST2.MineSet3.DBMiner4.MATLAB第29頁,課件共35頁,創(chuàng)作于2023年2月QUEST

QUEST是IBM公司Almaden研究中心開發(fā)的一個多任務數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應用開發(fā)提供高效的數(shù)據(jù)開采基本構件。第30頁,課件共35頁,創(chuàng)作于2023年2月QUEST特點提供了專門在大型數(shù)據(jù)庫上進行各種開采的功能:關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。各種開采算法具有近似線性(O(n))計算復雜度,可適用于任意大小的數(shù)據(jù)庫。算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論