數(shù)據(jù)倉庫與挖掘第五章-數(shù)據(jù)挖掘概述課件_第1頁
數(shù)據(jù)倉庫與挖掘第五章-數(shù)據(jù)挖掘概述課件_第2頁
數(shù)據(jù)倉庫與挖掘第五章-數(shù)據(jù)挖掘概述課件_第3頁
數(shù)據(jù)倉庫與挖掘第五章-數(shù)據(jù)挖掘概述課件_第4頁
數(shù)據(jù)倉庫與挖掘第五章-數(shù)據(jù)挖掘概述課件_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘第五章數(shù)據(jù)挖掘的概述本章內(nèi)容數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)網(wǎng)絡(luò)時代面臨的信息問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會拋棄信息”

網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)網(wǎng)絡(luò)時代面臨的信息問題:數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)--1,000,000,000,000個字節(jié)全球信息量以驚人的速度急劇增長--據(jù)估計,每二十個月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。如何從一棵棵樹木了解整個森林?從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識金塊?這是我們該考慮的問題!數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)--1,0啤酒尿不濕案例著名的“啤酒尿布”案例:美國加州某個超級賣場通過數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來購買嬰兒尿布的男顧客大都購買啤酒。于是經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。啤酒尿不濕案例著名的“啤酒尿布”案例:美國加州某個超級賣場通支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機(jī)自動收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計算機(jī)。例如更快和更大的計算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。

支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少?”計算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Oracle、IBM、Microsoft在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機(jī)、海量數(shù)據(jù)庫IBM、其他公司提供預(yù)測性的信息從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。

數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabas數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計方法來完成的。甚至有些人(尤其是統(tǒng)計學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計學(xué)的一個分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認(rèn)為。統(tǒng)計學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計,統(tǒng)計學(xué)對數(shù)據(jù)挖掘發(fā)展的貢獻(xiàn)功不可沒。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識貧乏”,它要處理的數(shù)據(jù)量已經(jīng)達(dá)到了“太”(萬億)級以上,比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個乃至十幾個數(shù)量級。對于如此大規(guī)模的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)分析方法可能根本不能處理,即使能夠處理,效率也是必須考慮的嚴(yán)重問題。因此需要對原有的數(shù)據(jù)分析方法重新檢驗(yàn),加以改進(jìn)。

數(shù)據(jù)有噪聲的。傳統(tǒng)數(shù)據(jù)分析方法的數(shù)據(jù)源一般都是清潔好的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘則需要從不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)知識。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且可以處理半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。事實(shí)上,基于文本的數(shù)據(jù)挖掘甚至互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘的研究方向之一。傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動的:一般都是先給出一個假設(shè)然后通過數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)挖掘和數(shù)據(jù)倉庫

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。優(yōu)點(diǎn):數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時就沒必要再清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被解決了。為了數(shù)據(jù)挖掘你也不必非得建立一個數(shù)據(jù)倉庫,建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,可以把一個或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;OLAP基于用戶假設(shè):whathappened〔查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會怎么樣〕whatif〔如果我采取這樣的措施又會怎么樣〕用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個假設(shè)是否正確。比如,一個分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗(yàn)證他這個假設(shè)。如果這個假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個歸納的過程,不是用于驗(yàn)證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。比如:一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個歸納的過程,不是用于數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,你也許要驗(yàn)證一下如果采取這樣的行動會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。在知識發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnalysis)從一個項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場、商品目錄設(shè)計和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。

數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnal聚類分析聚類分析(ClusteringAnalysis)聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。

聚類分析聚類分析(ClusteringAnalysis)分類與估值分類與估值(ClassificationandEstimation)分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過它要預(yù)測的不是類別,而是一個連續(xù)的數(shù)值。

分類與估值分類與估值(Classificationand時間序列分析時間序列分析(Time-Series

Analysis)時間序列分析即預(yù)測(Prediction),是指通過對大量時間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢和偏差。預(yù)測的目的是對未來的情況作出估計。

時間序列分析時間序列分析(Time-SeriesAnaly其它任務(wù)其它任務(wù)

包括:偏差分析(DeviationAnalysis)、孤立點(diǎn)分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。

其它任務(wù)其它任務(wù)醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對象是臨床醫(yī)療信息,反映了醫(yī)學(xué)信息的獨(dú)特之處,醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性:模式的多態(tài)性:醫(yī)學(xué)信息包括純數(shù)據(jù)、信號、圖像、文字以及語音和視頻信息。模式:就是對客觀事物的一種抽象描述,是整個數(shù)據(jù)集的全局性描述。相當(dāng)于某一規(guī)則,強(qiáng)調(diào)形式上的規(guī)律,可用于全局的規(guī)則,模型即可理解為造型實(shí)物有實(shí)體的造型。信息不完整性:病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫不可能對任何一種疾病信息都能全面的反映,疾病信息所體現(xiàn)出的客觀不完整性和描述,疾病的主觀不確切性形成了醫(yī)學(xué)信息的不完整性。數(shù)據(jù)的時序性:病人的就診、病人的發(fā)病過程在時間上有一個進(jìn)度,醫(yī)學(xué)檢測的波型、圖像都是時間函數(shù),這些都具有一定的時序性。數(shù)據(jù)冗余性:醫(yī)學(xué)數(shù)據(jù)庫是以龐大的數(shù)據(jù)資源,有大量相同的或部分相同的信息存儲在其中。醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對象是臨床醫(yī)療信息,反映醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來越廣而不僅僅在商業(yè)領(lǐng)域中。在生物醫(yī)學(xué)工程:在DNA分析中的應(yīng)用:實(shí)現(xiàn)基因識別和基因表達(dá)的研究。在分子結(jié)構(gòu)分析中的應(yīng)用:海量的分析結(jié)構(gòu)信息,通過分類、聚類、頻繁模式發(fā)現(xiàn)等技術(shù)完成數(shù)據(jù)分析工作。在生物信息可視化方面的應(yīng)用:對原始的結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,以圖、樹、方體和鏈的形式重新展現(xiàn)。在患者生理參數(shù)分析中的應(yīng)用:從先驗(yàn)信息的海量數(shù)據(jù)中發(fā)現(xiàn)隱含的有意義的知識來預(yù)測未來趨勢,做出前瞻性的決策。醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來越廣而不僅僅在商業(yè)中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。在中藥要譜分析方面。在中藥數(shù)據(jù)預(yù)處理方面。在中藥文獻(xiàn)研究中的應(yīng)用。中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫中一組對象之間某種共生現(xiàn)象,反映了事物之間存在的關(guān)聯(lián)性,若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。如兩者“同時發(fā)生”或“兩者存在因果關(guān)系”等。在醫(yī)學(xué)領(lǐng)域同樣存在關(guān)聯(lián)現(xiàn)象,若某種疾病同時表現(xiàn)出若干種癥狀,則這幾種癥狀與該疾病之間存在著關(guān)聯(lián)性,且癥狀之間也呈現(xiàn)某種關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析可為疾病的鑒別診斷提供參考依據(jù)。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫中一組對象之間重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病數(shù)據(jù)庫進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長期血糖濃度過高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測)進(jìn)行了追蹤觀察,監(jiān)測尿蛋白水平、腎小球過濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病數(shù)據(jù)庫進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長期血糖濃度過高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測)進(jìn)行了追蹤觀察,監(jiān)測尿蛋白水平、腎小球過濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。分析患有某類疾病的病人的處方數(shù)據(jù),找出處方數(shù)據(jù)中各項(xiàng)之間的關(guān)聯(lián)關(guān)系。醫(yī)生利用醫(yī)療領(lǐng)域的知識,來分析這些規(guī)則的可信程度。對于那些有價值的規(guī)則,可以放到規(guī)則庫中供自己或其他醫(yī)生治療患有同類疾病的病人。中醫(yī)在研究新方劑的時候做大量的臨床試驗(yàn)。方劑是由單味藥組成,在這些試驗(yàn)中結(jié)果中,可能就蘊(yùn)含著單味藥之間的某種關(guān)聯(lián)。重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。重點(diǎn)講解一:關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==>人參(Supp=42,Con=89.5%),主治榮衛(wèi)氣虛、臟腑怯弱,心腹脹滿,腸鳴泄瀉,嘔哆吐逆,大宜服之。據(jù)病人患病史進(jìn)行關(guān)聯(lián)序列分析;如:腦梗塞==>高血壓病III期,即病人患疾病腦梗塞的前提下,接下來患疾病高血壓病III期的情況。病人病案中記載了患病的詳細(xì)信息,通過分析得出的模式,在治療患有前提條件中疾病的病人時,就要注意或直接檢查病人是否同時也患有后件中的疾病。醫(yī)生在治療過程中可以同時考慮疾病間的關(guān)聯(lián),采取合理的治療方案。重點(diǎn)講解一:關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==重點(diǎn)講解二:聚類分析聚類分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。對象根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則進(jìn)行聚類或分組,使得每個組內(nèi)的對象具有很高的相似性。而與其它組中的對象差別很大。聚類分析方法適用于對孤立點(diǎn)的檢測及用于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價。重點(diǎn)講解二:聚類分析聚類分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。重點(diǎn)講解二:聚類分析例子:有研究者利用聚類方法分析流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的影響。首先從SEER的數(shù)據(jù)庫中選取21758例肺癌病例,每一例數(shù)據(jù)包含23個流行病學(xué)特征屬性和22個臨床醫(yī)學(xué)狀態(tài)特征屬性,繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成20類,比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異,在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二:聚類分析例子:有研究者利用聚類方法分析流行病學(xué)因重點(diǎn)講解二:聚類分析聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分為幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。聚類分析方法適用于對孤立點(diǎn)的檢測及用于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價。有研究者利用聚類方法分析流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的影響。首先從SEER的數(shù)據(jù)庫中選取21758例肺癌病例,每一例數(shù)據(jù)包含23個流行病學(xué)特征屬性和22個臨床臨床醫(yī)學(xué)狀態(tài)特征屬性,繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成20類,比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異,在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二:聚類分析聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃重點(diǎn)講解三:分類分類:利用恰當(dāng)?shù)乃惴?,對?xùn)練集進(jìn)行類型區(qū)分規(guī)律的發(fā)現(xiàn),并給出類型模型結(jié)果的過程。訓(xùn)練集:一組分類的、隨機(jī)選取數(shù)據(jù)庫記錄集合,是分類模型建立過程中的分析對象。相對于測試數(shù)據(jù)來說訓(xùn)練集是與之無關(guān)的。測試數(shù)據(jù)對用訓(xùn)練數(shù)據(jù)訓(xùn)練得的模型(由訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)建模)進(jìn)行測試,若所測的數(shù)據(jù)在模型上的精準(zhǔn)度高,即超過某一標(biāo)準(zhǔn),則認(rèn)為這個模型可用,可以用在其他分類上面。重點(diǎn)講解三:分類分類:利用恰當(dāng)?shù)乃惴?,對?xùn)練集進(jìn)行類型區(qū)分規(guī)重點(diǎn)講解三:分類例1:病人收治效益評估。從住院期長度和住院期間的醫(yī)療費(fèi)用兩項(xiàng)指標(biāo)入手,先進(jìn)行住院病人群體的分類挖掘,基于分類挖掘的結(jié)果進(jìn)行二次挖掘(特征總結(jié)挖掘)。將有價值的挖掘結(jié)果納入智能決策數(shù)據(jù)庫中,當(dāng)有病人申請住院時,管理者可以隨時檢索與當(dāng)前病人最相似的特征規(guī)則來判斷該病人未來的住院期長度和住院期間的醫(yī)療費(fèi)。管理者:能夠?qū)⒏袃r值的資源應(yīng)用到最有效益的病人身上,使之創(chuàng)值最大化。病人:預(yù)先知曉自己未來的住院期長短、費(fèi)用,以及最終的康復(fù)狀況,起到輔助咨詢的作用。重點(diǎn)講解三:分類例1:病人收治效益評估。重點(diǎn)講解三:分類例2:病人分類。根據(jù)病人的年齡、性別、住院天數(shù)、臨床診斷、病癥、手術(shù)、疾病嚴(yán)重程度及轉(zhuǎn)歸等因素,在已有病人數(shù)據(jù)的基礎(chǔ)上,利用數(shù)據(jù)挖掘中的決策樹以及聚類分析等技術(shù),對患者進(jìn)行細(xì)分。醫(yī)生:清楚的了解患者的特征,才能更好地開展診斷治療工作。醫(yī)院管理者:只有清楚了解了患者(從某種意義上可以把患者看成是醫(yī)院的客戶),才能為患者提供更好的服務(wù),并為他們實(shí)施不同的管理治療方案和不同的收費(fèi)標(biāo)準(zhǔn)。重點(diǎn)講解三:分類例2:病人分類。第五章數(shù)據(jù)挖掘的概述本章內(nèi)容5.1數(shù)據(jù)挖掘的起源5.2數(shù)據(jù)挖掘的任務(wù)5.3醫(yī)學(xué)與數(shù)據(jù)挖掘第五章數(shù)據(jù)挖掘的概述本章內(nèi)容數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)數(shù)據(jù)爆炸但知識貧乏支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘的起源網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)網(wǎng)絡(luò)時代面臨的信息問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W(xué)會拋棄信息”

網(wǎng)絡(luò)之后的下一個技術(shù)熱點(diǎn)網(wǎng)絡(luò)時代面臨的信息問題:數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)--1,000,000,000,000個字節(jié)全球信息量以驚人的速度急劇增長--據(jù)估計,每二十個月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。如何從一棵棵樹木了解整個森林?從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識金塊?這是我們該考慮的問題!數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)--1,0啤酒尿不濕案例著名的“啤酒尿布”案例:美國加州某個超級賣場通過數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來購買嬰兒尿布的男顧客大都購買啤酒。于是經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。啤酒尿不濕案例著名的“啤酒尿布”案例:美國加州某個超級賣場通支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機(jī)自動收集的數(shù)據(jù)記錄;強(qiáng)大的多處理器計算機(jī)。例如更快和更大的計算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。

支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少?”計算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Oracle、IBM、Microsoft在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機(jī)、海量數(shù)據(jù)庫IBM、其他公司提供預(yù)測性的信息從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。

數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系DataMiningDatabas數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計方法來完成的。甚至有些人(尤其是統(tǒng)計學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計學(xué)的一個分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認(rèn)為。統(tǒng)計學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計,統(tǒng)計學(xué)對數(shù)據(jù)挖掘發(fā)展的貢獻(xiàn)功不可沒。數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識貧乏”,它要處理的數(shù)據(jù)量已經(jīng)達(dá)到了“太”(萬億)級以上,比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個乃至十幾個數(shù)量級。對于如此大規(guī)模的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)分析方法可能根本不能處理,即使能夠處理,效率也是必須考慮的嚴(yán)重問題。因此需要對原有的數(shù)據(jù)分析方法重新檢驗(yàn),加以改進(jìn)。

數(shù)據(jù)有噪聲的。傳統(tǒng)數(shù)據(jù)分析方法的數(shù)據(jù)源一般都是清潔好的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘則需要從不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)知識。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且可以處理半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。事實(shí)上,基于文本的數(shù)據(jù)挖掘甚至互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘的研究方向之一。傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動的:一般都是先給出一個假設(shè)然后通過數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)挖掘和數(shù)據(jù)倉庫

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。優(yōu)點(diǎn):數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時就沒必要再清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被解決了。為了數(shù)據(jù)挖掘你也不必非得建立一個數(shù)據(jù)倉庫,建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,可以把一個或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;OLAP基于用戶假設(shè):whathappened〔查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么〕whatnext〔OLAP更進(jìn)一步告訴你下一步會怎么樣〕whatif〔如果我采取這樣的措施又會怎么樣〕用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個假設(shè)是否正確。比如,一個分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗(yàn)證他這個假設(shè)。如果這個假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭;數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個歸納的過程,不是用于驗(yàn)證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。比如:一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘本質(zhì)上是一個歸納的過程,不是用于數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,你也許要驗(yàn)證一下如果采取這樣的行動會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。在知識發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘和OLAP數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnalysis)從一個項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場、商品目錄設(shè)計和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。

數(shù)據(jù)挖掘主要的任務(wù)關(guān)聯(lián)分析(AssociationAnal聚類分析聚類分析(ClusteringAnalysis)聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。

聚類分析聚類分析(ClusteringAnalysis)分類與估值分類與估值(ClassificationandEstimation)分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測類別未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過它要預(yù)測的不是類別,而是一個連續(xù)的數(shù)值。

分類與估值分類與估值(Classificationand時間序列分析時間序列分析(Time-Series

Analysis)時間序列分析即預(yù)測(Prediction),是指通過對大量時間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢和偏差。預(yù)測的目的是對未來的情況作出估計。

時間序列分析時間序列分析(Time-SeriesAnaly其它任務(wù)其它任務(wù)

包括:偏差分析(DeviationAnalysis)、孤立點(diǎn)分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。

其它任務(wù)其它任務(wù)醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對象是臨床醫(yī)療信息,反映了醫(yī)學(xué)信息的獨(dú)特之處,醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性:模式的多態(tài)性:醫(yī)學(xué)信息包括純數(shù)據(jù)、信號、圖像、文字以及語音和視頻信息。模式:就是對客觀事物的一種抽象描述,是整個數(shù)據(jù)集的全局性描述。相當(dāng)于某一規(guī)則,強(qiáng)調(diào)形式上的規(guī)律,可用于全局的規(guī)則,模型即可理解為造型實(shí)物有實(shí)體的造型。信息不完整性:病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫不可能對任何一種疾病信息都能全面的反映,疾病信息所體現(xiàn)出的客觀不完整性和描述,疾病的主觀不確切性形成了醫(yī)學(xué)信息的不完整性。數(shù)據(jù)的時序性:病人的就診、病人的發(fā)病過程在時間上有一個進(jìn)度,醫(yī)學(xué)檢測的波型、圖像都是時間函數(shù),這些都具有一定的時序性。數(shù)據(jù)冗余性:醫(yī)學(xué)數(shù)據(jù)庫是以龐大的數(shù)據(jù)資源,有大量相同的或部分相同的信息存儲在其中。醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對象是臨床醫(yī)療信息,反映醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來越廣而不僅僅在商業(yè)領(lǐng)域中。在生物醫(yī)學(xué)工程:在DNA分析中的應(yīng)用:實(shí)現(xiàn)基因識別和基因表達(dá)的研究。在分子結(jié)構(gòu)分析中的應(yīng)用:海量的分析結(jié)構(gòu)信息,通過分類、聚類、頻繁模式發(fā)現(xiàn)等技術(shù)完成數(shù)據(jù)分析工作。在生物信息可視化方面的應(yīng)用:對原始的結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,以圖、樹、方體和鏈的形式重新展現(xiàn)。在患者生理參數(shù)分析中的應(yīng)用:從先驗(yàn)信息的海量數(shù)據(jù)中發(fā)現(xiàn)隱含的有意義的知識來預(yù)測未來趨勢,做出前瞻性的決策。醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來越廣而不僅僅在商業(yè)中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。在中藥要譜分析方面。在中藥數(shù)據(jù)預(yù)處理方面。在中藥文獻(xiàn)研究中的應(yīng)用。中藥領(lǐng)域在中藥新藥研發(fā)中的應(yīng)用。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫中一組對象之間某種共生現(xiàn)象,反映了事物之間存在的關(guān)聯(lián)性,若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。如兩者“同時發(fā)生”或“兩者存在因果關(guān)系”等。在醫(yī)學(xué)領(lǐng)域同樣存在關(guān)聯(lián)現(xiàn)象,若某種疾病同時表現(xiàn)出若干種癥狀,則這幾種癥狀與該疾病之間存在著關(guān)聯(lián)性,且癥狀之間也呈現(xiàn)某種關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析可為疾病的鑒別診斷提供參考依據(jù)。重點(diǎn)講解一:關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫中一組對象之間重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病數(shù)據(jù)庫進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長期血糖濃度過高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測)進(jìn)行了追蹤觀察,監(jiān)測尿蛋白水平、腎小球過濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病數(shù)據(jù)庫進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長期血糖濃度過高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對37000例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測)進(jìn)行了追蹤觀察,監(jiān)測尿蛋白水平、腎小球過濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。分析患有某類疾病的病人的處方數(shù)據(jù),找出處方數(shù)據(jù)中各項(xiàng)之間的關(guān)聯(lián)關(guān)系。醫(yī)生利用醫(yī)療領(lǐng)域的知識,來分析這些規(guī)則的可信程度。對于那些有價值的規(guī)則,可以放到規(guī)則庫中供自己或其他醫(yī)生治療患有同類疾病的病人。中醫(yī)在研究新方劑的時候做大量的臨床試驗(yàn)。方劑是由單味藥組成,在這些試驗(yàn)中結(jié)果中,可能就蘊(yùn)含著單味藥之間的某種關(guān)聯(lián)。重點(diǎn)講解一:關(guān)聯(lián)分析例2:醫(yī)療處方分析。重點(diǎn)講解一:關(guān)聯(lián)分析白術(shù)^橘皮炙^甘草^獲荃==>人參(Supp=42,Con=89.5%),主治榮衛(wèi)氣虛、臟腑怯弱,心腹脹滿,腸鳴泄瀉,嘔哆吐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論