版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第五章 數(shù)據(jù)挖掘的概述o 本章內(nèi)容n 5.1 數(shù)據(jù)挖掘的起源n 5.2 數(shù)據(jù)挖掘的任務(wù)n 5.3 醫(yī)學(xué)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的起源u 網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn) u 數(shù)據(jù)爆炸但知識貧乏u 支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)u 從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化 網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)o 網(wǎng)絡(luò)時(shí)代面臨的信息問題:n 信息過量,難以消化;n 信息真假難以辨識;n 信息安全難以保證;n 信息形式不一致,難以統(tǒng)一處理。o “要學(xué)會拋棄信息” 數(shù)據(jù)爆炸但知識貧乏n 數(shù)據(jù)庫的容量已達(dá)上萬億水平(T)1,000,000,000,000個(gè)字節(jié)n 全球信息量以驚人的速度急劇增長據(jù)估計(jì),每二十個(gè)月將增加一倍。n 許多組織機(jī)構(gòu)的IT系統(tǒng)中
2、都收集了大量的數(shù)據(jù)n 目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。n 如何從一棵棵樹木了解整個(gè)森林?從數(shù)據(jù)礦山中找到蘊(yùn)藏的知識金塊?這是我們該考慮的問題!啤酒尿不濕案例n著名的“啤酒尿布”案例:美國加州某個(gè)超級賣場通過數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來購買嬰兒尿布的男顧客大都購買啤酒。于是經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時(shí)還把男士日常用品就近布置。這樣,上述幾
3、種商品的銷量大增。支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)p 激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應(yīng)用和研究的興趣的四個(gè)主要技術(shù)理由:p 超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;p 強(qiáng)大的多處理器計(jì)算機(jī)。例如更快和更大的計(jì)算能力和并行體系結(jié)構(gòu);p 海量數(shù)據(jù)搜索,對巨大量數(shù)據(jù)的快速訪問;p 數(shù)據(jù)挖掘算法。從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、I
4、nformix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Oracle 、IBM、Microsoft在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個(gè)月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫IBM、其他公司提供預(yù)測性的信息數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)的定義的定義o 數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用
5、數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。技術(shù)角度的定義技術(shù)角度的定義o 數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法。商業(yè)角度的定義商業(yè)角度的定義o 數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。 數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)的定義的定義數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMach
6、ineLearningVisualization數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系n 數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。n 近幾年,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作都是由統(tǒng)計(jì)方法來完成的。甚至有些人(尤其是統(tǒng)計(jì)學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)的一個(gè)分支,當(dāng)然大多數(shù)人(包括絕大多數(shù)數(shù)據(jù)挖掘研究人員)并不這么認(rèn)為。n 統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的目標(biāo)非常相似,而且數(shù)據(jù)挖掘中的許多算法也源于數(shù)理統(tǒng)計(jì),統(tǒng)計(jì)學(xué)對數(shù)據(jù)挖掘發(fā)
7、展的貢獻(xiàn)功不可沒。實(shí)施數(shù)據(jù)挖掘的目的實(shí)施數(shù)據(jù)挖掘的目的n 不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤。n 所有企業(yè)面臨的一個(gè)共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。n 數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;l 數(shù)據(jù)是海量的。數(shù)據(jù)挖掘出現(xiàn)的背景是“數(shù)據(jù)爆炸但知識貧乏”,它要處理的數(shù)據(jù)量已經(jīng)達(dá)到了“太”(萬億)級以上,比傳統(tǒng)數(shù)據(jù)分析方法所處理的數(shù)據(jù)量超出幾個(gè)乃至十幾個(gè)數(shù)量級。對于如此大規(guī)模的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)分析方法可能根本不
8、能處理,即使能夠處理,效率也是必須考慮的嚴(yán)重問題。因此需要對原有的數(shù)據(jù)分析方法重新檢驗(yàn),加以改進(jìn)。l 數(shù)據(jù)有噪聲的。傳統(tǒng)數(shù)據(jù)分析方法的數(shù)據(jù)源一般都是清潔好的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘則需要從不完全的、有噪聲的、模糊的數(shù)據(jù)中發(fā)現(xiàn)知識。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別l 數(shù)據(jù)可能是非結(jié)構(gòu)化的。數(shù)據(jù)挖掘不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),而且可以處理半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。事實(shí)上,基于文本的數(shù)據(jù)挖掘甚至互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘正是數(shù)據(jù)挖掘的研究方向之一 。n 傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過數(shù)據(jù)驗(yàn)證。n 數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過
9、大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來 。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘和數(shù)據(jù)倉庫o數(shù)據(jù)挖掘和數(shù)據(jù)倉庫o大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。 優(yōu)點(diǎn):數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時(shí)就沒必要再清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被解決了。o為了數(shù)據(jù)挖掘你也不必非得建立一個(gè)數(shù)據(jù)倉庫,建立一個(gè)巨大的數(shù)據(jù)倉庫,把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在
10、一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬的錢才能完成。o只是為了數(shù)據(jù)挖掘,可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫導(dǎo)到一個(gè)只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。 數(shù)據(jù)挖掘和OLAP o 完全不同的工具,基于的技術(shù)也大相徑庭;o OLAP基于用戶假設(shè):nwhat happened查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中都有什么nwhat next OLAP更進(jìn)一步告訴你下一步會怎么樣nwhat if如果我采取這樣的措施又會怎么樣o 用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個(gè)假設(shè)是否正確。比如,一個(gè)分析師想找到什么
11、原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。數(shù)據(jù)挖掘和OLAP o 數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。o 比如:一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。數(shù)據(jù)挖掘和OLAP o 數(shù)據(jù)挖掘和OLA
12、P有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動(dòng)之前,你也許要驗(yàn)證一下如果采取這樣的行動(dòng)會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。o 在知識發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途??梢詭湍闾剿鲾?shù)據(jù),找到哪些是對一個(gè)問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘主要的任務(wù)數(shù)據(jù)挖掘主要的任務(wù)o 關(guān)聯(lián)分析關(guān)聯(lián)分析(Association Analysis) 從一個(gè)項(xiàng)目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性值條件元組。 例如:關(guān)聯(lián)規(guī)則X=Y所表達(dá)的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分
13、析在交易數(shù)據(jù)分析、支持定向市場、商品目錄設(shè)計(jì)和其他業(yè)務(wù)決策等方面有著廣泛的應(yīng)用。 聚類分析聚類分析o 聚類分析聚類分析(Clustering Analysis) 聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠(yuǎn)。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。 好的聚類方法應(yīng)保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。 分類與估值分類與估值o 分類與估值分類與估值(Classification and Estimation) 分類指通過分析一個(gè)類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測類別
14、未知的數(shù)據(jù)項(xiàng)的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學(xué)公式,乃至神經(jīng)網(wǎng)絡(luò)。 估值與分類類似,只不過它要預(yù)測的不是類別,而是一個(gè)連續(xù)的數(shù)值。 時(shí)間序列分析時(shí)間序列分析o 時(shí)間序列分析時(shí)間序列分析(Time-Series Analysis) 時(shí)間序列分析即預(yù)測(Prediction),是指通過對大量時(shí)間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢和偏差。預(yù)測的目的是對未來的情況作出估計(jì)。 其它任務(wù)其它任務(wù)o 其它任務(wù)其它任務(wù) 包括:偏差分析(Deviation Analysis)、孤立點(diǎn)分析(Outlier
15、 Analysis)等。 隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。 醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)與數(shù)據(jù)挖掘o 醫(yī)學(xué)數(shù)據(jù)挖掘的主要研究對象是臨床醫(yī)療信息,反映了醫(yī)學(xué)信息的獨(dú)特之處,醫(yī)學(xué)數(shù)據(jù)挖掘的特殊性:u模式的多態(tài)性: 醫(yī)學(xué)信息包括純數(shù)據(jù)、信號、圖像、文字以及語音和視頻信息。模式:就是對客觀事物的一種抽象描述,是整個(gè)數(shù)據(jù)集的全局性描述。相當(dāng)于某一規(guī)則,強(qiáng)調(diào)形式上的規(guī)律,可用于全局的規(guī)則,模型即可理解為造型實(shí)物 有實(shí)體的造型。u信息不完整性:病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫不可能對任何一種疾病信息都能全面的反映,疾病信息所體現(xiàn)出的客觀不完整性和描述,疾病的主觀不確切性形成了醫(yī)學(xué)信息的不完整性
16、。u數(shù)據(jù)的時(shí)序性:病人的就診、病人的發(fā)病過程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測的波型、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。u數(shù)據(jù)冗余性: 醫(yī)學(xué)數(shù)據(jù)庫是以龐大的數(shù)據(jù)資源,有大量相同的或部分相同的信息存儲在其中。醫(yī)學(xué)與數(shù)據(jù)挖掘醫(yī)學(xué)與數(shù)據(jù)挖掘o 數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域的應(yīng)用越來越廣而不僅僅在商業(yè)領(lǐng)域中。在生物醫(yī)學(xué)工程:l 在DNA分析中的應(yīng)用:實(shí)現(xiàn)基因識別和基因表達(dá)的研究。l 在分子結(jié)構(gòu)分析中的應(yīng)用:海量的分析結(jié)構(gòu)信息,通過分類、聚類、頻繁模式發(fā)現(xiàn)等技術(shù)完成數(shù)據(jù)分析工作。l 在生物信息可視化方面的應(yīng)用:對原始的結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,以圖、樹、方體和鏈的形式重新展現(xiàn)。l 在患者生理參數(shù)分析中的應(yīng)用:從先驗(yàn)
17、信息的海量數(shù)據(jù)中發(fā)現(xiàn)隱含的有意義的知識來預(yù)測未來趨勢,做出前瞻性的決策。中藥領(lǐng)域中藥領(lǐng)域o 在中藥新藥研發(fā)中的應(yīng)用。o 在中藥要譜分析方面。o 在中藥數(shù)據(jù)預(yù)處理方面。o 在中藥文獻(xiàn)研究中的應(yīng)用。重點(diǎn)講解一:關(guān)聯(lián)分析重點(diǎn)講解一:關(guān)聯(lián)分析p 關(guān)聯(lián)規(guī)則描述和分析了數(shù)據(jù)庫中一組對象之間某種共生現(xiàn)象,反映了事物之間存在的關(guān)聯(lián)性,若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。如兩者“同時(shí)發(fā)生”或“兩者存在因果關(guān)系”等。p 在醫(yī)學(xué)領(lǐng)域同樣存在關(guān)聯(lián)現(xiàn)象,若某種疾病同時(shí)表
18、現(xiàn)出若干種癥狀,則這幾種癥狀與該疾病之間存在著關(guān)聯(lián)性,且癥狀之間也呈現(xiàn)某種關(guān)聯(lián)。 關(guān)聯(lián)規(guī)則分析可為疾病的鑒別診斷提供參考依據(jù)。重點(diǎn)講解一:關(guān)聯(lián)分析重點(diǎn)講解一:關(guān)聯(lián)分析o 例子:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病數(shù)據(jù)庫進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長期血糖濃度過高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對 37000 例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測)進(jìn)行了追蹤觀察,監(jiān)測尿蛋白水平、腎小球過濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析重點(diǎn)講解一:關(guān)聯(lián)分析o 例1:有研究者利用關(guān)聯(lián)規(guī)則分析法對糖尿病數(shù)據(jù)庫進(jìn)行多維數(shù)據(jù)分析,以期望發(fā)現(xiàn)長期血糖
19、濃度過高與并發(fā)癥之間的關(guān)聯(lián);還有研究者對 37000 例腎病患者的癥狀(包括臨床檢驗(yàn)和檢測)進(jìn)行了追蹤觀察,監(jiān)測尿蛋白水平、腎小球過濾率以及患者貧血狀況,結(jié)果發(fā)現(xiàn)以上三種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升。重點(diǎn)講解一:關(guān)聯(lián)分析重點(diǎn)講解一:關(guān)聯(lián)分析o 例2:醫(yī)療處方分析。u 分析患有某類疾病的病人的處方數(shù)據(jù),找出處方數(shù)據(jù)中各項(xiàng)之間的關(guān)聯(lián)關(guān)系。醫(yī)生利用醫(yī)療領(lǐng)域的知識,來分析這些規(guī)則的可信程度。對于那些有價(jià)值的規(guī)則,可以放到規(guī)則庫中供自己或其他醫(yī)生治療患有同類疾病的病人。u 中醫(yī)在研究新方劑的時(shí)候做大量的臨床試驗(yàn)。方劑是由單味藥組成,在這些試驗(yàn)中結(jié)果中,可能就蘊(yùn)含著單味藥之間的某種關(guān)
20、聯(lián)。重點(diǎn)講解一:關(guān)聯(lián)分析重點(diǎn)講解一:關(guān)聯(lián)分析o 白術(shù) 橘皮炙 甘草 獲荃=人參(Supp=42,Con=89.5%),主治榮衛(wèi)氣虛、臟腑怯弱,心腹脹滿,腸鳴泄瀉,嘔哆吐逆,大宜服之。o 據(jù)病人患病史進(jìn)行關(guān)聯(lián)序列分析;如:腦梗塞=高血壓病 III 期,即病人患疾病腦梗塞的前提下,接下來患疾病高血壓病 III 期的情況。o 病人病案中記載了患病的詳細(xì)信息,通過分析得出的模式,在治療患有前提條件中疾病的病人時(shí),就要注意或直接檢查病人是否同時(shí)也患有后件中的疾病。醫(yī)生在治療過程中可以同時(shí)考慮疾病間的關(guān)聯(lián),采取合理的治療方案。重點(diǎn)講解二:聚類分析重點(diǎn)講解二:聚類分析o 聚類分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)
21、記。對象根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性的原則進(jìn)行聚類或分組,使得每個(gè)組內(nèi)的對象具有很高的相似性。而與其它組中的對象差別很大。聚類分析方法適用于對孤立點(diǎn)的檢測及用于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià)。重點(diǎn)講解二:聚類分析重點(diǎn)講解二:聚類分析o 例子:有研究者利用聚類方法分析流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的影響。 首先從 SEER 的數(shù)據(jù)庫中選取 21758 例肺癌病例,每一例數(shù)據(jù)包含 23 個(gè)流行病學(xué)特征屬性和 22 個(gè)臨床醫(yī)學(xué)狀態(tài)特征屬性,繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分成 20 類,比較各類別之間的臨床醫(yī)學(xué)狀態(tài)特征屬性的差異,在此基礎(chǔ)上還可更進(jìn)一步分析各類流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的不同影響。重點(diǎn)講解二:聚類分析重點(diǎn)講解二:聚類分析o 聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分為幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。聚類分析方法適用于對孤立點(diǎn)的檢測及用于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià)。o 有研究者利用聚類方法分析流行病學(xué)因素對肺癌患者臨床醫(yī)學(xué)狀況的影響。 首先從 SEER 的數(shù)據(jù)庫中選取 21758 例肺癌病例,每一例數(shù)據(jù)包含 23 個(gè)流行病學(xué)特征屬性和 22 個(gè)臨床臨床醫(yī)學(xué)狀態(tài)特征屬性,繼而根據(jù)流行病學(xué)特征屬性的相似程度將病例數(shù)據(jù)劃分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒樓消防知識培訓(xùn)課件
- 2024燃料油產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟合作協(xié)議3篇
- 2024樣板房樣板間智能化改造升級合同3篇
- 2024數(shù)碼相機(jī)產(chǎn)品研發(fā)與全球市場推廣合同3篇
- 2024架子工班組項(xiàng)目承包協(xié)議樣本版B版
- 中國礦業(yè)大學(xué)徐海學(xué)院《微生物學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長沙職業(yè)技術(shù)學(xué)院《項(xiàng)目投資與融資》2023-2024學(xué)年第一學(xué)期期末試卷
- 腫瘤登記知識培訓(xùn)課件
- 教育培訓(xùn)行業(yè)安全事故案例分析
- 鐘表設(shè)計(jì)師職位概述
- 汽車經(jīng)營計(jì)劃書
- 2024屆山東省濱州無棣縣聯(lián)考物理九上期末綜合測試試題含解析
- 兩高環(huán)境污染罪司法解釋解讀
- 部編版小學(xué)六年級語文上冊第六單元集體備課記錄表
- 手機(jī)繳費(fèi)收款授權(quán)委托書
- 財(cái)務(wù)情況說明書
- 無人值守汽車衡解決方案
- 動(dòng)脈瘤介入術(shù)后護(hù)理查房課件
- 淄博市張店區(qū)預(yù)防接種工作現(xiàn)狀及其影響因素分析中期報(bào)告
- 初中英語2023年中考專題訓(xùn)練任務(wù)型閱讀-完成表格篇
- 技術(shù)通知單(新模版-0516)
評論
0/150
提交評論