臨床數(shù)據(jù)挖掘方法-關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)課件_第1頁(yè)
臨床數(shù)據(jù)挖掘方法-關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)課件_第2頁(yè)
臨床數(shù)據(jù)挖掘方法-關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)課件_第3頁(yè)
臨床數(shù)據(jù)挖掘方法-關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)課件_第4頁(yè)
臨床數(shù)據(jù)挖掘方法-關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)課件_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章

數(shù)據(jù)挖掘方法—關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)第四章數(shù)據(jù)挖掘方法—關(guān)聯(lián)規(guī)則與貝1.關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)2.關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)3.貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建4.案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)5.基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享1.關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算關(guān)聯(lián)規(guī)則的定義關(guān)聯(lián)規(guī)則主要反映了事物之間的關(guān)聯(lián)性。若某事物具有特征屬性A的同時(shí),也具有特征屬性B,則稱特征屬性A和B是關(guān)聯(lián)的。A與B的關(guān)聯(lián)表示兩者同時(shí)存在,但不一定表示兩者之間必然存在前因后果的關(guān)系。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)關(guān)聯(lián)規(guī)則的定義關(guān)聯(lián)規(guī)則主要反映了事物之間的關(guān)聯(lián)性。若某事物具關(guān)聯(lián)規(guī)則的一般形式:關(guān)聯(lián)規(guī)則的有效性驗(yàn)證:支持度、置信度和提升度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)關(guān)聯(lián)規(guī)則的一般形式:關(guān)聯(lián)規(guī)則的有效性驗(yàn)證:1關(guān)聯(lián)規(guī)則的概念1)關(guān)聯(lián)規(guī)則的支持度(support)表示某關(guān)聯(lián)規(guī)則在總體中發(fā)生的概率,是關(guān)聯(lián)規(guī)則重要性的定性度量,反應(yīng)了規(guī)則出現(xiàn)的頻繁程度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)1)關(guān)聯(lián)規(guī)則的支持度(support)表示某關(guān)聯(lián)規(guī)則在總體H1:眼軸遠(yuǎn)視;H2

散光;H3

老光支持度的計(jì)算:1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)H1:眼軸遠(yuǎn)視;H2散光;H3老光支持度的計(jì)算:1關(guān)聯(lián)2)關(guān)聯(lián)規(guī)則的置信度(confidence)置信度針對(duì)一條關(guān)聯(lián)規(guī)則,表示構(gòu)成關(guān)聯(lián)規(guī)則的一個(gè)特征屬性A發(fā)生時(shí),另一個(gè)特征屬性B發(fā)生的概率,反應(yīng)了這兩個(gè)特征屬性之間的關(guān)聯(lián)強(qiáng)度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)2)關(guān)聯(lián)規(guī)則的置信度(confidence)置信度針對(duì)一條H1:眼軸遠(yuǎn)視;H2

散光;H3

老光1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)置信度的計(jì)算:H1:眼軸遠(yuǎn)視;H2散光;H3老光1關(guān)聯(lián)規(guī)則的概念及常3)關(guān)聯(lián)規(guī)則的提升度(Lift)提升度反應(yīng)了關(guān)聯(lián)規(guī)則的重要性及研究者對(duì)其感興趣的程度。提升度為1表示該關(guān)聯(lián)規(guī)則的價(jià)值不大,前后項(xiàng)獨(dú)立。提升度小于1說明該規(guī)則為負(fù)關(guān)聯(lián),反應(yīng)特征屬性相互排斥;提升度大于1說明該規(guī)則為正關(guān)聯(lián),反應(yīng)特征屬性是互為共生的,即兩屬性同時(shí)發(fā)生的實(shí)際概率大于隨機(jī)概率。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)3)關(guān)聯(lián)規(guī)則的提升度(Lift)提升度反應(yīng)了關(guān)聯(lián)規(guī)則的重要提升度小于1,說明該規(guī)則是排斥的。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)提升度的計(jì)算:提升度小于1,說明該規(guī)則是排斥的。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)關(guān)聯(lián)規(guī)則的分析方法:Apriori算法關(guān)聯(lián)規(guī)則的分析方法簡(jiǎn)單,但計(jì)算量大,特別是針對(duì)海量的數(shù)據(jù)。著名的Apriori算法是關(guān)聯(lián)規(guī)則的經(jīng)典算法,能有效地實(shí)施關(guān)聯(lián)規(guī)則分析。它的基本思路是利用支持度、置信度和提升度等質(zhì)量指標(biāo)來選擇滿足要求的組合及降低最終結(jié)果的復(fù)雜度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)關(guān)聯(lián)規(guī)則的分析方法:Apriori算法關(guān)聯(lián)規(guī)則的分析方法簡(jiǎn)Apriori算法的基本思路:

先通過迭代檢索出支持度不低于用戶設(shè)定的域值的項(xiàng)集;然后利用所得項(xiàng)集構(gòu)造出滿足最小置信度的規(guī)則。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)Apriori算法的基本思路:先通過迭代檢索出支持度不例:某40例受檢者的記錄:每條記錄包含5個(gè)特征屬性:H1:中耳炎H2:急性扁桃體炎H3:急性上呼吸道感染H4:非感染性胃腸炎H5:臨床觀察及檢驗(yàn)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)例:某40例受檢者的記錄:每條記錄包含5個(gè)特征屬性:2關(guān)將數(shù)據(jù)文件arule.csv存在d盤中。2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)數(shù)據(jù)格式將數(shù)據(jù)文件arule.csv存在d盤中。2關(guān)聯(lián)規(guī)則分析及關(guān)安裝R軟件的arules軟件包并加載軟件包。讀入數(shù)據(jù):read.table("d:\\arule.csv",header=TRUE,sep=",")->a2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)安裝R軟件的arules軟件包并加載軟件包。讀入數(shù)據(jù):rea設(shè)置支持度為0.4,置信度為0.8rules<-apriori(a,parameter=list(support=0.4,confidence=0.8))2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)應(yīng)用Apriori算法獲得關(guān)聯(lián)規(guī)則設(shè)置支持度為0.4,置信度為0.8rules<-aprior查看關(guān)聯(lián)規(guī)則inspect(rules)H1:中耳炎H2:急性扁桃體炎H3:急性上呼吸道感染H4:非感染性胃腸炎H5:臨床觀察及檢驗(yàn)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)查看關(guān)聯(lián)規(guī)則inspect(rules)H1:中耳炎2關(guān)聯(lián)安裝arulesViz軟件包就可以進(jìn)行關(guān)聯(lián)規(guī)則的可視化。2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)安裝arulesViz軟件包就可以進(jìn)行關(guān)聯(lián)規(guī)則的可視化。2關(guān)于支持度與置信度的設(shè)置支持度和置信度的設(shè)置對(duì)于分析的最終結(jié)果影響很大。若域值過低,則規(guī)則數(shù)量多、冗余多。若域值過高,則可能會(huì)丟失潛在的關(guān)聯(lián)規(guī)則。因此,要根據(jù)實(shí)際情況設(shè)置支持度和置信度。如微生物種類很多,各種可能的模式組合量很大,因此可能產(chǎn)生的關(guān)聯(lián)規(guī)則的支持度一般較低,如果域值設(shè)的很高,就會(huì)遺漏有效的關(guān)聯(lián)規(guī)則。2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)關(guān)于支持度與置信度的設(shè)置支持度和置信度的設(shè)置對(duì)于分析的最終結(jié)案例:數(shù)據(jù)datarule.csv,存于d盤下2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)案例:數(shù)據(jù)datarule.csv,存于d盤下2關(guān)聯(lián)規(guī)則分read.table("d:\\datarule.csv",header=TRUE,sep=",")->arules<-apriori(a,parameter=list(support=0.6,confidence=0.8))2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)read.table("d:\\datarule.csv",inspect(rules)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)inspect(rules)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化

隨著醫(yī)學(xué)研究的深入開展,越來越多的研究將貝葉斯網(wǎng)絡(luò)運(yùn)用于手術(shù)結(jié)果預(yù)測(cè),治療效果評(píng)價(jià),醫(yī)療診斷及醫(yī)院信息管理等方面。貝葉斯網(wǎng)絡(luò)用有向無環(huán)圖和條件概率分布描述了變量之間的依賴和獨(dú)立關(guān)系。通過貝葉斯網(wǎng)絡(luò)圖形化的特點(diǎn)建立起變量之間的因果關(guān)系,可以幫助醫(yī)學(xué)研究人員應(yīng)用于臨床診斷和臨床決策。3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建隨著醫(yī)學(xué)研究的深入開展,越來越多的研究將貝葉斯貝葉斯網(wǎng)絡(luò)的概念貝葉斯網(wǎng)絡(luò)的有向無環(huán)圖中的節(jié)點(diǎn)表示隨機(jī)變量,它們既可以是可觀察到的變量,也可以是隱變量、未知參數(shù)等。連接兩個(gè)節(jié)點(diǎn)的箭頭代表此兩個(gè)隨機(jī)變量是具有因果關(guān)系或是非條件獨(dú)立的;而節(jié)點(diǎn)中變量間若沒有箭頭相互連接一起的情況就稱其隨機(jī)變量彼此間為條件獨(dú)立。若兩個(gè)節(jié)點(diǎn)間以一個(gè)單箭頭連接在一起,表示其中一個(gè)節(jié)點(diǎn)是“因(parents)”,另一個(gè)節(jié)點(diǎn)是“果(descendantsorchildren)”,兩節(jié)點(diǎn)就會(huì)產(chǎn)生一個(gè)條件概率值。3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建貝葉斯網(wǎng)絡(luò)的概念貝葉斯網(wǎng)絡(luò)的有向無環(huán)圖中的節(jié)點(diǎn)表示隨機(jī)變量,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建

慢性阻塞性肺疾?。–hronicObstructivePulmonaryDisease,COPD)是死亡率較高的一種慢性肺疾病。目前,盡管已發(fā)現(xiàn)吸煙是疾病的風(fēng)險(xiǎn)因素,但據(jù)報(bào)道僅有10%的吸煙人群能進(jìn)展成為有癥狀的COPD患者,說明該疾病和遺傳、環(huán)境等因素有很大的關(guān)系。其中單個(gè)核苷酸變異(SingleNucleotidePolymorphism,SNP)作為人類可遺傳變異中最常見的一種,占所有已知多態(tài)性的90%以上,不僅可以作為遺傳標(biāo)記,還可以通過連鎖分析定位疾病基因。應(yīng)用案例4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)慢性阻塞性肺疾?。–hronicObstrSNP數(shù)據(jù)分型芯片獲得的數(shù)據(jù)信息

通過貝葉斯網(wǎng)絡(luò)研究遺傳變異SNP和環(huán)境的交互作用。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)SNP數(shù)據(jù)分型芯片獲得的數(shù)據(jù)信息通過貝葉斯網(wǎng)絡(luò)研究遺傳變異將數(shù)據(jù)命名為“Bayesnetwork.csv”,存于d盤下4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)研究變量涉及5個(gè)變量:FEV1(1秒鐘用力呼氣的容積),sex為性別變量,age為年齡變量,rs729631和rs1138272分別表示兩個(gè)SNP。進(jìn)入COPD貝葉斯網(wǎng)絡(luò)分析的結(jié)點(diǎn)即為這5個(gè)變量。將數(shù)據(jù)命名為“Bayesnetwork.csv”,存于d盤下采用R軟件的deal軟件包來構(gòu)建這5個(gè)變量的貝葉斯網(wǎng)絡(luò)。deal軟件包構(gòu)建貝葉斯網(wǎng)絡(luò)的流程圖如下圖所示。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)采用R軟件的deal軟件包來構(gòu)建這5個(gè)變量的貝葉斯網(wǎng)絡(luò)。de首先安裝deal軟件包4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)deal(只能在3.4.3或3.4.4版本下使用)將提供的deal文件夾復(fù)制到R的library文件夾中后可以使用。首先安裝deal軟件包4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)編寫R程序fit<-getnetwork(learn(fit,bn,fit.prior))plot(fit)read.table("d:\\Bayesnetwork.csv",header=TRUE,sep=",")->bnfit<-network(bn)fit.prior<-jointprior(fit)4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)編寫R程序fit<-getnetwork(learn(fit4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)此時(shí),會(huì)輸出空網(wǎng)絡(luò)圖。在輸出的空網(wǎng)絡(luò)圖中,黑色的實(shí)心圓圈表示離散型變量,白色的空心圓圈表示連續(xù)型變量。該案例中FEV1和age是連續(xù)型變量,sex,rs729631和rs1138272為離散型變量。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)此時(shí),會(huì)編寫R程序,構(gòu)建貝葉斯網(wǎng)絡(luò)fit.search<-autosearch(fit,bn,fit.prior,trace=TRUE)4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)編寫R程序,構(gòu)建貝葉斯網(wǎng)絡(luò)fit.search<-autos獲得的貝葉斯網(wǎng)絡(luò)圖如下:

該網(wǎng)絡(luò)圖具有的分?jǐn)?shù)為-2586.564。為了進(jìn)一步對(duì)網(wǎng)絡(luò)圖進(jìn)行修正,也可以直接采用啟發(fā)式搜索算法進(jìn)行貝葉斯網(wǎng)絡(luò)構(gòu)建。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)獲得的貝葉斯網(wǎng)絡(luò)圖如下:該網(wǎng)絡(luò)圖具有的分?jǐn)?shù)為-fit.heuristic<-heuristic(fit,bn,fit.prior,trace=TRUE)4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)fit.heuristic<-heuristic(fit,b最終獲得的貝葉斯網(wǎng)絡(luò)圖:

從該網(wǎng)絡(luò)圖中可以看出,F(xiàn)EV1與性別和年齡相關(guān),而與兩個(gè)SNP沒有直接的關(guān)聯(lián)。性別和年齡均與其中一個(gè)SNP(rs1138272)是有關(guān)聯(lián)的。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)最終獲得的貝葉斯網(wǎng)絡(luò)圖:從該網(wǎng)絡(luò)圖中可以看出,F(xiàn)EV1與性

貝葉斯網(wǎng)絡(luò)是基于概率推理的圖形化網(wǎng)絡(luò),貝葉斯公式是這個(gè)概率網(wǎng)絡(luò)的基礎(chǔ)。基于概率推理的貝葉斯網(wǎng)絡(luò)對(duì)于解決變量間的復(fù)雜關(guān)系具有很大的優(yōu)勢(shì),在醫(yī)學(xué)研究中獲得了廣泛應(yīng)用。在研究變量數(shù)目較少的情況下,采用貝葉斯網(wǎng)絡(luò)可以作出精確推理。如果研究變量數(shù)目較多且復(fù)雜,可以先對(duì)變量進(jìn)行篩選,將龐大的網(wǎng)絡(luò)進(jìn)行化簡(jiǎn),再進(jìn)行精確推理。值得注意的是,貝葉斯網(wǎng)絡(luò)是基于條件概率進(jìn)行的推斷,在對(duì)結(jié)果進(jìn)行分析和解釋時(shí),一定要結(jié)合實(shí)際情況謹(jǐn)慎作出結(jié)論。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)貝葉斯網(wǎng)絡(luò)是基于概率推理的圖形化網(wǎng)絡(luò),貝葉斯公式是這個(gè)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享SCI論文發(fā)表——————基于關(guān)聯(lián)規(guī)則的疾病關(guān)聯(lián)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享糖尿病和類風(fēng)濕病的關(guān)聯(lián)

系統(tǒng)性紅斑狼瘡和類風(fēng)濕病的關(guān)聯(lián)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享SCI論文發(fā)表——————基于貝葉斯網(wǎng)絡(luò)的基因-環(huán)境互作5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享和表型相關(guān)的貝葉斯網(wǎng)絡(luò)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享和數(shù)量性狀相關(guān)的貝葉斯網(wǎng)絡(luò)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享分類模型最好的是環(huán)境變量+貝葉斯網(wǎng)絡(luò)提取的非同義SNP5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享非同義SNP的各分類器比較5基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)謝謝謝謝第四章

數(shù)據(jù)挖掘方法—關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)第四章數(shù)據(jù)挖掘方法—關(guān)聯(lián)規(guī)則與貝1.關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)2.關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)3.貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建4.案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)5.基于數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)發(fā)表SCI論文的經(jīng)驗(yàn)分享1.關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算關(guān)聯(lián)規(guī)則的定義關(guān)聯(lián)規(guī)則主要反映了事物之間的關(guān)聯(lián)性。若某事物具有特征屬性A的同時(shí),也具有特征屬性B,則稱特征屬性A和B是關(guān)聯(lián)的。A與B的關(guān)聯(lián)表示兩者同時(shí)存在,但不一定表示兩者之間必然存在前因后果的關(guān)系。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)關(guān)聯(lián)規(guī)則的定義關(guān)聯(lián)規(guī)則主要反映了事物之間的關(guān)聯(lián)性。若某事物具關(guān)聯(lián)規(guī)則的一般形式:關(guān)聯(lián)規(guī)則的有效性驗(yàn)證:支持度、置信度和提升度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)關(guān)聯(lián)規(guī)則的一般形式:關(guān)聯(lián)規(guī)則的有效性驗(yàn)證:1關(guān)聯(lián)規(guī)則的概念1)關(guān)聯(lián)規(guī)則的支持度(support)表示某關(guān)聯(lián)規(guī)則在總體中發(fā)生的概率,是關(guān)聯(lián)規(guī)則重要性的定性度量,反應(yīng)了規(guī)則出現(xiàn)的頻繁程度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)1)關(guān)聯(lián)規(guī)則的支持度(support)表示某關(guān)聯(lián)規(guī)則在總體H1:眼軸遠(yuǎn)視;H2

散光;H3

老光支持度的計(jì)算:1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)H1:眼軸遠(yuǎn)視;H2散光;H3老光支持度的計(jì)算:1關(guān)聯(lián)2)關(guān)聯(lián)規(guī)則的置信度(confidence)置信度針對(duì)一條關(guān)聯(lián)規(guī)則,表示構(gòu)成關(guān)聯(lián)規(guī)則的一個(gè)特征屬性A發(fā)生時(shí),另一個(gè)特征屬性B發(fā)生的概率,反應(yīng)了這兩個(gè)特征屬性之間的關(guān)聯(lián)強(qiáng)度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)2)關(guān)聯(lián)規(guī)則的置信度(confidence)置信度針對(duì)一條H1:眼軸遠(yuǎn)視;H2

散光;H3

老光1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)置信度的計(jì)算:H1:眼軸遠(yuǎn)視;H2散光;H3老光1關(guān)聯(lián)規(guī)則的概念及常3)關(guān)聯(lián)規(guī)則的提升度(Lift)提升度反應(yīng)了關(guān)聯(lián)規(guī)則的重要性及研究者對(duì)其感興趣的程度。提升度為1表示該關(guān)聯(lián)規(guī)則的價(jià)值不大,前后項(xiàng)獨(dú)立。提升度小于1說明該規(guī)則為負(fù)關(guān)聯(lián),反應(yīng)特征屬性相互排斥;提升度大于1說明該規(guī)則為正關(guān)聯(lián),反應(yīng)特征屬性是互為共生的,即兩屬性同時(shí)發(fā)生的實(shí)際概率大于隨機(jī)概率。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)3)關(guān)聯(lián)規(guī)則的提升度(Lift)提升度反應(yīng)了關(guān)聯(lián)規(guī)則的重要提升度小于1,說明該規(guī)則是排斥的。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)提升度的計(jì)算:提升度小于1,說明該規(guī)則是排斥的。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)關(guān)聯(lián)規(guī)則的分析方法:Apriori算法關(guān)聯(lián)規(guī)則的分析方法簡(jiǎn)單,但計(jì)算量大,特別是針對(duì)海量的數(shù)據(jù)。著名的Apriori算法是關(guān)聯(lián)規(guī)則的經(jīng)典算法,能有效地實(shí)施關(guān)聯(lián)規(guī)則分析。它的基本思路是利用支持度、置信度和提升度等質(zhì)量指標(biāo)來選擇滿足要求的組合及降低最終結(jié)果的復(fù)雜度。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)關(guān)聯(lián)規(guī)則的分析方法:Apriori算法關(guān)聯(lián)規(guī)則的分析方法簡(jiǎn)Apriori算法的基本思路:

先通過迭代檢索出支持度不低于用戶設(shè)定的域值的項(xiàng)集;然后利用所得項(xiàng)集構(gòu)造出滿足最小置信度的規(guī)則。1關(guān)聯(lián)規(guī)則的概念及常用關(guān)聯(lián)規(guī)則分析方法(Apriori算法)Apriori算法的基本思路:先通過迭代檢索出支持度不例:某40例受檢者的記錄:每條記錄包含5個(gè)特征屬性:H1:中耳炎H2:急性扁桃體炎H3:急性上呼吸道感染H4:非感染性胃腸炎H5:臨床觀察及檢驗(yàn)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)例:某40例受檢者的記錄:每條記錄包含5個(gè)特征屬性:2關(guān)將數(shù)據(jù)文件arule.csv存在d盤中。2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)數(shù)據(jù)格式將數(shù)據(jù)文件arule.csv存在d盤中。2關(guān)聯(lián)規(guī)則分析及關(guān)安裝R軟件的arules軟件包并加載軟件包。讀入數(shù)據(jù):read.table("d:\\arule.csv",header=TRUE,sep=",")->a2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)安裝R軟件的arules軟件包并加載軟件包。讀入數(shù)據(jù):rea設(shè)置支持度為0.4,置信度為0.8rules<-apriori(a,parameter=list(support=0.4,confidence=0.8))2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)應(yīng)用Apriori算法獲得關(guān)聯(lián)規(guī)則設(shè)置支持度為0.4,置信度為0.8rules<-aprior查看關(guān)聯(lián)規(guī)則inspect(rules)H1:中耳炎H2:急性扁桃體炎H3:急性上呼吸道感染H4:非感染性胃腸炎H5:臨床觀察及檢驗(yàn)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)查看關(guān)聯(lián)規(guī)則inspect(rules)H1:中耳炎2關(guān)聯(lián)安裝arulesViz軟件包就可以進(jìn)行關(guān)聯(lián)規(guī)則的可視化。2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)安裝arulesViz軟件包就可以進(jìn)行關(guān)聯(lián)規(guī)則的可視化。2關(guān)于支持度與置信度的設(shè)置支持度和置信度的設(shè)置對(duì)于分析的最終結(jié)果影響很大。若域值過低,則規(guī)則數(shù)量多、冗余多。若域值過高,則可能會(huì)丟失潛在的關(guān)聯(lián)規(guī)則。因此,要根據(jù)實(shí)際情況設(shè)置支持度和置信度。如微生物種類很多,各種可能的模式組合量很大,因此可能產(chǎn)生的關(guān)聯(lián)規(guī)則的支持度一般較低,如果域值設(shè)的很高,就會(huì)遺漏有效的關(guān)聯(lián)規(guī)則。2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)關(guān)于支持度與置信度的設(shè)置支持度和置信度的設(shè)置對(duì)于分析的最終結(jié)案例:數(shù)據(jù)datarule.csv,存于d盤下2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)案例:數(shù)據(jù)datarule.csv,存于d盤下2關(guān)聯(lián)規(guī)則分read.table("d:\\datarule.csv",header=TRUE,sep=",")->arules<-apriori(a,parameter=list(support=0.6,confidence=0.8))2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)read.table("d:\\datarule.csv",inspect(rules)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化的R軟件實(shí)現(xiàn)inspect(rules)2關(guān)聯(lián)規(guī)則分析及關(guān)聯(lián)規(guī)則可視化

隨著醫(yī)學(xué)研究的深入開展,越來越多的研究將貝葉斯網(wǎng)絡(luò)運(yùn)用于手術(shù)結(jié)果預(yù)測(cè),治療效果評(píng)價(jià),醫(yī)療診斷及醫(yī)院信息管理等方面。貝葉斯網(wǎng)絡(luò)用有向無環(huán)圖和條件概率分布描述了變量之間的依賴和獨(dú)立關(guān)系。通過貝葉斯網(wǎng)絡(luò)圖形化的特點(diǎn)建立起變量之間的因果關(guān)系,可以幫助醫(yī)學(xué)研究人員應(yīng)用于臨床診斷和臨床決策。3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建隨著醫(yī)學(xué)研究的深入開展,越來越多的研究將貝葉斯貝葉斯網(wǎng)絡(luò)的概念貝葉斯網(wǎng)絡(luò)的有向無環(huán)圖中的節(jié)點(diǎn)表示隨機(jī)變量,它們既可以是可觀察到的變量,也可以是隱變量、未知參數(shù)等。連接兩個(gè)節(jié)點(diǎn)的箭頭代表此兩個(gè)隨機(jī)變量是具有因果關(guān)系或是非條件獨(dú)立的;而節(jié)點(diǎn)中變量間若沒有箭頭相互連接一起的情況就稱其隨機(jī)變量彼此間為條件獨(dú)立。若兩個(gè)節(jié)點(diǎn)間以一個(gè)單箭頭連接在一起,表示其中一個(gè)節(jié)點(diǎn)是“因(parents)”,另一個(gè)節(jié)點(diǎn)是“果(descendantsorchildren)”,兩節(jié)點(diǎn)就會(huì)產(chǎn)生一個(gè)條件概率值。3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建貝葉斯網(wǎng)絡(luò)的概念貝葉斯網(wǎng)絡(luò)的有向無環(huán)圖中的節(jié)點(diǎn)表示隨機(jī)變量,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖3貝葉斯網(wǎng)絡(luò)的概念及構(gòu)建

慢性阻塞性肺疾病(ChronicObstructivePulmonaryDisease,COPD)是死亡率較高的一種慢性肺疾病。目前,盡管已發(fā)現(xiàn)吸煙是疾病的風(fēng)險(xiǎn)因素,但據(jù)報(bào)道僅有10%的吸煙人群能進(jìn)展成為有癥狀的COPD患者,說明該疾病和遺傳、環(huán)境等因素有很大的關(guān)系。其中單個(gè)核苷酸變異(SingleNucleotidePolymorphism,SNP)作為人類可遺傳變異中最常見的一種,占所有已知多態(tài)性的90%以上,不僅可以作為遺傳標(biāo)記,還可以通過連鎖分析定位疾病基因。應(yīng)用案例4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)慢性阻塞性肺疾病(ChronicObstrSNP數(shù)據(jù)分型芯片獲得的數(shù)據(jù)信息

通過貝葉斯網(wǎng)絡(luò)研究遺傳變異SNP和環(huán)境的交互作用。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)SNP數(shù)據(jù)分型芯片獲得的數(shù)據(jù)信息通過貝葉斯網(wǎng)絡(luò)研究遺傳變異將數(shù)據(jù)命名為“Bayesnetwork.csv”,存于d盤下4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)研究變量涉及5個(gè)變量:FEV1(1秒鐘用力呼氣的容積),sex為性別變量,age為年齡變量,rs729631和rs1138272分別表示兩個(gè)SNP。進(jìn)入COPD貝葉斯網(wǎng)絡(luò)分析的結(jié)點(diǎn)即為這5個(gè)變量。將數(shù)據(jù)命名為“Bayesnetwork.csv”,存于d盤下采用R軟件的deal軟件包來構(gòu)建這5個(gè)變量的貝葉斯網(wǎng)絡(luò)。deal軟件包構(gòu)建貝葉斯網(wǎng)絡(luò)的流程圖如下圖所示。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)采用R軟件的deal軟件包來構(gòu)建這5個(gè)變量的貝葉斯網(wǎng)絡(luò)。de首先安裝deal軟件包4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)deal(只能在3.4.3或3.4.4版本下使用)將提供的deal文件夾復(fù)制到R的library文件夾中后可以使用。首先安裝deal軟件包4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)編寫R程序fit<-getnetwork(learn(fit,bn,fit.prior))plot(fit)read.table("d:\\Bayesnetwork.csv",header=TRUE,sep=",")->bnfit<-network(bn)fit.prior<-jointprior(fit)4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)編寫R程序fit<-getnetwork(learn(fit4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)此時(shí),會(huì)輸出空網(wǎng)絡(luò)圖。在輸出的空網(wǎng)絡(luò)圖中,黑色的實(shí)心圓圈表示離散型變量,白色的空心圓圈表示連續(xù)型變量。該案例中FEV1和age是連續(xù)型變量,sex,rs729631和rs1138272為離散型變量。4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)此時(shí),會(huì)編寫R程序,構(gòu)建貝葉斯網(wǎng)絡(luò)fit.search<-autosearch(fit,bn,fit.prior,trace=TRUE)4案例:基因與環(huán)境互作的貝葉斯網(wǎng)絡(luò)構(gòu)建及R軟件實(shí)現(xiàn)編寫R程序,構(gòu)建貝葉斯網(wǎng)絡(luò)fit.search<-autos獲得的貝葉斯網(wǎng)絡(luò)圖如下:

該網(wǎng)絡(luò)圖具有的分?jǐn)?shù)為-2586.564。為了進(jìn)一步對(duì)網(wǎng)絡(luò)圖進(jìn)行修正,也可以直接采用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論