




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘分析第二部分Logistic回歸第一部分醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第1頁Logistic回歸第一部分醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第2頁回歸分析分類多個(gè)因變量(y1,y2,…yk)路徑分析結(jié)構(gòu)方程模型分析一個(gè)因變量y連續(xù)型因變量(y)---線性回歸分析分類型因變量(y)---Logistic回歸分析時(shí)間序列因變量(t)---時(shí)間序列分析生存時(shí)間因變量(t)---生存風(fēng)險(xiǎn)回歸分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第3頁多重線性回歸logistic回歸醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第4頁logistic回歸(logisticregression)是研究因變量為二分類或多分類觀察結(jié)果與影響原因(自變量)之間關(guān)系一個(gè)多變量分析方法,屬概率型非線性回歸。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第5頁logistic回歸分類:(1)二分類資料logistic回歸:
因變量為兩分類變量資料,可用非條件logistic回歸和條件logistic回歸進(jìn)行分析。非條件logistic回歸多用于非配比病例-對(duì)照研究或隊(duì)列研究資料,條件logistic回歸多用于配對(duì)或配比資料。(2)多分類資料logistic回歸:
因變量為多項(xiàng)分類資料,可用多項(xiàng)分類logistic回歸模型或有序分類logistic回歸模型進(jìn)行分析。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第6頁隊(duì)列研究(cohortstudy):也稱前瞻性研究、隨訪研究等。是一個(gè)由因及果研究,在研究開始時(shí),依據(jù)以往有沒有暴露經(jīng)歷,將研究人群分為暴露人群和非暴露人群,在一定時(shí)期內(nèi),隨訪觀察和比較兩組人群發(fā)病率或死亡率。假如兩組人群發(fā)病率或死亡率差異有統(tǒng)計(jì)學(xué)意義,則認(rèn)為暴露和疾病間存在聯(lián)絡(luò)。隊(duì)列研究驗(yàn)證暴露原因在研究開始前已存在,研究者知道每個(gè)研究對(duì)象暴露情況。研究人群+-++--調(diào)查方向:追蹤搜集資料比較疾病人數(shù)暴露abcda/(a+b)c/(c+d)隊(duì)列研究原理示意圖醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第7頁RR(相對(duì)危險(xiǎn)度relativerisk):表示暴露組與非暴露組發(fā)病率(或死亡率)比值。也稱為危險(xiǎn)比(riskratio)。反應(yīng)了暴露與疾病發(fā)生關(guān)聯(lián)強(qiáng)度。RR表明暴露組發(fā)病或死亡危險(xiǎn)是非暴露組多少倍。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第8頁病例對(duì)照研究(case-controlstudies):一個(gè)由果及因回顧性研究,先按疾病狀態(tài)確定調(diào)查對(duì)象,分為病例(case)和對(duì)照(control)兩組,然后利用已經(jīng)有統(tǒng)計(jì)、或采取問詢、填寫調(diào)查表等方式,了解其發(fā)病前暴露情況,并進(jìn)行比較,推測(cè)疾病與暴露間關(guān)系。+-病例+-對(duì)照調(diào)查方向:搜集回顧性資料abcda/(a+b)c/(c+d)比較人數(shù)暴露疾病病例對(duì)照原理示意圖醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第9頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第10頁病例對(duì)照研究類型(一)病例與對(duì)照不匹配---非條件logistic回歸在設(shè)計(jì)所要求病例和對(duì)照人群中,分別抽取一定量研究對(duì)象,普通對(duì)照應(yīng)等于或多于病例數(shù),另外無其它任何限制。(二)病例與對(duì)照匹配---條件logistic回歸匹配或稱配比(matching),即要求對(duì)照在一些原因或特征上與病例保持一致,目標(biāo)是對(duì)兩組比較時(shí)排除混雜原因干擾。匹配分為成組匹配和個(gè)體匹配。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第11頁非條件logistic回歸應(yīng)變量為二分類資料一個(gè)二分類自變量?jī)蓚€(gè)(多個(gè))二分類自變量無序多分類自變量有序多分類自變量引入數(shù)值型自變量應(yīng)變量為有序多分類資料應(yīng)變量為無序多分類資料醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第12頁二分類資料logistic回歸二分類logistic回歸對(duì)自變量沒有特殊要求,自變量能夠是分類變量(包含二分類和多分類變量)和數(shù)值變量。二分類資料logistic回歸經(jīng)過SPSS統(tǒng)計(jì)軟件二元Logistic過程實(shí)現(xiàn)統(tǒng)計(jì)分析。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第13頁【例1】某醫(yī)師為研究婦女服避孕藥與子代染色體異常關(guān)系,分別調(diào)查了子代染色體異常和正常同齡組兒童母親54名和196名,結(jié)果如表。試對(duì)此資料進(jìn)行分析,能否提出子代染色體異常與其母在孕前6個(gè)月內(nèi)服用避孕藥相關(guān)?醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第14頁SPSS軟件操作第1步:定義變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第15頁第2步:輸入原始數(shù)據(jù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第16頁第3步:加權(quán)設(shè)置選擇數(shù)據(jù)→加權(quán)個(gè)案(W)將f移入頻率變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第17頁第4步:logistic回歸分析(1)選擇分析→
回歸→二元logistic醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第18頁第4步:logistic回歸分析(2)將a和b分別移入?yún)f(xié)變量和因變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第19頁自變量全部進(jìn)入模型向前逐步選擇法向后逐步剔除法條件:將變量剔除出模型依據(jù)是條件參數(shù)預(yù)計(jì)似然比統(tǒng)計(jì)量概率值。LR:將變量剔除出模型依據(jù)是最大偏似然預(yù)計(jì)似然比統(tǒng)計(jì)量概率值。Wald:將變量剔除出模型依據(jù)是Wald統(tǒng)計(jì)量概率值。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第20頁第4步:logistic回歸分析(3)設(shè)置選項(xiàng)勾上exp(B)95CI。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第21頁第4步:logistic回歸分析(4)結(jié)果解讀:OR=3.200,p=0.000OR95%CI為(1.712~5.983)Exp(B)=eB醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第22頁值得注意是病例-對(duì)照研究中,病例與對(duì)照兩組人數(shù)百分比是人為要求,不代表自然人群中真實(shí)病人與正常人比值。所以,依據(jù)病例一對(duì)照研究資料建立Logistic回歸方程中,常數(shù)項(xiàng)意義不大,主要針對(duì)結(jié)果中自變量回歸系數(shù)及其對(duì)應(yīng)比數(shù)比OR值意義作解釋,不宜直接用于所研究事件發(fā)生概率預(yù)測(cè)和判別。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第23頁兩個(gè)二分類自變量logistic回歸兩個(gè)自變量均為兩水平二分類資料Logistic回歸分析與一個(gè)自變量為兩水平二分類資料Logistic回歸分析在步驟方法上是相同,只是增加了一個(gè)自變量,在建立Logistic回歸方程時(shí)需要對(duì)兩個(gè)自變量對(duì)應(yīng)參數(shù)進(jìn)行預(yù)計(jì),計(jì)算兩個(gè)比數(shù)比。另外,兩個(gè)自變量都有意義時(shí),看哪個(gè)影響作用更大些,與多重線性回歸一樣,也是比較標(biāo)準(zhǔn)偏回歸系數(shù)絕對(duì)值大小。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第24頁無序多分類自變量Logistic回歸自變量是一個(gè)或多個(gè)為無序多分類變量時(shí),其Logistic回歸在方法上同上述二分類資料Logistic回歸,只要對(duì)自變量不一樣水平結(jié)構(gòu)啞變量即可。某一多分類無序自變量可結(jié)構(gòu)啞變量數(shù)等于該自變量分類數(shù)減1。將啞變量引入模型,其結(jié)果不論有沒有統(tǒng)計(jì)學(xué)意義,都是相對(duì)事先確定某一類為基準(zhǔn)對(duì)照而言。SPSS對(duì)字符型多分類無序自變量,系統(tǒng)默認(rèn)以最終那個(gè)分類為對(duì)照。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第25頁有序多分類自變量Logistic回歸Logistic回歸中自變量為有序多分類變量,即等級(jí)變量,如文化程度可分為文盲、小學(xué)、中學(xué)、大學(xué)及以上等。這種資料Logistic回歸分兩種情況處理:假如自變量等級(jí)分組與logit(P)呈線性關(guān)系,即等級(jí)效應(yīng)等百分比增加或降低,則該自變量能夠作為一個(gè)數(shù)值型自變量引人模型;不然,將等級(jí)變量視為無序多分類自變量,以啞變量形式引入模型進(jìn)行分析。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第26頁引入數(shù)值型自變量Logistic回歸數(shù)值變量直接引入模型,得到對(duì)應(yīng)比數(shù)比OR是指自變量增加一個(gè)單位(如年紀(jì)增加1歲)比數(shù)自然對(duì)數(shù)值改變量。若將數(shù)值自變量分成幾組,如自變量年紀(jì)按10歲間隔分組引人模型時(shí),其OR值是指年紀(jì)每增加10歲比數(shù)自然對(duì)數(shù)值改變量。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第27頁數(shù)值型變量轉(zhuǎn)換成份類變量臨界點(diǎn)選擇,最正確方法是采取ROC分析。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第28頁【例2】為了探索相關(guān)危險(xiǎn)原因和保護(hù)原因,對(duì)32例胃癌病人和32例對(duì)照者進(jìn)行病例對(duì)照研究,考查危險(xiǎn)原因作為自變量,分別為:
x1(年紀(jì))
x2(蛋白質(zhì)攝入量由低到高:0,1,2,3,4)
x3(新鮮蔬菜及水果食用情況:良好、普通、不足、嚴(yán)重不足為0,1,2,3),
x4(吃鹽量高食物由輕到重為:0,1,2,3,4),
x5(飲食習(xí)慣,從良好,普通,不良,嚴(yán)重不良為:0,1,2,3),
x6(精神心理原因,從樂觀,較樂觀,普通,不良為0,1,2,3)。
Y(是否患胃癌作為因變量。0未患,1患者)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第29頁。。。。。。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第30頁SPSS軟件操作第1步:定義變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第31頁第2步:輸入原始數(shù)據(jù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第32頁第3步:logistic回歸分析(1)選擇分析→
回歸→二元logistic醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第33頁第3步:logistic回歸分析(2)將x1-6和y分別移入?yún)f(xié)變量和因變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第34頁第3步:logistic回歸分析(3)設(shè)置選項(xiàng)勾上exp(B)95CI。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第35頁第3步:logistic回歸分析(4)結(jié)果解讀:給出各原因OR(95%CI)及對(duì)應(yīng)p值。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第36頁第3步:logistic回歸分析(5)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第37頁第3步:logistic回歸分析(6)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第38頁第3步:logistic回歸分析(7)結(jié)果解讀:給出入選各原因OR(95%CI)及對(duì)應(yīng)p值。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第39頁【例3】為了探討冠心病發(fā)生相關(guān)危險(xiǎn)原因,對(duì)26例冠心病病人和28例對(duì)照者進(jìn)行病例-對(duì)照研究,各原因說明及資料以下,試用logistic回歸分析方法篩選危險(xiǎn)原因
。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第40頁。。。。。。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第41頁SPSS軟件操作第1步:定義變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第42頁第2步:輸入原始數(shù)據(jù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第43頁第3步:logistic回歸分析(1)選擇分析→
回歸→二元logistic醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第44頁第3步:logistic回歸分析(2)將x1-8和y分別移入?yún)f(xié)變量和因變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第45頁第3步:logistic回歸分析(3)設(shè)置選項(xiàng)勾上exp(B)95CI。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第46頁第3步:logistic回歸分析(4)結(jié)果解讀:給出入選各原因OR(95%CI)及對(duì)應(yīng)p值。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第47頁多分類資料logistic回歸應(yīng)變量為有序多分類資料logistic回歸應(yīng)變量水平數(shù)大于2,且水平之間存在等級(jí)遞增或遞減關(guān)系資料為有序多分類資料。SPSS中經(jīng)過有序logistic過程實(shí)現(xiàn)。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第48頁【例4】研究性別和兩種治療方法對(duì)某病療效影響,療效評(píng)價(jià)分為三個(gè)有序等級(jí),數(shù)據(jù)以下,試做logistic回歸分析:醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第49頁SPSS軟件操作第1步:定義變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第50頁第2步:輸入原始數(shù)據(jù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第51頁第3步:加權(quán)設(shè)置選擇數(shù)據(jù)→加權(quán)個(gè)案(W)將f移入頻率變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第52頁第4步:logistic回歸分析(1)選擇分析→
回歸→有序醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第53頁第4步:logistic回歸分析(2)將A和B移入?yún)f(xié)變量,C移入因變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第54頁第4步:logistic回歸分析(3)設(shè)置輸出勾上平行線檢驗(yàn)。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第55頁第4步:logistic回歸分析(4)結(jié)果解讀:性別(A)和療法(B)回歸系數(shù)大于0,含有統(tǒng)計(jì)學(xué)意義。OR分別為e1.319=3.740,e1.797=6.302醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第56頁第4步:logistic回歸分析(5)結(jié)果解讀:平行線檢驗(yàn)p=0.480,說明應(yīng)變量各水平與自變量間回歸方程平行。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第57頁應(yīng)變量為無序多分類資料logistic回歸應(yīng)變量水平數(shù)大于2,且水平之間不存在等級(jí)遞增或遞減關(guān)系資料為無序多分類資料。SPSS中經(jīng)過多項(xiàng)logistic過程實(shí)現(xiàn)。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第58頁【例5】為了研究胃癌及胃癌前病變核仁組織改變情況,分析核仁組成區(qū)嗜銀蛋白顆粒數(shù)量及大小在胃炎、胃組織不經(jīng)典增生和胃癌三種胃疾病中改變規(guī)律以及臨床診療意義,共檢測(cè)129名患者,結(jié)果以下,試做logistic回歸分析:醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第59頁SPSS軟件操作第1步:定義變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第60頁第2步:輸入原始數(shù)據(jù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第61頁第3步:加權(quán)設(shè)置選擇數(shù)據(jù)→加權(quán)個(gè)案(W)將f移入頻率變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第62頁第4步:logistic回歸分析(1)選擇分析→
回歸→多項(xiàng)logistic醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第63頁第4步:logistic回歸分析(2)將a、b移入?yún)f(xié)變量,Y移入因變量醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第64頁第4步:logistic回歸分析(3)設(shè)置選項(xiàng)勾上exp(B)95CI。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第65頁第4步:logistic回歸分析(4)結(jié)果解讀:相對(duì)于胃炎OR值以及OR95%CI.醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第66頁數(shù)據(jù)挖掘分析第二部分醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第67頁數(shù)據(jù)挖掘研究設(shè)計(jì)基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決議樹聚類分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第68頁研究時(shí)有沒有設(shè)計(jì)干預(yù)原因?試驗(yàn)性研究觀察性研究是否隨機(jī)有沒有對(duì)照組分析性研究描述性研究時(shí)間方向隊(duì)列研究非隨機(jī)對(duì)照試驗(yàn)隨機(jī)對(duì)照試驗(yàn)病例對(duì)照研究橫斷面研究有無有無否是暴露→結(jié)局結(jié)局→暴露醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第69頁觀察性研究因?yàn)獒t(yī)學(xué)研究對(duì)象特殊性,在很多科研中,研究者不能主動(dòng)地控制研究原因。這種在自然狀態(tài)下,觀察疾病發(fā)生、發(fā)展、診治過程中表現(xiàn)出來特點(diǎn)和規(guī)律,以闡述疾病分布特征,認(rèn)識(shí)病因和影響原因,分析防治過程中相關(guān)規(guī)律和特征研究方法,稱為觀察性研究。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第70頁數(shù)據(jù)挖掘研究基于數(shù)據(jù)分析方法角度分類本質(zhì)上屬于觀察性研究研究資料起源日常診療工作資料應(yīng)用技術(shù)較傳統(tǒng)研究更先進(jìn)分析工具、理論模型與傳統(tǒng)研究區(qū)分較大醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第71頁數(shù)據(jù)挖掘——從大量數(shù)據(jù)中尋找其規(guī)律技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)綜合。數(shù)據(jù)挖掘——從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、改變、異常和有意義結(jié)構(gòu)。數(shù)據(jù)挖掘——利用已經(jīng)有數(shù)據(jù),數(shù)據(jù)搜集過程不經(jīng)過特意科研設(shè)計(jì),目標(biāo)是發(fā)覺規(guī)律,而不是驗(yàn)證假設(shè)。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第72頁數(shù)據(jù)挖掘研究設(shè)計(jì)基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決議樹聚類分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第73頁第一步驟選擇第三步驟挖掘第二步驟處理第四步驟分析2024/4/19數(shù)據(jù)挖掘步驟目標(biāo)數(shù)據(jù)預(yù)處理及變換變換后數(shù)據(jù)數(shù)據(jù)挖掘算法解釋/評(píng)定清理篩選知識(shí)數(shù)據(jù)挖掘研究基本步驟醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第74頁第一步:選擇數(shù)據(jù)搜集獲取原始數(shù)據(jù)
就是依據(jù)研究目標(biāo),進(jìn)行需要被挖掘分析原始數(shù)據(jù)采集。評(píng)定數(shù)據(jù)可取得性。能夠采取較小規(guī)模數(shù)據(jù)對(duì)問題可行性進(jìn)行初步研究。原始數(shù)據(jù)可能會(huì)分布于不一樣信息系統(tǒng)中,需要對(duì)信息系統(tǒng)充分了解,并有對(duì)應(yīng)技術(shù)實(shí)現(xiàn)數(shù)據(jù)導(dǎo)出。原始數(shù)據(jù)采集非常費(fèi)時(shí)費(fèi)勁,通常在研究工作中占相當(dāng)大比重。75醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第75頁病人基本信息:HIS病人檢驗(yàn)信息:LIS病人檢驗(yàn)信息:PACS等醫(yī)技系統(tǒng)病人診療過程信息:電子病歷病人收費(fèi)信息:HIS。。。。。。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第76頁海量數(shù)據(jù),大量業(yè)務(wù)數(shù)據(jù)。問題也很多,標(biāo)準(zhǔn)不統(tǒng)一,極難分析。與臨床相關(guān)電子病歷系統(tǒng)結(jié)構(gòu)化與臨床工作量之間矛盾。中醫(yī)系統(tǒng)——醫(yī)療科研信息一體化系統(tǒng)軍隊(duì)系統(tǒng)——中國重大疾病臨床診療數(shù)據(jù)庫醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第77頁第二步:處理數(shù)據(jù)數(shù)據(jù)預(yù)處理部分,把數(shù)據(jù)轉(zhuǎn)換成比較輕易被數(shù)據(jù)挖掘格式及內(nèi)容。內(nèi)容處理:年紀(jì)
六十歲60
有個(gè)還分組:老年、青年、等格式處理:年紀(jì)
出生日期1950年轉(zhuǎn)成63。
醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第78頁為何需要預(yù)處理數(shù)據(jù)不完整含觀察噪聲不一致包含其它不希望成份數(shù)據(jù)清理經(jīng)過填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別刪除孤立點(diǎn),并處理不一致來清理數(shù)據(jù)。污染數(shù)據(jù)普遍存在,使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)正確性和一致性成為一個(gè)及其困難任務(wù)。垃圾進(jìn)、垃圾出。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第79頁污染數(shù)據(jù)形成原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)中內(nèi)嵌控制信息不一樣慣用語重復(fù)統(tǒng)計(jì)丟失值拼寫改變不一樣計(jì)量單位過時(shí)編碼醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第80頁例:中藥、證型、癥狀預(yù)處理預(yù)處理是最為關(guān)鍵一步正異名處理:白頭翁、白術(shù)、白頭公錯(cuò)別字:青篙、青蒿省略字:龍牡、龍骨,牡蠣炮制預(yù)處理……醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第81頁建立一個(gè)中藥規(guī)范表編號(hào)規(guī)范后名稱原始中藥名稱101400白茅根《藥典》白茅根《藥典》茅根《別冊(cè)》生白茅根《切》101600白術(shù)《藥典》白術(shù)《藥典》土白術(shù)《別冊(cè)》冬術(shù)《別冊(cè)》土炒白術(shù)《切》炒白術(shù)《切》土白術(shù)《切》漂白術(shù)《切》曬白術(shù)《切》101601白術(shù)(焦)焦白術(shù)焦冬術(shù)101602白術(shù)(生)生白術(shù)101603白術(shù)(炭)白術(shù)炭101604白術(shù)(煨)煨白術(shù)101605白術(shù)(制)制白術(shù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第82頁建立證型規(guī)范表編號(hào)規(guī)范后證型詞頻次證型詞原文(后綴數(shù)字為醫(yī)案中出現(xiàn)頻次)300905血瘀591血瘀349瘀血85血淤19血滯30血行不暢15血凝12氣血瘀滯10氣血運(yùn)行不暢10血行瘀滯6氣血郁滯5氣血阻滯5氣血壅滯5血澀4血結(jié)4氣血澀滯3煉血成瘀3氣血凝滯3血阻3干血2氣血不暢2氣血瘀阻2血行不通2血結(jié)成瘀化熱1血行瘀阻1血行受阻1痰血互結(jié)1氣血奎滯1血滯不暢1血分有寒夾瘀1寒凝血泣著而成瘀1氣礙血行1血不得行1血運(yùn)不暢1血有郁熱1醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第83頁建立癥狀規(guī)范表編號(hào)規(guī)范后癥狀頻次醫(yī)案中原文癥狀用詞及使用頻次05體瘦289體瘦93消瘦42形體消瘦34形瘦33形體瘦弱28形體削瘦5形體較瘦5面黃肌瘦4體質(zhì)瘦弱3贏瘦3形體瘦小3身體瘦弱3瘦弱3體質(zhì)消瘦2身體嬴瘦2形體不豐2形體偏瘦2身體較瘦2形體瘦削2嬴瘦2形嬴1形體枯瘦1形體消索1形體漸瘦1形體日嬴1身瘦1肌肉消削1醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第84頁第三步:挖掘分析利用工具和算法,進(jìn)行數(shù)據(jù)挖掘分析,完成份類、關(guān)聯(lián)、聚類、預(yù)計(jì)、預(yù)測(cè)等功效,發(fā)覺數(shù)據(jù)中規(guī)律。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第85頁數(shù)據(jù)挖掘主要方法Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決議樹DecisionTrees
傾向性分析關(guān)聯(lián)分析Association醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第86頁數(shù)據(jù)挖掘軟件應(yīng)用醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第87頁SPSSClementine醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第88頁WEKA醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第89頁第四步:結(jié)果解釋結(jié)合專業(yè)知識(shí),進(jìn)行數(shù)據(jù)挖掘分析結(jié)果解釋,說明規(guī)律,以及規(guī)律臨床價(jià)值。結(jié)果解釋是數(shù)據(jù)挖掘研究關(guān)鍵,從發(fā)覺規(guī)律深入延伸出其實(shí)際意義,是整個(gè)研究工作結(jié)果所在。90醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第90頁數(shù)據(jù)挖掘研究設(shè)計(jì)基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決議樹聚類分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第91頁Clementine軟件應(yīng)用醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第92頁Clementine12.0安裝方法1.下載,存放到D盤,重新命名為“ClementineV12”2.打開ClementineV12--點(diǎn)擊運(yùn)行setup.exe—按提醒完成安裝到默認(rèn)目錄:"C:\ProgramFiles\SPSSInc\Clementine12.03.D:\CLE12.0\Clementine12\Crack\破解
復(fù)制該文件下“l(fā)servrc”“PlatformSPSSLic7.dll”兩個(gè)文件,粘貼到C:\ProgramFiles\SPSSInc\Clementine12.0\bin文件夾下,覆蓋原來同名字文件醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第93頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第94頁數(shù)據(jù)挖掘研究設(shè)計(jì)基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決議樹聚類分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第95頁96Clementine用戶界面操作區(qū)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第96頁節(jié)點(diǎn)——一個(gè)圖標(biāo)代表在Clementine中進(jìn)行一個(gè)操作。工作流——一系列連接在一起節(jié)點(diǎn)??梢暬幊提t(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第97頁選項(xiàng)板源節(jié)點(diǎn)用來將數(shù)據(jù)讀入Clementine中統(tǒng)計(jì)選項(xiàng)節(jié)點(diǎn)在統(tǒng)計(jì)上進(jìn)行操作一條統(tǒng)計(jì)是一個(gè)“情形”或一“行”數(shù)據(jù)字段選項(xiàng)節(jié)點(diǎn)在字段上進(jìn)行操作一個(gè)字段是一個(gè)變量圖形節(jié)點(diǎn)在建模之前和之后用來可視化數(shù)據(jù)建模節(jié)點(diǎn)代表有效建模算法注意:建模算法產(chǎn)生生成模型醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第98頁增加一個(gè)節(jié)點(diǎn)在選項(xiàng)板上雙擊節(jié)點(diǎn),自動(dòng)放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域.將節(jié)點(diǎn)從選項(xiàng)板拖放到數(shù)據(jù)流區(qū)域中在選項(xiàng)板上點(diǎn)擊一個(gè)節(jié)點(diǎn),然后在數(shù)據(jù)流區(qū)域中點(diǎn)擊一下醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第99頁編輯一個(gè)節(jié)點(diǎn)在節(jié)點(diǎn)上右擊,展開一個(gè)節(jié)點(diǎn)點(diǎn)擊“編輯”在菜單上還能夠選擇連接、斷開連接、重命名、注釋、復(fù)制、刪除、載入、保留等操作醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第100頁連接節(jié)點(diǎn)使用鼠標(biāo)中鍵來連接節(jié)點(diǎn)在數(shù)據(jù)流區(qū)域上,把一個(gè)節(jié)點(diǎn)連接到另一個(gè)上,能夠經(jīng)過鼠標(biāo)中間鍵點(diǎn)擊和拖放來完成(假如您鼠標(biāo)沒有中間鍵,能夠經(jīng)過按住“Alt”鍵來模擬這個(gè)過程)經(jīng)過雙擊來連接節(jié)點(diǎn)雙擊選項(xiàng)板上節(jié)點(diǎn),自動(dòng)把新節(jié)點(diǎn)連接到數(shù)據(jù)流區(qū)域中“中心”節(jié)點(diǎn)上使用鼠標(biāo)中鍵醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第101頁刪除節(jié)點(diǎn)之間連接在連接箭頭頭部按住鼠標(biāo)右鍵選擇“刪除連接”醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第102頁Clementine中讀取數(shù)據(jù)格式文本文件EXCELSPSS數(shù)據(jù)文件ODBC兼容數(shù)據(jù)庫SAS數(shù)據(jù)文件用戶輸入文件醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第103頁讀取原始文件添加變量文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯節(jié)點(diǎn)指向文件經(jīng)過編輯進(jìn)行原始數(shù)據(jù)設(shè)置醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第104頁讀取文本文件醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第105頁讀取EXCEL文件醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第106頁讀取其它數(shù)據(jù)文件原始數(shù)據(jù)是什么文件類型,則采取什么節(jié)點(diǎn)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第107頁定義字段類型類型節(jié)點(diǎn)指定字段一系列主要屬性;指定字段類型、方向和缺失值;Clementine能夠自動(dòng)設(shè)置變量類型,用戶也能夠強(qiáng)制指定類型;為建立模型,指定字段方向;指定缺失值以及怎樣處理缺失值;變量值檢驗(yàn)確保字段值滿足一定設(shè)置;字段類型幫助您了解正在使用數(shù)據(jù),是一些數(shù)據(jù)準(zhǔn)備和全部建模程序所必需.醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第108頁連續(xù)型–用于描述數(shù)值,如0-100或者0.75-1.25內(nèi)連續(xù)值一個(gè)連續(xù)值能夠是整數(shù)、實(shí)數(shù)或日期/時(shí)間離散型–用于當(dāng)一個(gè)詳細(xì)值準(zhǔn)確數(shù)量未知時(shí)描述字符串,一旦數(shù)據(jù)被讀取,其類型就會(huì)是標(biāo)識(shí)、集合或者無類型集合型–用于描述帶有多個(gè)詳細(xì)值數(shù)據(jù)(黃、綠、藍(lán))標(biāo)識(shí)型–用于只取兩個(gè)詳細(xì)值數(shù)據(jù)(真、假)無類型–用于不符合上述任一個(gè)類型數(shù)據(jù)或者含有太多元素集合類型數(shù)據(jù)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第109頁字段方向輸入:輸入或者預(yù)測(cè)字段輸出:輸出或者被預(yù)測(cè)字段字段二者:既是輸入又是輸出,只在關(guān)聯(lián)規(guī)則中用到無:建模過程中不使用該字段分區(qū):將數(shù)據(jù)拆分為訓(xùn)練、測(cè)試(驗(yàn)證)部分字段方向設(shè)置只有在建模時(shí)才起作用醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第110頁字段實(shí)例化在讀取值前數(shù)據(jù)稱為未實(shí)例化,經(jīng)過讀取值后數(shù)據(jù)完全實(shí)例化,字段取值和類型都是可知.醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第111頁數(shù)據(jù)挖掘分析普通步驟1、數(shù)據(jù)整理2、數(shù)據(jù)格式轉(zhuǎn)化3、數(shù)據(jù)文件讀入4、數(shù)據(jù)類型設(shè)置5、模型選擇與參數(shù)設(shè)置6、結(jié)果輸出與解讀醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第112頁1、數(shù)據(jù)整理整理成可分析數(shù)據(jù)普通為橫向數(shù)據(jù),即一個(gè)病人一條統(tǒng)計(jì)。ID藥品數(shù)量(克)1甘草101當(dāng)歸101白術(shù)102大黃102白術(shù)102黃芩103當(dāng)歸103紅花103白術(shù)10ID甘草當(dāng)歸白術(shù)大黃黃芩紅花110101000020010101003010100010醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第113頁2、數(shù)據(jù)格式轉(zhuǎn)換轉(zhuǎn)化成軟件能夠讀入格式,慣用TXT文件醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第114頁3、數(shù)據(jù)文件讀入醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第115頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第116頁查看讀入數(shù)據(jù)是否成功醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第117頁4、數(shù)據(jù)類型設(shè)置醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第118頁5、模型選擇與參數(shù)設(shè)置關(guān)聯(lián)規(guī)則決議樹類神經(jīng)網(wǎng)絡(luò)聚類分析判別分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第119頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第120頁6、結(jié)果輸出與解讀執(zhí)行模型后,輸出結(jié)果。直接查看結(jié)果,也能夠再次增加table節(jié)點(diǎn),查看新寫入數(shù)據(jù)。結(jié)合專業(yè)知識(shí)進(jìn)行解讀。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第121頁數(shù)據(jù)挖掘研究設(shè)計(jì)基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決議樹聚類分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第122頁關(guān)聯(lián)規(guī)則基本概念是分析兩個(gè)或多個(gè)變量取值之間存在某種規(guī)律性方法,包含簡(jiǎn)單關(guān)聯(lián)規(guī)則和系列關(guān)聯(lián)規(guī)則。在Clementine中實(shí)現(xiàn)簡(jiǎn)單關(guān)聯(lián)規(guī)則算法有Apriori和GRI兩種,Apriori只能處理分類變量,GRI還能夠處理前項(xiàng)是數(shù)值型變量情況。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第123頁簡(jiǎn)單關(guān)聯(lián)規(guī)則有效性主要測(cè)度指標(biāo)包含兩個(gè):規(guī)則置信度和規(guī)則支持度。規(guī)則置信度是對(duì)簡(jiǎn)單關(guān)聯(lián)規(guī)則準(zhǔn)確度測(cè)量,描述了包含項(xiàng)目X事務(wù)中同時(shí)也包含項(xiàng)目Y概率。規(guī)則支持度是對(duì)簡(jiǎn)單關(guān)聯(lián)規(guī)則普遍性測(cè)量,表示項(xiàng)目X和項(xiàng)目Y同時(shí)出現(xiàn)概率。一個(gè)理想簡(jiǎn)單關(guān)聯(lián)規(guī)則應(yīng)含有較高置信度和較高支持度。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第124頁關(guān)聯(lián)規(guī)則應(yīng)用實(shí)例【例6】搜集了某一時(shí)間范圍內(nèi)治療某一疾病中藥方3122張,包括藥品251種。要分析處方中慣用藥對(duì)情況,現(xiàn)進(jìn)行關(guān)聯(lián)規(guī)則分析。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第125頁藥正確概念方劑庫1白術(shù),蒼術(shù),大黃,白芍2白術(shù),蒼術(shù),紅花3白術(shù),蒼術(shù),白芍方劑轉(zhuǎn)化成藥對(duì)1白術(shù)-蒼術(shù),白術(shù)-大黃,白術(shù)-白芍,蒼術(shù)-大黃,蒼術(shù)-白芍,大黃-白芍2白術(shù)-蒼術(shù),白術(shù)-紅花,蒼術(shù)-紅花3白術(shù)-蒼術(shù),白術(shù)-白芍,蒼術(shù)-白芍編號(hào)藥對(duì)頻次1白術(shù)-蒼術(shù)32白術(shù)-白芍23白術(shù)-大黃14白術(shù)-紅花15蒼術(shù)-白芍26蒼術(shù)-大黃17蒼術(shù)-紅花18大黃-白芍1醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第126頁編號(hào)藥對(duì)頻次支持度置信度1白術(shù)?蒼術(shù)3100%100%蒼術(shù)?白術(shù)100%2白術(shù)?白芍266%66%白芍?白術(shù)100%3白術(shù)?大黃133%33%大黃?白術(shù)100%4白術(shù)?紅花133%33%紅花?白術(shù)100%5蒼術(shù)?白芍266%66%白芍?蒼術(shù)100%6蒼術(shù)?大黃133%33%大黃?蒼術(shù)100%7蒼術(shù)?紅花133%33%紅花?蒼術(shù)100%8大黃?白芍133%100%白芍?大黃50%置信度、支持度概念醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第127頁單味藥頻次白術(shù)蒼術(shù)白芍大黃紅花33211方劑庫1白術(shù),蒼術(shù),大黃,白芍2白術(shù),蒼術(shù),紅花3白術(shù),蒼術(shù),白芍同時(shí)出現(xiàn)白芍、大黃方劑數(shù)1“白芍-大黃”支持度=————————————————=33%總方劑數(shù)3同時(shí)出現(xiàn)白芍、大黃方劑數(shù)1“白芍?大黃”置信度=————————————————=50%凡出現(xiàn)白芍方劑數(shù)2同時(shí)出現(xiàn)白芍、大黃方劑數(shù)1“大黃?白芍”置信度=————————————————=100%凡出現(xiàn)大黃方劑數(shù)1編號(hào)藥對(duì)頻次支持度置信度8白芍?大黃133%50%大黃?白芍100%醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第128頁設(shè)定
最小支持度50%
最小置信度50%藥對(duì)頻次支持度置信度白術(shù)?蒼術(shù)3100%100%蒼術(shù)?白術(shù)100%白術(shù)?白芍266%66%白芍?白術(shù)100%白術(shù)?大黃133%33%大黃?白術(shù)100%白術(shù)?紅花133%33%紅花?白術(shù)100%蒼術(shù)?白芍266%66%白芍?蒼術(shù)100%蒼術(shù)?大黃133%33%大黃?蒼術(shù)100%蒼術(shù)?紅花133%33%紅花?蒼術(shù)100%大黃?白芍133%100%白芍?大黃50%醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第129頁1、數(shù)據(jù)整理從醫(yī)院HIS系統(tǒng)中導(dǎo)出某一疾病在某一時(shí)間范圍內(nèi)藥方信息。數(shù)據(jù)整理目標(biāo)是確保從日常運(yùn)行數(shù)據(jù)中取得數(shù)據(jù)標(biāo)準(zhǔn)是統(tǒng)一,規(guī)則是一致,同類信息表示是無偏。比如藥名信息有“白頭翁”、“白術(shù)”、“白頭公”,則統(tǒng)一為“白術(shù)”。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第130頁2、數(shù)據(jù)格式轉(zhuǎn)化
——橫縱向轉(zhuǎn)換從業(yè)務(wù)數(shù)據(jù)庫取得原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù)據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個(gè)個(gè)案信息由一條統(tǒng)計(jì)全部展示。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第131頁2、數(shù)據(jù)格式轉(zhuǎn)化
——文件類型轉(zhuǎn)換SPSSClementine能讀取文件類型包含文本文件、EXCEL文件、SPSS數(shù)據(jù)文件、ODBC兼容數(shù)據(jù)庫、SAS數(shù)據(jù)文件和用戶輸入文件。普通文本文件出現(xiàn)亂碼、錯(cuò)位等錯(cuò)誤概率較小,占用資源也較少,可優(yōu)先轉(zhuǎn)換成TXT文件。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第132頁3、數(shù)據(jù)文件讀入數(shù)據(jù)文件讀入第一步是構(gòu)建一個(gè)原始文件節(jié)點(diǎn),經(jīng)過編輯原始文件節(jié)點(diǎn),選定文件路徑,讀取原始數(shù)據(jù)文件。點(diǎn)擊“確定”后,該數(shù)據(jù)節(jié)點(diǎn)就有了可分析原始數(shù)據(jù)。為了查看原始數(shù)據(jù)是否正確讀入,可增加table節(jié)點(diǎn),查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準(zhǔn)確,有沒有亂碼等情況。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第133頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第134頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第135頁4、數(shù)據(jù)類型設(shè)置兩分類變量,設(shè)置文件類型為flag,關(guān)聯(lián)分析方向設(shè)置為“both”醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第136頁全部設(shè)置完成后,讀取變量(字段實(shí)例化)醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第137頁5、模型選擇與參數(shù)設(shè)置在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后,就能夠依據(jù)數(shù)據(jù)挖掘分析需要選擇對(duì)應(yīng)模型,在簡(jiǎn)單關(guān)聯(lián)分析中可選擇Apriori或GRI兩種節(jié)點(diǎn)。以Apriori為例,節(jié)點(diǎn)相關(guān)參數(shù)設(shè)置主要包含兩部分:設(shè)置進(jìn)行兩兩關(guān)聯(lián)分析變量和最小置信度、最小支持度定義。普通中藥藥對(duì)研究中,可選最小置信度和最小支持度均為50%。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第138頁兩兩關(guān)聯(lián)分析變量定義醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第139頁最小置信度、最小支持度定義醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第140頁6、結(jié)果輸出與解讀醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第141頁輸出了最小支持度和置信度均在50%以上藥對(duì)。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第142頁中藥與中藥之間癥狀與癥狀之間證型與證型之間中藥與癥狀之間中藥與證型之間癥狀與證型之間關(guān)系中醫(yī)藥關(guān)聯(lián)規(guī)則分析其它應(yīng)用醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第143頁關(guān)聯(lián)分析完整數(shù)據(jù)流圖醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第144頁數(shù)據(jù)挖掘研究設(shè)計(jì)基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決議樹聚類分析醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第145頁決議樹基本概念在數(shù)據(jù)挖掘中,決議樹是分類預(yù)測(cè)經(jīng)典算法。決議樹算法目標(biāo)是經(jīng)過向數(shù)據(jù)學(xué)習(xí),取得輸入變量和輸出變量不一樣取值下數(shù)據(jù)分類和預(yù)測(cè)規(guī)律,并用于對(duì)新數(shù)據(jù)對(duì)象分類預(yù)測(cè)。SPSSClementine提供C5.0、CART、CHAID、QUEST在內(nèi)決議樹經(jīng)典算法。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第146頁決議樹應(yīng)用實(shí)例【例7】搜集了某一時(shí)間范圍內(nèi)治療應(yīng)用作用效果類似A、B、C、X、Y5種藥品治療病人200例,資料包含年紀(jì)、性別、膽固醇、血壓、血鉀、血鈉、使用藥品等7個(gè)變量?,F(xiàn)進(jìn)行用藥決議規(guī)律決議樹分析。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第147頁1、數(shù)據(jù)整理從醫(yī)院HIS、LIS、電子病歷系統(tǒng)中導(dǎo)出某一疾病在某一時(shí)間范圍內(nèi)相關(guān)信息。數(shù)據(jù)整理目標(biāo)是確保從日常運(yùn)行數(shù)據(jù)中取得數(shù)據(jù)標(biāo)準(zhǔn)是統(tǒng)一,規(guī)則是一致,同類信息表示是無偏。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第148頁2、數(shù)據(jù)格式轉(zhuǎn)化
——橫縱向轉(zhuǎn)換從業(yè)務(wù)數(shù)據(jù)庫取得原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù)據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個(gè)個(gè)案信息由一條統(tǒng)計(jì)全部展示。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第149頁2、數(shù)據(jù)格式轉(zhuǎn)化
——文件類型轉(zhuǎn)換SPSSClementine能讀取文件類型包含文本文件、EXCEL文件、SPSS數(shù)據(jù)文件、ODBC兼容數(shù)據(jù)庫、SAS數(shù)據(jù)文件和用戶輸入文件。普通文本文件出現(xiàn)亂碼、錯(cuò)位等錯(cuò)誤概率較小,占用資源也較少,可優(yōu)先轉(zhuǎn)換成TXT文件。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第150頁3、數(shù)據(jù)文件讀入數(shù)據(jù)文件讀入第一步是構(gòu)建一個(gè)原始文件節(jié)點(diǎn),經(jīng)過編輯原始文件節(jié)點(diǎn),選定文件路徑,讀取原始數(shù)據(jù)文件。點(diǎn)擊“確定”后,該數(shù)據(jù)節(jié)點(diǎn)就有了可分析原始數(shù)據(jù)。為了查看原始數(shù)據(jù)是否正確讀入,可增加table節(jié)點(diǎn),查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準(zhǔn)確,有沒有亂碼等情況。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第151頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第152頁醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第153頁4、數(shù)據(jù)類型設(shè)置設(shè)置文件類型兩分類變量為flag,多分類為set,連續(xù)資料為rang。決議樹中,決議目標(biāo)設(shè)置方向?yàn)閛ut,其它作為決議依據(jù)變量設(shè)置為in。醫(yī)學(xué)統(tǒng)計(jì)醫(yī)學(xué)宣教專家講座第154頁5、模型選擇與參數(shù)設(shè)置在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后,就能夠依據(jù)數(shù)據(jù)挖掘分析需要選擇對(duì)應(yīng)模型,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)互聯(lián)網(wǎng)平臺(tái)2025年異構(gòu)數(shù)據(jù)庫融合技術(shù)智能水資源應(yīng)用研究報(bào)告
- 2025年百貨商場(chǎng)數(shù)字化顧客體驗(yàn)與顧客生命周期管理報(bào)告
- 2025年成人繼續(xù)教育線上學(xué)習(xí)平臺(tái)下的個(gè)性化學(xué)習(xí)路徑規(guī)劃與實(shí)施研究
- 2025年線下演出市場(chǎng)復(fù)蘇演出市場(chǎng)產(chǎn)業(yè)鏈優(yōu)化報(bào)告
- 2025年金融行業(yè)反欺詐技術(shù)發(fā)展現(xiàn)狀與趨勢(shì)
- 2025年電商售后服務(wù)質(zhì)量提升與創(chuàng)新技術(shù)應(yīng)用報(bào)告
- it信息化職稱考試試題及答案
- ie面試試題及答案
- html考試試題及答案程序
- 新能源汽車制造行業(yè)智能化車載系統(tǒng)開發(fā)與應(yīng)用研究報(bào)告
- 物業(yè)外包服務(wù)質(zhì)量評(píng)價(jià)體系構(gòu)建
- 貴州省小升初數(shù)學(xué)試卷及答案
- 施工現(xiàn)場(chǎng)總平面布置及施工現(xiàn)場(chǎng)總平面布置方案
- 萬科通用測(cè)評(píng)題答案解析
- 2024年河北省職業(yè)院校學(xué)生技能大賽數(shù)字技術(shù)應(yīng)用賽項(xiàng)規(guī)程
- 橫道圖自動(dòng)生成
- 2024壓縮空氣儲(chǔ)能電站初步設(shè)計(jì)報(bào)告編制規(guī)程
- DB14-T 2984-2024 電子政務(wù)外網(wǎng) 接入規(guī)范
- 數(shù)字人民幣簡(jiǎn)介演示
- 湖南師范大學(xué)學(xué)位英語歷年考試真題
- 預(yù)防盜竊主題班會(huì)
評(píng)論
0/150
提交評(píng)論