




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究數(shù)據(jù)挖掘在體檢人群代謝綜合征智能甄別中的應(yīng)用研究目錄Contents內(nèi)容與方法結(jié)果討論前言1243前言1前言內(nèi)容與方法結(jié)果討論研究背景
體檢是“三早”的重要前依端口。
國內(nèi)外均累積了海量的體檢數(shù)據(jù)。
如何利用和分析健康體檢數(shù)據(jù)是一個(gè)重要的研究方向。前言內(nèi)容與方法結(jié)果討論研究背景數(shù)據(jù)冗余體檢數(shù)據(jù):數(shù)據(jù)量大,指標(biāo)多數(shù)據(jù)挖掘中,冗余的體檢變量會(huì)減緩疾病分類的效率,降低疾病分類性能。體檢數(shù)據(jù)分析過程中面臨著諸多問題,其中數(shù)據(jù)冗余,類不平衡逐漸受到關(guān)注降維Lasso特征選擇前言內(nèi)容與方法結(jié)果討論研究背景類不平衡指在數(shù)據(jù)集中陽性類數(shù)量遠(yuǎn)小于陰性類數(shù)量。不平衡類分布下,傳統(tǒng)分類方法傾向于將待分類樣本劃分為陰性,而陽性樣本識(shí)別較差。陽性類樣本的正確分類比陰性類樣本的分類更有價(jià)值。體檢數(shù)據(jù)分析過程中面臨著諸多問題,其中數(shù)據(jù)冗余,類不平衡逐漸受到關(guān)注數(shù)據(jù)層面:數(shù)據(jù)平衡分類算法層面:數(shù)據(jù)分類解決途徑傳統(tǒng)分類器改進(jìn)設(shè)計(jì)新算法重采樣技術(shù)傳統(tǒng)分類器前言內(nèi)容與方法結(jié)果討論
研究意義代謝綜合征(MetabolicSyndrome,MS)是以中心性肥胖、高血壓、糖尿病、高血脂集結(jié)于一身的病理狀態(tài)。隨著現(xiàn)代人患肥胖、高血壓、糖尿病、脂肪肝、血脂紊亂等慢性病人數(shù)逐漸增加,造成慢性代謝綜合性疾病的全球大流行。代謝綜合征的預(yù)防遠(yuǎn)比治療更能節(jié)約醫(yī)藥衛(wèi)生資源和改善個(gè)體的健康狀態(tài)。體檢作為一級(jí)預(yù)防階段能較早篩選代謝綜合征患者,幫助患者積極采取干預(yù)措施,防止并發(fā)癥發(fā)生。前言內(nèi)容與方法結(jié)果討論研究目的
基于健康體檢大數(shù)據(jù),以代謝綜合征智能甄別(分類)為切入點(diǎn),探討與分析Lasso特征選擇與重采樣技術(shù)在醫(yī)療大數(shù)據(jù)分類診斷中的可行性與應(yīng)用價(jià)值,為解決醫(yī)療大數(shù)據(jù)挖掘中數(shù)據(jù)冗余及類不平衡分類問題的研究提供方法學(xué)參考。2內(nèi)容與方法前言內(nèi)容與方法結(jié)果討論Lasso特征選擇通過添加約束條件s≥0對(duì)模型系數(shù)壓縮,當(dāng)模型中回歸系數(shù)Lasso估計(jì)的絕對(duì)值小于其最小回歸系數(shù)的絕對(duì)值時(shí),某些相關(guān)度低的變量系數(shù)就被壓縮為0,此時(shí)所對(duì)應(yīng)的變量將被剔除,達(dá)到降維目的。
前言內(nèi)容與方法結(jié)果討論重采樣技術(shù)隨機(jī)過采樣:隨機(jī)欠采樣:混合采樣:假設(shè)不平衡數(shù)據(jù)集中包含陽性類樣本的數(shù)量為s,陰性類樣本的數(shù)量為n。前言內(nèi)容與方法結(jié)果討論分類方法BP神經(jīng)網(wǎng)絡(luò)C4.5決策樹前言內(nèi)容與方法結(jié)果討論交叉驗(yàn)證:10-折交叉驗(yàn)證二分類問題的混淆矩陣真實(shí)類型分類器分類患者健康患者TruePositive(TP)FalseNegative(FN)健康FalsePositive(FP)TrueNegative(TN)評(píng)價(jià)指標(biāo)(1)(2)(3)前言內(nèi)容與方法結(jié)果討論研究內(nèi)容1.Lasso特征選擇處理數(shù)據(jù)冗余未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇2.重采樣技術(shù)處理不平衡數(shù)據(jù)(1)不平衡數(shù)據(jù)集模擬(1,10,50,100)(2)未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇3.綜合評(píng)價(jià)Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的影響(1)Lasso特征選擇與重采樣技術(shù)后評(píng)價(jià)指標(biāo)的兩因素方差分析(2)Lasso特征選擇與重采樣技術(shù)對(duì)分類結(jié)果的穩(wěn)健性對(duì)分類性能的影響對(duì)分類的影響重采樣技術(shù)3結(jié)果前言內(nèi)容與方法討論結(jié)果
收集烏魯木齊市某體檢機(jī)構(gòu)2014~2016年漢族體檢者信息69267例,經(jīng)數(shù)據(jù)清洗后,共54個(gè)體檢指標(biāo)。
根據(jù)中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì)的代謝綜合征診斷標(biāo)準(zhǔn),共篩選2735例代謝綜合征患者,患病率約為4%,不平衡比例≈24。前言內(nèi)容與方法討論結(jié)果一、Lasso特征選擇在智能甄別中的應(yīng)用血小板平均體積高密度脂蛋白膽固醇空腹血糖中性粒細(xì)胞百分比年齡圖3Lasso對(duì)該數(shù)據(jù)的特征序列圖前言內(nèi)容與方法討論結(jié)果一、Lasso特征選擇對(duì)分類性能的影響表3Lasso特征選擇對(duì)代謝綜合征分類性能影響C4.5決策樹F-valueG-meanAUC
未使用Lasso特征選擇0.9750.7940.802
使用Lasso特征選擇0.9790.8170.836BP神經(jīng)網(wǎng)絡(luò)
未使用Lasso特征選擇0.9700.7260.952
使用Lasso特征選擇0.9720.7260.964前言內(nèi)容與方法討論結(jié)果二、重采樣技術(shù)對(duì)分類性能的影響2.未用Lasso特征選擇原不平衡數(shù)據(jù)隨機(jī)過采樣隨機(jī)欠采樣混合采樣3.運(yùn)用Lasso特征選擇原不平衡數(shù)據(jù)隨機(jī)過采樣隨機(jī)欠采樣混合采樣分類(C4.5決策樹、BP神經(jīng)網(wǎng)絡(luò))分類(C4.5決策樹、BP神經(jīng)網(wǎng)絡(luò))1.計(jì)算機(jī)模擬不平衡比例對(duì)分類性能的影響前言內(nèi)容與方法討論結(jié)果表4不同不平衡比例的數(shù)據(jù)集分類結(jié)果不平衡比例患病率F-valueG-meanAUCC4.5決策樹11/20.9200.9200.936101/110.9700.8790.921501/510.9930.8420.8941001/1010.9970.8400.892BP神經(jīng)網(wǎng)絡(luò)11/20.9660.9660.984101/110.9830.9470.960501/510.9940.8710.8751001/1010.9970.8470.8271.不同比例的類不平衡數(shù)據(jù)對(duì)分類性能的影響前言內(nèi)容與方法討論結(jié)果表5重采樣技術(shù)對(duì)分類性能的影響結(jié)果分類算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹原不平衡數(shù)據(jù)0.9750.7940.802
隨機(jī)過采樣0.9910.9900.991
隨機(jī)欠采樣0.9210.9210.914
混合采樣0.9890.9890.990BP神經(jīng)網(wǎng)絡(luò)原不平衡數(shù)據(jù)0.9700.7260.952
隨機(jī)過采樣0.9650.9640.981
隨機(jī)欠采樣0.8900.8900.953
混合采樣0.9580.9570.9792.三種重采樣技術(shù)在代謝綜合征智能甄別中的應(yīng)用前言內(nèi)容與方法討論結(jié)果3.基于Lasso特征選擇三種重采樣技術(shù)在代謝綜合征智能甄別的應(yīng)用表6
Lasso特征選擇聯(lián)合重采樣對(duì)分類性能的影響結(jié)果分類算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹不平衡數(shù)據(jù)集0.9790.8170.836
隨機(jī)過采樣0.9880.9880.990
隨機(jī)欠采樣0.9320.9320.953
混合采樣0.9850.9850.988BP神經(jīng)網(wǎng)絡(luò)不平衡數(shù)據(jù)集0.9720.7260.964
隨機(jī)過采樣0.9320.9320.974
隨機(jī)欠采樣0.9320.9320.972
混合采樣0.9320.9310.973前言內(nèi)容與方法討論結(jié)果三、綜合評(píng)價(jià)Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的影響2.F-valueG-meanAUCLasso特征選擇
重采樣技術(shù)C4.5決策樹Lasso特征選擇重采樣技術(shù)樹狀結(jié)構(gòu)圖分類前言內(nèi)容與方法討論結(jié)果1.Lasso特征選擇與重采樣技術(shù)分類性能的優(yōu)劣評(píng)價(jià)前言內(nèi)容與方法討論結(jié)果1.Lasso特征選擇與重采樣技術(shù)分類性能的優(yōu)劣評(píng)價(jià)前言內(nèi)容與方法討論結(jié)果2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性圖5原始不平衡數(shù)據(jù)樹狀結(jié)構(gòu)圖前言內(nèi)容與方法討論結(jié)果圖6未使用Lasso特征選擇的隨機(jī)過采樣樹狀結(jié)構(gòu)圖2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性前言內(nèi)容與方法討論結(jié)果圖7Lasso特征選擇后隨機(jī)過采樣樹狀圖2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性4討論前言內(nèi)容與方法結(jié)果討論1.Lasso特征選擇代謝綜合征體檢變量分析Lasso特征選擇的變量是:空腹血糖、高密度脂蛋白膽固醇、年齡、中性粒細(xì)胞百分比、血小板平均體積。①②空腹血糖、高密度脂蛋白膽固醇與代謝綜合征的診斷密切相關(guān)。隨著年齡增大,人體代謝功能下降,生理系統(tǒng)衰老加速,機(jī)體更易受到疾病侵襲。③巨噬細(xì)胞活化在代謝功能失調(diào)中起關(guān)鍵作用,中性粒細(xì)胞作為巨噬細(xì)胞的代表與代謝綜合征密切相關(guān)。④代謝綜合征的低炎性狀態(tài)與血小板存在相互作用。前言內(nèi)容與方法討論結(jié)果2.重采樣技術(shù)對(duì)類不平衡數(shù)據(jù)分類性能的影響分析
不平衡數(shù)據(jù)分類問題受到諸多研究者的關(guān)注C4.5決策樹與BP神經(jīng)網(wǎng)絡(luò)在分類性能略有差別BP神經(jīng)網(wǎng)絡(luò):定量變量;C4.5決策樹:定性變量重采樣分類性能優(yōu)于原不平衡數(shù)據(jù)
隨機(jī)過采樣略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025安全員-B證(項(xiàng)目經(jīng)理)考試題庫
- 2024年外轉(zhuǎn)子風(fēng)機(jī)項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 2024年TC-22型氧化鋅脫硫劑項(xiàng)目資金需求報(bào)告
- 數(shù)學(xué)-云南省三校2025屆高三2月高考備考聯(lián)考卷(六)試題和答案
- 2025年度文化事業(yè)單位正規(guī)勞務(wù)派遣合作協(xié)議書
- 2025年度專業(yè)化學(xué)品倉庫庫房租賃及安全管理協(xié)議
- 二零二五年度員工股權(quán)激勵(lì)與公司可持續(xù)發(fā)展合同
- 2025年度房地產(chǎn)戰(zhàn)略合作協(xié)議書:房地產(chǎn)項(xiàng)目綠色建筑設(shè)計(jì)與綠色施工技術(shù)合同
- 2025年度臨時(shí)用工合同協(xié)議書:文化演出臨時(shí)演出人員及技術(shù)人員協(xié)議
- 2025年度網(wǎng)絡(luò)安全責(zé)任忠誠協(xié)議范本
- 2024年北京電子科技職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試題庫含答案解析
- 生產(chǎn)車間環(huán)境改善方案
- 第1課 古代亞非(課件)
- 2024年高考物理真題分類匯編(全一本附答案)
- 醫(yī)藥銷售月總結(jié)匯報(bào)
- 地質(zhì)勘探行業(yè)復(fù)工安全培訓(xùn)課件
- 小學(xué)語文《文學(xué)閱讀與創(chuàng)意表達(dá)》
- 醫(yī)保定點(diǎn)納入預(yù)測性研究的報(bào)告
- 大學(xué)體育-武術(shù)散打-教案
- 年終獎(jiǎng)計(jì)算方案
- 模擬藥房實(shí)訓(xùn)總結(jié)報(bào)告
評(píng)論
0/150
提交評(píng)論