《基于機器學習的疾病預測系統(tǒng)研究案例報告》14000字

上傳人：E*** IP屬地：湖北上傳時間：2025-01-10 格式：DOCX 頁數(shù)：32 大?。?.57MB 積分：27 舉報 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

基于機器學習的疾病預測系統(tǒng)研究案例報告TOC\o"1-3"\u第1章緒論 -摘要我國患高血壓人數(shù)超過2億，而且每年還會以1000萬人的增長.患有糖尿病的人數(shù)有9240萬，并且還有1億人的血糖在逐步升高，是潛在的糖尿病患者.心腦血管疾病的患者超過2億人，占我國每年總死亡人數(shù)的1/3，我國每年死亡人數(shù)中，死于慢性病的比例竟占據(jù)83.3%.因此研究和預測慢性疾病是最有效的防治措施.隨著人工智能的發(fā)展，人們獲取的醫(yī)療數(shù)據(jù)不斷增加，人們開始通過數(shù)學模型用于疾病的研究中。在深度學習的高速發(fā)展下，越來越多的深度學習技術(shù)逐漸出現(xiàn)，用來處理龐大而且復雜的數(shù)據(jù)集，機器學習的優(yōu)勢就顯示出來。關(guān)鍵詞：心臟??；腎臟疾??；機器學習；疾病管理模式；預測模型和系統(tǒng)第1章緒論1.1開發(fā)背景及意義背景：慢性疾病全稱是慢性非傳染性疾病。特點：病因復雜；起病隱匿；潛伏期長；病程長；難以治愈；不可逆轉(zhuǎn)；預后差。①2020年，慢性疾病患病率占比已經(jīng)達到了30%，死亡人數(shù)占總死亡數(shù)的94.4%。②在過去的數(shù)年間，每年平均增加的病例達到了兩倍。心臟病和癌癥患病人數(shù)比以往多了近一倍?、壑袊说姆逝譄崛丝趯兂墒澜缰?。肥胖的人群數(shù)量將會達到4億，并且在未來的數(shù)十年間，腰圍每變大2.54厘米，血管就會增加4英里，患癌癥的風險會是以前的好幾倍。我國衛(wèi)生資源目前分配狀況，我國現(xiàn)有的百分之二十的慢性病患者和一些重病患者卻占著我國總醫(yī)療費用支出的百分之七十。并且伴隨著人口老齡化的日益加重。比重也將會不斷的增加。一直以來人們沒有預防疾病的自我認知，導致不能及時就診，況且我國病人多，醫(yī)生相對少，許多地方缺少相應的醫(yī)療資源，導致對慢性疾病的治療效果也會很不理想。隨著科學技術(shù)的不斷發(fā)展，各種信息技術(shù)不斷發(fā)展，加上人工智能的大爆發(fā)，機器學習的方法也取得了顯著的發(fā)展。本文分析了使用機器學習技術(shù)收集的健康數(shù)據(jù)，建立了疾病預測風險模型，并使用Python和其它技術(shù)來實現(xiàn)疾病風險預測，通過研究疾病預測系統(tǒng)可以幫助人們更方便地里哦阿姐自己的身體健康狀態(tài)，同時也減輕醫(yī)療壓力，起到對慢性疾病的管理作用。意義：根據(jù)世界衛(wèi)生組織調(diào)查顯示，慢性病的發(fā)病原因百分之六十五是依據(jù)個人的生活習慣，同時還與遺傳、醫(yī)療條件、社會條件和氣候等因素有關(guān)。在每個人的生活習慣里面，飲食不合理、身體運動不足夠、吸煙和過度飲酒是慢性病的幾個危險因素?；悸约膊〉娜巳翰粌H僅是上年紀的，而且現(xiàn)在愈發(fā)的偏向年輕化，所以對慢性疾病的預防有著很重要的意義，開發(fā)出相應的預測模型，建立相應的系統(tǒng)，對我國慢性疾病的管理有著較大的意義。1.2相關(guān)理論與技術(shù)概況1.2.1機器學習機器學習是一門包含許多學科知識的專業(yè)，它包含了統(tǒng)計學相關(guān)知識，概率論相關(guān)知識，一些復雜的算法知識和近似理論相關(guān)知識。運用計算機作為手段用來模擬人類學習的真實方式，而且將已有的內(nèi)容經(jīng)行按照知識的不同來進行劃分以此來提高機器學習的速率。傳統(tǒng)機器學習主要包括決策樹、隨機森林、人工神經(jīng)網(wǎng)絡、貝葉斯學習等方面的研究。1.2.2機器學習模型由機器學習的算法的結(jié)果我們可以得到機器學習的模型，可以把它比作為一個函數(shù)，在你給了一個輸入的基礎(chǔ)上，可以輸出唯一的結(jié)果。機器學習模型的函數(shù)不是我們剛開始就給定一個已有的定義好的函數(shù)，它是在以往的數(shù)據(jù)中通過演算模擬出來。因此，在我們給定不同的數(shù)據(jù)，機器學習算法的輸出會相應的發(fā)生改變，也就是我們的機器學習模型發(fā)生了相應的變化。1.2.3數(shù)學模型預測疾病預測性數(shù)學模型通過方程式描述了與疾病特定病原體的關(guān)系，在運用計算機的語言對這些復雜的公式進行編程以快速完成計算，從而可以真正執(zhí)行定量疾病預測。1.3開發(fā)環(huán)境和使用工具本系統(tǒng)基于機器學習設(shè)計的心臟和腎臟疾病預測系統(tǒng)，業(yè)務邏輯層使用Caffe框架及python代碼實現(xiàn)。（1）Pycharm是本項目使用的python編程語言開發(fā)的集成環(huán)境。（2）MySQL叫做關(guān)系型數(shù)據(jù)庫管理系統(tǒng)，支持多線程，它充分地利用了CPU資源，優(yōu)化了SQL查詢算法，能夠有效地提高查詢速度。

第2章研究方法與技術(shù)路線2.1研究方法（1）文獻研究法在研究過程中，通過在百度文庫、萬方等工具對機器學習、疾病預測等各種相關(guān)詞匯進行索引，了解當前社會對慢性疾病的研究狀況。通過對機器學習相關(guān)知識和一些算法的學習，為構(gòu)建模型提供理論基礎(chǔ)和算法上的支持。（2）訪談研究法在論文選題確定后，通過走訪慢性疾病患者，根據(jù)他們目前接受的疾病管理模式、對慢性疾病的認知進行交流，得到了寶貴的資料。（3）總結(jié)歸納閱讀大量的文獻，進行總結(jié)歸納。2.2技術(shù)路線論文的技術(shù)路線如圖2-1所示。圖2-1技術(shù)線路圖

第3章基于預測慢性疾病管理模式構(gòu)建3.1傳統(tǒng)慢性疾病管理模式我國的慢性疾病管理起步較晚，目前人在不斷地探索之中，并未形成全國范圍內(nèi)系統(tǒng)的管理模式。我國慢性疾病的管理模式主要包括自我管理、社區(qū)管理、信息化管理。在傳統(tǒng)的慢性疾病管理下，由于人口眾多、人們?nèi)狈ο鄳募膊☆A防知識、醫(yī)療資源緊張。信息化的程度很低、不能夠很好地滿足患者各自的需求、患者的自制能力的不足等。導致傳統(tǒng)的慢性疾病管理模式不能夠起到理想的效果。3.2新型慢性疾病管理模式慢性疾病已經(jīng)成為影響我國人民身體健康的最主要的因素。慢性疾病大多數(shù)永久性的疾病，治療很漫長并且花費高。所以慢性疾病的預測就尤為重要。隨著互聯(lián)網(wǎng)和大數(shù)據(jù)的飛速發(fā)展，對患者健康數(shù)據(jù)有著大量的采集，并且采集數(shù)據(jù)的方法可不斷完善，可以實現(xiàn)隨時隨地的動態(tài)獲取人們身體數(shù)據(jù)。在此數(shù)據(jù)的采集下，再利用機器學習算法構(gòu)建相應的模型。從而達到對疾病的預測。在這些方法的及出處上就可以構(gòu)建出新型慢性疾病管理模式。如圖3-1所示：圖3-1慢性疾病管理模式新型慢性疾病管理模式將會克服傳統(tǒng)管理中的一些不足之處。新型模式主要業(yè)務和功能體現(xiàn)在：（1）它以患者為中心，是以預防為主，解決傳統(tǒng)模式之中忽略的預防問題。（2）能夠?qū)崟r動態(tài)的檢測患者信息狀況。（3）能夠讓人們根據(jù)自己的身體指標變化，對自己的藥物和生活習慣等進行調(diào)整。并將社區(qū)診所和醫(yī)院、政府聯(lián)系在一起，解決了傳統(tǒng)模式中的醫(yī)療資源缺乏的不足，提高了社區(qū)醫(yī)療服務水平。第4章基于機器學習的心臟和腎臟疾病預測模型構(gòu)建機器學習是一個知識領(lǐng)域涵蓋概率論，統(tǒng)計學，近似的理論和復雜的算法的綜合專業(yè)。這個工具的目的是模擬人的實時學習，并將現(xiàn)有的元素分為三個部分。通過對知識結(jié)構(gòu)的分類以有效提高人工智能的發(fā)展的學習效率，機器學會在醫(yī)學上產(chǎn)生巨大的幫助。在機器學習的幫助下醫(yī)療效率大大提高，醫(yī)療精度也大大提高。機器學習能夠借助計算機快速處理一些復雜的運算，在人工智能的飛速發(fā)展的時代，機器學習在醫(yī)療領(lǐng)域起到了翻天覆地的變化，它不僅大大提高就診的效率，而且大幅提高就診的精確度。在預測方面，運用機器學習可以去解決相關(guān)問題。因為機器學習可以模擬人腦的思維方法以此去解決相關(guān)問題。本文通過機器學習來預測慢性疾病中的心臟和腎臟的疾病預測。在機器學習的方法的研究都有以下的流程（如圖4-1表示）：圖4-1模型構(gòu)建的流程在機器學習的學習過程中，對以往的數(shù)據(jù)進行整理收集并在此基礎(chǔ)上進行集中處理是機器學習的根本，在對數(shù)據(jù)進行處理好之后，在對模型進行不斷的仿真、訓練和測試。在經(jīng)過種種不同的訓練后，通過不斷地修改和完善算法來以此去精確模型的預測概率。4.1機器學習預測模型構(gòu)建4.1.1對預測模型的選擇機器學習分類的模型很多，以決策樹、隨機森林、人工神經(jīng)網(wǎng)絡、Logistic回歸等作為為代表。決策樹決策樹用于人工智能分類，包括一些關(guān)鍵詞：根節(jié)點，中間節(jié)點，邊和葉節(jié)點。根節(jié)點是第一個需要判斷的條件，往往也是最具有特征的那個條件；中間節(jié)點里的那個矩形總是往下分，但不是最終的結(jié)果；邊是那些帶有文字的線段，線的一端連接中間節(jié)點，另一段連的是另一個中間節(jié)點或者葉節(jié)點；葉節(jié)點也就是最后的結(jié)果。常規(guī)決策樹過程數(shù)據(jù)收集：可以使用任何方法。數(shù)據(jù)準備：必須離散化數(shù)字數(shù)據(jù)，因為樹構(gòu)建算法只能應用于名義數(shù)據(jù)。數(shù)據(jù)分析：您可以使用任何方法。構(gòu)建完樹之后，您需要確保圖形滿足您的期望。訓練算法：建立樹數(shù)據(jù)結(jié)構(gòu)。測試算法：使用體驗樹計算錯誤率。使用算法：此步驟可以應用于任何機器學習算法，并且決策樹的使用可以更好地理解數(shù)據(jù)的內(nèi)部含義。隨機森林隨機森林算法是最常用的也是最強大的監(jiān)督學習算法之一，它包括了解決分類問題和回歸問題的能力。隨機森林是通過集成學習的思想，將多顆決策樹進行集成的算法。對于分類問題來說，它的輸出結(jié)果是由個別樹輸出的眾數(shù)來決定的。在回歸問題中，把每棵決策樹輸出的結(jié)果進行平均得到最終的回歸結(jié)果。人工神經(jīng)網(wǎng)絡ANN模型是使用神經(jīng)網(wǎng)絡來模仿人類大腦活動?？梢钥朔鹘y(tǒng)人工智能方法對直覺，例如模式、語音識別、非結(jié)構(gòu)化信息處理方面的缺陷。但是我們難以確定此模型的參數(shù)，在有多種情況下的訓練會導致它的效率變低，適合用來處理大規(guī)模并且復雜的數(shù)據(jù)。我們必須在針對對應問題對模型進行合理的選擇。本系統(tǒng)選取隨機森林模型構(gòu)建心臟和腎臟疾病風險預測模型，Logistic回歸模型作為對照模型。4.1.2預測的指標預測指標是指對心臟和腎臟疾病相關(guān)的危險因素，用于預測心臟和腎臟疾病發(fā)生情況的指標。Age：年齡；Sex：性別；chestpaintype（4values）：胸部疼痛類型；restingbloodpressure：靜息血壓；serumcholestoralinmg/dl：血漿膽固醇水平；fastingbloodsugar>120mg/dl：空腹血糖〉120mg/dl；restingelectrocardiographicresult：靜息心電圖結(jié)果；maximunheartrateachieved：最大心率；Exerciseinducedangina：與運動有關(guān)的心絞痛；oldpeak=STdepressioninducedbyexerciserelativetorest：與靜息時比較，運動導致的ST段下移；4.1.3預測模型構(gòu)建1.Logistic回歸模型構(gòu)建在非線性模型中，logistic回歸模型是最常見的模型之一。在實際中，我們更常遇見的問題是：因變量Y的結(jié)果只有兩種，是或者不是，屬于分類變量。對于這種問題，線性模型就不適用了，因為正態(tài)誤差不對應一個0-1響應。在這種情況下，就要使用logistic回歸來建立模型。2.Sigmoid函數(shù)sigmoid函數(shù)也叫Logistics函數(shù)，用于隱層神經(jīng)元輸出，取值范圍為（0,1），它可以將一個實數(shù)映射到（0,1）的區(qū)間，可以用來做二分類。在特征相差比較復雜或是相差不是特別大時效果比較好。Sigmoid作為激活函數(shù)有以下優(yōu)缺點：優(yōu)點：平滑、易于求導。缺點：激活函數(shù)計算量大，反向傳播求誤差梯度時，求導涉及除法；反向傳播時，很容易就會出現(xiàn)梯度消失的情況，從而無法完成深層網(wǎng)絡的訓練。Sigmoid函數(shù)由下列公式定義：其對x的導數(shù)可以用自身表示：Sigmoid函數(shù)的圖形如S曲線。圖4-2Sigmoid函數(shù)曲線模型參數(shù)求解在邏輯回歸中，采用最優(yōu)化算法求解回歸系數(shù)。在數(shù)學方法中，求解某函數(shù)最大值的方法就是沿著該函數(shù)的梯度方向?qū)ふ?，因此采用梯度下降算法求解模型參?shù)，該算法的偽代碼如下：算法1：梯度下降算法輸入：數(shù)據(jù)集；輸出：最佳回歸系數(shù)；所有的回歸系數(shù)初始化為1；重復R次；計算整個數(shù)據(jù)集的梯度；使用alpha和gradient更新回歸系數(shù)的向量#alpha是步長，gradient是梯度返回回歸系數(shù)值。邏輯回歸模型邏輯回歸模型是一種可以逐漸縮小范圍，將預測的結(jié)果縮小在[0,1]間的一種回歸模型，其回歸方程與回歸曲線如圖所示。邏輯曲線在z=0時，十分敏感，在z>0或z<<0處，都不敏感，將預測值限定為（0,1）。圖4-3邏輯回歸模型

邏輯回歸其實僅為在線性回歸的基礎(chǔ)上，套用了一個邏輯函數(shù)，但也就由于這個邏輯函數(shù)，邏輯回歸成為了機器學習領(lǐng)域一顆耀眼的明星，更是計算廣告學的核心。對于多元邏輯回歸，可用如下公式適合分類，其中公式（4）的變換，將在邏輯回歸模型參數(shù)估計時，化簡公式帶來很多益處，y={0,1}為分類結(jié)果。

對于訓練數(shù)據(jù)集，特征數(shù)據(jù)x={x1,x2,…,xm}和對應的分類數(shù)據(jù)y={y1,y2,…,ym}。構(gòu)建邏輯回歸模型f(θ)，最典型的構(gòu)建方法便是應用極大似然估計。首先，對于單個樣本，其后驗概率為：

那么，極大似然函數(shù)為：

其Log似然是：

按照該函數(shù)最小的原則去選擇模型參數(shù)，即采用梯度算法求解，獲得參數(shù)θ，進而得到邏輯回歸模型，該算法的如下：決策樹模型決策樹由結(jié)點和有向邊組成。結(jié)點有兩種類型：內(nèi)部節(jié)點和葉節(jié)點，其中內(nèi)部節(jié)點表示一個特征或?qū)傩?，葉節(jié)點表示一個類。一般的決策樹包含一個根節(jié)點，一些內(nèi)部節(jié)點和一些葉節(jié)點。葉節(jié)點與解決方案的結(jié)果匹配，其他每個節(jié)點與屬性驗證匹配。根據(jù)屬性檢查的結(jié)果，每個節(jié)點中包含的模式集被劃分為子節(jié)點。根節(jié)點包含完整的樣本集，并且從根節(jié)點到每個葉節(jié)點的路徑對應于判決的測試序列。決策樹的構(gòu)建過程分為三步：1、收集樣本；2、選擇特征（構(gòu)建節(jié)點）；3、特征的分裂方式（分裂節(jié)點）。決策樹的常用算法有三種，包括ID3算法，C4.5算法和CART算法等。ID3算法的特征選擇是信息增益，不支持連續(xù)值處理和缺失值處理和剪枝，C4.5算法的特征選擇是信息增益比，它支持連續(xù)值的處理、缺失值的處理和剪枝，CART算法它的特征選擇是基尼系數(shù)，均方差，它也支持連續(xù)值的處理、缺失值的處理和剪枝。這里分別介紹上述算法。（1）ID3算法系統(tǒng)地信息熵是H(c)，分別計算每個特征的條件熵H(c|x)，然后得到每個條件的信息增益IG(x)=H(c)-H(c|x)。通過判斷每個特征的IG(x)的大小來決定特征的重要度。所以ID3算法是基于信息增益，信息增益大，則越適合用來分類。在具體的特征分裂的時候，每個條件的分裂是遍歷了所有的可能（離散值有多少個就有多少個可能），這是一種貪心算法。所以這個算法不支持連續(xù)特征，也是缺點之一。（2）C4.5算法與ID3算法的思路基本相同，只是解決了ID3算法中的一些缺點，比如將連續(xù)值離散化從而支持連續(xù)性特征，采用信息增益比Gr(x)=IG(x)/H(x)來代替ID3算法的信息增益，解決了信息增益偏向分支過多的特征。也補充了剪枝和補全缺失值的操作。（3）CART算法簡單來說，CART算法是不斷的生成二叉樹，能分類也能回歸，因此也叫分類回歸樹。在生成分類樹時，采用的是基尼系數(shù)Gini(c)，也叫不純度。生成回歸樹則采用的是節(jié)點樣本的方差Var(x)來做分裂標準。這些過程，3種算法都差不多，有區(qū)別的是CART算法如何生成二叉樹？CART對連續(xù)型屬性的處理與C4.5差不多，也是先離散化。而對于離散型屬性，理論上有多少個離散值就應該分裂成多少個節(jié)點。但CART是一棵二叉樹，每一次分裂只會產(chǎn)生兩個節(jié)點，怎么辦呢？很簡單，只要將其中一個離散值獨立作為一個節(jié)點，其他的離散值生成另外一個節(jié)點即可。這種分裂方案有多少個離散值就有多少種劃分的方法，舉一個簡單的例子：如果某離散屬性一個有三個離散值x，y，z，則該屬性的分裂方法有[x、(y，z)]，[y、(z，x)]，[z，(x，y)]，分別計算每種劃分方法的基尼值或者樣本方差確定最優(yōu)的方法。原則就是通過一個條件將樣本空間一分為二。對決策樹的評價：分類樹：假定某個樣本空間有類，對于生成好的一棵決策樹的某葉子結(jié)點，假定該葉結(jié)點含有樣本數(shù)目為，可以分別統(tǒng)計該葉子節(jié)點下每個分類的頻數(shù)。每個類別的概率，于是這個葉子節(jié)點的信息熵就是。信息熵越小，系統(tǒng)的區(qū)分度越明顯。所以最終對于一棵分類樹的評價可以用下面的公式來評判（葉子節(jié)點的權(quán)重，可以更具樣本數(shù)目來決定）：對于不同的算法，并不完全都使用信息熵，也可以采用基尼系數(shù)來代替信息熵?；貧w樹：假定某個樣本空間，對于生成好的一棵決策樹的某葉子結(jié)點，假定該葉結(jié)點含有樣本數(shù)目為，計算這個葉子節(jié)點的方差。所以最終對于一棵回歸樹的評價可以用下面的公式來評判（葉子節(jié)點的權(quán)重，可以更具樣本數(shù)目來決定）：（3）隨機森林算法隨機林是包含多個決策樹的分類器，決策樹的輸出類別由各個樹的輸出類別模式確定。實際上，從直觀的角度來看，每個決策樹都是一個分類器（假設(shè)這是一個分類問題），對于輸入樣本，在N個樹中有N個分類結(jié)果。隨機森林將分類的所有投票結(jié)果組合在一起，并將投票最多的類別指定為最終結(jié)果。這是最簡單的包裝想法，隨機森林算法的過程如圖4-4所示：圖4-4隨機森林算法模型參數(shù)：隨機森林中有許多參數(shù)，其中對模型影響更大的參數(shù)是“n_estimators”，“max_features”和“max_depth”。n_estimators：通常是通過對原始數(shù)據(jù)集進行采樣而創(chuàng)建的子數(shù)據(jù)集的數(shù)量，即決策樹的數(shù)量。如果n_estimator太小，則很容易欠擬合；如果n_estimator太大，則模型無法得到很大改進。因此，n_estimators選擇中間值。0.20版本默認為10，0.22版本默認為100。max_features：構(gòu)建決策樹的最佳模型時考慮的最大特征數(shù)。默認值為“自動”，即最大特征數(shù)為N的平方根，“l(fā)og2”表示最大特征數(shù)，“sqrt”表示最大特征數(shù)。如果為整數(shù)，則表示最大特征數(shù)。如果為浮點數(shù)（N*max_features）表示舍入，其中N表示樣本中的特征數(shù)max_depth：決策樹的最大深度，如果等于None，則構(gòu)造時決策樹將具有最佳模型。這意味著您不必限制子樹的深度，如果模型的樣本量較大，并且具有很多特征，則最好限制最大深度（如果樣本量較?。┗蚬δ芎苌?，最大深度不受限制。隨機森林算法：首先，先對樣本數(shù)據(jù)進行有放回的抽樣，得到多個樣本集。具體來講就是每次從原來的N個訓練樣本中有放回地隨機抽取N個樣本。然后，從候選的特征中隨機抽取m個特征，作為當前節(jié)點下決策的備選特征，從這些特征中選擇最好地劃分訓練樣本的特征。用每個樣本集作為訓練樣本構(gòu)造決策樹。單個決策樹在產(chǎn)生樣本集和確定特征后，使用CART算法計算，不剪枝。最后，得到所需數(shù)目的決策樹后，隨機森林方法對這些樹的輸出進行投票，以得票最多的類作為隨機森林的決策。4.2機器學習預測模型仿真4.2.1數(shù)據(jù)的收集與預處理1.數(shù)據(jù)收集在kaggle網(wǎng)站下載所需的開源所需的數(shù)據(jù)集。對實驗數(shù)據(jù)進行簡單的統(tǒng)計分析，性別、年齡等分布特征如下圖4-5、4-6所示：圖4-5性別分布圖4-6數(shù)據(jù)年齡分布2．數(shù)據(jù)預處理在對數(shù)據(jù)進行統(tǒng)計分析之前，必須解決數(shù)據(jù)的集中問題，并獲得可以直接分析的數(shù)據(jù)。本文的數(shù)據(jù)主要包括以下幾個問題。首先，像sex和construction這樣的數(shù)據(jù)被格式化為文本數(shù)據(jù)類型。無法參與直接數(shù)值計算。也就是說因為年齡和血壓等各種值的數(shù)據(jù)收集范圍不同，因此值屬性越大，對結(jié)果的產(chǎn)生的影響越大，預測偏差也越大。解決這些問題并獲取可直接使用的數(shù)據(jù)，這就是實際輸出。（1）缺失值的處理缺乏數(shù)據(jù)特性的樣品通常有幾種解決方法。用現(xiàn)有的平均值填寫虧損值。用類似樣品的平均值填寫缺損值。用其它的機器學習算法預測缺失值也是一種方法。因為原始數(shù)據(jù)集不多，所以數(shù)值不足的例子使用了本文件中第一個方法填補缺損值。對于標簽數(shù)據(jù)缺失的樣本，由于這些標簽的特性和性能的差異，很難用其他有效值來替換丟失的標簽而且它有直接影響算法模型的性能。因此，我直接舍棄掉這些樣品。.（2）文本標記數(shù)據(jù)的處理對于數(shù)據(jù)源中的二進制文本數(shù)據(jù)，將多值型文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型文本數(shù)據(jù)，然后通過映射的關(guān)系將多值型的文本數(shù)據(jù)運用程序轉(zhuǎn)換為數(shù)值型的文本數(shù)據(jù)。需要我們知道的是，我們雖然把性別等數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)類型的1和0，但這也是不嚴謹?shù)?，因為它們僅僅只表示了兩個不同的人，無法進行比較，如果把它直接放進算法的模型中去，會讓我們的算法產(chǎn)生一些差錯，所以我們使用一個熱代碼去解決此問題。比如在性別的屬性中，我們用01表示女性而用10去表示男性，用現(xiàn)在的兩位代碼去換掉原先的單個代碼。解決取值范圍不同的數(shù)據(jù)針對一些數(shù)據(jù)的取值范圍不一樣，我們通常使用標準處理方法。也就是說，按照固定的比例去壓縮我們的數(shù)據(jù)，將數(shù)據(jù)限制在某個單位里面，刪除數(shù)據(jù)的單位限制，將數(shù)據(jù)轉(zhuǎn)換為純無量綱的值，以實現(xiàn)不同的單位的比較和加權(quán)大小不同的指標。本文檔使用偏差方法標準化數(shù)據(jù)，線性化原始數(shù)據(jù)，并創(chuàng)建[0,1]之間的數(shù)據(jù)。4.2.2建立訓練及測試集我們在剛開始的準備的數(shù)據(jù)中選擇了13個最具有代表性的數(shù)據(jù)，用來訓練和測試模型。在建模過程中，在不同的階段我們會使用這些數(shù)據(jù)集來為我們服務。我們在建筑模型的過程中訓練集是重要的組成。我們通過驗證集來分析模型的誤差并以此來評估模型的性能，測試集是來測試我們的模型在接收新數(shù)據(jù)的時候是否可以對新數(shù)據(jù)來擬合而且可以判斷我們的模型是狗能夠抵消誤差。根據(jù)數(shù)據(jù)集的特征，雖然數(shù)據(jù)來自不同的地方，但是它們具有相同的屬性特征，我們預測結(jié)果可采用一樣的方法。因此，將所有數(shù)據(jù)集放在一起以創(chuàng)建樣本數(shù)為924的數(shù)據(jù)集，然后將數(shù)據(jù)集中的每個樣本的數(shù)據(jù)序列隨機混合，然后將訓練樣本除以3：1：1的比率只需按3：1：1的比例將樣本數(shù)量分為訓練集，驗證集和測試集，數(shù)據(jù)集中的樣本數(shù)量就不夠，這可能會導致模型出錯。因此，本文將使用“十倍交叉驗證方法”對數(shù)據(jù)進行細分，并對模型進行訓練和評估。在對數(shù)據(jù)集中的樣本進行隨機編碼后，將數(shù)據(jù)集劃分為10個數(shù)據(jù)子集，將前9個數(shù)據(jù)集用作訓練集，第10個數(shù)據(jù)集使用評估模型。第二次使用前8個數(shù)據(jù)集和第10個數(shù)據(jù)集。在一個數(shù)據(jù)集上訓練模型，并在第九個數(shù)據(jù)集上評估模型；以此類推，將所有10個數(shù)據(jù)子集用于評估模型，并將平均值用作模型的性能指標。4.2.3訓練測試流程在完成上述數(shù)據(jù)處理和數(shù)據(jù)集劃分之后，將開始數(shù)據(jù)建模。本文以Python為開發(fā)平臺，使用Python中的邏輯回歸，決策樹分類器和隨機森林分類器模型對數(shù)據(jù)集進行訓練和測試，并使用ROC_auc_Score等功能對模型進行評估。由于許多原則上推導的算法都針對兩個分類問題，例如邏輯回歸，支持向量機等，因此，如果將這些算法直接應用于多元分類問題，則原則上需要考慮多元分類的情況，通常對多元分類進行變換分類問題可以分為兩個分類問題。在本文的分類問題中，我們首先為單個模型建立一個二進制分類函數(shù)，對該模型函數(shù)進行重復的使用，并輸入5個不同的訓練集以獲得5個二進制分類模型。我們產(chǎn)生的新樣本進行分類。建模過程首先選擇訓練集中標記為0的所有樣本作為正樣本，其余樣本作為負樣本。訓練兩個模型的分類器0.這將打印樣本標簽的概率值，應該為0.否則輸出0.然后選擇訓練集中所有標記為1的樣本作為正樣本，其余樣本作為陰性樣本。對兩個分類模型1進行訓練，并輸出標記為1的樣本的概率值。以此類推，形成模型2，模型3和模型4。將樣本的預測特征輸入到上面的五個模型中以獲得標記的概率值0、1、2、3和4.比較這五個概率值并選擇與模型匹配的標記值。樣本預測的結(jié)果是最高的概率值。預測模型的流程圖如圖4-7所示。圖4-7預測模型流程圖4.3模型對比與分析在本文中，錯誤率，F(xiàn)L評分和AUC用于評估模型。我們可以在測試套件中比較樣本的特征，以獲得最終的預測y_標簽值和樣本的實際y_標簽值，并計算錯誤率。然后為模型的每個二進制子模型創(chuàng)建一個混淆矩陣。如果子模型的預測概率大于0.5，并且模型的最終結(jié)果與子模型對應的標簽匹配，則這是真實情況。當模型的輸出與子模型對應的標簽不同時，則它是錯誤的反例；類似地，如果子模型的預測概率值小于0.5，并且模型的最終輸出與子模型的對應標簽相同，則為偽正例。如果模型的輸出與子模型的相應標簽相同，則它是真實的反例。計算所有子模型的fl得分和AUC值，然后將五個二元模型的fl得分和AUC值取平均值作為最終總模型的fl得分和AUC值，從而評估整個模型，如表4-6所示。表4-1模型對比與分析第5章心臟和腎臟疾病預測系統(tǒng)的開發(fā)通過上面的分析認識到對慢性疾病管理的重要性，以心臟和腎臟疾病為例對預測系統(tǒng)進行開發(fā)。5.1心臟病和腎臟病預測系統(tǒng)分析5.1.1對需求功能的分析此系統(tǒng)的用戶大體上可以劃分為兩種：分別是用戶和系統(tǒng)管理員，其中用戶又可以劃分兩種。普通用戶和醫(yī)療人員。普通用戶只能對自己的數(shù)據(jù)進行查看而醫(yī)療人員可以通過登入這個系統(tǒng)去查看所有人的健康數(shù)據(jù)。在查看這個用戶的相關(guān)數(shù)據(jù)后，他們就可以采取相關(guān)的措施對病人進行治療。管理員可以管理用戶的相關(guān)信息并且可以對系統(tǒng)進行維護和設(shè)置系統(tǒng)的相關(guān)信息。本系統(tǒng)的相關(guān)主要功能是對用戶的相關(guān)數(shù)據(jù)進行管理，在此基礎(chǔ)上包括四個分支模塊：對信息的基本管理、對健康數(shù)據(jù)的管理、對疾病進行風險預測和對疾病進行相關(guān)的干預。信息管理是指用戶在進行注冊登入后，可以對個人的基礎(chǔ)信息進行修改和補全。健康數(shù)據(jù)管理是對用戶的身體相關(guān)的指標狀況進行增刪改查的操作；疾病分線預測可以輸出用戶相對應的健康狀態(tài)，讓人們可以知道自己的身體狀況；在我們已知用戶的預測結(jié)果，我們可以針對用戶的健康狀況進行相關(guān)的治療措施。根據(jù)上述分析可了解用戶和管理員相應的功能需求，如圖5-1、5-2可以進行表示：圖5-1用戶功能圖5-2管理員功能5.1.2非功能性需求的分析非功能性需求是指為了滿足用戶需求而必須擁有的不包括功能需求意外的其他特性，一般包括可靠性、安全性、健壯性等相關(guān)方面。（1）穩(wěn)定性需求：系統(tǒng)只有長時間地保持穩(wěn)定狀態(tài)下運行，可以對異常狀況進行反抗，保障用戶的體驗，獲取他們的信任。（2）安全性需求：不論什么系統(tǒng)都要具備很強的信息保護能力，以此來保障用戶的隱私。（3）擴展性需求：在日新月異的信息化高速發(fā)展的時代。系統(tǒng)必須要具備與未來對接的可能，可擴展一些利于今后系統(tǒng)展的鏈接。5.2心血管疾病預測系統(tǒng)設(shè)計5.2.1總體設(shè)計在分析用戶需求和企業(yè)滿意度的基礎(chǔ)上，將預測系統(tǒng)分為信息管理和系統(tǒng)管理兩大部分，信息管理主要包括四個模塊：基礎(chǔ)的信息管理、健康數(shù)據(jù)的管理、對患者的健康狀態(tài)進行預測和對患者的后續(xù)管理。系統(tǒng)管理包括用戶設(shè)置和權(quán)限分配。此系統(tǒng)的大體結(jié)構(gòu)功能如圖5-3所示：圖5-3功能結(jié)構(gòu)圖在此系統(tǒng)中，角色分為兩種，分別是用戶和管理員，管理員的功能包括系統(tǒng)設(shè)置、日志管理、用戶管理等；用戶的主要功能有管理信息、管理健康數(shù)據(jù)、預測疾病風險、干預疾病。特此對上述功能描述進行詳細介紹：（1）管理員功能：用戶設(shè)置：管理員可以授權(quán)用戶的功能，并且可以對用戶的個人信息進行管理。系統(tǒng)維護：管理員可以對該系統(tǒng)進行一系列的維護措施，目的是為了讓該系統(tǒng)健康穩(wěn)定的長期的發(fā)展下去，讓此系統(tǒng)的功能能夠一直正常運行下去。日志管理：管理員通過查看日志，可以了解到該系統(tǒng)出現(xiàn)了哪些問題，找到導致出現(xiàn)問題的因素。數(shù)據(jù)管理：可以查詢系統(tǒng)的數(shù)據(jù)和備份。保障系統(tǒng)長久地運行下去。（2）用戶功能：信息管理：在用戶注冊登入系統(tǒng)后，可以查詢。改善自己的基礎(chǔ)信息。提高預測的健康數(shù)據(jù)，有利于醫(yī)護人員查找患者的信息。健康數(shù)據(jù)管理：對用戶的健康數(shù)據(jù)進行增刪改查等操作；方便用戶知道自己的身體狀況，為后續(xù)的資料做好準備。疾病風險預測；通過用戶輸入的身體數(shù)據(jù)來預測是否患有慢性疾病，從而對用戶的健康狀態(tài)進行估計。疾病干預：通過查看用戶的身體各項數(shù)據(jù)并且通過該系統(tǒng)預測出來的結(jié)果，以此來對患者進行針對性的醫(yī)治，在漫長的對慢性疾病的治療的整個周期，醫(yī)護人員對患者的干預始終貫徹整個周期，目的是讓患者建立正確的健康觀念。5.2.2具體設(shè)計在分析了系統(tǒng)需求之后，使用面向目標的建模方法設(shè)計了系統(tǒng)，旨在創(chuàng)建一個疾病預測系統(tǒng)，我們當前最主要的事情是對用戶的健康數(shù)據(jù)進行分析和預測，我么可以使用Ros的UML建模語言來具體制作出一個類圖和系統(tǒng)的時間序列。系統(tǒng)類圖類是具有相同或相似屬性的抽象對象。它通常包括三個部分。名稱，屬性和動作。類名用于將項目與其他類別區(qū)分開。屬性是對象的特征抽象。，它表示對象靜態(tài)部分的通用屬性。操作是一種抽象行為，它表現(xiàn)了對象動態(tài)的部分特點。通常，根據(jù)類的功能特性，可以將其分為三種類型。它可以分為對象類型，控件類型和邊框類型。對象類是應為每種服務存儲的信息和操作的類型。。在系統(tǒng)需求分析中，它主要用于在系統(tǒng)中存儲信息?？刂祁愑糜诿枋鰬贸绦?qū)嵗械氖录骺刂菩袨?，并控制應用程序?qū)嵗械氖录樞?，實施業(yè)務邏輯。邊界類是外部環(huán)境和內(nèi)部事務之間交互的一種方式，用于顯示請求的公用。類圖由這些類別組成。它反映了系統(tǒng)的靜態(tài)結(jié)構(gòu)，并描述了整個系統(tǒng)的結(jié)構(gòu)之間的關(guān)系。有四種最常見的類型：依賴、泛化、關(guān)聯(lián)和實現(xiàn)。根據(jù)對類和類圖的分析，本文設(shè)計了整體的類圖如圖5-4所示。圖5-4整體類圖（2）系統(tǒng)序列圖順序圖是一種交互圖?？梢暬@示在建模對象之間發(fā)送的消息的時間序列，作為控制流時間序列。我們可以看到用戶是怎樣和系統(tǒng)之間是如何建立聯(lián)系。圖形可以更好地去表達一些復雜的轉(zhuǎn)換關(guān)系。序列圖是由對象、生命線、激活、消息、分支與從屬流等元素構(gòu)成的。消息序列是序列圖的重點。它可以指示如何在消息序列對象之間傳輸消息。順序圖是動態(tài)行為的描述，在系統(tǒng)分析和設(shè)計過程中非常重要。根據(jù)系統(tǒng)順序圖和用例圖的含義，文字顯示了用戶主要功能模塊的順序圖，圖5-5所示和疾病預測核心模塊的序列圖如圖5-5所示。圖5-5核心模塊序列圖對疾病的預測是該系統(tǒng)的重要模塊，圖5-6展示了用戶對疾病風險預測的序列圖：圖5-6疾病風險預測序列圖（3）數(shù)據(jù)庫的設(shè)計在一個項目開發(fā)的過程中對數(shù)據(jù)庫進行設(shè)計是非常重要的，它是指建立可以根據(jù)用戶需求有效存儲數(shù)據(jù)的數(shù)據(jù)庫。它可以將需求轉(zhuǎn)換為有效的數(shù)據(jù)存儲模型。數(shù)據(jù)庫的設(shè)計通常分為需求分析、概念結(jié)構(gòu)設(shè)計、邏輯結(jié)構(gòu)設(shè)計、數(shù)據(jù)庫物理設(shè)計、數(shù)據(jù)庫的實施和數(shù)據(jù)庫的運行與維護這幾個階段。我們要完成一個慢性疾病的預測系統(tǒng)，我們開始必須準確了解和分析用戶的需求，這是一步最重要的過程，在對需求進行了準確的分析之后，我們根據(jù)我們的信息表去完成對物理結(jié)構(gòu)的設(shè)計，運用MySQL作為我們來存儲數(shù)據(jù)的數(shù)據(jù)庫。我們按照系統(tǒng)的需求分析，要求管理員登錄此系統(tǒng)去對權(quán)限進行管理。登錄系統(tǒng)后，用戶只能使用基本信息管理，健康數(shù)據(jù)管理，疾病預測和疾病干預功能。在我們這個系統(tǒng)中，我們的數(shù)據(jù)表主要由用戶信息表、醫(yī)生信息表以及健康數(shù)據(jù)和預測結(jié)果的表。每個用戶一一對應著一張健康數(shù)據(jù)表，而健康數(shù)據(jù)表里面有多種身體健康因素。同理，每個用戶也對應著一個預測結(jié)果，但預測結(jié)果里面的信息包含多個用戶。綜上所述，數(shù)據(jù)庫表的總覽如下表5-1所示：表5-1數(shù)據(jù)庫表總覽表5-2用戶信息表表5-3醫(yī)生信息表5.3心臟和腎臟疾病預測系統(tǒng)實現(xiàn)主頁面展示在系統(tǒng)的主頁面，我們展示了基本的需求列表和一些相關(guān)信息、學術(shù)活動等，展示如圖5-7、5-8：圖5-7系統(tǒng)主頁圖5-8核心代碼健康數(shù)據(jù)管理健康數(shù)據(jù)管理可以對用戶的數(shù)據(jù)進行增、刪、改、查等操作，這里以醫(yī)護人員的權(quán)限為展示，普通用戶的話只能看自己的數(shù)據(jù)。展示如圖5-9：圖5-9健康數(shù)據(jù)管理疾病風險預測該功能是此系統(tǒng)的核心功能，在建立風險預測模型的基礎(chǔ)上實現(xiàn)預測，用python代碼實現(xiàn)：展示如圖5-10、5-11、5-12：圖5-10疾病預測選擇圖5-11選擇確認框圖5-12預測結(jié)果展示

結(jié)論總結(jié)：在信息化高速發(fā)展的時代，人們的生活習慣與以往發(fā)生了很大的改變，燒烤啤酒，炸雞漢堡等一些垃圾食品已經(jīng)成為人們餐桌上的?？?。人們的工作壓力也日趨增大，在巨大的壓力下，人們的生活不規(guī)律，在白天的辛苦的工作后，回到家人們都不想運動，晚飯也是靠外賣草草解決，并且在晚上熬夜玩手機，在這一系列的因素作用下。人們的身體健康狀況每況日下，因此我國的慢性疾病患者的人數(shù)都在逐年增加，慢性疾病已經(jīng)成為我們國家乃至全世界不可忽略的問題，在對慢性疾病的長期的研究過程，我們知道了慢性疾病是一種難以找到病因、治療周期很長且不能夠自愈的疾病。對于慢性疾病的治療我們不能等發(fā)病后再去醫(yī)治，我們需要的是在發(fā)病前對人們的身體狀況進行預測。由于我國的醫(yī)療資源處于緊張狀態(tài)，人們普遍沒有去預防疾病的知識和意識，導致很多慢性疾病患者就診不及時。因此，為了更好的預測人們是否患有慢性疾病，我以慢性疾病中的心臟和腎臟疾病為例子，設(shè)計一個心臟和腎臟疾病的預測系統(tǒng)，讓這個系統(tǒng)可以對患有此疾病的患者進行預測和及時的治療，希望能夠緩解我國慢性疾病的醫(yī)療的壓力，本論文大體的設(shè)計內(nèi)容如下：（1）提出了新型慢性疾病的管理模式，通過與傳統(tǒng)的慢性疾病進行對比研究，提出傳統(tǒng)模式下的管理方式的不足之處，并

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《基于機器學習的疾病預測系統(tǒng)研究案例報告》14000字

文檔簡介

溫馨提示

最新文檔

評論

《基于機器學習的疾病預測系統(tǒng)研究案例報告》14000字

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔