![從專家診病模型實例理解智慧醫(yī)療大數據文庫_第1頁](http://file4.renrendoc.com/view/d65e29be99b60a00c8e7b7614750e0bf/d65e29be99b60a00c8e7b7614750e0bf1.gif)
![從專家診病模型實例理解智慧醫(yī)療大數據文庫_第2頁](http://file4.renrendoc.com/view/d65e29be99b60a00c8e7b7614750e0bf/d65e29be99b60a00c8e7b7614750e0bf2.gif)
![從專家診病模型實例理解智慧醫(yī)療大數據文庫_第3頁](http://file4.renrendoc.com/view/d65e29be99b60a00c8e7b7614750e0bf/d65e29be99b60a00c8e7b7614750e0bf3.gif)
![從專家診病模型實例理解智慧醫(yī)療大數據文庫_第4頁](http://file4.renrendoc.com/view/d65e29be99b60a00c8e7b7614750e0bf/d65e29be99b60a00c8e7b7614750e0bf4.gif)
![從專家診病模型實例理解智慧醫(yī)療大數據文庫_第5頁](http://file4.renrendoc.com/view/d65e29be99b60a00c8e7b7614750e0bf/d65e29be99b60a00c8e7b7614750e0bf5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、從專家診病模型實例理解智慧醫(yī)療大數據大數據可謂是當紅炸子雞,關于它的應用場景,人們差不多做了充分的想象,專門多也在逐步落地,比如智慧醫(yī)療。醫(yī)療行業(yè)正更多的融入人工智慧、傳感技術等高科技,使醫(yī)療服務走向真正意義的智能化。面對不同受眾,智慧醫(yī)療有著不同的內涵。關于公眾,意味著更便捷可及的醫(yī)療服務;關于醫(yī)護人員,不僅能夠提高診療速度,還能夠讓診療更加精準,通過大量的數據分析支持他們的診斷。那個地點就不得不提到專家系統(tǒng),它應該是一個典型的醫(yī)療應用,是大數據和人工智能的緊密結合。專家系統(tǒng)是一個具有大量的專門知識與經驗的程序系統(tǒng),它應用人工智能技術和計算機技術,依照某領域一個或多個專家提供的知識和經驗,進
2、行推理和推斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復雜問題。簡言之,專家系統(tǒng)是一種模擬人類專家解決領域問題的計算機程序系統(tǒng)。專家系統(tǒng)的進展差不多歷了3個時期,正向第四代過渡和進展。第一代專家系統(tǒng)(dendral、macsyma等)以高度專業(yè)化、求解專門問題的能力強為特點。但在體系結構的完整性、可移植性、系統(tǒng)的透明性和靈活性等方面存在缺陷,求解問題的能力弱。第二代專家系統(tǒng)(mycin、casnet、prospector、hearsay等)屬單學科專業(yè)型、應用型系統(tǒng),其體系結構較完整,移植性方面也有所改善,而且在系統(tǒng)的人機接口、解釋機制、知識獵取技術、不確定推理技術、增強專家系統(tǒng)
3、的知識表示和推理方法的啟發(fā)性、通用性等方面都有所改進。第三代專家系統(tǒng)屬多學科綜合型系統(tǒng),采納多種人工智能語言,綜合采納各種知識表示方法和多種推理機制及操縱策略,并開始運用各種知識工程語言、骨架系統(tǒng)及專家系統(tǒng)開發(fā)工具和環(huán)境來研制大型綜合專家系統(tǒng)。在總結前三代專家系統(tǒng)的設計方法和實現(xiàn)技術的基礎上,已開始采納大型多專家協(xié)作系統(tǒng)、多種知識表示、綜合知識庫、自組織解題機制、多學科協(xié)同解題與并行推理、專家系統(tǒng)工具與環(huán)境、人工神經網絡知識獵取及學習機制等最新人工智能技術來實現(xiàn)具有多知識庫、多主體的第四代專家系統(tǒng)。接下來將通過生動有味的過程講解,關心讀者了解使用SmartMining敏捷挖掘桌面版,以決策樹算
4、法為背景,依托大數據如何構建專家診病模型,以及如何通過可視化探究數據,實現(xiàn)決策樹同樣的計算結果!該案例的工作流如下:商業(yè)目標業(yè)務理解:該案例所用的數據是一份大夫診病的數據,如下:表1 數據視圖其中,年齡、性不、血壓、膽固醇、鈉、鉀是病人的指標,而藥物是大夫針對病人的情況開出的藥物。業(yè)務目標:建立專家診病系統(tǒng),當把病人的指標輸入到該系統(tǒng)時,系統(tǒng)會自動輸出該給此類病人開出的藥物。數據挖掘目標:建立專家診病模型,該模型以病人的病例指標為輸入,以藥物為目標,建立預測模型,該模型能夠依照輸入指標的值,計算預測值(藥物)。操作實現(xiàn):新建工作流能夠點擊文件菜單下的新建或者點擊工具欄左方的新建按鈕( )開始創(chuàng)
5、建工作流。點擊后會彈出以下向導界面:輸入工作流的名字后即可完成創(chuàng)建:圖1 新建工作流導入數據現(xiàn)在要依照數據存儲文件的格式選擇相應的導入節(jié)點。在那個地點由于數據源是CSV文件,因此能夠選擇CSV導入節(jié)點(也能夠使用可變文件)。左側節(jié)點庫中CSV導入節(jié)點拖到右側的工作流中。雙擊節(jié)點或者右鍵菜單中選擇配置,彈出如下配置窗口:圖2 CSV節(jié)點配置點擊 按鈕,選擇相應的數據文件。注意,此處假如數據第一行包含字段名,則選中 (該數據有),假如有行ID字段,則選中 (該數據無,則不選中)。配置完成后,點擊 。節(jié)點下方的預警符號從 變成了 。紅色表示節(jié)點尚未配置或者配置有誤,現(xiàn)在節(jié)點不可執(zhí)行;黃色表示節(jié)點能夠
6、執(zhí)行。點擊右鍵菜單的 或者點擊工具欄的 ,即可執(zhí)行工作流。執(zhí)行完成后預警符號變成 。點擊右鍵菜單的 能夠查詢數據。另外,節(jié)點的右端口也會懸停顯示數據的行數和字段數。理解數據使用統(tǒng)計分析菜單下的統(tǒng)計節(jié)點能夠對數據進行描述,這是建模之前必須要做的工作,一方面是為了設計合理的實施方案,另外一方面也是為了更好的選擇合適的算法。從表2中能夠看出每種分類變量的取值及每種取值的個數。比如,從那個地點我們能夠看出藥物字段一共包含五種取值,且出現(xiàn)最多的是Y藥物。在那個地點目標變量為分類型,因此只能選擇分類預測類模型,如決策樹、邏輯回歸等。表2 數據描述預建模接下來便是嘗試建模,看看建模效果。圖3 預建模首先,從
7、數據預備列轉換菜單下選擇類型轉換節(jié)點。由于性不、血壓、膽固醇三個字段實際存儲類型該是字符型,但那個地點是整型,因此為了便于以下分析,使用類型轉換節(jié)點將它們的類型從整型轉化為字符型。配置如下:其次,使用類型節(jié)點指定目標變量的角色,將藥物的角色設為目標。再次,從數據預備的行菜單中選擇分區(qū)節(jié)點。使用分區(qū)節(jié)點能夠將數據集分成測試集和訓練集,訓練集用于訓練模型,測試集用于測試模型。配置如下:注意,假如選中使用隨機種子( ),則每次運行分區(qū)結果將會是一樣的,否則每次運行的結果將會不同,進而建模的結果也會不同。通常是選擇選中該項,使得訓練集和測試集都固定。另外,此處還有個專門重要的用途,不選中 ,多次運行能
8、夠測試數據分布規(guī)律和模型穩(wěn)定性。還有一點要注意,那個地點分區(qū)即把數據集隨機分成兩份,通常訓練集要比測試集大,通常分為5:5,6:4,7:3,8:2,9:1。數據集越小,訓練集應該分的更多,緣故是要保證模型的穩(wěn)定性,參與訓練的數據要足夠多。實際中,各種比例都會嘗試,目的有二:一是選擇最佳的比例,二是測試模型的穩(wěn)定性。然后,選擇分類預測節(jié)點,因為目標變量(藥物)為分類型。此處我們重點學習決策樹算法,因此就先選擇決策樹算法節(jié)點。節(jié)點連接如上圖3所示,在決策樹(訓練)節(jié)點配置中選擇目標變量藥物。其中,決策樹(訓練)節(jié)點連接分區(qū)節(jié)點。決策樹訓練節(jié)點能夠采納默認配置,無需修改配置,如下:最后,使用分類評估
9、節(jié)點評估模型的準確性。配置如下圖所示:評估結果:表3 模型評估1從表3中能夠看出,模型測試準確度為95%,誤判5%。預建模的目的是為了從整體推斷現(xiàn)有變量與目標變量的相關性,以便能夠依照經驗預估最終的效果和可操作性。接下來如何優(yōu)化模型呢?通常來講有三種方法:第一,增加新數據,以便引入更多重要的阻礙因素;第二,嘗試其他模型,以便找到更適合的模型;第三,優(yōu)化輸入,即基于已有數據派生更多重要的變量,或者過濾不重要的變量。這三者中,第一種最難以實現(xiàn),一般企業(yè)的數據是有限的,企業(yè)內部可用數據及外部可用網絡數據,在項目需求調研時期就應該明確,而企業(yè)外部行業(yè)數據難以獵取。第二種最容易嘗試,所有可用模型能夠快速
10、嘗試一遍,那個是每個項目中都必做的,但卻不是最重要的方法。而第三種方法才是項目中最可行,也是最重要的方法。如何優(yōu)化輸入?這是第三種方法的實現(xiàn)目標。而優(yōu)化輸入最重要的環(huán)節(jié)確實是數據探究。數據探究圖4 數據可視化探究數據探究最核心的一項工作確實是探究輸入變量與目標變量的相關性。分析變量的相關性能夠使用相關性計算,也能夠使用圖形化分析,而后者最直觀常用。分析兩個分類型變量能夠使用條形圖、網絡圖或者交叉表。分析兩個數值型變量能夠使用散點圖。分析一個數值型變量和一個分類型變量能夠使用直方圖。通過分析,血壓和藥物字段有著強相關性,因為從圖中能夠看出使用藥物B和藥物A的人差不多上高血壓(3表示高血壓,2表示
11、正常,1表示低血壓),使用藥物C的人差不多上低血壓,這種專門明細的規(guī)律反映出兩個字段間存在專門強的相關關系,如下圖所示:同理,膽固醇和選擇藥物之間也有一定相關性,而性不和選擇藥物相關性不大,如下圖所示:接下來分析數值型字段的相關性,從圖中能夠看出血液中的鈉和鉀相關性專門弱或者沒有。從圖形化的方式推斷相關性強弱的方法確實是看圖形中的規(guī)律,規(guī)律越明顯,相關性就越強,否則越弱。就此圖來講,散點圖中的每一個點表示一個病例,而我們最想明白的還不是鈉和鉀的相關性,而是兩者與藥物的相關性,因為藥物才是我們分析的目標。因此我們還想明白散點圖中的每個病例使用的什么藥物。因此,我們使用藥物作為顏色區(qū)分,重新修正散
12、點圖。如下: 從圖中可見,上三角區(qū)差不多上淺紅色,講明這部分病例使用的差不多上Y藥物。這是專門明顯的規(guī)律,講明那個地點面有一種專門強的關聯(lián)。用數學的語言來描述,確實是鈉和鉀的比例與藥物有專門強的相關性。因此,我們發(fā)覺了一個專門重要的變量確實是鈉和鉀的比例。因此,我們能夠派生一個變量:鈉鉀比例。優(yōu)化輸入首先,使用派生字段節(jié)點或者Java代碼段節(jié)點生成鈉鉀比例字段。配置如下:其次,使用過濾節(jié)點過濾鈉和鉀字段,否則它們的重復存在會導致多重共線性問題。配置如下:過濾后預覽數據如下:重新建模模型整體評估如下:表4 模型評估2從表4中可看出,模型精度從原來的95%提升帶了100%。因此實際中假如遇到預測精
13、度為100%的情況一定確實是錯的。下面我們再來解讀一下得到的決策樹模型。如下圖所示,從整體來看,得此類病的人有大約一半的人(45%)選擇服用了Y藥物;假如病人血液中鈉和鉀的比例大于14.8285,則選擇服用Y藥物,準確率為100%;假如病人血液中鈉和鉀的比例不大于14.8285,若全部判成X藥物準確率只有47.5%,因此再看病人的另外一個指標血壓;假如血壓(其值有1、2和3)為2,則全部判為X藥物,準確率為100%;假如血壓為1,全部判為C藥物,準確率僅50%。再看另外一個指標膽固醇,若膽 固醇的值為1,全部判為X藥物,則準確率為100%。若膽固醇的值為2,全部判為C 藥物,則準確率為100%。假如血壓為3,全部判為A藥物,則準確率僅56.8%。再看另外一個指標年齡,若 年齡大于50.5歲,判為B藥物,則準確率100%。若年齡不大于50.5歲,判為A藥物, 準確率為100%。小結第一,在建模中,應該注意過擬合問題。在商業(yè)中建模的目的是為了商業(yè)應用,因此不僅要保證模型的準確性,更要保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分包工人合同范本
- 上海工程裝修合同范本
- 倉庫電工維修合同范例
- 單元樓租賃合同范本
- 借款經濟合同范例
- 基坑及邊坡監(jiān)測沉降觀測合同范本
- 2025年度建筑工程資料歸檔與歸檔技術支持承包合同范本
- 個人住宅租房合同范本
- 企業(yè)金基金審計合同范例
- 全款購房定金合同范本
- 校長在行政會上總結講話結合新課標精神給學校管理提出3點建議
- T-CSUS 69-2024 智慧水務技術標準
- 2025年護理質量與安全管理工作計劃
- 湖南大學 嵌入式開發(fā)與應用(張自紅)教案
- 地下商業(yè)街的規(guī)劃設計
- 長安大學《畫法幾何與機械制圖一》2021-2022學年第一學期期末試卷
- 2024-2030年全球及中國低密度聚乙烯(LDPE)行業(yè)需求動態(tài)及未來發(fā)展趨勢預測報告
- 2024年新華東師大版七年級上冊數學全冊教案(新版教材)
- 醫(yī)院物業(yè)管理制度
- 初中數學思維訓練雙十字相乘法因式分解練習100道及答案
- (正式版)QC∕T 625-2024 汽車用涂鍍層和化學處理層
評論
0/150
提交評論