從專(zhuān)家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫(kù)_第1頁(yè)
從專(zhuān)家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫(kù)_第2頁(yè)
從專(zhuān)家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫(kù)_第3頁(yè)
從專(zhuān)家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫(kù)_第4頁(yè)
從專(zhuān)家診病模型實(shí)例理解智慧醫(yī)療大數(shù)據(jù)文庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 HYPERLINK / 思邁特軟件大數(shù)據(jù)分析 頁(yè) 從專(zhuān)家診病病模型實(shí)例例理解智慧慧醫(yī)療大數(shù)數(shù)據(jù)大數(shù)據(jù)可謂謂是當(dāng)紅炸子子雞,對(duì)于它的的應(yīng)用場(chǎng)景,人們已經(jīng)做做了充分的想象,很多也在逐步落地,比如智慧醫(yī)療療。醫(yī)療行業(yè)業(yè)正更多的融融入人工智智慧、傳感感技術(shù)等高高科技,使使醫(yī)療服務(wù)務(wù)走向真正正意義的智智能化。面對(duì)不同受受眾,智慧醫(yī)療有有著不同的的內(nèi)涵。對(duì)對(duì)于公眾,意意味著更便捷可及及的醫(yī)療服服務(wù);對(duì)于醫(yī)護(hù)人員,不不僅可以提提高診療速度,還可以讓診診療更加精準(zhǔn)準(zhǔn),通過(guò)大量的的數(shù)據(jù)分析析支持他們們的診斷。這里就不得得不提到專(zhuān)家系統(tǒng)統(tǒng),它應(yīng)該是一個(gè)個(gè)典型的醫(yī)醫(yī)療應(yīng)用,是大數(shù)據(jù)和和人工智能能的緊密結(jié)合。專(zhuān)家系

2、統(tǒng)是是一個(gè)具有有大量的專(zhuān)專(zhuān)門(mén)知識(shí)與與經(jīng)驗(yàn)的程程序系統(tǒng),它它應(yīng)用人工工智能技術(shù)術(shù)和計(jì)算機(jī)機(jī)技術(shù),根根據(jù)某領(lǐng)域域一個(gè)或多多個(gè)專(zhuān)家提提供的知識(shí)識(shí)和經(jīng)驗(yàn),進(jìn)進(jìn)行推理和和判斷,模模擬人類(lèi)專(zhuān)專(zhuān)家的決策策過(guò)程,以以便解決那那些需要人人類(lèi)專(zhuān)家處處理的復(fù)雜雜問(wèn)題。簡(jiǎn)簡(jiǎn)言之,專(zhuān)專(zhuān)家系統(tǒng)是是一種模擬擬人類(lèi)專(zhuān)家家解決領(lǐng)域域問(wèn)題的計(jì)計(jì)算機(jī)程序序系統(tǒng)。專(zhuān)專(zhuān)家系統(tǒng)的的發(fā)展已經(jīng)經(jīng)歷了3個(gè)階段,正正向第四代代過(guò)渡和發(fā)發(fā)展。第一一代專(zhuān)家系系統(tǒng)(deendraal、macssyma等等)以高度度專(zhuān)業(yè)化、求解專(zhuān)門(mén)門(mén)問(wèn)題的能能力強(qiáng)為特特點(diǎn)。但在在體系結(jié)構(gòu)構(gòu)的完整性性、可移植植性、系統(tǒng)統(tǒng)的透明性性和靈活性性等方面存存在缺陷,求求解問(wèn)題的

3、的能力弱。第二代專(zhuān)專(zhuān)家系統(tǒng)(mycin、casnet、prospector、hearsay等)屬單學(xué)科專(zhuān)業(yè)型、應(yīng)用型系統(tǒng),其體系結(jié)構(gòu)較完整,移植性方面也有所改善,而且在系統(tǒng)的人機(jī)接口、解釋機(jī)制、知識(shí)獲取技術(shù)、不確定推理技術(shù)、增強(qiáng)專(zhuān)家系統(tǒng)的知識(shí)表示和推理方法的啟發(fā)性、通用性等方面都有所改進(jìn)。第三代專(zhuān)家系統(tǒng)屬多學(xué)科綜合型系統(tǒng),采用多種人工智能語(yǔ)言,綜合采用各種知識(shí)表示方法和多種推理機(jī)制及控制策略,并開(kāi)始運(yùn)用各種知識(shí)工程語(yǔ)言、骨架系統(tǒng)及專(zhuān)家系統(tǒng)開(kāi)發(fā)工具和環(huán)境來(lái)研制大型綜合專(zhuān)家系統(tǒng)。在總結(jié)前三代專(zhuān)家系統(tǒng)的設(shè)計(jì)方法和實(shí)現(xiàn)技術(shù)的基礎(chǔ)上,已開(kāi)始采用大型多專(zhuān)家協(xié)作系統(tǒng)、多種知識(shí)表示、綜合知識(shí)庫(kù)、自組織解題機(jī)制

4、、多學(xué)科協(xié)同解題與并行推理、專(zhuān)家系統(tǒng)工具與環(huán)境、人工神經(jīng)網(wǎng)絡(luò)知識(shí)獲取及學(xué)習(xí)機(jī)制等最新人工智能技術(shù)來(lái)實(shí)現(xiàn)具有多知識(shí)庫(kù)、多主體的第四代專(zhuān)家系統(tǒng)。接下來(lái)將通通過(guò)生動(dòng)有有趣的過(guò)程程講解,幫幫助讀者了了解使用SmaartMiiningg敏捷挖掘掘桌面版,以以決策樹(shù)算算法為背景景,依托大大數(shù)據(jù)如何何構(gòu)建專(zhuān)家家診病模型型,以及如如何通過(guò)可可視化探索索數(shù)據(jù),實(shí)實(shí)現(xiàn)決策樹(shù)樹(shù)同樣的計(jì)計(jì)算結(jié)果!該案例的工工作流如下下:商業(yè)目標(biāo)業(yè)務(wù)理解:該案例所所用的數(shù)據(jù)據(jù)是一份醫(yī)醫(yī)生診病的的數(shù)據(jù),如如下:表1 數(shù)據(jù)據(jù)視圖其中,年齡齡、性別、血壓、膽膽固醇、鈉鈉、鉀是病病人的指標(biāo)標(biāo),而藥物物是醫(yī)生針針對(duì)病人的的情況開(kāi)出出的藥物。業(yè)務(wù)

5、目標(biāo):建立專(zhuān)家家診病系統(tǒng)統(tǒng),當(dāng)把病病人的指標(biāo)標(biāo)輸入到該該系統(tǒng)時(shí),系系統(tǒng)會(huì)自動(dòng)動(dòng)輸出該給給此類(lèi)病人人開(kāi)出的藥藥物。數(shù)據(jù)挖掘目目標(biāo):建立立專(zhuān)家診病病模型,該該模型以病病人的病例例指標(biāo)為輸輸入,以藥藥物為目標(biāo)標(biāo),建立預(yù)預(yù)測(cè)模型,該該模型可以以根據(jù)輸入入指標(biāo)的值值,計(jì)算預(yù)預(yù)測(cè)值(藥藥物)。操作實(shí)現(xiàn):新建工作流流可以點(diǎn)擊文文件菜單下下的新建或者點(diǎn)擊擊工具欄左左方的新建建按鈕( )開(kāi)始創(chuàng)創(chuàng)建工作流流。點(diǎn)擊后后會(huì)彈出以以下向?qū)Ы缃缑妫狠斎牍ぷ髁髁鞯拿趾蠛蠹纯赏瓿沙蓜?chuàng)建:圖1 新建建工作流導(dǎo)入數(shù)據(jù)此時(shí)要根據(jù)據(jù)數(shù)據(jù)存儲(chǔ)儲(chǔ)文件的格格式選擇相相應(yīng)的導(dǎo)入入節(jié)點(diǎn)。在在這里由于于數(shù)據(jù)源是是CSV文件件,因此可可以選擇C

6、CSV導(dǎo)入入節(jié)點(diǎn)(也也可以使用用可變文件件)。左側(cè)側(cè)節(jié)點(diǎn)庫(kù)中中CSV導(dǎo)入入節(jié)點(diǎn)拖到到右側(cè)的工工作流中。雙擊節(jié)點(diǎn)點(diǎn)或者右鍵鍵菜單中選選擇配置,彈出如如下配置窗窗口:圖2 CCSV節(jié)點(diǎn)點(diǎn)配置點(diǎn)擊 按按鈕,選擇擇相應(yīng)的數(shù)數(shù)據(jù)文件。注意,此處處如果數(shù)據(jù)據(jù)第一行包包含字段名名,則選中中 (該數(shù)據(jù)據(jù)有),如如果有行IID字段,則則選中 (該數(shù)據(jù)據(jù)無(wú),則不不選中)。配置完成成后,點(diǎn)擊擊 。節(jié)點(diǎn)下方的的預(yù)警符號(hào)號(hào)從 變成了 。紅色表表示節(jié)點(diǎn)尚尚未配置或或者配置有有誤,此時(shí)時(shí)節(jié)點(diǎn)不可可執(zhí)行;黃黃色表示節(jié)節(jié)點(diǎn)可以執(zhí)執(zhí)行。點(diǎn)擊擊右鍵菜單單的 或者點(diǎn)擊擊工具欄的的 ,即可執(zhí)執(zhí)行工作流流。執(zhí)行完完成后預(yù)警警符號(hào)變成成

7、。點(diǎn)擊右鍵菜菜單的 可以查詢(xún)?cè)償?shù)據(jù)。另另外,節(jié)點(diǎn)點(diǎn)的右端口口也會(huì)懸停停顯示數(shù)據(jù)據(jù)的行數(shù)和和字段數(shù)。理解數(shù)據(jù)使用統(tǒng)計(jì)分分析菜單下下的統(tǒng)計(jì)節(jié)節(jié)點(diǎn)可以對(duì)對(duì)數(shù)據(jù)進(jìn)行行描述,這這是建模之之前必須要要做的工作作,一方面面是為了設(shè)設(shè)計(jì)合理的的實(shí)施方案案,另外一一方面也是是為了更好好的選擇合合適的算法法。從表22中可以看看出每種分分類(lèi)變量的的取值及每每種取值的的個(gè)數(shù)。比比如,從這這里我們可可以看出藥藥物字段一一共包含五五種取值,且且出現(xiàn)最多多的是Y藥物。在在這里目標(biāo)標(biāo)變量為分分類(lèi)型,因因此只能選選擇分類(lèi)預(yù)預(yù)測(cè)類(lèi)模型型,如決策策樹(shù)、邏輯輯回歸等。表2 數(shù)據(jù)據(jù)描述預(yù)建模接下來(lái)便是是嘗試建模模,看看建建模效果。圖3

8、 預(yù)建建模首先,從數(shù)數(shù)據(jù)準(zhǔn)備列列轉(zhuǎn)換菜單單下選擇類(lèi)類(lèi)型轉(zhuǎn)換節(jié)節(jié)點(diǎn)。由于于性別、血血壓、膽固固醇三個(gè)字字段實(shí)際存存儲(chǔ)類(lèi)型該該是字符型型,但這里里是整型,因因此為了便便于以下分分析,使用用類(lèi)型轉(zhuǎn)換換節(jié)點(diǎn)將它它們的類(lèi)型型從整型轉(zhuǎn)轉(zhuǎn)化為字符符型。配置置如下:其次,使用用類(lèi)型節(jié)點(diǎn)點(diǎn)指定目標(biāo)標(biāo)變量的角角色,將藥藥物的角色色設(shè)為目標(biāo)標(biāo)。再次,從數(shù)數(shù)據(jù)準(zhǔn)備的的行菜單中中選擇分區(qū)區(qū)節(jié)點(diǎn)。使使用分區(qū)節(jié)節(jié)點(diǎn)可以將將數(shù)據(jù)集分分成測(cè)試集集和訓(xùn)練集集,訓(xùn)練集集用于訓(xùn)練練模型,測(cè)測(cè)試集用于于測(cè)試模型型。配置如如下:注意,如果果選中使用用隨機(jī)種子子( ),則每每次運(yùn)行分分區(qū)結(jié)果將將會(huì)是一樣樣的,否則則每次運(yùn)行行的結(jié)果將將會(huì)不

9、同,進(jìn)進(jìn)而建模的的結(jié)果也會(huì)會(huì)不同。通通常是選擇擇選中該項(xiàng)項(xiàng),使得訓(xùn)訓(xùn)練集和測(cè)測(cè)試集都固固定。另外外,此處還還有個(gè)很重重要的用途途,不選中中 ,多次運(yùn)運(yùn)行可以測(cè)測(cè)試數(shù)據(jù)分分布規(guī)律和和模型穩(wěn)定定性。還有一點(diǎn)要要注意,這這里分區(qū)即即把數(shù)據(jù)集集隨機(jī)分成成兩份,通通常訓(xùn)練集集要比測(cè)試試集大,通通常分為55:5,6:4,7:3,8:2,9:1。數(shù)據(jù)集集越小,訓(xùn)訓(xùn)練集應(yīng)該該分的更多多,原因是是要保證模模型的穩(wěn)定定性,參與與訓(xùn)練的數(shù)數(shù)據(jù)要足夠夠多。實(shí)際際中,各種種比例都會(huì)會(huì)嘗試,目目的有二:一是選擇擇最佳的比比例,二是是測(cè)試模型型的穩(wěn)定性性。然后,選擇擇分類(lèi)預(yù)測(cè)測(cè)節(jié)點(diǎn),因因?yàn)槟繕?biāo)變變量(藥物物)為分類(lèi)類(lèi)型。此

10、處處我們重點(diǎn)點(diǎn)學(xué)習(xí)決策策樹(shù)算法,所所以就先選選擇決策樹(shù)樹(shù)算法節(jié)點(diǎn)點(diǎn)。節(jié)點(diǎn)連連接如上圖圖3所示,在在決策樹(shù)(訓(xùn)訓(xùn)練)節(jié)點(diǎn)點(diǎn)配置中選選擇目標(biāo)變變量藥物。其中,決決策樹(shù)(訓(xùn)訓(xùn)練)節(jié)點(diǎn)點(diǎn)連接分區(qū)區(qū)節(jié)點(diǎn)。決決策樹(shù)訓(xùn)練練節(jié)點(diǎn)可以以采用默認(rèn)認(rèn)配置,無(wú)無(wú)需修改配配置,如下下:最后,使用用分類(lèi)評(píng)估估節(jié)點(diǎn)評(píng)估估模型的準(zhǔn)準(zhǔn)確性。配配置如下圖圖所示:評(píng)估結(jié)果:表3 模型型評(píng)估1從表3中可可以看出,模模型測(cè)試準(zhǔn)準(zhǔn)確度為995%,誤誤判5%。預(yù)建建模的目的的是為了從從整體判斷斷現(xiàn)有變量量與目標(biāo)變變量的相關(guān)關(guān)性,以便便可以根據(jù)據(jù)經(jīng)驗(yàn)預(yù)估估最終的效效果和可操操作性。接下來(lái)如何何優(yōu)化模型型呢?通常常來(lái)說(shuō)有三三種辦法:第一,增加

11、加新數(shù)據(jù),以以便引入更更多重要的的影響因素素;第二,嘗試試其他模型型,以便找找到更適合合的模型;第三,優(yōu)化化輸入,即即基于已有有數(shù)據(jù)派生生更多重要要的變量,或或者過(guò)濾不不重要的變變量。這三三者中,第第一種最難難以實(shí)現(xiàn),一一般企業(yè)的的數(shù)據(jù)是有有限的,企企業(yè)內(nèi)部可可用數(shù)據(jù)及及外部可用用網(wǎng)絡(luò)數(shù)據(jù)據(jù),在項(xiàng)目目需求調(diào)研研階段就應(yīng)應(yīng)該明確,而而企業(yè)外部部行業(yè)數(shù)據(jù)據(jù)難以獲取取。第二種種最容易嘗嘗試,所有有可用模型型可以快速速?lài)L試一遍遍,這個(gè)是是每個(gè)項(xiàng)目目中都必做做的,但卻卻不是最重重要的方法法。而第三三種方法才才是項(xiàng)目中中最可行,也也是最重要要的辦法。如何優(yōu)化輸輸入?這是是第三種方方法的實(shí)現(xiàn)現(xiàn)目標(biāo)。而而優(yōu)化

12、輸入入最重要的的環(huán)節(jié)就是是數(shù)據(jù)探索索。數(shù)據(jù)探索圖4 數(shù)據(jù)據(jù)可視化探探索數(shù)據(jù)探索最最核心的一一項(xiàng)工作就就是探索輸輸入變量與與目標(biāo)變量量的相關(guān)性性。分析變變量的相關(guān)關(guān)性可以使使用相關(guān)性性計(jì)算,也也可以使用用圖形化分分析,而后后者最直觀觀常用。分分析兩個(gè)分分類(lèi)型變量量可以使用用條形圖、網(wǎng)絡(luò)圖或或者交叉表表。分析兩兩個(gè)數(shù)值型型變量可以以使用散點(diǎn)點(diǎn)圖。分析析一個(gè)數(shù)值值型變量和和一個(gè)分類(lèi)類(lèi)型變量可可以使用直直方圖。通過(guò)分析,血血壓和藥物物字段有著著強(qiáng)相關(guān)性性,因?yàn)閺膹膱D中可以以看出使用用藥物B和藥物A的人都是是高血壓(3表示高血壓,2表示正常,1表示低血壓),使用藥物C的人都是低血壓,這種很明細(xì)的規(guī)律反映

13、出兩個(gè)字段間存在很強(qiáng)的相關(guān)關(guān)系,如下圖所示:同理,膽固固醇和選擇擇藥物之間間也有一定定相關(guān)性,而而性別和選選擇藥物相相關(guān)性不大大,如下圖圖所示:接下來(lái)分析析數(shù)值型字字段的相關(guān)關(guān)性,從圖圖中可以看看出血液中中的鈉和鉀鉀相關(guān)性很很弱或者沒(méi)沒(méi)有。從圖圖形化的方方式判斷相相關(guān)性強(qiáng)弱弱的方法就就是看圖形形中的規(guī)律律,規(guī)律越越明顯,相相關(guān)性就越越強(qiáng),否則則越弱。就此圖來(lái)說(shuō)說(shuō),散點(diǎn)圖圖中的每一一個(gè)點(diǎn)表示示一個(gè)病例例,而我們們最想知道道的還不是是鈉和鉀的的相關(guān)性,而而是兩者與與藥物的相相關(guān)性,因因?yàn)樗幬锊挪攀俏覀兎址治龅哪繕?biāo)標(biāo)。所以我我們還想知知道散點(diǎn)圖圖中的每個(gè)個(gè)病例使用用的什么藥藥物。因此此,我們使使用藥

14、物作作為顏色區(qū)區(qū)分,重新新修正散點(diǎn)點(diǎn)圖。如下下: 從圖中可見(jiàn)見(jiàn),上三角角區(qū)都是淺淺紅色,說(shuō)說(shuō)明這部分分病例使用用的都是YY藥物。這這是很明顯顯的規(guī)律,說(shuō)說(shuō)明這里面面有一種很很強(qiáng)的關(guān)聯(lián)聯(lián)。用數(shù)學(xué)學(xué)的語(yǔ)言來(lái)來(lái)描述,就就是鈉和鉀鉀的比例與與藥物有很很強(qiáng)的相關(guān)關(guān)性。因此此,我們發(fā)發(fā)現(xiàn)了一個(gè)個(gè)很重要的的變量就是是鈉和鉀的的比例。因因此,我們們可以派生生一個(gè)變量量:鈉鉀比比例。優(yōu)化輸入首先,使用用派生字段段節(jié)點(diǎn)或者者Javaa代碼段節(jié)節(jié)點(diǎn)生成鈉鈉鉀比例字字段。配置置如下:其次,使用用過(guò)濾節(jié)點(diǎn)點(diǎn)過(guò)濾鈉和和鉀字段,否否則它們的的重復(fù)存在在會(huì)導(dǎo)致多多重共線(xiàn)性性問(wèn)題。配配置如下:過(guò)濾后預(yù)覽覽數(shù)據(jù)如下下:重新建模模

15、型整體評(píng)評(píng)估如下:表4 模型型評(píng)估2從表4中可可看出,模模型精度從從原來(lái)的995%提升升帶了1000%。當(dāng)當(dāng)然實(shí)際中中如果遇到到預(yù)測(cè)精度度為1000%的情況況一定就是是錯(cuò)的。下下面我們?cè)僭賮?lái)解讀一一下得到的的決策樹(shù)模模型。如下下圖所示,從整體來(lái)看看,得此類(lèi)類(lèi)病的人有有大約一半半的人(445%)選選擇服用了了Y藥物;如果病人血血液中鈉和和鉀的比例例大于144.82885,則選選擇服用YY藥物,準(zhǔn)準(zhǔn)確率為1100%;如果病人血血液中鈉和和鉀的比例例不大于114.82285,若若全部判成成X藥物準(zhǔn)確確率只有447.5%,因此再再看病人的的另外一個(gè)個(gè)指標(biāo)血壓壓;如果血壓(其其值有1、2和3)為2,則全

16、部部判為X藥物,準(zhǔn)準(zhǔn)確率為1100%;如果血壓為為1,全部判判為C藥物,準(zhǔn)準(zhǔn)確率僅550%。再再看另外一一個(gè)指標(biāo)膽膽固醇,若若膽 固醇的值值為1,全部判判為X藥物,則則準(zhǔn)確率為為100%。若膽固固醇的值為為2,全部判判為C 藥物,則則準(zhǔn)確率為為100%。如果血壓為為3,全部判判為A藥物,則則準(zhǔn)確率僅僅56.88%。再看看另外一個(gè)個(gè)指標(biāo)年齡齡,若 年齡大于于50.55歲,判為為B藥物,則則準(zhǔn)確率1100%。若年齡不不大于500.5歲,判判為A藥物, 準(zhǔn)確率為為100%。小結(jié)第一,在建建模中,應(yīng)應(yīng)該注意過(guò)過(guò)擬合問(wèn)題題。在商業(yè)業(yè)中建模的的目的是為為了商業(yè)應(yīng)應(yīng)用,因此此不僅要保保證模型的的準(zhǔn)確性,更更要保證模模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論