分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版 課件 第10章 實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第1頁(yè)
分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版 課件 第10章 實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第2頁(yè)
分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版 課件 第10章 實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第3頁(yè)
分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版 課件 第10章 實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第4頁(yè)
分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版 課件 第10章 實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)案例背景與需求概述目前我國(guó)的醫(yī)療行業(yè)現(xiàn)狀是,優(yōu)質(zhì)醫(yī)療資源集中在大城市,地方以及偏遠(yuǎn)地區(qū)醫(yī)療條件較差,醫(yī)療資源的配置不合理,導(dǎo)致了大量的長(zhǎng)尾需求,催生了廣闊的互聯(lián)網(wǎng)醫(yī)療市場(chǎng)。在此背景下,互聯(lián)網(wǎng)的“連接”屬性得以發(fā)揮,有效提高了長(zhǎng)尾市場(chǎng)的信息流通,降低了產(chǎn)品擴(kuò)大受眾群的成本,而大數(shù)據(jù)技術(shù)的應(yīng)用能夠使得醫(yī)療服務(wù)更加完善和精準(zhǔn)。醫(yī)療大數(shù)據(jù)的應(yīng)用主要指的是將各個(gè)層次的醫(yī)療信息和數(shù)據(jù),利用互聯(lián)網(wǎng)以及大數(shù)據(jù)技術(shù)進(jìn)行挖掘和分析,為醫(yī)療服務(wù)的提升提供有價(jià)值的依據(jù),使醫(yī)療行業(yè)運(yùn)營(yíng)更高效,服務(wù)更精準(zhǔn),最終降低患者的醫(yī)療支出。本案例將先介紹某中醫(yī)院的醫(yī)療大數(shù)據(jù)分析需求,然后采用多種大數(shù)據(jù)技術(shù)組件,形成一套從ETL、非格式化存儲(chǔ)、大數(shù)據(jù)挖掘分析以及可視化等一系列數(shù)據(jù)解決方案。

案例背景與需求概述以心臟病臨床診斷數(shù)據(jù)為處理對(duì)象通過(guò)對(duì)以往的病例進(jìn)行歸類打標(biāo)簽,預(yù)先評(píng)估出一些用以模型訓(xùn)練的病理數(shù)據(jù)利用大數(shù)據(jù)分析引擎(Hadoop、Spark等)計(jì)算出病理分類決策模型,再利用實(shí)時(shí)大數(shù)據(jù)平臺(tái)建立實(shí)時(shí)大數(shù)據(jù)處理原型,對(duì)前端數(shù)據(jù)源傳送過(guò)來(lái)的新病例,加以預(yù)測(cè)評(píng)估,演示包括平臺(tái)建立、模型訓(xùn)練及評(píng)估等多項(xiàng)內(nèi)容分類模型選擇隨機(jī)森林算法,心臟病臨床診斷數(shù)據(jù)包括十三個(gè)醫(yī)療診斷屬性案例背景與需求概述數(shù)據(jù)來(lái)源:/ml/machine-learning-databases/heart-disease/本實(shí)例使用的是processed.cleveland.data文檔中的數(shù)據(jù),先將數(shù)據(jù)保存到本地桌面data.txt文件以待后用,數(shù)據(jù)的部分截圖如下:案例背景與需求概述案例背景與需求概述案例目標(biāo)需要實(shí)現(xiàn)如下幾個(gè)功能:(1)使用ETL工具將病理數(shù)據(jù)導(dǎo)入HDFS,作為訓(xùn)練數(shù)據(jù);(2)基于SparkMLlib的RandomForests算法從病理數(shù)據(jù)中訓(xùn)練分類模型;(3)模擬數(shù)據(jù)源向Kafka傳送測(cè)試實(shí)例;(4)通過(guò)SparkStreaming從Kafka中接收該實(shí)例,并交給分類模型做出決策,預(yù)測(cè)結(jié)果。整個(gè)流程以HDFS為中心存儲(chǔ)、中間結(jié)果存儲(chǔ),中間輸出結(jié)果以及最終結(jié)果都存儲(chǔ)在HDFS,由ETL工具轉(zhuǎn)存到其他存儲(chǔ)系統(tǒng)中。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)案例流程圖設(shè)計(jì)方案實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)ETL流程圖ETL實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)非格式化存儲(chǔ)以HDFS、HBase等分布式存儲(chǔ)系統(tǒng)為核心存儲(chǔ),通過(guò)ETL傳輸工具,例如Sqoop、Kettle等將非格式化數(shù)據(jù),如網(wǎng)站日志、服務(wù)器日志等從磁盤存儲(chǔ)直接導(dǎo)入到HDFS,并通過(guò)Hive等查詢工具建立基本的格式化結(jié)構(gòu);也能將原關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)的格式化數(shù)據(jù),以文本形式或以Sequence結(jié)構(gòu)的二進(jìn)制數(shù)據(jù)存儲(chǔ)在HDFS中。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)流處理流處理流程圖實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)訓(xùn)練模型與結(jié)果預(yù)測(cè)基于心臟病臨床數(shù)據(jù)的檢測(cè)模型,以RandomForests為分類模型,從病例數(shù)據(jù)中訓(xùn)練出病理預(yù)估模型,并通過(guò)錯(cuò)誤率,MSE等指標(biāo)量化模型評(píng)估。然后根據(jù)訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分析與評(píng)估,并給出預(yù)測(cè)的結(jié)果。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

本例使用Ambari進(jìn)行整個(gè)大數(shù)據(jù)平臺(tái)的搭建。正如其官網(wǎng)介紹而言,ApacheAmbari項(xiàng)目旨在通過(guò)開發(fā)用于配置,管理和監(jiān)控ApacheHadoop集群的軟件,使管理Hadoop集群更方便簡(jiǎn)單。Ambari供了一個(gè)直觀的,易于使用的Hadoop管理WebUI,在此之上,可以創(chuàng)建、管理、監(jiān)視Hadoop的集群,這里的Hadoop是廣義的,指的是Hadoop整個(gè)生態(tài)圈(例如Hive,Hbase,Sqoop,Zookeeper,Spark等),而并不僅是特指Hadoop。用一句話來(lái)說(shuō),Ambari就是為了讓Hadoop以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè)工具。建議:安裝Ambari時(shí)建議自行搭建一個(gè)本地庫(kù)(localrepository)進(jìn)行安裝,官方文檔中有介紹,這里就不再詳述。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

集群架構(gòu)圖實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

節(jié)點(diǎn)規(guī)劃實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

節(jié)點(diǎn)規(guī)劃實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

軟件選型提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

經(jīng)過(guò)上面三個(gè)部分的說(shuō)明,相信都已經(jīng)明白了本案例的基本設(shè)計(jì)方案以及完成了整體環(huán)境的搭建,那么這一節(jié)就將脫離“紙上談兵”,開始最關(guān)鍵的實(shí)踐部分。首先,我們將一開始下載并保存好的data.txt病理數(shù)據(jù)經(jīng)過(guò)ETL工具處理,最終將數(shù)據(jù)存儲(chǔ)到HDFS中,作為訓(xùn)練數(shù)據(jù)集。接著,通過(guò)實(shí)現(xiàn)一個(gè)程序,模擬Kafka與SparkStreaming的交互,SparkStreaming將從Kafka處讀取數(shù)據(jù)并最終存儲(chǔ)到HDFS中,作為測(cè)試數(shù)據(jù)集。最后,通過(guò)使用SparkMLlib,根據(jù)訓(xùn)練數(shù)據(jù)集進(jìn)行模型訓(xùn)練,然后利用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),并將最終預(yù)測(cè)結(jié)果存儲(chǔ)到HDFS中。這就是我們整個(gè)實(shí)現(xiàn)的流程,將分為3個(gè)環(huán)節(jié)進(jìn)行,具體可見下文。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS本環(huán)節(jié)是ETL環(huán)節(jié),即使用ETL工具對(duì)原始數(shù)據(jù)(data.txt)進(jìn)行清理并導(dǎo)入到HDFS中,所以這個(gè)環(huán)節(jié)的內(nèi)容可以概括為兩點(diǎn):(1)清理:源病理數(shù)據(jù)中有些記錄的某個(gè)字段含有“?”,會(huì)對(duì)后面的模型訓(xùn)練產(chǎn)生影響,因而需要把這部分?jǐn)?shù)據(jù)清理掉;(2)導(dǎo)入:將清理后的數(shù)據(jù)導(dǎo)入到HDFS中,作為訓(xùn)練數(shù)據(jù)集。流行的ETL工具有很多,這里我們將使用Kettle。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(1)新建“轉(zhuǎn)換”實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(2)配置Hadoop集群信息

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(3)配置“輸入”與“輸出”

在核心對(duì)象-->輸入這個(gè)地方拖出一個(gè)“文本文件輸入”,在“BigData”目錄下拖出“HadoopFileOutput”,如圖:實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(3)配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(3)配置“輸入”與“輸出”

(3)配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(3)配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(3)配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(3)配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(4)執(zhí)行“轉(zhuǎn)換”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導(dǎo)入HDFS(5)查看導(dǎo)入后的結(jié)果

前面我們把數(shù)據(jù)導(dǎo)入到了路徑/data/test/data.txt中,現(xiàn)在來(lái)看一下HDFS中的這個(gè)文件是否存在,如下:可見確實(shí)有一個(gè)data.txt文件,繼續(xù)看一下文件的內(nèi)容:實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件本環(huán)節(jié)是Kafka與SparkStreaming交互的環(huán)節(jié),我們將實(shí)現(xiàn)一個(gè)程序,實(shí)現(xiàn)SparkStreaming從Kafka處讀取數(shù)據(jù)并最終存儲(chǔ)到HDFS中,作為測(cè)試數(shù)據(jù)集,以便最后的預(yù)測(cè)使用。在這個(gè)環(huán)節(jié)中,我們將會(huì)有兩大部分內(nèi)容:(1)測(cè)試前面到的環(huán)境搭建時(shí)安裝的Kafka集群是否能夠正常運(yùn)作;(2)創(chuàng)建Kafkaproducer,輸入測(cè)試數(shù)據(jù),SparkStreaming從Kafka處讀取數(shù)據(jù)并最終存儲(chǔ)到HDFS,模擬讀取“醫(yī)療數(shù)據(jù)”的過(guò)程。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(1)下載用例程序相關(guān)jar包

本實(shí)例用到的jar包為:spark-streaming-kafka_2.10-1.5.2.jar,

kafka_2.10-.3.4.51-1.jar,metrics-core-2.2.0.jar,zkclient-0.7.jar實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(2)程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(3)測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(3)測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(3)測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(3)測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

Spark啟動(dòng)好了之后,可以鍵入“:paste”命令,這樣就可以把我們寫好的程序直接復(fù)制粘貼上去,建議先在文檔編輯器或IDE上先寫好程序,再把代碼復(fù)制到Sparkshell上運(yùn)行,鍵入Ctrl-D后程序開始運(yùn)行(當(dāng)然,也可以一步一步執(zhí)行代碼段):實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

切回到Sparkshell中,可以看到在時(shí)間戳為1482652780000ms時(shí),讀到數(shù)據(jù)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件(4)SparkStreaming從Kafka讀取數(shù)據(jù),并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

完成了上面兩個(gè)環(huán)節(jié)的實(shí)踐后,此時(shí)HDFS中已經(jīng)有了兩種數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集以及“實(shí)時(shí)醫(yī)療數(shù)據(jù)集”(即測(cè)試數(shù)據(jù)集),那么接下來(lái)就將圍繞這兩種數(shù)據(jù)集進(jìn)行實(shí)現(xiàn)了。這個(gè)環(huán)節(jié)的主要內(nèi)容為:

(1)利用訓(xùn)練數(shù)據(jù)集訓(xùn)練模型;(2)使用模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行結(jié)果預(yù)測(cè),最終將結(jié)果保存至HDFS中。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(1)程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(1)程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(1)程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(2)隨機(jī)森林算法

在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。隨機(jī)森林算法的基本原理:由多個(gè)決策樹構(gòu)成的森林,算法分類結(jié)果由這些決策樹投票得到,決策樹在生成的過(guò)程當(dāng)中分別在行方向和列方向上添加隨機(jī)過(guò)程,行方向上構(gòu)建決策樹時(shí)采用放回抽樣(bootstraping)得到訓(xùn)練數(shù)據(jù),列方向上采用無(wú)放回隨機(jī)抽樣得到特征子集,并據(jù)此得到其最優(yōu)切分點(diǎn)。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(3)模型訓(xùn)練及預(yù)測(cè)結(jié)果

在master主機(jī)上啟動(dòng)Spark主節(jié)點(diǎn)以及從節(jié)點(diǎn),接著以hdfs身份啟動(dòng)Spark,唯一不一樣的在于無(wú)需使用參數(shù)—jars。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(3)模型訓(xùn)練及預(yù)測(cè)結(jié)果

那么現(xiàn)在就可以開始進(jìn)行模型的訓(xùn)練了,鍵入“:paste”命令后,輸入訓(xùn)練模型代碼段。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(3)模型訓(xùn)練及預(yù)測(cè)結(jié)果

可以看到,模型的錯(cuò)誤率以及MSE值分別為:0.2與0.08551619373301012,這個(gè)訓(xùn)練的結(jié)果的還是挺不錯(cuò)的。注意:這里的模型其實(shí)是可以保存起來(lái),以后可以進(jìn)行加載使用的,所以當(dāng)我們覺得某次訓(xùn)練的模型很不錯(cuò)時(shí),可以選擇將其保存起來(lái)。給出參考指令:model.save(sc,"myModelPath")

valsameModel=RandomForestModel.load(sc,"myModelPath")實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(3)模型訓(xùn)練及預(yù)測(cè)結(jié)果

那么接下來(lái)開始使用模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)估,并保存到HDFS上。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

(3)模型訓(xùn)練及預(yù)測(cè)結(jié)果

那么接下來(lái)開始使用模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)估,并保存到HDFS上。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

不足與擴(kuò)展

(1)本案例中的數(shù)據(jù)集的數(shù)據(jù)量相對(duì)較小,建議讀者可以嘗試使用數(shù)據(jù)量更大的數(shù)據(jù)集進(jìn)行實(shí)踐,一般而言,訓(xùn)練數(shù)據(jù)集越大,訓(xùn)練后模型的可靠性越高。(2)讀者可以自行編寫程序,實(shí)現(xiàn)比如按時(shí)間間隔反復(fù)向Kafka“生產(chǎn)”數(shù)據(jù)的功能,模擬實(shí)際的生產(chǎn)環(huán)境,達(dá)到真正“實(shí)時(shí)”效果;(3)請(qǐng)嘗試使用其他應(yīng)用與Kafka進(jìn)行交互;(4)除了隨機(jī)森林算法外,思考是否還有其它方法進(jìn)行數(shù)據(jù)的預(yù)測(cè)與分析;(5)案例只演示了導(dǎo)入數(shù)據(jù)到HDFS,同樣的,可以嘗試從HDFS導(dǎo)出數(shù)據(jù),譬如將最后HDFS的預(yù)測(cè)結(jié)果利用ETL工具等導(dǎo)出到數(shù)據(jù)庫(kù)或者其它文件系統(tǒng)中,使用用戶友好的方式展示結(jié)果,比如網(wǎng)頁(yè)展示等。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)習(xí)題與參考文獻(xiàn)習(xí)題

1.實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析的核心預(yù)測(cè)模型是什么?

2.請(qǐng)根據(jù)教材內(nèi)容重現(xiàn)思考實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析的實(shí)現(xiàn)程序。3.請(qǐng)總結(jié)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析的現(xiàn)實(shí)過(guò)程。習(xí)題與參考文獻(xiàn)參考文獻(xiàn)

[1]李可,李昕.基于Hadoop生態(tài)集群管理系統(tǒng)Ambari的研究與分析[J].

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論