分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例

上傳人：q*** IP屬地：山東上傳時(shí)間：2025-03-21 格式：PPT 頁(yè)數(shù)：61 大?。?0.17MB 積分：15 舉報(bào) 版權(quán)申訴

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第2頁(yè)

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第3頁(yè)

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第4頁(yè)

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例_第5頁(yè)

已閱讀5頁(yè)，還剩56頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)案例背景與需求概述目前我國(guó)的醫(yī)療行業(yè)現(xiàn)狀是，優(yōu)質(zhì)醫(yī)療資源集中在大城市，地方以及偏遠(yuǎn)地區(qū)醫(yī)療條件較差，醫(yī)療資源的配置不合理，導(dǎo)致了大量的長(zhǎng)尾需求，催生了廣闊的互聯(lián)網(wǎng)醫(yī)療市場(chǎng)。在此背景下，互聯(lián)網(wǎng)的“連接”屬性得以發(fā)揮，有效提高了長(zhǎng)尾市場(chǎng)的信息流通，降低了產(chǎn)品擴(kuò)大受眾群的成本，而大數(shù)據(jù)技術(shù)的應(yīng)用能夠使得醫(yī)療服務(wù)更加完善和精準(zhǔn)。醫(yī)療大數(shù)據(jù)的應(yīng)用主要指的是將各個(gè)層次的醫(yī)療信息和數(shù)據(jù)，利用互聯(lián)網(wǎng)以及大數(shù)據(jù)技術(shù)進(jìn)行挖掘和分析，為醫(yī)療服務(wù)的提升提供有價(jià)值的依據(jù)，使醫(yī)療行業(yè)運(yùn)營(yíng)更高效，服務(wù)更精準(zhǔn)，最終降低患者的醫(yī)療支出。本案例將先介紹某中醫(yī)院的醫(yī)療大數(shù)據(jù)分析需求，然后采用多種大數(shù)據(jù)技術(shù)組件，形成一套從ETL、非格式化存儲(chǔ)、大數(shù)據(jù)挖掘分析以及可視化等一系列數(shù)據(jù)解決方案。

案例背景與需求概述以心臟病臨床診斷數(shù)據(jù)為處理對(duì)象通過(guò)對(duì)以往的病例進(jìn)行歸類打標(biāo)簽，預(yù)先評(píng)估出一些用以模型訓(xùn)練的病理數(shù)據(jù)利用大數(shù)據(jù)分析引擎（Hadoop、Spark等）計(jì)算出病理分類決策模型，再利用實(shí)時(shí)大數(shù)據(jù)平臺(tái)建立實(shí)時(shí)大數(shù)據(jù)處理原型，對(duì)前端數(shù)據(jù)源傳送過(guò)來(lái)的新病例，加以預(yù)測(cè)評(píng)估，演示包括平臺(tái)建立、模型訓(xùn)練及評(píng)估等多項(xiàng)內(nèi)容分類模型選擇隨機(jī)森林算法，心臟病臨床診斷數(shù)據(jù)包括十三個(gè)醫(yī)療診斷屬性案例背景與需求概述數(shù)據(jù)來(lái)源：/ml/machine-learning-databases/heart-disease/本實(shí)例使用的是processed.cleveland.data文檔中的數(shù)據(jù)，先將數(shù)據(jù)保存到本地桌面data.txt文件以待后用，數(shù)據(jù)的部分截圖如下：案例背景與需求概述案例背景與需求概述案例目標(biāo)需要實(shí)現(xiàn)如下幾個(gè)功能：(1)使用ETL工具將病理數(shù)據(jù)導(dǎo)入HDFS，作為訓(xùn)練數(shù)據(jù)；(2)基于SparkMLlib的RandomForests算法從病理數(shù)據(jù)中訓(xùn)練分類模型；(3)模擬數(shù)據(jù)源向Kafka傳送測(cè)試實(shí)例；(4)通過(guò)SparkStreaming從Kafka中接收該實(shí)例，并交給分類模型做出決策，預(yù)測(cè)結(jié)果。整個(gè)流程以HDFS為中心存儲(chǔ)、中間結(jié)果存儲(chǔ)，中間輸出結(jié)果以及最終結(jié)果都存儲(chǔ)在HDFS，由ETL工具轉(zhuǎn)存到其他存儲(chǔ)系統(tǒng)中。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)案例流程圖設(shè)計(jì)方案實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)ETL流程圖ETL實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)非格式化存儲(chǔ)以HDFS、HBase等分布式存儲(chǔ)系統(tǒng)為核心存儲(chǔ)，通過(guò)ETL傳輸工具，例如Sqoop、Kettle等將非格式化數(shù)據(jù)，如網(wǎng)站日志、服務(wù)器日志等從磁盤存儲(chǔ)直接導(dǎo)入到HDFS，并通過(guò)Hive等查詢工具建立基本的格式化結(jié)構(gòu);也能將原關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)的格式化數(shù)據(jù)，以文本形式或以Sequence結(jié)構(gòu)的二進(jìn)制數(shù)據(jù)存儲(chǔ)在HDFS中。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)流處理流處理流程圖實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析方案設(shè)計(jì)訓(xùn)練模型與結(jié)果預(yù)測(cè)基于心臟病臨床數(shù)據(jù)的檢測(cè)模型，以RandomForests為分類模型，從病例數(shù)據(jù)中訓(xùn)練出病理預(yù)估模型，并通過(guò)錯(cuò)誤率，MSE等指標(biāo)量化模型評(píng)估。然后根據(jù)訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行分析與評(píng)估，并給出預(yù)測(cè)的結(jié)果。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

本例使用Ambari進(jìn)行整個(gè)大數(shù)據(jù)平臺(tái)的搭建。正如其官網(wǎng)介紹而言，ApacheAmbari項(xiàng)目旨在通過(guò)開發(fā)用于配置，管理和監(jiān)控ApacheHadoop集群的軟件，使管理Hadoop集群更方便簡(jiǎn)單。Ambari供了一個(gè)直觀的，易于使用的Hadoop管理WebUI，在此之上，可以創(chuàng)建、管理、監(jiān)視Hadoop的集群，這里的Hadoop是廣義的，指的是Hadoop整個(gè)生態(tài)圈(例如Hive，Hbase，Sqoop，Zookeeper，Spark等)，而并不僅是特指Hadoop。用一句話來(lái)說(shuō)，Ambari就是為了讓Hadoop以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè)工具。建議:安裝Ambari時(shí)建議自行搭建一個(gè)本地庫(kù)(localrepository)進(jìn)行安裝，官方文檔中有介紹，這里就不再詳述。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

集群架構(gòu)圖實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

節(jié)點(diǎn)規(guī)劃實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析環(huán)境準(zhǔn)備

軟件選型提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

經(jīng)過(guò)上面三個(gè)部分的說(shuō)明，相信都已經(jīng)明白了本案例的基本設(shè)計(jì)方案以及完成了整體環(huán)境的搭建，那么這一節(jié)就將脫離“紙上談兵”，開始最關(guān)鍵的實(shí)踐部分。首先，我們將一開始下載并保存好的data.txt病理數(shù)據(jù)經(jīng)過(guò)ETL工具處理，最終將數(shù)據(jù)存儲(chǔ)到HDFS中，作為訓(xùn)練數(shù)據(jù)集。接著，通過(guò)實(shí)現(xiàn)一個(gè)程序，模擬Kafka與SparkStreaming的交互，SparkStreaming將從Kafka處讀取數(shù)據(jù)并最終存儲(chǔ)到HDFS中，作為測(cè)試數(shù)據(jù)集。最后，通過(guò)使用SparkMLlib，根據(jù)訓(xùn)練數(shù)據(jù)集進(jìn)行模型訓(xùn)練，然后利用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)，并將最終預(yù)測(cè)結(jié)果存儲(chǔ)到HDFS中。這就是我們整個(gè)實(shí)現(xiàn)的流程，將分為3個(gè)環(huán)節(jié)進(jìn)行，具體可見下文。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS本環(huán)節(jié)是ETL環(huán)節(jié)，即使用ETL工具對(duì)原始數(shù)據(jù)(data.txt)進(jìn)行清理并導(dǎo)入到HDFS中，所以這個(gè)環(huán)節(jié)的內(nèi)容可以概括為兩點(diǎn):(1)清理:源病理數(shù)據(jù)中有些記錄的某個(gè)字段含有“?”，會(huì)對(duì)后面的模型訓(xùn)練產(chǎn)生影響，因而需要把這部分?jǐn)?shù)據(jù)清理掉;(2)導(dǎo)入:將清理后的數(shù)據(jù)導(dǎo)入到HDFS中，作為訓(xùn)練數(shù)據(jù)集。流行的ETL工具有很多，這里我們將使用Kettle。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（1）新建“轉(zhuǎn)換”實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（2）配置Hadoop集群信息

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（3）配置“輸入”與“輸出”

在核心對(duì)象-->輸入這個(gè)地方拖出一個(gè)“文本文件輸入”，在“BigData”目錄下拖出“HadoopFileOutput”，如圖:實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（3）配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（3）配置“輸入”與“輸出”

（3）配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（3）配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（3）配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（3）配置“輸入”與“輸出”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（4）執(zhí)行“轉(zhuǎn)換”

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

使用Kettle/Sqoop等ETL工具，將數(shù)據(jù)導(dǎo)入HDFS（5）查看導(dǎo)入后的結(jié)果

前面我們把數(shù)據(jù)導(dǎo)入到了路徑/data/test/data.txt中，現(xiàn)在來(lái)看一下HDFS中的這個(gè)文件是否存在，如下:可見確實(shí)有一個(gè)data.txt文件，繼續(xù)看一下文件的內(nèi)容:實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件本環(huán)節(jié)是Kafka與SparkStreaming交互的環(huán)節(jié)，我們將實(shí)現(xiàn)一個(gè)程序，實(shí)現(xiàn)SparkStreaming從Kafka處讀取數(shù)據(jù)并最終存儲(chǔ)到HDFS中，作為測(cè)試數(shù)據(jù)集，以便最后的預(yù)測(cè)使用。在這個(gè)環(huán)節(jié)中，我們將會(huì)有兩大部分內(nèi)容:(1)測(cè)試前面到的環(huán)境搭建時(shí)安裝的Kafka集群是否能夠正常運(yùn)作;(2)創(chuàng)建Kafkaproducer，輸入測(cè)試數(shù)據(jù)，SparkStreaming從Kafka處讀取數(shù)據(jù)并最終存儲(chǔ)到HDFS，模擬讀取“醫(yī)療數(shù)據(jù)”的過(guò)程。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（1）下載用例程序相關(guān)jar包

本實(shí)例用到的jar包為:spark-streaming-kafka_2.10-1.5.2.jar，

kafka_2.10-.3.4.51-1.jar,metrics-core-2.2.0.jar,zkclient-0.7.jar實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（2）程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（3）測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（3）測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（3）測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（3）測(cè)試Kafka集群

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

Spark啟動(dòng)好了之后，可以鍵入“:paste”命令，這樣就可以把我們寫好的程序直接復(fù)制粘貼上去，建議先在文檔編輯器或IDE上先寫好程序，再把代碼復(fù)制到Sparkshell上運(yùn)行，鍵入Ctrl-D后程序開始運(yùn)行(當(dāng)然，也可以一步一步執(zhí)行代碼段):實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

切回到Sparkshell中，可以看到在時(shí)間戳為1482652780000ms時(shí)，讀到數(shù)據(jù)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkStreaming開發(fā)Kafka連接器組件（4）SparkStreaming從Kafka讀取數(shù)據(jù)，并存儲(chǔ)到HDFS

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

完成了上面兩個(gè)環(huán)節(jié)的實(shí)踐后，此時(shí)HDFS中已經(jīng)有了兩種數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集以及“實(shí)時(shí)醫(yī)療數(shù)據(jù)集”(即測(cè)試數(shù)據(jù)集)，那么接下來(lái)就將圍繞這兩種數(shù)據(jù)集進(jìn)行實(shí)現(xiàn)了。這個(gè)環(huán)節(jié)的主要內(nèi)容為:

(1)利用訓(xùn)練數(shù)據(jù)集訓(xùn)練模型;(2)使用模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行結(jié)果預(yù)測(cè)，最終將結(jié)果保存至HDFS中。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（1）程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（1）程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（1）程序代碼解析

實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（2）隨機(jī)森林算法

在機(jī)器學(xué)習(xí)中，隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器，并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。隨機(jī)森林算法的基本原理:由多個(gè)決策樹構(gòu)成的森林，算法分類結(jié)果由這些決策樹投票得到，決策樹在生成的過(guò)程當(dāng)中分別在行方向和列方向上添加隨機(jī)過(guò)程，行方向上構(gòu)建決策樹時(shí)采用放回抽樣(bootstraping)得到訓(xùn)練數(shù)據(jù)，列方向上采用無(wú)放回隨機(jī)抽樣得到特征子集，并據(jù)此得到其最優(yōu)切分點(diǎn)。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（3）模型訓(xùn)練及預(yù)測(cè)結(jié)果

在master主機(jī)上啟動(dòng)Spark主節(jié)點(diǎn)以及從節(jié)點(diǎn)，接著以hdfs身份啟動(dòng)Spark，唯一不一樣的在于無(wú)需使用參數(shù)—jars。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（3）模型訓(xùn)練及預(yù)測(cè)結(jié)果

那么現(xiàn)在就可以開始進(jìn)行模型的訓(xùn)練了，鍵入“:paste”命令后，輸入訓(xùn)練模型代碼段。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（3）模型訓(xùn)練及預(yù)測(cè)結(jié)果

可以看到，模型的錯(cuò)誤率以及MSE值分別為:0.2與0.08551619373301012，這個(gè)訓(xùn)練的結(jié)果的還是挺不錯(cuò)的。注意:這里的模型其實(shí)是可以保存起來(lái)，以后可以進(jìn)行加載使用的，所以當(dāng)我們覺得某次訓(xùn)練的模型很不錯(cuò)時(shí)，可以選擇將其保存起來(lái)。給出參考指令:model.save(sc,"myModelPath")

valsameModel=RandomForestModel.load(sc,"myModelPath")實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（3）模型訓(xùn)練及預(yù)測(cè)結(jié)果

那么接下來(lái)開始使用模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)估，并保存到HDFS上。實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

基于SparkMLlib開發(fā)數(shù)據(jù)挖掘組件

（3）模型訓(xùn)練及預(yù)測(cè)結(jié)果

那么接下來(lái)開始使用模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)估，并保存到HDFS上。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析實(shí)現(xiàn)方法

不足與擴(kuò)展

(1)本案例中的數(shù)據(jù)集的數(shù)據(jù)量相對(duì)較小，建議讀者可以嘗試使用數(shù)據(jù)量更大的數(shù)據(jù)集進(jìn)行實(shí)踐，一般而言，訓(xùn)練數(shù)據(jù)集越大，訓(xùn)練后模型的可靠性越高。(2)讀者可以自行編寫程序，實(shí)現(xiàn)比如按時(shí)間間隔反復(fù)向Kafka“生產(chǎn)”數(shù)據(jù)的功能，模擬實(shí)際的生產(chǎn)環(huán)境，達(dá)到真正“實(shí)時(shí)”效果;(3)請(qǐng)嘗試使用其他應(yīng)用與Kafka進(jìn)行交互;(4)除了隨機(jī)森林算法外，思考是否還有其它方法進(jìn)行數(shù)據(jù)的預(yù)測(cè)與分析;(5)案例只演示了導(dǎo)入數(shù)據(jù)到HDFS，同樣的，可以嘗試從HDFS導(dǎo)出數(shù)據(jù)，譬如將最后HDFS的預(yù)測(cè)結(jié)果利用ETL工具等導(dǎo)出到數(shù)據(jù)庫(kù)或者其它文件系統(tǒng)中，使用用戶友好的方式展示結(jié)果，比如網(wǎng)頁(yè)展示等。提綱案例背景與需求概述設(shè)計(jì)方案環(huán)境準(zhǔn)備實(shí)現(xiàn)方法不足與擴(kuò)展習(xí)題與參考文獻(xiàn)習(xí)題與參考文獻(xiàn)習(xí)題

1.實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析的核心預(yù)測(cè)模型是什么?

2.請(qǐng)根據(jù)教材內(nèi)容重現(xiàn)思考實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析的實(shí)現(xiàn)程序。3.請(qǐng)總結(jié)實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析的現(xiàn)實(shí)過(guò)程。習(xí)題與參考文獻(xiàn)參考文獻(xiàn)

[1]李可,李昕.基于Hadoop生態(tài)集群管理系統(tǒng)Ambari的研究與分析[J].

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版 課件 第10章 實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

分布式計(jì)算、云計(jì)算與大數(shù)據(jù) 第2版課件第10章實(shí)時(shí)醫(yī)療大數(shù)據(jù)分析案例