




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章
醫(yī)學(xué)信息分析與決策支持
與大數(shù)據(jù)處理本章主要內(nèi)容醫(yī)學(xué)信息與決策支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則層次分析方法與醫(yī)藥方案選擇馬爾科夫模型與應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用閱讀書目崔雷.醫(yī)學(xué)數(shù)據(jù)挖掘.高等教育出版社涂子佩.大數(shù)據(jù).廣西師范大學(xué)出版社趙剛.大數(shù)據(jù)技術(shù)與應(yīng)用實(shí)踐指南.電子工業(yè)出版社李雄飛等.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(第2版).高等教育出版社周怡.醫(yī)學(xué)信息決策與支持系統(tǒng).人民衛(wèi)生出版社數(shù)據(jù)、信息和知識(shí)的區(qū)別與聯(lián)系知識(shí)數(shù)據(jù)數(shù)據(jù)價(jià)值數(shù)據(jù)規(guī)模信息紐約警察-杰克.梅普爾的傳奇數(shù)據(jù)驅(qū)動(dòng)管理除了上帝,任何人都要用數(shù)據(jù)說(shuō)話。-愛德華.戴明圖靈獎(jiǎng)、諾經(jīng)濟(jì)學(xué)獎(jiǎng)、美心理學(xué)會(huì)終身成就獎(jiǎng)人類理性是有限的,所有決策都是基于有限理性的結(jié)果,如果能利用存儲(chǔ)在計(jì)算機(jī)里的信息來(lái)輔助決策,人類理性的范圍將擴(kuò)大,決策的質(zhì)量就能提高。決策支持—商務(wù)智能醫(yī)學(xué)信息與決策支持醫(yī)學(xué)信息決策面臨一些挑戰(zhàn)醫(yī)學(xué)決策信息的不完全性傳輸與存儲(chǔ)過程的失真和錯(cuò)誤醫(yī)學(xué)決策信息的不確定性。如SGPT升高醫(yī)學(xué)決策信息的時(shí)效性。朱令事件醫(yī)學(xué)決策信息的擴(kuò)散性。SARS醫(yī)療衛(wèi)生大數(shù)據(jù)環(huán)境。醫(yī)學(xué)信息決策的分類按決策的約束條件進(jìn)行分類不確定型:在缺乏足夠信息的條件下所得到的實(shí)際值和期望值產(chǎn)生了某些偏差,其結(jié)果無(wú)法用概率分布規(guī)律來(lái)描述確定型:已知某種自然狀態(tài)必然會(huì)發(fā)生風(fēng)險(xiǎn)型:需要進(jìn)行風(fēng)險(xiǎn)值的判斷,雖然不知道哪種自然狀態(tài)在今后發(fā)生,但各種可能自然狀態(tài)在今后發(fā)生的概率可以知道。其風(fēng)險(xiǎn)是由于隨機(jī)的原因而造成的實(shí)際值和期望值的差異,它的結(jié)果可以用概率分布規(guī)律來(lái)描述不確定型決策分析[案例5.1]不確定型決策分析(續(xù))2.悲觀決策準(zhǔn)則三個(gè)方案的最小收益值分別是-250萬(wàn)元、-200萬(wàn)元和50萬(wàn)元,根據(jù)悲觀準(zhǔn)則,方案A3被選中,即生產(chǎn)藿香正氣滴丸。不確定型決策分析(續(xù))3.折中決策準(zhǔn)則原理:決策者首先確定一個(gè)樂觀系數(shù)α,0<α<1,則不樂觀系數(shù)1-α;然后分別把樂觀系數(shù)和不樂觀系數(shù)乘上各方案的最大收益和最小收益,把兩個(gè)積相加,得各個(gè)方案的期望收益;以期望收益最大的那個(gè)方案為實(shí)施方案。例如:取α=0.6,得折中收益為380萬(wàn)元不確定型決策分析(續(xù))4.后悔值決策準(zhǔn)則:所謂后悔值就是在同一種自然狀態(tài)下各種行動(dòng)方案中最大的損益值(理想值)與可能采用的行動(dòng)方案的損益值之差。原理:針對(duì)每個(gè)狀態(tài)先找出所有方案的最大后悔值,然后從各方案最大后悔值中找出最小值,與最小后悔值相對(duì)應(yīng)的方案即認(rèn)為最優(yōu)方案。方案A1-A3的最小悔值是250萬(wàn)元,故選擇方案A2。不確定型決策分析(續(xù))5.等概率決策準(zhǔn)則:假定各個(gè)自然狀態(tài)的發(fā)生概率相等,然后求各行動(dòng)方案的期望收益值,具有最大期望收益值的方案,即最優(yōu)方案。等概率決策值計(jì)算:生產(chǎn)復(fù)方丹參滴丸(A1)的收益=(800+320-250)/3=290;生產(chǎn)柴胡滴丸(A2)的收益=(600+300-200)/3=233;生產(chǎn)藿香正氣滴丸(A3)的收益=(300+150+50)/3=167本章主要內(nèi)容醫(yī)學(xué)信息與決策支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(了解)數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用解決方法-數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)和在線分析處理(OLAP)在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則、規(guī)律、模式、約束)支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)
--海量數(shù)據(jù)搜集
--強(qiáng)大的多處理器計(jì)算機(jī)
--數(shù)據(jù)挖掘算法
12/28/202220數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的,集成的,相對(duì)穩(wěn)定的,反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策支持。數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)數(shù)據(jù)源:通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等。數(shù)據(jù)的存儲(chǔ)與管理:決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)。數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)(續(xù))OLAP(OnLineAnalysisProcessing)對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。ROLAP(關(guān)系型在線分析處理),基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理),基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。數(shù)據(jù)倉(cāng)庫(kù)是集成的。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,轉(zhuǎn)換統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(續(xù))數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的。不斷跟蹤事務(wù)處理系統(tǒng)中,數(shù)據(jù)倉(cāng)庫(kù)會(huì)把業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中變化數(shù)據(jù)追加進(jìn)去。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的(非易失性的)。其數(shù)據(jù)以物理分離的方式存儲(chǔ),決策人員只進(jìn)行數(shù)據(jù)查詢,而不進(jìn)行數(shù)據(jù)修改。數(shù)據(jù)倉(cāng)庫(kù)只需要兩類操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問多維數(shù)據(jù)模型數(shù)據(jù)立方體以兩維或多維來(lái)描述或分類數(shù)據(jù),維類似關(guān)系數(shù)據(jù)庫(kù)的屬性或字段。三維立方體呈現(xiàn)。維:是人們觀察事物、計(jì)算數(shù)據(jù)的特定角度。例如,死因監(jiān)測(cè),“地區(qū)”、“時(shí)間”、“性別”、“死亡原因”等構(gòu)成四維數(shù)據(jù)模型。事實(shí):多維立方體是面向主題的,主題有事實(shí)來(lái)表示。例如主題死因分析,則死亡人數(shù)就是事實(shí)。下鉆:一個(gè)維度可以下鉆細(xì)分上卷:匯總數(shù)據(jù)挖掘:數(shù)據(jù)中搜索知識(shí)(模式)知識(shí)12/28/202232進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集
(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語(yǔ)言(SQL),ODBCOracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫(kù);
決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
向大數(shù)據(jù)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù)Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測(cè)性的信息數(shù)據(jù)挖掘數(shù)據(jù)挖掘演變過程12/28/202233重慶醫(yī)科大學(xué)現(xiàn)教中心王體春數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)基本概念數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))數(shù)據(jù)挖掘(DM):從大量的數(shù)據(jù)中正規(guī)地發(fā)現(xiàn)有效的、新穎的、潛在有用的,最終可被讀懂的模式的過程,簡(jiǎn)單的說(shuō)就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。
醫(yī)學(xué)數(shù)據(jù)挖掘:是針對(duì)醫(yī)學(xué)方面的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行挖掘知識(shí)發(fā)現(xiàn):知識(shí)發(fā)現(xiàn)(KDD)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等步驟有人把數(shù)據(jù)挖掘視為數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)或KDD同義詞,另一些人將其視為知識(shí)發(fā)現(xiàn)的一個(gè)基本步驟。12/28/202234數(shù)據(jù)挖掘:多學(xué)科的融合DataMining數(shù)據(jù)庫(kù)技術(shù)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)模式識(shí)別算法其他學(xué)科可視化12/28/202235數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的基本步驟數(shù)據(jù)庫(kù)目標(biāo)數(shù)據(jù)已處理數(shù)據(jù)已轉(zhuǎn)換數(shù)據(jù)模式趨勢(shì)知識(shí)選擇處理轉(zhuǎn)換數(shù)據(jù)挖掘解釋評(píng)價(jià)12/28/202236數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的基本步驟(續(xù))選擇:根據(jù)某種標(biāo)準(zhǔn)選擇數(shù)據(jù)處理:包括清除和充實(shí)轉(zhuǎn)換:刪除丟失重要內(nèi)容的記錄,將數(shù)據(jù)分類、格式變換等數(shù)據(jù)挖掘:運(yùn)用工具或算法,在數(shù)據(jù)中發(fā)現(xiàn)模式和規(guī)律解釋評(píng)價(jià):將發(fā)現(xiàn)的模式解釋為可用于決策的知識(shí)12/28/202237數(shù)據(jù)挖掘:數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)發(fā)現(xiàn)過程的核心數(shù)據(jù)清理與集成數(shù)據(jù)集數(shù)據(jù)倉(cāng)庫(kù)Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估模式12/28/202238數(shù)據(jù)挖掘的知識(shí)表示:
(1)規(guī)則類身高頭發(fā)顏色眼睛顏色第一類人矮金色藍(lán)色高紅色藍(lán)色高金色藍(lán)色矮金色灰色第二類人高金色黑色矮黑色藍(lán)色高黑色藍(lán)色高黑色灰色矮金色黑色12/28/202239數(shù)據(jù)挖掘的知識(shí)表示:
(1)規(guī)則(續(xù))規(guī)則由前件和結(jié)論兩部分組成,前件由字段項(xiàng)(屬性)取值的合取(∧讀作“與”)和析?。ā抛x作或)組合而成,結(jié)論為決策字段項(xiàng)(屬性)的取值或類別組成。如從上表的數(shù)據(jù)中可挖掘出如下規(guī)則知識(shí):IF(頭發(fā)顏色=金色∨紅色)∧(眼睛顏色=藍(lán)色∨灰色)THEN第一類人IF(頭發(fā)顏色=黑色)∨(眼睛=黑色)HTEN第二類人也可用自然語(yǔ)言描述……12/28/202240數(shù)據(jù)挖掘的知識(shí)表示:
(2)決策樹第一類人紅黑藍(lán)頭發(fā)眼睛灰第一類人第二類人第一類人第二類人金灰12/28/202241數(shù)據(jù)挖掘的知識(shí)表示:
(3)知識(shí)基類頭發(fā)顏色眼睛顏色第一類人金色藍(lán)色
紅色藍(lán)色
金色灰色第二類人金色黑色
黑色藍(lán)色
黑色灰色12/28/202242重慶醫(yī)科大學(xué)現(xiàn)教中心王體春數(shù)據(jù)挖掘的知識(shí)表示:
(4)網(wǎng)絡(luò)權(quán)值θ2θ1x1x2ω11ω12ω21ω22T1T2ω11ω12ω21
ω22=1111θ1θ2=0.51.5(T1,T2)=(-1,1)Z12/28/202243知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的算法數(shù)據(jù)挖掘算法由3部分組成:模型表達(dá)、模型評(píng)價(jià)和檢索方法。關(guān)聯(lián)規(guī)則。兩個(gè)或多個(gè)變量之間存在某種規(guī)律性,稱為關(guān)聯(lián)。如超市中顧客買可樂和玉米片的相關(guān)性。分類或者特征提取。如檢查特定記錄并描述第一類記錄的特點(diǎn)。如信用分析。序列模式。注重在一定時(shí)間段內(nèi)發(fā)生的購(gòu)買事件。如買電視和攝像機(jī)序列。聚類分析。將數(shù)據(jù)庫(kù)中的記錄分成子類。可用統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)等非監(jiān)督性符號(hào)歸納方法實(shí)現(xiàn)數(shù)據(jù)聚類。12/28/202244典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)12/28/202245數(shù)據(jù)挖掘和商業(yè)智能的關(guān)系對(duì)商業(yè)決策的支持潛力終端用戶商業(yè)分析
數(shù)據(jù)分析員DBA進(jìn)行決策數(shù)據(jù)表示可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)挖掘引擎統(tǒng)計(jì),查詢和報(bào)告數(shù)據(jù)預(yù)處理/集成,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)資源論文,文件,Web文檔,體魄實(shí)驗(yàn),數(shù)據(jù)庫(kù)12/28/202246常用的數(shù)據(jù)挖掘方法關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析聚類分析決策樹人工神經(jīng)網(wǎng)絡(luò)遺傳算法粗糙集理論5.2關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則的定義關(guān)聯(lián)規(guī)則主要反映了事物之間的關(guān)聯(lián)性。在大量的看似沒有任何關(guān)系的數(shù)據(jù)中,發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)聯(lián)關(guān)系,分析事物之間的關(guān)聯(lián)性。對(duì)反映同一事物屬性的一條記錄,若其具有特征屬性A的同時(shí),也具有屬性B,則稱特征屬性A和B是關(guān)聯(lián)的。若A和B關(guān)聯(lián):A→B。A可以表示為若干屬性同時(shí)成立,邏輯與的關(guān)系,即:(A
1^A
2^A
3^A
4……A
k)
→B購(gòu)物籃分析生物醫(yī)學(xué):某種疾病可能同時(shí)呈現(xiàn)集中癥狀,則幾種癥狀就表現(xiàn)出關(guān)聯(lián)性。(如眼病,眼軸遠(yuǎn)視、和散光)關(guān)聯(lián)規(guī)則的原理
關(guān)聯(lián)規(guī)則的原理(續(xù))
關(guān)聯(lián)規(guī)則的原理(續(xù))
關(guān)聯(lián)規(guī)則的原理(續(xù))
眼科診療數(shù)據(jù)受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光11002101021102200131112301041102401051112500161112601170012701180102811090012910010111300101100131011121113211113110331111401034010151103510016111360101701037011180013811019111390102000140001計(jì)算關(guān)聯(lián)規(guī)則支持度
關(guān)聯(lián)規(guī)則的原理(續(xù))
眼科診療數(shù)據(jù)受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光11002101021102200131112301041102401051112500161112601170012701180102811090012910010111300101100131011121113211113110331111401034010151103510016111360101701037011180013811019111390102000140001計(jì)算關(guān)聯(lián)規(guī)則置信度
關(guān)聯(lián)規(guī)則的原理(續(xù))[定義5.7]項(xiàng)集的頻度、最小支持度閾值和頻繁項(xiàng)集。某項(xiàng)集的出現(xiàn)頻度是包含該項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱項(xiàng)集的頻度。如果某項(xiàng)集的出現(xiàn)頻度不夠多時(shí),可以認(rèn)為該項(xiàng)集中項(xiàng)間的關(guān)聯(lián)規(guī)則不夠有用。
只有當(dāng)項(xiàng)集的頻度大于預(yù)先設(shè)定的某個(gè)頻度,該規(guī)則才有用。因此,在關(guān)聯(lián)分析中,通常預(yù)先設(shè)定最小支持度閾值(min_sup)。如果項(xiàng)集A的支持度大于或等于預(yù)先設(shè)定的最小支持度閾值,則稱該項(xiàng)集滿足最小支持度閾值,稱項(xiàng)集A為頻繁項(xiàng)集。頻繁k項(xiàng)集的集合通常記為L(zhǎng)k。關(guān)聯(lián)規(guī)則的原理(續(xù))[定義5.8]最小置信度閾值。同樣,在關(guān)聯(lián)分析中,也需要預(yù)先設(shè)定最小置信度閾值(min_conf)。如果某關(guān)聯(lián)規(guī)則的置信度大于或等于預(yù)先設(shè)定的最小置信度閾值,則稱該規(guī)則滿足最小置信度閾值。關(guān)聯(lián)規(guī)則的原理(續(xù))
關(guān)聯(lián)規(guī)則的原理(續(xù))
關(guān)聯(lián)規(guī)則的原理(續(xù))
眼科診療數(shù)據(jù)受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光11002101021102200131112301041102401051112500161112601170012701180102811090012910010111300101100131011121113211113110331111401034010151103510016111360101701037011180013811019111390102000140001關(guān)聯(lián)規(guī)則提升度計(jì)算規(guī)則{H52.0→H52.2}的提升度:L{H52.0→H52.2}=C{H52.0→H52.2}/S{H52.2}=0.833/(NH52.2/N=0.833/(29/40)=1.149規(guī)則{H52.2∧H52.4→H52.0}的提升度:L{H52.2∧H52.4→H52.0}=C{H52.2∧H52.4→H52.0}/S{H52.0}=0.692/0.45表明:規(guī)則{H52.0→H52.2}和規(guī)則{H52.2∧H52.4→H52.0}都是正關(guān)聯(lián)。Aprior算法
超集(Superset)定義:如果一個(gè)集合S2中的每一個(gè)元素都在集合S1中,且集合S1中可能包含S2中沒有的元素,則集合S1就是S2的一個(gè)超集。S1是S2的超集,若S1中一定有S2中沒有的元素,則S1是S2的真超集,S2是S1的真子集。簡(jiǎn)單地說(shuō),GBK即漢字?jǐn)U展內(nèi)碼規(guī)范,它是常用的國(guó)標(biāo)碼GB2312-80的超集和補(bǔ)充。C++isasupersetoftheCprogramminglanguage.Aprior算法步驟
Aprior算法步驟(續(xù))(3)剪枝步:由于Ck是Lk的超集,根據(jù)關(guān)聯(lián)規(guī)則性質(zhì)2,剔除Ck中包含非頻繁k-1項(xiàng)集的k項(xiàng)集。(4)計(jì)算Ck中所有項(xiàng)集的支持度,剔除小于最小支持度閾值的項(xiàng)集,得到頻繁k項(xiàng)集的集合Lk。(5)通過迭代循環(huán),重復(fù)2至4步驟,直到不能產(chǎn)生新的長(zhǎng)度更大的頻繁項(xiàng)集的集合。(6)列出以上步驟得到的所有頻繁項(xiàng)集中的所有規(guī)則,計(jì)算所有規(guī)則的置信度,根據(jù)最小置信度閾值產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Aprior算法案例[案例5.2]某商店隨機(jī)抽取4個(gè)顧客的購(gòu)物籃如表5.7所示,支持度閾值為60%,置信度閾值為80%,利用Apriori算法挖掘表5.7蘊(yùn)含的關(guān)聯(lián)規(guī)則。Aprior算法案例(續(xù))第一步:求頻繁項(xiàng)集。由于此處閾值為60%,先計(jì)算絕對(duì)閾值,然后計(jì)算百分比閾值。具體步驟為:①由表5.7求出項(xiàng)目集合C1,然后求出每個(gè)項(xiàng)集的支持度,在此基礎(chǔ)上求出支持度大于等于60%的1-項(xiàng)集L1。②在L1的基礎(chǔ)上,根據(jù)Apriori性質(zhì),求出2-項(xiàng)集C2,然后求出其支持度,我們發(fā)現(xiàn)C2的支持度都大于閾值,因此C2即為支持度大于等于60%的2-項(xiàng)集L2。③在L2的基礎(chǔ)上,根據(jù)Apriori性質(zhì),求出3-項(xiàng)集C3,然后求出其支持度。由于C3只有一個(gè)項(xiàng)集,且支持度大于60%,此時(shí)得到的項(xiàng)集即為頻繁項(xiàng)集L3。
最終得到一個(gè)頻繁項(xiàng)集{A,B,D}。這就是用Apriori算法尋找頻繁項(xiàng)集的過程。上述過程可以表示為圖5.1。圖5.1Apriori算法過程Aprior算法案例(續(xù))第二步:關(guān)聯(lián)規(guī)則的生成由第一步可得,滿足最小支持度的項(xiàng)集為{ABD},根據(jù)排列組合,該項(xiàng)集蘊(yùn)含著6種規(guī)則,如表5.8所示。其中“∩”表示交,如A∩B表示同時(shí)包含項(xiàng)集A和B。根據(jù)公式和數(shù)據(jù),可以計(jì)算出如表5.8所示的6種規(guī)則的置信度,其計(jì)算過程如下所示:根據(jù)最小置信度80%,可得到三個(gè)強(qiáng)關(guān)聯(lián)規(guī)則A∩DB、B∩DA和DA∩B,其置信度均為100%?!伞伞筛鶕?jù)診療數(shù)據(jù)Apriori關(guān)聯(lián)規(guī)則分析受檢者編號(hào)H66.9中耳炎J03.9急性扁桃體炎J06.9上呼吸道炎癥K52.9胃腸炎Z04臨床觀察檢驗(yàn)受檢者編號(hào)H66.9中耳炎J03.9急性扁桃體炎J06.9上呼吸道炎癥K52.9胃腸炎Z04臨床觀察檢驗(yàn)1101102100111200011221001130011023001114011112400111511011250111160011026100117000112710111800111280111190011129000111010111300011111011113100111120001132010111310111331011114011103400111150001135001111600110361111117001103700110180111038000111900111390011120011114010111本章主要內(nèi)容醫(yī)學(xué)信息與決策支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(了解)數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)大數(shù)據(jù)概念和特征大數(shù)據(jù)概念無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)的數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。--維基百科大數(shù)據(jù)的產(chǎn)生數(shù)據(jù)產(chǎn)生由企業(yè)內(nèi)部向企業(yè)外部擴(kuò)展數(shù)據(jù)產(chǎn)生從Web1.0向Web2.0,從互聯(lián)網(wǎng)向移動(dòng)互聯(lián)擴(kuò)展中國(guó)聯(lián)通統(tǒng)計(jì),每秒上網(wǎng)記錄82萬(wàn)條。數(shù)據(jù)產(chǎn)生從計(jì)算機(jī)、互聯(lián)網(wǎng)向物聯(lián)網(wǎng)擴(kuò)展視頻、傳感器、智能設(shè)備和RFID、機(jī)器對(duì)機(jī)器(M2M)產(chǎn)生大量數(shù)據(jù)。思科預(yù)測(cè)2015年僅移動(dòng)設(shè)備產(chǎn)生的數(shù)據(jù)流量將達(dá)到每月6.3EB的規(guī)模。大數(shù)據(jù)的應(yīng)用需求互聯(lián)網(wǎng)與電子商務(wù)用戶分析:注冊(cè)信息、博客信息用戶行為分析:鼠標(biāo)移動(dòng)、移動(dòng)終端觸摸、眼球移動(dòng)基于大數(shù)據(jù)相關(guān)性分析的推薦系統(tǒng)內(nèi)容針對(duì)性投放零售業(yè):例如:貨架商品關(guān)聯(lián)性分析金融業(yè):客戶行為分析、金融欺詐行為監(jiān)測(cè)政府:大數(shù)據(jù)分析用于經(jīng)濟(jì)預(yù)測(cè)奧巴馬競(jìng)選連任-大數(shù)據(jù)應(yīng)用DanWagner,奧巴馬2012年競(jìng)選團(tuán)隊(duì)首席分析師,長(zhǎng)的有點(diǎn)像比爾蓋茨大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用基因組學(xué)測(cè)序分析大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用疫情和健康趨勢(shì)分析GOOGLE官網(wǎng)全球登革熱趨勢(shì)。大數(shù)據(jù)分析或可助抗擊埃博拉。健康地圖”通過搜集社交媒體、地方媒體信息,比WHO早9天確定埃博拉出血熱在幾內(nèi)亞境內(nèi)的傳播情況。大數(shù)據(jù)的作者-涂子沛我們已經(jīng)不僅僅處在信息時(shí)代新信息時(shí)代?后信息時(shí)代?智能時(shí)代?越來(lái)與依賴機(jī)器,越來(lái)與依賴網(wǎng)絡(luò),人機(jī)共生的時(shí)代,機(jī)器是數(shù)據(jù)啟動(dòng)的軟件定義這個(gè)世界,數(shù)據(jù)驅(qū)動(dòng)這時(shí)代大數(shù)據(jù)的特征(四個(gè)V)數(shù)據(jù)量巨大(Volume):PB級(jí)以上數(shù)據(jù)類型多(Variety):日志、音頻、視頻數(shù)據(jù)流動(dòng)快(Velocity):實(shí)時(shí)分析獲取信息數(shù)據(jù)潛在價(jià)值大(Value):數(shù)據(jù)的量級(jí)數(shù)據(jù)大小的量級(jí)1Byte(B)1Kilobyte(KB)=1024b1Megabyte(MB)=1024KB1Gigabyte(GB)=1024MB1Terabyte(1TB)=1024GB1Petabyte(1PB)=1024TB1Exabyte(EB)=1024PB1Zettabyte(ZB)=1024EB1Yottabyet(YB)=1024ZB大數(shù)據(jù)主流架構(gòu):Hadoop+MapReduceHdoop+MapReduce架構(gòu)HDFS:分布式文件系統(tǒng)。運(yùn)行在廉價(jià)的計(jì)算機(jī)組成的大規(guī)模集群之上。采用元數(shù)據(jù)集中管理和數(shù)據(jù)塊分散存儲(chǔ)相結(jié)合的模式。Hbase:基于列存儲(chǔ)的開源非關(guān)系型數(shù)據(jù)庫(kù)。提供非常大數(shù)據(jù)集的實(shí)時(shí)讀取和寫入的隨機(jī)存取。MapReduce:分布式并行計(jì)算框架,Map任務(wù)分解,Reduce綜合結(jié)果。是一個(gè)JAVA函數(shù)。Mahout:分布式機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)。R語(yǔ)言:用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作環(huán)境Hdoop+MapReduce架構(gòu)Hive:Facebook提供的數(shù)據(jù)倉(cāng)庫(kù)工具,分析結(jié)構(gòu)化數(shù)據(jù)的中間件。Hive類SQL查詢語(yǔ)音可以查詢分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)。Pig:基于Hadoop的并行計(jì)算高級(jí)語(yǔ)言,類似SQLSqoop:開源工具,Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)傳遞。數(shù)據(jù)從關(guān)系源導(dǎo)入HDFS,以及從HDFS導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)。Flume:Cloudera提供的日志收集系統(tǒng)。ZooKeeper:分布式應(yīng)用程序集中配置管理器。Hadoop優(yōu)勢(shì)Hadoop:分布式文件系統(tǒng)和并行執(zhí)行環(huán)境。能夠存儲(chǔ)管理PB級(jí)的數(shù)據(jù)。易于擴(kuò)充的分布式架構(gòu)。數(shù)據(jù)處理采用大量計(jì)算節(jié)點(diǎn)橫向擴(kuò)充實(shí)現(xiàn)。善于處理非結(jié)構(gòu)化數(shù)據(jù)。是ETL的進(jìn)化。自動(dòng)化的并行處理機(jī)制。數(shù)據(jù)分布在并行節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)只處理一部分?jǐn)?shù)據(jù),所有節(jié)點(diǎn)同時(shí)并行處理。高可靠性、容錯(cuò)強(qiáng)。自動(dòng)保存數(shù)據(jù)多個(gè)副本。自動(dòng)將失敗的任務(wù)重新分配。數(shù)據(jù)丟失的概率小。計(jì)算靠近存儲(chǔ)。計(jì)算與存儲(chǔ)一體。低成本計(jì)算和存儲(chǔ)。HDFS架構(gòu)HDFS組成NameNode:命名節(jié)點(diǎn)(僅1個(gè)),存儲(chǔ)元數(shù)據(jù),并提供元數(shù)據(jù)服務(wù)。元數(shù)據(jù):文件名、文件目錄結(jié)構(gòu)、文件屬性、文件塊列表、塊所在的DataNode等DataNode:數(shù)據(jù)節(jié)點(diǎn),為HDFS提供存儲(chǔ)塊。在本地文件系統(tǒng)中存儲(chǔ)數(shù)據(jù)以及數(shù)據(jù)校驗(yàn)和,塊大小64M.NameNodeDataNode存儲(chǔ)元數(shù)據(jù)存儲(chǔ)文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存文件內(nèi)容保存在磁盤保存文件、塊、DataNode之間的映射關(guān)系維護(hù)塊ID到DataNode本地文件的映射關(guān)系HDFS寫數(shù)據(jù)流程HDFS讀數(shù)據(jù)流程MapReduce框架MapReduce原理Job:作業(yè),MapReduce程序;一個(gè)MapReduce程序可對(duì)應(yīng)若干個(gè)作業(yè),而每個(gè)作業(yè)被分解成若干個(gè)任務(wù)(Task)。JobTracker負(fù)責(zé)作業(yè)調(diào)度和資源監(jiān)控。TaskTracker負(fù)責(zé)運(yùn)行Job。JobTracker調(diào)度任務(wù)給TaskTracker,TaskTracker執(zhí)行任務(wù)時(shí),會(huì)返回進(jìn)度報(bào)告。JobTracker記錄進(jìn)度的運(yùn)行狀況,如果某個(gè)TaskTracker執(zhí)行失敗,JobTracker會(huì)把這個(gè)任務(wù)分配給其他TaskTrackerTask:分MapTask和ReduceTaskMapReduce原理每個(gè)MapReduce任務(wù)都被初始化為一個(gè)作業(yè)Job,一個(gè)作業(yè)由若干個(gè)任務(wù)(Task)組成。Job又分為Map和Reduce來(lái)表示。map函數(shù)接收一個(gè)原始輸入Input分解為<key,value>鍵值對(duì),MapReduce框架會(huì)將所有的具有相同key值的value集合在一起,發(fā)送給reduce函數(shù),reduce對(duì)value集合進(jìn)行處理,產(chǎn)生OutputMapReduce原理數(shù)據(jù)首先按照TextInput給定的格式分成兩個(gè)InputSplit,然后輸入到兩個(gè)map中,map函數(shù)會(huì)讀取InputSplit指定的位置的數(shù)據(jù),然后按照設(shè)定的方法處理此數(shù)據(jù)。最后寫入到本地磁盤中。MapReduce原理Hadoop的核心與節(jié)點(diǎn)組成參考書AnandRajaraman等,王斌譯.大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理.人民郵電出版社.董西成.Hadoop技術(shù)內(nèi)幕深入解析MapReduce架構(gòu)與設(shè)計(jì)實(shí)現(xiàn)原理.機(jī)械工業(yè)出版社.趙剛.大數(shù)據(jù)技術(shù)與應(yīng)用實(shí)踐指南.電子工業(yè)出版社醫(yī)療大數(shù)據(jù)應(yīng)用???醫(yī)療與大數(shù)據(jù)的趨勢(shì)什么是醫(yī)療大數(shù)據(jù)如何管理和利用大數(shù)據(jù)案例分析壓在百姓健康3座大山第一座健康大山——跑步進(jìn)入老齡化社會(huì)
第二座大山-癌癥年輕化第三座大山-新生兒“先天缺陷”醫(yī)療費(fèi)用在不斷上升
GDP的占比非常高10-19%0-9%趨勢(shì)分析:
我們正處在醫(yī)療行業(yè)的一個(gè)重要轉(zhuǎn)折點(diǎn)
%
of
population
over
age
60
30+
%
25-29%
20-24%
2050
WW
Average
Age
60+:
21%Source:
United
Nations
“Population
Aging
2002”
全球老齡化
平均年齡60
+:
目前的10%,
到
2050年將達(dá)到20%Source:
McKinsey
Global
Institute
AnalysisESG
Research
Report
2011
–
North
American
Health
Care
Provider
Market
Size
and
Forecast
以美國(guó)為例:
醫(yī)療大數(shù)據(jù)的價(jià)值3千億美元/年,
相當(dāng)于每年生成總
值增長(zhǎng)0.7%01500010000
50002010
2011
2012
2013
2014
2015趨勢(shì)分析:我們正處在醫(yī)療行業(yè)的一個(gè)重要轉(zhuǎn)折點(diǎn)
存儲(chǔ)的增長(zhǎng)
醫(yī)療服務(wù)產(chǎn)生的數(shù)據(jù)總量(PB)AdminImagingEMREmailFileNon
Clin
ImgResearch
醫(yī)療影像歸檔一個(gè)醫(yī)療系統(tǒng)案例的數(shù)據(jù)
到2020年,
醫(yī)療數(shù)據(jù)將急劇增長(zhǎng)到35
Zetabytes,
相當(dāng)于2009年數(shù)據(jù)量的44倍
增長(zhǎng)Source:
McKinsey
Global
Institute
AnalysisESG
Research
Report
2011
–
North
American
Health
Care
Provider
Market
Size
and
Forecast大數(shù)據(jù)對(duì)于“大數(shù)據(jù)”(Bigdata)研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。4V:Volume(大量)Velocity(高速)Variety(多樣)veracity(真實(shí)性)/Value(價(jià)值性)
1.
制藥企業(yè)/生命科學(xué)3.
費(fèi)用報(bào)銷,
利用率
和
欺詐監(jiān)管2.
臨床決策支持
&
其他臨床應(yīng)用
(包括診
斷相關(guān)的影像信息)
4.
患者行為/社交網(wǎng)絡(luò)
醫(yī)療大數(shù)據(jù)簡(jiǎn)介數(shù)據(jù)來(lái)源包括哪些?我們?nèi)绾卫么髷?shù)據(jù)創(chuàng)造價(jià)值?
(示例)
2.
臨床決策支持4.
由生活方式和行為引發(fā)的疾病分析
1.
個(gè)體化醫(yī)療
3.
欺詐監(jiān)測(cè)得以加強(qiáng)McKinsey
Global
Institute
Analysis醫(yī)療大數(shù)據(jù)相關(guān)解決方案健康信息服務(wù)
新興的醫(yī)療服務(wù)
應(yīng)用數(shù)據(jù)分析及視覺化處理數(shù)據(jù)處理/管理分布式平臺(tái)
老齡社會(huì)
腫瘤基因組學(xué)
醫(yī)療影像分析
醫(yī)療影像影像數(shù)據(jù)處理加速基礎(chǔ)醫(yī)療服務(wù)臨床決策支持
類SQL的檢索
醫(yī)療記錄
存儲(chǔ)優(yōu)化個(gè)人健康管理
個(gè)體化醫(yī)療
機(jī)器學(xué)習(xí)
基因數(shù)據(jù)
安全和隱私大數(shù)據(jù)的挑戰(zhàn)不僅來(lái)自于數(shù)據(jù)量的增長(zhǎng)...需要新技術(shù)的支持檢驗(yàn)結(jié)果,
費(fèi)用數(shù)據(jù),
影像,
設(shè)備產(chǎn)生的感應(yīng)數(shù)據(jù),
基因數(shù)據(jù)等數(shù)據(jù)量??結(jié)構(gòu)化數(shù)據(jù),
遵循標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)準(zhǔn)(如,HL7)非結(jié)構(gòu)化數(shù)據(jù),
如口述、手寫、照片、影像等類型實(shí)時(shí)有效的商業(yè)價(jià)值基于現(xiàn)有數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,來(lái)支持不同種類的業(yè)務(wù):如費(fèi)用及報(bào)銷、患者病史、歸檔影像分析、實(shí)時(shí)臨床決策支持(數(shù)據(jù)分析)?
實(shí)時(shí)數(shù)據(jù)分析,而非傳統(tǒng)的批量處理分析?
數(shù)據(jù)以流的方式進(jìn)入系統(tǒng),進(jìn)行抽取和分析
?
對(duì)于實(shí)時(shí)運(yùn)行中的每個(gè)時(shí)間節(jié)點(diǎn)產(chǎn)生影響,而不是事后處理在傳統(tǒng)的解決方案之上,引入新的數(shù)據(jù)及分析模型和技術(shù),價(jià)值速度
傳統(tǒng)解決方案
環(huán)境ERP,
CRM,
Batch,
OLTP-DBData
Center
Provisioning
Discrete
Virtual
Cloud
–
As
A
Service
HPC關(guān)注數(shù)據(jù)的價(jià)值
大數(shù)據(jù)存儲(chǔ)的考慮
傳統(tǒng)存儲(chǔ)方式
大規(guī)模分析
–
Hadoop*
海量數(shù)據(jù)庫(kù)
–
Hive*
大規(guī)模備份
–
Lustre*
數(shù)據(jù)源
文本-語(yǔ)音-視頻-傳感器
Requesting
Or
M2M
通訊
批量
–
商業(yè)應(yīng)用豐富的視覺化效果–
安全的數(shù)據(jù)分析和緩存邊緣服務(wù)器(Edge)
分析
同步
端到端
Machine-to-Machine
Source-to-Source
可行的解決方案體系(示例)
Applications
&
ServicesVisualization
–
File
Structure
&
Analytical
Tools
Data
Delivery,
Operational
&
Graphical
Analytics
Data
Management
&
Computational
Analytics
Compute
–
Storage
&
Infrastructure
Platforms高效的大數(shù)據(jù)訪問途徑
(客戶端)“Know
Me”“Free
Me”“Express
Me”智能手機(jī)移動(dòng)醫(yī)療助理平板電腦筆記本,Ultrabook?其他設(shè)備臺(tái)式機(jī)數(shù)字標(biāo)牌自助終端
Mobility
Vital
sign,
I
&
O
entry
Medication
administration
Template
data
entry
Free-format
text
data
entry
Large
diagnostic
images
Data
inquiry
Manageability“Link
Me”大數(shù)據(jù)在中國(guó)醫(yī)療行業(yè)中的應(yīng)用模式1.制藥企業(yè)/生命科
學(xué)
3.費(fèi)用報(bào)銷,
利用
率
和
欺詐監(jiān)管2.臨床決策支持
&其他臨床應(yīng)用
(包括診斷相關(guān)的影像
信息)
4.患者行為/社交
網(wǎng)絡(luò)?藥品研發(fā)對(duì)藥品實(shí)際
作用進(jìn)行分析;實(shí)施藥品市場(chǎng)預(yù)測(cè)?基因測(cè)序?分布式計(jì)算加快基因測(cè)序計(jì)算效率
?公共衛(wèi)生實(shí)時(shí)統(tǒng)計(jì)分析
發(fā)現(xiàn)公共衛(wèi)生疫情及公民健康
狀況
?新農(nóng)合基金數(shù)據(jù)分析
及時(shí)了解基金狀況,預(yù)測(cè)風(fēng)險(xiǎn)
輔助制定農(nóng)合基金的起付線,
賠付病種等
?基本藥物臨床應(yīng)用分析
分析基本藥物在處方中的比例?臨床數(shù)據(jù)比對(duì)匹配同類型的病人,用藥?臨床決策支持利用規(guī)則和數(shù)據(jù)實(shí)時(shí)分析給出智能提示?遠(yuǎn)程監(jiān)控采集并分析病人隨身攜帶儀器數(shù)據(jù),給出智能建議?人口統(tǒng)計(jì)學(xué)分析對(duì)不同群體人群的就醫(yī),健康數(shù)據(jù)實(shí)施人口統(tǒng)計(jì)分析?了解病人就診行為發(fā)現(xiàn)病人的特定就診行為,分配醫(yī)療資源案例分享:
Regional
Health
Info
Network
–
ChinaReal-time
Clinical
Decision
Support?
實(shí)時(shí)的醫(yī)療數(shù)據(jù)處理(電子健康檔案,醫(yī)
療影像數(shù)據(jù)),支持醫(yī)療協(xié)同、臨床決策
支持和公共衛(wèi)生管理?
采用
Hadoop*
(HBase*/Hive*)來(lái)實(shí)現(xiàn)醫(yī)
療數(shù)據(jù)分析和處理?
未來(lái)將擴(kuò)展到不同領(lǐng)域、不同區(qū)域/地區(qū)
(包括數(shù)據(jù)交換、處理和分析)?
與本地的軟件廠商及OEM廠商進(jìn)行了廣泛
合作?
技術(shù)挑戰(zhàn)
–
Hadoop
(HBase/Hive)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)如何有效結(jié)合–大數(shù)據(jù)在區(qū)域衛(wèi)生信息平臺(tái)中的切實(shí)可行
應(yīng)用場(chǎng)景PublicHealthHospitalPrimary
care(Grassroots)
HealthInformation
DW
EHR
Data
&ServicesRegistries
Data
&
ServicesLongitudinal
Record
Services
Health
Information
Access
LayerCare
CoordinationClinical
decision
support…Data
AnalyticR&D…RHIN
Ancillary
Data
&
Services分布式數(shù)據(jù)服務(wù)系統(tǒng)
展現(xiàn)層
(報(bào)告,
視圖)區(qū)域醫(yī)療及基層醫(yī)療信息系統(tǒng)大數(shù)據(jù)解決方案(Hadoop*)
集成的用戶應(yīng)用界面(居民、醫(yī)生、衛(wèi)生行政管理人員)
數(shù)據(jù)挖掘(Mahout)分布式批量處理框架
(Map/Reduce)區(qū)域衛(wèi)生信息訪問層(HIAL)醫(yī)院信息系統(tǒng)醫(yī)院信息系統(tǒng)語(yǔ)言和編譯
(Hive)
實(shí)時(shí)數(shù)據(jù)庫(kù)
(Hbase)基層醫(yī)療信息系
統(tǒng)醫(yī)療服務(wù)藥品管理新農(nóng)合醫(yī)療保
險(xiǎn)服務(wù)器虛擬
化
基礎(chǔ)設(shè)施虛擬化網(wǎng)絡(luò)虛擬化
存儲(chǔ)虛擬化基于云的區(qū)域基層醫(yī)療服務(wù)系統(tǒng)
多租戶應(yīng)用
分布式文件系統(tǒng)
協(xié)作
服務(wù)
(HDFS)
(Zookeeper)結(jié)構(gòu)化數(shù)據(jù)采集器
日志數(shù)據(jù)采集器
(Sqoop)
(Flume)
健康檔案數(shù)據(jù)存儲(chǔ)公共衛(wèi)生運(yùn)營(yíng)管理36總結(jié)?
我們正處在醫(yī)療行業(yè)大數(shù)據(jù)和分析的一個(gè)重要轉(zhuǎn)折點(diǎn)?
我們需要讓大數(shù)據(jù)更為高效,可以便捷的訪問?
專注在創(chuàng)新,依賴產(chǎn)業(yè)鏈來(lái)
提供企業(yè)核心能力之外的服
務(wù)?
采用標(biāo)準(zhǔn)和最佳實(shí)踐,參考全球已有的成熟模型展望
讓我們一起讓醫(yī)療大數(shù)據(jù)成為現(xiàn)實(shí):???提供具有差異化的技術(shù)解決方案,探索開放標(biāo)準(zhǔn)和最佳實(shí)踐尋找可能的客戶和產(chǎn)業(yè)鏈合作伙伴,共同探索醫(yī)療行業(yè)的核心應(yīng)用模式與產(chǎn)業(yè)合作進(jìn)行驗(yàn)證,加速大數(shù)據(jù)的采用參考題1、文獻(xiàn)綜述:大數(shù)據(jù)在醫(yī)療衛(wèi)生健康領(lǐng)域的應(yīng)用現(xiàn)狀。2、常用的大數(shù)據(jù)處理技術(shù)比較分析3、試用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。本章主要內(nèi)容醫(yī)學(xué)信息與決策支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(了解)數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)層次分析法與醫(yī)藥方案選擇層次分析法的基本原理層次分析法AHP(AnalyticHierarchyProcess)是一種定性結(jié)合定量的方法。定性:層次分析法比較矩陣、一致性檢驗(yàn)定量:指標(biāo)權(quán)重的特征向量計(jì)算、每一層次的指標(biāo)影響因素的權(quán)重計(jì)算和排序。由美國(guó)匹茲堡大學(xué)托馬斯.塞蒂(T.Lsaaty)20世紀(jì)70年代提出,1982年傳入我國(guó)層次分析法的四個(gè)基本步驟1.建立遞階層次結(jié)構(gòu)遞階層次結(jié)構(gòu):決策目標(biāo)、考慮因素(決策準(zhǔn)則)和決策方案按它們之間的相互關(guān)系分為最高層、中間層和最低層,并繪出層次結(jié)構(gòu)圖。(1)最高層:為目標(biāo)層,只有一個(gè)元素。(2)中間層:為準(zhǔn)則層或指標(biāo)層,為實(shí)現(xiàn)決策的目標(biāo)而建立的判斷準(zhǔn)則,它可以有一個(gè)層次或多個(gè)層次組成。上一層元素支配下一層元素,這樣就建立上下層元素之間隸屬關(guān)系。每個(gè)上層元素所支配的下層元素一般不超過9個(gè)。(3)最低層:為方案層或措施層,是為實(shí)現(xiàn)目標(biāo)可供選擇的各種措施、決策方案等。建立遞階層次結(jié)構(gòu)案例例:采用層次分析法研究某醫(yī)藥的門診病人滿意度的影響因素。影響滿意度的因素分4大部分:醫(yī)療專業(yè)水平、等候時(shí)間、人員服務(wù)態(tài)度、硬件實(shí)施。細(xì)分18個(gè)下一級(jí)指標(biāo):醫(yī)療專業(yè)水平:醫(yī)師的專業(yè)水平、病情及治療方案解說(shuō)、先進(jìn)的醫(yī)療設(shè)備。等候時(shí)間:掛號(hào)等候、候診時(shí)間、劃價(jià)等候、領(lǐng)藥等候。人員服務(wù)態(tài)度:掛號(hào)員態(tài)度、醫(yī)師態(tài)度、劃價(jià)員態(tài)度、藥房人員態(tài)度、服務(wù)臺(tái)人員態(tài)度、檢驗(yàn)人員態(tài)度。硬件實(shí)施:院區(qū)指示標(biāo)志、醫(yī)師介紹、環(huán)境清潔、停車便利、公共電話數(shù)量。建立遞階層次結(jié)構(gòu)案例(續(xù))目標(biāo)層準(zhǔn)則層方案層層次分析法的四個(gè)基本步驟(續(xù))2.構(gòu)造成對(duì)比較矩陣在建立遞階層次結(jié)構(gòu)以后,上下層次之間元素的隸屬關(guān)系就被確定了。假定上一層次的元素Ck作為準(zhǔn)則,對(duì)下一層次的元素A1,…,An有支配關(guān)系,目的是在準(zhǔn)則Ck之下按它們相對(duì)重要性賦予A1,…,An相應(yīng)的權(quán)重。使用成對(duì)兩兩重要性程度比較的方法,針對(duì)判斷矩陣的準(zhǔn)則Ck,其中兩個(gè)元素Ai和Aj比較哪個(gè)重要,重要多少,對(duì)重要性程度按1-9賦值,層次分析法的四個(gè)基本步驟(續(xù))重要性標(biāo)度含
義1表示兩個(gè)元素相比,具有同等重要性(相同)3表示兩個(gè)元素相比,前者比后者稍重要(較強(qiáng))5表示兩個(gè)元素相比,前者比后者明顯重要(強(qiáng))7表示兩個(gè)元素相比,前者比后者強(qiáng)烈重要(很強(qiáng))9表示兩個(gè)元素相比,前者比后者極端重要(非常強(qiáng))2,4,6,8表示兩個(gè)元素相比,判斷的中間值(兩個(gè)重要性之間)倒數(shù)若元素i與元素j的重要性之比為aij,則元素j與元素i的重要性之比為aji=1/aij表5.9重要性標(biāo)度含義表層次分析法的四個(gè)基本步驟(續(xù))表5.10判斷矩陣Cka1
a2…aj…ana1a11a12…a1j…a1na2a21a22…a2j…a2n…………………aiai1ai2…aij…ain…………………anan1an2…anj…ann對(duì)于n個(gè)元素a1,…,an來(lái)說(shuō),通過兩兩比較,得到兩兩比較判斷矩陣A=(aij)n×n,并稱A為正的互反矩陣,其中判斷矩陣aij具有如下性質(zhì):Aij>0;(2)aji=1/aij;
(3)aii=1。判斷矩陣可以具有傳遞性,即滿足等式:aij×ajk=aik(i,j,k=1,2,…,n),對(duì)所有元素都成立時(shí),稱該判斷矩陣A具有基本一致性矩陣,否則判斷矩陣為不一致性矩陣。構(gòu)造成對(duì)比較矩陣案例
層次分析法的四個(gè)基本步驟(續(xù))3.判斷矩陣的一致性檢驗(yàn)例如若A比B重要,B又比C重要,則從邏輯上講,A應(yīng)該比C重要,若兩兩比較時(shí)出現(xiàn)C比A重要的結(jié)果,則該判斷矩陣違反了一致性準(zhǔn)則,在邏輯上是不合理的。因此在實(shí)際中要求判斷矩陣滿足大體上的一致性,需進(jìn)行一致性檢驗(yàn)。(1)一致陣的性質(zhì)(P150)(2)一致陣的定理n階互反矩陣A的最大特征根λ≥n,當(dāng)且僅當(dāng)λ=n時(shí),A為一致陣。用最大特征根對(duì)應(yīng)的特征向量作為被比較因素對(duì)上層某因素影響程度的權(quán)向量,其不一致程度越大,引起的判斷誤差就越大。因而可以用λmax-n數(shù)值的大小來(lái)衡量A的不一致程度。(3)一致性指標(biāo)C.I.(consistencyindex)定義,由5.7式表示。
(5.7)層次分析法的四個(gè)基本步驟(續(xù))R.I.平均隨機(jī)一致性指標(biāo)R.I.(randomindex)值。平均隨機(jī)一致性指標(biāo)R.I.是多次(>500)重復(fù)進(jìn)行隨機(jī)判斷矩陣特征根計(jì)算之后取算術(shù)平均得到的。(P150)表5.11C.R一致性比例:C.R=C.I/R.I<0.1一致性可接受。(4)一致性檢驗(yàn)的步驟第一步,計(jì)算一致性指標(biāo)C.I.第二步,查表確定相應(yīng)的平均隨機(jī)一致性指標(biāo)R.I.根據(jù)判斷矩陣不同階數(shù)查表,得到平均隨機(jī)一致性指標(biāo)R.I.值。第三步,計(jì)算一致性比率C.R.并進(jìn)行判斷
C.R=C.I/R.I<0.1(5.10)層次分析法的四個(gè)基本步驟(續(xù))4.判斷矩陣排序的計(jì)算(1)單一準(zhǔn)則下的排序單排序是指每一個(gè)判斷矩陣各因素針對(duì)其準(zhǔn)則的相對(duì)權(quán)重??蓺w結(jié)為計(jì)算判斷矩陣的最大特征根及其對(duì)應(yīng)特征向量的問題。1)方根法的計(jì)算步驟(P151)2)和積法計(jì)算步驟(P152)(2)層次總排序法本章主要內(nèi)容醫(yī)學(xué)信息與決策支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(略)數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與決策支持系統(tǒng)醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)決策支持經(jīng)歷了數(shù)據(jù)化、信息化、知識(shí)化、智慧化四個(gè)階段圖5.13醫(yī)院信息數(shù)據(jù)分析的深度醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)決策支持系統(tǒng)的最終目標(biāo):以業(yè)務(wù)子系統(tǒng)中的源數(shù)據(jù)為基礎(chǔ),結(jié)合客觀事實(shí),做出正確、有預(yù)見性的結(jié)論。從數(shù)據(jù)資料中提取信息,將其構(gòu)建為知識(shí),最后升華為智慧。醫(yī)院管理者和衛(wèi)生行政部門決策者獲取的信息由普通資料數(shù)據(jù)逐漸向綜合性報(bào)表、多維分析、預(yù)測(cè)預(yù)警方向發(fā)展要以規(guī)模大、效率高、安全性好的醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)作為支撐。決策支持系統(tǒng)的結(jié)構(gòu)形式?jīng)Q策支持系統(tǒng)(DecisionSupportSystem,DSS)是以管理科學(xué)、運(yùn)籌學(xué)、控制學(xué)和行為科學(xué)為基礎(chǔ),利用計(jì)算機(jī)和軟件等技術(shù)手段,在人們制定決策的過程中提供輔助支持,以幫助做出有效的決策,具有一定智能行為的人機(jī)交互的計(jì)算機(jī)應(yīng)用系統(tǒng)。DSS中主要包括數(shù)據(jù)庫(kù)管理子系統(tǒng)、模型庫(kù)管理子系統(tǒng)和人機(jī)對(duì)話子系統(tǒng)DSS多庫(kù)結(jié)構(gòu)的一般形式綜合決策支持系統(tǒng)的結(jié)構(gòu)綜合決策支持系統(tǒng)的結(jié)構(gòu)(續(xù))(1)模型庫(kù)系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)結(jié)合的主體:這個(gè)部分主要完成多模型組合與大量數(shù)據(jù)共享的處理,是利用模型資源輔助決策的。(2)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)與聯(lián)機(jī)分析處理結(jié)合的主體:這部分主要完成對(duì)數(shù)據(jù)庫(kù)倉(cāng)庫(kù)中數(shù)據(jù)的綜合、預(yù)測(cè)和多維數(shù)據(jù)分析,是利用數(shù)據(jù)資源輔助決策的。(3)知識(shí)庫(kù)系統(tǒng)與數(shù)據(jù)挖掘結(jié)合的主體:這里的知識(shí)庫(kù)系統(tǒng)包括知識(shí)庫(kù)、推理機(jī)制和知識(shí)庫(kù)管理系統(tǒng)。這里主要完成知識(shí)推理,是利用知識(shí)資源輔助決策的。決策支持系統(tǒng)的三庫(kù)結(jié)構(gòu)DSS的兩庫(kù)(數(shù)據(jù)庫(kù)、模型庫(kù))結(jié)構(gòu),也稱為三部件結(jié)構(gòu)。三庫(kù)(數(shù)據(jù)庫(kù)、模型庫(kù)、方法庫(kù))、四庫(kù)(數(shù)據(jù)庫(kù)、模型庫(kù)、方法庫(kù)、知識(shí)庫(kù))等結(jié)構(gòu)。三庫(kù)結(jié)構(gòu)形式是DSS系統(tǒng)五部件結(jié)構(gòu)的簡(jiǎn)化,即不考慮知識(shí)部件,只包含數(shù)據(jù)庫(kù)、模型庫(kù)和方法庫(kù)及其相應(yīng)的管理系統(tǒng)數(shù)據(jù)結(jié)構(gòu)表示模型用求解算法表示方法模型庫(kù)和知識(shí)庫(kù)模型庫(kù)模型庫(kù)系統(tǒng)主要功能是通過使用人機(jī)交互語(yǔ)言使決策者能方便地利用模型庫(kù)支持決策,引導(dǎo)決策者應(yīng)用建模語(yǔ)言和自己熟悉的專業(yè)知識(shí)建立、修改和運(yùn)行
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)業(yè)務(wù)中的國(guó)際貿(mào)易實(shí)務(wù)考核試卷
- 科技創(chuàng)新驅(qū)動(dòng)的商業(yè)模式升級(jí)
- 科技創(chuàng)新的規(guī)劃與執(zhí)行力培養(yǎng)
- 酒店大廳合同范本
- 國(guó)貿(mào)購(gòu)貨合同范本
- 2025年中國(guó)液壓式頂軌器市場(chǎng)調(diào)查研究報(bào)告
- 防水客戶合同范本
- 2025年中國(guó)汽車泡棉膠帶市場(chǎng)調(diào)查研究報(bào)告
- 咖啡廳裝修安全協(xié)議
- 2025年中國(guó)棉紡布市場(chǎng)調(diào)查研究報(bào)告
- 2025下半年上海事業(yè)單位招考易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 天津市和平區(qū)2024-2025學(xué)年高一(上)期末質(zhì)量調(diào)查物理試卷(含解析)
- 《呼吸》系列油畫創(chuàng)作中詩(shī)意建構(gòu)的研究與實(shí)踐
- 客流統(tǒng)計(jì)系統(tǒng)施工方案
- 船舶制造設(shè)施安全生產(chǎn)培訓(xùn)
- 全國(guó)駕駛員考試(科目一)考試題庫(kù)下載1500道題(中英文對(duì)照版本)
- TSG 07-2019電梯安裝修理維護(hù)質(zhì)量保證手冊(cè)程序文件制度文件表單一整套
- 設(shè)備損壞評(píng)估報(bào)告范文
- 標(biāo)準(zhǔn)和計(jì)量管理制度范文(2篇)
- 透析患者心理問題護(hù)理干預(yù)
- 孕前口腔護(hù)理保健
評(píng)論
0/150
提交評(píng)論