醫(yī)療大數(shù)據(jù)解決方案_第1頁
醫(yī)療大數(shù)據(jù)解決方案_第2頁
醫(yī)療大數(shù)據(jù)解決方案_第3頁
醫(yī)療大數(shù)據(jù)解決方案_第4頁
醫(yī)療大數(shù)據(jù)解決方案_第5頁
已閱讀5頁,還剩116頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(全國97.8萬家醫(yī)療機(jī)構(gòu)的信息系統(tǒng)基本上都是用關(guān)系數(shù)據(jù)庫 41.1名詞定義 5第2章醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn) 72.1醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異 72.1.1小問題放大萬倍就會(huì)大的嚇人 92.2醫(yī)療大數(shù)據(jù)面臨八大難題 2.3國家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比“兩彈一星” 2.4醫(yī)療行業(yè)的信息系統(tǒng)頂層設(shè)計(jì)為何難產(chǎn) 2.5大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘 2.5.1我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù) 2.5.2挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難 2.5.3僅患者與數(shù)據(jù)的對應(yīng)關(guān)系就是一個(gè)大問題 202.6關(guān)系數(shù)據(jù)庫理論的致命傷 222.6.1關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù) 2.6.2關(guān)系數(shù)據(jù)庫系統(tǒng)是一種完全封閉的系統(tǒng):外來數(shù)據(jù)無法入住 2.6.3關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分 252.6.4關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)密不可分 252.6.5關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與應(yīng)用程序密不可分 262.6.6關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離相應(yīng)的系統(tǒng)就成了無意義的數(shù)據(jù) 2.6.7關(guān)系數(shù)據(jù)庫無法實(shí)現(xiàn)病歷信息的結(jié)構(gòu)化存貯 272.6.8關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都是“方言”,大數(shù)據(jù)需要的是“普通話” 272.7關(guān)系數(shù)據(jù)庫如何處理國家醫(yī)療大數(shù)據(jù)中數(shù)萬個(gè)數(shù)據(jù)庫、數(shù)千萬張表 292.8大數(shù)據(jù)之夢十年后成真 2.8.1信息化社會(huì)由概念到比較成熟用了30多年時(shí)間 2.8.2千年蟲問題的啟示 2.8.3大數(shù)據(jù)工程遠(yuǎn)比千年蟲問題復(fù)雜 2.8.4五年之內(nèi)(2020年前)醫(yī)療大數(shù)據(jù)只是紙上談兵 2.9必須開發(fā)新型的軟件工具才能對醫(yī)療大數(shù)據(jù)進(jìn)行高效挖掘 33第3章發(fā)明專利:醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法 3.1在了解醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法時(shí)的注意事項(xiàng) 3.2醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法 3.3數(shù)據(jù)的完整性是大數(shù)據(jù)的根本 3.3.1大數(shù)據(jù)的策略:以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)易識(shí)別 3.3.2一個(gè)事物的數(shù)據(jù) 3.3.3事物分類 453.3.4關(guān)系數(shù)據(jù)庫的缺陷:關(guān)系 483.3.5數(shù)據(jù)的可識(shí)別性 3.3.6數(shù)據(jù)的多樣性 3.3.7元數(shù)據(jù)及國際元數(shù)據(jù)標(biāo)準(zhǔn)非常重要 3.3.8大數(shù)據(jù)的關(guān)鍵:讓數(shù)據(jù)自己說話 3.3.9大數(shù)據(jù)的策略:用數(shù)據(jù)代替程序 3.4與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù) 3.5醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法與關(guān)系數(shù)據(jù)庫的對比 3.6應(yīng)用醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法的注意事項(xiàng) 3.7超大表化問題:分為多張表 3.8關(guān)系數(shù)據(jù)庫中的二維表是數(shù)據(jù)不具獨(dú)立性的一個(gè)根本原因 3.9“萬能數(shù)據(jù)結(jié)構(gòu)表”存放病歷信息的例子 3.10醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法實(shí)現(xiàn)互聯(lián)互通非常簡單 3.11結(jié)構(gòu)化錄入病歷信息的例子:癥狀的結(jié)構(gòu)化 第4章獨(dú)立數(shù)據(jù)庫在醫(yī)療大數(shù)據(jù)方面的優(yōu)勢 4.1大數(shù)據(jù)中最重要的就是查詢 4.2超大表問題 4.2.1自動(dòng)調(diào)整表的長度 4.2.2自動(dòng)查詢多張表 4.3用獨(dú)立數(shù)據(jù)庫實(shí)現(xiàn)國家醫(yī)療大數(shù)據(jù)的存貯處理 4.3.1獨(dú)立數(shù)據(jù)庫如何處理國家醫(yī)療大數(shù)據(jù)中數(shù)十萬個(gè)數(shù)據(jù)庫、數(shù)千萬張表734.3.2疾病、癥狀的相關(guān)數(shù)據(jù) 們發(fā)現(xiàn),對全國97.8萬家醫(yī)療機(jī)構(gòu)所產(chǎn)生的醫(yī)療數(shù)據(jù)進(jìn)行挖掘非小數(shù)據(jù))。醫(yī)療大數(shù)據(jù)所要處理的數(shù)據(jù)是全國97.8萬家醫(yī)療機(jī)構(gòu)所擁有的數(shù)十是處于概念階段。大數(shù)據(jù)夢想將在10年后夢想成真,5年之內(nèi),難有突破性進(jìn)獨(dú)立數(shù)據(jù)庫:由發(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)數(shù)據(jù)庫即可稱為獨(dú)立數(shù)據(jù)庫。獨(dú)立數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫有本質(zhì)的差異?!袷挛锓诸悾菏挛锓诸愂怯砂l(fā)明專利技術(shù)“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”據(jù)時(shí)會(huì)遇到很多難以克服的困難。五年之內(nèi)(2020年前)大數(shù)據(jù)難以取得根本關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的一大特點(diǎn)(或者說一大問題)就是“數(shù)據(jù)嚴(yán)重依賴于數(shù)據(jù)庫系統(tǒng)及應(yīng)用程序”,當(dāng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離些數(shù)據(jù)的數(shù)據(jù)量一定會(huì)非常龐大,這些數(shù)據(jù)不能處理呢?中心獲得患者在全國任意一家醫(yī)院就醫(yī)時(shí)的所有病歷呢?假設(shè)全國各家醫(yī)院的截至2014年3月底,全國醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)達(dá)97.8萬個(gè),其中:醫(yī)院2.5萬個(gè),基層醫(yī)療衛(wèi)生機(jī)構(gòu)91.8萬個(gè),專業(yè)公共衛(wèi)生機(jī)構(gòu)3.2萬個(gè),其他機(jī)構(gòu)0.3萬個(gè)。全國按2.5萬家醫(yī)院計(jì)算,一家醫(yī)院按4個(gè)信息系統(tǒng)計(jì)算,全國共有10萬件工具,那么,從數(shù)千萬張表中查詢數(shù)據(jù),即使最優(yōu)秀的程1、這些數(shù)據(jù)分別是哪家醫(yī)院所產(chǎn)生的?2、這些數(shù)據(jù)分別是什么樣的數(shù)據(jù)庫系統(tǒng)產(chǎn)生的?3、這些數(shù)據(jù)分別存貯在哪些表中?4、各張表的結(jié)構(gòu)是什么?5、表中會(huì)含有大量的代碼,各個(gè)代碼的含義是什么?6、同一數(shù)據(jù)庫中會(huì)有多張表,這些表之間的關(guān)系是什么?7、各張表中所存貯的是什么數(shù)據(jù)?數(shù)據(jù)的類型是什么?國家醫(yī)療大數(shù)據(jù)并不是把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中在一起就可大數(shù)據(jù)比小數(shù)據(jù)大多少倍?目前沒有明確的定義,應(yīng)大數(shù)據(jù)的大表現(xiàn)在:一是數(shù)據(jù)量大(是小數(shù)據(jù)“萬倍以上”),二是數(shù)據(jù)類四是所涉及到的用戶多種多樣(是小數(shù)據(jù)“萬倍以上”),五是對數(shù)據(jù)的需求多種多樣而且不確定(是小數(shù)據(jù)“萬倍以上”)。3歲小朋友都可以數(shù)清楚自已家里有幾口人,然而全國有多少人?由于人數(shù)事物的數(shù)量大到一定程度后一項(xiàng)非常簡單的工作就會(huì)變成一項(xiàng)非常艱巨的大數(shù)據(jù)的特點(diǎn):小數(shù)據(jù)中的小問題一旦放大萬倍就會(huì)倍、數(shù)十萬倍就會(huì)大的嚇人!對醫(yī)療行業(yè)而言,全國擁有近97.8萬家醫(yī)療機(jī)構(gòu),數(shù)百萬從國13億人服務(wù)。●大數(shù)據(jù)=價(jià)值大=困難大=問題大=代價(jià)大所有信息系統(tǒng)中挖掘出有價(jià)值的信息實(shí)在是大難了!主要有下述八大難題。1、各自為政:各家醫(yī)療機(jī)構(gòu)各自為政,都“SH”等表示上海市出生的人。解決這一3、業(yè)務(wù)及業(yè)務(wù)流程不標(biāo)準(zhǔn):要對全國的某個(gè)行業(yè)是非常高昂的?!緸槭裁匆壐脑?因?yàn)榧倚l(wèi)計(jì)委組織業(yè)內(nèi)外力量來解決,解決此問題需要3至5年的時(shí)間。有了國家醫(yī)下述4個(gè)問題屬于技術(shù)問題,關(guān)系數(shù)據(jù)庫理論解決不了這4個(gè)問題,可由發(fā)能實(shí)現(xiàn)病歷信息的結(jié)構(gòu)化存貯。有人用XML實(shí)現(xiàn)病歷信息的結(jié)構(gòu)化存貯,然而2.3國家大數(shù)據(jù)標(biāo)準(zhǔn)工程堪比“兩彈一星”大數(shù)據(jù)八大難題中的五大難題(各自為政、數(shù)據(jù)不標(biāo)準(zhǔn)、業(yè)務(wù)流程不標(biāo)準(zhǔn)、而徹底砸爛小數(shù)據(jù)建立大數(shù)據(jù)新環(huán)境則涉及到幾乎所有信息系統(tǒng)的所有數(shù)據(jù)!當(dāng)前在處理大數(shù)據(jù)時(shí)的首要工作就是數(shù)據(jù)抽取(ETL:“Extract”、取工作也類似“秦始皇的書同文”,只是數(shù)上解決書同文問題。要使大數(shù)據(jù)真正做到“書同當(dāng)我們面對數(shù)十萬個(gè)、數(shù)百萬個(gè)以上的信息系統(tǒng)中的數(shù)據(jù)(大數(shù)據(jù))時(shí),就會(huì)發(fā)現(xiàn),我們面臨很多挑戰(zhàn):“(維基百科對大數(shù)據(jù)的定義)無法在可承受的時(shí)而信息系統(tǒng)對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理后而以用戶能夠理解的形式展現(xiàn)給國家衛(wèi)生和計(jì)劃生育委員會(huì)幾年前就注意到了醫(yī)療行業(yè)信息系統(tǒng)頂層設(shè)計(jì)如果把全國97.8萬個(gè)醫(yī)療衛(wèi)生機(jī)構(gòu)所產(chǎn)生的數(shù)據(jù)全部存貯據(jù)中心,這些數(shù)據(jù)可以稱作是“國家醫(yī)療大數(shù)據(jù)”,然而這樣的數(shù)據(jù)并不能稱作是真正合格的“國家醫(yī)療大數(shù)據(jù)”,因?yàn)?,對這樣的數(shù)據(jù)的挖掘非常困難,從這國家醫(yī)療大數(shù)據(jù)的概況:截至2014年3月底,全國醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)達(dá)97.8萬個(gè),其中:醫(yī)院2.5萬個(gè),基層醫(yī)療衛(wèi)生機(jī)構(gòu)91.8萬個(gè),專業(yè)公共衛(wèi)生機(jī)構(gòu)僅按全國擁有2.5萬家醫(yī)院、每家醫(yī)院4個(gè)信息系統(tǒng)計(jì)算,全國約有10萬個(gè)以上的醫(yī)院信息系統(tǒng),每個(gè)信息系統(tǒng)按20張表估算,全國共擁有200百萬張2臺(tái)專用于PACS,其中HIS、LIS、EMR等數(shù)據(jù)3T,病案縮微數(shù)據(jù)12T,PACS數(shù)據(jù)120T左右,每個(gè)月的數(shù)據(jù)增長為2T左右,每年產(chǎn)生的數(shù)據(jù)量:24T/年。國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算=2.5萬家(未計(jì)小醫(yī)療機(jī)構(gòu)的數(shù)據(jù))*24T/年=60萬國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:6萬T/年至100萬T/年。如果全國97.8萬家醫(yī)療機(jī)構(gòu)以鏡像的方式把所有數(shù)據(jù)都上傳數(shù)據(jù)中心,那么該如何對這些數(shù)據(jù)進(jìn)行挖掘?全國共有97.8萬家醫(yī)療機(jī)構(gòu),這些醫(yī)療機(jī)構(gòu)所擁有的信息系統(tǒng)有10萬個(gè)以上,這些醫(yī)療機(jī)構(gòu)所擁有的數(shù)據(jù)庫有10萬個(gè)以上,這些數(shù)據(jù)庫中的表有200萬張以上。這些醫(yī)療機(jī)構(gòu)的數(shù)據(jù)存貯在數(shù)十萬個(gè)以上的文件夾中(存貯XML、音像、文本等數(shù)據(jù))?;颊卟∈房赡苁腔颊咦猿錾詠淼乃小?0萬個(gè)以上的數(shù)據(jù)庫各用什么數(shù)據(jù)庫系統(tǒng)?●10萬個(gè)以上的數(shù)據(jù)庫的數(shù)據(jù)存貯在哪里?IP?如何訪問數(shù)據(jù)庫(帳(整體定位)(數(shù)據(jù)庫、數(shù)據(jù)表、字段)(主鍵或組合主鍵)(主索引或其他標(biāo)志)(保證數(shù)據(jù)準(zhǔn)確、全面)…(字段)(字段)燃出如果說要從國家醫(yī)療大數(shù)據(jù)中查詢患者影像數(shù)據(jù),那么,該如何實(shí)現(xiàn)?門診或住院號(hào)姓名中請時(shí)間17歲男32歲男亮29歲男福男028歲女考皮右肺結(jié)核(請結(jié)合痰檢)杰男(門+住)胸部撐旋CT文()+任)腳部螺能CT端男田園者(門+住)胸部搜旋CJ男(門+住)胸部螺能CT 原男(門+住)胸部蝶旋可根據(jù)患者身份證號(hào)而查出患者的“門診或住院號(hào)”,再根據(jù)如果在國家醫(yī)療大數(shù)據(jù)中心查詢到下表的數(shù)據(jù),誰能看懂?R9R9ER9呋喃妥因59該表中的數(shù)據(jù)是某家醫(yī)院的信息系統(tǒng)中的關(guān)系通人難以看懂的:姓名性別姓名性別中藥費(fèi)其它費(fèi)用中的數(shù)據(jù)無論是誰,只要懂漢語,就可以看懂表中內(nèi)容:D事物代號(hào)附件時(shí)間教練信息身份證號(hào)姓名張三性別男身高病歷住院病歷醫(yī)療費(fèi)用身份證號(hào)姓名張三性別男中藥費(fèi)元西藥費(fèi)元其它費(fèi)用元相對大數(shù)據(jù)而言,關(guān)系數(shù)據(jù)庫理論是小數(shù)據(jù)時(shí)導(dǎo)致關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有通過應(yīng)用程序關(guān)系數(shù)據(jù)理論的一個(gè)致命傷就是由設(shè)計(jì)人員隨意定義數(shù)據(jù)結(jié)構(gòu)(表結(jié)構(gòu)),例如醫(yī)院的HIS系統(tǒng)、PACS系統(tǒng)、LIS系統(tǒng)。關(guān)系數(shù)據(jù)庫理論于1970年的6月由IBM公司的研究員埃德加.考特(Edgar關(guān)系數(shù)據(jù)庫是信息化社會(huì)的功臣,也是當(dāng)今嚴(yán)重的信息孤島的罪魁禍?zhǔn)?關(guān)系數(shù)據(jù)庫理論是單機(jī)時(shí)代、局域網(wǎng)時(shí)代的產(chǎn)物,是一種以自我為“中心”關(guān)系數(shù)據(jù)庫有多種(ORACLE、SQLSERVER、DB2、ACCESS等等),每一種大數(shù)據(jù),必須從根本上解決大數(shù)據(jù)所涉及到的“無窮的數(shù)據(jù)、無窮的數(shù)據(jù)結(jié)構(gòu)”則用“M”代表男性,用“W”代表女性。在醫(yī)院信息系統(tǒng)中,各個(gè)信息系統(tǒng)可不統(tǒng)一的代碼帶給數(shù)據(jù)挖掘人員的將是災(zāi)難!因?yàn)獒t(yī)療大數(shù)據(jù)挖掘人員所面臨的性院號(hào)病房房號(hào)床號(hào)姓名hh3039號(hào)22性網(wǎng)出生日期年齡婚否碼身份證號(hào)工作單位住院日期622120112195304293334建南區(qū)七閘口植三 學(xué)知識(shí)庫信息的結(jié)構(gòu)化存貯,查詢速度遠(yuǎn)遠(yuǎn)超2.6.8關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都是“方言”,大數(shù)據(jù)需要的是“普通話”大數(shù)據(jù)中心,那么,國家醫(yī)療大數(shù)據(jù)中就擁有10萬個(gè)以上的醫(yī)療信息系統(tǒng)所產(chǎn)病史的通用應(yīng)用軟件?患者病史數(shù)據(jù)有可能包含在10萬個(gè)以上的數(shù)據(jù)庫中的數(shù)千萬張以上的表中,首先需要搞清楚國家醫(yī)療大數(shù)據(jù)中的10萬個(gè)以上的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)數(shù)據(jù)庫中含有哪些表,這些表(數(shù)千萬張表)的數(shù)據(jù)結(jié)構(gòu)是什么、這些表之間的其次是數(shù)據(jù)抽取(ETL),然而要對數(shù)十萬個(gè)數(shù)據(jù)庫中的數(shù)千萬張表中的數(shù)如果某些醫(yī)療信息系統(tǒng)中未能使用患者的身份證號(hào),那么,在大數(shù)據(jù)環(huán)境查詢過程如下:發(fā),數(shù)據(jù)結(jié)構(gòu)各不相同。要搞清楚對應(yīng)的數(shù)據(jù)庫及對應(yīng)的表,也是一病歷數(shù)據(jù)存貯在XML文件中。全年每年產(chǎn)生76億份病歷,從76億份病因結(jié)論:處理數(shù)十萬個(gè)關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的大數(shù)據(jù)是非常困難的!由于醫(yī)療大數(shù)據(jù)面臨八大難題以及對全國各家醫(yī)療醫(yī)療機(jī)構(gòu)現(xiàn)有的信息系是把各家醫(yī)療機(jī)構(gòu)的數(shù)據(jù)全部存貯到一個(gè)云平臺(tái)就能稱作是合格的國家醫(yī)療大2.8.1信息化社會(huì)由概念到比較成熟用了30多年時(shí)間的較為流行的說法是“3C”社會(huì)(通訊化、計(jì)算機(jī)化和自動(dòng)控制化),“3A”社會(huì)(工廠自動(dòng)化、辦公室自動(dòng)化、家庭自動(dòng)化)和“4A”社會(huì)(“3A”加農(nóng)業(yè)自動(dòng)化)。到了90年代,關(guān)于信息社會(huì)的說法又加上多媒體技術(shù)和信息高速大數(shù)據(jù)的概念是2012年提出的,根據(jù)以往的經(jīng)驗(yàn),要?jiǎng)?chuàng)造一個(gè)時(shí)代,最起年危機(jī)”??s寫為“Y2K”。是指在某些使用了計(jì)算機(jī)程序的智能系統(tǒng)(包括計(jì)算機(jī)系統(tǒng)、自動(dòng)控制芯片等)中,由于其中的年份只使用兩位十進(jìn)制數(shù)來表示,因此當(dāng)系統(tǒng)進(jìn)行(或涉及到)跨世紀(jì)的日期處理運(yùn)算時(shí)(如多個(gè)日期之間的計(jì)算或比較等),就會(huì)出現(xiàn)錯(cuò)誤的結(jié)果,進(jìn)而引發(fā)各種各樣的系統(tǒng)功能紊亂甚至“千年蟲”問題的根源始于60年代。當(dāng)時(shí)計(jì)算機(jī)存儲(chǔ)器的成本很高,如果來臨之際,大家才突然意識(shí)到用兩位數(shù)字表示年份將無法正確辨識(shí)公元2000年及其以后的年份。1997年,信息界開始拉起了“千年蟲”警鐘,并很快引起了費(fèi)2000億美元(有的媒體報(bào)道為3000億美元,有的為6000億美元)。新年伊始,聯(lián)合國“國際2000年問題協(xié)調(diào)監(jiān)控中心”等機(jī)構(gòu)先后宣布,133個(gè)國家的能源、通訊等若用當(dāng)前的技術(shù)如何處理國家醫(yī)療大數(shù)據(jù)?其次是數(shù)據(jù)抽取:對原有的數(shù)據(jù)進(jìn)行抽取。若要對全國97.8萬家醫(yī)療機(jī)構(gòu)2.8.4五年之內(nèi)(2020年前)醫(yī)療大數(shù)據(jù)只是紙上談兵據(jù)才能逐步變成現(xiàn)實(shí)。從某種方面而言,五年之內(nèi)(2020年前)中國沒有真正挖掘的數(shù)據(jù)只能稱為“數(shù)據(jù)垃圾”,五年之后才能將“數(shù)據(jù)垃圾”變成寶。過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到獲取、處理的數(shù)據(jù)?!本S基百科對大數(shù)據(jù)的定義也意味著當(dāng)前的主流軟件工具已不能滿足時(shí)代發(fā)人的大腦是如何處理數(shù)據(jù)的多樣性的?對人的大腦而言,沒有數(shù)據(jù)類型的概念。對于同一感覺器官所接收的信號(hào)而言,它們的類型都是一的數(shù)據(jù)有數(shù)據(jù)類型,也只有六種類型(視覺型、聽覺型、觸覺型、嗅覺型、味覺型、痛覺型)。從某種方面而言,大腦中的數(shù)據(jù)只有一種類型,即模擬型數(shù)大腦以同時(shí)聯(lián)想、相似聯(lián)想、接近聯(lián)想的方式就可以聯(lián)想(猶如計(jì)算機(jī)中的查詢、檢索)到大腦中的所有信號(hào)。而這些功能、特性是關(guān)系數(shù)據(jù)庫及XML不可能實(shí)現(xiàn)的。而醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法是關(guān)系數(shù)據(jù)庫理息的結(jié)構(gòu)化存貯方法進(jìn)行大數(shù)據(jù)挖掘時(shí)會(huì)使原來非常困難的問題變得非常簡單。適合處理病歷信息,可以使病歷信息結(jié)構(gòu)化,法”也是一種新型的數(shù)據(jù)庫理論,因此,需要花金庸的小說描寫到:游坦之之所以能練成易筋不會(huì)。武功非常高強(qiáng)的鳩摩智為什么練不成易筋經(jīng)?在少林寺藏經(jīng)閣中的掃地僧說“鳩摩智練了少林派的七十二絕技之后,又去強(qiáng)練甚么《易筋經(jīng)》”,又說他“次序顛倒,大難已在旦夕之間”。說存慈悲之念,戾氣所鐘,奇禍難測。這般修煉上乘關(guān)系數(shù)據(jù)庫以“橫向”的N個(gè)字段存貯一個(gè)事物的信息:姓名“醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法”以“縱向”的N(或N+X)條記錄存貯一個(gè)事物的信息事物代號(hào)附件時(shí)間員工信息姓名張三性別男醫(yī)生列名事物代號(hào)附件時(shí)間萬能數(shù)據(jù)結(jié)構(gòu)表”存貯數(shù)據(jù)的例子:時(shí)間住院病歷患者基本情況身份證號(hào)姓名石化總廠入院日期婚否已婚病史采取日期籍貫浙江省寧波市病史記錄日期民族漢患者本人住院病歷現(xiàn)病歷身份證號(hào)寒戰(zhàn)腹瀉誘因間身份證號(hào)住院病歷現(xiàn)病歷腹瀉開始時(shí)間1991-8-16晚間次數(shù)3次身份證號(hào)住院病歷出院記錄腫塊大小腫塊特點(diǎn)不光滑腫塊特點(diǎn)界限不清腫塊特點(diǎn)腫塊特點(diǎn)腫塊特點(diǎn)腫塊特點(diǎn)“桔皮樣”改變中一個(gè)完整的數(shù)據(jù)是“事物”,一個(gè)“事物”的信息由若干條擁有相同“超長特征值”的含義也是事物特征值,用來存放超過“事物特征值”6.“單位”字段代表事物特征值的單位(次、米、噸等)。構(gòu)表”中的“N個(gè)記錄”時(shí),這“N個(gè)記錄”組成一個(gè)事物,每一息的結(jié)構(gòu)化存貯方法所建立的電子病歷系統(tǒng)和醫(yī)學(xué)知識(shí)庫的存貯效果及查詢速息的數(shù)量十分龐大,人工已無法處理。計(jì)算機(jī)處理病歷信息的比較高的目標(biāo)是:速度快。2014年全國診療量為78億人次,若全用電子病歷,全國每年產(chǎn)生78存貯方法不要求同一類事物都要擁有相同的“字段用醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法所建立的各種信息系統(tǒng)的數(shù)據(jù)源都是相同的醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法作為通用數(shù)據(jù)接口的應(yīng)用可以接收和發(fā)送各種各樣口就可以接收各種各樣的數(shù)據(jù),只要把所接收的數(shù)據(jù)轉(zhuǎn)換為“萬能數(shù)據(jù)結(jié)構(gòu)表”據(jù)的可識(shí)別性(數(shù)據(jù)的可識(shí)別性是指可讓各個(gè)數(shù)據(jù)都的特性),需要特別注重?cái)?shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性。姓名性別上面的數(shù)據(jù)去掉結(jié)構(gòu)后就會(huì)失真:1男關(guān)系數(shù)據(jù)庫中的數(shù)據(jù):姓名性別中藥費(fèi)其它費(fèi)用去掉結(jié)構(gòu)后就會(huì)失真:男9事物代號(hào)附件時(shí)間病歷住院病歷患者基本情況身份證號(hào)姓名張三性別男身高上表中的數(shù)據(jù)去掉結(jié)構(gòu)后也不失真:病歷住院病歷患者基本情況身份證號(hào)姓名張三性別男身高下面的數(shù)據(jù)即使脫離表結(jié)構(gòu)也能表達(dá)出原來的含D事物代號(hào)附件時(shí)間病歷住院病歷醫(yī)療費(fèi)用身份證號(hào)姓名張三性別男中藥費(fèi)元西藥費(fèi)元其它費(fèi)用元病歷住院病歷醫(yī)療費(fèi)用身份證號(hào)姓名張三性別男中藥費(fèi)元西藥費(fèi)元其它費(fèi)用元3.3.2一個(gè)事物的數(shù)據(jù)據(jù)庫的名稱、表名”實(shí)際上是事物的“分類”,或者說是事物的屬性、特征。這對大數(shù)據(jù)而言每個(gè)數(shù)據(jù)都必須滿足如下條件才能讓各種上各樣的用戶都能看懂?dāng)?shù)據(jù)的真實(shí)含義:在大數(shù)據(jù)環(huán)境中,系統(tǒng)名(例如電子病歷系統(tǒng)、PACS系統(tǒng))、數(shù)據(jù)庫名、即使數(shù)據(jù)在數(shù)百萬個(gè)信息系統(tǒng)中,只要具有同的“事物特征”和“事物特征值”事物代號(hào)附件時(shí)間333帝企鵝33動(dòng)物編號(hào)3名字漢武帝3購入日期3身高m33出生日期3照片3籠舍編號(hào)3管理員張三3父3母客戶雇員山秦企業(yè)統(tǒng)一包患凱誠國際顧間公司學(xué)仁貿(mào)易國皓10286升格企業(yè)下面將要描述的是如何用獨(dú)立數(shù)據(jù)庫的方法讓各個(gè)數(shù)據(jù)自己自動(dòng)地建立關(guān)附件時(shí)間山泰企業(yè)訂購日期到貨日期發(fā)貨日期元貨主名稱貨主地址豬肉元折扣0%9元噸折扣0%元瓶門診或住院號(hào),要在大數(shù)據(jù)環(huán)境中查詢某個(gè)份證號(hào)而查出門診或住院號(hào),再根據(jù)門診或住院號(hào)而從PACS系統(tǒng)表中的PACS數(shù)據(jù)。這也是典型的“關(guān)系”,這種“關(guān)系”為大數(shù)據(jù)處理增加了很多中請時(shí)間世17歲周氣男福再女感考慮右?guī)浗Y(jié)核(請結(jié)合痰檢)杰男(門+住)航事搜第石女(+住)胸部螺建CT濱男田園害(門+性)胸部棵牌行男(門+住)胸部螺庭CT思男(門+住)胸部媒旋性院號(hào)病房房號(hào)床號(hào)姓名性號(hào)網(wǎng)出生日期06133038月608有1517班下:222年齡婚否詞11230227198302170411無系”,讓數(shù)據(jù)本身的特征及特征值而自動(dòng)發(fā)生“關(guān)系”,或者說獨(dú)立數(shù)據(jù)庫中數(shù)關(guān)系數(shù)據(jù)庫的“關(guān)系”:數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)(ORACLE、SQLSERVER、等)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu)具有密不分的關(guān)系處理制造了很多麻煩!正是由于關(guān)系數(shù)據(jù)的“關(guān)系”而導(dǎo)是“獨(dú)立數(shù)據(jù)庫”,就是為了與關(guān)系數(shù)據(jù)庫系”,而“獨(dú)立數(shù)據(jù)庫”所強(qiáng)調(diào)的則是堅(jiān)決鏟除“關(guān)系”,讓各個(gè)數(shù)據(jù)自己獨(dú)立附件時(shí)間患者基本情況患者編號(hào)身份證號(hào)姓名胡風(fēng)上海橡膠廠職別性別女上海市蒙古路20號(hào)婚否已婚病史采取日期民族漢時(shí)間患者編號(hào)姓名胡風(fēng)身份證號(hào)獨(dú)立數(shù)據(jù)庫中的數(shù)據(jù)冗余的目的是讓每一個(gè)數(shù)據(jù)在任何環(huán)境中都具有可識(shí)策略!其目的是為了是以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)具有可識(shí)別性。當(dāng)前的硬盤的存貯容量與80年代初期相比,已提高了十萬倍以上,因此,為10M,現(xiàn)在硬盤的容量已2T以上。2T=2000G=2000000M=20萬個(gè)10M】968R9bR3E8R呋喃妥因S1前的醫(yī)療信息系統(tǒng)中未使用患者的身份證號(hào)而導(dǎo)致查詢患者的影像數(shù)據(jù)變得非 (例如身份證號(hào))來確保每一個(gè)數(shù)據(jù)都是可識(shí)別的。在下面的PACS系統(tǒng)表中的門診或住院號(hào)申請時(shí)間爸11歲男男元學(xué)福男獲檢)2、表側(cè)胸腔積液伴物膜增原粘屬請文法材商鎮(zhèn)檢(+)考慮右肺結(jié)核(請結(jié)合痰檢)藍(lán)男女出月田園者男西西思男3.3.6數(shù)據(jù)的多樣性持XML進(jìn)行元數(shù)據(jù)交換;支持分布式的元數(shù)據(jù)訪問和管理;生成元數(shù)據(jù)報(bào)表;對于ETL過程的沖突分析;基于元數(shù)據(jù)的查詢功能;元數(shù)據(jù)的廣播和重用;對于ETL過程的流程分析等。SQLSERVER、DB2等)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu)具有密不分的關(guān)系,6胡鳳工人05已漢上述形式的數(shù)據(jù)是小數(shù)據(jù)時(shí)代的經(jīng)典結(jié)構(gòu)形式。其實(shí)“字段名”也是很重要附件時(shí)間患者基本情況患者編號(hào)身份證號(hào)姓名胡風(fēng)職別性別女婚否已婚病史采取日期民族漢那么,在對數(shù)十萬個(gè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行處理時(shí),根本不需要進(jìn)行數(shù)據(jù)抽取?!叭f能數(shù)據(jù)結(jié)構(gòu)表”中的信息是讓“數(shù)據(jù)自己說話”,不依賴數(shù)據(jù)庫系統(tǒng)、目前硬盤的存貯容量已提高了10萬倍以上,多占據(jù)一倍左右的存貯空間的代價(jià)據(jù)就是程序”,其含義是:大腦是一個(gè)通用的、萬能醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程序無關(guān)”。因?yàn)獒t(yī)學(xué)信息的結(jié)構(gòu)化存貯方法中的無關(guān)時(shí)(或關(guān)系很少時(shí))”,只要編寫一個(gè)通用的程序,其它人借助這個(gè)程序就用數(shù)據(jù)代替程序:寧愿增加大量的“冗余”推論:由于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)幾乎全部都是與信系”,可以完全脫離數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)、孤島問題就可以得到有效解決!醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法與關(guān)系數(shù)據(jù)庫的對比一件非常煩瑣的工作?!叭f能數(shù)據(jù)結(jié)構(gòu)表”是一張萬能表,可以存放任意結(jié)構(gòu)的數(shù)據(jù)。不同的表,其結(jié)構(gòu)不一樣。1000種表就有1000種以上的結(jié)構(gòu)。關(guān)系數(shù)據(jù)庫是一種與數(shù)據(jù)結(jié)構(gòu)密不可分的數(shù)據(jù)庫,正因如此而導(dǎo)致了異構(gòu)數(shù)據(jù)源、信息孤島、信息交換問題。的,所有的數(shù)據(jù)都可以放到一個(gè)統(tǒng)據(jù)結(jié)構(gòu)表"而建立的數(shù)據(jù)庫系統(tǒng)是據(jù)庫。關(guān)系數(shù)據(jù)庫是異構(gòu)數(shù)據(jù)的發(fā)源地。不存在異構(gòu)數(shù)據(jù)問題,所有的數(shù)據(jù)都是同構(gòu)的?;臄?shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)關(guān)系數(shù)據(jù)庫中的任何數(shù)據(jù)都與其數(shù)據(jù)結(jié)構(gòu)密切相關(guān),關(guān)系數(shù)據(jù)庫不能存放當(dāng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)傳送到其它地方時(shí),就會(huì)因?yàn)闆]有對應(yīng)的數(shù)據(jù)庫和數(shù)據(jù)結(jié)構(gòu)而無法生存。為它是一種與結(jié)構(gòu)無關(guān)的數(shù)據(jù)結(jié)構(gòu),雖說它也有結(jié)構(gòu)?!叭f能數(shù)據(jù)結(jié)構(gòu)表"在任何數(shù)據(jù)庫中的結(jié)構(gòu)都相同。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不是獨(dú)立數(shù)據(jù)必須依賴其數(shù)據(jù)結(jié)構(gòu)而存在,失去了數(shù)據(jù)結(jié)構(gòu),就會(huì)變成無意義的數(shù)據(jù)。種含義。關(guān)系數(shù)據(jù)中的數(shù)據(jù)不是完整數(shù)據(jù),因?yàn)橥暾臄?shù)據(jù)。是完整數(shù)據(jù)所以處理醫(yī)學(xué)信息的結(jié)構(gòu)化存貯方法中的數(shù)據(jù)與處理關(guān)系數(shù)據(jù)庫中表中的數(shù)據(jù)病歷中的“患者基本情況”的信息為:姓名胡鳳工作單位職別上海橡膠8廠工人性別女住址上海市蒙古路20號(hào)年齡32歲入院日期1991-4-30婚否已病史采取日期1991-4-30籍貫江蘇鹽城縣病史記錄日期1991-4-30號(hào)值附件時(shí)間住院病歷入院病歷患者基本情況患者編號(hào)姓名胡風(fēng)健康卡號(hào)身份證號(hào)職別性別女入院日期民族漢者住院病歷入院病歷患者編號(hào)姓名胡風(fēng)健康卡號(hào)身份證號(hào)怕熱持續(xù)時(shí)間5年住院病歷入院病歷患者編號(hào)姓名胡風(fēng)健康卡號(hào)身份證號(hào)多汗持續(xù)時(shí)間5年要一個(gè)接口,若與100個(gè)系統(tǒng)交換數(shù)據(jù),最少要開發(fā)100個(gè)接口。因?yàn)橛冕t(yī)學(xué)信息的結(jié)構(gòu)化存貯方法所開發(fā)出的信息系統(tǒng)的數(shù)據(jù)源都是同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論