版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用【摘要】以小兒肺炎為例,采用數(shù)據(jù)挖掘技術(shù)建立中醫(yī)小兒肺炎辨證規(guī)范,并與“十五”前期的小兒肺炎辨證規(guī)范進(jìn)行對(duì)比分析,以期為數(shù)據(jù)挖掘技術(shù)在中醫(yī)辨證規(guī)范化方面做出貢獻(xiàn)。
【關(guān)鍵詞】辨證規(guī)范數(shù)據(jù)挖掘小兒肺炎
傳統(tǒng)的中醫(yī)診斷疾病包括辨病和辨證兩部分。辨證是中醫(yī)學(xué)中最富有特色的科學(xué)精華,也是中醫(yī)診斷學(xué)的主要研究?jī)?nèi)容。中醫(yī)辨證標(biāo)準(zhǔn)的研究,對(duì)于發(fā)展中醫(yī)理論及提高臨床診治水平,具有極其重要的意義。目前,中醫(yī)學(xué)尚缺乏公認(rèn)的中醫(yī)辨證規(guī)范。已經(jīng)出現(xiàn)的中醫(yī)辨證的方法多采用統(tǒng)計(jì)方法和邏輯分析方法,但受人為經(jīng)驗(yàn)因素的影響,難以擺脫傳統(tǒng)的經(jīng)驗(yàn)?zāi)J?。本文以小兒肺炎為例,提出運(yùn)用數(shù)據(jù)挖掘技術(shù),通過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、挖掘結(jié)果處理,從而建立中醫(yī)小兒肺炎辨證規(guī)范。
1中醫(yī)小兒肺炎辨證規(guī)范數(shù)據(jù)挖掘的相關(guān)技術(shù)
數(shù)據(jù)挖掘是在大量的數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)有用的信息的過(guò)程,是知識(shí)發(fā)現(xiàn)的一部分。運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)發(fā)現(xiàn)的過(guò)程如圖1所示。
1.1數(shù)據(jù)預(yù)處理
在進(jìn)行數(shù)據(jù)挖掘之前必須要經(jīng)過(guò)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理的任務(wù)是將現(xiàn)有的數(shù)據(jù)集轉(zhuǎn)換成符合挖掘算法要求的集中的數(shù)據(jù)集。預(yù)處理工作主要通過(guò)以下步驟完成:從多個(gè)數(shù)據(jù)源中進(jìn)行數(shù)據(jù)的匯集;去掉噪聲數(shù)據(jù)和重復(fù)數(shù)據(jù);進(jìn)行屬性選擇,可以采用交互的方式讓用戶自己進(jìn)行屬性篩選,去掉那些與挖掘工作無(wú)關(guān)的屬性;維度約簡(jiǎn),可以通過(guò)某些技術(shù),例如粗糙集技術(shù),約簡(jiǎn)掉那些對(duì)決策不重要的屬性;數(shù)據(jù)規(guī)范化處理,最終得到符合挖掘要求的數(shù)據(jù)集。由于數(shù)據(jù)集可能來(lái)自各種不同的途徑,因此數(shù)據(jù)預(yù)處理過(guò)程是整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程中最耗費(fèi)時(shí)間的步驟。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘過(guò)程就是根據(jù)挖掘人物的不同,選擇不同算法進(jìn)行數(shù)據(jù)分析的過(guò)程,主要的算法包括關(guān)聯(lián)規(guī)則算法、聚類算法、時(shí)間序列分析算法。
1.2.1關(guān)聯(lián)規(guī)則
數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘可形式地定義為
設(shè)I={i1,i2,…im}是所有項(xiàng)目的集合,即數(shù)據(jù)庫(kù)中的所有字段;D是所有事務(wù)的集合,即數(shù)據(jù)庫(kù);每個(gè)事務(wù)T是一些項(xiàng)目的集合,T包含在I中,每個(gè)事務(wù)可以用唯一的標(biāo)識(shí)符TID來(lái)表示。設(shè)X為某些項(xiàng)目的集合,如果X?哿T,則稱事務(wù)T包含X。關(guān)聯(lián)規(guī)則表示為:XY,其中,XI,YI,X∩Y=。關(guān)聯(lián)模型主要描述了一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。
1.2.2聚類算法
聚類就是把整個(gè)數(shù)據(jù)分成不同的組,并使組與組之間的差距盡可能地大,組內(nèi)數(shù)據(jù)的差異盡可能地小。聚類分析時(shí)數(shù)據(jù)集合的特征是未知的。聚類根據(jù)一定的聚類規(guī)則,將具有某種相同特征的數(shù)據(jù)聚在一起,也稱為無(wú)監(jiān)督學(xué)習(xí)。聚類的數(shù)學(xué)描述如下所示:給定數(shù)據(jù)集合V={νi|i=1,2,…n},其中νi為數(shù)據(jù)對(duì)象,根據(jù)對(duì)象間的相似度將數(shù)據(jù)集合分成k組,并滿足:{Cj|j=1,2,…k},其中CiV;Ci∩Cj=∪ki=1Ci=V,則該過(guò)程稱為聚類,Ci稱為簇。
1.2.3時(shí)間序列分析
時(shí)間序列是指系統(tǒng)中某一變量的觀測(cè)值按時(shí)間順序排列成一個(gè)數(shù)值序列,展示研究對(duì)象在一定時(shí)期內(nèi)的變動(dòng)過(guò)程,從中尋找和分析事物的變化特征、發(fā)展趨勢(shì)和規(guī)律。它是系統(tǒng)中某一變量受其他各種因素影響的總結(jié)果。研究時(shí)間序列的實(shí)質(zhì)是通過(guò)處理預(yù)測(cè)目標(biāo)本身的時(shí)間序列數(shù)據(jù),獲得事物隨時(shí)間過(guò)程的演變特性與規(guī)律,進(jìn)而預(yù)測(cè)事物的未來(lái)發(fā)展。
1.2.4粗糙集
粗糙集理論[2]由波蘭科學(xué)家Z.Pawlak在1982年提出。它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理[3],從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗糙集中的一個(gè)特點(diǎn)就是對(duì)于所需處理的問(wèn)題無(wú)需先驗(yàn)知識(shí),因此具有相當(dāng)?shù)目陀^性。目前,粗糙集理論已經(jīng)被成功地應(yīng)用于挖掘?qū)傩砸蕾嚩群蛯傩约s簡(jiǎn)。
1.3挖掘結(jié)果處理
經(jīng)過(guò)數(shù)據(jù)挖掘之后得到的信息是一些數(shù)據(jù),并不能直接幫助用戶進(jìn)行決策,需要將挖掘結(jié)果進(jìn)行集成或可視化處理,確保將有效、有用的信息呈現(xiàn)出來(lái),或者從多個(gè)不同角度進(jìn)行數(shù)據(jù)分析和
挖掘結(jié)果的分析。
2中醫(yī)小兒肺炎辨證規(guī)范數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)
中醫(yī)小兒肺炎數(shù)據(jù)挖掘系統(tǒng)是在前期“十五”攻關(guān)課題“小兒肺炎中醫(yī)證治規(guī)律研究”的研究成果基礎(chǔ)上,通過(guò)1000例小兒肺炎前瞻性臨床研究建立計(jì)算機(jī)數(shù)據(jù)處理平臺(tái),應(yīng)用數(shù)據(jù)挖掘技術(shù),客觀建立中醫(yī)辨證規(guī)范、療效評(píng)價(jià)指標(biāo)和方法體系。通過(guò)臨床信息采集和數(shù)據(jù)挖掘,將重新確認(rèn)小兒肺炎證型的分布;各證型癥狀的基本構(gòu)成;確認(rèn)癥狀間的關(guān)聯(lián)關(guān)系;確認(rèn)癥狀對(duì)病證診斷和療效評(píng)價(jià)的貢獻(xiàn)率以及證型之間的轉(zhuǎn)換規(guī)律。系統(tǒng)的處理流程如圖2所示。
2.1數(shù)據(jù)預(yù)處理
在進(jìn)行數(shù)據(jù)挖掘之前,必須經(jīng)過(guò)數(shù)據(jù)預(yù)處理。在本系統(tǒng)中,數(shù)據(jù)預(yù)處理完成的任務(wù)包括數(shù)據(jù)導(dǎo)入、缺失值處理、數(shù)據(jù)規(guī)范化處理、異常數(shù)據(jù)處理、屬性約簡(jiǎn)、數(shù)據(jù)分割。
2.2數(shù)據(jù)挖掘過(guò)程
2.2.1聚類分析得到小兒肺炎證型的分布和癥狀構(gòu)成
系統(tǒng)中挖掘工作的第一步是進(jìn)行聚類分析。聚類過(guò)程是一個(gè)無(wú)指導(dǎo)地將對(duì)象進(jìn)行歸類的過(guò)程。
聚類的結(jié)果包括以下兩部分
證的分布。證的分布指的是疾病證型的構(gòu)成,很明顯這是一個(gè)無(wú)指導(dǎo)的過(guò)程。聚類的結(jié)果形成多個(gè)簇,每個(gè)簇就是所說(shuō)的證。證的命名通過(guò)與專家的交互,完成了辨證標(biāo)準(zhǔn)的客觀功能部分。
證的構(gòu)成。聚類后,每個(gè)證包含了若干癥狀向量,可以得到每個(gè)證的癥狀構(gòu)成情況。
2.2.2關(guān)聯(lián)規(guī)則分析得到癥狀間的關(guān)聯(lián)關(guān)系
關(guān)聯(lián)規(guī)則分析是在聚類挖掘的基礎(chǔ)之上,在每個(gè)不同的證型中進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到每個(gè)證的癥狀之間的關(guān)聯(lián)關(guān)系。中醫(yī)小兒肺炎數(shù)據(jù)的層次關(guān)系可用圖4表示。
系統(tǒng)中數(shù)據(jù)具有層次關(guān)系。在進(jìn)行挖掘時(shí),一方面,可以在最上層,即癥狀級(jí),例如發(fā)熱、咳嗽、氣促這樣的級(jí)別中進(jìn)行挖掘,尋找關(guān)聯(lián)關(guān)系;另一方面,也可以在具體的層次中進(jìn)行挖掘,例如在稽留熱、弛張熱、間歇熱、劇烈咳嗽、咳聲無(wú)力、咳聲重濁、氣急、鼻煽、呼吸困難等這些具體的癥狀表現(xiàn)層次上進(jìn)行挖掘,得到不同層次的不同的挖掘結(jié)果。通過(guò)關(guān)聯(lián)規(guī)則分析,得到癥狀之間的關(guān)聯(lián)關(guān)系。
2.2.3粗糙集屬性重要度計(jì)算癥狀對(duì)證的貢獻(xiàn)率
屬性的重要度[4]是指在一個(gè)信息系統(tǒng)中,不同的條件屬性對(duì)于決策屬性所起的作用是不同的。有些條件屬性可能對(duì)于決策屬性的取值起著重要作用,但有些可能不起作用。
用屬性的重要度來(lái)表示條件屬性對(duì)于決策屬性的影響程度,可以采用分別去掉各個(gè)屬性后,檢測(cè)整個(gè)信息系統(tǒng)是否因?yàn)槿サ袅诉@個(gè)屬性而導(dǎo)致了分類或決策結(jié)果發(fā)生了變化。若是,則這個(gè)屬性對(duì)于這個(gè)決策屬性是重要的,計(jì)算的值越大,重要性越大;反之,這個(gè)屬性不是重要的,計(jì)算出的值就小。dB-B’=rB-rB-B’,其中rB=■,屬性子集B’?B,POSB為正域,card為該集合的元素的基數(shù)。
2.2.4時(shí)間序列分析挖掘出證的變化規(guī)律
系統(tǒng)收錄了每個(gè)病人在整個(gè)病程中每天的病情數(shù)據(jù),構(gòu)成了一個(gè)帶有時(shí)序的序列。對(duì)這些序列進(jìn)行分析,獲得證隨時(shí)間過(guò)程的演變特性與規(guī)律。
2.3挖掘結(jié)果的驗(yàn)證
為驗(yàn)證挖掘結(jié)果,將從1000例樣本數(shù)據(jù)中隨機(jī)取出200例數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),用于多種辨證標(biāo)準(zhǔn)的驗(yàn)證測(cè)試。這200例驗(yàn)證數(shù)據(jù)將不參與數(shù)據(jù)挖掘,僅僅用于辨證標(biāo)準(zhǔn)的驗(yàn)證。為保證驗(yàn)證結(jié)果的可信度,將按照同年齡兒童中小兒肺
炎的患病率,通過(guò)采集非小兒肺炎兒童的數(shù)據(jù),將其與200例驗(yàn)證數(shù)據(jù)混合構(gòu)成混合樣本數(shù)據(jù)集。據(jù)統(tǒng)計(jì),同年齡兒童中小兒肺炎的患病率為10%左右,這樣將采集2000例非小兒肺炎兒童的數(shù)據(jù),構(gòu)成2200例數(shù)據(jù)組成的驗(yàn)證數(shù)據(jù)及用于辨證標(biāo)準(zhǔn)的驗(yàn)證,認(rèn)為這一數(shù)據(jù)量基本能夠滿足需要。
2.3.1驗(yàn)證處理
經(jīng)過(guò)數(shù)據(jù)挖掘處理后,可以得到挖掘的辨證標(biāo)準(zhǔn)、各證所屬癥狀的劃分方法以及具體癥狀的量化賦分方法。這樣系統(tǒng)具有四種辨證或診斷標(biāo)準(zhǔn)
《中醫(yī)病證診斷和療效標(biāo)準(zhǔn)》等確立的小兒肺炎辨證標(biāo)準(zhǔn)和各證所屬癥狀二級(jí)劃分方法以及具體癥狀的量化賦分方法。
進(jìn)行小兒肺炎辨證規(guī)范和療效評(píng)價(jià)方法研究之初,先期在邏輯判斷基礎(chǔ)上建立第二套辨證標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)針對(duì)小兒肺炎中醫(yī)各證的癥狀,依據(jù)各自對(duì)病證診斷的貢獻(xiàn)情況分為特異癥狀、主要癥狀和次要癥狀三級(jí)。并對(duì)復(fù)合癥狀、注釋性癥狀、極端癥狀、起鑒別作用癥狀、不宜作為療效判定癥狀等做出說(shuō)明和處理,借以對(duì)每個(gè)癥狀的程度水平進(jìn)行三級(jí)量化處理。
西醫(yī)的診斷標(biāo)準(zhǔn),包括小兒肺炎臨床表現(xiàn):呼吸系統(tǒng)、循環(huán)系統(tǒng)、神經(jīng)系統(tǒng)、消化系統(tǒng)以及并發(fā)證;小兒肺炎實(shí)驗(yàn)室檢查:病原學(xué)檢查、外周血檢查、X線檢查等。
數(shù)據(jù)挖掘的辨證標(biāo)準(zhǔn)。數(shù)據(jù)挖掘的辨證標(biāo)準(zhǔn)主要包括辨證指標(biāo)以及具體癥狀的量化賦分方法。辨證指標(biāo)包括關(guān)聯(lián)挖掘、時(shí)序挖掘、聚類挖掘。可以挖掘出具體癥狀的量化賦分方法。4種辨證標(biāo)準(zhǔn)分別在驗(yàn)證數(shù)據(jù)庫(kù)中進(jìn)行測(cè)試,得出客觀度對(duì)比表,同時(shí)構(gòu)造出整體的客觀度曲線。如圖5所示。
2.3.2優(yōu)化辨證標(biāo)準(zhǔn)
比較4套標(biāo)準(zhǔn)之間、3套辨證標(biāo)準(zhǔn)與西醫(yī)診斷標(biāo)準(zhǔn)之間在病證診斷方面的符合情況,修正各證構(gòu)成比、癥狀對(duì)證診斷的貢獻(xiàn)率等;確定客觀的量化方法,形成新的分級(jí)量化表,最終建立小兒肺炎辨證規(guī)范和方法體系。
2.3.3建立輔助診斷系統(tǒng)
在客觀辨證標(biāo)準(zhǔn)的基礎(chǔ)上,設(shè)計(jì)輔助診斷系統(tǒng),輔助專家對(duì)小兒肺炎各證進(jìn)行科學(xué)的診斷。
3結(jié)論
利用數(shù)據(jù)挖掘技術(shù)進(jìn)行中醫(yī)辨證規(guī)范的研究具有重要意義和挑戰(zhàn)性。中醫(yī)海量的病例數(shù)據(jù)為挖掘工作提供了很好的研究基礎(chǔ),中醫(yī)復(fù)雜的癥狀間的關(guān)系和證型間的變化為研究提出了挑戰(zhàn)。數(shù)據(jù)挖掘過(guò)程是一個(gè)需要人機(jī)交互、多次反饋修正的過(guò)程,高質(zhì)量的數(shù)據(jù)、相應(yīng)算法的合理參數(shù)是有效挖掘的基礎(chǔ)。運(yùn)用數(shù)據(jù)挖掘技術(shù)建立中醫(yī)小兒肺炎辯證規(guī)范,必將為促進(jìn)中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江省金華市十校2024~2025學(xué)年高二上學(xué)期期末生物試卷(含答案)
- 語(yǔ)文-內(nèi)蒙古鄂爾多斯市西四旗2024-2025學(xué)年2025屆高三第一(上)學(xué)期期末聯(lián)考試卷試題和答案
- 2024版標(biāo)準(zhǔn)合作合同簽訂稿版
- 福建省南平市金橋中學(xué)2021年高一英語(yǔ)模擬試卷含解析
- 福建省南平市建陽(yáng)水吉中學(xué)高一物理上學(xué)期期末試題含解析
- 2024版?zhèn)€人房屋裝修承包合同
- 蘇北四市(徐州、宿遷、淮安、連云港)2025屆高三第一次調(diào)研考試(一模)政治試卷(含答案)
- 2025年度二零二五年度科技產(chǎn)品全國(guó)巡展推廣合同3篇
- 2024股權(quán)對(duì)外轉(zhuǎn)讓協(xié)議與股權(quán)托管協(xié)議
- 《會(huì)展經(jīng)濟(jì)與策劃》課件
- 2024年計(jì)算機(jī)二級(jí)MS Office考試題庫(kù)500題(含答案)
- 銀行普惠金融事業(yè)部年度述職報(bào)告
- 幼兒園工作總結(jié)匯報(bào)課件
- 《民用爆炸物品安全管理?xiàng)l例》課件
- 移動(dòng)通信室內(nèi)覆蓋工程施工技術(shù)
- 生產(chǎn)組織供應(yīng)能力說(shuō)明
- DL-T 1476-2023 電力安全工器具預(yù)防性試驗(yàn)規(guī)程
- 通信安全員ABC證報(bào)名考試題庫(kù)及答案
- 開(kāi)放系統(tǒng)10861《理工英語(yǔ)(4)》期末機(jī)考真題及答案(第103套)
- 思想道德與法治測(cè)試三考試附有答案
- 《中華民族大團(tuán)結(jié)》(初中)-第7課-共同創(chuàng)造科學(xué)成就-教案
評(píng)論
0/150
提交評(píng)論