數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用_第1頁(yè)
數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用_第2頁(yè)
數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用_第3頁(yè)
數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用_第4頁(yè)
數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘技術(shù)在中醫(yī)小兒肺炎辨證規(guī)范中的應(yīng)用【摘要】以小兒肺炎為例,采用數(shù)據(jù)挖掘技術(shù)建立中醫(yī)小兒肺炎辨證規(guī)范,并與“十五”前期的小兒肺炎辨證規(guī)范進(jìn)行對(duì)比分析,以期為數(shù)據(jù)挖掘技術(shù)在中醫(yī)辨證規(guī)范化方面做出貢獻(xiàn)。

【關(guān)鍵詞】辨證規(guī)范數(shù)據(jù)挖掘小兒肺炎

傳統(tǒng)的中醫(yī)診斷疾病包括辨病和辨證兩部分。辨證是中醫(yī)學(xué)中最富有特色的科學(xué)精華,也是中醫(yī)診斷學(xué)的主要研究?jī)?nèi)容。中醫(yī)辨證標(biāo)準(zhǔn)的研究,對(duì)于發(fā)展中醫(yī)理論及提高臨床診治水平,具有極其重要的意義。目前,中醫(yī)學(xué)尚缺乏公認(rèn)的中醫(yī)辨證規(guī)范。已經(jīng)出現(xiàn)的中醫(yī)辨證的方法多采用統(tǒng)計(jì)方法和邏輯分析方法,但受人為經(jīng)驗(yàn)因素的影響,難以擺脫傳統(tǒng)的經(jīng)驗(yàn)?zāi)J?。本文以小兒肺炎為例,提出運(yùn)用數(shù)據(jù)挖掘技術(shù),通過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、挖掘結(jié)果處理,從而建立中醫(yī)小兒肺炎辨證規(guī)范。

1中醫(yī)小兒肺炎辨證規(guī)范數(shù)據(jù)挖掘的相關(guān)技術(shù)

數(shù)據(jù)挖掘是在大量的數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)有用的信息的過(guò)程,是知識(shí)發(fā)現(xiàn)的一部分。運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)發(fā)現(xiàn)的過(guò)程如圖1所示。

1.1數(shù)據(jù)預(yù)處理

在進(jìn)行數(shù)據(jù)挖掘之前必須要經(jīng)過(guò)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理的任務(wù)是將現(xiàn)有的數(shù)據(jù)集轉(zhuǎn)換成符合挖掘算法要求的集中的數(shù)據(jù)集。預(yù)處理工作主要通過(guò)以下步驟完成:從多個(gè)數(shù)據(jù)源中進(jìn)行數(shù)據(jù)的匯集;去掉噪聲數(shù)據(jù)和重復(fù)數(shù)據(jù);進(jìn)行屬性選擇,可以采用交互的方式讓用戶自己進(jìn)行屬性篩選,去掉那些與挖掘工作無(wú)關(guān)的屬性;維度約簡(jiǎn),可以通過(guò)某些技術(shù),例如粗糙集技術(shù),約簡(jiǎn)掉那些對(duì)決策不重要的屬性;數(shù)據(jù)規(guī)范化處理,最終得到符合挖掘要求的數(shù)據(jù)集。由于數(shù)據(jù)集可能來(lái)自各種不同的途徑,因此數(shù)據(jù)預(yù)處理過(guò)程是整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程中最耗費(fèi)時(shí)間的步驟。

1.2數(shù)據(jù)挖掘

數(shù)據(jù)挖掘過(guò)程就是根據(jù)挖掘人物的不同,選擇不同算法進(jìn)行數(shù)據(jù)分析的過(guò)程,主要的算法包括關(guān)聯(lián)規(guī)則算法、聚類算法、時(shí)間序列分析算法。

1.2.1關(guān)聯(lián)規(guī)則

數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘可形式地定義為

設(shè)I={i1,i2,…im}是所有項(xiàng)目的集合,即數(shù)據(jù)庫(kù)中的所有字段;D是所有事務(wù)的集合,即數(shù)據(jù)庫(kù);每個(gè)事務(wù)T是一些項(xiàng)目的集合,T包含在I中,每個(gè)事務(wù)可以用唯一的標(biāo)識(shí)符TID來(lái)表示。設(shè)X為某些項(xiàng)目的集合,如果X?哿T,則稱事務(wù)T包含X。關(guān)聯(lián)規(guī)則表示為:XY,其中,XI,YI,X∩Y=。關(guān)聯(lián)模型主要描述了一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。

1.2.2聚類算法

聚類就是把整個(gè)數(shù)據(jù)分成不同的組,并使組與組之間的差距盡可能地大,組內(nèi)數(shù)據(jù)的差異盡可能地小。聚類分析時(shí)數(shù)據(jù)集合的特征是未知的。聚類根據(jù)一定的聚類規(guī)則,將具有某種相同特征的數(shù)據(jù)聚在一起,也稱為無(wú)監(jiān)督學(xué)習(xí)。聚類的數(shù)學(xué)描述如下所示:給定數(shù)據(jù)集合V={νi|i=1,2,…n},其中νi為數(shù)據(jù)對(duì)象,根據(jù)對(duì)象間的相似度將數(shù)據(jù)集合分成k組,并滿足:{Cj|j=1,2,…k},其中CiV;Ci∩Cj=∪ki=1Ci=V,則該過(guò)程稱為聚類,Ci稱為簇。

1.2.3時(shí)間序列分析

時(shí)間序列是指系統(tǒng)中某一變量的觀測(cè)值按時(shí)間順序排列成一個(gè)數(shù)值序列,展示研究對(duì)象在一定時(shí)期內(nèi)的變動(dòng)過(guò)程,從中尋找和分析事物的變化特征、發(fā)展趨勢(shì)和規(guī)律。它是系統(tǒng)中某一變量受其他各種因素影響的總結(jié)果。研究時(shí)間序列的實(shí)質(zhì)是通過(guò)處理預(yù)測(cè)目標(biāo)本身的時(shí)間序列數(shù)據(jù),獲得事物隨時(shí)間過(guò)程的演變特性與規(guī)律,進(jìn)而預(yù)測(cè)事物的未來(lái)發(fā)展。

1.2.4粗糙集

粗糙集理論[2]由波蘭科學(xué)家Z.Pawlak在1982年提出。它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理[3],從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗糙集中的一個(gè)特點(diǎn)就是對(duì)于所需處理的問(wèn)題無(wú)需先驗(yàn)知識(shí),因此具有相當(dāng)?shù)目陀^性。目前,粗糙集理論已經(jīng)被成功地應(yīng)用于挖掘?qū)傩砸蕾嚩群蛯傩约s簡(jiǎn)。

1.3挖掘結(jié)果處理

經(jīng)過(guò)數(shù)據(jù)挖掘之后得到的信息是一些數(shù)據(jù),并不能直接幫助用戶進(jìn)行決策,需要將挖掘結(jié)果進(jìn)行集成或可視化處理,確保將有效、有用的信息呈現(xiàn)出來(lái),或者從多個(gè)不同角度進(jìn)行數(shù)據(jù)分析和

挖掘結(jié)果的分析。

2中醫(yī)小兒肺炎辨證規(guī)范數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)

中醫(yī)小兒肺炎數(shù)據(jù)挖掘系統(tǒng)是在前期“十五”攻關(guān)課題“小兒肺炎中醫(yī)證治規(guī)律研究”的研究成果基礎(chǔ)上,通過(guò)1000例小兒肺炎前瞻性臨床研究建立計(jì)算機(jī)數(shù)據(jù)處理平臺(tái),應(yīng)用數(shù)據(jù)挖掘技術(shù),客觀建立中醫(yī)辨證規(guī)范、療效評(píng)價(jià)指標(biāo)和方法體系。通過(guò)臨床信息采集和數(shù)據(jù)挖掘,將重新確認(rèn)小兒肺炎證型的分布;各證型癥狀的基本構(gòu)成;確認(rèn)癥狀間的關(guān)聯(lián)關(guān)系;確認(rèn)癥狀對(duì)病證診斷和療效評(píng)價(jià)的貢獻(xiàn)率以及證型之間的轉(zhuǎn)換規(guī)律。系統(tǒng)的處理流程如圖2所示。

2.1數(shù)據(jù)預(yù)處理

在進(jìn)行數(shù)據(jù)挖掘之前,必須經(jīng)過(guò)數(shù)據(jù)預(yù)處理。在本系統(tǒng)中,數(shù)據(jù)預(yù)處理完成的任務(wù)包括數(shù)據(jù)導(dǎo)入、缺失值處理、數(shù)據(jù)規(guī)范化處理、異常數(shù)據(jù)處理、屬性約簡(jiǎn)、數(shù)據(jù)分割。

2.2數(shù)據(jù)挖掘過(guò)程

2.2.1聚類分析得到小兒肺炎證型的分布和癥狀構(gòu)成

系統(tǒng)中挖掘工作的第一步是進(jìn)行聚類分析。聚類過(guò)程是一個(gè)無(wú)指導(dǎo)地將對(duì)象進(jìn)行歸類的過(guò)程。

聚類的結(jié)果包括以下兩部分

證的分布。證的分布指的是疾病證型的構(gòu)成,很明顯這是一個(gè)無(wú)指導(dǎo)的過(guò)程。聚類的結(jié)果形成多個(gè)簇,每個(gè)簇就是所說(shuō)的證。證的命名通過(guò)與專家的交互,完成了辨證標(biāo)準(zhǔn)的客觀功能部分。

證的構(gòu)成。聚類后,每個(gè)證包含了若干癥狀向量,可以得到每個(gè)證的癥狀構(gòu)成情況。

2.2.2關(guān)聯(lián)規(guī)則分析得到癥狀間的關(guān)聯(lián)關(guān)系

關(guān)聯(lián)規(guī)則分析是在聚類挖掘的基礎(chǔ)之上,在每個(gè)不同的證型中進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到每個(gè)證的癥狀之間的關(guān)聯(lián)關(guān)系。中醫(yī)小兒肺炎數(shù)據(jù)的層次關(guān)系可用圖4表示。

系統(tǒng)中數(shù)據(jù)具有層次關(guān)系。在進(jìn)行挖掘時(shí),一方面,可以在最上層,即癥狀級(jí),例如發(fā)熱、咳嗽、氣促這樣的級(jí)別中進(jìn)行挖掘,尋找關(guān)聯(lián)關(guān)系;另一方面,也可以在具體的層次中進(jìn)行挖掘,例如在稽留熱、弛張熱、間歇熱、劇烈咳嗽、咳聲無(wú)力、咳聲重濁、氣急、鼻煽、呼吸困難等這些具體的癥狀表現(xiàn)層次上進(jìn)行挖掘,得到不同層次的不同的挖掘結(jié)果。通過(guò)關(guān)聯(lián)規(guī)則分析,得到癥狀之間的關(guān)聯(lián)關(guān)系。

2.2.3粗糙集屬性重要度計(jì)算癥狀對(duì)證的貢獻(xiàn)率

屬性的重要度[4]是指在一個(gè)信息系統(tǒng)中,不同的條件屬性對(duì)于決策屬性所起的作用是不同的。有些條件屬性可能對(duì)于決策屬性的取值起著重要作用,但有些可能不起作用。

用屬性的重要度來(lái)表示條件屬性對(duì)于決策屬性的影響程度,可以采用分別去掉各個(gè)屬性后,檢測(cè)整個(gè)信息系統(tǒng)是否因?yàn)槿サ袅诉@個(gè)屬性而導(dǎo)致了分類或決策結(jié)果發(fā)生了變化。若是,則這個(gè)屬性對(duì)于這個(gè)決策屬性是重要的,計(jì)算的值越大,重要性越大;反之,這個(gè)屬性不是重要的,計(jì)算出的值就小。dB-B’=rB-rB-B’,其中rB=■,屬性子集B’?B,POSB為正域,card為該集合的元素的基數(shù)。

2.2.4時(shí)間序列分析挖掘出證的變化規(guī)律

系統(tǒng)收錄了每個(gè)病人在整個(gè)病程中每天的病情數(shù)據(jù),構(gòu)成了一個(gè)帶有時(shí)序的序列。對(duì)這些序列進(jìn)行分析,獲得證隨時(shí)間過(guò)程的演變特性與規(guī)律。

2.3挖掘結(jié)果的驗(yàn)證

為驗(yàn)證挖掘結(jié)果,將從1000例樣本數(shù)據(jù)中隨機(jī)取出200例數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),用于多種辨證標(biāo)準(zhǔn)的驗(yàn)證測(cè)試。這200例驗(yàn)證數(shù)據(jù)將不參與數(shù)據(jù)挖掘,僅僅用于辨證標(biāo)準(zhǔn)的驗(yàn)證。為保證驗(yàn)證結(jié)果的可信度,將按照同年齡兒童中小兒肺

炎的患病率,通過(guò)采集非小兒肺炎兒童的數(shù)據(jù),將其與200例驗(yàn)證數(shù)據(jù)混合構(gòu)成混合樣本數(shù)據(jù)集。據(jù)統(tǒng)計(jì),同年齡兒童中小兒肺炎的患病率為10%左右,這樣將采集2000例非小兒肺炎兒童的數(shù)據(jù),構(gòu)成2200例數(shù)據(jù)組成的驗(yàn)證數(shù)據(jù)及用于辨證標(biāo)準(zhǔn)的驗(yàn)證,認(rèn)為這一數(shù)據(jù)量基本能夠滿足需要。

2.3.1驗(yàn)證處理

經(jīng)過(guò)數(shù)據(jù)挖掘處理后,可以得到挖掘的辨證標(biāo)準(zhǔn)、各證所屬癥狀的劃分方法以及具體癥狀的量化賦分方法。這樣系統(tǒng)具有四種辨證或診斷標(biāo)準(zhǔn)

《中醫(yī)病證診斷和療效標(biāo)準(zhǔn)》等確立的小兒肺炎辨證標(biāo)準(zhǔn)和各證所屬癥狀二級(jí)劃分方法以及具體癥狀的量化賦分方法。

進(jìn)行小兒肺炎辨證規(guī)范和療效評(píng)價(jià)方法研究之初,先期在邏輯判斷基礎(chǔ)上建立第二套辨證標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)針對(duì)小兒肺炎中醫(yī)各證的癥狀,依據(jù)各自對(duì)病證診斷的貢獻(xiàn)情況分為特異癥狀、主要癥狀和次要癥狀三級(jí)。并對(duì)復(fù)合癥狀、注釋性癥狀、極端癥狀、起鑒別作用癥狀、不宜作為療效判定癥狀等做出說(shuō)明和處理,借以對(duì)每個(gè)癥狀的程度水平進(jìn)行三級(jí)量化處理。

西醫(yī)的診斷標(biāo)準(zhǔn),包括小兒肺炎臨床表現(xiàn):呼吸系統(tǒng)、循環(huán)系統(tǒng)、神經(jīng)系統(tǒng)、消化系統(tǒng)以及并發(fā)證;小兒肺炎實(shí)驗(yàn)室檢查:病原學(xué)檢查、外周血檢查、X線檢查等。

數(shù)據(jù)挖掘的辨證標(biāo)準(zhǔn)。數(shù)據(jù)挖掘的辨證標(biāo)準(zhǔn)主要包括辨證指標(biāo)以及具體癥狀的量化賦分方法。辨證指標(biāo)包括關(guān)聯(lián)挖掘、時(shí)序挖掘、聚類挖掘。可以挖掘出具體癥狀的量化賦分方法。4種辨證標(biāo)準(zhǔn)分別在驗(yàn)證數(shù)據(jù)庫(kù)中進(jìn)行測(cè)試,得出客觀度對(duì)比表,同時(shí)構(gòu)造出整體的客觀度曲線。如圖5所示。

2.3.2優(yōu)化辨證標(biāo)準(zhǔn)

比較4套標(biāo)準(zhǔn)之間、3套辨證標(biāo)準(zhǔn)與西醫(yī)診斷標(biāo)準(zhǔn)之間在病證診斷方面的符合情況,修正各證構(gòu)成比、癥狀對(duì)證診斷的貢獻(xiàn)率等;確定客觀的量化方法,形成新的分級(jí)量化表,最終建立小兒肺炎辨證規(guī)范和方法體系。

2.3.3建立輔助診斷系統(tǒng)

在客觀辨證標(biāo)準(zhǔn)的基礎(chǔ)上,設(shè)計(jì)輔助診斷系統(tǒng),輔助專家對(duì)小兒肺炎各證進(jìn)行科學(xué)的診斷。

3結(jié)論

利用數(shù)據(jù)挖掘技術(shù)進(jìn)行中醫(yī)辨證規(guī)范的研究具有重要意義和挑戰(zhàn)性。中醫(yī)海量的病例數(shù)據(jù)為挖掘工作提供了很好的研究基礎(chǔ),中醫(yī)復(fù)雜的癥狀間的關(guān)系和證型間的變化為研究提出了挑戰(zhàn)。數(shù)據(jù)挖掘過(guò)程是一個(gè)需要人機(jī)交互、多次反饋修正的過(guò)程,高質(zhì)量的數(shù)據(jù)、相應(yīng)算法的合理參數(shù)是有效挖掘的基礎(chǔ)。運(yùn)用數(shù)據(jù)挖掘技術(shù)建立中醫(yī)小兒肺炎辯證規(guī)范,必將為促進(jìn)中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論