![計(jì)算機(jī)專業(yè)畢業(yè)設(shè)計(jì)(論文)正文部分(共39頁(yè))_第1頁(yè)](http://file4.renrendoc.com/view/5d16b3be76072741d0633117e6b2d49b/5d16b3be76072741d0633117e6b2d49b1.gif)
![計(jì)算機(jī)專業(yè)畢業(yè)設(shè)計(jì)(論文)正文部分(共39頁(yè))_第2頁(yè)](http://file4.renrendoc.com/view/5d16b3be76072741d0633117e6b2d49b/5d16b3be76072741d0633117e6b2d49b2.gif)
![計(jì)算機(jī)專業(yè)畢業(yè)設(shè)計(jì)(論文)正文部分(共39頁(yè))_第3頁(yè)](http://file4.renrendoc.com/view/5d16b3be76072741d0633117e6b2d49b/5d16b3be76072741d0633117e6b2d49b3.gif)
![計(jì)算機(jī)專業(yè)畢業(yè)設(shè)計(jì)(論文)正文部分(共39頁(yè))_第4頁(yè)](http://file4.renrendoc.com/view/5d16b3be76072741d0633117e6b2d49b/5d16b3be76072741d0633117e6b2d49b4.gif)
![計(jì)算機(jī)專業(yè)畢業(yè)設(shè)計(jì)(論文)正文部分(共39頁(yè))_第5頁(yè)](http://file4.renrendoc.com/view/5d16b3be76072741d0633117e6b2d49b/5d16b3be76072741d0633117e6b2d49b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)PAGE 3目錄(ml) TOC o 1-3 h z u HYPERLINK l _Toc389050106 目錄(ml) PAGEREF _Toc389050106 h 1 HYPERLINK l _Toc389050107 摘 要 PAGEREF _Toc389050107 h 3 HYPERLINK l _Toc389050108 Abstract PAGEREF _Toc389050108 h 4 HYPERLINK l _Toc389050109 第一章 緒論(xln) PAGEREF _Toc389050109 h 7 HYPERLINK l _T
2、oc389050110 1.1 課題提出的背景及研究意義 PAGEREF _Toc389050110 h 7 HYPERLINK l _Toc389050111 1.2 相關(guān)研究的現(xiàn)狀 PAGEREF _Toc389050111 h 8 HYPERLINK l _Toc389050112 1.2.1 高血壓領(lǐng)域的研究現(xiàn)狀 PAGEREF _Toc389050112 h 8 HYPERLINK l _Toc389050113 1.2.2 關(guān)聯(lián)規(guī)則的研究現(xiàn)狀 PAGEREF _Toc389050113 h 9 HYPERLINK l _Toc389050114 1.3 本課題的主要研究目標(biāo) PAG
3、EREF _Toc389050114 h 10 HYPERLINK l _Toc389050115 第二章 數(shù)據(jù)挖掘技術(shù)研究 PAGEREF _Toc389050115 h 11 HYPERLINK l _Toc389050116 2.1 數(shù)據(jù)挖掘技術(shù)及其在中醫(yī)藥研究中的應(yīng)用 PAGEREF _Toc389050116 h 11 HYPERLINK l _Toc389050117 2.1.1 數(shù)據(jù)挖掘簡(jiǎn)介 PAGEREF _Toc389050117 h 11 HYPERLINK l _Toc389050118 2.1.2 數(shù)據(jù)挖掘的功能概述 PAGEREF _Toc389050118 h 14
4、 HYPERLINK l _Toc389050119 2.1.3 數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用 PAGEREF _Toc389050119 h 16 HYPERLINK l _Toc389050120 2.1.4 數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)分析工具和學(xué)習(xí)機(jī)器的區(qū)別 PAGEREF _Toc389050120 h 18 HYPERLINK l _Toc389050121 2.2 關(guān)聯(lián)規(guī)則 PAGEREF _Toc389050121 h 19 HYPERLINK l _Toc389050122 2.2.1 關(guān)聯(lián)規(guī)則介紹 PAGEREF _Toc389050122 h 19 HYPERLINK l _T
5、oc389050123 2.2.2 關(guān)聯(lián)規(guī)則的有關(guān)定義 PAGEREF _Toc389050123 h 20 HYPERLINK l _Toc389050124 2.2.3 關(guān)聯(lián)規(guī)則的分類 PAGEREF _Toc389050124 h 23 HYPERLINK l _Toc389050125 23 挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法介紹 PAGEREF _Toc389050125 h 24 HYPERLINK l _Toc389050126 2.3.1 AIS算法 PAGEREF _Toc389050126 h 25 HYPERLINK l _Toc389050127 2.3.2 APRIORI算法 P
6、AGEREF _Toc389050127 h 25 HYPERLINK l _Toc389050128 2.3.3 不產(chǎn)生候選挖掘頻繁項(xiàng)集算法 PAGEREF _Toc389050128 h 28 HYPERLINK l _Toc389050129 第三章 中醫(yī)醫(yī)案分析系統(tǒng)的實(shí)施(shsh)及結(jié)果分析 PAGEREF _Toc389050129 h 32 HYPERLINK l _Toc389050130 3.1 系統(tǒng)(xtng)體系結(jié)構(gòu) PAGEREF _Toc389050130 h 32 HYPERLINK l _Toc389050131 3.2 功能模塊 PAGEREF _Toc3890
7、50131 h 33 HYPERLINK l _Toc389050132 3.2.1 原始(yunsh)數(shù)據(jù)錄入 PAGEREF _Toc389050132 h 33 HYPERLINK l _Toc389050133 3.2.2 中醫(yī)醫(yī)案模型創(chuàng)建模塊 PAGEREF _Toc389050133 h 35 HYPERLINK l _Toc389050134 3.2.3 模型瀏覽模塊 PAGEREF _Toc389050134 h 35 HYPERLINK l _Toc389050135 3.3 數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì) PAGEREF _Toc389050135 h 36 HYPERLINK l _
8、Toc389050136 3.4 算法設(shè)計(jì)的基本思想及實(shí)現(xiàn)過程 PAGEREF _Toc389050136 h 39 HYPERLINK l _Toc389050137 3.4.1 算法設(shè)計(jì)的基本思想 PAGEREF _Toc389050137 h 39 HYPERLINK l _Toc389050138 3.4.2 Apriori算法的實(shí)現(xiàn)過程 PAGEREF _Toc389050138 h 39 HYPERLINK l _Toc389050139 3.5 算法運(yùn)行結(jié)果 PAGEREF _Toc389050139 h 40 HYPERLINK l _Toc389050140 3.6 結(jié)果評(píng)價(jià)
9、及性能分析 PAGEREF _Toc389050140 h 41 HYPERLINK l _Toc389050141 3.6.2 對(duì)高血壓醫(yī)案模型進(jìn)行分析 PAGEREF _Toc389050141 h 41 HYPERLINK l _Toc389050142 3.6.3 對(duì)Apriori算法進(jìn)行性能分析 PAGEREF _Toc389050142 h 42 HYPERLINK l _Toc389050143 第四章 總結(jié)與展望 PAGEREF _Toc389050143 h 45 HYPERLINK l _Toc389050144 4.1 總結(jié) PAGEREF _Toc389050144 h
10、 45 HYPERLINK l _Toc389050145 4.2 展望 PAGEREF _Toc389050145 h 45 HYPERLINK l _Toc389050146 參考文獻(xiàn) PAGEREF _Toc389050146 h 46 HYPERLINK l _Toc389050147 在學(xué)取得成果 PAGEREF _Toc389050147 h 48 HYPERLINK l _Toc389050148 致謝 PAGEREF _Toc389050148 h 49摘 要名老中醫(yī)寶貴的臨床經(jīng)驗(yàn)是中醫(yī)學(xué)術(shù)與臨證思維相結(jié)合的產(chǎn)物。中醫(yī)臨證辨治是以中醫(yī)視點(diǎn)采集(cij)信息、以中醫(yī)思維處理信息,
11、并據(jù)此施以中醫(yī)治法的過程。中醫(yī)(zhngy)知識(shí)的代代相傳多為言傳身教,無形中為中醫(yī)的知識(shí)的傳播與造福大眾制造了阻礙。利用數(shù)據(jù)挖掘正好能夠解決中醫(yī)藥特色研究中所遇到的關(guān)鍵問題和技術(shù)難題。中醫(yī)學(xué)經(jīng)過長(zhǎng)期的發(fā)展積累了大量的關(guān)于臨證經(jīng)驗(yàn)及治法、方劑、藥物和相關(guān)知識(shí)等信息的歷史文獻(xiàn)。采用數(shù)據(jù)挖掘的方法來研究繼承名老中醫(yī)臨床經(jīng)驗(yàn),挖掘整理其學(xué)術(shù)思想,創(chuàng)新研究方法,結(jié)合應(yīng)用(yngyng)數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等智能化技術(shù),力求獲得名老中醫(yī)真實(shí)的經(jīng)驗(yàn),便于傳承者學(xué)習(xí)。本文的主要研究工作如下:1、深入分析和探討了典型的關(guān)聯(lián)規(guī)則挖掘算法Apriori算法,在此算法的基礎(chǔ)上完成數(shù)據(jù)庫(kù)挖掘的基本構(gòu)思。2、在W
12、indows XP平臺(tái)上Visual BAS工C6. 0的環(huán)境下,采用Apriori算法,開發(fā)了基于數(shù)據(jù)挖掘的中醫(yī)高血壓醫(yī)案分析系統(tǒng)。3、基于原始數(shù)據(jù)的可靠性、準(zhǔn)確性和完整性方面的考慮,本研究以自2001年1月一2005年10月中國(guó)中醫(yī)研究院基礎(chǔ)所胸痹急癥研究室主任、國(guó)家中醫(yī)藥管理局醫(yī)政司胸痹急癥協(xié)作組組長(zhǎng)沈紹功先生醫(yī)案65份為醫(yī)案來源,以高血壓病為例,采用Apriori算法進(jìn)行頻繁項(xiàng)集的搜索,所得醫(yī)案模型幾乎完全符合沈教授在治療高血壓病時(shí)常用的處方。本文提出的高血壓診療系統(tǒng),只在輔助高血壓的診斷和治療,是依靠人工技能及計(jì)算機(jī)技術(shù)對(duì)高血壓診斷和治療工作的一次嘗試與探索。突破了以往單純應(yīng)用整理、
13、歸納方法總結(jié)名老中醫(yī)經(jīng)驗(yàn)的傳統(tǒng)思路,開創(chuàng)了應(yīng)用計(jì)算機(jī)輔助分析名老中醫(yī)經(jīng)驗(yàn)的新思路和新方法。希望能對(duì)后續(xù)的從事相關(guān)研究的人員提供有益的借鑒。關(guān)鍵詞:關(guān)聯(lián)規(guī)則;Apriori算法;數(shù)據(jù)挖掘;用藥規(guī)律;名老中醫(yī)經(jīng)驗(yàn)AbstractFamous TCM valuable clinical experience is Chinese medicine academic and clinical medicine card product of the combination of thinking. TCM Clinical Treatment is the process of gathering i
14、nformation by the viewpoint of TCM, Chinese medicine thought to process information, and accordingly imposes the healing method. Chinese medicine knowledge from generation to generation, mostly words and deeds, virtually for the dissemination of knowledge and the benefit of the public medicine made
15、obstacles. Just using data mining addresses key issues and technical challenges in the study of Chinese medicine characteristics . After a long-term development of Chinese medicine has accumulated a great deal of clinical experience, treatment, prescription drugs, and other information relevant know
16、ledge about the history of literature. using data mining methods to study inherit old TCM clinical experience, digging finishing their academic thinking, innovation and research methods, combined with the application of data mining technology, machine learning technology and other intelligent techno
17、logy, and striving to get the real experience of old TCM, easily inheritors learning.The main work is as follows:in-depth analysis and discussion of the typical association rule mining algorithms Apriori algorithm, complete the basic idea of the database mining on the basis of this algorithm. Visual
18、 BAS work on Windows XP platform C6. 0 environment, using Apriori algorithm, developed analysis of medical records system ,based on data mining for TCM hypertension. based on considering the reliability, accuracy and integrity of the original data this study, the foundation of the China Academy of T
19、CM Thoracic Obstruction emergency. From January 2001 to October 2005, research Director State Administration of Traditional Medical Administration chest stuffiness and emergency coordination team leader Mr. 65 copies of medical records Medical Records are used for the Source of hypertension, for exa
20、mple, using Apriori algorithm to search frequent item sets, The resulting medical case model is almost exactly in line with commonly prescribed when professor Shen is in the treatment of hypertension. In this paper, hypertension treatment system, only in the diagnosis and treatment of secondary hype
21、rtension, is the first attempt and exploration to rely on manual skills and computer technology to the diagnosis and treatment hypertension .Break the previous simple application of finishing, inductive method summarizing the experience of old TCM traditional thinking , created new ideas and new met
22、hods using a computer-aided analysis of old TCM experience Hope to provide a useful reference for subsequent personnel engaged in related research.Keywords: association rules; Apriori algorithm; data mining; drug laws; famous TCM experience HYPERLINK /translate l # HYPERLINK /translate l # HYPERLINK
23、 /translate l # 第一章 緒論(xln)1.1 課題提出的背景及研究(ynji)意義心腦血管疾M(Cardiovascular Disease, CVD)是全球威脅人類健康的重大(zhngd)疾病,已成為我國(guó)居民的首位死因。心腦血管病的發(fā)病和死亡一半以上與高血壓有關(guān),同時(shí)居民腦卒中和冠心病發(fā)病最重要的危險(xiǎn)因素也是高血壓,所以控制高血壓是防治心腦血管病、腦卒中和冠心病的關(guān)鍵。我國(guó)居民高血壓患病率持續(xù)增長(zhǎng),1991年全國(guó)患病人數(shù)約為9000萬。中國(guó)居民2002年?duì)I養(yǎng)與健康狀況調(diào)查顯示,18歲以上居民高血壓患病率為18.8%,全國(guó)患病人數(shù)大約1.6億多。中國(guó)高血壓防治指南(2009年基
24、層版)中估計(jì)我國(guó)現(xiàn)高血壓患者2億人,10個(gè)成年人當(dāng)中就有2個(gè)患有高血壓,在高血壓患病率持續(xù)增長(zhǎng)的同時(shí),高血壓病人的知曉率和治療率也處于一個(gè)很低的水平。高血壓是一種慢性疾病,病人都需要接受長(zhǎng)期治療。治療高血壓最有效的方式是藥物治療,藥物治療就需要醫(yī)生開具處方,從而產(chǎn)生了大量的紙質(zhì)處方的存儲(chǔ)和查詢問題。隨看計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的成熟,我國(guó)醫(yī)療衛(wèi)生信息化建設(shè)不斷深入,全國(guó)的醫(yī)療機(jī)構(gòu)也都開始建設(shè)自己的醫(yī)療信息化系統(tǒng),其中電子處方作為推行醫(yī)療信息化建設(shè)的必然產(chǎn)物和醫(yī)療信息化建設(shè)的重要組成部分將得到廣泛的運(yùn)用。中醫(yī)藥是中華民族的瑰寶,進(jìn)行中醫(yī)藥的數(shù)據(jù)挖掘是中醫(yī)藥現(xiàn)代化研究的重要組成部分,是對(duì)中醫(yī)藥幾千年沉淀的寶
25、貴歷史數(shù)據(jù)進(jìn)行去偽存真、去粗取精的過程,也是為更好地推進(jìn)中醫(yī)藥的發(fā)展,保持其優(yōu)勢(shì)與特色的重要方法。中醫(yī)藥在漫長(zhǎng)的發(fā)展過程中形成了自己獨(dú)特的理論和診療經(jīng)驗(yàn),中醫(yī)醫(yī)案中的方、藥、證之間的關(guān)系錯(cuò)綜復(fù)雜,在一定程度上保持了中醫(yī)藥系統(tǒng)的特色,但也成為中醫(yī)藥走向世界的障礙。大量的醫(yī)案散見于文獻(xiàn)刊物中,散見于名老中醫(yī)的案頭,他們的學(xué)術(shù)經(jīng)驗(yàn)是中醫(yī)藥事業(yè)的一筆巨大財(cái)富。總結(jié)其經(jīng)驗(yàn),繼承其學(xué)術(shù),既是今天振興中醫(yī)藥事業(yè)的需要,也是歷史賦予我們的重任。目前,對(duì)名老中醫(yī)的學(xué)術(shù)思想和臨證經(jīng)驗(yàn)尚停留于口授、身教、整理、歸納階段,帶有一定的主觀成份,缺乏全面系統(tǒng)的整理與統(tǒng)計(jì),學(xué)者搜尋不易,難以為廣大醫(yī)務(wù)工作者借鑒應(yīng)用。本課題
26、對(duì)數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥方面的應(yīng)用進(jìn)行了有益的探索,設(shè)計(jì)并實(shí)現(xiàn)了基于數(shù)據(jù)挖掘的中醫(yī)醫(yī)案分析系統(tǒng),通過收集治療典型病例的眾多醫(yī)案,從大量有噪聲、不完整甚至是不一致的數(shù)據(jù)中,挖掘出典型病例的中醫(yī)用藥規(guī)律,突破了以往單純應(yīng)用整理、歸納方法總結(jié)名老中醫(yī)經(jīng)驗(yàn)的傳統(tǒng)思路,為中醫(yī)臨床治療、中醫(yī)藥教學(xué)及中成藥的研制提供參考,開創(chuàng)了應(yīng)用計(jì)算機(jī)輔助分析名、老中醫(yī)經(jīng)驗(yàn)的新方法。1.2 相關(guān)研究的現(xiàn)狀1.2.1 高血壓領(lǐng)域的研究現(xiàn)狀高血壓作為全球人類最常見的慢性病,中華人民共和國(guó)衛(wèi)生部疾病預(yù)防控制局、衛(wèi)生部心血管病防治研究中心出臺(tái)(ch ti)了中國(guó)高血壓防治指南(2009年基層版),指南中估計(jì)我國(guó)現(xiàn)有高血壓患者2億人
27、,嚴(yán)重(ynzhng)了我國(guó)居民的身心健康。為了有效防治高血壓,領(lǐng)域?qū)W者對(duì)高血壓做了多方面研究,主要集中在幾個(gè)(j )方面:(1)對(duì)高血壓患病率的統(tǒng)計(jì)。文獻(xiàn)中指出我國(guó)成年人高血壓患病率為18.8%。15歲以上患病率為17.6%。高血壓的患病率跟年齡和經(jīng)濟(jì)發(fā)展水平有關(guān)。(2)對(duì)成年人高血壓知曉率和治療控制狀況的統(tǒng)計(jì)。高血壓的患病率持續(xù)增長(zhǎng),同時(shí)高血壓的知曉率和治療率也處于一個(gè)很低的水平。文獻(xiàn)中指出我國(guó)高血壓患者的知曉率和患病率只30.2%.、24.7%,這對(duì)高血壓的治療帶來了很大的困難。(3)借助數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和人工智能等計(jì)算機(jī)技術(shù)對(duì)高血壓的病因、發(fā)病機(jī)制和高血壓的防治的研究.例如對(duì)同時(shí)患有
28、糖尿病和高血壓的患者選擇強(qiáng)化降壓還是強(qiáng)化降糖的研究、尿酸與高血壓前期關(guān)系的研究、血脂與高血壓關(guān)系的研究等。國(guó)外的Thusitha等人認(rèn)為高血壓病人要想達(dá)到降血壓的目的,必須堅(jiān)持接受藥物治療。并對(duì)病人的不堅(jiān)持服藥的心理和原因進(jìn)行了分析,然后找到了一種鑒定病人不堅(jiān)持服藥的方法。同時(shí),為了增強(qiáng)全科醫(yī)生的查詢能力,更好地提醒病人按時(shí)服藥,Thusitha等人還開發(fā)了一個(gè)基于本體的查詢方法。1.2.2 關(guān)聯(lián)規(guī)則的研究現(xiàn)狀隨著信息化時(shí)代的到來,多種行業(yè)積累的數(shù)據(jù)正在以指數(shù)式增長(zhǎng),數(shù)據(jù)的存儲(chǔ)隨著計(jì)算機(jī)硬件和數(shù)據(jù)庫(kù)技術(shù)的不斷成熟己經(jīng)得到了有效解決,但是面對(duì)海量的數(shù)據(jù),人們對(duì)數(shù)據(jù)的理解程度在降低,對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確
29、理解、分析和發(fā)現(xiàn)有用的新知識(shí)成為各個(gè)行業(yè)決策者的強(qiáng)烈需求。隨若數(shù)據(jù)量的不斷增長(zhǎng),傳統(tǒng)的統(tǒng)計(jì)、查詢方法都是對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,無法直接提取出這些潛在的有價(jià)值的信息。信息的需求帶動(dòng)了對(duì)信息挖掘分析工具的需求,數(shù)據(jù)挖掘(Data Mining, DM)技術(shù)應(yīng)運(yùn)而生。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)重要研究課題,它反映了一個(gè)數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間的依賴或相互關(guān)聯(lián),是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要分支,它是由R.Agrawal等人于1993年首次提出。關(guān)聯(lián)規(guī)則最初應(yīng)用于購(gòu)物籃分析,用于發(fā)現(xiàn)商品交易數(shù)據(jù)中的被顧客頻繁購(gòu)買的商品、顧客的購(gòu)買習(xí)慣和不同商品之何的聯(lián)系。由于關(guān)聯(lián)規(guī)則技術(shù)易于理解并且實(shí)際應(yīng)用效果非常理想,所以在
30、關(guān)聯(lián)規(guī)則提出后的幾年中學(xué)者和研究人員對(duì)它做了大量的研究工作,現(xiàn)在對(duì)關(guān)聯(lián)規(guī)則的研究主要集中在以下兩個(gè)方面:(1)優(yōu)化原來的算法或提出更高性能的算法.這其中包括Agrawal本人對(duì)Apriod算法提出的改進(jìn)算法AprioriAl和ApriodTid,其他研究人利用并行挖掘技術(shù)、散列技術(shù)、分區(qū)技術(shù)對(duì)Apriod算法提出的優(yōu)化算法.(2)把關(guān)聯(lián)規(guī)則的概念應(yīng)用到其他的領(lǐng)域?,F(xiàn)在關(guān)聯(lián)規(guī)則技術(shù)被廣泛應(yīng)用于金融、保險(xiǎn)、電信、醫(yī)學(xué)研究等領(lǐng)域。在醫(yī)學(xué)領(lǐng)域中,關(guān)聯(lián)規(guī)則主要用來尋找癥狀和疾病之間的關(guān)聯(lián)、疾病和治療標(biāo)準(zhǔn)之間的關(guān)聯(lián)、藥物和不良反應(yīng)之問的關(guān)聯(lián),從而輔助疾病的診斷和治療。劉宏強(qiáng)利用Apriori算法發(fā)現(xiàn)了冠心
31、病和影響它發(fā)病的可能因素之間的關(guān)聯(lián),用于輔助冠心病的預(yù)防和診斷。趙連朋利用關(guān)聯(lián)規(guī)則技術(shù)發(fā)現(xiàn)病人的處方和藥品之間的關(guān)聯(lián),以監(jiān)督醫(yī)師合理用藥。馬麗偉把關(guān)聯(lián)規(guī)則算法應(yīng)用到中醫(yī)藥數(shù)據(jù)挖掘中,發(fā)現(xiàn)了具有臨床參考價(jià)值的癥狀間、處方間的關(guān)聯(lián)和癥狀-處方藥物間的關(guān)聯(lián)。高血壓病人的電子處方記錄中也隱藏了很多關(guān)聯(lián),因此把關(guān)聯(lián)規(guī)則技術(shù)應(yīng)用到電子處方中也應(yīng)該會(huì)得到抗高血壓藥物間、藥物-血壓間的一些關(guān)聯(lián),這些關(guān)聯(lián)可用于輔助高血壓的診斷和治療。1.3 本課題的主要研究(ynji)目標(biāo)本文的研究目標(biāo)是設(shè)計(jì)一個(gè)(y )高血壓的輔助診斷和治療系統(tǒng),目的是幫助用戶診斷是否患有高血壓,為確診的病人提供一個(gè)合適的治療方案(fng n
32、),從而提高病人的知曉率和治療率,最終提高全社會(huì)對(duì)高血壓的防治水平。該系統(tǒng)利用了數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則技術(shù)、本體的構(gòu)建方法和本體理論的知識(shí)表達(dá)與推理技術(shù)。本文的研究?jī)?nèi)容包括:1、深入分析和探討了典型的關(guān)聯(lián)規(guī)則挖掘算法Apriori算法,在此算法的基礎(chǔ)上完成數(shù)據(jù)庫(kù)挖掘的基本構(gòu)思。2、在Windows XP平臺(tái)上Visual BAS工C6. 0的環(huán)境下,采用Apriori算法,開發(fā)了基于數(shù)據(jù)挖掘的中醫(yī)高血壓醫(yī)案分析系統(tǒng)。3、基于原始數(shù)據(jù)的可靠性、準(zhǔn)確性和完整性方面的考慮,本研究以自2001年1月一2005年10月中國(guó)中醫(yī)研究院基礎(chǔ)所胸痹急癥研究室主任、國(guó)家中醫(yī)藥管理局醫(yī)政司胸痹急癥協(xié)作組組長(zhǎng)沈紹功先
33、生醫(yī)案65份為醫(yī)案來源,以高血壓病為例,采用Apriori算法進(jìn)行頻繁項(xiàng)集的搜索,所得醫(yī)案模型幾乎完全符合沈教授在治療高血壓病時(shí)常用的處方。北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)第二章 數(shù)據(jù)挖掘技術(shù)(jsh)研究2.1 數(shù)據(jù)挖掘技術(shù)及其在中醫(yī)藥研究(ynji)中的應(yīng)用2.1.1 數(shù)據(jù)挖掘簡(jiǎn)介(jin ji)隨著Internet的不斷發(fā)展,信息化時(shí)代的到來,像超市、保險(xiǎn)公司、醫(yī)療機(jī)構(gòu)等多個(gè)行業(yè)積累的數(shù)據(jù)正在以指數(shù)式增長(zhǎng)。數(shù)據(jù)的存儲(chǔ)隨著計(jì)算機(jī)硬件和數(shù)據(jù)庫(kù)技術(shù)的不斷成熟已經(jīng)得到了有效解決。但是面對(duì)海量的數(shù)據(jù),人們對(duì)數(shù)據(jù)的理解程度在降低,對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確理解、分析和發(fā)現(xiàn)有用的新知識(shí)成為各個(gè)行業(yè)決策者的強(qiáng)烈需
34、求。比如超市的經(jīng)營(yíng)者希望獲得哪些商品經(jīng)常被顧客同時(shí)購(gòu)買,保險(xiǎn)公司希望得到購(gòu)買保險(xiǎn)的客戶的特征,醫(yī)療機(jī)構(gòu)研究人員希望找到影響某種疾病思病率的因素.隨著數(shù)據(jù)量的不斷增長(zhǎng),傳統(tǒng)的統(tǒng)計(jì)、查詢方法都是對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,無法直接提取出這些潛在的有價(jià)值的信息。信息的需求帶動(dòng)了對(duì)信息挖掘分析工具的需求,數(shù)據(jù)挖掘(Data Mining, DM)技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)是通過仔細(xì)分析大量數(shù)據(jù)提取有意義的新的關(guān)系、趨勢(shì)和模式等新知識(shí)的過程。從商業(yè)角度來看,數(shù)據(jù)挖掘是對(duì)既定的業(yè)務(wù)目標(biāo),從大量的企業(yè)數(shù)據(jù)中發(fā)現(xiàn)未知的規(guī)律
35、或者驗(yàn)證己知的規(guī)律,并進(jìn)一步模型化,從而獲得輔助商業(yè)決策、解決商業(yè)向題的關(guān)鍵數(shù)據(jù)的方法.ISL, NCR, DaimlerChrysler三家公司在1996年制定了數(shù)據(jù)挖掘的交叉產(chǎn)業(yè)標(biāo)準(zhǔn)過程(CRISP-DM) ,它強(qiáng)調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用,是數(shù)據(jù)挖掘應(yīng)用商業(yè)的通用流行標(biāo)準(zhǔn)之一。數(shù)據(jù)庫(kù)系統(tǒng)的參考模型的如下圖2-1所示:用戶界面模式評(píng)估數(shù)據(jù)挖掘引擎數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)清理、集成和選擇數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)萬維網(wǎng)其他信息儲(chǔ)存庫(kù)知識(shí)庫(kù)圖2-1 典型(dinxng)數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)其主要(zhyo)成分有數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息庫(kù)、數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、知識(shí)庫(kù)、數(shù)據(jù)挖掘引擎、模式(msh)評(píng)估模
36、塊、圖形用戶界面。1、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其它信息庫(kù)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其它信息庫(kù)是進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)源,可以在它們的數(shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。2、數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器根據(jù)用戶的數(shù)據(jù)挖掘要求,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器負(fù)責(zé)提取相關(guān)的數(shù)據(jù)。3、知識(shí)庫(kù)知識(shí)庫(kù)是特定的領(lǐng)域知識(shí),用于指定搜索或評(píng)估結(jié)果模式的興趣度。這種知識(shí)可能包括概念分層,用于將屬性或?qū)傩灾到M織成不同的抽象層。3、數(shù)據(jù)挖掘引擎數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘的最重要的基本部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。4、模式評(píng)估模塊通常模式評(píng)估模塊使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚集在有趣的模式上。它可
37、能使用興趣度閩值過濾發(fā)現(xiàn)的模式。模式評(píng)估模塊也可以(ky)與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實(shí)現(xiàn)。5、圖形用戶界面圖形用戶界面在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信(tng xn),允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務(wù),提供信息、幫助搜索聚集,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘。此外,此成分還允許用戶瀏覽數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)模式或數(shù)據(jù)結(jié)構(gòu)、評(píng)估挖掘模式。從技術(shù)角度來講,數(shù)據(jù)挖掘是從大量的、真實(shí)的、有噪聲的、校糊的、不確定的相同或不同的數(shù)據(jù)集中,提取隱藏的,事前不為人知的但又有用的潛在知識(shí)的過程。從數(shù)據(jù)挖掘技術(shù)上的定義可以看出,數(shù)據(jù)挖掘的原始數(shù)據(jù)必須是大量的真實(shí)數(shù)據(jù),挖掘出的知識(shí)是
38、用戶感興趣的并對(duì)用戶有價(jià)值(jizh)的數(shù)據(jù),用戶可以理解、接受并應(yīng)用這些知識(shí)。數(shù)據(jù)挖掘是利用區(qū)別于傳統(tǒng)的統(tǒng)計(jì)方法從大量數(shù)據(jù)集中獲取深層次的知識(shí)的過程。挖掘出的知識(shí),可以是概念、規(guī)則、規(guī)律和約束,這些知識(shí)可以用來指導(dǎo)決策者做出正確的決策和預(yù)測(cè)事物發(fā)展的趨勢(shì)。從數(shù)據(jù)中挖掘出有用的知識(shí)是一個(gè)往復(fù)循環(huán)的過程,首先要確定合適的挖掘目標(biāo),然后抽取所需要的數(shù)據(jù),選取相應(yīng)的挖掘算法進(jìn)行數(shù)據(jù)挖掘,最后對(duì)生成的知識(shí)進(jìn)行評(píng)估,如果對(duì)挖掘出的只是不滿足用戶的要求,則整個(gè)挖掘過程需要退回,重新選取數(shù)據(jù),甚至改變挖掘算法,直到滿足要求為止。數(shù)據(jù)挖掘的步驟如圖2-2所示:?jiǎn)栴}定義數(shù)據(jù)抽取數(shù)據(jù)預(yù)處理模式評(píng)估數(shù)據(jù)挖掘選擇模式
39、圖2-2 數(shù)據(jù)挖掘的步驟2.1.2 數(shù)據(jù)挖掘的功能概述數(shù)據(jù)挖掘的最終目標(biāo)是描述和預(yù)測(cè),描述是規(guī)范當(dāng)前存在的事實(shí),找到數(shù)據(jù)可理解的一般特征,預(yù)測(cè)是利用數(shù)據(jù)庫(kù)中的歷史和當(dāng)前的已知變量與字段預(yù)測(cè)未來感興趣的其他變量或字段的未來的值。數(shù)據(jù)挖掘功能可發(fā)現(xiàn)多種不同的知識(shí)模式,根據(jù)發(fā)現(xiàn)知識(shí)的不同可以從以下6個(gè)方面描述數(shù)據(jù)挖掘的功能。1、概念(ginin)描述:區(qū)分和特征化數(shù)據(jù)的概念描述(Concept Description)包括數(shù)據(jù)區(qū)分(Data Discrimination)和數(shù)據(jù)的特征(tzhng)化(Data Characterization)。數(shù)據(jù)區(qū)分是發(fā)現(xiàn)或提取目標(biāo)數(shù)據(jù)的某些特征或?qū)傩耘c其他數(shù)據(jù)
40、的特征或?qū)傩韵啾容^,用于描述不同數(shù)據(jù)之間的區(qū)別。例如,分別提取兩張不同疾病的癥狀,利用這些癥狀就可以區(qū)分這兩種疾病。數(shù)據(jù)特征化是對(duì)口標(biāo)數(shù)據(jù)的總體情況的描述,提取數(shù)掘的一般特征或特性的匯總。2、關(guān)聯(lián)(gunlin)分析關(guān)聯(lián)分析(Association Analysis)就是從目標(biāo)數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間存在的依賴關(guān)系,關(guān)聯(lián)分析又稱為關(guān)聯(lián)規(guī)則.關(guān)聯(lián)規(guī)則通過找出頻繁地在目標(biāo)數(shù)據(jù)集中一起出現(xiàn)的數(shù)據(jù)項(xiàng)來發(fā)現(xiàn)隱藏在不同數(shù)據(jù)項(xiàng)之間的某種因果關(guān)系。關(guān)聯(lián)規(guī)則被廣泛地應(yīng)用到商業(yè)領(lǐng)域,通過分析交易數(shù)據(jù)來指導(dǎo)銷售和制定市場(chǎng)決策.比如人們熟知的“啤酒和尿布”的故事就是從超市的交易數(shù)據(jù)中分析得出的頻繁項(xiàng)集。3、分類和預(yù)測(cè)分類
41、(Classification)是指構(gòu)建一個(gè)分類模型或函數(shù),這模型或函數(shù)能夠把各個(gè)數(shù)據(jù)項(xiàng)映射到預(yù)定義的類別。分類包括模型的創(chuàng)建和模型的使用兩個(gè)過程。通過對(duì)預(yù)先定義的各個(gè)類的訓(xùn)練數(shù)據(jù)的進(jìn)行分析,從每個(gè)類的訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)共性得出這個(gè)類的描述從而建立分類模型,然后使用分類模型對(duì)新的數(shù)據(jù)進(jìn)行分類。分類方法有決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)、粗糙集等。例如,根據(jù)病人的癥狀和己建立的疾病分類規(guī)則可到定病人患病的種類。預(yù)測(cè)(Prediction)是利用訓(xùn)練數(shù)據(jù)建立模型,該模型可以獲得新輸入數(shù)據(jù)的未來變化的趨勢(shì)或評(píng)估數(shù)據(jù)的屬性值的分布范圍。4、聚類分析聚類分析(Clustering Analysis)是將抽象對(duì)象或
42、物理對(duì)象的數(shù)據(jù)集中類似的對(duì)象聚合為一類的過程。每個(gè)數(shù)據(jù)集包括若干個(gè)類,各類之間數(shù)據(jù)對(duì)象相似程度極低,每個(gè)類內(nèi)部的對(duì)象相似程度很高。聚類分析的方法不同于分類預(yù)測(cè),分類預(yù)側(cè)是在預(yù)定義類別的前提下訓(xùn)練數(shù)據(jù)找出類的總體特征或?qū)傩裕缓笤俑鶕?jù)每個(gè)類的特征或?qū)傩院头诸愪J型對(duì)新加入的數(shù)據(jù)進(jìn)行分類,屬于有教師監(jiān)督學(xué)習(xí)方法:聚類分析方法直接從數(shù)據(jù)集中抽象出相似程度高的對(duì)象聚合為一類,屬于無教師監(jiān)督的學(xué)習(xí)方法。6、孤立點(diǎn)分析孤立點(diǎn)(Outlier)是指與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象。大部分的數(shù)據(jù)挖掘算法都將孤立點(diǎn)視為噪聲,在數(shù)據(jù)預(yù)處理階段就被過濾掉了。但是罕見或意想不到的事件有時(shí)候比正常的事件更有價(jià)值。比
43、如發(fā)現(xiàn)病人對(duì)治療方式的不良反應(yīng)校式,在欺騙檢測(cè)中孤立點(diǎn)可能預(yù)示著欺騙行為模式。6、演變分析演變分析(Evolution Analysis)是描述事件或?qū)ο蟮男袨榛跁r(shí)間或共他序列(xli)變化的規(guī)律或趨勢(shì),并對(duì)其建模.演變分析主要包括序列或周期校式匹配、機(jī)遇類似性的數(shù)據(jù)分析和時(shí)間序列數(shù)掘分析。比如,可以利用演變分析方法獲得整個(gè)股票市場(chǎng)的變化規(guī)律,發(fā)現(xiàn)的規(guī)律可指導(dǎo)股民投資。2.1.3 數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究(ynji)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)只有十多年的發(fā)展時(shí)間,但其應(yīng)用(yngyng)十分廣泛。在商業(yè)、金融業(yè)、工業(yè)中都有成功的應(yīng)用例子,取得了一定的經(jīng)濟(jì)和社會(huì)效益。數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究領(lǐng)域中的
44、應(yīng)用剛剛起步,但己經(jīng)表現(xiàn)出了很好的勢(shì)頭,目前數(shù)據(jù)挖掘技術(shù)在此領(lǐng)域中的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面。1、在中醫(yī)藥信息化研究中的應(yīng)用對(duì)中醫(yī)藥信息進(jìn)行文本數(shù)據(jù)挖掘是促進(jìn)中醫(yī)藥信息結(jié)構(gòu)化的途徑之一。從中醫(yī)診斷、辨證到組方的各個(gè)環(huán)節(jié),用文字語(yǔ)言描述的過程占很大比例,使得定性內(nèi)容相對(duì)多一些。當(dāng)中醫(yī)藥在實(shí)現(xiàn)以計(jì)算機(jī)技術(shù)為主要工具的信息化研究時(shí),這種定性信息的量化常常會(huì)遇到相當(dāng)?shù)睦щy,即使是原先有量化信息的用藥劑量,也因不同中藥有效成分含量的差異而失去了原先的意義。因此,對(duì)以古語(yǔ)言和純文本為主的中醫(yī)藥理論和實(shí)踐進(jìn)行結(jié)構(gòu)化解析是中醫(yī)藥信息化研究的重要內(nèi)容,其中的某些內(nèi)容可以通過對(duì)文本的數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)??梢圆捎?/p>
45、特征抽取的方法,或者采用聚類的方法描述某些相似病癥的內(nèi)容,找出其中隱含的相似關(guān)系。2、在中醫(yī)藥專家系統(tǒng)研究中的應(yīng)用計(jì)算機(jī)和人工智能技術(shù)在中醫(yī)藥研究中最普遍的應(yīng)用是各種專家系統(tǒng),如關(guān)幼波肝病專家系統(tǒng)等。專家系統(tǒng)是一種面向特定對(duì)象的決策支持系統(tǒng)(Decision Support System, DSS),它根據(jù)專家對(duì)某種疾病的認(rèn)識(shí)及多年積累的治療經(jīng)驗(yàn),在建立相應(yīng)知識(shí)庫(kù)的基礎(chǔ)上,采用各種推理方法模擬專家進(jìn)行疾病的診斷和治療。對(duì)于一個(gè)專家系統(tǒng)來說,實(shí)際診斷成功與否的關(guān)鍵取決于它的知識(shí)庫(kù)中知識(shí)的完備程度,而僅憑中醫(yī)專家的口授心傳和系統(tǒng)設(shè)計(jì)者的領(lǐng)悟,往往難以滿足專家系統(tǒng)知識(shí)庫(kù)的要求,而且相對(duì)簡(jiǎn)單的推理往往
46、也難以體現(xiàn)出人最活躍的主觀能動(dòng)的部分,知識(shí)的獲取途徑和表示方法因此成為限制專家系統(tǒng)發(fā)展的瓶頸。而數(shù)據(jù)挖掘可以在大量經(jīng)驗(yàn)中發(fā)現(xiàn)隱含的、客觀有用的新型知識(shí),這對(duì)于豐富專家系統(tǒng)的知識(shí)庫(kù)將起到積極的作用。3、在中醫(yī)藥基礎(chǔ)理論研究中的應(yīng)用數(shù)據(jù)挖掘不僅在中醫(yī)藥臨床實(shí)踐中有廣泛的應(yīng)用,也可應(yīng)用于中醫(yī)藥基礎(chǔ)理論的現(xiàn)代化研究中。如中藥藥性理論的現(xiàn)代化研究,中藥藥性理論是中藥配伍應(yīng)用的核心內(nèi)容之一,其內(nèi)容完善的程度將直接影響到組方的準(zhǔn)確性和治療的有效性。中醫(yī)對(duì)于中藥藥性的認(rèn)識(shí)是一個(gè)逐漸積累和完善的過程,至今還存在某些藥物的藥性不完整的情況,如華山參的藥性特征為只有性味而無歸經(jīng);對(duì)于中藥的功效歸類也因?qū)<覍?duì)藥物認(rèn)識(shí)
47、程度的不同,而導(dǎo)致同一藥物分屬于不同類別,甚至功效分類名稱也不統(tǒng)一的情況。數(shù)據(jù)挖掘技術(shù)可以在分析大量歷史數(shù)據(jù)的基礎(chǔ)上,協(xié)助中藥藥性的完善研究。如數(shù)據(jù)挖掘中的分類方法可以依據(jù)藥性特征的辨識(shí)結(jié)果,將一些還未歸類的中藥進(jìn)行分類預(yù)測(cè);也可用聚類方法將藥味聚類后,根據(jù)同類藥物的藥性相近,歸類也應(yīng)相近的特點(diǎn)進(jìn)行分類預(yù)測(cè);用決策樹和關(guān)聯(lián)規(guī)則分析可以自動(dòng)對(duì)藥物進(jìn)行功效分類與其藥性特征之間的關(guān)聯(lián)模式或規(guī)則研究;粗糙集理論可以實(shí)現(xiàn)對(duì)藥物分類的簡(jiǎn)化藥性特征研究等。進(jìn)行中藥藥性特征的數(shù)據(jù)挖掘研究,對(duì)中藥復(fù)方配伍的科學(xué)規(guī)律研究有著重要意義。4、在中藥(zhngyo)化學(xué)研究中的應(yīng)用中藥發(fā)揮作用的物質(zhì)是其所含的化學(xué)成分,
48、在中藥中提取(tq)有效成分直接用于新藥開發(fā)或作為先導(dǎo)化合物,經(jīng)過結(jié)構(gòu)修飾或改造后進(jìn)行合理藥物設(shè)計(jì),然后開發(fā)為新藥的途徑,己成為現(xiàn)代新藥開發(fā)的熱點(diǎn)。中藥化學(xué)成分一般較人工合成的成分復(fù)雜,具有相同藥效的成分往往具有相似的活性基團(tuán)和比較穩(wěn)定的活性構(gòu)象。因此通過對(duì)大量中藥化學(xué)成分的二維和三維構(gòu)象分析,以及結(jié)構(gòu)與活性之間關(guān)系的分析,進(jìn)行藥效基團(tuán)的建模研究,并實(shí)現(xiàn)對(duì)中藥化學(xué)成分?jǐn)?shù)據(jù)庫(kù)的柔性搜索,為更充分利用中藥化學(xué)成分提供技術(shù)支持。如利用分子對(duì)接技術(shù)(DOCK)在進(jìn)行受體與配體結(jié)合分析的基礎(chǔ)上,建立對(duì)應(yīng)結(jié)構(gòu)類型不同配體的構(gòu)效方程和它們的結(jié)合模式;比較分子力場(chǎng)分析(COMFA)和定量構(gòu)效關(guān)系(QSAR)的
49、結(jié)合可以在提取大量分子共同活性結(jié)構(gòu)模式的基礎(chǔ)上,揭示出化合物之間的聯(lián)系和潛在特征以及與生物活性之間的關(guān)系,并可實(shí)現(xiàn)對(duì)成分?jǐn)?shù)據(jù)庫(kù)和活性數(shù)據(jù)庫(kù)中有價(jià)值信息的挖掘。5、在中醫(yī)醫(yī)案(y n)方面的應(yīng)用中醫(yī)醫(yī)案在中醫(yī)藥科學(xué)中扮演著非常重要的角色,大量的醫(yī)案散見于文獻(xiàn)刊物中,散見于名老中醫(yī)的案頭,他們的學(xué)術(shù)經(jīng)驗(yàn)是中醫(yī)藥事業(yè)的一筆巨大財(cái)富。但“百花齊放、百家爭(zhēng)鳴”的局面使得醫(yī)案經(jīng)常出現(xiàn)藥味和藥量千差萬別的情況,無法形成中醫(yī)在整體上對(duì)疾病規(guī)律統(tǒng)一的認(rèn)識(shí)。應(yīng)用數(shù)據(jù)挖掘方法對(duì)眾多中醫(yī)專家的寶貴經(jīng)驗(yàn)進(jìn)行全面整理和挖掘,將會(huì)比較全面地獲得對(duì)中醫(yī)藥基礎(chǔ)理論和臨床實(shí)踐規(guī)律的統(tǒng)一的認(rèn)識(shí)。其中決策樹、關(guān)聯(lián)規(guī)則和面向?qū)傩缘臍w納
50、方法可以在不同配伍層次(單味藥、藥物功效分類等)上分析藥味配伍的模式或規(guī)則。6、在中醫(yī)藥其他方面的應(yīng)用數(shù)據(jù)挖掘技術(shù)不但可以應(yīng)用到中醫(yī)藥研究中的上述方面,而且在研究中醫(yī)病證與復(fù)方組方的關(guān)系、中醫(yī)癥候與現(xiàn)代醫(yī)學(xué)臨床表現(xiàn)之間關(guān)聯(lián)的關(guān)系以及中醫(yī)藥信息數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)研究等方面都可以得到廣泛應(yīng)用。2.1.4 數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)分析工具和學(xué)習(xí)機(jī)器的區(qū)別對(duì)于在線分析OLAP (On Line Analytical Processing),用戶首先建立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來驗(yàn)證這個(gè)假設(shè)是否正確。比如一個(gè)分析師想找到是什么導(dǎo)致拖欠貸款,他可能先做一個(gè)初始假設(shè),認(rèn)為低收入的人信用也低,然后他可以用OL
51、AP來驗(yàn)證他的假設(shè),如果這個(gè)假設(shè)沒有被證實(shí),他可能去查看那些高負(fù)債的賬戶,如果還不行,他可能要把收入和負(fù)債一起來考慮,繼續(xù)進(jìn)行下去直到找到他想要的結(jié)果或放棄。也可以這么說,OLAP分析師是建立一系列的假設(shè),然后通過OLAP驗(yàn)證或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP過程本質(zhì)上是一個(gè)演繹推理的過程。數(shù)據(jù)挖掘與OLAP相比其不同之處在于數(shù)據(jù)挖掘不是用來驗(yàn)證某個(gè)假設(shè)的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。它在本質(zhì)上是一個(gè)歸納的過程。舉個(gè)例子,一個(gè)用數(shù)據(jù)挖掘工具的分析,想找到引起貸款拖欠的因素,數(shù)據(jù)挖掘可以幫他找到高負(fù)債和低收入是引起這個(gè)問題的因素,甚至還能發(fā)現(xiàn)一些分析師從沒想過或試過
52、的其它因素。概括說來,數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(fnx)(如查詢、報(bào)表、聯(lián)機(jī)分析處理)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有原先未知、有效和實(shí)用三個(gè)特征。先前未知的信息是指該信息是預(yù)先未能預(yù)料的。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。數(shù)據(jù)挖掘是從現(xiàn)實(shí)世界中存在的一些具體的數(shù)據(jù)中提取(tq)知識(shí),這些數(shù)據(jù)在數(shù)據(jù)挖掘出現(xiàn)之前早己存在;而機(jī)器學(xué)習(xí)所使用的數(shù)據(jù)是專門為機(jī)器學(xué)習(xí)而特別準(zhǔn)備的數(shù)據(jù),這些數(shù)據(jù)在現(xiàn)實(shí)世界中也許毫無意義。由于數(shù)據(jù)挖掘使用的數(shù)據(jù)來自于實(shí)際的數(shù)據(jù)庫(kù),
53、所要處理的數(shù)據(jù)量可能很大,因此數(shù)據(jù)挖掘算法的效率和可擴(kuò)充性就顯得尤為重要;此外,數(shù)據(jù)挖掘所處理的數(shù)據(jù)由于來自于現(xiàn)實(shí)世界,數(shù)據(jù)的完整性、一致性和正確性都很難保證,如何將這些數(shù)據(jù)加工成算法可以接收的數(shù)據(jù)也需要進(jìn)行深入的研究;再者,數(shù)據(jù)挖掘可以利用目前數(shù)據(jù)庫(kù)技術(shù)所取得的研究成果來加快挖掘過程,提高挖掘的效率。最后,由于數(shù)據(jù)挖掘處理的數(shù)據(jù)來自于實(shí)際的數(shù)據(jù)庫(kù),而與這些數(shù)據(jù)庫(kù)數(shù)據(jù)有關(guān)的還有其他一些背景知識(shí),這些背景知識(shí)的合理運(yùn)用也會(huì)提高算法的效率。2.2 關(guān)聯(lián)(gunlin)規(guī)則2.2.1 關(guān)聯(lián)規(guī)則介紹數(shù)據(jù)挖掘所發(fā)現(xiàn)出的知識(shí)種類中關(guān)聯(lián)規(guī)則的應(yīng)用是目前數(shù)據(jù)挖掘領(lǐng)域中研究最為廣泛的課題之一。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)
54、庫(kù)中數(shù)據(jù)項(xiàng)之間潛在關(guān)系的規(guī)則。關(guān)聯(lián)規(guī)則挖掘的一般對(duì)象是事務(wù)數(shù)據(jù)庫(kù),起初主要應(yīng)用于零售業(yè),比如超級(jí)市場(chǎng)的銷售管理。條形碼技術(shù)的發(fā)展使得數(shù)據(jù)的收集變得更容易更完整,從而存儲(chǔ)了大量交易資料,關(guān)聯(lián)規(guī)則是通過辨別這些交易資料,來分析顧客的購(gòu)買模式。根據(jù)關(guān)聯(lián)規(guī)則提供的信息可以用做商品銷售目錄設(shè)計(jì)、商品布置、針對(duì)性的營(yíng)銷等。1993年Agrawal R.等人首先提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集的關(guān)聯(lián)問題,并于1994年提出了挖掘關(guān)聯(lián)規(guī)則的經(jīng)典Apriori算法。后來有不少學(xué)者對(duì)關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對(duì)原有Aprior算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想、使用哈希方法等,以提高算
55、法挖掘規(guī)則的效率,有的為了避免頻繁集產(chǎn)生方法的一些缺陷,提出了獨(dú)立于Apriori算法的挖掘關(guān)聯(lián)規(guī)則的新方法,如Jianwei Han等人提出的不產(chǎn)生候選挖掘頻繁項(xiàng)集的FP-Growth方法、基于關(guān)聯(lián)圖的挖掘關(guān)聯(lián)規(guī)則的方法等。2.2.2 關(guān)聯(lián)規(guī)則的有關(guān)定義設(shè)是n個(gè)不同(b tn)項(xiàng)(Item)的集合,表示集合(jh)中的第j項(xiàng)。相同的事務(wù)的集合構(gòu)成事務(wù)集D。一組項(xiàng)的集合構(gòu)成一個(gè)事務(wù)T,使得每一個(gè)(y )事物都與唯一的標(biāo)識(shí)符TID相聯(lián)。設(shè)A是一個(gè)項(xiàng)集當(dāng)且僅當(dāng)時(shí)就稱事務(wù)T包含A。一條關(guān)聯(lián)規(guī)則就是一個(gè)形如的蘊(yùn)涵式,其中,。關(guān)聯(lián)規(guī)則的實(shí)用性由支持度衡量。描述了A和B兩個(gè)項(xiàng)集同時(shí)出現(xiàn)的概率.定義為:su
56、pport(AB)=P(AB)。關(guān)聯(lián)規(guī)則的準(zhǔn)確性由置信度衡量,描述了出現(xiàn)A的前提下也出現(xiàn)B的概率,定義為,。最小支持度表示項(xiàng)集的最低實(shí)用性,最小置信度表示關(guān)聯(lián)規(guī)則的最低可靠性。滿足最小支持度min-sup的項(xiàng)集成為頻繁項(xiàng)集,同時(shí)滿足最小支持度min-sup和最小可信度min-conf的規(guī)則成為強(qiáng)關(guān)聯(lián)規(guī)則。SupportConfidence 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的過程大體為兩步,如下圖所示,第一步是利用頻繁項(xiàng)集搜索算法從事物數(shù)據(jù)中找出所有大于或等于。up的頻繁項(xiàng)集的集合:第二步是根據(jù)設(shè)定的min-conf從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。第一步要從大量的事物數(shù)據(jù)中找出頻繁項(xiàng)集,每次執(zhí)行部要掃描一次數(shù)據(jù)庫(kù),需要
57、耗費(fèi)大量的時(shí)間和空間,所以對(duì)關(guān)聯(lián)規(guī)則算法的研究工作主要是對(duì)第一步算法的優(yōu)化或改進(jìn)。描述關(guān)聯(lián)規(guī)則屬性常用的參數(shù)有:1、支持度(Support)支持度S是D中包含的事務(wù)百分比,它是概率,即,它描述了A和B這兩個(gè)物品集的并集在所有的事務(wù)中出現(xiàn)的概率。例如,一事務(wù)數(shù)據(jù)庫(kù)中共有1000條記錄,其中同時(shí)包含A和B的100條,則關(guān)聯(lián)規(guī)則AFB的支持度為100/ 1000100% =10%。支持度表示了規(guī)則的頻度。滿足最小支持度的項(xiàng)集稱之為頻繁項(xiàng)集。2、置信度(Confidence)置信度C為D中包含A的事務(wù)中同時(shí)也包含B的百分比,它是概率,即。在上例中,如果有200條記錄包含A,則關(guān)聯(lián)規(guī)則的置信度為100/
58、200100% =50%。置信度表示了規(guī)則的強(qiáng)度。同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱作強(qiáng)規(guī)則。 3、期望置信度(Expected Confidence) 期望置信度e為D中包含B的事務(wù)百分比,即P (B )。期望置信度描述在沒有任何條件影響時(shí),物品集B在所有事物中出現(xiàn)的概率有多大。在上例中如果有150條記錄包含B,則關(guān)聯(lián)規(guī)則AFB的期望置信度為150/ 1000 100% =15%。4、作用度(Lift)作用度是置信度與期望(qwng)置信度的比值,即。作用度描述了項(xiàng)集A的出現(xiàn)對(duì)項(xiàng)集B的出現(xiàn)有多大的影響,作用度越大,說明物品集B受物品集A的影響越大。因?yàn)轫?xiàng)集B在所有(suyu)事務(wù)
59、中出現(xiàn)的概率是期望置信度;而項(xiàng)集B在所有(suyu)項(xiàng)集A出現(xiàn)的概率是置信度,通過置信度與期望置信度的比值反映了在加入“項(xiàng)集A出現(xiàn)”這個(gè)條件后,項(xiàng)集B的出現(xiàn)概率發(fā)生了多大的變化。在上例中,關(guān)聯(lián)規(guī)則的作用度為50%/15% 3. 3。一般情況,有用的關(guān)聯(lián)規(guī)則的作用度都應(yīng)該大于1,只有關(guān)聯(lián)規(guī)則的可信度大于期望可信度,才說明A的出現(xiàn)對(duì)B的出現(xiàn)有促進(jìn)作用,也說明了它們之間某種程序的相關(guān)性,如果作用度不大于1,則此關(guān)聯(lián)規(guī)則也就沒有意義了。5、興趣度(Interest measure)在數(shù)據(jù)挖掘中,并不是所有的強(qiáng)關(guān)聯(lián)規(guī)則都是足夠的有趣而值得向用戶提供。例如一個(gè)學(xué)校的5000名學(xué)生進(jìn)行早晨參與活動(dòng)與早餐的情
60、況調(diào)查。數(shù)據(jù)顯示:60%的學(xué)生(3000)晨練,75%的學(xué)生(3750)吃早餐,40%的學(xué)生(2000)即晨練又吃早餐。假設(shè)最小支持度為40%,最小置信度為60%,則。是一強(qiáng)關(guān)聯(lián)規(guī)則,因?yàn)槠渲С侄葹?0%,置信度為2000/3000100% =66%,滿足最小支持?jǐn)?shù)和最小置信度的要求,然而以上規(guī)則是誤導(dǎo),因?yàn)榭偟某栽绮偷膶W(xué)生占75%,比66%還要大,為了修剪一些無趣的規(guī)則,即避免生成錯(cuò)覺的關(guān)聯(lián)規(guī)則,下面定義了興趣度這個(gè)度量值?;诓町愃枷氲呐d趣度定義,分母上的只是一個(gè)標(biāo)準(zhǔn)化因子,使得。根據(jù)這個(gè)式子,一條規(guī)則的興趣度越大(IR0)說明對(duì)這條規(guī)則越感興趣(即其實(shí)際利用價(jià)值越大);一條規(guī)則的興趣度越
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 忻州職業(yè)技術(shù)學(xué)院《工程建設(shè)監(jiān)理》2023-2024學(xué)年第二學(xué)期期末試卷
- 電火鍋電蒸鍋行業(yè)概述
- 寧夏藝術(shù)職業(yè)學(xué)院《攝影與顯影》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京鐵道職業(yè)技術(shù)學(xué)院《數(shù)字電子技術(shù)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年電視制式轉(zhuǎn)換器合作協(xié)議書
- 長(zhǎng)江大學(xué)《機(jī)器學(xué)習(xí)案例分析1》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年漯河貨運(yùn)從業(yè)資格證考試卷
- 梧州醫(yī)學(xué)高等專科學(xué)?!缎竽廖⑸飳W(xué)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 珠海廣東珠海市香洲暨大幼教集團(tuán)永德園區(qū)(永德幼兒園)合同制教職工招聘筆試歷年參考題庫(kù)附帶答案詳解
- 2025年儀器儀表及文化、辦公用機(jī)械合作協(xié)議書
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期期末 地理試題(含答案)
- 勞動(dòng)合同(模版)4篇
- 家庭病房工作制度和人員職責(zé)
- 道德與法律的關(guān)系課件
- 建設(shè)工程監(jiān)理合同示范文本GF-2018-0202
- 2022質(zhì)檢年終工作總結(jié)5篇
- 江蘇省中等職業(yè)學(xué)校學(xué)業(yè)水平考試商務(wù)營(yíng)銷類(營(yíng)銷方向)技能考試測(cè)試題
- 國(guó)際商務(wù)談判雙語(yǔ)版課件(完整版)
- 物業(yè)管理應(yīng)急預(yù)案工作流程圖
- (高清正版)T_CAGHP 003—2018抗滑樁治理工程設(shè)計(jì)規(guī)范 (試行)
- 畢業(yè)論文論財(cái)務(wù)管理是企業(yè)管理的核心
評(píng)論
0/150
提交評(píng)論