![畢業(yè)設(shè)計(jì)(論文)基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn)_第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a1.gif)
![畢業(yè)設(shè)計(jì)(論文)基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn)_第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a2.gif)
![畢業(yè)設(shè)計(jì)(論文)基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn)_第3頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a3.gif)
![畢業(yè)設(shè)計(jì)(論文)基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn)_第4頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a4.gif)
![畢業(yè)設(shè)計(jì)(論文)基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn)_第5頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-7/5/9aa24471-adcf-4831-b820-e60e1a86f62a/9aa24471-adcf-4831-b820-e60e1a86f62a5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、畢業(yè)設(shè)計(jì)(論文)i畢業(yè)設(shè)計(jì)(論文)任務(wù)書 題目 基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn) 專業(yè) 學(xué)號(hào) 姓名主要內(nèi)容、基本要求、主要參考資料等:近年來(lái)隨著 internet 的大規(guī)模普及和企業(yè)信息化程度的提高,有越來(lái)越多的信息積累,而需要信息的人還沒有特別方便的工具去從來(lái)自異構(gòu)數(shù)據(jù)源的大規(guī)模的文本信息資源中提取符合需要的簡(jiǎn)潔、精煉、可理解的知識(shí),文本挖掘正是解決這一問(wèn)題的一個(gè)方法。本課題研究基于貝葉斯的文本分類系統(tǒng),可以用于以下領(lǐng)域和系統(tǒng)中:企業(yè)知識(shí)門戶、信息增值服務(wù)、智能搜索引擎 、數(shù)字圖書館 、情報(bào)分析 、信息安全和過(guò)濾、電子商務(wù)系統(tǒng)。文本自動(dòng)分類不需人工干預(yù)的自動(dòng)分類技術(shù),有效提高非結(jié)構(gòu)化信息
2、資源的加工效率。利用樸素貝葉斯分類文法的分類器,分析已經(jīng)手動(dòng)分類的文本,根據(jù)文本內(nèi)容計(jì)算分類條件概率,再利用訓(xùn)練好的分類器分析未分類的文本,根據(jù)分類器算出的所屬領(lǐng)域概率最大的進(jìn)行分類。本課題任務(wù)要求:1) 學(xué)習(xí)關(guān)于樸素貝葉斯分類文法,查找相關(guān)的資料以供參考;2) 實(shí)現(xiàn)樸素貝葉斯分類文法的分類器;3) 人工對(duì)樣本數(shù)據(jù)進(jìn)行分類和標(biāo)注;4) 利用貝葉斯分類文法的分類器,利用樣本進(jìn)行訓(xùn)練,然后對(duì)分類數(shù)據(jù)進(jìn)行自動(dòng)分類;5) 根據(jù)分類結(jié)果,調(diào)整分類閾值,彌補(bǔ)分類器的不足。6) 根據(jù)實(shí)驗(yàn)數(shù)據(jù)和結(jié)果,按時(shí)完成畢業(yè)設(shè)計(jì)論文。主要參考資料:貝葉斯分類算法的論文和資料,未分類文本語(yǔ)料。完成期限: 指導(dǎo)教師簽章: 專
3、業(yè)負(fù)責(zé)人簽章:年 月 日畢業(yè)設(shè)計(jì)(論文)ii摘要隨著計(jì)算機(jī)技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來(lái)越多的數(shù)字化信息,但同時(shí)也需要投入更多的時(shí)間對(duì)信息進(jìn)行組織和管理。為了減輕這種負(fù)擔(dān),人們開始研究使用計(jì)算機(jī)對(duì)文本進(jìn)行自動(dòng)分類。文本自動(dòng)分類就是在給定的分類體系下,讓計(jì)算機(jī)根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。自動(dòng)文本分類是人工智能技術(shù)和信息獲取技術(shù)相結(jié)合的研究領(lǐng)域。隨著網(wǎng)絡(luò)的發(fā)展,大量的文檔數(shù)據(jù)涌現(xiàn)在網(wǎng)上,用于處理海量數(shù)據(jù)的自動(dòng)文本分類技術(shù)變得越來(lái)越重要,已逐漸成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。通過(guò)分析 knn(k nearest neighbor)、樸素貝葉斯(naive bayes)、sv
4、m(support vector machine)三種文本分類方法的優(yōu)點(diǎn)和缺點(diǎn),發(fā)現(xiàn)樸素貝葉斯分類器速度極快,具有最小的出錯(cuò)率,可在線化實(shí)現(xiàn)等優(yōu)點(diǎn),并對(duì)該分類方法進(jìn)行了理論分析和實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明這種文本分類模型是高效的可行的。本文首先介紹了基于貝葉斯的文本自動(dòng)分類的研究和實(shí)現(xiàn)的背景,并且敘述了相關(guān)問(wèn)題的概念知識(shí),包括文本分類和中文分詞等;其次,對(duì)相關(guān)的理論知識(shí)做了講解,包括先驗(yàn)概率、條件概率、貝葉斯理論、貝葉斯算法等;第三,對(duì)如何實(shí)現(xiàn)文本分類進(jìn)行了概述以及整體講解,通過(guò)給出流程圖,可以更直觀的了解實(shí)現(xiàn)的過(guò)程;第四,詳細(xì)介紹了實(shí)現(xiàn)本課題所用到的重要工具,包括 jbuilder2007 開發(fā)
5、工具和全文檢索引擎 lucene 以及 java 平臺(tái);第五,在前期工作基礎(chǔ)上,給出了詳細(xì)的實(shí)現(xiàn)過(guò)程,包括單文本分類和多文本分類以及相關(guān)具體操作;最后,通過(guò)多次大量重復(fù)試驗(yàn),得出了實(shí)驗(yàn)數(shù)據(jù),在此通過(guò)表格的形式,直觀的給出了實(shí)驗(yàn)結(jié)果。本課題研究基于貝葉斯的文本分類系統(tǒng),根據(jù)所討論的算法構(gòu)造了貝葉斯文本自動(dòng)分離器,并做出詳盡的訓(xùn)練測(cè)試,從最終的試驗(yàn)結(jié)果可以看出,貝葉斯算法簡(jiǎn)單、性能優(yōu)越,即使在不考慮貝葉斯假設(shè)的前提下,仍然取得良好的分類性能。關(guān)鍵字:文本自動(dòng)分類 ,貝葉斯分類 ,分類文本語(yǔ)料庫(kù)。畢業(yè)設(shè)計(jì)(論文)iiiabstractwith the computer technology and
6、the rapid development of communication technology, people can get more and more digital information, but it also needs to devote more time to organize and manage information. in order to alleviate that burden, people began to study the use of computers for automatic classification of text. automatic
7、 text categorization is the classification of a given system, the computer determined in accordance with the contents of the text associated with its category. automatic text classification is the artificial intelligence technology and access to information technology research field. with the develo
8、pment of network, data on the emergence of a large number of documents online, to deal with massive data technology of automatic text classification is becoming increasingly important, has become an increasingly large number of document processing and organization of the key technologies of data.by
9、analyzing the k nearest neighbor、naive bayes、support vector machine method of text classification in three strengths and weaknesses found in naive bayesian classifier speed, with the smallest error rate, can achieve the advantages of online technology, and the classification of the theoretical analy
10、sis and experimental comparison, experimental results show that the text categorization model is feasible and efficient. this paper first introduces the bayesian-based text categorization of the research and realization of the background and describes the issues related to the concept of knowledge,
11、including text classification and chinese word segmentation . second, the relevant theoretical knowledge to do the explaining, including a priori probability, conditional probability, bayesian theory, the bayesian algorithm . third, on how to achieve the outlined text classification as well as on th
12、e whole, through the given flow chart, you can achieve a more intuitive understanding of the process. fourth, in detail on achieving this important task by use of tools, including development tools and jbuilder2007 full-text search engine lucene and java platform.fifth, prior to the adoption of the
13、work detailed in this paper the realization of the process, including single-and multi-text classification text categorization and related specific operations; finally, a large number of repeat tests many times, the experimental data obtained in this 畢業(yè)設(shè)計(jì)(論文)ivform through the form, intuitive experi
14、mental results are given.the research based on bayesian text classification system, according to the algorithm discussed in the text automatically constructed bayesian separator and training to make a detailed test results from the final we can see that the bayesian algorithm is simple, superior per
15、formance, even without taking into account the assumption that the premise of bayesian still achieve good classification performance. keywords: automatic text categorization, bayesian classifier, classification of text corpora.畢業(yè)設(shè)計(jì)(論文)1目錄目錄1.緒論.21.1 研究背景.21.2 文本分類的研究現(xiàn)狀 .21.3 分類的含義.31.4 文本分類的含義.31.5
16、自動(dòng)分類.31.6 中文分詞.31.7 中文分詞的意義和作用.41.8 中文分詞的應(yīng)用.41.9 本文的組織 .42.條件概率.62.1 條件概率定義 .62.2 全概率公式和貝葉斯公式 .62.3 貝葉斯學(xué)習(xí)理論 .62.4 樸素貝葉斯分類.72.5 貝葉斯文本分類算法.92.6 文本自動(dòng)分類的特點(diǎn).103.設(shè)計(jì)概述.113.1 流程圖.113.2 概要設(shè)計(jì).144.系統(tǒng)開發(fā)環(huán)境.154.1 java .154.2 開放源代碼的全文檢索引擎 lucene簡(jiǎn)介.165.貝葉斯的文本自動(dòng)分類的分析與設(shè)計(jì).195.1 引言 .195.2 詳細(xì)設(shè)計(jì) .195.3 程序?qū)崿F(xiàn) .295.4 試驗(yàn)數(shù)據(jù).3
17、56 結(jié)論.36全文總結(jié) .36未來(lái)展望 .36致謝.37參考文獻(xiàn).38畢業(yè)設(shè)計(jì)(論文)21.緒論1.1 研究背景我們正處在一個(gè)信息急劇豐富的時(shí)代,據(jù) 1998 年的統(tǒng)計(jì)結(jié)果顯示,全世界每年出版大約 15600 種期刊,而且這一數(shù)字以每年 12000 種的速度遞增,同期,僅美國(guó)國(guó)內(nèi)就有近 140 萬(wàn)種圖書在付印,這一數(shù)據(jù)還以平均每年 6 萬(wàn)種的速度在增加。1998 年美國(guó)國(guó)會(huì)圖書館藏書約 1700 萬(wàn)種,而平均每天接收到的新書就多達(dá) 7000 種。另一個(gè)增長(zhǎng)驚人的信息渠道是 internet,1999 年的統(tǒng)計(jì)結(jié)果表明,internet 上約有 3.5 億個(gè)靜態(tài) html(hypertext
18、markup language 超文本標(biāo)記語(yǔ)言)頁(yè)面,每天增加將近100 萬(wàn)。這些頁(yè)面大部分是以文本文檔的形式存在,而我們?nèi)粘K佑|的信息,也絕大部分是文本的形式,它們或以印刷品的方式存在,或以電子文檔的形式出現(xiàn)。尤其是近十年來(lái),隨著網(wǎng)絡(luò)的飛速發(fā)展,數(shù)字圖書館的出現(xiàn),越來(lái)越多的文本信息以電子文檔的形式存在。面對(duì)如此龐大而又急劇膨脹的信息海洋,如何有效地組織和管理這些信息,并能快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)與技術(shù)領(lǐng)域所面臨的一大挑戰(zhàn)。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在較大程度上解決信息的紛繁雜亂問(wèn)題,方便用戶快度、準(zhǔn)確地定位所需要的信息。因此,自動(dòng)文本
19、分類已作為一項(xiàng)具有較大實(shí)用價(jià)值的關(guān)鍵技術(shù),得到了廣泛關(guān)注,取得了很大進(jìn)展。1.2 文本分類的研究現(xiàn)狀國(guó)外文本數(shù)據(jù)分類的研究始于 20 世紀(jì) 50 年代末,luhn 在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究,其后許多學(xué)者在這一領(lǐng)域進(jìn)行了卓有成效的研究。國(guó)外文本數(shù)據(jù)分類研究大體上可以分為三個(gè)階段:第一階段是 20 世紀(jì) 80 年代前。在這一時(shí)期,模式識(shí)別和信息檢索相繼發(fā)展成一門學(xué)科。這一階段主要是集中在對(duì)分類理論的研究,應(yīng)用方面則主要是用于信息檢索。第二階段是 20 世紀(jì) 80 年代到 90 年代。這一階段主要是采用傳統(tǒng)的知識(shí)工程技術(shù),在這一時(shí)期,信息檢索技術(shù)逐漸成熟應(yīng)用,為文本分類提供了許多技術(shù)支持。第三階
20、段是 20 世紀(jì) 90 年代以后。互連網(wǎng)技術(shù)的發(fā)展,文本數(shù)據(jù)量急劇增加,這種耗時(shí)、靈活性差、應(yīng)用難度大的知識(shí)工程方法越來(lái)越不能滿足實(shí)際應(yīng)用的需要,于是逐漸被機(jī)器學(xué)習(xí)的方法取而代之。基于機(jī)器學(xué)習(xí)的文本分類方法克服了以前手工建立分類器的缺點(diǎn),使得文本分類具有了真正的實(shí)用價(jià)值。這一時(shí)期分類器的特點(diǎn):一是分類知識(shí)來(lái)源于機(jī)器對(duì)訓(xùn)練集的自動(dòng)學(xué)習(xí),不再依賴于專家;二是學(xué)習(xí)和分類過(guò)程不需要人工干預(yù),分類效率和準(zhǔn)確率都有很大提高。所謂機(jī)器學(xué)習(xí)是指由計(jì)算機(jī)代替人來(lái)學(xué)習(xí)關(guān)于認(rèn)識(shí)世界、改造世界的知識(shí)。國(guó)內(nèi)文本數(shù)據(jù)分類研究起步較晚,始于 20 世紀(jì) 80 年代初期。我國(guó)文本分類的研究大體上經(jīng)歷了可行性探討、輔助分類、自
21、動(dòng)分類系統(tǒng)三個(gè)發(fā)展階段。早期對(duì)中文文本的分類研究較少,采用的技術(shù)也主要是把英文文本分類的技術(shù)應(yīng)用到中文文本分類畢業(yè)設(shè)計(jì)(論文)3當(dāng)中。自上世紀(jì) 90 年代后期才開始著重于對(duì)中文文本分類的研究,結(jié)合中文文本的特點(diǎn),形成中文文本數(shù)據(jù)分類研究體系。文本分類方面的文獻(xiàn)也非常豐富,常見于信息檢索、機(jī)器學(xué)習(xí)、知識(shí)挖掘與發(fā)現(xiàn)、模式識(shí)別、人工智能、計(jì)算機(jī)科學(xué)與應(yīng)用等各種國(guó)際會(huì)議及相關(guān)的期刊或雜志。1.3 分類的含義廣義的分類(classification 或者 categorization)有兩種含義:一種含義是有指導(dǎo)的學(xué)習(xí)(supervised learning)過(guò)程,另一種是無(wú)指導(dǎo)的學(xué)習(xí)(unsuperv
22、ised learning)過(guò)程。通常前者稱為分類,后者稱為聚類(clustering) ,后文中提到的分類是指有指導(dǎo)的學(xué)習(xí)過(guò)程。給定分類體系,將文本集中的每個(gè)文本分到某個(gè)或者某幾個(gè)類別中,這個(gè)過(guò)程稱為文本分類(text categorization) 。1.4 文本分類的含義文本分類過(guò)程可以分為手工分類和自動(dòng)分類。前者最著名的實(shí)例是 yahoo 的網(wǎng)頁(yè)分類體系,是由專家定義了分類體系,然后人工將網(wǎng)頁(yè)分類。這種方法需要大量人力,現(xiàn)實(shí)中已經(jīng)采用的很少了。自動(dòng)文本分類(automatic text categorization)算法大致可以分為兩類:知識(shí)工程(knowledge engineeri
23、ng)方法和機(jī)器學(xué)習(xí)(machine learning)方法。知識(shí)工程方法指的是由專家為每個(gè)類別定義一些規(guī)則,這些規(guī)則代表了這個(gè)類別的特征,自動(dòng)把符合規(guī)則的文檔劃分到相應(yīng)的類別中。這方面最著名的系統(tǒng)是 construe。上個(gè)世紀(jì) 90 年代之后,機(jī)器學(xué)習(xí)方法成為主導(dǎo)。機(jī)器學(xué)習(xí)方法與知識(shí)工程方法相比,能夠達(dá)到相似的精確度,但是減少了大量的人工參與。下面主要介紹基于機(jī)器學(xué)習(xí)方法的文本分類。1.5 自動(dòng)分類1.自動(dòng)分類基于內(nèi)容、不需人工干預(yù)的文本自動(dòng)分類技術(shù)。系統(tǒng)提供分類訓(xùn)練工具,允許用戶自行根據(jù)自己的分類需求和數(shù)據(jù)特點(diǎn)設(shè)定分類結(jié)構(gòu),自動(dòng)生成特征模板,進(jìn)行分類訓(xùn)練。trs 自動(dòng)分類支持反饋學(xué)習(xí)機(jī)制,
24、可以根據(jù)用戶的反饋?zhàn)詣?dòng)對(duì)分類模板進(jìn)行完善,從而逐步增加分類的準(zhǔn)確率。2.自動(dòng)分類是利用模式識(shí)別技術(shù)實(shí)現(xiàn)對(duì)遙感影像內(nèi)容的自動(dòng)標(biāo)志識(shí)別和分類,即計(jì)算機(jī)輔助判讀。通常采用特征空間識(shí)別方法。是建立在概率論和數(shù)理統(tǒng)計(jì)基礎(chǔ)上,立足于尋找能反映影像特點(diǎn)的一些特征,經(jīng)過(guò)信息壓縮、特征抽取、特征選擇和決策規(guī)劃來(lái)識(shí)別地物的計(jì)算機(jī)自動(dòng)分類方法。1.6 中文分詞什么是中文分詞?中文分詞與其他的分詞又有什么不同呢?分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段可以通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界,唯獨(dú)詞沒有一個(gè)形式上的分界符,雖然英
25、文也同樣存在短語(yǔ)的劃分問(wèn)題,但是在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。 畢業(yè)設(shè)計(jì)(論文)41.7 中文分詞的意義和作用要想說(shuō)清楚中文分詞的意義和作用,就要提到智能計(jì)算技術(shù)。智能計(jì)算技術(shù)涉及的學(xué)科包括物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、電子機(jī)械、通訊、生理學(xué)、進(jìn)化理論和心理學(xué)等等。簡(jiǎn)單的說(shuō),智能計(jì)算就是讓機(jī)器“能看會(huì)想,能聽會(huì)講” 。要想實(shí)現(xiàn)這樣的一個(gè)目標(biāo),首先就要讓機(jī)器理解人類的語(yǔ)言,只有機(jī)器理解了人類的語(yǔ)言文字,才使得人與機(jī)器的交流成為可能。再反觀我們?nèi)祟惖恼Z(yǔ)言中, “詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分” ,所以對(duì)于中文來(lái)講,將詞確定下來(lái)是理解自然語(yǔ)言的第一步,只有跨越了這一步,中文才
26、能像英文那樣過(guò)渡到短語(yǔ)劃分、概念抽取以及主題分析,以至于自然語(yǔ)言理解,最終達(dá)到智能計(jì)算的最高境界,實(shí)現(xiàn)人類的夢(mèng)想。從現(xiàn)階段的實(shí)際情況來(lái)看,英文已經(jīng)跨越了分詞這一步,也就是說(shuō)在詞的利用上已經(jīng)先我們一步,并且已經(jīng)展現(xiàn)了良好的應(yīng)用前景,無(wú)論是信息檢索還是主題分析的研究都要強(qiáng)于中文,究其根本原因就是中文要通過(guò)分詞這道難關(guān),只有攻破了這道難關(guān),我們才有希望趕上并超過(guò)英文在信息領(lǐng)域的發(fā)展,所以中文分詞對(duì)我們來(lái)說(shuō)意義重大,可以說(shuō)直接影響到使用中文的每一個(gè)人的方方面面。1.8 中文分詞的應(yīng)用中文分詞主要應(yīng)用于信息檢索、漢字的智能輸入、中外文對(duì)譯、中文校對(duì)、自動(dòng)摘要、自動(dòng)分類等很多方面。下面就以信息檢索為例來(lái)說(shuō)
27、明中文分詞的應(yīng)用。 通過(guò)近幾年的發(fā)展,互聯(lián)網(wǎng)已經(jīng)離我們不再遙遠(yuǎn)。互聯(lián)網(wǎng)上的信息也在急劇膨脹,在這海量的信息中,各類信息混雜在一起,要想充分利用這些信息資源就要對(duì)它們進(jìn)行整理,如果由人來(lái)做這項(xiàng)工作,已經(jīng)是不可能的,而如果面對(duì)中文信息不采用分詞技術(shù),那么整理的結(jié)果就過(guò)于粗糙,而導(dǎo)致資源的不可用,例如:“制造業(yè)和服務(wù)業(yè)是兩個(gè)不同的行業(yè)”和“我們出口日本的和服比去年有所增長(zhǎng)”中都有“和服” ,而被當(dāng)作同一類來(lái)處理,結(jié)果是檢索“和服”的相關(guān)信息,會(huì)將他們都檢索到,在信息量少的情況下,似乎還能夠忍受,如果是海量信息,這樣的結(jié)果就會(huì)令人討厭了。通過(guò)引入分詞技術(shù),就可以使機(jī)器對(duì)海量信息的整理更準(zhǔn)確更合理,在“
28、制造業(yè)和服務(wù)業(yè)是兩個(gè)不同的行業(yè)”中“和服”不會(huì)被當(dāng)作一個(gè)詞來(lái)處理,那么檢索“和服”當(dāng)然不會(huì)將它檢索到,使得檢索結(jié)果更準(zhǔn)確,效率也會(huì)大幅度的提高。所以中文分詞的應(yīng)用會(huì)改善我們的生活,使人們真正體會(huì)到科技為我所用。畢業(yè)設(shè)計(jì)(論文)52.條件概率2.1 條件概率定義定義定義 設(shè) a, b 是兩個(gè)事件,且 p(a)0 稱 p(ba)=p(ab)/p(a)為在條件 a 下發(fā)生的條件事件 b 發(fā)生的條件概率。乘法公式乘法公式 設(shè) p(a)0 則有 p(ab)=p(ba)p(a) 2.2 全概率公式和貝葉斯公式定義定義 設(shè) s 為試驗(yàn) e 的樣本空間,b1, b2, bn為 e 的一組事件,若 bibj=,
29、 ij, (i, j=1, 2, ,n) ;b1b2bn=s 則稱 b1, b2, , bn為樣本空間的一個(gè)劃分。定理定理 設(shè)試驗(yàn) e 的樣本空間為 s,a 為 e 的事件,b1, b2, ,bn為的一個(gè)劃分,且 p(bi)0 (i=1, 2, n),則 p(a)=p(ab1)p(b1)+p(ab2)p(b2)+p(abn)p(bn)稱為全概率公式。定理定理 設(shè)試驗(yàn) e 的樣本空間為 s,a 為 e 的事件,b1, b2, ,bn為的一個(gè)劃分,則p(bia)=p(abi)p(bi)/p(baj)p(aj)=p(bai)p(ai)/p(b) 稱為貝葉斯公式。下面我再舉個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明下。考慮一
30、個(gè)醫(yī)療診斷問(wèn)題,有兩種可能的假設(shè):(1)病人有癌癥。畢業(yè)設(shè)計(jì)(論文)6(2)病人無(wú)癌癥。樣本數(shù)據(jù)來(lái)自某化驗(yàn)測(cè)試,它也有兩種可能的結(jié)果:陽(yáng)性和陰性。假設(shè)已經(jīng)有先驗(yàn)知識(shí):在所有人口中只有 0.008 的人患病。此外,化驗(yàn)測(cè)試對(duì)有病的患者有 98%的可能返回陽(yáng)性結(jié)果,對(duì)無(wú)病患者有 97%的可能返回陰性結(jié)果。上面的數(shù)據(jù)可以用以下概率式子表示:p(cancer)=0.008,p(無(wú) cancer)=0.992p(陽(yáng)性|cancer)=0.98,p(陰性|cancer)=0.02p(陽(yáng)性|無(wú) cancer)=0.03,p(陰性|無(wú) cancer)=0.97假設(shè)現(xiàn)在有一個(gè)新病人,化驗(yàn)測(cè)試返回陽(yáng)性,是否將病人
31、斷定為有癌癥呢?可以計(jì)算極大后驗(yàn)假設(shè):p(陽(yáng)性|cancer)p(cancer)=0.98*0.008 = 0.0078p(陽(yáng)性|無(wú) cancer)*p(無(wú) cancer)=0.03*0.992 = 0.0298因此,應(yīng)該判斷為無(wú)癌癥。2.3 貝葉斯學(xué)習(xí)理論貝葉斯是一種基于概率的學(xué)習(xí)算法,能夠用來(lái)計(jì)算顯式的假設(shè)概率,它基于假設(shè)的先驗(yàn)概率,給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。本課題用 p(h)表示沒有訓(xùn)練樣本數(shù)據(jù)前假設(shè) h 擁有的初始概率,也就稱為 h 的先驗(yàn)概率,它反映了我們所擁有的關(guān)于 h 是一個(gè)正確假設(shè)的機(jī)會(huì)的背景知識(shí)。當(dāng)然如果沒有這個(gè)先驗(yàn)知識(shí)的話,在實(shí)際處理中,可以簡(jiǎn)單地
32、將每一種假設(shè)都賦給一個(gè)相同的概率。類似,p(d)代表將要觀察的訓(xùn)練樣本數(shù)據(jù) d 的先驗(yàn)概率(也就是說(shuō),在沒有確定某一個(gè)假設(shè)成立時(shí) d 的概率) 。然后是 p(d/h),它表示假設(shè) h 成立時(shí)觀察到數(shù)據(jù) d 的概率。在機(jī)器學(xué)習(xí)中,所感興趣的是 p(h/d),也就是給定了一個(gè)訓(xùn)練樣本數(shù)據(jù) d,判斷假設(shè) h 成立的概率,這也稱之為后驗(yàn)概率,它反映了在看到訓(xùn)練樣本數(shù)據(jù) d 后假設(shè) h成立的置信度。 (注:后驗(yàn)概率 p(h/d)反映了訓(xùn)練數(shù)據(jù) d 的影響,而先驗(yàn)概率 p(h)是獨(dú)立于 d 的) 。argmax( |)maph hhp h d (| ) ( )argmax()h hp d h p hp d
33、 (2.1)argmax(| ) ( )h hp d h p h注意,在最后一步去掉了 p(d) ,因?yàn)樗遣灰蕾囉?h 的常量。在某些情況下,可假定 h 中每個(gè)假設(shè)有相同的先驗(yàn)概率(即對(duì) h 中任意 hi和 hj,p(hi)=p(hj)) 。這時(shí)可把等式(2.1)進(jìn)一步簡(jiǎn)化,只需考慮 p(d|h)來(lái)尋找極大可能假設(shè)。p(d|h)常被稱為給定 h 時(shí)數(shù)據(jù) d 的似然度,而使 p(d|h)最大的假設(shè)被稱為極大似然(maximum likelihood,ml)假設(shè) hml畢業(yè)設(shè)計(jì)(論文)7p(h|d) = p(d|h)p(h)/p(d) (2.2)argmax(| )mlh hhp d h從貝葉斯
34、公式可以看出,后驗(yàn)概率 p(h/d)取決于 p(d|h)p(h)這個(gè)乘積,這就是貝葉斯分類算法的核心思想。要做的就是要考慮候選假設(shè)集合 h,并在其中尋找當(dāng)給定訓(xùn)練數(shù)據(jù) d 時(shí)可能性最大的假設(shè) h(h 屬于 h) 。簡(jiǎn)單點(diǎn)說(shuō),就是給定了一個(gè)訓(xùn)練樣本數(shù)據(jù)(樣本數(shù)據(jù)已經(jīng)人工分類好了) ,應(yīng)該如何從這個(gè)樣本數(shù)據(jù)集去學(xué)習(xí),從而當(dāng)碰到新的數(shù)據(jù)時(shí),可以將新數(shù)據(jù)分類到某一個(gè)類別中去。那可以看到,上面的貝葉斯理論和這個(gè)任務(wù)是吻合的。2.4 樸素貝葉斯分類12argmax(|,.)jmapjnvvvp va aa可使用貝葉斯公式將此表達(dá)式重寫為:1212(,.|) ()argmax(,.)jnjjmapvvnp
35、a aav p vvp a aa (2.3)12argmax(,.|) ()jnjjvvp a aav p v現(xiàn)在要做的是基于訓(xùn)練數(shù)據(jù)估計(jì)式(2.3)中兩個(gè)數(shù)據(jù)項(xiàng)的值。估計(jì)每個(gè) p(vj)很容易,只要計(jì)算每個(gè)目標(biāo)值 vj出現(xiàn)在訓(xùn)練數(shù)據(jù)中的頻率就可以。然而,除非有一個(gè)非常大的訓(xùn)練數(shù)據(jù)的集合。否則用這種方法估計(jì)不同的 p(a1,a2,an |vj)項(xiàng)不大可行。問(wèn)題在于這些項(xiàng)的數(shù)量等于可能實(shí)例的數(shù)量乘以可能目標(biāo)值的數(shù)量。因此為獲得合理的估計(jì),實(shí)例空間中每個(gè)實(shí)例必須出現(xiàn)多次。 樸素貝葉斯分類器基于一個(gè)簡(jiǎn)單的假定:再給定目標(biāo)值時(shí)屬性值之間相互條件獨(dú)立。換言之,該假定說(shuō)明在給定實(shí)例目標(biāo)值情況下,觀察到聯(lián)合
36、的 a1,a2,an的概率等于每個(gè)單獨(dú)屬性的概率乘積: 12(|,.)(|)jnijip va aap av(2.4) 將其帶入(2.3)中,可得樸素貝葉斯分類器所使用的方法: argmax()(|)jnbjijivvvp vp av(2.5)其中 vnb是樸素貝葉斯分類器輸出的目標(biāo)值。注意,在樸素貝葉斯分類器中,需從訓(xùn)練數(shù)據(jù)中估計(jì)的不同 p(ai|vj)項(xiàng)的數(shù)量只是不同的屬性值數(shù)量乘以不同目標(biāo)值數(shù)量這比要估計(jì) p(a1,a2,an|vj)p(a1,a2,an|vj)所需要的量要小的多。舉個(gè)簡(jiǎn)單的例子,讓大家對(duì)這個(gè)算法的原理有個(gè)快速的認(rèn)識(shí)。假設(shè)給定了表 2.1 中訓(xùn)練樣本數(shù)據(jù),學(xué)習(xí)的目標(biāo)是根據(jù)
37、給定的天氣狀況判斷你對(duì)playtennis 這個(gè)請(qǐng)求的回答是 yes 還是 no。dayoutlooktemperaturehumiditywindplaytennis畢業(yè)設(shè)計(jì)(論文)8d1sunnyhothighweaknod2sunnyhothighstrongnod3overcasthothighweakyesd4rainmildhighweakyesd5raincoolnormalweakyesd6raincoolnormalstrongnod7overcastcoolnormalstrongyesd8sunnymildhighweaknod9sunnycoolnormalweakye
38、sd10rainmildnormalweakyesd11sunnymildnormalstrongyesd12overcastmildhighstrongyesd13overcasthotnormalweakyesd14rainmildhighstrongno表 2.1可以看到這里樣本數(shù)據(jù)集提供了 14 個(gè)訓(xùn)練樣本,本課題將使用此表的數(shù)據(jù),并結(jié)合樸素貝葉斯分類器來(lái)分類下面的新實(shí)例:(outlook = sunny,temprature = cool,humidity = high,wind = strong)本課題的任務(wù)就是對(duì)此新實(shí)例預(yù)測(cè)目標(biāo)概念 playtennis 的目標(biāo)值(yes 或 n
39、o).由上面的公式可以得到:|,|argmax()(|)jnbjijivyes novp vp av= |,|argmax()jjvyes nop v(|) (|)jjp outlooksunny v p temperaturecool v (|) (|)jjp humidityhigh v p windstrong v(2.6)可以得到:p(playtennis =yes) = 9/14 = 0.64p(playtennis=no)=5/14 = 0.36p(wind=stong| playtennis =yes)=3/9=0.33p(wind=stong| playtennis =no)=
40、3/5 = 0.6其他數(shù)據(jù)類似可得,代入后得到:p(yes)p(sunny|yes)p(cool|yes)p(high|yes)p(strong|yes) = 0.0053畢業(yè)設(shè)計(jì)(論文)9p(no)p(sunny|no)p(cool|no)p(high|no)p(strong|no)=0.0206因此應(yīng)該分類到 no 這一類中。2.5 貝葉斯文本分類算法根據(jù)聯(lián)合概率公式(全概率公式) ( ,)(|) ()(|) ( )p c xp c x p xp x c p c(2.7)即得到貝葉斯公式 (|) ( )(|)()p x c p cp c xp x(2.8)則貝葉斯文本分類的任務(wù)就是將表示成
41、為向量的待分類文本 x(x1,x2,xn)歸類到與其關(guān)聯(lián)最緊密的類別 c(c1,c2,cj)c(c1,c2,cj)中去。其中 x(x1,x2,xn)為待分類文本 xq 的特征向量,c(c1,c2,cj)為給定的類別體系。也就是說(shuō),求解向量x(x1,x2,xn)屬于給定類別 c1,c2,cj的概率值(p1,p2,pn ),其中,pj為x(x1,x2,xn)屬于 cj的概率,則maxmax(p1,p2,pn)所對(duì)應(yīng)的類別就是文本 x 所屬的類別,因此分類問(wèn)題被描述為:求解方程(2.8)式的最大值。 121212( ,.|) ()(|,.)( ,. )njjjnnp x xxc p cp cx xxp c cc(2.9)其中,1)p(cj)訓(xùn)練文本集中,文本屬于類別 cj的概率;2)p(x1,x2,xn|cj)如果待分類文本屬于類別 cj,則類別 cj中包含向量(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 車輛定點(diǎn)洗車服務(wù)合同范本
- 兼職聘用勞動(dòng)合同
- 北師大版高中數(shù)學(xué)(必修3)《算法的基本結(jié)構(gòu)及設(shè)計(jì)》教案3篇
- 宇航用步進(jìn)電機(jī)驅(qū)動(dòng)線路發(fā)展及展望
- 區(qū)塊鏈技術(shù)在公共資源交易檔案管理中的應(yīng)用
- 大學(xué)物理課后習(xí)題及答案
- 基于Mahony和EKF融合算法的MEMS關(guān)節(jié)姿態(tài)測(cè)量系統(tǒng)
- 2025年外研版選修歷史上冊(cè)月考試卷含答案
- 健身器材創(chuàng)新技術(shù)與專利分析考核試卷
- 2025年新世紀(jì)版高三語(yǔ)文上冊(cè)月考試卷
- 2024年江蘇省蘇州市中考英語(yǔ)試題卷(含標(biāo)準(zhǔn)答案及解析)
- 全科醫(yī)學(xué)的基本原則和人文精神(人衛(wèi)第五版全科醫(yī)學(xué)概論)
- 船員健康知識(shí)課件
- 《揚(yáng)州東關(guān)街掠影》課件
- 環(huán)保行業(yè)研究報(bào)告
- 物流服務(wù)項(xiàng)目的投標(biāo)書
- 廣西太陽(yáng)能資源分析
- 地鐵車站低壓配電及照明系統(tǒng)
- 行業(yè)會(huì)計(jì)比較(第三版)PPT完整全套教學(xué)課件
- 值機(jī)業(yè)務(wù)與行李運(yùn)輸實(shí)務(wù)(第3版)高職PPT完整全套教學(xué)課件
- 高考英語(yǔ)語(yǔ)法填空專項(xiàng)訓(xùn)練(含解析)
評(píng)論
0/150
提交評(píng)論