版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
首都師范大學(xué)CapitalPAGE第PAGE29頁共29頁首都師范大學(xué)學(xué)士學(xué)位論文基于Web的文本分類挖掘的研究
學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律后果由本人承擔(dān)。作者簽名: 日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。涉密論文按學(xué)校規(guī)定處理。作者簽名: 日期:年月日導(dǎo)師簽名:日期:年月日
中文提要文本分類最初是應(yīng)文本信息檢索的要求出現(xiàn)的,但是隨著文本數(shù)據(jù)的激增,傳統(tǒng)的研究方法己經(jīng)不適合大規(guī)模文本分類,文本數(shù)據(jù)挖掘應(yīng)運而生。作為文本數(shù)據(jù)挖掘的一個重要功能,文本分類技術(shù)日益成為研究熱點。文本分類目的是對文本集有序組織,便于文本信息高效管理,為人的決策提供支持。但是傳統(tǒng)的人工分類的做法存在許多弊端,不僅是耗費大量人力、物和精力,而且受人為因素影響較大,分類結(jié)果一致性不高。與之相比,文本自動分類具有快速、高效的特點,且分類準確率較高。對文本分類技術(shù)進行研究,介紹文本分類的基本過程,論述文本特征提取方法,討論樸素貝葉斯、K近鄰、支持向量機、投票等常用的文本分類原理與方法,探討中文文本分類技術(shù)。采用支持向量機技術(shù),設(shè)計并實現(xiàn)了一個開放的中文文檔自動分類系統(tǒng)。實驗表明,它不僅具有較高的訓(xùn)練效率,同時能得到很高的分類準確率和查全率。關(guān)鍵詞:文本挖掘文本分類支持向量機向量空間模型外文提要Textcategorizationappearsinitiallyfortextinformationretrievalsystem;howevertextdataincreasessofastthattraditionalresearchmethodshavebeenimproperforlarge-scaletextcategorization.Sotextdataminingemerges,andtextcategorizationbecomesmoreandmoreimportantasamajorresearchfieldofit.Thepurposeoftextcategorizationistoorganizetextbyorder,soastomanagetextinformationefficientlyandsupportdecisionsofhumanbeing.Howevercategorizationbyhandnotonlyconsumesplentyofmanpower,materialresourcesandenergy,butalsomakescategorizationaccuracyinconsistent.Comparedwithcategorizationbyhand,automatictextcategorizationclassifiestextsfasteranditscategorizationaccuracyrateshigher.Introducesthetechniquesoftextcategorization,includingitsbasicprocess,thealgorithmsoftextfeatureextraction,thetheoriesandtechnologiessuchasNa?vebayes,KNN,SVM,Votedandsoon.Chinesetextclassificationisdiscussed.AnopenChinesedocumentclassificationsystemusingsupportisdesignedandimplemented.Theexperimentshowsthatitnotonlyimprovestrainingefficiency,butalsohasgoodprecisionandrecall.KeywordtextminingTextcategorizationSupportVectorMachine(SVM)vectorspacemodel目錄TOC\o"1-3"\h\z中文提要 1外文提要 2目錄 3第一章緒論 41.1文本自動分類研究的背景和意義 41.2問題的描述 61.3國內(nèi)外文本自動分類研究動態(tài) 6第二章中文文本分類技術(shù)研究 82.1文本預(yù)處理 82.1.1文本半結(jié)構(gòu)化 82.1.2自動分詞 82.1.3特征選擇[12] 82.2分類模型 92.2.1貝葉斯(NaiveBayes)方法[14] 92.2.2K-近鄰(KNN)方法 92.2.3決策樹(DecisionTree)分類 102.2.4基于投票的方法 102.2.5支持向量機(SVM)方法[17] 112.3分類性能評價 11第三章基于支持向量機的中文文本分類 123.1 統(tǒng)計學(xué)習(xí)理論 123.2支持向量機原理 143.3支持向量機的特點 16第四章基于支持向量機的中文文本分類器的實現(xiàn) 174.1 系統(tǒng)體系結(jié)構(gòu) 174.1.1文本訓(xùn)練模塊設(shè)計 184.1.2文本分類模塊設(shè)計 18第五章系統(tǒng)的性能測試 195.1開發(fā)環(huán)境和數(shù)據(jù)集 195.2測試結(jié)果及分析 19第六章總結(jié)與展望 216.1全文總結(jié) 216.2進一步工作及展望 21附錄(附圖) 22參考文獻 25致謝 27第一章緒論1.1文本自動分類研究的背景和意義分類最初是應(yīng)信息檢索(InformationRetrieval,簡稱IR)系統(tǒng)的要求而出現(xiàn)的,也是數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的重要技術(shù)之一[1].隨著全球計算機與通訊技術(shù)的飛速發(fā)展、互聯(lián)網(wǎng)的普及與應(yīng)用,信息爆炸的現(xiàn)實使人們越來越注重對自動分類的研究,文本自動分類及其相關(guān)技術(shù)的研究也日益成為一項研究熱點。信息檢索系統(tǒng)必須操縱大量的文本數(shù)據(jù),其文本信息庫可能相當龐大。如何在海量文本信息中獲取潛在的、有價值的知識,模型或規(guī)則,這就需要引入文本數(shù)據(jù)挖掘概念。數(shù)據(jù)挖掘是從大量的文本數(shù)據(jù)中提取出事先未知的、可理解的、可應(yīng)用的信息和知識的過程。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù),能夠?qū)淼内厔莺托袨檫M行預(yù)測,從而很好地支持人們的決策。文本數(shù)據(jù)挖掘(TextualDataMining),亦稱文本挖掘(TextualMining),或者從文本數(shù)據(jù)庫中發(fā)現(xiàn)知識,以文本數(shù)據(jù)為特定挖掘?qū)ο蟮臄?shù)據(jù)挖掘,是數(shù)據(jù)挖掘的擴展。文本挖掘抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。1998年底,國家重點研究發(fā)展規(guī)劃首批實施項目中明確指出,文本挖掘是“圖像、語言、自然語言理解與知識挖掘”中的重要內(nèi)容。文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對文檔進行分類,獲取有用的知識和信息。從目前文本挖掘技術(shù)的研究和應(yīng)用狀況來看,從語義的角度來實現(xiàn)文本挖掘的很多,目前研究和應(yīng)用最多的幾種文本挖掘技術(shù)有:文檔聚類、文檔分類和摘要抽取[2]。(1)文檔聚類首先,文檔聚類可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識工作者發(fā)現(xiàn)相關(guān)知識;其次,文檔聚類可以將一個文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進行分類。文本挖掘中的聚類可用于:提供大規(guī)模文檔集內(nèi)容的總括;識別隱藏的文檔間的相似度;減輕瀏覽相關(guān)、相似信息的過程。聚類方法通常有:層次聚類法、平面劃分法、簡單貝葉斯聚類法、K-最近鄰參照聚類法、分級聚類法、基于概念的文本聚類等。(2)文檔分類分類和聚類的區(qū)別在于:分類是基于已有的分類體系表的,而聚類則沒有分類表,只是基于文檔之間的相似度。由于分類體系表一般比較準確、科學(xué)地反映了某一個領(lǐng)域的劃分情況,所以在信息系統(tǒng)中使用分類的方法,能夠讓用戶手工遍歷一個等級分類體系來找到自己需要的信息,達到發(fā)現(xiàn)知識的目的,這對于用戶剛開始接觸一個領(lǐng)域想了解其中的情況,或者用戶不能夠準確地表達自己的信息需求時特別有用。傳統(tǒng)搜索引擎中目錄式搜索引擎屬于分類的范疇,但是許多目錄式搜索引擎都采用人工分類的方法,不僅工作量巨大,而且準確度不高,大大限制了起作用的發(fā)揮。另外,用戶在檢索時往往能得到成千上萬篇文檔,這讓他們在決定哪些是與自己需求相關(guān)時會遇到麻煩,如果系統(tǒng)能夠?qū)z索結(jié)果分門別類地呈現(xiàn)給用戶,則顯然會減少用戶分析檢索結(jié)果的工作量,這是自動分類的另一個重要應(yīng)用。文檔自動分類一般采用統(tǒng)計方法[3][4][5][6][7][8]或神經(jīng)網(wǎng)絡(luò)[9][10][11]以及機器學(xué)習(xí)來實現(xiàn)。常用的方法有:簡單貝葉斯分類法,K-最近鄰參照分類算法以及支持向量機分類方法等。(3)自動文摘互聯(lián)網(wǎng)上的文本信息、機構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫的內(nèi)容都在成指數(shù)級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結(jié)果,其中許多是與其信息需求無關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。自動文摘能夠生成簡短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內(nèi)容的簡單連貫的短文。自動文摘具有以下特點:自動文摘應(yīng)能將原文的主題思想或中心內(nèi)容自動提取出來。文摘應(yīng)具有概況性、客觀性、可理解性和可讀性??蛇m用于任意領(lǐng)域。按照生成文摘的句子來源,自動文摘方法可以分成兩類,一類是完全使用原文中的句子來生成文摘,另一類是可以自動生成句子來表達文檔的內(nèi)容。后者的功能更強大,但在實現(xiàn)的時候,自動生成句子是一個比較復(fù)雜的問題,經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。利用文本挖掘技術(shù)處理大量的文本數(shù)據(jù),無疑將給企業(yè)帶來巨大的商業(yè)價值。因此,目前對于文本挖掘的需求非常強烈,文本挖掘技術(shù)應(yīng)用前景廣闊。1.2問題的描述文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。自動分類的一般做法是,根據(jù)文本數(shù)據(jù)集的特點構(gòu)造一個分類器,利用分類器對未知類別的文本賦予類別。構(gòu)造分類器的過程一般分為訓(xùn)練和測試兩個步驟。在訓(xùn)練階段,分析訓(xùn)練數(shù)據(jù)集的特點,為每一個類別產(chǎn)生一個相應(yīng)數(shù)據(jù)集的準確描述或者模型。在測試階段,利用類別的描述或者模型對測試集合進行分類,測試其分類的準確度。一般來說,測試階段的代價遠遠低于訓(xùn)練階段。文本數(shù)據(jù)的來源多種多樣,可以是報告、單據(jù)、新聞、郵件等。文本的類別和數(shù)量可以是預(yù)訂好的,這需要相關(guān)專家知識;也可以是不確定的,要經(jīng)過文本的自組織、聚類后才能得到。需要預(yù)先定義類別體系的文本分類為有指導(dǎo)的學(xué)習(xí)(supervisedlearning)的分類,也稱文本自動分類:類別體系不確定的文本分類為無指導(dǎo)的(unsupervisedlearning)的分類,也稱文本自動聚類(Clustering)。自動聚類系統(tǒng)不需要訓(xùn)練文本,劃分出的文本類別也是不確定的。1.3國內(nèi)外文本自動分類研究動態(tài)國外對于文本自動分類的研究開始較早,50年代末,H.P.huhn在這一領(lǐng)域進行了開創(chuàng)性的研究,提出了詞頻統(tǒng)計思想用于自動分類。1960年,Maron發(fā)表了關(guān)于自動分類的第一篇論文。隨后眾多學(xué)者在這一領(lǐng)域進行了卓有成效的研究工作,到目前為止,國外的自動分類研究己經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷的實驗性研究進入到了實用階段,并在郵件分類、電子會議、信息過濾方面取得了比較廣泛的應(yīng)用,其中比較成功的例子有麻省理工學(xué)院為白宮開發(fā)的郵件分類系統(tǒng)、卡內(nèi)基集團為路透社開發(fā)的Construe系統(tǒng)等。國內(nèi)對于文本自動分類的研究起步比較晚,1981年,侯漢清教授對于計算機在文本分類工作中的應(yīng)用作了探討,并介紹了國外計算機管理分類表、計算機分類檢索、計算機自動分類、計算機編制分類表等方面的概況。此后,我國陸續(xù)研究出一批計算機輔助分類系統(tǒng)和自動分類系統(tǒng)。例如,廣東省中山圖書館的莫少強開發(fā)的計算機輔助圖書分類系統(tǒng)(C-ABC)、清華大學(xué)吳軍研制的自動分類系統(tǒng)、山西大學(xué)劉開瑛等人開發(fā)的金融自動分類系統(tǒng)、東北大學(xué)圖書館的圖書館分類專家系統(tǒng),上海交通大學(xué)王永成等研制的基于神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的中文文本自動分類系統(tǒng)。近期研究中比較突出的是中科院的中文文本智多星分類器,它采用多種分類方法。雖然中英文之間存在較大差異,無法直接參照國外的研究成果,但是,隨著中文信息處理技術(shù)特別是中文自動分詞技術(shù)的日漸成熟,以此為基礎(chǔ)的中文文本分類技術(shù)的研究得到了飛速發(fā)展,在短短20多年中完成了從可行性探索到實用化階段的轉(zhuǎn)變。根據(jù)分類知識的獲取方法不同,可將文本分類系統(tǒng)劃分為兩種類型:一個是基知識工程的分類系統(tǒng),一個基于機器學(xué)習(xí)分類系統(tǒng)。基于知識工程的方法主要依賴語言學(xué)知識,一般由知識庫和推理機兩大基礎(chǔ)部分組成。知識庫儲存了從專家那里獲得的關(guān)于某領(lǐng)域的專門知識,推理機具有推理的能力,即根據(jù)知識推導(dǎo)出結(jié)論,而不僅僅是簡單搜索現(xiàn)成的答案。由于需要由知識工程師手工編制大量的推理規(guī)則作為分類知識,實現(xiàn)相當復(fù)雜,因此開發(fā)費用相當昂貴。一個典型例子是卡內(nèi)基集團為路透社開發(fā)的Construe系統(tǒng)。該系統(tǒng)的開發(fā)工作量達到了10個人年。由此可見,知識工程的方法不適用較為復(fù)雜的系統(tǒng)。基于機器學(xué)習(xí)方法,研究從觀測樣本出發(fā),尋找規(guī)律(即利用一些做好標識的訓(xùn)練數(shù)據(jù)自動地構(gòu)造分類器),利用這些對未來樣本進行預(yù)測?,F(xiàn)有機器學(xué)習(xí)的重要理論基礎(chǔ)之一是統(tǒng)計學(xué)。傳統(tǒng)統(tǒng)計學(xué)研究的是樣本數(shù)目趨于無窮大時的漸近理論,現(xiàn)有學(xué)習(xí)方法也多是基于大數(shù)定律的結(jié)論。一般情況下,用戶對分類要求的準確程度在95%以上,但是因為分類詞表和分詞算法的不足、分類法的不足、分類算法的不足以及知識庫的規(guī)模不夠大等原因,目前的自動分類系統(tǒng)的準確率主要在80%左右,只有限制在一定的范圍內(nèi),這些系統(tǒng)才能取得相對好一些的效果,通用的、能夠滿足大規(guī)模商品化應(yīng)用要求的系統(tǒng)還需要進一步的研究。第二章中文文本分類技術(shù)研究2.1文本預(yù)處理2.1.1文本半結(jié)構(gòu)化文本數(shù)據(jù)與常見的結(jié)構(gòu)化關(guān)系數(shù)據(jù)不同,它是非結(jié)構(gòu)化的,沒有屬性一值對的結(jié)構(gòu),稱為無結(jié)構(gòu)或者半結(jié)構(gòu)化數(shù)據(jù)。對于非結(jié)構(gòu)化的文本數(shù)據(jù)進行挖掘,目前有兩種處理途徑:一是采用全新的算法,直接對非結(jié)構(gòu)化文本數(shù)據(jù)進行挖掘;二是將非結(jié)構(gòu)化文本數(shù)據(jù)進行轉(zhuǎn)化,將其轉(zhuǎn)化為結(jié)構(gòu)化文本數(shù)據(jù),再進行挖掘。由于直接構(gòu)造新算法難度較大,而且開發(fā)造價高,實現(xiàn)難度較大,所以目前通常采用人工處理的方法,把非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的文本數(shù)據(jù)。2.1.2自動分詞自動分詞是針對與中文的一種自然語言處理技術(shù)。西方語言體系中,句子中各個詞匯之間有固定的空格作為分隔,計算機處理時可以非常容易地從文本中識別出一個一個的單詞。而在漢語體系中,書寫以句子為單位,句間用標點隔開,句內(nèi)字詞則是連續(xù)排列的,之間沒有任何分隔。因此,如果要對中文文本進行分類、檢索等基于詞的處理,需要首先對中文文本進行詞條切分處理(簡稱分詞),才能正確識別每個詞。中文文本的分詞處理就是指在中文文本中連續(xù)的能夠代表語義單元的詞或者n一元詞條間加入分隔符,將中文文本的連續(xù)字節(jié)流形式轉(zhuǎn)化為離散單詞流形式的過程。自動分詞技術(shù)是各種中文信息處理技術(shù)的基礎(chǔ),也是中西文研究文本自動分類的主要差別所在,中文文本分類要在自動分詞的基礎(chǔ)上進行,對中文文本進行分詞的過程也是文本特征集的確定過程。2.1.3特征選擇[12]它是指去除不能表示信息的詞,以提高分類效率和減少計算復(fù)雜度。特征選擇有以下幾種方法:1根據(jù)詞的文檔頻度(DF)來判斷:當詞的DF小于或者大于某個閾值時都要去掉;2根據(jù)信息增益(IG)來判斷:信息增益是指詞為整個分類所能提供的信息量,當信息增益小于某個預(yù)定的值時,就要去掉這個詞;3根據(jù)χ2統(tǒng)計來判斷:χ2越大,詞和類之間的獨立性越小,相關(guān)性越大,所以去掉χ2小的詞;4根據(jù)互信息(MI)來判斷:互信息越大,兩個詞之間的共現(xiàn)性就越大;5根據(jù)詞的強度(TS)來判斷。通過試驗證明,前三種更加有效。特征選擇可以在兩個方面提高系統(tǒng)性能:一是分類速度,通過特征選擇,可以大大減少特征集合中的特征數(shù),降低文本向量的特征數(shù),提高系統(tǒng)運行速度。二是準確度,通過適當?shù)奶卣鬟x擇,不但不會降低系統(tǒng)準確性,反而會使統(tǒng)精確度提高[13]2.2分類模型2.2.1貝葉斯(NaiveBayes)方法[14]樸素貝葉斯分類器利用下列貝葉斯公式通過類別的先驗概率和詞的分布來計算未知文本屬于某一類別的概率:P(Cj∣D)=其中,P(Cj∣D)為樣本D屬于類Cj的概率,P(D∣Cj)為類Cj中含有樣本D的概率。在所有P(Cj∣D)(j=1,2,…,m)中,若P(CK∣D)值最大,則文本D歸為CK類。由于P(D)是常數(shù),因此將要求解P(Cj∣D)的問題轉(zhuǎn)換為只要求解P(Cj)P(D∣Cj)。假設(shè)文本中詞的分布是條件獨立的,則P(Cj∣D)=P(Cj)P(D∣Cj).其中,P(Cj)=;P(di∣Cj)=盡管詞的分布是條件獨立的這個假設(shè)在實際文本中是不成立的,但在實際應(yīng)用中NP分類器一般都能取得相對較好的結(jié)果。從理論上講,貝葉斯分類的出錯率最小,就試驗結(jié)果來看,樸素貝葉斯在大型的數(shù)據(jù)集上表現(xiàn)出來難得的速度和準確度。[15]2.2.2K-近鄰(KNN)方法KNN方法是一種基于實例的文本分類方法。首先,對于一個待分類文本,計算它與訓(xùn)練樣本集中每個文本的文本相似度,根據(jù)文本相似度找出K個最相似的訓(xùn)練文本。這最相似的K個文本按其和待分類文本的相似度高低對類別予以加權(quán)平均,從而預(yù)測待分類文本的類別。其中最重要的是參數(shù)K的選擇,K過小,不能充分體現(xiàn)待分類文本的特點;而K過大,會造成噪聲增加而導(dǎo)致分類效果降低。文本向量D屬于類別Ci的權(quán)值W(Ci∣D)由下式計算,權(quán)值越高,認為文本向量D屬于類別Ci的概率越高:W(Ci∣D)=其中,S(D,Dj)是向量之間的余弦相似度;D1~Dk是訓(xùn)練集中與D余弦相似度最大的K個文本向量;而P(Ci∣Dj)當Dj屬于類別Ci時為1,否則為0。通過上面的分析可知,KNN的實質(zhì)就是以特征屬性權(quán)值作為特征空間的坐標系測度,先計算測試集與訓(xùn)練集之間在該坐標系中的余弦距離,然后根據(jù)測試集與訓(xùn)練集的距離遠近來確定類別。顯然,它沒有考慮特征屬性關(guān)聯(lián)及共現(xiàn)等因素對文本相似度的影響,如果加以恰當?shù)乜紤],KNN的效果會更好。KNN[16]是一種懶散的方法,即它沒有學(xué)習(xí)過程,只是存放所有的訓(xùn)練例,直到接到未知文本的時候刁建立分類。KNN的訓(xùn)練過程較快,而且可以隨時添加或更新訓(xùn)練例來調(diào)整。但因為需要很大的空間來保存訓(xùn)練例,因此其分類的開銷會很大。2.2.3決策樹(DecisionTree)分類決策樹是一種常用數(shù)據(jù)分類技術(shù),同樣適用于文本分類。決策樹的核心算法是一種貪心算法,它以自頂向下的方式在訓(xùn)練集的基礎(chǔ)上構(gòu)造決策樹,之后取未知文本的屬性在決策樹上測試,路徑由根結(jié)點到葉結(jié)點,從而得到該文本的所屬類別。決策樹的建立算法有多種,其中包括:基于信息增益的啟發(fā)式算法ID3;基于信息增益率的解決連續(xù)屬性分類的算法C4.5;基于Gini數(shù)的算法CART;針對大樣本集的可伸縮算法SLIQ;可并行化算法SPRINT;將建樹和剪枝集成到一起的算法PBULIC。他們的區(qū)別在于構(gòu)造決策樹與樹枝剪除的算法細節(jié)不同。決策樹可以很好的抵抗噪聲。最大的缺點在于不適應(yīng)大規(guī)模的數(shù)據(jù)集,此種情況下決策樹的構(gòu)造會變得效率低下。2.2.4基于投票的方法在研究多分類器組合時提出了投票算法,其核心思想是:n個專家判斷的有效組合應(yīng)該優(yōu)于某個專家個人的判斷。投票算法主要有兩種:Bagging算法和Boosting算法。Bagging算法。訓(xùn)練R個分類器=f.i,i=1,2,…,R分類器之間只是參數(shù)不同。其中fi是通過從訓(xùn)練集(N篇文檔)中隨機?。ㄈ『蠓呕兀㎞次文檔構(gòu)成的訓(xùn)練集合訓(xùn)練得到的。對于新文檔D,用這R個分類器去分類,得到的最多的那個類別作為D的最終類別。Boosting算法。類似Bagging算法,但分類器的組合方式是級聯(lián)的,前一級分類器為后一級分類器提供分類信息,指導(dǎo)下一級分類器的訓(xùn)練和分類過程。下面介紹一種Boosting算法AdaBoosting。R次循環(huán),每次循環(huán)訓(xùn)練K個分類器。設(shè)第r次循環(huán)中類標簽為Ck的樣本Di權(quán)重為P.ikr,所有權(quán)重的初始值都是相等的。每一次循環(huán),AdaBoost算法估計K個分類器fr(D,k),k=1,2,…,K,并對分類錯誤的樣本加大權(quán)重。fr(D,k)反映訓(xùn)練樣本Di的類標簽是否是Ck,而它的大小被認為是衡量預(yù)測的信度。用以下公式來更新權(quán)重:pik(r+1)=pikrexp(-yikfr(Di,k))如果Ck是樣本Di的可能類標簽中的一個,那么yik=1,否則yik=-1,。將權(quán)重重整,使得pik(r+1)=1。這個過程循環(huán)R次之后,得到R*K個fr(D,K)。然后用這所有的分類器對樣本集D進行分類,D的最終分類器f˙(D,K)為:f˙(D,k)=2.2.5支持向量機(SVM)方法[17]支持向量機(SVM)是一種建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的機器學(xué)習(xí)方法。通過學(xué)習(xí),SVM可以自動尋找那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類之間的間隔,因而有較好的推廣性能和較高的分類精確率。SVM已被用于文本分類、孤立的手寫體識別、語音識別、人臉識別、三維物體識別、遙感圖像分析等。2.3分類性能評價文本分類效果可以從準確率、查全率、遺漏率、正確率、錯誤率五個方面評估。假設(shè):a表示判為C類且確實屬于C類的文本數(shù)目;b表示判為C類且但實際不屬于C類的文本數(shù)目;c表示判為非C類且確實不屬于C類的文本數(shù)目;d表示判為非C類且但實際上卻屬于C類的文本數(shù)目;a+d表示實際屬于C類的文本數(shù)目:b+c表示實際不屬于C類的文本數(shù)目;可以定義:準確率=a/(a+b)查全率=a/(a+d)遺漏率=b/(b+c)正確率=(a+c)/n,n=a+b+c+d錯誤率=(b+d)/n,n=a+b+c+d因為文本分類從根本上說是一個映射過程,所以評估文本分類系統(tǒng)的標志是映射的準確程度和映射的速度。所以,文本分類系統(tǒng)的最重要的兩個指標是:準確率(precise)和查全率(recall)。準確率和查全率反映了分類質(zhì)量的兩個不同方面,兩者必須綜合考慮,不可偏廢,因此,存在一種新的評估指標,F(xiàn)1測試值,其數(shù)學(xué)公式如下:F1測試值=另外有微平均和宏平均兩種計算準確率、查全率和F1測試值的方法。微平均:計算每一類的準確率、查全率和F1測試值。宏平均:計算全部類的準確率、查全率和F1測試值第三章基于支持向量機的中文文本分類統(tǒng)計學(xué)習(xí)理論機器學(xué)習(xí)的目的是根據(jù)給定的訓(xùn)練樣本求對某系統(tǒng)輸入輸出之間依賴關(guān)系的估計,使它能夠?qū)ξ粗敵鲎鞒霰M可能準確的預(yù)測??梢砸话愕乇硎緸?變量Y與x之間存在一定的未知依賴關(guān)系,即遵循某一未知的聯(lián)合概率F(x,y),則機器學(xué)習(xí)問題就是根據(jù)n個獨立同分布的觀測樣本(x1,y1),(x2,y2),…,(xn,yn)在一組函數(shù){f(x,w)}中求一個最優(yōu)的函數(shù)f(x,w0)對依賴關(guān)系進行估計,使期望風(fēng)險:R(w)=∫L(y,f(x,w))dF(x,y)(3-1)最小。其中,{f(x,w)}稱作預(yù)測函數(shù)集,w為函數(shù)的廣義參數(shù),L(y,f(x,w))為由于用f(x,w)對y進行預(yù)測而造成的損失。預(yù)測函數(shù)也稱作學(xué)習(xí)函數(shù)、學(xué)習(xí)模型或?qū)W習(xí)機器。由于期望風(fēng)險是預(yù)測函數(shù)在整個樣本空間上的出錯率的數(shù)學(xué)期望,因此要使式(3-1)最小化必須依賴于聯(lián)合概率F(x,y)的信息。但是,在實際的機器學(xué)習(xí)問題中這一要求太強,樣本集的分布函數(shù)往往難以預(yù)知,這使得期望風(fēng)險無法直接計算和最小化。因此傳統(tǒng)的學(xué)習(xí)方法采用了所謂經(jīng)驗風(fēng)險最小化(EmpiricalRiskMinimization,簡稱ERM)準則,即定義經(jīng)驗風(fēng)險:Remp(w)=L(yif(xi,w))(3-2)來作為對期望風(fēng)險的估計,并設(shè)計學(xué)習(xí)算法使它最小化。ERM準則是目前絕大多數(shù)模式識別方法的基礎(chǔ),其定義為訓(xùn)練集上的平均出錯率,用于對整個樣本集的期望風(fēng)險進行估計。它建立在樣本數(shù)目足夠多的前提下,所提出的各種方法只有在樣本數(shù)趨向無窮大時,其性能才有理論上的保證。而在現(xiàn)實世界的應(yīng)用中,這一前提并不總能被滿足,這時大多數(shù)此類方法都難以取得理想的效果[18]Vapnik的研究指出,使用經(jīng)驗風(fēng)險最小化方法得到的學(xué)習(xí)結(jié)果,其風(fēng)險與期望風(fēng)險之間至少以概率1-η滿足如下關(guān)系[19]:R(w)≤Remp(w)+,(3-3)其中h是函數(shù)集的VC維(VC維是Vapnik-Chervonenkis維的縮寫),n是樣本數(shù)。VC維概念是統(tǒng)計學(xué)習(xí)理論的一個核心概念,它是描述函數(shù)集的復(fù)雜性或?qū)W習(xí)能力的一個重要指標。這一結(jié)論從理論上說明了學(xué)習(xí)機器的實際風(fēng)險是由兩部分組成的:一是經(jīng)驗風(fēng)險(即訓(xùn)練誤差),另一部分稱作置信范圍,它和學(xué)習(xí)機器的VC維及訓(xùn)練樣本數(shù)有關(guān)。式(3-3)可以簡單地表示為:R(w)≤Remp(w)+Φ(h/n),(3-4)它表明,如果對于一個給定數(shù)目的訓(xùn)練集,我們設(shè)計了一個過于復(fù)雜的學(xué)習(xí)機,則置信范圍Φ(h/n)將會很大。這時,即使我們可以把經(jīng)驗風(fēng)險最小化為零,在測試集上的錯誤數(shù)目仍可能很大。這就是為什么會出現(xiàn)“過學(xué)習(xí)”現(xiàn)象的原因。機器學(xué)習(xí)過程不但要使經(jīng)驗風(fēng)險最小,還要使VC維盡可能小以縮小置信范圍,才能取得較小的實際風(fēng)險,即對未來樣本有較好的推廣性。從上面的結(jié)論可以看到,ERM原則在樣本有限時是不合理的,我們需要同時最小化經(jīng)驗風(fēng)險和置信范圍。其實,在傳統(tǒng)方法中,選擇學(xué)習(xí)模型和算法的過程就是調(diào)整置信范圍的過程,如果模型比較適合現(xiàn)有的訓(xùn)練樣本(相當于h/n的值適當),則可以取得比較好的效果。但因為缺乏理論指導(dǎo),這種選擇只能依賴先驗知識和經(jīng)驗,造成了如神經(jīng)網(wǎng)絡(luò)等方法對使用者“技巧”的過分依賴。為此,統(tǒng)計學(xué)習(xí)理論提出了一種新的策略,即把函數(shù)集構(gòu)造為一個函數(shù)子集序列,使各個子集按照VC維的大小(亦即Φ的大小)排列。在每個子集中尋找最小經(jīng)驗風(fēng)險,在子集間折衷考慮經(jīng)驗風(fēng)險和置信范圍,以取得實際風(fēng)險的最小值,這種思想稱作結(jié)構(gòu)風(fēng)險最小化準則(SRM),如圖2-1所示[20]統(tǒng)計學(xué)習(xí)理論還給出了合理的函數(shù)子集結(jié)構(gòu)應(yīng)滿足的條件,以及在SRM準則下實際風(fēng)險收斂的性質(zhì)[21]置信風(fēng)險置信風(fēng)險經(jīng)驗風(fēng)險真實風(fēng)險的界S3S2S2S1風(fēng)險h欠學(xué)習(xí)過學(xué)習(xí)函數(shù)集子集:S1S2S3VC維:h1≤h2≤h3圖3-1結(jié)構(gòu)風(fēng)險最小化示意圖 實現(xiàn)SRM原則可以有兩種思路,一是在每個子集中求最小經(jīng)驗風(fēng)險,然后選擇使最小經(jīng)驗風(fēng)險和置信范圍之和最小的子集。顯然這種方法比較費時,當子集數(shù)目很大甚至是無窮時不可行。因此有第二種思路,即設(shè)計函數(shù)集的某種結(jié)構(gòu)使每個子集中都能取得最小的經(jīng)驗風(fēng)險(如使訓(xùn)練誤差為0),然后只需選擇適當?shù)淖蛹怪眯欧秶钚?,則這個子集中使經(jīng)驗風(fēng)險最小的函數(shù)就是最優(yōu)函數(shù)。支持向量機方法實際上就是這種思想的具體體現(xiàn)。3.2支持向量機原理margin圖3-2特征空間中的最優(yōu)分割平面如圖3-2,考慮一個用某特征空間的超平面對給定訓(xùn)練數(shù)據(jù)集做二值分類的問題。對于給定樣本點: (1)其中向量可能是從對象樣本集抽取某些特征直接構(gòu)造的向量,也可能是原始向量通過某個核函數(shù)映射到核空間中的映射向量。在特征空間中構(gòu)造分割平面: (2)使得: (3)可以計算出,訓(xùn)練數(shù)據(jù)集到一給定的分割平面的最小距離為: (4)根據(jù)SVM對優(yōu)化分割平面的定義,可以看出對該平面的求解問題可以簡化為:在滿足條件式(3)的情況下,計算能最大化的分割平面的法向量和偏移量。Vapnik等人證明:分割超平面的法向量是所有訓(xùn)練集向量的線性組合。即可以描述為: (5)定義判別函數(shù) (6)則測試集的分類函數(shù)可以描述為: (7)由(3)式可知,在線性可分的情形下,對所有的訓(xùn)練樣本都應(yīng)該滿足,在下文中,我們把滿足的區(qū)域稱為分割超平面所對應(yīng)的邊界區(qū)域。在多數(shù)情況下(5)式的展開式中,系數(shù)為零值,而非零值的對應(yīng)的就稱為支持向量SV。這些向量充分描述了整個訓(xùn)練數(shù)據(jù)集數(shù)據(jù)的特征,使得對SV集的線性劃分等價于對整個數(shù)據(jù)集的分割。由(4)式可見,最優(yōu)分割平面的求解等價于在(3)式約束下最大化下面的(8)式 (8)引入拉格朗日乘子,并定義 (9)使用Wolfe對偶定理把上述問題轉(zhuǎn)化為其對偶問題: (10)對于線性不可分的訓(xùn)練集,可以引入松弛變量,把(8)式改寫為下面的求解問題[3]。 (11)類似的可以得到相應(yīng)的對偶問題: (12)形如式(10)、(12)的求解是一個典型的有約束的二次型優(yōu)化問題,已經(jīng)有了很多成熟的求解算法,近年來,V.Vapnik,C.Burges,E.Osuna,T.Joachims,J.Platt等人的一系列工作使得對大規(guī)模訓(xùn)練集的支持向量機算法實現(xiàn)成為可能。3.3支持向量機的特點從統(tǒng)計學(xué)習(xí)理論和支持向量機算法原理不難看出,支持向量機具有以下特點:1)支持向量算法是基于統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原則的,與傳統(tǒng)的算法不同,它不僅優(yōu)化經(jīng)驗風(fēng)險,而且通過最大化分界面來控制模型的復(fù)雜度,從而有效地避免了過學(xué)習(xí)現(xiàn)象,為模型選擇問題提供了很好的思路。2)它是專門針對有限樣本情況的,不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值其目標是得到現(xiàn)有信息下的最優(yōu)解而3)訓(xùn)練算法最終將轉(zhuǎn)化成為一個二次型尋優(yōu)間題,從理論上說,得到的將是全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡(luò)方法中存在的局部極值問題。4)算法將輸入空間中的訓(xùn)練樣本通過非線性變換轉(zhuǎn)換到高維的特征空間中,在高維空間中構(gòu)造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別函數(shù),并能保證機器有較好的泛化能力,同時它巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān)第四章基于支持向量機的中文文本分類器的實現(xiàn)本章根據(jù)上述文本分類器模型實現(xiàn)了一個中文文本自動分類系統(tǒng),下面,本文將以該系統(tǒng)為基礎(chǔ)對在前幾章中所討論的問題進行試驗測試。系統(tǒng)體系結(jié)構(gòu)圖4-1給出了本文研究的文本自動分類系統(tǒng)模型。該分類系統(tǒng)主要由訓(xùn)練模塊和分類模塊組成,分別對應(yīng)文本分類的訓(xùn)練和識別這2個階段。訓(xùn)練模塊是對訓(xùn)練樣本進行預(yù)處理、特征選擇和提取、參數(shù)訓(xùn)練,生成分類知識庫;分類模塊首先對要分類的樣本進行預(yù)處理、特征提取,然后用訓(xùn)練得到的分類知識庫通過分類算法對樣本進行自動分類。訓(xùn)練文本集分詞處理器向量及其權(quán)重計算訓(xùn)練文本集分詞處理器向量及其權(quán)重計算規(guī)范化文本特征向量分類器分詞處理器規(guī)范化文本特征向量向量及其權(quán)重計算測試文本集詞典詞典分類結(jié)果訓(xùn)練模塊分類模塊圖4-1基于支持向量機的文本分類系統(tǒng) 4.1.1文本訓(xùn)練模塊設(shè)計在訓(xùn)練模塊中,首先對訓(xùn)練文本進行分詞處理,然后進入訓(xùn)練分類器的過程,把訓(xùn)練文本集中的文本由連續(xù)的字符流轉(zhuǎn)換成帶有分隔符的原始文本特征集;然后對原始文本特征集計算其特征的權(quán)重,并規(guī)范化類別特征,得到規(guī)范化訓(xùn)練集的向量空間模型。文件"train.mdl"和"train.txt"為訓(xùn)練文檔的向量形式。同樣,前一個為二進制格式,分類時會讀入此文件,后一個為文本格式,只是為類讓用戶看到文檔的向量形式,分類程序不會用到此文件。如:123:0.07429435:0.01863250:0.073530第一列代表文檔所屬類別,注意它的類別編號從1開始,而0代表文檔的類別未知。剩余部分長度不定,格式為XX:YY,XX代表向量的第XX維(維的編碼從1開始),YY代表這一維的權(quán)重(0-1之間)。4.1.2文本分類模塊設(shè)計在分類模塊中,同樣先對測試文本進行分詞處理和特征值提取,將測試文本進行向量表示,將文本特征向量輸入分類器,利用已充分學(xué)習(xí)的支持向量機和類別特征向量,對待分類文本進行分類。通過上面的學(xué)習(xí)過程,我們己經(jīng)得到了支持向量機判別函數(shù)的參數(shù),可以用判別函數(shù)對文本進行分類。分類步驟如下所示:(1)讀取一個待分類文本。(2)對該文本進行分詞,得到特征詞的出現(xiàn)頻率。(3)利用特征詞抽取模塊,過濾停用詞和出現(xiàn)頻率低的詞,得到粗特征。(4)采用公式對特征詞的權(quán)值進行計算。(5)對特征值進行歸一化(6)計算所有類別w的判別函數(shù)(7)如果還有待分類文本,則轉(zhuǎn)步驟1,否則算法結(jié)束。第五章系統(tǒng)的性能測試5.1開發(fā)環(huán)境和數(shù)據(jù)集中文文本自動分類系統(tǒng)的軟硬件開發(fā)和測試環(huán)境。硬件環(huán)境:PC機,Pentium(R)41.8GHz,512M內(nèi)存軟件環(huán)境:操作系統(tǒng):Windows2000開發(fā)環(huán)境:VisualC++6.0系統(tǒng)所采用的數(shù)據(jù)集包括環(huán)境134篇、計算機134篇、交通143篇、教育147篇、經(jīng)濟217篇、軍事166篇、體育301篇、醫(yī)藥136篇、藝術(shù)166篇和政治338篇,共10個類別,1882篇,測試文本,共934篇,具體類別對應(yīng)篇數(shù)見表5-1。5.2測試結(jié)果及分析每一篇測試文本僅對應(yīng)10類中的一個類別。系統(tǒng)采用開放性測試,即用于訓(xùn)練的文本集合和用于分類的文本集合沒有交集。表5-1分類結(jié)果類別C屬于C類的總的測試文檔數(shù)被判為C類的文檔數(shù)屬于C類的測試文檔中被正確分類的文檔數(shù)查全率準確率交通71686895.775%100%計算機66666496.970%96.970%環(huán)境67616089.552%98.361%教育73716994.521%97.183%經(jīng)濟10810710597.222%98.131%軍事83776780.723%87.013%體育149153149100%97.368%醫(yī)藥68676697.059%98.507%藝術(shù)82838198.780%97.590%政治16718116196.407%88.950%統(tǒng)計報告93493489095.289%95.289%圖5-1分類結(jié)果條形圖由表5-1和圖5-1可以看出,此分類器對體育類文本分類效果最好,分類準確率和查全率分別高達100%和97.368%;對于軍事類文本分類效果最差,其準確率為80。732%,查全率為87.013%;經(jīng)濟和藝術(shù)分類準確率和查全率也比較高,均達到97.000%。這說明,體育、經(jīng)濟和藝術(shù)訓(xùn)練文本選擇比較合理。由于時間和開發(fā)人員限制,本系統(tǒng)目前僅對于體育、經(jīng)濟和藝術(shù)方面的文本具有較好的分類效果。此系統(tǒng)不足之處是不能處理兼類,即一個文本屬于多個類別的情況。一個解決的方法是借鑒詞頻統(tǒng)計的方法,不直接采用“屬于”或者“不屬于”這兩個判斷的尺度,而采用文本屬于某個類別的概率。這樣“屬于”和“不屬于”分別是概率為100%和0%的特殊情況第六章總結(jié)與展望6.1全文總結(jié)本文講述了采用文本挖掘技術(shù)來對有訓(xùn)練樣本的中文文本進行分類的系統(tǒng),設(shè)計和實現(xiàn)了基于支持向量機的中文文本挖掘系統(tǒng)。中文文本分類技術(shù)作為文本數(shù)據(jù)整理和數(shù)據(jù)組織的重要手段,主要研究如何自動根據(jù)文本特征,把待分類的文本歸于預(yù)定義類別,是語料庫建設(shè)、信息檢索和信息過濾等技術(shù)研究的基礎(chǔ),在互聯(lián)網(wǎng)、電子出版業(yè)、電子圖書館、電子郵分檢,網(wǎng)絡(luò)安全等方面都有十分廣泛的應(yīng)用。本文介紹了文本自動分類的究意義、定義和技術(shù)發(fā)展,討論了中文文本自動分類的技術(shù)基礎(chǔ)和關(guān)鍵技術(shù),在理論上研究了文本分類為什么采用支持向量機方法,并詳細地介紹基于支持向量機的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)。基于支持向量機的中文文本分類系統(tǒng)是筆者負責(zé)設(shè)計和開發(fā)的中文文本試驗系統(tǒng),該系統(tǒng)設(shè)計目標是為了探索和研究實現(xiàn)文本自動分類的新技術(shù),并要求改善系統(tǒng)分類的性能:提高查全率和查準率。本文主要的研究內(nèi)容如下:論文第一章介紹了文本分類的背景和研究意義。論文第二章介紹了文本分類的幾種主要技術(shù)。論文第三章介紹了文本分類技術(shù)中的一個重要方法:支持向量機(SVM),包括其背景和原理。論文第四章介紹了文本分類系統(tǒng)的具體實現(xiàn)方案。論文第五章以試驗的形式證明了本系統(tǒng)的分類查準率和查全率都較高。6.2進一步工作及展望上一章的試驗結(jié)果充分表明,基于支持向量機的中文文本自動分類系統(tǒng)具有相當?shù)陌l(fā)展前景,但算法目前還存在一些不足,離實用化和商業(yè)化還具有一定的距離,下一步工作可以在嘗試多種文本分類算法和分類類別上進行,進一步提高中文文本分類的準確度和速度,研究通用化商品化的中文文本分類器,為中文信息管理提供策略支持。附錄(附圖)附表置信風(fēng)險置信風(fēng)險經(jīng)驗風(fēng)險真實風(fēng)險的界S3S2S2S1風(fēng)險h欠學(xué)習(xí)過學(xué)習(xí)函數(shù)集子集:S1S2S3VC維:h1≤h2≤h3圖3-1結(jié)構(gòu)風(fēng)險最小化示意圖margin圖3-2特征空間中的最優(yōu)分割平面訓(xùn)練文本集訓(xùn)練文本集分詞處理器向量及其權(quán)重計算規(guī)范化文本特征向量分類器分詞處理器規(guī)范化文本特征向量向量及其權(quán)重計算測試文本集詞典詞典分類結(jié)果訓(xùn)練模塊分類模塊圖4-1基于支持向量機的文本分類系統(tǒng)表5-1分類結(jié)果類別C屬于C類的總的測試文檔數(shù)被判為C類的文檔數(shù)屬于C類的測試文檔中被正確分類的文檔數(shù)查全率準確率交通71686895.775%100%計算機66666496.970%96.970%環(huán)境67616089.552%98.361%教育73716994.521%97.183%經(jīng)濟10810710597.222%98.131%軍事83776780.723%87.013%體育149153149100%97.368%醫(yī)藥68676697.059%98.507%藝術(shù)82838198.780%97.590%政治16718116196.407%88.950%統(tǒng)計報告93493489095.289%95.289%圖5-1分類結(jié)果條形圖參考文獻黃解軍,潘和平等《數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究》計算機工程與應(yīng)用2003No.2M.A.Hearst.Untanglingtextdatamining.InProceedingsofACL'99.the37thAnnualMeetingoftheAssociationforComputationalLinguistics,1999.關(guān)毅.《基于統(tǒng)計的漢語語言模型研究》.博士學(xué)位論文,哈爾濱工業(yè)大學(xué).1999YimingYang.Anevaluationofstatisticalapproachestotextcategorization.JournalofInformationRetrieval,Vol1,No.112.1999:67885.MitchellT.MachineLearning.McGrawHill.1996S.CostandS.Saizberg.AWeightedNearestNeighborAlgorithmforLearningwithSymbolicFeatures.MachineLearning.1993:5778QuinlanJ.R.IntroductionofDecisionTree.MachineLeaming.1986:30-32YangExpertnetwork.effectiveandefficientlearningfromhumandecisionsintextcategorizationandretrieval.InProceedingsofheFourthAnnualSymposiumondocumentAnalysisandInformationRetrival(SIGIR'94),1994:13-22邵棟,周志華,陳兆乾.《模糊神經(jīng)網(wǎng)絡(luò)研究》.計算機應(yīng)用研究,1999,16BreimanL.Bias.Variance,andArcingClassifiers.DepartmentofStatistics,UniversityofCaliforniaatBerkeley.1996高潔,吉根林.《文本分類技術(shù)研究》計算機應(yīng)用研究,2004,3秦進,陳笑蓉等《文本分類中的特征抽取》計算機應(yīng)用2003No.2AndrewMcCallumandKamalNigam:《Acomparisonofeventmodelsfornaivebayestextcategorization》,AAAI-98Workshopon"LearningforTextCategorization",1998李靜梅,孫麗華,張巧榮,張春生《一種文本處理中的樸素貝葉斯分類器哈爾濱工程大學(xué)學(xué)報》2002.3李楊,曾海泉,劉慶華,胡運發(fā)《基于knn的快速web文檔分類》小型微型計算機系統(tǒng)2004,416.邊肇祺等_模式識別清華大學(xué)出版社.1998FilipMulier.《Vapnik-Chervonenkis(VC)LearningTheoryandItsApplications》.IEEETrans.onNeuralNetworks.1999,5.蕭嶸.《基于支持向量機的模式識別技術(shù)中若干問題的研究》.[學(xué)位論文],南京大學(xué),2002。C.J.C.Burges.《Atutorialonsupportvectormachinesforpaternrecognition》.DataMiningandKnowledgeDiscovery,1998,2。20.V.Vapnik著,張學(xué)工譯。統(tǒng)計學(xué)習(xí)理論的本質(zhì)。北京:清華大學(xué)出版社,1999致謝本文是在我的導(dǎo)師劉麗珍老師的悉心指導(dǎo)下完成的,導(dǎo)師提出了深思熟慮的建議,提高了本文的整體質(zhì)量。導(dǎo)師在學(xué)習(xí)、工作和生活上給予了作者許多關(guān)心和幫助,使本文得以順利完成,至此謹向我的導(dǎo)師表示深深的敬意和由衷的感謝!在課題研究期間,得到同學(xué)呂燕、徐穎的大力支持和幫助,使我在理論知識、工作能力等方面得到很大的提高,在此向他們表示由衷的感謝。最后,非常重要的是,我要感謝我的父母,在我的成長過程中,他們給了我無私的愛和永遠的支持與鼓勵,在此向他們表示衷心的感謝!基于C8051F單片機直流電動機反饋控制系統(tǒng)的設(shè)計與研究基于單片機的嵌入式Web服務(wù)器的研究MOTOROLA單片機MC68HC(8)05PV8/A內(nèi)嵌EEPROM的工藝和制程方法及對良率的影響研究基于模糊控制的電阻釬焊單片機溫度控制系統(tǒng)的研制基于MCS-51系列單片機的通用控制模塊的研究基于單片機實現(xiàn)的供暖系統(tǒng)最佳啟停自校正(STR)調(diào)節(jié)器單片機控制的二級倒立擺系統(tǒng)的研究基于增強型51系列單片機的TCP/IP協(xié)議棧的實現(xiàn)基于單片機的蓄電池自動監(jiān)測系統(tǒng)基于32位嵌入式單片機系統(tǒng)的圖像采集與處理技術(shù)的研究基于單片機的作物營養(yǎng)診斷專家系統(tǒng)的研究基于單片機的交流伺服電機運動控制系統(tǒng)研究與開發(fā)基于單片機的泵管內(nèi)壁硬度測試儀的研制基于單片機的自動找平控制系統(tǒng)研究基于C8051F040單片機的嵌入式系統(tǒng)開發(fā)基于單片機的液壓動力系統(tǒng)狀態(tài)監(jiān)測儀開發(fā)模糊Smith智能控制方法的研究及其單片機實現(xiàn)一種基于單片機的軸快流CO〈,2〉激光器的手持控制面板的研制基于雙單片機沖床數(shù)控系統(tǒng)的研究基于CYGNAL單片機的在線間歇式濁度儀的研制基于單片機的噴油泵試驗臺控制器的研制基于單片機的軟起動器的研究和設(shè)計基于單片機控制的高速快走絲電火花線切割機床短循環(huán)走絲方式研究基于單片機的機電產(chǎn)品控制系統(tǒng)開發(fā)基于PIC單片機的智能手機充電器基于單片機的實時內(nèi)核設(shè)計及其應(yīng)用研究基于單片機的遠程抄表系統(tǒng)的設(shè)計與研究基于單片機的煙氣二氧化硫濃度檢測儀的研制基于微型光譜儀的單片機系統(tǒng)單片機系統(tǒng)軟件構(gòu)件開發(fā)的技術(shù)研究基于單片機的液體點滴速度自動檢測儀的研制基于單片機系統(tǒng)的多功能溫度測量儀的研制基于PIC單片機的電能采集終端的設(shè)計和應(yīng)用基于單片機的光纖光柵解調(diào)儀的研制氣壓式線性摩擦焊機單片機控制系統(tǒng)的研制基于單片機的數(shù)字磁通門傳感器基于單片機的旋轉(zhuǎn)變壓器-數(shù)字轉(zhuǎn)換器的研究基于單片機的光纖Bragg光柵解調(diào)系統(tǒng)的研究單片機控制的便攜式多功能乳腺治療儀的研制基于C8051F020單片機的多生理信號檢測儀基于單片機的電機運動控制系統(tǒng)設(shè)計Pico專用單片機核的可測性設(shè)計研究基于MCS-51單片機的熱量計基于雙單片機的智能遙測微型氣象站MCS-51單片機構(gòu)建機器人的實踐研究基于單片機的輪軌力檢測基于單片機的GPS定位儀的研究與實現(xiàn)基于單片機的電液伺服控制系統(tǒng)用于單片機系統(tǒng)的MMC卡文件系統(tǒng)研制基于單片機的時控和計數(shù)系統(tǒng)性能優(yōu)化的研究基于單片機和CPLD的粗光柵位移測量系統(tǒng)研究單片機控制的后備式方波UPS提升高職學(xué)生單片機應(yīng)用能力的探究基于單片機控制的自動低頻減載裝置研究基于單片機控制的水下焊接電源的研究基于單片機的多通道數(shù)據(jù)采集系統(tǒng)基于uPSD3234單片機的氚表面污染測量儀的研制基于單片機的紅外測油儀的研究96系列單片機仿真器研究與設(shè)計基于單片機的單晶金剛石刀具刃磨設(shè)備的數(shù)控改造基于單片機的溫度智能控制系統(tǒng)的設(shè)計與實現(xiàn)基于MSP430單片機的電梯門機控制器的研制基于單片機的氣體測漏儀的研究基于三菱M16C/6N系列單片機的CAN/USB協(xié)議轉(zhuǎn)換器基于單片機和DSP的變壓器油色譜在線監(jiān)測技術(shù)研究基于單片機的膛壁溫度報警系統(tǒng)設(shè)計基于AVR單片機的低壓無功補償控制器的設(shè)計基于單片機船舶電力推進電機監(jiān)測系統(tǒng)基于單片機網(wǎng)絡(luò)的振動信號的采集系統(tǒng)基于單片機的大容量數(shù)據(jù)存儲技術(shù)的應(yīng)用研究基于單片機的疊圖機研究與教學(xué)方法實踐基于單片機嵌入式Web服務(wù)器技術(shù)的研究及實現(xiàn)基于AT89S52單片機的通用數(shù)據(jù)采集系統(tǒng)基于單片機的多道脈沖幅度分析儀研究機器人旋轉(zhuǎn)電弧傳感角焊縫跟蹤單片機控制系統(tǒng)\t"_bl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人貸款合同資產(chǎn)保全與處置規(guī)定4篇
- 2025年度代理開票業(yè)務(wù)風(fēng)險管理合作協(xié)議4篇
- 二零二四年度豬肉產(chǎn)品溯源體系建設(shè)合同3篇
- 二零二五年度房地產(chǎn)投資融資顧問服務(wù)協(xié)議
- 2025年中國光電式感煙探測器市場調(diào)查研究報告
- 尿急神經(jīng)損傷康復(fù)效果分析-深度研究
- 城市更新中的文化空間策略-深度研究
- 2025至2031年中國有機玻璃膠行業(yè)投資前景及策略咨詢研究報告
- 人工智能與統(tǒng)計-深度研究
- 2025年度油氣田廢棄井修復(fù)打井合同范本4篇
- 2019版新人教版高中英語必修+選擇性必修共7冊詞匯表匯總(帶音標)
- 新譯林版高中英語必修二全冊短語匯總
- 基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)模糊推理系統(tǒng)的游客規(guī)模預(yù)測研究
- 河道保潔服務(wù)投標方案(完整技術(shù)標)
- 品管圈(QCC)案例-縮短接臺手術(shù)送手術(shù)時間
- 精神科病程記錄
- 閱讀理解特訓(xùn)卷-英語四年級上冊譯林版三起含答案
- 清華大學(xué)考博英語歷年真題詳解
- 人教版三年級上冊口算題(全冊完整20份 )
- 屋面及防水工程施工(第二版)PPT完整全套教學(xué)課件
- 2023年高一物理期末考試卷(人教版)
評論
0/150
提交評論