設(shè)計分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第1頁
設(shè)計分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第2頁
設(shè)計分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第3頁
設(shè)計分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第4頁
設(shè)計分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(個學(xué)科,是自然語言處理的一個重要應(yīng)用領(lǐng)域。目前,越來越多的統(tǒng)計分類方SVMSVM(QuadrupleProgramming,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線性約束的最越性。SVMSVM訓(xùn)SVM的訓(xùn)練速度ChunkingOsunaSMO法和交互SVM等。SVM分類器的優(yōu)點在于通用性較好,且分類精度高、分類速度快、分類速度與訓(xùn)練樣本個數(shù)無關(guān),查準和查全率方面都略優(yōu)于kNN及樸素貝葉如下圖:橫軸上端點ab決策如何選擇特征作為測試節(jié)點。通常做法是計算各個特征的信息增益或者嫡的值,然后根據(jù)這些值的大小順次選這樣的方法建立的決策樹一般都存在對訓(xùn)練數(shù)據(jù)過度(overfittnig)的問題,所以大多數(shù)的決策樹學(xué)習(xí)算法都包含有一個剪枝過程所謂過度擬合(overfitting)問題,是指經(jīng)過過分訓(xùn)的能最佳往往只是針對訓(xùn)練集而言,應(yīng)用到非訓(xùn)練集對象時,分類器性能可能會下降。即訓(xùn)練得到的分類器推廣性能不強對決策樹剪枝有兩種方法:前剪枝(prepruning)和后剪(postPrunnig決策樹完全構(gòu)造好后進西南交通大學(xué)第9然而由于文本分類的性比如一個文本是否屬于某一類別帶有很大的主觀性,兩個不同的專家可能將其歸類到不同的類別中),在本質(zhì)上不能給出一個形式化的表達,所以要分析性地對分類器進行評價(比如證明這個分類器是正確的)目前難度較通常對一個文本分類器進行評價主要是針對它的效果(E伍戈itveness)性能(Pedbnr田`e),即這個分類器在多大程度上能夠的不是它的效率(Efficiency有兩種方法:訓(xùn)練測試法和k折交叉驗證法(卜ofdl。orssvali山魷ion)[,4],這兩種方文本分類器的評價標(biāo)準在文本分類中,對分類器性能的評價標(biāo)準,的是經(jīng)驗性的,不分析性的P0l。這是因為要分析性地評價一個系統(tǒng),比如證明一性和完備性,必須能夠?qū)@個系統(tǒng)所要解決的問題給出一個形式化的表述,訓(xùn)練集和測試現(xiàn)在的文本自動分類,大多采用的是機器學(xué)習(xí)的方法,機器學(xué)習(xí)的方分好類的文本。文本分類,即提出一個把新文本歸類到文本所屬類別的任務(wù)。為了衡量文本分類的效果,我們經(jīng)常把語料庫分成兩個不相交的集合,這兩個集合不一定相等:訓(xùn)練集,這個集合的目的是用于歸納出各個類別的特性以構(gòu)建分類器。測試集,這個集合用于測試分類器的分類效果。測試集的每個文本都通過分類器分類,然后與正確決策的分類結(jié)果相對比,分類器的效果就是比較通過分類器獲得的類別與正確決策的類別的相符的情向量空間模型的最大優(yōu)點在于它在知識表示方法上的巨大優(yōu)勢。在該模型中,文本內(nèi)容被形式化為空間中的一個點,通過向量的形式給出,把對文本內(nèi)容的處理簡化為向量空間中向量的運算,使問題的復(fù)雜性大為降低。而權(quán)重的計算既可以用規(guī)則的方法手工完成,又可以通過統(tǒng)計的方法自動完成,便于融合統(tǒng)計和規(guī)則兩種方法的優(yōu)點,也正是因為把文本以向量的形式定義到實數(shù)領(lǐng)域中,才使得模式識別和其他領(lǐng)域中的各種成計算方法得以應(yīng)用,極大提高了自然語言文本的可計算性和可操作性。所以說,文本的形式化表示方法一一向量空間模型是基于文本處理的各種應(yīng)用得以實現(xiàn)的基礎(chǔ)和前其中:At與文檔c同時出現(xiàn)的次數(shù);Bt出現(xiàn)c類文檔出現(xiàn)的次數(shù);Cc文檔出現(xiàn)而t不出現(xiàn)的次數(shù);N為文檔總數(shù)。如果t與c相互之間獨立,那么Ml(t,c)為零互信息的缺點是受臨界特征的概率影響較大,從中可以看出當(dāng)征的P(tIc差太大的文本特征互信息值不具有可比性它與期望交叉嫡的本質(zhì)不同在于它沒有考慮單詞發(fā)生的頻度,這是互信息一個很大的缺點,因為它造成了互信息評估函數(shù)經(jīng)常傾向于選擇稀有單詞。在一些特征詞選擇算法的研究中發(fā)現(xiàn)網(wǎng),如果用互信息進行特征選擇,它的精度極低(只有約3既),其原因是它刪掉了很多高頻的有用xZ估計它也用于表征兩個變量的相關(guān)性。對特征進行打分時,認為特tc文檔之間非獨立關(guān)系,類似于具有一維自由度的z的是特征t與c類之間的依賴關(guān)系。特征t與c類文檔之間的了統(tǒng)計(t,c)計算如下2(t,c)二Nx(AxDCxB)2(3B、CN的含義與前面相互信息M()I所介紹的相應(yīng)參量為特征tc類文檔均不出現(xiàn)的次tC之間相互立,那么文本特征t的22估計值為o。I’估計與互信息的主要區(qū)別是xZ標(biāo)準值,因此同類中的特征的z“是可比的優(yōu)勢率西南交通大學(xué)第信息增益的不足之處在于它考慮了單詞未發(fā)生的情況,即在式的。工:_、,P(t,,c,`,、`:二二.,,,山二,,,:`11P(kt,c,)ofg有貢獻,但實驗證明網(wǎng),這種貢獻往往遠小于考慮單詞不出現(xiàn)情況所帶來的干擾。特別是在類分布和特征分布高度不平衡的情況下,絕大多數(shù)類都是負要是信息增 中后一部分(代表單詞不出現(xiàn)情況)大,而非前一部(代表單現(xiàn)情況)大,信息增益的效果就會大大降低了期望交叉摘(cossentCroEnsstrTx`(`)==p(`p(Cjl`)109P(cj})tp(Cz)(3與信息增益相似35[],期望交叉嫡也是一種基于概率的方法。所信息增益要求計算所有特征屬性的值,而期望交叉嫡則只計算出現(xiàn)在文檔中的單詞。其中P(qI)t表示文本中出現(xiàn)t文本Cj的概是類別出現(xiàn)的概率。如果詞和類別強相關(guān),也就是P(q})t大,且出現(xiàn)概率又小的訊則說明詞對分類的影響大,相應(yīng)的函數(shù)值就大,就很可現(xiàn)了某個特定詞的條件下文本類別的概率分布之間的距離,屬性詞t的交叉文本類別分布的影響嫡與信息增益唯一的之處在交叉嫡法的精度始終優(yōu)于信息增益法口刀互信息仍在統(tǒng)計學(xué)中,它用于表征兩個變量的相關(guān)性,常被用來作為文本特征相關(guān)的統(tǒng)計模型及其相關(guān)應(yīng)用恤與c類文檔之間的相互c)的定義如下P(t,c)(3常用特征選擇算法及文檔頻率價它是最簡單的評估函數(shù),其值為出現(xiàn)某特征的文檔數(shù)與文檔總數(shù)之比。特征的DF計算為(出現(xiàn)特征t的文檔數(shù)/文檔總數(shù)):DF較小被忽略DF評估函數(shù)的理論假設(shè)是稀有單詞要么不含有用信息,要么太而量上比其它評估函數(shù)小得多,但在實際運用中它的效果卻出奇地好。DF也因為稀有單詞可能在某一類文本中并不稀有,而且包含著重要的判斷信息。我們在實際運用中一般并不直接使用DF,而常把它作為評判其它的標(biāo)準信息增益任信息論角度出發(fā),根據(jù)各特征取值情況來劃分學(xué)習(xí)樣本空間時,所獲信息增益的多寡,來選擇相應(yīng)的特征。對于特征t文檔類別。,GI現(xiàn)的文檔頻數(shù)來衡量對于c信息增益。特征t對于文檔類別的信增益IG(切)計算如下:其中:C一類文檔集合;t示特征t不出現(xiàn)。西南交通大學(xué)第2頁、sRati。t,Pos)=109(孕粵單理少嘩l尹妙I(lǐng)Pos)t!月給)(3)其中:pos表示目標(biāo)類,neg表示非目標(biāo)類。優(yōu)勢率不是象前評估函數(shù)那樣將所有類同等對待,而是只關(guān)心目標(biāo)類值。這使得優(yōu)勢率特別適而不關(guān)心識別出負類,而實際的訓(xùn)練集中負類往往占9任湯以上的這時優(yōu)勢率對于其它信息測度來說有額外的優(yōu)訓(xùn)練過程描述如下S卻1:輸入訓(xùn)練文本(此時所有訓(xùn)練文本不區(qū)分類別),獲得文本詞,計算詞頻矩陣(包括詞頻和文檔高頻低頻詞,去.停用詞列表中的詞,用卯血rstenirner算法將詞取詞干(去除前S均P2:根據(jù)詞頻矩陣計算所得的權(quán)重矩陣計算預(yù)處理文本的相度,根據(jù)(3一7),(3一8)計算上一步得到的所有詞分值,根據(jù)分辨值將符合標(biāo)準的保存SetP3:再次輸入訓(xùn)練文本(此時按類別輸入),對上一步得到的鍵詞,類別計算詞頻,根據(jù)貝葉斯算法(2一5)計算屬于類概率.將分類器特征項屬性表(及其屬于各類的概率)輸保存2.分類分類過程描述stepl:輸入新文本,進行文本預(yù)處理sPetZ:根據(jù)訓(xùn)練過程得到的特征項屬性表獲得文本中含有的關(guān)鍵詞并計算其在新文本中的詞s娜3:根據(jù)屬于各類概率用(2一5)計算文本所屬類出類別s峋時:比較文本的分類類別和實際類別,計算分類精度s5:使用評價函數(shù)對分類精度進行評價,反饋給系統(tǒng)。分類過程如圖.43示。西南交通大學(xué)第24項對文檔內(nèi)容的貢獻,經(jīng)過多次統(tǒng)計學(xué)習(xí)完成。我們(217)的征項權(quán)值評價函數(shù)來 理謐=擴*甲109(一+u.ul)月其中,嘰表示項kt在文本壓中的文本內(nèi)頻數(shù),其值即詞頻矩陣中d`,N示全部訓(xùn)練集的文本數(shù),”`表示訓(xùn)練文本中出現(xiàn)項kt示項kt在文本Di矩陣后我們利用相似度計算(2一15)月藝(嘰寶,2、W.)飛f_L名山rr夕一名山r,二計算出每對文檔之間的相似度,獲得相似度矩陣。sij是文檔與文Dj之間的相似度,如圖.46相似度矩陣所示根據(jù)文獻[32定義,在文本分類中,某一類文檔的密度,可用該文的每對文檔間的相似性總和(3一7)來表示。麗治下客客mSiD(,,眾,k價其中,sim(Di,氏)表示文檔Di和文檔認的相似度。Q表示該類檔類的密本系統(tǒng)中,我們根據(jù)計算得到的相似度矩陣,計算出類的整體密度,然后針對每一個單詞,計算單詞存在類中時類的整體密度Q該類中時類的整體密度Q,,進行前后密度對比,獲得單詞的分辨值dv(38:)dv,二Q一一個索引詞區(qū)分文檔的能力,如果可以用該索引詞對該類文檔的相下叨度的貢獻來代表的話,那么,一個索引詞的分辨值大小,則可以作為該索引詞的區(qū)分文檔的重要度。所以,在本模塊中,本文根據(jù)以上,通過計算單詞的分辨值的大小,選取分辨值大的單詞作為。該模塊最后形成一個文件并保存到硬盤中Tl.~.不lee.…、DlTl.…不WZIW22…M勒Dl圖.46相似度矩(Tl,幾,…Tt)是單詞,(dil,咬,…dit)是(TI,幾,…Tt)對應(yīng)于文檔Di的詞頻,如圖.44詞頻矩陣所示。得到詞頻后,根據(jù)詞頻可計算單詞權(quán)重。如圖.45重矩陣所幾,…Tt)是單詞,(wi,,啞,…叭)是(T,,幾,…Tt)對應(yīng)于文檔的據(jù)各特征文本處理模這個模塊主要是對文本進行預(yù)處理。主要包括獲取有效詞,去除停止詞,的n兇、ehwes分類算法,是基于“詞袋”(bgaof認心risl)模型,即文檔互無關(guān)的單詞構(gòu)成的集合,不考慮單詞之間的上下文關(guān)系,單詞出現(xiàn)的順序,位置以及文章的長度等。在文本分類中,對于分類有效的詞通常是名詞。在預(yù)處理過程,進行文法分析后,我們先將有效單詞提取出來,再使用一個預(yù)先準備好的停止詞列表過濾掉對分類沒有意義的詞,如等副詞,“I”,“丫bu”等常用代詞。在本系統(tǒng)中,我們用專門的詞和獲取有效英文單詞。該函數(shù)按空格分出各個單詞,并去除其中的標(biāo)點符號在自然語言中,有些詞是某些詞干加上一些前綴和后綴,后綴比如gnnier,可以將ner去除,前綴比如~ofssil,抽取其詞干ofssil,總的來說,這些詞與其詞干代表相同的意思。在本系統(tǒng)中,我訓(xùn)心rste比止ner入本系統(tǒng),設(shè)計了一個引匕n4.2.2特征項提取主要包括計算詞的分辨力,構(gòu)建文件等小模塊。在該模塊中,本文使用了作者基于類別的索引詞選擇方法對于文本處模塊中獲得在所有文矩陣是文本分類算法建立分類模型的數(shù)據(jù)基礎(chǔ),訓(xùn)練集通過文法分析統(tǒng)計出詞頻矩陣,統(tǒng)計出該單詞出現(xiàn)的文本頻數(shù),即訓(xùn)練集中出現(xiàn)了該單詞的文本個7.1樣做文本分類的實驗我在這里博士在中文自然語言處理開放平臺上發(fā)布的一份中文文本分類語料庫作為實驗的基本數(shù)。在這個語料庫中,有交通、體育、軍事 、政治、教育、境經(jīng)濟、藝術(shù)和計算機十個類別。在訓(xùn)練樣本中每類的統(tǒng)7.14山館,莫少強);基于神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的中文自動分類系統(tǒng)(交通大學(xué),成等);西風(fēng)文本自動分類系統(tǒng)(西風(fēng))等。在這些眾多的系統(tǒng)中,值得一提是大學(xué)的鄒濤等人運用VSM設(shè)計了一個中文文檔自動分類系統(tǒng)CTDCS,封閉性測試效果最好,準確率有100%,查全率也有93%,開放性測試的結(jié)果,查全率有96%,查準率也高達99%類的一些經(jīng)典算法分類技術(shù)在各個方面的于詞或短語,同時還引獲取這些特征還有待進盡管著巨大的但是已經(jīng)從可行性探索逐步向?qū)嵱没A段開始轉(zhuǎn)變。令人欣喜的是,有的科研成果因此還需要大家共同的努力。幾乎是相同的,唯想實現(xiàn)中文文本的自動分類,首先需要進行中文的分詞處1.3SVM研究現(xiàn)自從Vapnik提出SVM以后,由于其顯著的優(yōu)點和推廣能力,用方面均已取得了很大的進展。歸納起來主要有以下幾個方:對于各種SVM方法的研究。標(biāo)準的SVM方法經(jīng)過增加函勢。再者,SVM最初針對應(yīng)用范圍的擴大,置也有很大的差別,因究的問題而定具體的模型,這在很大程度上阻礙了SVM能力,這也是SVM法于理論研究的一個重要原因SVM算法的研究。雖然許多算法在實際應(yīng)用中十分有效,缺乏理論意義上的證SVM是為了解決兩類分類問題但是我們在實際應(yīng)用過程法的訓(xùn)練時間,必須采用一種高效的特征樣本的選擇方法。正是因為SVM表現(xiàn)出的良好的推廣能力,在應(yīng)用領(lǐng)域得到廣泛目前,對SVM的研究方向主要有以下五個方面基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論