設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知

上傳人：我*** IP屬地：北京上傳時(shí)間：2023-03-11 格式：DOCX 頁數(shù)：27 大?。?24.03KB 積分：12 舉報(bào) 版權(quán)申訴

設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第2頁

設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第3頁

設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第4頁

設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知_第5頁

已閱讀5頁，還剩22頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

（個(gè)學(xué)科，是自然語言處理的一個(gè)重要應(yīng)用領(lǐng)域。目前，越來越多的統(tǒng)計(jì)分類方SVMSVM（QuadrupleProgramming，指目標(biāo)函數(shù)為二次函數(shù)，約束條件為線性約束的最越性。SVMSVM訓(xùn)SVM的訓(xùn)練速度ChunkingOsunaSMO法和交互SVM等。SVM分類器的優(yōu)點(diǎn)在于通用性較好，且分類精度高、分類速度快、分類速度與訓(xùn)練樣本個(gè)數(shù)無關(guān)，查準(zhǔn)和查全率方面都略優(yōu)于kNN及樸素貝葉如下圖：橫軸上端點(diǎn)ab決策如何選擇特征作為測試節(jié)點(diǎn)。通常做法是計(jì)算各個(gè)特征的信息增益或者嫡的值,然后根據(jù)這些值的大小順次選這樣的方法建立的決策樹一般都存在對(duì)訓(xùn)練數(shù)據(jù)過度(overfittnig)的問題,所以大多數(shù)的決策樹學(xué)習(xí)算法都包含有一個(gè)剪枝過程所謂過度擬合(overfitting)問題,是指經(jīng)過過分訓(xùn)的能最佳往往只是針對(duì)訓(xùn)練集而言,應(yīng)用到非訓(xùn)練集對(duì)象時(shí),分類器性能可能會(huì)下降。即訓(xùn)練得到的分類器推廣性能不強(qiáng)對(duì)決策樹剪枝有兩種方法:前剪枝(prepruning)和后剪(postPrunnig決策樹完全構(gòu)造好后進(jìn)西南交通大學(xué)第9然而由于文本分類的性比如一個(gè)文本是否屬于某一類別帶有很大的主觀性,兩個(gè)不同的專家可能將其歸類到不同的類別中),在本質(zhì)上不能給出一個(gè)形式化的表達(dá),所以要分析性地對(duì)分類器進(jìn)行評(píng)價(jià)(比如證明這個(gè)分類器是正確的)目前難度較通常對(duì)一個(gè)文本分類器進(jìn)行評(píng)價(jià)主要是針對(duì)它的效果(E伍戈itveness)性能(Pedbnr田`e),即這個(gè)分類器在多大程度上能夠的不是它的效率(Efficiency有兩種方法:訓(xùn)練測試法和k折交叉驗(yàn)證法(卜ofdl。orssvali山魷ion)[,4],這兩種方文本分類器的評(píng)價(jià)標(biāo)準(zhǔn)在文本分類中,對(duì)分類器性能的評(píng)價(jià)標(biāo)準(zhǔn),的是經(jīng)驗(yàn)性的,不分析性的P0l。這是因?yàn)橐治鲂缘卦u(píng)價(jià)一個(gè)系統(tǒng),比如證明一性和完備性,必須能夠?qū)@個(gè)系統(tǒng)所要解決的問題給出一個(gè)形式化的表述,訓(xùn)練集和測試現(xiàn)在的文本自動(dòng)分類,大多采用的是機(jī)器學(xué)習(xí)的方法,機(jī)器學(xué)習(xí)的方分好類的文本。文本分類,即提出一個(gè)把新文本歸類到文本所屬類別的任務(wù)。為了衡量文本分類的效果,我們經(jīng)常把語料庫分成兩個(gè)不相交的集合,這兩個(gè)集合不一定相等:訓(xùn)練集,這個(gè)集合的目的是用于歸納出各個(gè)類別的特性以構(gòu)建分類器。測試集,這個(gè)集合用于測試分類器的分類效果。測試集的每個(gè)文本都通過分類器分類,然后與正確決策的分類結(jié)果相對(duì)比,分類器的效果就是比較通過分類器獲得的類別與正確決策的類別的相符的情向量空間模型的最大優(yōu)點(diǎn)在于它在知識(shí)表示方法上的巨大優(yōu)勢。在該模型中,文本內(nèi)容被形式化為空間中的一個(gè)點(diǎn),通過向量的形式給出,把對(duì)文本內(nèi)容的處理簡化為向量空間中向量的運(yùn)算,使問題的復(fù)雜性大為降低。而權(quán)重的計(jì)算既可以用規(guī)則的方法手工完成,又可以通過統(tǒng)計(jì)的方法自動(dòng)完成,便于融合統(tǒng)計(jì)和規(guī)則兩種方法的優(yōu)點(diǎn),也正是因?yàn)榘盐谋疽韵蛄康男问蕉x到實(shí)數(shù)領(lǐng)域中,才使得模式識(shí)別和其他領(lǐng)域中的各種成計(jì)算方法得以應(yīng)用,極大提高了自然語言文本的可計(jì)算性和可操作性。所以說,文本的形式化表示方法一一向量空間模型是基于文本處理的各種應(yīng)用得以實(shí)現(xiàn)的基礎(chǔ)和前其中:At與文檔c同時(shí)出現(xiàn)的次數(shù);Bt出現(xiàn)c類文檔出現(xiàn)的次數(shù);Cc文檔出現(xiàn)而t不出現(xiàn)的次數(shù);N為文檔總數(shù)。如果t與c相互之間獨(dú)立,那么Ml(t,c)為零互信息的缺點(diǎn)是受臨界特征的概率影響較大,從中可以看出當(dāng)征的P(tIc差太大的文本特征互信息值不具有可比性它與期望交叉嫡的本質(zhì)不同在于它沒有考慮單詞發(fā)生的頻度,這是互信息一個(gè)很大的缺點(diǎn),因?yàn)樗斐闪嘶バ畔⒃u(píng)估函數(shù)經(jīng)常傾向于選擇稀有單詞。在一些特征詞選擇算法的研究中發(fā)現(xiàn)網(wǎng),如果用互信息進(jìn)行特征選擇,它的精度極低(只有約3既),其原因是它刪掉了很多高頻的有用xZ估計(jì)它也用于表征兩個(gè)變量的相關(guān)性。對(duì)特征進(jìn)行打分時(shí),認(rèn)為特tc文檔之間非獨(dú)立關(guān)系,類似于具有一維自由度的z的是特征t與c類之間的依賴關(guān)系。特征t與c類文檔之間的了統(tǒng)計(jì)(t,c)計(jì)算如下2(t,c)二Nx(AxDCxB)2(3B、CN的含義與前面相互信息M()I所介紹的相應(yīng)參量為特征tc類文檔均不出現(xiàn)的次tC之間相互立,那么文本特征t的22估計(jì)值為o。I’估計(jì)與互信息的主要區(qū)別是xZ標(biāo)準(zhǔn)值,因此同類中的特征的z“是可比的優(yōu)勢率西南交通大學(xué)第信息增益的不足之處在于它考慮了單詞未發(fā)生的情況,即在式的。工:_、,P(t,,c,`,、`:二二.,,,山二,,,:`11P(kt,c,)ofg有貢獻(xiàn),但實(shí)驗(yàn)證明網(wǎng),這種貢獻(xiàn)往往遠(yuǎn)小于考慮單詞不出現(xiàn)情況所帶來的干擾。特別是在類分布和特征分布高度不平衡的情況下,絕大多數(shù)類都是負(fù)要是信息增中后一部分(代表單詞不出現(xiàn)情況)大,而非前一部(代表單現(xiàn)情況)大,信息增益的效果就會(huì)大大降低了期望交叉摘(cossentCroEnsstrTx`(`)==p(`p(Cjl`)109P(cj})tp(Cz)(3與信息增益相似35[],期望交叉嫡也是一種基于概率的方法。所信息增益要求計(jì)算所有特征屬性的值,而期望交叉嫡則只計(jì)算出現(xiàn)在文檔中的單詞。其中P(qI)t表示文本中出現(xiàn)t文本Cj的概是類別出現(xiàn)的概率。如果詞和類別強(qiáng)相關(guān),也就是P(q})t大,且出現(xiàn)概率又小的訊則說明詞對(duì)分類的影響大,相應(yīng)的函數(shù)值就大,就很可現(xiàn)了某個(gè)特定詞的條件下文本類別的概率分布之間的距離,屬性詞t的交叉文本類別分布的影響嫡與信息增益唯一的之處在交叉嫡法的精度始終優(yōu)于信息增益法口刀互信息仍在統(tǒng)計(jì)學(xué)中,它用于表征兩個(gè)變量的相關(guān)性,常被用來作為文本特征相關(guān)的統(tǒng)計(jì)模型及其相關(guān)應(yīng)用恤與c類文檔之間的相互c)的定義如下P(t,c)(3常用特征選擇算法及文檔頻率價(jià)它是最簡單的評(píng)估函數(shù),其值為出現(xiàn)某特征的文檔數(shù)與文檔總數(shù)之比。特征的DF計(jì)算為(出現(xiàn)特征t的文檔數(shù)/文檔總數(shù)):DF較小被忽略DF評(píng)估函數(shù)的理論假設(shè)是稀有單詞要么不含有用信息,要么太而量上比其它評(píng)估函數(shù)小得多,但在實(shí)際運(yùn)用中它的效果卻出奇地好。DF也因?yàn)橄∮袉卧~可能在某一類文本中并不稀有,而且包含著重要的判斷信息。我們?cè)趯?shí)際運(yùn)用中一般并不直接使用DF,而常把它作為評(píng)判其它的標(biāo)準(zhǔn)信息增益任信息論角度出發(fā),根據(jù)各特征取值情況來劃分學(xué)習(xí)樣本空間時(shí),所獲信息增益的多寡,來選擇相應(yīng)的特征。對(duì)于特征t文檔類別。,GI現(xiàn)的文檔頻數(shù)來衡量對(duì)于c信息增益。特征t對(duì)于文檔類別的信增益IG(切)計(jì)算如下:其中:C一類文檔集合;t示特征t不出現(xiàn)。西南交通大學(xué)第2頁、sRati。t,Pos)=109(孕粵單理少嘩l尹妙I(lǐng)Pos)t!月給)(3)其中:pos表示目標(biāo)類,neg表示非目標(biāo)類。優(yōu)勢率不是象前評(píng)估函數(shù)那樣將所有類同等對(duì)待,而是只關(guān)心目標(biāo)類值。這使得優(yōu)勢率特別適而不關(guān)心識(shí)別出負(fù)類,而實(shí)際的訓(xùn)練集中負(fù)類往往占9任湯以上的這時(shí)優(yōu)勢率對(duì)于其它信息測度來說有額外的優(yōu)訓(xùn)練過程描述如下S卻1:輸入訓(xùn)練文本(此時(shí)所有訓(xùn)練文本不區(qū)分類別),獲得文本詞,計(jì)算詞頻矩陣(包括詞頻和文檔高頻低頻詞,去.停用詞列表中的詞,用卯血rstenirner算法將詞取詞干(去除前S均P2:根據(jù)詞頻矩陣計(jì)算所得的權(quán)重矩陣計(jì)算預(yù)處理文本的相度,根據(jù)(3一7),(3一8)計(jì)算上一步得到的所有詞分值,根據(jù)分辨值將符合標(biāo)準(zhǔn)的保存SetP3:再次輸入訓(xùn)練文本(此時(shí)按類別輸入),對(duì)上一步得到的鍵詞,類別計(jì)算詞頻,根據(jù)貝葉斯算法(2一5)計(jì)算屬于類概率.將分類器特征項(xiàng)屬性表(及其屬于各類的概率)輸保存2.分類分類過程描述stepl:輸入新文本,進(jìn)行文本預(yù)處理sPetZ:根據(jù)訓(xùn)練過程得到的特征項(xiàng)屬性表獲得文本中含有的關(guān)鍵詞并計(jì)算其在新文本中的詞s娜3:根據(jù)屬于各類概率用(2一5)計(jì)算文本所屬類出類別s峋時(shí):比較文本的分類類別和實(shí)際類別,計(jì)算分類精度s5:使用評(píng)價(jià)函數(shù)對(duì)分類精度進(jìn)行評(píng)價(jià),反饋給系統(tǒng)。分類過程如圖.43示。西南交通大學(xué)第24項(xiàng)對(duì)文檔內(nèi)容的貢獻(xiàn),經(jīng)過多次統(tǒng)計(jì)學(xué)習(xí)完成。我們(217)的征項(xiàng)權(quán)值評(píng)價(jià)函數(shù)來理謐=擴(kuò)*甲109(一+u.ul)月其中,嘰表示項(xiàng)kt在文本壓中的文本內(nèi)頻數(shù),其值即詞頻矩陣中d`,N示全部訓(xùn)練集的文本數(shù),”`表示訓(xùn)練文本中出現(xiàn)項(xiàng)kt示項(xiàng)kt在文本Di矩陣后我們利用相似度計(jì)算(2一15)月藝(嘰寶,2、W.)飛f_L名山rr夕一名山r,二計(jì)算出每對(duì)文檔之間的相似度,獲得相似度矩陣。sij是文檔與文Dj之間的相似度,如圖.46相似度矩陣所示根據(jù)文獻(xiàn)[32定義,在文本分類中,某一類文檔的密度,可用該文的每對(duì)文檔間的相似性總和(3一7)來表示。麗治下客客mSiD(,,眾,k價(jià)其中,sim(Di,氏)表示文檔Di和文檔認(rèn)的相似度。Q表示該類檔類的密本系統(tǒng)中,我們根據(jù)計(jì)算得到的相似度矩陣,計(jì)算出類的整體密度,然后針對(duì)每一個(gè)單詞,計(jì)算單詞存在類中時(shí)類的整體密度Q該類中時(shí)類的整體密度Q,,進(jìn)行前后密度對(duì)比,獲得單詞的分辨值dv(38:)dv,二Q一一個(gè)索引詞區(qū)分文檔的能力,如果可以用該索引詞對(duì)該類文檔的相下叨度的貢獻(xiàn)來代表的話,那么,一個(gè)索引詞的分辨值大小,則可以作為該索引詞的區(qū)分文檔的重要度。所以,在本模塊中,本文根據(jù)以上,通過計(jì)算單詞的分辨值的大小,選取分辨值大的單詞作為。該模塊最后形成一個(gè)文件并保存到硬盤中Tl.~.不lee.…、DlTl.…不WZIW22…M勒Dl圖.46相似度矩(Tl,幾,…Tt)是單詞,(dil,咬,…dit)是(TI,幾,…Tt)對(duì)應(yīng)于文檔Di的詞頻,如圖.44詞頻矩陣所示。得到詞頻后,根據(jù)詞頻可計(jì)算單詞權(quán)重。如圖.45重矩陣所幾,…Tt)是單詞,(wi,,啞,…叭)是(T,,幾,…Tt)對(duì)應(yīng)于文檔的據(jù)各特征文本處理模這個(gè)模塊主要是對(duì)文本進(jìn)行預(yù)處理。主要包括獲取有效詞,去除停止詞,的n兇、ehwes分類算法,是基于“詞袋”(bgaof認(rèn)心risl)模型,即文檔互無關(guān)的單詞構(gòu)成的集合,不考慮單詞之間的上下文關(guān)系,單詞出現(xiàn)的順序,位置以及文章的長度等。在文本分類中,對(duì)于分類有效的詞通常是名詞。在預(yù)處理過程,進(jìn)行文法分析后,我們先將有效單詞提取出來,再使用一個(gè)預(yù)先準(zhǔn)備好的停止詞列表過濾掉對(duì)分類沒有意義的詞,如等副詞,“I”,“丫bu”等常用代詞。在本系統(tǒng)中,我們用專門的詞和獲取有效英文單詞。該函數(shù)按空格分出各個(gè)單詞,并去除其中的標(biāo)點(diǎn)符號(hào)在自然語言中,有些詞是某些詞干加上一些前綴和后綴,后綴比如gnnier,可以將ner去除,前綴比如~ofssil,抽取其詞干ofssil,總的來說,這些詞與其詞干代表相同的意思。在本系統(tǒng)中,我訓(xùn)心rste比止ner入本系統(tǒng),設(shè)計(jì)了一個(gè)引匕n4.2.2特征項(xiàng)提取主要包括計(jì)算詞的分辨力,構(gòu)建文件等小模塊。在該模塊中,本文使用了作者基于類別的索引詞選擇方法對(duì)于文本處模塊中獲得在所有文矩陣是文本分類算法建立分類模型的數(shù)據(jù)基礎(chǔ),訓(xùn)練集通過文法分析統(tǒng)計(jì)出詞頻矩陣,統(tǒng)計(jì)出該單詞出現(xiàn)的文本頻數(shù),即訓(xùn)練集中出現(xiàn)了該單詞的文本個(gè)7.1樣做文本分類的實(shí)驗(yàn)我在這里博士在中文自然語言處理開放平臺(tái)上發(fā)布的一份中文文本分類語料庫作為實(shí)驗(yàn)的基本數(shù)。在這個(gè)語料庫中，有交通、體育、軍事、政治、教育、境經(jīng)濟(jì)、藝術(shù)和計(jì)算機(jī)十個(gè)類別。在訓(xùn)練樣本中每類的統(tǒng)7.14山館，莫少強(qiáng))；基于神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的中文自動(dòng)分類系統(tǒng)(交通大學(xué)，成等)；西風(fēng)文本自動(dòng)分類系統(tǒng)(西風(fēng))等。在這些眾多的系統(tǒng)中，值得一提是大學(xué)的鄒濤等人運(yùn)用VSM設(shè)計(jì)了一個(gè)中文文檔自動(dòng)分類系統(tǒng)CTDCS，封閉性測試效果最好，準(zhǔn)確率有100%，查全率也有93%，開放性測試的結(jié)果，查全率有96%，查準(zhǔn)率也高達(dá)99%類的一些經(jīng)典算法分類技術(shù)在各個(gè)方面的于詞或短語，同時(shí)還引獲取這些特征還有待進(jìn)盡管著巨大的但是已經(jīng)從可行性探索逐步向?qū)嵱没A段開始轉(zhuǎn)變。令人欣喜的是，有的科研成果因此還需要大家共同的努力。幾乎是相同的，唯想實(shí)現(xiàn)中文文本的自動(dòng)分類，首先需要進(jìn)行中文的分詞處1.3SVM研究現(xiàn)自從Vapnik提出SVM以后，由于其顯著的優(yōu)點(diǎn)和推廣能力，用方面均已取得了很大的進(jìn)展。歸納起來主要有以下幾個(gè)方：對(duì)于各種SVM方法的研究。標(biāo)準(zhǔn)的SVM方法經(jīng)過增加函勢。再者，SVM最初針對(duì)應(yīng)用范圍的擴(kuò)大，置也有很大的差別，因究的問題而定具體的模型，這在很大程度上阻礙了SVM能力，這也是SVM法于理論研究的一個(gè)重要原因SVM算法的研究。雖然許多算法在實(shí)際應(yīng)用中十分有效，缺乏理論意義上的證SVM是為了解決兩類分類問題但是我們?cè)趯?shí)際應(yīng)用過程法的訓(xùn)練時(shí)間，必須采用一種高效的特征樣本的選擇方法。正是因?yàn)镾VM表現(xiàn)出的良好的推廣能力，在應(yīng)用領(lǐng)域得到廣泛目前，對(duì)SVM的研究方向主要有以下五個(gè)方面基

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知

文檔簡介

溫馨提示

最新文檔

評(píng)論

設(shè)計(jì)分類就是根據(jù)預(yù)先定義好類別按照一定規(guī)則將集合中未知

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔