基于類別數(shù)據(jù)分布特性的文本分類噪聲處理方法_第1頁
基于類別數(shù)據(jù)分布特性的文本分類噪聲處理方法_第2頁
基于類別數(shù)據(jù)分布特性的文本分類噪聲處理方法_第3頁
基于類別數(shù)據(jù)分布特性的文本分類噪聲處理方法_第4頁
基于類別數(shù)據(jù)分布特性的文本分類噪聲處理方法_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于類別數(shù)據(jù)分布特性的文本分類噪聲處理方法

1語言模型算法文本分類是指根據(jù)指定的分類系統(tǒng)自動評估文本內(nèi)容對應(yīng)的預(yù)先確定的類別的過程。這是人工智能領(lǐng)域的中心研究內(nèi)容之一。在采用機器學(xué)習(xí)的方法進行文本分類時,需要分類器通過事先類別標(biāo)注完畢的訓(xùn)練樣本學(xué)習(xí)分類的知識并形成特征空間,從中自動挖掘出能夠有效分類的規(guī)則,然后將此規(guī)則用于對測試樣本的分類。因此,訓(xùn)練樣本和分類算法一樣,是形成文本自動分類系統(tǒng)的基礎(chǔ)和關(guān)鍵,其質(zhì)量的好壞直接影響分類器的訓(xùn)練結(jié)果和識別性能。為驗證算法的有效性,通常也需要使用一定的類目構(gòu)成、準(zhǔn)備相應(yīng)的文本作為分類材料,并在由此所組成的試驗環(huán)境中進行分類試驗。而在對分類材料進行標(biāo)注或獲取的過程中,難免會引入噪聲,如樣本內(nèi)容與所標(biāo)記的類別不符、樣本屬性缺失等。這些噪聲樣本會使訓(xùn)練樣本中類別概念模糊,其提供的分類先驗知識不足,導(dǎo)致分類器構(gòu)建的分類決策不明確,從而對測試樣本所屬類別進行誤判,影響最終的分類性能。因此,本文從語料庫中訓(xùn)練樣本的類別數(shù)據(jù)分布特性出發(fā),通過計算樣本的類別聚類密度這一屬性特征,獲取不同類別下的文檔對間相似度分布;采用對數(shù)正態(tài)化變換進行歸一化處理,以獲取噪聲樣本所服從的正態(tài)概率分布;采用近似置信區(qū)間估計和噪聲樣本度量方法,實現(xiàn)對噪聲文本的有效挖掘和裁剪,從而提高文本分類器的分類性能。2特征選擇算法目前,研究訓(xùn)練樣本集合中噪聲樣本對分類性能的影響已有相當(dāng)數(shù)量的成果。文獻通過實驗驗證了含有噪聲樣本的數(shù)據(jù)會對分類結(jié)果產(chǎn)生不良影響,并提出一種通過降低召回率來保證分類結(jié)果準(zhǔn)確率的方法。但該方法只得到待分類數(shù)據(jù)中部分?jǐn)?shù)據(jù)的分類結(jié)果,并未提出針對剩余待分類數(shù)據(jù)進行處理的方法。文獻提出一種針對粗分類文檔中噪聲數(shù)據(jù)的修正算法NNRA,該算法通過構(gòu)建文檔關(guān)聯(lián)網(wǎng)絡(luò)模型,把類別標(biāo)記錯誤的文檔重新歸到正確的類別中,以獲得精分類的訓(xùn)練數(shù)據(jù),從而提高分類器的分類性能。但該算法計算復(fù)雜度較高,算法效率較低。文獻提出一種基于特征類別屬性分析的文本分類噪聲裁剪算法ECN,該算法通過分析文本關(guān)鍵特征蘊含的類別指示信息,主動預(yù)測待測分類文本可能歸屬的類別。然而采用該類別裁剪算法仍會造成一定的誤判,導(dǎo)致分類不準(zhǔn)確。文獻提出一種基于概率主題模型的噪聲處理方法,通過計算每個樣本的類別熵,對噪聲樣本進行過濾,并采用主題模型進行數(shù)據(jù)平滑,減少噪聲樣本對分類性能的影響。但該方法分類結(jié)果受模型迭代次數(shù)的影響,且迭代次數(shù)無法較準(zhǔn)確地確定。另外,該方法由于需要進行主題模型的抽取,計算量較大,效率較低。文獻通過采用特征選擇算法OCFS去除在文本中不能表達類別信息或表示信息較弱的特征,以達到減少噪聲樣本或?qū)傩詫Ψ诸愃惴ǖ挠绊憽5摲椒o法徹底刪除數(shù)據(jù)集中所有噪聲,而且會把一些正常樣本當(dāng)作噪聲誤刪。在信息檢索領(lǐng)域,另一部分研究者從對訓(xùn)練樣本噪聲敏感度出發(fā),探究不同分類算法針對不同數(shù)據(jù)集的抗噪性。如文獻通過實驗驗證對不同數(shù)據(jù)集上的噪聲敏感度與訓(xùn)練數(shù)據(jù)的某些特性有關(guān),得出訓(xùn)練集文檔對的分布是影響噪聲敏感度的根本原因。文獻描述RankSVM、SVMMVP等算法在部分?jǐn)?shù)據(jù)集上有較好的抗噪性,且隨著噪聲水平的增加性能變化不大,而在其他數(shù)據(jù)集上即使噪聲水平很小性能也有很大程度下降。文獻采用兩階段優(yōu)化策略對任何線性排序模型進行非凸優(yōu)化,從而使得學(xué)習(xí)到的模型對噪音不敏感。采用恰當(dāng)?shù)奈臋n選擇策略可以提高訓(xùn)練集的質(zhì)量。綜上所述,本文提出通過計算訓(xùn)練樣本類別聚類密度獲取文檔對屬性的概率分布這一特征,并通過研究該特征獲取訓(xùn)練樣本中的噪聲樣本,以提高分類器的分類性能。3樣本類別意識不明確。據(jù)年齡限制,主要有兩種由于噪聲樣本的內(nèi)容與所標(biāo)記的類別概念信息不符以及噪聲屬性缺失等特點,使得這類樣本代表其所在類別的程度較弱,與其他樣本之間的相似度較低。這些樣本的存在模糊了類別的概念,使得其類別概念信息不明確。基于以上兩點,本文首先計算訓(xùn)練樣本的類別聚類密度揭示樣本中類別概念信息,然后通過類別概念信息反映該類別下文檔之間的相似程度,同時用該指標(biāo)來評測噪聲樣本對類別信息以及分類性能的影響。3.1類別對比相似度訓(xùn)練集樣本由不同類別構(gòu)成,而類別的信息則由其所標(biāo)注的文本完全決定,即文本的內(nèi)容完全決定類別的概念。因此,可以采用類別的聚類密度來衡量類別下文檔特征在表示該類別時的適用程度。其基本思想是:如果文檔集合能夠更好地表達類別的信息,那么該類別概念應(yīng)該更加清晰,在該類別下對應(yīng)的文檔之間應(yīng)該更加相似,類別對應(yīng)文檔集合的平均相似度應(yīng)該更高。因此,對于某一類別的聚類密度,本文采用該類別的文檔對間的平均相似度表示,計算公式如下:其中表示語料H下類別z的聚類密度,N表示該類別下的文檔數(shù),??表示類別z中第i個文檔向量,表示文檔向量和文檔向量的余弦相似度,具體計算方法如下所示:其中,對于每個語料庫H,用類別集合表示,l表示語料庫H中類別數(shù)。類別z1中的文檔用向量表示,wit表示特征詞t在文檔di的權(quán)重,其通過標(biāo)準(zhǔn)的TF-IDF公式獲得:其中,tf(t,di)表示特征詞t在文檔di中的詞頻,df(t)表示特征詞t的逆向文檔頻率,V為總特征項數(shù),N為總文檔數(shù)。本文用類別的聚類密度反映語料中預(yù)先設(shè)定的分類類別概念的明確程度。如果一個語料中各類別的聚類密度越高,說明該語料各類別概念越明確,類別中的文檔集合越能代表該類別的信息,其分類效果越好。另外,一個類別下噪聲樣本數(shù)量越少,其所有文檔對間的平均相似度越高,類別概念越清晰明確。3.2歸一化過程設(shè)計在獲取樣本類別聚類密度的同時,可獲得該類別下文檔對間的相似度分布。通過公式(1)可以看出,聚類密度實質(zhì)是文檔對間的平均相似度。由于不同類別下樣本內(nèi)容特征不同,聚類密度值分布的參數(shù)也不同,在比較不同類別的聚類密度以及噪聲樣本處理前后的聚類密度變化情況時,無法直接采用聚類密度值進行比較,因此需要對文檔對平均相似度的分布進行歸一化處理。根據(jù)研究發(fā)現(xiàn),通過估計分布的均值和方差,不同類別下文檔對相似度的分布可以統(tǒng)一歸一化為對數(shù)正態(tài)分布,如圖1所示(訓(xùn)練樣本200篇)。只有在正態(tài)歸一化處理后,不同類別的聚類密度才具有可比性。另外,本文通過正態(tài)分布的偏度和峰度檢驗法來檢驗文檔對相似度分布是否屬于正態(tài)分布。偏度系數(shù)是表征分布形態(tài)與平均值偏離的程度,作為分布不對稱的測度;峰度系數(shù)是表征分布形態(tài)圖形頂峰的凸平度,當(dāng)兩者都為零時,變量變?yōu)槔硐胝龖B(tài)分布。其中,偏度系數(shù)g1和峰度系數(shù)g2計算公式如下:其中,Xi表示文檔對相似度值,X表示所有文檔對平均相似度值,S為均方差,n為文檔對數(shù)。在獲得兩個系數(shù)后給定顯著性水平?值(本文取&=0.05),進一步確定對應(yīng)的U&值。若|g1|<U1?且&g2&<U2&,則表示接受正態(tài)性假設(shè),可認定在&=0.05的顯著水平下,該類別下文檔對的相似度分布近似服從正態(tài)分布。3.3異常置信區(qū)間的確定在通過正態(tài)化變換確定文檔對相似度服從正態(tài)分布后,需要獲取包含噪聲樣本的文檔對,并對噪聲樣本進行裁剪,以減少其對分類性能的影響。本文先計算所服從概率分布的置信區(qū)間,根據(jù)正態(tài)分布的特性,對給定的置信水平1–?,有:可得μ的置信水平為1–&的置信區(qū)間為:通過查表求得的值,進而確定置信區(qū)間。另外,&取值越大,噪聲樣本數(shù)據(jù)的錯誤檢測概率越小,把正確數(shù)據(jù)混入異常數(shù)據(jù)的概率也同樣增大,因此取0.95為宜。通過計算所服從概率分布的置信區(qū)間獲得單側(cè)置信下限左側(cè)的文檔對,這些文檔對之間的相似度值出現(xiàn)頻數(shù)較小且相似度值也較小。根據(jù)噪聲樣本的特性,其代表所在類別的程度較弱,與其他文檔之間的相似度較小,因此噪聲樣本主要分布在區(qū)間中。在獲得該區(qū)間的文檔對后,用每個文檔出現(xiàn)的文檔對數(shù)對占總文檔對數(shù)的比例來確定噪聲樣本,如公式(10)所示。設(shè)定閾值ε,當(dāng)該比例大于ε值時,則認定該文檔為噪聲樣本。其中,pi表示第i個文檔占總文檔對數(shù)的比例,mi表示第i文檔出現(xiàn)的文檔對數(shù)。3.4基于相對熵指標(biāo)的差異通過上述方法獲得噪聲樣本后,需要對噪聲樣本的識別進行正確性檢驗,進一步驗證挖掘的有效性。本文提出通過采用Kullback-Leibler散度即相對熵指標(biāo)來度量原始的含有噪聲樣本的文檔對分布(記為f(x))與不含噪聲樣本的文檔對分布(記為f?(x))間的差異,如公式(11)所示。利用Kullback-Leibler的定義,可以對這種差異從數(shù)量上進行比較。其中,n?表示不含噪聲樣本的文檔對數(shù)(n?<n),為保證兩個分布能夠進行差異度量,從f(x)選擇n?個文檔對使兩個分布文檔對數(shù)相同。相對熵指標(biāo)是用來度量相同事件空間下兩個概率分布的差異情況,當(dāng)兩個概率分布完全相同時,即f(x)=f?(x),其相對熵值為0。若計算得到的相對熵值越大,說明噪聲樣本裁剪前后兩個概率分布差異越大,噪聲樣本對相似度分布的影響越大,基于該方法對噪聲識別的有效性越高。另外,同時采用噪聲樣本裁剪前后類別的聚類密度變化情況,來反映噪聲樣本識別的有效性。一個類別下噪聲樣本數(shù)量越少,其對應(yīng)的該類別的聚類密度應(yīng)該越高,類別概念越清晰,分類效果越好。若在噪聲樣本識別時,將正確標(biāo)注的樣本錯誤地識別為噪聲樣本時,會使得該類別的聚類密度降低。4結(jié)果與分析4.1文獻篩選和分類性能評價為驗證本文方法在不同領(lǐng)域、不同類型數(shù)據(jù)上的有效性,實驗數(shù)據(jù)采用搜狗實驗室語料庫(SogouLabs)、復(fù)旦大學(xué)自然語言處理實驗室基準(zhǔn)語料庫以及自建語料庫進行分類實驗。其中自建語料庫主要包括自建圖書類型的文獻以及自建期刊類型的文獻,由筆者取自某大學(xué)圖書館的館藏目錄OPAC和選自中國知網(wǎng)的電子期刊數(shù)據(jù)庫,分別選取分類在《中圖法》體系下體育、計算機技術(shù)和軍事三個類別中的部分圖書的書目信息和部分期刊文獻作為實驗材料。由于本研究需確保分類過程中各環(huán)節(jié)透明化,以減少中間過程的不可控因素,因而選取支持向量機(SupportVectorMachine,SVM)算法構(gòu)造分類器,選取信息增益方法進行特征選擇。自動分類研究中對分類性能的評價通常采用分準(zhǔn)率、分全率以及綜合指標(biāo)F1值來描述,在對分類性能進行評價時,存在微平均(Micro-average)和宏平均(Macro-average)兩個不同的測度方法。本文選擇通用的宏平均F1(Macro-averageF1)評價分類性能。4.2噪聲樣本的刪除及分類性能分析針對搜狗、復(fù)旦大學(xué)兩種公開語料庫,選取其中6個類別進行實驗,主要包括計算機、體育、經(jīng)濟、軍事等類別信息。針對自建圖書、期刊語料庫,選取計算機、體育、軍事三個類別進行實驗。每個類別都隨機選取400篇文檔作為訓(xùn)練樣本,200篇作為測試樣本,以排除類別不均衡因素對分類性能的影響,且保證訓(xùn)練樣本與測試樣本之間沒有重復(fù)文本。首先計算搜狗、復(fù)旦大學(xué)兩種語料庫各類別的聚類密度,然后對各類別聚類密度進行歸一化處理獲取樣本所服從的正態(tài)分布,最后按樣本所占比例獲取噪聲樣本。如對于搜狗語料庫中的“計算機”類別,通過公式(4)、公式(5)計算出分布的偏度、峰度的值分別為–0.26、0.45,根據(jù)SPSS描述統(tǒng)計分析結(jié)果,該分布通過正態(tài)性檢驗。計算得到均值為–3.44,均方差為1.16,并根據(jù)公式(8)計算均值的95%置信區(qū)間為[–3.49,–3.32]。設(shè)定閾值ε=0.50,則在區(qū)間[–8,–3.49]上,計算得到噪聲樣本數(shù)為17,針對搜狗、復(fù)旦大學(xué)兩種公開語料,計算各類別的噪聲樣本數(shù)以及各類別的聚類密度如表1所示:通過表1可以看出,這兩種公開語料庫各類別中均含有一定的噪聲樣本,且通過計算看出復(fù)旦大學(xué)語料庫的聚類密度要高于搜狗語料庫的聚類密度。在獲得噪聲樣本后進行裁剪,然后計算裁剪后文檔對所服從分布的相對熵以及類別的聚類密度,以檢驗噪聲識別的有效性,如圖2所示:通過計算噪聲樣本裁剪前后相對熵以及類別聚類密度變化發(fā)現(xiàn),噪聲樣本的刪除對每個類別的文檔相似度分布都有較大的影響,其中類別“計算機”、“體育”、“經(jīng)濟”相對熵值較高,說明噪聲樣本處理使得兩個概率分布差異較大。另外,噪聲樣本的裁剪也使得各個類別的聚類密度都有所增大。限于篇幅,本文只列出搜狗語料庫噪聲樣本處理前后聚類密度的變化情況。圖2說明該方法能夠有效挖掘噪聲樣本,使語料中各個類別的概念信息更加清晰、明確,從而更有利于文本分類器的分類。為進一步驗證該方法的有效性,計算搜狗、復(fù)旦語料噪聲處理前后各類別上的分類準(zhǔn)確率,如圖3所示:從圖3可以看出,通過刪除噪聲樣本,使得搜狗、復(fù)旦語料庫各類別的分類準(zhǔn)確率都得到提高,搜狗語料庫各類別分類準(zhǔn)確率平均提高3.37%,復(fù)旦語料庫各類別分類準(zhǔn)確率平均提高4.83%。噪聲樣本的裁剪使得類別的概念信息變得清晰明確,從而使得分類器的分類性能得到提高,驗證了該方法的有效性。另外,為驗證本文方法在不同領(lǐng)域、不同類型數(shù)據(jù)上的有效性,針對圖書、期刊自建語料采用該方法進行噪聲樣本識別,分類效果如圖4所示:通過圖4可以看出,搜狗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論