




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于類別數(shù)據分布特性的文本分類噪聲處理方法
1語言模型算法文本分類是指根據指定的分類系統(tǒng)自動評估文本內容對應的預先確定的類別的過程。這是人工智能領域的中心研究內容之一。在采用機器學習的方法進行文本分類時,需要分類器通過事先類別標注完畢的訓練樣本學習分類的知識并形成特征空間,從中自動挖掘出能夠有效分類的規(guī)則,然后將此規(guī)則用于對測試樣本的分類。因此,訓練樣本和分類算法一樣,是形成文本自動分類系統(tǒng)的基礎和關鍵,其質量的好壞直接影響分類器的訓練結果和識別性能。為驗證算法的有效性,通常也需要使用一定的類目構成、準備相應的文本作為分類材料,并在由此所組成的試驗環(huán)境中進行分類試驗。而在對分類材料進行標注或獲取的過程中,難免會引入噪聲,如樣本內容與所標記的類別不符、樣本屬性缺失等。這些噪聲樣本會使訓練樣本中類別概念模糊,其提供的分類先驗知識不足,導致分類器構建的分類決策不明確,從而對測試樣本所屬類別進行誤判,影響最終的分類性能。因此,本文從語料庫中訓練樣本的類別數(shù)據分布特性出發(fā),通過計算樣本的類別聚類密度這一屬性特征,獲取不同類別下的文檔對間相似度分布;采用對數(shù)正態(tài)化變換進行歸一化處理,以獲取噪聲樣本所服從的正態(tài)概率分布;采用近似置信區(qū)間估計和噪聲樣本度量方法,實現(xiàn)對噪聲文本的有效挖掘和裁剪,從而提高文本分類器的分類性能。2特征選擇算法目前,研究訓練樣本集合中噪聲樣本對分類性能的影響已有相當數(shù)量的成果。文獻通過實驗驗證了含有噪聲樣本的數(shù)據會對分類結果產生不良影響,并提出一種通過降低召回率來保證分類結果準確率的方法。但該方法只得到待分類數(shù)據中部分數(shù)據的分類結果,并未提出針對剩余待分類數(shù)據進行處理的方法。文獻提出一種針對粗分類文檔中噪聲數(shù)據的修正算法NNRA,該算法通過構建文檔關聯(lián)網絡模型,把類別標記錯誤的文檔重新歸到正確的類別中,以獲得精分類的訓練數(shù)據,從而提高分類器的分類性能。但該算法計算復雜度較高,算法效率較低。文獻提出一種基于特征類別屬性分析的文本分類噪聲裁剪算法ECN,該算法通過分析文本關鍵特征蘊含的類別指示信息,主動預測待測分類文本可能歸屬的類別。然而采用該類別裁剪算法仍會造成一定的誤判,導致分類不準確。文獻提出一種基于概率主題模型的噪聲處理方法,通過計算每個樣本的類別熵,對噪聲樣本進行過濾,并采用主題模型進行數(shù)據平滑,減少噪聲樣本對分類性能的影響。但該方法分類結果受模型迭代次數(shù)的影響,且迭代次數(shù)無法較準確地確定。另外,該方法由于需要進行主題模型的抽取,計算量較大,效率較低。文獻通過采用特征選擇算法OCFS去除在文本中不能表達類別信息或表示信息較弱的特征,以達到減少噪聲樣本或屬性對分類算法的影響。但該方法無法徹底刪除數(shù)據集中所有噪聲,而且會把一些正常樣本當作噪聲誤刪。在信息檢索領域,另一部分研究者從對訓練樣本噪聲敏感度出發(fā),探究不同分類算法針對不同數(shù)據集的抗噪性。如文獻通過實驗驗證對不同數(shù)據集上的噪聲敏感度與訓練數(shù)據的某些特性有關,得出訓練集文檔對的分布是影響噪聲敏感度的根本原因。文獻描述RankSVM、SVMMVP等算法在部分數(shù)據集上有較好的抗噪性,且隨著噪聲水平的增加性能變化不大,而在其他數(shù)據集上即使噪聲水平很小性能也有很大程度下降。文獻采用兩階段優(yōu)化策略對任何線性排序模型進行非凸優(yōu)化,從而使得學習到的模型對噪音不敏感。采用恰當?shù)奈臋n選擇策略可以提高訓練集的質量。綜上所述,本文提出通過計算訓練樣本類別聚類密度獲取文檔對屬性的概率分布這一特征,并通過研究該特征獲取訓練樣本中的噪聲樣本,以提高分類器的分類性能。3樣本類別意識不明確。據年齡限制,主要有兩種由于噪聲樣本的內容與所標記的類別概念信息不符以及噪聲屬性缺失等特點,使得這類樣本代表其所在類別的程度較弱,與其他樣本之間的相似度較低。這些樣本的存在模糊了類別的概念,使得其類別概念信息不明確?;谝陨蟽牲c,本文首先計算訓練樣本的類別聚類密度揭示樣本中類別概念信息,然后通過類別概念信息反映該類別下文檔之間的相似程度,同時用該指標來評測噪聲樣本對類別信息以及分類性能的影響。3.1類別對比相似度訓練集樣本由不同類別構成,而類別的信息則由其所標注的文本完全決定,即文本的內容完全決定類別的概念。因此,可以采用類別的聚類密度來衡量類別下文檔特征在表示該類別時的適用程度。其基本思想是:如果文檔集合能夠更好地表達類別的信息,那么該類別概念應該更加清晰,在該類別下對應的文檔之間應該更加相似,類別對應文檔集合的平均相似度應該更高。因此,對于某一類別的聚類密度,本文采用該類別的文檔對間的平均相似度表示,計算公式如下:其中表示語料H下類別z的聚類密度,N表示該類別下的文檔數(shù),??表示類別z中第i個文檔向量,表示文檔向量和文檔向量的余弦相似度,具體計算方法如下所示:其中,對于每個語料庫H,用類別集合表示,l表示語料庫H中類別數(shù)。類別z1中的文檔用向量表示,wit表示特征詞t在文檔di的權重,其通過標準的TF-IDF公式獲得:其中,tf(t,di)表示特征詞t在文檔di中的詞頻,df(t)表示特征詞t的逆向文檔頻率,V為總特征項數(shù),N為總文檔數(shù)。本文用類別的聚類密度反映語料中預先設定的分類類別概念的明確程度。如果一個語料中各類別的聚類密度越高,說明該語料各類別概念越明確,類別中的文檔集合越能代表該類別的信息,其分類效果越好。另外,一個類別下噪聲樣本數(shù)量越少,其所有文檔對間的平均相似度越高,類別概念越清晰明確。3.2歸一化過程設計在獲取樣本類別聚類密度的同時,可獲得該類別下文檔對間的相似度分布。通過公式(1)可以看出,聚類密度實質是文檔對間的平均相似度。由于不同類別下樣本內容特征不同,聚類密度值分布的參數(shù)也不同,在比較不同類別的聚類密度以及噪聲樣本處理前后的聚類密度變化情況時,無法直接采用聚類密度值進行比較,因此需要對文檔對平均相似度的分布進行歸一化處理。根據研究發(fā)現(xiàn),通過估計分布的均值和方差,不同類別下文檔對相似度的分布可以統(tǒng)一歸一化為對數(shù)正態(tài)分布,如圖1所示(訓練樣本200篇)。只有在正態(tài)歸一化處理后,不同類別的聚類密度才具有可比性。另外,本文通過正態(tài)分布的偏度和峰度檢驗法來檢驗文檔對相似度分布是否屬于正態(tài)分布。偏度系數(shù)是表征分布形態(tài)與平均值偏離的程度,作為分布不對稱的測度;峰度系數(shù)是表征分布形態(tài)圖形頂峰的凸平度,當兩者都為零時,變量變?yōu)槔硐胝龖B(tài)分布。其中,偏度系數(shù)g1和峰度系數(shù)g2計算公式如下:其中,Xi表示文檔對相似度值,X表示所有文檔對平均相似度值,S為均方差,n為文檔對數(shù)。在獲得兩個系數(shù)后給定顯著性水平?值(本文取&=0.05),進一步確定對應的U&值。若|g1|<U1?且&g2&<U2&,則表示接受正態(tài)性假設,可認定在&=0.05的顯著水平下,該類別下文檔對的相似度分布近似服從正態(tài)分布。3.3異常置信區(qū)間的確定在通過正態(tài)化變換確定文檔對相似度服從正態(tài)分布后,需要獲取包含噪聲樣本的文檔對,并對噪聲樣本進行裁剪,以減少其對分類性能的影響。本文先計算所服從概率分布的置信區(qū)間,根據正態(tài)分布的特性,對給定的置信水平1–?,有:可得μ的置信水平為1–&的置信區(qū)間為:通過查表求得的值,進而確定置信區(qū)間。另外,&取值越大,噪聲樣本數(shù)據的錯誤檢測概率越小,把正確數(shù)據混入異常數(shù)據的概率也同樣增大,因此取0.95為宜。通過計算所服從概率分布的置信區(qū)間獲得單側置信下限左側的文檔對,這些文檔對之間的相似度值出現(xiàn)頻數(shù)較小且相似度值也較小。根據噪聲樣本的特性,其代表所在類別的程度較弱,與其他文檔之間的相似度較小,因此噪聲樣本主要分布在區(qū)間中。在獲得該區(qū)間的文檔對后,用每個文檔出現(xiàn)的文檔對數(shù)對占總文檔對數(shù)的比例來確定噪聲樣本,如公式(10)所示。設定閾值ε,當該比例大于ε值時,則認定該文檔為噪聲樣本。其中,pi表示第i個文檔占總文檔對數(shù)的比例,mi表示第i文檔出現(xiàn)的文檔對數(shù)。3.4基于相對熵指標的差異通過上述方法獲得噪聲樣本后,需要對噪聲樣本的識別進行正確性檢驗,進一步驗證挖掘的有效性。本文提出通過采用Kullback-Leibler散度即相對熵指標來度量原始的含有噪聲樣本的文檔對分布(記為f(x))與不含噪聲樣本的文檔對分布(記為f?(x))間的差異,如公式(11)所示。利用Kullback-Leibler的定義,可以對這種差異從數(shù)量上進行比較。其中,n?表示不含噪聲樣本的文檔對數(shù)(n?<n),為保證兩個分布能夠進行差異度量,從f(x)選擇n?個文檔對使兩個分布文檔對數(shù)相同。相對熵指標是用來度量相同事件空間下兩個概率分布的差異情況,當兩個概率分布完全相同時,即f(x)=f?(x),其相對熵值為0。若計算得到的相對熵值越大,說明噪聲樣本裁剪前后兩個概率分布差異越大,噪聲樣本對相似度分布的影響越大,基于該方法對噪聲識別的有效性越高。另外,同時采用噪聲樣本裁剪前后類別的聚類密度變化情況,來反映噪聲樣本識別的有效性。一個類別下噪聲樣本數(shù)量越少,其對應的該類別的聚類密度應該越高,類別概念越清晰,分類效果越好。若在噪聲樣本識別時,將正確標注的樣本錯誤地識別為噪聲樣本時,會使得該類別的聚類密度降低。4結果與分析4.1文獻篩選和分類性能評價為驗證本文方法在不同領域、不同類型數(shù)據上的有效性,實驗數(shù)據采用搜狗實驗室語料庫(SogouLabs)、復旦大學自然語言處理實驗室基準語料庫以及自建語料庫進行分類實驗。其中自建語料庫主要包括自建圖書類型的文獻以及自建期刊類型的文獻,由筆者取自某大學圖書館的館藏目錄OPAC和選自中國知網的電子期刊數(shù)據庫,分別選取分類在《中圖法》體系下體育、計算機技術和軍事三個類別中的部分圖書的書目信息和部分期刊文獻作為實驗材料。由于本研究需確保分類過程中各環(huán)節(jié)透明化,以減少中間過程的不可控因素,因而選取支持向量機(SupportVectorMachine,SVM)算法構造分類器,選取信息增益方法進行特征選擇。自動分類研究中對分類性能的評價通常采用分準率、分全率以及綜合指標F1值來描述,在對分類性能進行評價時,存在微平均(Micro-average)和宏平均(Macro-average)兩個不同的測度方法。本文選擇通用的宏平均F1(Macro-averageF1)評價分類性能。4.2噪聲樣本的刪除及分類性能分析針對搜狗、復旦大學兩種公開語料庫,選取其中6個類別進行實驗,主要包括計算機、體育、經濟、軍事等類別信息。針對自建圖書、期刊語料庫,選取計算機、體育、軍事三個類別進行實驗。每個類別都隨機選取400篇文檔作為訓練樣本,200篇作為測試樣本,以排除類別不均衡因素對分類性能的影響,且保證訓練樣本與測試樣本之間沒有重復文本。首先計算搜狗、復旦大學兩種語料庫各類別的聚類密度,然后對各類別聚類密度進行歸一化處理獲取樣本所服從的正態(tài)分布,最后按樣本所占比例獲取噪聲樣本。如對于搜狗語料庫中的“計算機”類別,通過公式(4)、公式(5)計算出分布的偏度、峰度的值分別為–0.26、0.45,根據SPSS描述統(tǒng)計分析結果,該分布通過正態(tài)性檢驗。計算得到均值為–3.44,均方差為1.16,并根據公式(8)計算均值的95%置信區(qū)間為[–3.49,–3.32]。設定閾值ε=0.50,則在區(qū)間[–8,–3.49]上,計算得到噪聲樣本數(shù)為17,針對搜狗、復旦大學兩種公開語料,計算各類別的噪聲樣本數(shù)以及各類別的聚類密度如表1所示:通過表1可以看出,這兩種公開語料庫各類別中均含有一定的噪聲樣本,且通過計算看出復旦大學語料庫的聚類密度要高于搜狗語料庫的聚類密度。在獲得噪聲樣本后進行裁剪,然后計算裁剪后文檔對所服從分布的相對熵以及類別的聚類密度,以檢驗噪聲識別的有效性,如圖2所示:通過計算噪聲樣本裁剪前后相對熵以及類別聚類密度變化發(fā)現(xiàn),噪聲樣本的刪除對每個類別的文檔相似度分布都有較大的影響,其中類別“計算機”、“體育”、“經濟”相對熵值較高,說明噪聲樣本處理使得兩個概率分布差異較大。另外,噪聲樣本的裁剪也使得各個類別的聚類密度都有所增大。限于篇幅,本文只列出搜狗語料庫噪聲樣本處理前后聚類密度的變化情況。圖2說明該方法能夠有效挖掘噪聲樣本,使語料中各個類別的概念信息更加清晰、明確,從而更有利于文本分類器的分類。為進一步驗證該方法的有效性,計算搜狗、復旦語料噪聲處理前后各類別上的分類準確率,如圖3所示:從圖3可以看出,通過刪除噪聲樣本,使得搜狗、復旦語料庫各類別的分類準確率都得到提高,搜狗語料庫各類別分類準確率平均提高3.37%,復旦語料庫各類別分類準確率平均提高4.83%。噪聲樣本的裁剪使得類別的概念信息變得清晰明確,從而使得分類器的分類性能得到提高,驗證了該方法的有效性。另外,為驗證本文方法在不同領域、不同類型數(shù)據上的有效性,針對圖書、期刊自建語料采用該方法進行噪聲樣本識別,分類效果如圖4所示:通過圖4可以看出,搜狗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國食品級磷酸鹽行業(yè)投資規(guī)劃及發(fā)展前景研究報告
- 2025-2030年中國雕塑工藝品行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究報告
- 2025-2030年中國金屬酸洗行業(yè)發(fā)展趨勢及前景調研分析報告
- 2025-2030年中國辣椒紅色素市場運行態(tài)勢及投資戰(zhàn)略研究報告
- 2025年河北建筑安全員考試題庫
- 2025-2030年中國花露水運行趨勢及發(fā)展前景分析報告
- 2025-2030年中國磷酸二氫鉀行業(yè)運營狀況及發(fā)展趨勢分析報告
- 2025-2030年中國男士香水行業(yè)運營狀況及投資策略研究報告
- 唐山職業(yè)技術學院《國際人才管理》2023-2024學年第二學期期末試卷
- 全國教育科學規(guī)劃課題申報書:34.《高質量數(shù)字教材建設研究》
- 電氣設備安裝調試工詳細上崗崗前培訓制度培訓
- 《系統(tǒng)集成項目管理工程師》必背100題
- 中國特色社會主義思想概論 課件 第四章 堅持以人民為中心
- 湘少版3-6年級詞匯表帶音標
- 采購部組織結構圖
- 土力學與地基基礎(課件)
- 股票入門-k線圖基礎知識
- 全國大全身份證前六位、區(qū)號、郵編-編碼
- 種植林業(yè)可行性研究報告
- 金和物業(yè)公司簡介
評論
0/150
提交評論