文本分類(lèi)綜述1

上傳人：J*** IP屬地：廣東上傳時(shí)間：2023-04-12 格式：DOCX 頁(yè)數(shù)：8 大小：19.27KB 積分：2.4 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本文格式為Word版，下載可任意編輯——文本分類(lèi)綜述1文本分類(lèi)綜述

1.引言

1.1文本分類(lèi)的定義

文本分類(lèi)用電腦對(duì)文本集依照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記，與文本分類(lèi)相近的概念是文本聚類(lèi)。文本聚類(lèi)是指，由機(jī)器將相像的文檔歸在一起。與文本分類(lèi)的區(qū)別在于，文本分類(lèi)是監(jiān)視學(xué)習(xí)，類(lèi)別是事先規(guī)定好的，文本聚類(lèi)是無(wú)監(jiān)視學(xué)習(xí)，由計(jì)算機(jī)把類(lèi)似文本歸在一起，事先并不劃定好類(lèi)別。

基于統(tǒng)計(jì)的文本分類(lèi)算法進(jìn)行文本分類(lèi)就是由計(jì)算機(jī)自己來(lái)觀測(cè)由人提供的訓(xùn)練文檔集，自己總結(jié)出用于判別文檔類(lèi)別的規(guī)則和依據(jù)。

文本分類(lèi)的基本步驟是：文本表示->特征降維->分類(lèi)器訓(xùn)練>文本分類(lèi)

1.2文本分類(lèi)的基本思路

文本分類(lèi)基本方法可以歸結(jié)為根據(jù)待分類(lèi)數(shù)據(jù)的某些特征來(lái)進(jìn)行匹配，選擇最優(yōu)的匹配結(jié)果，從而實(shí)現(xiàn)分類(lèi)。

計(jì)算機(jī)并不認(rèn)識(shí)文檔，因此首先就要設(shè)法如何轉(zhuǎn)化一篇文檔為計(jì)算機(jī)所接受，轉(zhuǎn)化方法要與文本有對(duì)應(yīng)關(guān)系。對(duì)于計(jì)算機(jī)文本分類(lèi)而言，這是最重要的步驟。

其次要制定出一定的評(píng)判標(biāo)準(zhǔn)，根據(jù)文檔表示結(jié)果對(duì)文本進(jìn)行分類(lèi)

1.3文本分類(lèi)目前的研究熱點(diǎn)

2.文本表示

利用計(jì)算機(jī)來(lái)解決問(wèn)題，首先就是要找到一種使計(jì)算機(jī)能夠理解方法來(lái)表述問(wèn)題，對(duì)文本分類(lèi)問(wèn)題來(lái)說(shuō)，就是要建立一個(gè)文檔表示模型。

一般來(lái)說(shuō)，利用文檔中的語(yǔ)義信息來(lái)表示文檔比較困難，因此直接采用詞頻來(lái)表示文檔，不過(guò)也出現(xiàn)了大量利用語(yǔ)義的文檔表示方法。

2.1向量空間模型（VSM）

VSM模型是目前所用的較多的文本表示模型，這種模型把文本看作是一個(gè)特征項(xiàng)的集合。特征項(xiàng)可以是詞，也可以是人為所構(gòu)造的合理的特征。

2.2詞袋模型

詞袋模型是VSM模型在文本分類(lèi)問(wèn)題中的一個(gè)最簡(jiǎn)單的應(yīng)用。對(duì)于一篇文檔，最直觀的方法就是使用詞和短語(yǔ)作為表示文本的特征。對(duì)于英文文章來(lái)說(shuō)，各個(gè)單詞之間己經(jīng)用空格分開(kāi)，可以直接獲取特征詞，不過(guò)由于英語(yǔ)中存在詞形的變化，如:名詞的單復(fù)數(shù)、動(dòng)詞的時(shí)態(tài)變化、詞的前綴和后綴變化等，所以會(huì)需要一個(gè)抽取詞干的過(guò)程。對(duì)于中文來(lái)說(shuō)，由于詞和詞之間沒(méi)有停頓，所以需要借助于詞典來(lái)統(tǒng)計(jì)特征詞。對(duì)于文本分類(lèi)來(lái)說(shuō)，常用的方法為T(mén)F即詞頻法。

具體操作為：

對(duì)文本，北京理工大學(xué)計(jì)算機(jī)專(zhuān)業(yè)創(chuàng)立于1958年，是中國(guó)最早設(shè)立的計(jì)算機(jī)專(zhuān)業(yè)的大學(xué)之一。對(duì)于該文檔，詞袋為{北京、理工、大學(xué)、計(jì)算機(jī)、專(zhuān)業(yè)、創(chuàng)立、1958、中國(guó)、最早、設(shè)立}相應(yīng)的向量為{1,1,2,2,2,1,1,1,1}，這種統(tǒng)計(jì)特征詞詞頻當(dāng)作文檔特征的方法也稱(chēng)為T(mén)F法，為了防止這種方法統(tǒng)計(jì)出的特征使得文本長(zhǎng)度影響到分類(lèi)結(jié)果，要把它做歸一化處理，最簡(jiǎn)單想到的歸一化做法是除以文本長(zhǎng)度。

另外還有另一個(gè)指標(biāo)IDF指標(biāo)，衡量詞的重要性，一個(gè)詞在一篇文本中出現(xiàn)的頻率越高，同時(shí)在總的訓(xùn)練文本中出現(xiàn)的頻率越低，那么這個(gè)詞的IDF值越高。

操作：

總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目，再將得到的商取對(duì)數(shù)得到，公式表示為

idf?log(|D|)|j:ti?dj|，idf衡量了一個(gè)詞的重要程度，因此tf×idf可以更好的來(lái)表示文本。

2.3其他模型

3.特征降維

文本所形成的不加處理的特征向量維數(shù)很高，以詞袋模型為例，一方面，好多文章只有幾千詞，而一個(gè)分詞詞典所包含的詞有數(shù)萬(wàn)個(gè)，假使不加處理，把所有詞都表示出來(lái)，是極大的浪費(fèi)，另一方面，若依照分詞詞典建立向量，事實(shí)上是無(wú)法使用的，因此需要對(duì)文檔特征進(jìn)行降維處理。把不用的特征去掉，保存區(qū)分度高的詞語(yǔ)。特偵降維可以有兩種思路，特征選擇和特征提取，其中，特征選擇是指在原有特征的基礎(chǔ)上，選擇一部分特征來(lái)表示文本，特征性質(zhì)不變，例如

對(duì)于詞袋模型，只是從原先的詞袋中選擇一部分區(qū)分度高的詞語(yǔ)，選擇結(jié)果依舊是詞。特征抽取是指一種特征通過(guò)一定的方法變換，得到的特征與原來(lái)的特征完全不同。

3.1特征選擇

對(duì)于特征選擇來(lái)說(shuō)，主要是把原先區(qū)分度低的詞去掉。

2.2節(jié)所述的idf方法也可以作為一種特征選擇的方法。除此之外，也有使用方差來(lái)篩選特征詞的程序。3.1.1信息增益

在文本分類(lèi)系統(tǒng)中，關(guān)于類(lèi)別的信息量可以用如下式子來(lái)衡量，

H(C)??P(Ci)?log2P(Ci)i?1n其中P(Ci)是指類(lèi)別Ci出現(xiàn)的概率

信息增益選擇特征這種方法是指，在一個(gè)文本分類(lèi)系統(tǒng)中，對(duì)于一個(gè)特征t，當(dāng)考慮t時(shí)，文本分類(lèi)系統(tǒng)的信息量記為H1，當(dāng)不考慮時(shí)記為H2，那么H=H1-H2就稱(chēng)為t的信息增益，當(dāng)差值越大，那么說(shuō)明這個(gè)特征越重要。

計(jì)算信息增益的公式為

公式說(shuō)明：公式目的要計(jì)算出系統(tǒng)中特征t存在與否對(duì)系統(tǒng)的信息量的影響，所以要取得有無(wú)特征t這兩種狀態(tài)的差值即可，系統(tǒng)在存在t時(shí)，有兩種可能，t存在和不存在。既式子的最終部分。

具體做法：

P（C1）即是C1所包含的文本數(shù)/文本總數(shù)，P（C1|t）即C1類(lèi)中包含t的文本數(shù)/包含t的文本總數(shù)；最終一項(xiàng)即是C1類(lèi)中不包含t的文本數(shù)/不包含t的文本總數(shù)。

3.1.2開(kāi)方檢驗(yàn)3.1.3互信息法

互信息用MI(t,Ci)來(lái)表示，含義為特征t與類(lèi)別Ci的相關(guān)程度，值越大，

表示相關(guān)程度越大。也是特征選擇的目標(biāo)。互信息的量化方法為下式。

P(t,Ci)MI(t,Ci)?logP(t)P(Ci)由此，為了統(tǒng)一衡量特征t的互信息，其全局互信息可以定義為

MI(t)??P(Ci)?MI(t,Ci)

ni?1說(shuō)明和操作：

分母為類(lèi)Ci中出現(xiàn)特征t的文本數(shù)除以總文本數(shù)，分子中，P(t)是出現(xiàn)特征t的文本數(shù)除以總的文本數(shù)。P（Ci）是屬于類(lèi)Ci的文本數(shù)除以總的文本數(shù)。

3.2特征提取

4.文本分類(lèi)算法

4.1向量中心算法

這種算法把一個(gè)類(lèi)別里的樣本文檔各項(xiàng)取個(gè)平均值（例如把所有“體育〞類(lèi)文檔中詞匯“籃球〞出現(xiàn)的次數(shù)取個(gè)平均值，再把“裁判〞取個(gè)平均值，依次做下去），可以得到一個(gè)新的向量，即一個(gè)類(lèi)別的中心，這個(gè)中心就是這個(gè)類(lèi)別最具代表性的向量表示。再有新文檔需要判斷的時(shí)候，比較新文檔和中心的距離，從而可以新文檔屬不屬于這個(gè)類(lèi)。

4.2K近鄰算法

一個(gè)文本采用TF法來(lái)表示，形成一個(gè)文本的特征向量，從而一個(gè)文本可以用特征空間的一個(gè)點(diǎn)來(lái)表示，在訓(xùn)練階段存入一批代表文本的樣本點(diǎn)，對(duì)于一個(gè)待分類(lèi)文本，該算法探尋與該文本最接近的k個(gè)已知樣本，距離可以使用歐氏距離來(lái)算，從而根據(jù)這最接近的k個(gè)文本所屬的判斷出該未知樣本的分類(lèi)所屬。

4.3簡(jiǎn)樸貝葉斯算法

簡(jiǎn)樸貝葉斯算法則是從貝葉斯公式蛻變而來(lái)的。假設(shè)文本特征表示為（a1，a2，…，an）

前提假設(shè)為屬性值之間相互條件獨(dú)立，即做出如下假設(shè)P(a12,...,an|v)??P(ai|v),aiVmax?argmaxP(Vj|a，a2，?,an)1

argmaxP(Vj|a1，a2，?,an)表示在有特征（a1，a2…an）條件下該文本屬于

Vj的概率。Vj屬于類(lèi)別集合，Vmax是得到的最可能的分類(lèi)所屬

P(Vj|a1，a2，?,an)利用貝葉斯公式改寫(xiě)得

Vmax?argmaxP(a1，a2，?,an/Vj)P(Vj)/P(a1，a2，?,an)

?,an)又由于簡(jiǎn)樸貝葉斯分類(lèi)器默認(rèn)a1...an他們相互獨(dú)立的，所以P(a1，a2，為定值。

V?argmaxP(a1，a2，?,an/Vj)P(Vj

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

文本分類(lèi)綜述1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

文本分類(lèi)綜述1

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔