




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本文格式為Word版,下載可任意編輯——文本分類(lèi)綜述1文本分類(lèi)綜述
1.引言
1.1文本分類(lèi)的定義
文本分類(lèi)用電腦對(duì)文本集依照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記,與文本分類(lèi)相近的概念是文本聚類(lèi)。文本聚類(lèi)是指,由機(jī)器將相像的文檔歸在一起。與文本分類(lèi)的區(qū)別在于,文本分類(lèi)是監(jiān)視學(xué)習(xí),類(lèi)別是事先規(guī)定好的,文本聚類(lèi)是無(wú)監(jiān)視學(xué)習(xí),由計(jì)算機(jī)把類(lèi)似文本歸在一起,事先并不劃定好類(lèi)別。
基于統(tǒng)計(jì)的文本分類(lèi)算法進(jìn)行文本分類(lèi)就是由計(jì)算機(jī)自己來(lái)觀測(cè)由人提供的訓(xùn)練文檔集,自己總結(jié)出用于判別文檔類(lèi)別的規(guī)則和依據(jù)。
文本分類(lèi)的基本步驟是:文本表示->特征降維->分類(lèi)器訓(xùn)練>文本分類(lèi)
1.2文本分類(lèi)的基本思路
文本分類(lèi)基本方法可以歸結(jié)為根據(jù)待分類(lèi)數(shù)據(jù)的某些特征來(lái)進(jìn)行匹配,選擇最優(yōu)的匹配結(jié)果,從而實(shí)現(xiàn)分類(lèi)。
計(jì)算機(jī)并不認(rèn)識(shí)文檔,因此首先就要設(shè)法如何轉(zhuǎn)化一篇文檔為計(jì)算機(jī)所接受,轉(zhuǎn)化方法要與文本有對(duì)應(yīng)關(guān)系。對(duì)于計(jì)算機(jī)文本分類(lèi)而言,這是最重要的步驟。
其次要制定出一定的評(píng)判標(biāo)準(zhǔn),根據(jù)文檔表示結(jié)果對(duì)文本進(jìn)行分類(lèi)
1.3文本分類(lèi)目前的研究熱點(diǎn)
2.文本表示
利用計(jì)算機(jī)來(lái)解決問(wèn)題,首先就是要找到一種使計(jì)算機(jī)能夠理解方法來(lái)表述問(wèn)題,對(duì)文本分類(lèi)問(wèn)題來(lái)說(shuō),就是要建立一個(gè)文檔表示模型。
一般來(lái)說(shuō),利用文檔中的語(yǔ)義信息來(lái)表示文檔比較困難,因此直接采用詞頻來(lái)表示文檔,不過(guò)也出現(xiàn)了大量利用語(yǔ)義的文檔表示方法。
2.1向量空間模型(VSM)
VSM模型是目前所用的較多的文本表示模型,這種模型把文本看作是一個(gè)特征項(xiàng)的集合。特征項(xiàng)可以是詞,也可以是人為所構(gòu)造的合理的特征。
2.2詞袋模型
詞袋模型是VSM模型在文本分類(lèi)問(wèn)題中的一個(gè)最簡(jiǎn)單的應(yīng)用。對(duì)于一篇文檔,最直觀的方法就是使用詞和短語(yǔ)作為表示文本的特征。對(duì)于英文文章來(lái)說(shuō),各個(gè)單詞之間己經(jīng)用空格分開(kāi),可以直接獲取特征詞,不過(guò)由于英語(yǔ)中存在詞形的變化,如:名詞的單復(fù)數(shù)、動(dòng)詞的時(shí)態(tài)變化、詞的前綴和后綴變化等,所以會(huì)需要一個(gè)抽取詞干的過(guò)程。對(duì)于中文來(lái)說(shuō),由于詞和詞之間沒(méi)有停頓,所以需要借助于詞典來(lái)統(tǒng)計(jì)特征詞。對(duì)于文本分類(lèi)來(lái)說(shuō),常用的方法為T(mén)F即詞頻法。
具體操作為:
對(duì)文本,北京理工大學(xué)計(jì)算機(jī)專(zhuān)業(yè)創(chuàng)立于1958年,是中國(guó)最早設(shè)立的計(jì)算機(jī)專(zhuān)業(yè)的大學(xué)之一。對(duì)于該文檔,詞袋為{北京、理工、大學(xué)、計(jì)算機(jī)、專(zhuān)業(yè)、創(chuàng)立、1958、中國(guó)、最早、設(shè)立}相應(yīng)的向量為{1,1,2,2,2,1,1,1,1},這種統(tǒng)計(jì)特征詞詞頻當(dāng)作文檔特征的方法也稱(chēng)為T(mén)F法,為了防止這種方法統(tǒng)計(jì)出的特征使得文本長(zhǎng)度影響到分類(lèi)結(jié)果,要把它做歸一化處理,最簡(jiǎn)單想到的歸一化做法是除以文本長(zhǎng)度。
另外還有另一個(gè)指標(biāo)IDF指標(biāo),衡量詞的重要性,一個(gè)詞在一篇文本中出現(xiàn)的頻率越高,同時(shí)在總的訓(xùn)練文本中出現(xiàn)的頻率越低,那么這個(gè)詞的IDF值越高。
操作:
總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到,公式表示為
idf?log(|D|)|j:ti?dj|,idf衡量了一個(gè)詞的重要程度,因此tf×idf可以更好的來(lái)表示文本。
2.3其他模型
3.特征降維
文本所形成的不加處理的特征向量維數(shù)很高,以詞袋模型為例,一方面,好多文章只有幾千詞,而一個(gè)分詞詞典所包含的詞有數(shù)萬(wàn)個(gè),假使不加處理,把所有詞都表示出來(lái),是極大的浪費(fèi),另一方面,若依照分詞詞典建立向量,事實(shí)上是無(wú)法使用的,因此需要對(duì)文檔特征進(jìn)行降維處理。把不用的特征去掉,保存區(qū)分度高的詞語(yǔ)。特偵降維可以有兩種思路,特征選擇和特征提取,其中,特征選擇是指在原有特征的基礎(chǔ)上,選擇一部分特征來(lái)表示文本,特征性質(zhì)不變,例如
對(duì)于詞袋模型,只是從原先的詞袋中選擇一部分區(qū)分度高的詞語(yǔ),選擇結(jié)果依舊是詞。特征抽取是指一種特征通過(guò)一定的方法變換,得到的特征與原來(lái)的特征完全不同。
3.1特征選擇
對(duì)于特征選擇來(lái)說(shuō),主要是把原先區(qū)分度低的詞去掉。
2.2節(jié)所述的idf方法也可以作為一種特征選擇的方法。除此之外,也有使用方差來(lái)篩選特征詞的程序。3.1.1信息增益
在文本分類(lèi)系統(tǒng)中,關(guān)于類(lèi)別的信息量可以用如下式子來(lái)衡量,
H(C)??P(Ci)?log2P(Ci)i?1n其中P(Ci)是指類(lèi)別Ci出現(xiàn)的概率
信息增益選擇特征這種方法是指,在一個(gè)文本分類(lèi)系統(tǒng)中,對(duì)于一個(gè)特征t,當(dāng)考慮t時(shí),文本分類(lèi)系統(tǒng)的信息量記為H1,當(dāng)不考慮時(shí)記為H2,那么H=H1-H2就稱(chēng)為t的信息增益,當(dāng)差值越大,那么說(shuō)明這個(gè)特征越重要。
計(jì)算信息增益的公式為
IG(t)???P(Ci)log2P(Ci)?P(t)?P(Ci|t)log2P(Ci|t)?P(t)?P(Ci|t)log2P(Ci|t)i?1i?1i?1nn?n???H(C)?H(C|t)
公式說(shuō)明:公式目的要計(jì)算出系統(tǒng)中特征t存在與否對(duì)系統(tǒng)的信息量的影響,所以要取得有無(wú)特征t這兩種狀態(tài)的差值即可,系統(tǒng)在存在t時(shí),有兩種可能,t存在和不存在。既式子的最終部分。
具體做法:
P(C1)即是C1所包含的文本數(shù)/文本總數(shù),P(C1|t)即C1類(lèi)中包含t的文本數(shù)/包含t的文本總數(shù);最終一項(xiàng)即是C1類(lèi)中不包含t的文本數(shù)/不包含t的文本總數(shù)。
3.1.2開(kāi)方檢驗(yàn)3.1.3互信息法
互信息用MI(t,Ci)來(lái)表示,含義為特征t與類(lèi)別Ci的相關(guān)程度,值越大,
表示相關(guān)程度越大。也是特征選擇的目標(biāo)。互信息的量化方法為下式。
P(t,Ci)MI(t,Ci)?logP(t)P(Ci)由此,為了統(tǒng)一衡量特征t的互信息,其全局互信息可以定義為
MI(t)??P(Ci)?MI(t,Ci)
ni?1說(shuō)明和操作:
分母為類(lèi)Ci中出現(xiàn)特征t的文本數(shù)除以總文本數(shù),分子中,P(t)是出現(xiàn)特征t的文本數(shù)除以總的文本數(shù)。P(Ci)是屬于類(lèi)Ci的文本數(shù)除以總的文本數(shù)。
3.2特征提取
4.文本分類(lèi)算法
4.1向量中心算法
這種算法把一個(gè)類(lèi)別里的樣本文檔各項(xiàng)取個(gè)平均值(例如把所有“體育〞類(lèi)文檔中詞匯“籃球〞出現(xiàn)的次數(shù)取個(gè)平均值,再把“裁判〞取個(gè)平均值,依次做下去),可以得到一個(gè)新的向量,即一個(gè)類(lèi)別的中心,這個(gè)中心就是這個(gè)類(lèi)別最具代表性的向量表示。再有新文檔需要判斷的時(shí)候,比較新文檔和中心的距離,從而可以新文檔屬不屬于這個(gè)類(lèi)。
4.2K近鄰算法
一個(gè)文本采用TF法來(lái)表示,形成一個(gè)文本的特征向量,從而一個(gè)文本可以用特征空間的一個(gè)點(diǎn)來(lái)表示,在訓(xùn)練階段存入一批代表文本的樣本點(diǎn),對(duì)于一個(gè)待分類(lèi)文本,該算法探尋與該文本最接近的k個(gè)已知樣本,距離可以使用歐氏距離來(lái)算,從而根據(jù)這最接近的k個(gè)文本所屬的判斷出該未知樣本的分類(lèi)所屬。
4.3簡(jiǎn)樸貝葉斯算法
簡(jiǎn)樸貝葉斯算法則是從貝葉斯公式蛻變而來(lái)的。假設(shè)文本特征表示為(a1,a2,…,an)
前提假設(shè)為屬性值之間相互條件獨(dú)立,即做出如下假設(shè)P(a12,...,an|v)??P(ai|v),aiVmax?argmaxP(Vj|a,a2,?,an)1
argmaxP(Vj|a1,a2,?,an)表示在有特征(a1,a2…an)條件下該文本屬于
Vj的概率。Vj屬于類(lèi)別集合,Vmax是得到的最可能的分類(lèi)所屬
P(Vj|a1,a2,?,an)利用貝葉斯公式改寫(xiě)得
Vmax?argmaxP(a1,a2,?,an/Vj)P(Vj)/P(a1,a2,?,an)
?,an)又由于簡(jiǎn)樸貝葉斯分類(lèi)器默認(rèn)a1...an他們相互獨(dú)立的,所以P(a1,a2,為定值。
V?argmaxP(a1,a2,?,an/Vj)P(Vj
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025陜西省建筑安全員-B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 2025年河北省安全員知識(shí)題庫(kù)附答案
- 醫(yī)療耗材銷(xiāo)售合同范本
- 印制資料合同范例
- 細(xì)胞培養(yǎng)鉆石銷(xiāo)售代理合同
- 公司間策劃合同范本
- 出售公寓房合同范本
- 不執(zhí)行合同范本
- 暗能量教育數(shù)據(jù)價(jià)值挖掘
- CUBA 高職組籃球比賽中技術(shù)運(yùn)用的效果研究
- 實(shí)驗(yàn)一 外科常用手術(shù)器械課件
- 電梯結(jié)構(gòu)與原理-第2版-全套課件
- 《現(xiàn)代漢語(yǔ)》語(yǔ)音教學(xué)上課用課件
- 采購(gòu)流程各部門(mén)關(guān)系圖
- 《遙感導(dǎo)論》全套課件
- 力士樂(lè)工程機(jī)械液壓培訓(xùn)資料(共7篇)課件
- 村光伏發(fā)電申請(qǐng)書(shū)
- 降低混凝土路面裂縫發(fā)生率QC小組資料
- 【教師必備】部編版四年級(jí)語(yǔ)文上冊(cè)第二單元【集體備課】
- 支氣管擴(kuò)張的護(hù)理PPT
- 施工現(xiàn)場(chǎng)專(zhuān)項(xiàng)消防安全檢查表
評(píng)論
0/150
提交評(píng)論