(人工智能)人工智能的文本分類方法簡述_第1頁
(人工智能)人工智能的文本分類方法簡述_第2頁
(人工智能)人工智能的文本分類方法簡述_第3頁
(人工智能)人工智能的文本分類方法簡述_第4頁
(人工智能)人工智能的文本分類方法簡述_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、【毓卓腌S旅舸自摭制(人工智能)人工智能的文本分類方法簡述摘要:本文闡述了壹些基本的文本分類的方法,以及壹些改進的文本文類的方法,且包含了壹些文本分類的實際應(yīng)用。其中著重闡述了貝葉斯分類以及壹些其他的的文本分類方法。最后提出了當下文本分類方法中存于的壹些問題。關(guān)鍵詞:文本分類;貝葉斯方法;數(shù)據(jù)挖掘;分類算法。0引言文本分類是指于給定分類體系下,根據(jù)文本內(nèi)容(自動)確定文本類別的過程。20世紀90年代以前,占主導(dǎo)地位的文本分類方法壹直是基于知識工程的分類方法,即由專業(yè)人員手工進行分類。目前于國內(nèi)也已經(jīng)開始對中文文本分類方法進行研究,相比于英文文本分類,中文文本分類的壹個重要的差別于于預(yù)處理階段:

2、中文文本的讀取需要分詞,不像英文文本的單詞那樣有空格來區(qū)分。從簡單的查詞典的方法,到后來的基于統(tǒng)計語言模型的分詞方法,中文分詞的技術(shù)已趨于成熟。且于信息檢索、Web文檔自動分類、數(shù)字圖書館、自動文摘、分類新聞組、文本過濾、單詞語義辨析以及文檔的組織和管理等多個領(lǐng)域得到了初步的應(yīng)用。人工智能的基本方法就是對人類智能活動的仿真。小樣本數(shù)據(jù)能夠見作是壹種先驗知識不完全的數(shù)據(jù)集。人類于處理類似的決策問題時,通常采用的策略為:1,利用多專家決策來提高決策的可信度;2,專家的決策技能于決策的過程中能夠得到不斷的增強,即專家具有學習功能;3,于專家的技能得到增強的基礎(chǔ)上,再進行決策能夠提高決策的正確性。這種

3、方法同樣適用于小樣本數(shù)據(jù)的分類識別。通過對上述方法的仿真,本文提出了智能分類器,它不僅能夠?qū)ξ粗獦颖具M行分類,同時它仍具有多專家決策、預(yù)分類和學習功能。1分類的基本概念分類就是根據(jù)數(shù)據(jù)集的特點找出類別的概念描述,這個概念描述代表了這類數(shù)據(jù)的整體信息,也就是該類的內(nèi)涵描述,且使用這種類的描述對未來的測試數(shù)據(jù)進行分類。分類的過程壹般分為倆個步驟:第壹步,通過已知數(shù)據(jù)集建立概念描述模型;第二步,就是利用所獲得的模型進行分類操作。對各種分類方法的評估能夠根據(jù)以下幾條標準進行:1)預(yù)測準確率,指模型能夠正確預(yù)測未知數(shù)據(jù)類別的能力;2)速度,指構(gòu)造和使用模型時的計算效率;3)魯棒性,指于數(shù)據(jù)帶有噪聲或有數(shù)

4、據(jù)遺失的情況下,模型仍能進行正確預(yù)測的能力;4)可擴展性,指對處理大量數(shù)據(jù)且構(gòu)造相應(yīng)有效模型的能力;5)易理解性,指所獲模型提供的可理解程度。2常用的分類算法2.1基于決策樹的分類所謂決策樹就是壹個類似流程圖的樹型結(jié)構(gòu),其中樹的每個節(jié)點對應(yīng)壹個非類別屬性,每條邊對應(yīng)這個屬性的每種可能值,而樹的每個葉結(jié)點代表壹個類別(如圖1)。生成決策樹的壹個著名的算法是Quinlan提出的ID3算法,ID3算法從樹的根節(jié)點處的所有訓練樣本開始,選取壹個屬性來區(qū)分這些樣本,屬性的每壹個值產(chǎn)生壹個分支。將分支屬性值的相應(yīng)樣本子集移到新生成的子節(jié)點上。這個算法遞歸地應(yīng)用于每個子節(jié)點,直到壹個節(jié)點上的所有樣本均分區(qū)到

5、某個類中。屬性選擇采用信息增益的方法來確定。選擇具有最高信息增益(熵減少的程度最大)的屬性作為當前結(jié)點的測試屬性,這樣保證所產(chǎn)生的決策樹最為簡單,工作量最小。設(shè)S為壹個包含了S個數(shù)據(jù)樣本的集合,且類別屬性能夠取m個不同的值CLC2,Cm。假設(shè)Si為類別Ci中的樣本個數(shù);則對壹個給定數(shù)據(jù)對象進行分類所需要的信息量為:其中pi=si/s。設(shè)壹個屬性A取v個不同的值a1,a2.,av利用屬性A將S劃分為v個子集SLS2.,Sv,設(shè)Sij為子集Sj中屬于Ci類別的樣本數(shù)。那么利用屬性人劃分當前樣本集合所需要的信息(熵)能夠按如下公式計算:這樣利用屬性A對當前分支結(jié)點進行相應(yīng)樣本集合劃分所獲得的信息增益

6、就是:通過之上公式計算每個屬性的信息增益。選擇具有最高信息增益的屬性作為給定集合S的測試屬性,創(chuàng)建壹個節(jié)點,且以該屬性標記,對屬性的每個值創(chuàng)建分支,進行樣本劃分。ID3算法于選擇屬性時利用了信息增益的概念,算法的基礎(chǔ)理論清晰;決策樹的每個分支均對應(yīng)壹個分類規(guī)則,因此產(chǎn)生的分類規(guī)則易于理解;同時,分類速度較快,準確率較高。可是ID3算法也存于著許多不足:1)不能夠處理連續(xù)值屬性;2)計算信息增益時偏向于選擇取值較多的屬性;3)對噪聲較為敏感;4)于構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導(dǎo)致算法的低效;5)只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集使用,當訓練集大得無法于內(nèi)存容納時程序無法

7、運行。ID3的改進算法有C4.5,C4.5用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇屬性值多的屬性的不足。此外,于樹構(gòu)造過程中或構(gòu)造完成后進行剪枝,提高了抗噪聲能力;能夠?qū)B續(xù)值屬性進行離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。常用的決策樹算法仍有SLIQ算法。SLIQ算法對C4.5分類算法的實現(xiàn)方法進行了改進,于決策樹的構(gòu)造過程中采用了預(yù)排序和廣度優(yōu)先增長策略,使得該算法能夠處理更大的訓練集,因此于壹定程度上具有良好的隨記錄個數(shù)和屬性個數(shù)增長的可擴展性。可是它仍然存于著壹些不足;1)由于需要將類別列表存放于內(nèi)存,于壹定程度上限制了能夠處理的數(shù)據(jù)集的大小;2)由于采用了預(yù)排序技術(shù),

8、而排序算法的復(fù)雜度本身且不是和記錄個數(shù)成線性關(guān)系,因此使得SLIQ算法不可能達到隨記數(shù)目增長的線性可擴展性。貝葉斯分類貝葉斯分類是統(tǒng)計學分類于方法,它能夠預(yù)測壹個給定樣本屬于某壹類別的概率。貝葉斯分類是基于貝葉斯定理而構(gòu)造出來的。基本貝葉斯分類(NaiveBayes)首先假設(shè)壹個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?即類條件獨立,它能夠幫助有效減少于構(gòu)造貝葉斯分類器時所需要的計算量?;矩惾~斯分類的工作過程如下:給定壹個沒有類標號的數(shù)據(jù)樣本X,用X=x1,x2,xn表示,分別描述X于n個屬性A1,A2,An上的屬性值。設(shè)有m個類C1,C2,Cm,那么,將樣本X分配給類Ci的條件就是:根據(jù)貝葉

9、斯定理:其中,P(X)對于所有類來說為常數(shù)?(Ci)=si/s。假定各屬性值相互條件獨立(類條件獨立),這樣P(X|Ci)的計算可使用公式:概率P(xk|Ci)能夠由訓練樣本估算:1)如果Ak是分類屬性,則P(xk|Ci)=sik/si。2)如果Ak是連續(xù)值屬性,則通常假定該屬性服從高斯分布,用高斯密度的數(shù)計算。因而,對未知樣本X分類,樣本X被分類到類Ci,而且僅當基本貝葉斯分類假定類條件獨立,簡化了計算。當假定成立時,和其它分類算法相比,基本貝葉斯分類是最精確的。但實際上變量間的相互依賴情況是較為常見的。為解決這個問題,可使用貝葉斯信念網(wǎng)絡(luò)描述這種相互關(guān)聯(lián)的概率分布。該網(wǎng)絡(luò)能夠描述各屬性子集

10、之間有條件的相互獨立,它提供了壹個圖形模型來描述其中的因果關(guān)系。貝葉斯分類于處理大規(guī)模數(shù)據(jù)庫時,表現(xiàn)出了較高的分類準確性和運算性能。它仍可為其它分類算法提供理論判定??墒?該算法沒有直接的分類規(guī)則輸出。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)就是壹組相互連接的輸入輸出單元(又稱神經(jīng)元),單元之間的每個連接均和壹個權(quán)重關(guān)聯(lián)聯(lián)。于網(wǎng)絡(luò)學習階段,網(wǎng)絡(luò)通過調(diào)整權(quán)重來實現(xiàn)輸入樣本和其相應(yīng)類別的對應(yīng)。神經(jīng)網(wǎng)絡(luò)訓練完畢后,只要把數(shù)據(jù)輸入到已訓練好的神經(jīng)網(wǎng)絡(luò)輸入端,就能夠從輸出端直接得到分類結(jié)果。神經(jīng)網(wǎng)絡(luò)分類過程能夠分為訓練和分類倆個階段。于訓練階段,首先定義網(wǎng)絡(luò)的拓撲結(jié)構(gòu),再對訓練樣本中的每個屬性的值進行規(guī)范化預(yù)處理,然后用神經(jīng)網(wǎng)

11、絡(luò)對已預(yù)處理的輸入進行學習。訓練完畢后,用訓練好的神經(jīng)網(wǎng)絡(luò)對標識樣本進行分類。目前的神經(jīng)網(wǎng)絡(luò)模型很多,而反向傳播模型(BP模型)是使用最多的典型神經(jīng)網(wǎng)絡(luò)。反向傳播算法于多層前饋神經(jīng)網(wǎng)絡(luò)上學習,如圖2。其中的輸入對應(yīng)每個訓練樣本的各個屬性取值;輸入賦給輸入層單元,這些單元的輸出結(jié)合相應(yīng)的權(quán)重饋給第二層(隱藏層)單元;隱藏層的帶權(quán)輸出又作為輸入再饋給另壹隱層等等,最后的隱層結(jié)點帶權(quán)輸出饋給輸出層單元,輸出層單元最終給出相應(yīng)樣本的預(yù)測輸出。反向傳播通過迭代的處理壹組訓練樣本,將每個樣本的網(wǎng)絡(luò)預(yù)測和實際知道的類標號進行比較、學習,通過修改權(quán),使網(wǎng)絡(luò)預(yù)測和實際類之間的均方誤差最小。這種修改是向后進行的,

12、即由輸出層,經(jīng)過每個隱藏層,到第壹個隱藏層。當權(quán)最終收斂時,學習過程停止。神經(jīng)網(wǎng)絡(luò)法的優(yōu)點是有較強的抗噪能力,對未經(jīng)訓練的數(shù)據(jù)也具有較好的預(yù)測分類能力。神經(jīng)網(wǎng)絡(luò)的主要缺點是它的知識表示問題,也就是說用加權(quán)鏈連結(jié)單元的網(wǎng)絡(luò)所表示的知識很難被人理解。此外,神經(jīng)網(wǎng)絡(luò)法的學習時間較長,僅適用于時間容許的應(yīng)用場合;對于如網(wǎng)絡(luò)結(jié)構(gòu)等關(guān)鍵參數(shù),通常需要經(jīng)驗方能有效確定。3智能文本處理策略由于文本本身的復(fù)雜性、不規(guī)律性的特征,文本自動分類系統(tǒng)是壹個涉及多方面綜合的系統(tǒng),想獲得良好的文本分類效果,不僅僅是單純的分類處理算法的問題,必須運用多種手段加以解決,特別是文檔分類系統(tǒng)作為壹個有指導(dǎo)的學習系統(tǒng),和其它控制系

13、統(tǒng)具有類似的特性,能夠借鑒其它的智能控制技術(shù)加以解決。為此,根據(jù)文本自動分類處理的特點,我們給出壹種文本分類系統(tǒng)的多策略智能解決方案,從影響分類處理的幾個主要環(huán)節(jié)入手,來優(yōu)化處理分類系統(tǒng)的流程,從而從效果上大大提高分類處理效果,為文本分類處理提供綜合的解決方法。處理上主要從以下幾方面對分類系統(tǒng)進行了改善訓練文檔的優(yōu)化從整個系統(tǒng)的入口環(huán)節(jié)入手,對系統(tǒng)進行學習的樣本進行控制才是高學習樣本的質(zhì)量,從而為分類模型的建立提供較好的保證。分類模型的運用策略從具體分類模式的運用上,進壹步增強系統(tǒng)的分類效果。分類系統(tǒng)的反債學習實現(xiàn)系統(tǒng)于使用過程中不斷的自我學習、自我完善,從而達到其分類性能不斷提高的目的。模糊

14、分類處理提高分類處理的智能化,使分類處理結(jié)果更能反應(yīng)文本類別的真實特征,從而達到減小誤分類、提高分類精度的目的。多模型處理技術(shù)對于信息分類技術(shù)的研究,長期以來形成了各種各樣的方法,如Rule-based、NaiveBayesian、kNN、DecisionTree、SVM、Boosting等,不同的方法均有各自不同的特點,是從不同的方面實現(xiàn)了對分類問題的描述,且且,壹些簡單的分類方法往往也能夠達到壹個較好的效果就目前的研究來見,SMV方法作為性能較好的分類處理方法,比其它的分類方法具有壹定的優(yōu)越性。但從實驗結(jié)果表明,其分類性能比傳統(tǒng)的簡單的分類方法,如kNN也且沒有壹個太大的提高,這是由我們所

15、提到的文本本身的復(fù)雜性所決定的同時,采用Boosting方法的試驗結(jié)果表明其也可取得較好的分類效果,Boosting的主要思想用壹些弱的分類規(guī)則實現(xiàn)較高分類效果的目的。因此,針對這種情況,于具體處理時,我們能夠?qū)追N不同的方法結(jié)合起來進行處理,如將支持向量機方法和基于規(guī)則的方法相結(jié)合等,使各種分類方法取長補短,互相補充,即幾個不同分類器的結(jié)合,其整體分類性能將高于任何壹個,從而提高分類的精度和效率。模糊分類處理技術(shù)模糊性是客觀事物的本質(zhì)特性。于分類處理中,對于待分類的文本,均是于某種程度上屬于某壹個類別,而且非是絕對二值邏輯。于我們根據(jù)具體的分類模型進行分類處理時,我們得到的往往也是待分類文檔

16、屬于各個類別的數(shù)值信息,于壹般情況下往往是根據(jù)最大的結(jié)果數(shù)值來判定系統(tǒng)的分類結(jié)果,這將會丟失大量的信息,造成大量的誤分類情況。而模糊處理技術(shù)正是根據(jù)事物本身模糊性的特征,于處理過程中根據(jù)模糊規(guī)則進行處理,從而更能真實地反映事物的本來面目因此,為提高分類的智能性、準確性,于進行分類處理時,能夠運用模糊處理技術(shù),對分類結(jié)果進行模糊規(guī)則處理,即先對分類模型的分類結(jié)果進行模糊化處理,將具體的數(shù)值量轉(zhuǎn)換成模糊變量,然后根據(jù)具體情況制定相應(yīng)的分類處理規(guī)則,實現(xiàn)模糊推理。運用模糊分類處理,也能夠很好地處理文本分類中的兼類、拒類等情形。當只有屬于某壹個類別的可信度為高時,則該類別為其所對應(yīng)分類當同時對應(yīng)于倆個

17、或多個類別的可信度均高時,則該文檔可同時被分為多個類,即是兼類而當文檔所對應(yīng)的所有分類的可信度皆為低時,則為拒類從而使分類處理具有了專家分類處理時的智能性,當然也就更能準確地反應(yīng)文本本身所具有的實際類別特征。4改進的貝葉斯分類于文本分類中的應(yīng)用關(guān)鍵的壹個技術(shù)是特征提取。文本分類中特征提取的步驟包括:詞語切分,詞頻統(tǒng)計,加權(quán)計算和特征選擇(二者通常結(jié)合于壹起進行)。于文本分類中有很多權(quán)重計算和特征選擇的公式,如信息增益、期望交叉嫡、文本證據(jù)權(quán)、zx統(tǒng)計量等,其中最著名的是TFIDF公式.那么,權(quán)重計算和和特征選擇的公式究竟哪個為優(yōu)呢?其實于這些公式中,關(guān)鍵于于特征選擇時的傾向:高頻詞或稀有詞,也

18、就是公式中的P(w)因子起很大作用。因此,于特征選擇時,理想的做法應(yīng)該是充分考慮P(w)因子的作用,最好能兼顧到高權(quán)高頻詞和低頻高權(quán)詞。有學者對TF*F和TF*IWF*IWFF公式進行了分析且作了壹些改進,認為關(guān)鍵詞于某類的權(quán)重受3個因素的影響:該詞于當前類中的出現(xiàn)頻率;該詞于總語料中的出現(xiàn)頻率;該詞于不同類別之間出現(xiàn)頻率的差異。最終得到關(guān)鍵詞于類中的權(quán)重計算公式:其中,Lj是類cj含有的所有詞的次數(shù)之和,Tij是詞i于類cj出現(xiàn)的次數(shù);,其中m為類別數(shù);即亞。表示訓練語料中出現(xiàn)詞wi的次數(shù),N是訓練語料中所有詞出現(xiàn)次數(shù)之和;nL類別區(qū)別度用來表示某壹個詞語對于文本分類的貢獻程度,即詞語的領(lǐng)域

19、區(qū)別程度。直觀地見,如果壹個詞語于每壹類中均比較均勻地出現(xiàn),那么它對于分類的貢獻幾乎為零,類別區(qū)別度很低;如果某壹詞語只于某壹類中出現(xiàn),那么它對于分類的貢獻很高,有的幾乎能夠壹詞定類,類別區(qū)別度也就很高了。比如,虛詞“的、我、于”的類別區(qū)別度很低,而“魔獸爭霸、重倉股、手機操作系統(tǒng)”這樣的詞語其類別區(qū)別度就很高。5文本分類方法研究存于的問題分詞是影響文本分類的重要因素之壹,分詞的速度和準確率和最終的分類結(jié)果密切關(guān)聯(lián)。尤其是Web上不斷出現(xiàn)新詞匯,對分詞理論的創(chuàng)新和詞典的構(gòu)造均提出了較高的要求。由于中文文本分類起步晚和中文不同于英文的特性后前中文Web文本分類仍沒有標準的開放的文本測試集,各研究者大多使用自己建立的文本集進行訓練和測試,其分類結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論