基于TAN的文本分類集成方法

上傳人：7*** IP屬地：湖北上傳時間：2022-02-02 格式：DOC 頁數(shù)：15 大小：34KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于TAN 的文本分類集成方法基于TAN 的文本分類集成方法#劉佳，賈彩燕*基金項目：本文受高等學(xué)校博士學(xué)科點專項科研基金項目（20070004038）資助作者簡介：劉佳，（1985-），男，碩士，主要研究方向：文本挖掘通信聯(lián)系人：賈彩燕，（1976-），女，講師，主要研究方向：數(shù)據(jù)挖掘、生物信息學(xué)、復(fù)雜網(wǎng)絡(luò)分析等. E-mail: EBag-TAN 與單個最優(yōu)TAN 分類器的分類性能相當(dāng)。進(jìn)一步說明了集成方法適用于弱分類器，即如果單個分類器的分類能力越強，集成后的效果越差。需要給出有效的方法增加不同的單分類器之間的分類差異，從而提高集

2、成分類器的分類性能。而對于文本分類問題，基于特征集選取的集成方法可以構(gòu)造出單個分類器多樣性較大的集成分類方法。45 1 集成學(xué)習(xí)目前，集成學(xué)習(xí)分為基于數(shù)據(jù)的集成方法和基于特征的集成方法兩種。基于數(shù)據(jù)的集成主要使用隨機取樣的方法獲取訓(xùn)練數(shù)據(jù)，它是集成學(xué)習(xí)算法獲取差異性個體經(jīng)常使用的方法，包括有放回隨機取樣、無放回隨機取樣與混合取樣（包括無放回隨機取樣與有放回隨機取樣）。比較經(jīng)典的算法包括：Boosting 和Bagging?；谔卣骷募煞椒ㄍㄟ^提取不同50 的特征子集來訓(xùn)練集成模型中的個體，是提高集成個體差異性的一種較好的方法，適用于學(xué)習(xí)性能較穩(wěn)定的分類器。1.1 Boosting 算法Bo

3、osting 算法的基本思想是試圖通過產(chǎn)生數(shù)個簡單的、精度比隨機猜測略好的粗糙估計（Boosting 算法中稱為弱規(guī)則T h , h ,.h 1 2 ），再將這些規(guī)則集成構(gòu)造出一個高精度的估計。55 這種思想起源于Valiant 提出的PAC 學(xué)習(xí)模型4。在PAC 模型中定義了兩個概念：強學(xué)習(xí)和弱學(xué)習(xí)。Keams 和Valiant 提出了弱學(xué)習(xí)算法與強學(xué)習(xí)算法間的等價問題5，即是否能把弱學(xué)習(xí)算法轉(zhuǎn)化為強學(xué)習(xí)算法？如果兩者等價，那么只要找到一個比隨機猜測略好的弱學(xué)習(xí)算法就可以直接將其提升為強學(xué)習(xí)算法，而不必直接去找很難獲得的強學(xué)習(xí)算法。Keams和Valiant6證明只要有足夠的數(shù)據(jù)，弱學(xué)習(xí)算法

4、就能通過集成的方式生成任意高精度的估60 計。1990 年，Schapire7最先構(gòu)造出一種多項式級的算法，即最初的Boosting 算法。1991年，F(xiàn)reund8提出了一種效率更高的Boosting 算法。由于早期的Boosting 算法在解決實際問題時要求事先知道弱學(xué)習(xí)算法學(xué)習(xí)正確率的下限，這實際上很難做到。1995 年，F(xiàn)reund和Schapire9提出了AdaBoost（Adaptive Boosting）算法，這種算法的效率和原來Boosting算法的效率一樣，但不需要任何關(guān)于弱學(xué)習(xí)器性能的先驗知識，可以非常容易地應(yīng)用到實際65 問題中。因此，該算法已成為目前最流行的Boosti

5、ng 算法。AdaBoost 算法的主要思想是給定一個訓(xùn)練集( , ), ( , ),.( , ) 1 1 2 2 m m x y x y x y ，1,+1 i y 。初始化時AdaBoost 指定訓(xùn)練集上的分布為1/m，并按照該分布調(diào)用弱學(xué)習(xí)器對訓(xùn)練集進(jìn)行訓(xùn)練。每次訓(xùn)練后，根據(jù)訓(xùn)練結(jié)果更新訓(xùn)練集上的分布，并按照新的樣本分布進(jìn)行訓(xùn)練。反復(fù)迭代T 輪，最終得到一個估計序列T h , h ,.h 1 2 ，每個估計都具有一定的權(quán)70 重，最終的估計H 是采用有權(quán)重的投票方式獲得。AdaBoost 算法9的偽代碼如下：輸入：訓(xùn)練集( , ),., ( , ) 1 1 m m S = x y x y

6、，其中x X i ， 1,+1 i y ，X 表示一個實例空間；迭代次數(shù)T 和弱分類器。初始化：權(quán)重D (i) 1/ m 1 = ，i = 1, , m。執(zhí)行：For t = 1, , T1) 對有權(quán)重分布的訓(xùn)練集進(jìn)行學(xué)習(xí)，得到一個估計t h ： 1,+1 i 75 x ；2) 計算t h 訓(xùn)練偏差= mit t t i i D i h x y1 ( ) ( )，如果= 0 t或者 1/ 2 t，令T = t-1 并跳出循環(huán)；3) 令0.5 ln(1 ) / t t t = × ；4) 更新權(quán)重： t t t i t i t D (i) D (i)exp y h (x )

7、 / Z 1 = + ，其中t Z 是標(biāo)準(zhǔn)化因子。輸出： ( ) ( ( )1 =Ttt t 80 H x sign h x 。上面給出的算法是針對于兩分類問題的，關(guān)于如何將Boosting 算法應(yīng)用到多分類問題，研究者提出了多種不同的方法，包括AdaBoost.M191、AdaBoost.M291和AdaBoost.MH92等算法。其中，AdaBoost.M1 是最直接的應(yīng)用于多分類問題的方法，其算法步驟如下：輸入：訓(xùn)練集( , ),., ( , ) 1 1 m m S = x y x y ， y Y 1,2,., k i = ，迭代次數(shù)T 和弱學(xué)習(xí)85 算法。初始化：權(quán)重D (i) 1/

8、m 1 = ，i = 1, , m。執(zhí)行：For t = 1, , T1) 用弱學(xué)習(xí)算法對有權(quán)重分布的訓(xùn)練集進(jìn)行學(xué)習(xí)；2) 得到一個估計t h ： X Y ；3) 計算t h 訓(xùn)練偏差=: ( )( )i ht xi yit t D i ，如果> 1/ 2 t 90 ，令T = t-1 并跳出循環(huán)；4) 令/(1 ) t t t = ；5) 更新權(quán)重： = × +t i it t i ittt h x yh x yZD iD i1 ( )( ) ( )( ) 1，其中t Z 是標(biāo)準(zhǔn)化因子。輸出： =t h x y ty YtH x: ( )( ) argmax log 1。1.

9、2 Bagging 算法95 Bagging11（Bootstrap aggregating）是Breiman 在1996 年提出的與Boosting 相似的技術(shù)。Bagging 的基礎(chǔ)是重復(fù)取樣，它通過產(chǎn)生樣本的重復(fù)Bootstrap 實例作為訓(xùn)練集，每次運行Bagging 都隨機地從大小為m 的原始訓(xùn)練集中抽取l 個樣本作為此次訓(xùn)練的集合。這種訓(xùn)練集被稱作原始集合的Bootstrap 復(fù)制，這種技術(shù)也叫Bootstrap 綜合，即Bagging。平均來說，每個Bootstrap 復(fù)制包含原始訓(xùn)練集的63.2%，原始訓(xùn)練集中的某些樣本可能在新的訓(xùn)100 練集中出現(xiàn)多次，而另外一些樣本則可能一

10、次也不出現(xiàn)。Bagging 通過重新選取訓(xùn)練集增加了分量學(xué)習(xí)器集成的差異度，從而提高了泛化能力。Breiman11同時指出，穩(wěn)定性是Bagging 能否提高預(yù)測準(zhǔn)確率的關(guān)鍵因素。Bagging 對不穩(wěn)定的學(xué)習(xí)算法能提高預(yù)測的準(zhǔn)確度，而對穩(wěn)定的學(xué)習(xí)算法效果不明顯，有時甚至?xí)诡A(yù)測精度降低，學(xué)習(xí)算法的不穩(wěn)定性是指如果訓(xùn)練有較小的變化，學(xué)習(xí)算法產(chǎn)生的預(yù)測函數(shù)將105 發(fā)生較大的變化。Bagging 算法的原理如下，給定一個數(shù)據(jù)集( , ),., ( , ) 1 1 l l L = x y x y ，基礎(chǔ)學(xué)習(xí)器為h(x, L) 。如果輸入為x，就通過h(x, L) 來預(yù)測y。現(xiàn)在，假定有一個數(shù)據(jù)集序列

11、 k L ，每個序列都有l(wèi) 個與L 從同樣分布數(shù)據(jù)集得來的獨立觀察組成，任務(wù)是使用 k L 來得到一個更好的學(xué)習(xí)器，它比單個數(shù)據(jù)集學(xué)習(xí)器h(x, L) 要強。Bagging 算法的偽代碼如下：輸入：訓(xùn)練集( , ),.,( , ) 1 1 m m 110 S = x y x y ，迭代次數(shù)T 和弱學(xué)習(xí)算法。執(zhí)行：For t = 1, , T1) 從初始的訓(xùn)練集中采用bootstrap 方法抽取l 個訓(xùn)練實例組成的子集S ' ；2) 在S ' 上，利用弱學(xué)習(xí)算法訓(xùn)練得到弱分類器，得到預(yù)測函數(shù)t h ： X Y ；輸出： = =Tiiy YH x h x y1( ) a

12、rg max ( ( ) )115 Bagging 算法與Boosting 算法的主要區(qū)別在于Bagging 訓(xùn)練集的選擇是隨機的，各輪的訓(xùn)練集之間是相互獨立的，而Boosting 訓(xùn)練集的選擇不是獨立的，各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)；Bagging 的各個預(yù)測函數(shù)沒有權(quán)重，而Boosting 是有權(quán)重的；Bagging的各個預(yù)測函數(shù)可以并行生成，而Boosting 的各個預(yù)測函數(shù)只能順序生成。對于像神經(jīng)網(wǎng)絡(luò)這樣極為耗時的學(xué)習(xí)方法，Bagging 可以通過并行訓(xùn)練節(jié)省大量時間開銷。另外，一些研120 究者發(fā)現(xiàn)1213，一般情況下，Bagging 方法總是可以改善學(xué)習(xí)系統(tǒng)的性能；而B

13、oosting方法在有效時效果比Bagging 還好，但在無效時卻可能使學(xué)習(xí)系統(tǒng)的性能惡化。值得注意的是，Boosting 和Bagging 的輪數(shù)并非越多越好，實驗表明13，學(xué)習(xí)系統(tǒng)性能的改善主要發(fā)生在最初的若干輪中。1.3 基于特征集的集成方法125 基于不同特征集選取的集成方法是用來提高集成個體差異性的另一類方法，通過提取不同的特征子集來訓(xùn)練集成中的個體。為了提高集成個體的差異性，通常采取不同的技術(shù)獲取這組特征子集。最直接的方法就是在大小為n 的特征集合中，求出所有的特征子集，然后在其中選取所需要的特征子集集合。但由于特征子集所構(gòu)成的搜索空間由2n 種可能狀態(tài)構(gòu)成，顯然，即使在特征數(shù)目不

14、多的情況下，搜索空間也是龐大的。在實際應(yīng)用中，這種窮盡130 式搜索是不可行的，因此，研究者們致力于用啟發(fā)式搜索算法尋找特征子集集合。Ho14提出了構(gòu)建決策森林的隨機子空間方法，在這種方法中，隨機選擇特征子集，并分配給學(xué)習(xí)算法，然后在這個子空間中生成分類器，最后根據(jù)分類器的正確率使用加權(quán)投票方法進(jìn)行集成。Opitz 提出了基于遺傳算法的特征選擇的集成學(xué)習(xí)算法15；Oliveira 等人運用了多目標(biāo)的遺傳算法16。135 另外，Tumer 與Oza17提出了ID( Input Decimation) 方法，這種方法目的是減少集成成員產(chǎn)生錯誤的相關(guān)性，通過使用不同的特征子集訓(xùn)練集成中的成員，這種方

15、法與隨機子空間方法是不同的，因為對于每一類，要計算每個特征與類的輸出間的相關(guān)性，并且僅在特征最相關(guān)的子集上訓(xùn)練集成成員。Bryll 等人18提出的AB(Attribute Bagging)算法是基于特征選擇的集成學(xué)習(xí)方法的代表140 性算法。該算法通過對屬性進(jìn)行隨機擾動，可以得到較強的泛化能力，AB 算法主要有兩步：(1) 尋找最優(yōu)的屬性集規(guī)模。所用方法為隨機投影出不同大小屬性集規(guī)模的訓(xùn)練數(shù)據(jù)，對每份訓(xùn)練數(shù)據(jù)用可重復(fù)取樣技術(shù)生成多個子訓(xùn)練集，構(gòu)建分類器，再用集成測試其精度，這樣可以得到不同屬性集規(guī)模的精度曲線，最高精度所對應(yīng)的屬性集規(guī)模被認(rèn)為是最優(yōu)的屬性集規(guī)模，為了得到較為平滑的精度曲線，通常

16、需要在數(shù)據(jù)集上循環(huán)計算若干遍，然后求得145 平均值。(2) 提高投票精度。在(1)的基礎(chǔ)上用隨機投影的方法生成大量的具有最優(yōu)屬性規(guī)模的訓(xùn)練數(shù)據(jù)，針對每份訓(xùn)練數(shù)據(jù)構(gòu)建分類器，然后根據(jù)這些分類器在原始訓(xùn)練數(shù)據(jù)或原始訓(xùn)練數(shù) 據(jù)的子集上的分類精度進(jìn)行排序，取精度最高的一部分參加投票。可以看出，由于AB 算法在第(2)步中需要尋找最優(yōu)的屬性集規(guī)模，而這又需要對所有可150 能規(guī)模的屬性子集進(jìn)行多遍考察，其時間開銷很大。綜上所述，對于上面的這些基于特征集的集成學(xué)習(xí)方法可以概括為如下的集成學(xué)習(xí)框架：1) 選取不同的特征集以構(gòu)成特征集的集合；2) 使用這組特征集集合生成集成中的個體；155 3)

17、選取一種結(jié)論生成方法對個體結(jié)論融合。2 TAN 文本分類集成方法根據(jù)上一節(jié)中介紹的Boosting、Bagging 和基于特征集的集成方法的思想，我們分別結(jié)合TAN 模型進(jìn)行了TAN 集成的三次嘗試，得到的三種集成模型分別為：AdaBoost.M1 TAN，簡稱AdaM1-TAN；Extended Bagging TAN，簡稱EBag-TAN；Feature Random Subspace TAN，160 簡稱FRS-TAN。2.1 TAN 集成模型之一：AdaM1-TAN首先，我們將Boosting 與TAN 模型相結(jié)合來對TAN 集成。由于本文研究的是文本的多分類問題，為簡便起見，我們利用

18、Boosting 多分類問題的最直接方法AdaBoost.M1作為集成算法；為避免閾值選取的麻煩，基分類器采用ATAN 框架19，得到各閾值下分類165 性能最優(yōu)的TAN 分類器（具體利用CR-ATAN 算法19）；結(jié)論生成時采用投票方法。我們給該集成模型命名為AdaBoost.M1 TAN，為方便敘述，簡稱為AdaM1-TAN。AdaM1-TAN 的算法流程敘述如下：輸入：訓(xùn)練文檔集( , ),( , ),.,( , ) 1 1 2 2 N N D = d y d y d y ， y C 1,2,.,| C | i = ，其中N 表示訓(xùn)練集文檔的個數(shù)，C 表示文檔所屬的類別集合，|C|表示類

19、別數(shù)目；另設(shè)迭代次數(shù)T。1) 利用ATAN 框架中的CR-ATAN 算法從訓(xùn)練文檔集學(xué)習(xí)ATAN 結(jié)構(gòu)模型ATAN 170 G ；2) 初始化每個訓(xùn)練集文檔的權(quán)重：D (i) 1/ N 1 = ，i = 1, , N；3) For t = 1, , Ta) 從有權(quán)重分布的訓(xùn)練文檔集中學(xué)習(xí)ATAN G 結(jié)構(gòu)的參數(shù)；b) 得到一個分類器t h ；c) 利用分類器t h 對訓(xùn)練集文檔進(jìn)行分類，并計算偏差=: ( )( )i ht di yit t 175 D i ，如果> 1/ 2 t，令T = t-1 并跳出循環(huán)；d) 令/(1 ) t t t = ；e) 更行訓(xùn)練集文檔的權(quán)重： =

20、15; +t i it t i ittt h x yh x yZD iD i1 ( )( ) ( )1 ( )，其中t Z 是標(biāo)準(zhǔn)化因子。輸出：終分類器=t h d y ty CtH d: ( )( ) argmax log 1180 。需要說明的是，在對ATAN G 進(jìn)行參數(shù)學(xué)習(xí)時，三組概率值的估計中， P(c j ) 仍與(4-6) 相同，對于P(wt | c j ) 和P(wt | c j ,ws ) 的估計則必須采用基于權(quán)重分布的估計，如(5-4)和(5-5)所示：| | ( | ) ( )1 ( | ) ( )( | ) | |1| |1| |1V N B c d D iN

21、 B c d D iP w clVsDiis j iDiit j i lt j= =+= (5-4)| | ( | ) ( )1 ( | ) ( )( | , ) | |1| |1| |1V N B B c d D iN B B c d D iP w c wlVsDiit is j iDiit is j i lt j s= =+185 = (5-5)其中，D (i) l 表示的是第l 次迭代中，第i 個文檔i d 的權(quán)重（這里用l 表示迭代的次數(shù)而不用算法描述中t，主要是避免與公式中t w 表達(dá)的第t 個單詞沖突），其它符號的說明同第四章。2.2 TAN 集成模型之二：EBag-TAN190

22、一般來說，Bagging 是從原始訓(xùn)練集合中重復(fù)Bootstrap 實例作為新的訓(xùn)練集，分別訓(xùn)練生成多個分類器，然后再將其集成的方法。它通過重新選取訓(xùn)練集來增加分量學(xué)習(xí)器集成的差異度，從而提高了泛化能力。對于文本分類來說，重復(fù)抽取訓(xùn)練子集進(jìn)行訓(xùn)練，就意味著要對每一個訓(xùn)練子集都進(jìn)行文本預(yù)處理，包括分詞、特征選擇和文檔向量生成等操作，雖然Bagging 可以并行處理，但這個過程過于繁瑣，因此我們不考慮直接利用Bagging 方法進(jìn)行195 集成。換個角度想，Bagging 不斷進(jìn)行重抽樣的目的無非就是學(xué)習(xí)得到多個有差異性的分類器，因此，我們只要能得到多個有差異性的分類器就可以了，而不一定要通過重抽

23、樣的方法。本節(jié)我們正是利用這個思想來對TAN 進(jìn)行集成的，基分類器同AdaM1-TAN，仍然選用CR-ATAN，結(jié)論生成時采用投票方法，與基于Bagging 的集成區(qū)分，我們將該模型命名為Extended Bagging TAN，簡稱為EBag-TAN。200 如何得到多個有差異性的分類器是EBag-TAN 所要考慮的最主要問題。在TAN 模型的基于分布的構(gòu)造算法中，我們需要“通過選擇一個根變量，在每條邊上添加方向，將由此生成的無向樹轉(zhuǎn)換為有向樹”，當(dāng)選擇不同的根變量時，在邊上添加方向時可能會產(chǎn)生不同的方向，從而使得形成的有向樹結(jié)構(gòu)不同，最終導(dǎo)致形成的TAN 結(jié)構(gòu)模型不一樣。我們在實驗中發(fā)現(xiàn)，

24、選取不同的根變量形成不同的結(jié)構(gòu)在分類性能上會有或多或少的差異，而且有的205 差異還比較顯著。我們嘗試用選擇不同的根變量帶來的性能差異生成的多個分類器來進(jìn)行集成，算法流程敘述如下：輸入：訓(xùn)練文檔集D；預(yù)生成的分類器個數(shù)T。1) 利用基于分布的TAN 構(gòu)造算法執(zhí)行到第三步，即完成最大加權(quán)生成樹的構(gòu)造，最大加權(quán)樹用MAX_TREE 表示。210 2) 執(zhí)行：For t = 1, , Ta) 初始化一個新的TAN 結(jié)構(gòu)為樸素貝葉斯的結(jié)構(gòu)，即NBtTAN G = G ；b) 將MAX_TREE 結(jié)構(gòu)完全復(fù)制到tTAN G 中，然后在tTAN G 的最大加權(quán)樹結(jié)構(gòu)中隨機選擇一個結(jié)點作為根變量，在每條邊上

25、添加方向，將無向樹轉(zhuǎn)換為有向樹； c) 將tTAN G 替代4.6.2 節(jié)中ATAN 算法中的完整的TAN 結(jié)構(gòu)TAN G ，然后利用ATAN 算法學(xué)習(xí)得到ATAN 結(jié)構(gòu)模型tATAN G ，設(shè)t215 GATAN 所對應(yīng)的分類器為ht ；輸出：終分類器= =Tiiy CH d h d y1( ) argmax ( ( ) ) 。以上通過選擇不同的根變量產(chǎn)生分類器間的差異來達(dá)到集成的目的，這種方法應(yīng)該說只能算是EBag-TAN 的一種，諸如此類的通過一定的方法生成有差異性的分類器來進(jìn)行的集成，我們都視為EBag-TAN 方法。220 2.3 TAN 集成模型之三：FRS-TAN與基

26、于數(shù)據(jù)的集成相比，基于特征集的集成方法的研究和應(yīng)用都相對較少，通常是通過一定的策略對特征空間進(jìn)行搜索，得到多個特征子集，然后學(xué)習(xí)生成多個分類器進(jìn)行集成。這種方法往往復(fù)雜度比較高，特別是對于文本這種高維數(shù)據(jù)來說，顯然不大實用。為降低復(fù)雜性，我們采用Ho14提出的隨機子空間方法，在這種方法中，隨機選擇特征子集，并分225 配給學(xué)習(xí)算法，然后在這個子空間中生成分類器，最后根據(jù)分類器的正確率使用加權(quán)投票方法進(jìn)行集成。用隨機子空間方法對TAN 進(jìn)行集成時，基分類器的選取同AdaM1-TAN 和EBag-TAN，結(jié)論生成時也采用投票方法，我們將該TAN 集成模型命名為Feature RandomSubsp

27、ace TAN，簡稱為FRS-TAN。FRS-TAN 的算法流程如下：230 輸入：訓(xùn)練文檔集D；預(yù)設(shè)特征子空間的特征數(shù)目M；預(yù)生成的分類器個數(shù)T。執(zhí)行：For t = 1, , T1) 從特征空間中隨機抽取M 個特征；2) 利用文獻(xiàn)19中ATAN 框架中的CR-ATAN 算法從訓(xùn)練文檔集學(xué)習(xí)ATAN 模型tATAN G ，設(shè)tATAN G 所對應(yīng)的分類器為t h ；輸出：終分類器= =Tiiy CH d h d y1235 ( ) argmax ( ( ) ) 。需要說明的是，在第一步的隨機抽取特征子空間中，可以采用“放回取樣”和“不放回取樣”兩種，“放回取樣”允許某一個特征在該特征子集中多

28、次出現(xiàn)，而“不放回取樣”則不允許同一特征子集中有重復(fù)的特征。我們在實驗中發(fā)現(xiàn)，“放回取樣”得到的集成分類器的性能普遍好于“不放回取樣”方法，因此，本文統(tǒng)一采用“放回取樣”選擇特征子集。240 3 實驗結(jié)果及分析本節(jié)我們對上文提出的三種基于TAN 的集成模型：AdaM1-TAN、EBag-TAN 和FRS-TAN 在Reuters-21578-12 和CNLP-19637-12 語料上進(jìn)行文本分類實驗，并與CR-ATAN19構(gòu)造的單個分類器的分類性能進(jìn)行對比。其中，Reuters-21578-12 是從國際通用的英文文本分類測試集Reuters-215781中的挑選樣例最多的前12 個類別所形

29、成的數(shù)據(jù)集；245 CNLP-19637-12 選取中國科學(xué)院計算技術(shù)研究所的中文自然語言處理開放平臺2（ChineseNatural Language Processing Open Platform，CNLP Platform）發(fā)布的由復(fù)旦大學(xué)計算機信息1 2 與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組所提供的中文語料庫中的前12 個類別所構(gòu)成的文本集。語料預(yù)處理過程中，中文分詞利用中科院計算所提供的ICTCLAS 工具3。特征選擇采用信息增益（Information Gain，IG）方法，不做特別說明，特征數(shù)目取1000 個（當(dāng)特征250 數(shù)目選擇1000 時，單個分類器在這兩個

30、語料上的整體分類性能最佳）。在實驗中我們發(fā)現(xiàn)，當(dāng)EBag-TAN 和FRS-TAN 模型中個體分類器的數(shù)量超過25 時，集成分類器的性能基本穩(wěn)定，因此以下的實驗中個體分類器的數(shù)量統(tǒng)一選取25。對于FRS-TAN 模型來說，涉及特征個數(shù)M 的選取問題，在Reuters-21578-12 語料上，我們把M取為600，CNLP-19637-12 語料M 取200，因為當(dāng)M 分別取對應(yīng)的這些值時，F(xiàn)RS-TAN 集255 成模型的分類性能最好。實驗結(jié)果參見表1 和表2。表1 三種TAN 集成模型在Reuters-21578-12 語料上的分類性能Table 1 Comparison of three

31、ensemble learning methods based on TAN on Reuters-21578-12算法 Macro-avg（Recall）Macro-avg（Precision）Macro-avg（F1-Measure） Micro-avgAdaM1-TAN 0.781629 0.66373 0.689306 0.869078EBag-TAN 0.801581 0.795337 0.794582 0.931094FRS-TAN 0.818879 0.807126 0.810812 0.937123CR-ATAN 0.816383 0.797519 0.804459 0.933

32、678260 表2 三種TAN 集成模型在CNLP-19637-12 語料上的分類性能Table 2 Comparison of three ensemble learning methods based on TAN on CNLP-19637-12算法 Macro-avg（Recall）Macro-avg（Precision）Macro-avg（F1-Measure） Micro-avgAdaM1-TAN 0.797786 0.782053 0.765346 0.881119EBag-TAN 0.827237 0.812656 0.813187 0.897727FRS-TAN 0.8463

33、84 0.83104 0.836224 0.910839CR-ATAN 0.859237 0.789097 0.81951 0.893357從實驗結(jié)果，我們可以看到：在Reuters-21578-12 語料上，AdaM1-TAN 的宏平均1 F 相對于CR-ATAN 單分類器下降了11.5%，微平均下降了6.46%；EBag-TAN 的宏平均1 F 下降了0.98%，微平均下降了0.26%；FRS-TAN 的宏平均1 265 F 上升了0.64%，微平均上升了0.35%。在CNLP-19637-12 語料上，AdaM1-TAN 的宏平均1 F 相對于CR-ATAN 單分類器下降了5.42%，微平均下降了1.22%；EBag-TAN 的宏平均1 F 下降了0.63%，而微平均上升了0.44%；FRS-TAN 的宏平均1 F 上升了1.67%，微平均上升了1.74%?？傮w來說，AdaM1-TAN 顯示了較差的性能，EBag-TAN 與CR-ATAN 的性能相當(dāng)，270 FRS-TAN 相比于CR-ATAN 單分類器性能有所提升。從語料層面上來講，三種

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于TAN的文本分類集成方法

文檔簡介

溫馨提示

最新文檔

評論

基于TAN的文本分類集成方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔