




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 華南理工大學(xué)信息網(wǎng)絡(luò)工程研究中心華南理工大學(xué)信息網(wǎng)絡(luò)工程研究中心 廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室 曹鴻曹鴻 董守斌董守斌 張凌張凌全國搜索引擎與網(wǎng)上信息學(xué)術(shù)研討會目錄 算法描述算法描述 傳統(tǒng)一對多(傳統(tǒng)一對多(OVA)方法)方法 加權(quán)閾值策略(OVA-WWT) 系統(tǒng)模塊 實(shí)驗(yàn)結(jié)果 結(jié)論傳統(tǒng)OVA(One-Vs-All)方法:主要思路 主要思路 訓(xùn)練N個不同的二元分類器,第i個分類器用第i類中的訓(xùn)練樣本作為正的訓(xùn)練樣本,而將其他樣本作為負(fù)的訓(xùn)練樣本 當(dāng)對一個新文檔進(jìn)行分類時,分別運(yùn)行N個二元分類器,選擇輸出相似度值最大的那個分類器的結(jié)果 傳統(tǒng)一對多(OVA)方法:形式化描
2、述 給定個l訓(xùn)練樣例( , ), ( , ),其中 , i =1, l, 且 是xi的類標(biāo)簽,則第i個SVM分類器要解決下面的最優(yōu)化問題: 用下面的k個決策方程計(jì)算x與k個類別的相似度: 最終判定x隸屬于決策方程輸出相似度最高的那個類別: Class of x = 1x1ylxlyniRx ,.1kyiljijiiiibiwCww1T)(21minl,jiybxiwi ybxiwijiijijiijij.10, if,1-)()(if,1)()(s.t.TTkibxiwxfii,.1,)()()(T)()(maxargT,.1ikibxiw閾值策略 閾值策略:把一篇文檔歸屬到某些相關(guān)類別中的方
3、法 RCut、PCut和SCut 傳統(tǒng)OVA使用的是RCut策略傳統(tǒng)一對多(OVA)方法:缺點(diǎn)1)比較文檔對N個類別的相似度,簡單地取相似度最大的那個類別,由于這N個相似度是由N個不同的分類器產(chǎn)生,簡單地取最大值作為閾值策略并不合適;2)對所有類別一視同仁,而實(shí)際上,有些類別屬于“弱勢類”,其類別信息容易被“強(qiáng)勢類”所淹沒,導(dǎo)致“弱勢類”文檔被誤分到“強(qiáng)勢類”中的不公平現(xiàn)象。本文對OVA的改進(jìn) 提出加權(quán)閾值策略(Weighted RCut: WRCut) 通過給不同類別的相似度結(jié)果賦以一定的權(quán)重值后再進(jìn)行比較,實(shí)現(xiàn)“弱勢類”和“強(qiáng)勢類”之間的勢力均衡,以消除使用單一的RCut策略所造成的不公平
4、現(xiàn)象 目錄 算法描述 傳統(tǒng)一對多(OVA)方法 加權(quán)閾值策略(加權(quán)閾值策略(OVA-WWT) 系統(tǒng)模塊 實(shí)驗(yàn)結(jié)果 結(jié)論加權(quán)閾值策略(OVA-WWT)算法描述算法描述: 先解SVM最優(yōu)化問題,用決策方程計(jì)算出文檔對N個類別的相似度,再對各類別運(yùn)用WRCut閾值策略,文檔x屬于加權(quán)相似度最大的類別 Class of x = ai也可以通過對訓(xùn)練集的學(xué)習(xí)而得。)()(maxargT,.1iikibxiwaiiiECa 目錄 傳統(tǒng)一對多(OVA)方法 加權(quán)閾值策略(OVA-WWT) 系統(tǒng)模塊系統(tǒng)模塊 實(shí)驗(yàn)結(jié)果 結(jié)論系統(tǒng)模塊結(jié)構(gòu)目錄 算法描述 傳統(tǒng)一對多(OVA)方法 加權(quán)閾值策略(OVA-WWT) 系
5、統(tǒng)模塊 實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果 結(jié)論實(shí)驗(yàn)結(jié)果 數(shù)據(jù)集:北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室提供的CWT100G數(shù)據(jù)集之200M訓(xùn)練集(11個類別) 模型:200M數(shù)據(jù)的2/3用于構(gòu)建分類器模型,剩余1/3作開放測試集進(jìn)行分類測試。SVM使用線性核函數(shù)。 評測標(biāo)準(zhǔn):微平均準(zhǔn)確率、宏平均準(zhǔn)確率、宏平均召回率、宏平均F1值和時間,其中時間是包括訓(xùn)練和分類的總時間 實(shí)驗(yàn)結(jié)果1:分類器的比較(1)分類方法微平均準(zhǔn)確率()宏平均準(zhǔn)確率()宏平均召回率()宏平均F1()時間(s)SVMmultic64.3527.1925.6526.401795.53SVMTorch44.3575.6135.9548.7325034.3Rainbo
6、wSVM80.1376.9575.7376.3313205.5MSVMlight88.6490.7085.9988.311108.5實(shí)驗(yàn)結(jié)果1:分類器的比較(2) 性能曲線圖 時間柱狀圖實(shí)驗(yàn)2:閾值策略的比較(1) 對WRCut中各類別的權(quán)重值,本文將訓(xùn)練集隨機(jī)劃分為訓(xùn)練-訓(xùn)練集(占3/4)和訓(xùn)練-測試集(占1/4),從經(jīng)驗(yàn)值出發(fā),在反復(fù)訓(xùn)練的過程中自動調(diào)整權(quán)重值。 權(quán)重調(diào)整范圍為0.91.9,每個類的權(quán)重分別遞增0.1,當(dāng)權(quán)重的增加使得精度下降時,該權(quán)重減0.1,取宏觀F1達(dá)到最大值時各類別所得權(quán)重,總訓(xùn)練時間為58.587秒,這個時間對總訓(xùn)練時間而言是可忽略的。 實(shí)驗(yàn)2:閾值策略的比較(2
7、)類別編號類別權(quán)重值01人文與藝術(shù)1.903商業(yè)與經(jīng)濟(jì)1.704娛樂與休閑1.905計(jì)算機(jī)與因特網(wǎng)1.907教育1.908各國風(fēng)情0.910自然科學(xué)0.911政府與政治1.912社會科學(xué)1.913醫(yī)療與健康1.914社會與文化1.1經(jīng)過學(xué)習(xí)得到的11個類別各自的權(quán)重值 實(shí)驗(yàn)2:閾值策略的比較(3)RCut策略與WRCut策略精度比較曲線 目錄 算法描述 傳統(tǒng)一對多(OVA)方法 加權(quán)閾值策略(OVA-WWT) 系統(tǒng)模塊 實(shí)驗(yàn)結(jié)果 結(jié)論結(jié)論結(jié)論 本文提出了一對多算法的改進(jìn)版本OVA-WWT算法 基于OVA-WWT和SVMlight二元分類算法,實(shí)現(xiàn)了SVMlight的多元分類器MSVMlight。 在CWT100G上進(jìn)行了一系列開放性實(shí)驗(yàn),通過與多種分類器進(jìn)行性能比較,證明對CWT100G數(shù)據(jù)集而言,MSVMlight在準(zhǔn)確率和時間性能要優(yōu)于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度房產(chǎn)抵押小微企業(yè)貸款合同模板
- 2025年度兒童房安全木門定制合同
- 2025年度專利技術(shù)許可協(xié)議模板-智能硬件
- 2025年度家具行業(yè)專利技術(shù)許可合同
- 冷藏肉類電商運(yùn)輸合同
- 2025年度導(dǎo)演聘用合同范例:院線電影導(dǎo)演合作協(xié)議書
- 2025年吉安職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫完整
- 2025年度農(nóng)業(yè)種植合同解除協(xié)議樣本
- 親子教育居間合同
- 2025年度文化旅游產(chǎn)業(yè)投資合作協(xié)議書范文
- 婚內(nèi)財(cái)產(chǎn)債務(wù)協(xié)議書(通用)
- 部編版四年級下冊道德與法治 第4課 買東西的學(xué)問(第2課時) 教學(xué)課件
- 慢性活動性EB病毒課件
- 葡萄胎全面版課件
- 《冷沖壓工藝與模具設(shè)計(jì)》完整版ppt課件全套教程
- 業(yè)務(wù)招待費(fèi)明細(xì)單
- 高效液相色譜法分析(三聚氰胺)原始記錄1
- 典雅中國風(fēng)詩詞大會古風(fēng)PPT模板
- Part 7 Formal and Informal Styles課件
- 文化差異及跨文化交際試題集
- 油畫人體張東方姑娘的極致美
評論
0/150
提交評論