




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
劉桃報告內(nèi)容報告內(nèi)容緒論緒論:領(lǐng)域文本自動判別研究現(xiàn)狀領(lǐng)域文本自動判別有監(jiān)督文本分類方法文本表示:概率模型、向量空間模型特征選擇:TF-IDF、互信息、期望交叉熵、信息增益等分類算法:Rocchio法、貝頁斯分類法、K最近鄰分類法、支持向量機、決策樹、神經(jīng)網(wǎng)絡半監(jiān)督文本分類方法產(chǎn)生式模型和期望最大化、直推式支持向量機、自助學習法、協(xié)同訓練法、主動學習法基于正例的文本分類方法PEBL、Spy_EM、Roc_SVM、類別約束SVM〔Biased_SVM〕、PNLH方法中文詞語的領(lǐng)域類別判定之前要進行中文新詞發(fā)現(xiàn)中文新詞發(fā)現(xiàn)啟發(fā)式特征:構(gòu)詞力、構(gòu)詞模式、互信息、上下文依賴機器學習模型:隱馬爾科夫模型、最大熵、最大熵馬爾科夫模型、支持向量機、條件隨機域緒論:研究現(xiàn)狀報告內(nèi)容研究框架領(lǐng)域文本自動判別有監(jiān)督文本分類基于正例的文本分類領(lǐng)域術(shù)語自動抽取中文新詞發(fā)現(xiàn)應用研究在文本分類中的應用在問答式信息檢索中的應用詞語的領(lǐng)域類別判定概念語義網(wǎng)絡專業(yè)信息采集特征集擴展特征選擇①領(lǐng)域文本自動判別方法完整分類體系下的領(lǐng)域文本判別有監(jiān)督文本分類方法需要為每個類別提供一定規(guī)模的訓練語料實現(xiàn)了一個文本分類評測平臺包括10種可定制的特征選擇算法和4種可定制的分類算法特征選擇算法:詞頻與倒文檔頻度〔TFIDF〕、期望交叉熵〔ECE〕、統(tǒng)計、互信息〔MI〕、文本證據(jù)權(quán)〔WE〕、信息增益〔IG〕、文檔頻度〔DF〕、KFIDF、DR+DC、NCD+NDD方法分類算法:簡單貝葉斯〔NB〕、Rocchio、K最近鄰〔KNN〕和支持向量機〔SVM〕領(lǐng)域文本自動判別方法非完整分類體系下反例集獲取困難完整分類體系下訓練某個類別的分類器時,其他類別訓練語料的合集作為反例集非完整分類體系下獲取某個類別的平衡反例集比較困難基于正例的文本分類方法不需要提供已標注的反例集需要使用大規(guī)模未標注樣本基于正例的文本分類問題的傳統(tǒng)方案步驟一:啟發(fā)式樣本標注1-DNF,PNLH,spy,rocchio…
步驟二:建立分類器通過迭代建立一系列分類器只建立一個分類器傳統(tǒng)方法存在的問題啟發(fā)式樣本標注中,高準確率和高召回率不可兼得1_DNF:將U中不含全部正例特征的文檔看作反例高準確率,低召回率PNLH:定義正例參考值(PRP),將PRP值小于U集全部文檔PRP平均值的文檔當作反例低準確率,高召回率不同途徑得到的標注樣本的置信度不一致,傳統(tǒng)方法不加區(qū)別的使用所有樣本勢必導致分類準確率下降基于置信度加權(quán)的領(lǐng)域文本判別法多策略樣本標注算法自動標注盡可能多的樣本,即在保證樣本標注召回率的前提下,按照標注樣本的置信度對樣本集進行劃分加權(quán)支持向量機算法為不同置信度的樣本賦予不同的權(quán)重不同標注策略的樣本置信度實驗Retuers語料上的標注樣本置信度一級正例二級正例一級反例二級反例三級反例acq1.00000.67390.99400.95420.3528corn1.00000.46431.00001.00000.8558crude1.00000.83710.99990.99960.7407earn1.00000.68840.99930.84990.6822grain1.00000.90710.99990.99880.6486interest1.00000.45310.99990.99920.8303money-fx1.00000.53160.99990.99920.7472ship1.00000.83090.99920.77720.7888trade1.00000.67331.00000.99880.7058wheat1.00000.67331.00001.00000.7058avg1.00000.67330.99920.95770.7058三級反例及基于置信度加權(quán)對分類性能的影響實驗noN3noWeiuseN3noWeinoN3useWeiuseN3useWeiacq0.94150.95180.94810.9599corn0.53150.55520.53990.6274crude0.84650.81750.85820.8281earn0.91780.93120.94730.9707grain0.86040.81230.86210.8643interest0.69180.70220.72220.7314money-fx0.74810.77840.76040.7789ship0.72970.65150.71580.6496trade0.6860.79280.70720.8092wheat0.67930.71990.68740.7055avg0.76330.77130.77490.7925是否使用三級反例及基于置信度加權(quán)對Retuers數(shù)據(jù)集的分類性能影響比照實驗S_EMWLBiasedSVM1BiasedSVM2WeiSVMacq0.95680.92020.95040.95790.9599corn0.50270.58930.59870.5930.6274crude0.85690.86380.7970.80460.8281earn0.96770.94030.97720.97660.9707grain0.87060.8640.83450.83740.8643interest0.67930.76730.6660.65150.7314money-fx0.75940.77410.70310.75580.7789ship0.72810.69590.57240.59650.6496trade0.58880.80260.72760.75860.8092wheat0.63630.64180.69890.71120.7055avg0.75470.78590.75260.76430.7925Retuers數(shù)據(jù)集上不同方法的分類性能比照報告內(nèi)容傳統(tǒng)中文新詞發(fā)現(xiàn)方法的缺點啟發(fā)式特征+經(jīng)驗閾值難以篩選適宜的全局閾值統(tǒng)一抽取新詞機器學習方法訓練時間較長基于局部最大算法的中文新詞發(fā)現(xiàn)中文詞語是關(guān)聯(lián)強度較大、結(jié)合較為緊密的字序列高內(nèi)聚性可獨立運用性利用平攤對稱條件概率(SCP_F)衡量字序列的結(jié)合力局部最大算法思想:如果ngramW的關(guān)聯(lián)強度大于所有包含它的(n+1)gram的關(guān)聯(lián)強度,并且ngramW的關(guān)聯(lián)強度不小于所有W包含的(n-1)gram的關(guān)聯(lián)強度,那么W被看作候選新詞。能夠很好地刻畫詞語的高內(nèi)聚性和可獨立運用性基于局部最大算法的中文新詞發(fā)現(xiàn)基于后綴數(shù)組的實現(xiàn)方案傳統(tǒng)方法在計算n>3的ngram時,速度非常慢,不能滿足互聯(lián)網(wǎng)環(huán)境下大規(guī)模網(wǎng)絡文本的實時新詞發(fā)現(xiàn)需求采用基于后綴數(shù)組的數(shù)據(jù)結(jié)構(gòu)采用基于等價類劃分的思想降低存儲空間只需要存儲每個等價類中的一個最長序列基于局部最大算法的中文新詞發(fā)現(xiàn)過程實驗結(jié)果在MSR語料上的新詞發(fā)現(xiàn)前后比照實驗結(jié)果在PKU語料上的新詞發(fā)現(xiàn)前后比照實驗結(jié)果MSROOV召回率精確率召回率IV召回率F1量度Baseline0.3610.9360.9710.9880.953Baseline+NE0.4970.9430.9680.9810.955Baseline+NWI0.5810.9510.9670.9770.959Baseline+NWI+NE0.6290.9570.970.980.963PKUOOV召回率精確率召回率IV召回率F1量度Baseline0.2340.8910.9370.980.913Baseline+NE0.420.9140.9430.9750.928Baseline+NWI0.5340.9310.9490.9750.94Baseline+NWI+NE0.630.9440.9580.9780.951比照實驗系統(tǒng)編號OOV召回率精確率召回率IV召回率F1量度140.7170.9660.9620.9680.96470.5920.9620.9620.9720.96227(a)0.3790.9520.9690.9850.9627(b)0.3810.9530.9680.9840.9640.3230.9450.9730.9910.95915(b)0.7180.9640.9520.9580.95850.210.940.9740.9950.957130.4960.9560.9590.9720.957120.6730.960.9520.960.956240.5030.9520.9580.970.955Baseline+NWI+NE0.6290.9570.970.980.963在MSR語料上和中文分詞評測中其他系統(tǒng)的比照實驗結(jié)果實驗結(jié)果詞典編號新詞比率總詞數(shù)10.224462220.269337430.300275740.334213150.426118960.494750小規(guī)模詞典統(tǒng)計信息不同新詞比率下的新詞識別性能在不同新詞比率下測試新詞發(fā)現(xiàn)的性能在缺乏詞表或者為了擴展已有的小詞表的情況下,局部最大算法可以用來抽取詞語。報告內(nèi)容符號定義:Di(1≤i≤m):第i個領(lǐng)域類別dij(1≤j≤ni):類別Di中的第j個文檔lij:文檔dij的長度,即在該文檔中出現(xiàn)的所有詞語的詞頻之和Li:類別Di包含的所有文檔長度之和數(shù)學描述:詞語W的正規(guī)化的類間分布熵NCD詞語W的類間分布熵:詞語W在領(lǐng)域Di的正規(guī)化的類內(nèi)分布熵NDDC2法律司法人民法院最高人民法院案件審理訴訟法院司法機關(guān)當事人職權(quán)國家機關(guān)審判被告人民事行使民事訴訟C4體育比賽首場球員球隊英格蘭隊隊友世界杯奪冠冠軍決賽足協(xié)后衛(wèi)主帥瑞典隊任意球小組賽C6輕工業(yè)包裝食品調(diào)味保質(zhì)期肉制品玻璃瓶品牌肉食品方便化果汁腥味肉類專賣店草莓貨架糖度中圖分類體系下抽取結(jié)果例如實驗結(jié)果類別編號詞語總數(shù)抽取詞語個數(shù)DR+DCNCD+NDDB哲學、宗教888301776881E軍事41030621677H語言、文字38666638741R醫(yī)藥、衛(wèi)D礦業(yè)工程27925318162TS輕工業(yè)、手工業(yè)21792257358DR+DC方法抽取詞語個數(shù)會隨著語料規(guī)模的變化產(chǎn)生較大變化NCD+NDD方法抽取詞語數(shù)目不完全依賴于語料規(guī)模
實驗結(jié)果圖1前200個詞語的正確率圖2其余詞語的正確率未標注文本詞語的領(lǐng)域類別判定領(lǐng)域比照語料簡單、快速實驗D1D2D3D4D5財經(jīng)娛樂技術(shù)體育軍事領(lǐng)域類別信息領(lǐng)域上下文空間表示法文檔空間表示法PrecisionPseudo-recallPrecisionPseudo-recallD182.67%95.22%83.28%87.92%D288.77%89.47%86.00%80.30%D390.00%89.87%83.67%86.37%D487.05%91.03%85.68%84.13%D581.33%93.22%82.58%87.06%Avg85.96%91.76%84.24%85.16%領(lǐng)域上下文空間表示法文檔空間表示法PrecisionPseudo-recallPrecisionPseudo-recallD182.41%92.41%79.39%70.66%D279.62%85.38%77.78%53.85%D386.78%81.76%87.86%38.24%D482.61%75.52%83.00%65.52%D575.14%80.00%73.00%56.00%Avg81.31%83.01%80.21%56.85%兩種方法在抽取頻率為1的低頻詞上的性能比較報告內(nèi)容文本自動分類過程在文本自動分類中的應用應用一:特征集擴展將基于局部最大算法的中文新詞發(fā)現(xiàn)方法應用于文本分類語料的分詞處理,從而擴大文本表示的特征集方法準確率召回率F值特征集擴展前0.8660.8180.841特征集擴展后0.8740.8280.850特征集擴展前后文本分類性能比照小規(guī)模原始詞典下文本分類性能比照在文本自動分類中的應用傳統(tǒng)特征選擇代替應用二:特征選擇方法準確率召回率F值MI0.4190.4090.414DF0.5560.5290.542WE0.5640.5410.552IG0.5590.5460.552TFIDF0.5960.5720.584ECE0.6170.5970.607KFIDF0.6160.6010.608CHI0.6330.6020.617DR+DC0.6310.6260.628NCD+NDD0.6630.6690.666在中圖分類數(shù)據(jù)集上的比照實驗方法準確率召回率F值MI0.6600.6260.643WE0.7190.6720.695DF0.7300.6940.712I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 3761.34-2021新型冠狀病毒肺炎疫情防控技術(shù)規(guī)范第34部分:發(fā)熱門診
- DB32/T 3756-2020新型冠狀病毒肺炎疫情防控公共場所消毒技術(shù)規(guī)范
- DB32/T 3620-2019蠶蛹蟲草工廠化生產(chǎn)技術(shù)規(guī)程
- DB32/T 3616-2019企業(yè)安全操作規(guī)程編制指南
- DB32/T 1664-2019汽車客運站服務規(guī)范
- DB32/T 1321.4-2019危險化學品重大危險源安全監(jiān)測預警系統(tǒng)建設規(guī)范第4部分:傳感器與儀器儀表信號安全監(jiān)測預警子系統(tǒng)
- DB31/T 977-2016戶外招牌設置技術(shù)規(guī)范
- DB31/T 921-2015婚慶服務規(guī)范
- DB31/T 693.1-2013蔬菜工廠化育苗技術(shù)規(guī)程第1部分:甘藍類
- DB31/T 668.8-2012節(jié)能技術(shù)改造及合同能源管理項目節(jié)能量審核與計算方法第8部分:電磁感應加熱
- 滬教牛津版(深圳用)英語五年級下冊Unit-11-Chinese-festivals課件
- 2025-2030中國職業(yè)資格培訓行業(yè)市場深度調(diào)研及競爭格局與投資前景研究報告
- 甘露特鈉膠囊聯(lián)合多奈哌齊片治療輕中度阿爾茨海默病的療效及腸道菌群影響
- 郵政面試試題及答案
- 2025科技輔導員培訓
- 作戰(zhàn)訓練安全消防課件
- 員工勞動關(guān)系培訓課件
- 階梯式早期活動在ICU機械通氣患者中的應用 課件
- 統(tǒng)編版(2024)語文一年級下冊第六單元綜合素質(zhì)測評A卷(含答案)
- 2024年4月27日福建省事業(yè)單位《綜合基礎知識》真題及答案
- 外墻淋水試驗專項施工方案
評論
0/150
提交評論