機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告_第1頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告_第2頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告_第3頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告_第4頁(yè)
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器學(xué)習(xí)試驗(yàn)報(bào)告樸實(shí)貝葉斯學(xué)習(xí)和分類(lèi)文本(2022年度秋季學(xué)期)一、試驗(yàn)內(nèi)容問(wèn)題:通過(guò)樸實(shí)貝葉斯學(xué)習(xí)和分類(lèi)文本目標(biāo):可以通過(guò)訓(xùn)練好的貝葉斯分類(lèi)器對(duì)文本正確分類(lèi) 二、試驗(yàn)設(shè)計(jì)試驗(yàn)原理與設(shè)計(jì):在分類(lèi)(classification)問(wèn)題中,經(jīng)常需要把一個(gè)事物分到某個(gè)類(lèi)別。一 個(gè)事物具有許多屬性,把它的眾多屬性看做一個(gè)向量,即x=(xl/X2,x3,xn), 用x這個(gè)向量來(lái)代表這個(gè)事物。類(lèi)別也是有許多種,用集合Y=yl,y2,ym表 示。假如x屬于yl類(lèi)別,就可以給x打上yl標(biāo)簽,意思是說(shuō)x屬于yl類(lèi)別。 這就是所謂的分類(lèi)(Classification)。x的集合記為X,稱(chēng)為屬性集。一般X和Y 的關(guān)系

2、是不確定的,你只能在某種程度上說(shuō)x有多大可能性屬于類(lèi)yl,比方 說(shuō)x有80%的可能性屬于類(lèi)yl,這時(shí)可以把X和Y看做是隨機(jī)變量,P(Y|X) 稱(chēng)為Y的后驗(yàn)概率(posterior probability),與之相對(duì)的,P(Y)稱(chēng)為Y的先驗(yàn) 概率(prior probability) 1。在訓(xùn)練階段,我們要依據(jù)從訓(xùn)練數(shù)據(jù)中提供的信 息,對(duì)X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)O分類(lèi)時(shí),來(lái)了一個(gè)實(shí)例x, 在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出全部的P(Y|x),其中最大的那個(gè)y, 即為x所屬分類(lèi)。依據(jù)貝葉斯公式,后驗(yàn)概率為p(y|x)=p(y|x)=p(x|y)p(y)p(x)在比擬不同Y值的后驗(yàn)

3、概率時(shí),分母P(X)總是常數(shù),因此可以忽視。先 驗(yàn)概率P(Y)可以通過(guò)計(jì)算訓(xùn)練集中屬于每一個(gè)類(lèi)的訓(xùn)練樣本所占的比例簡(jiǎn)單 地估量。在文本分類(lèi)中,假設(shè)我們有一個(gè)文檔dX, X是文檔向量空間(document space),和一個(gè)固定的類(lèi)集合C=cl,c2,”cj,類(lèi)別又稱(chēng)為標(biāo)簽。明顯,文檔 向量空間是一個(gè)高維度空間。我們把一堆打了標(biāo)簽的文檔集合d,c作為訓(xùn)練 樣本,d,cGXxCo 例如:d,c=Beijing joins the World Trade Organization, China對(duì)于這個(gè)只有一句話(huà)的文檔,我們把它歸類(lèi)到China,即打上china標(biāo) 簽。我們期望用某種訓(xùn)練算法,訓(xùn)練出

4、一個(gè)函數(shù)V,能夠?qū)⑽臋n映射到某一 個(gè)類(lèi)別:V:X玲C這種類(lèi)型的學(xué)習(xí)方法叫做有監(jiān)督學(xué)習(xí),由于事先有一個(gè)監(jiān) 督者(我們事先給出了一堆打好標(biāo)簽的文檔)像個(gè)老師一樣監(jiān)督著整個(gè)學(xué)習(xí) 過(guò)程。樸實(shí)貝葉斯分類(lèi)器是一種有監(jiān)督學(xué)習(xí)。試驗(yàn)主要代碼:1、由于中文本身是沒(méi)有自然分割符(如空格之類(lèi)符號(hào)),所以要獲得中文文本的特 征變量向量首先需要對(duì)文本進(jìn)行中文分詞。這里采納極易中文分詞組件public class ChineseSpliter(/*考治定的文本獨(dú)行中文分巨param text洽定的文本Iparam splitToken 用于分S.的修力”|return分完亮早的文本/public static Strin

5、g split(String text,String splitToker String result = null;MMAnalyzer analyzer = new MMAnalyzer();try (result = analyzer.segment(text? splitToken);)catch (lOException e) (e.printStackTrace(); Ireturn result;)先驗(yàn)概率計(jì)算,N表示訓(xùn)練文本集總數(shù)量。public class FrierFrcbability (prirate static TrainingDataKanager tdiri =

6、new TrainingData2anager ();先驗(yàn)概率param c給定的分類(lèi)return給定條件下的先驗(yàn)概率*/public static zlcat calculatePc(String c) (float ret = OF;zlcat Nc = tdm.getTrainingFileCcunt0fCla33ificaticn(c);float N = tdm.getTrainingFileCcunt(); ret = Nc / N; return ret;)條件概率計(jì)算,為在條件A下發(fā)生的條件大事B發(fā)生的條件概率。x給定的文本 屬性,c給定的分類(lèi)pub-11 c static f

7、lcat calculatePxc(String xr String c) ( float ret = OF;float Nxc = tdm.getCountCcntainKeyOfCla3sificaticn(cr x);flcat Nc = tdm.getTrainingFileCcunt0fCla33izicaticn(c);flcat V = tn.getTraning21a33izicaticn3).length;ret = (Nxc + 1) / (Nc + M + V); /為了防止出現(xiàn)。這樣極端情況,進(jìn)行加權(quán)處理 return ret;)對(duì)給定的文本進(jìn)行分類(lèi)public Str

8、ing classify(String text) String terms = null;terms= ChineseSpliter. split (text, ) .3plit(w );中文分詞處理(分詞后結(jié)果可能還包含有信用詞) terms = DrcpSspWords (七erms);/去掉停用詞,以免影響分類(lèi)String Cla33e3 = tn.getTraningCla33ificaticns();flcat prcbility = 0.0F;Li3t cr3 = new AirayLi3Cla33ifYRe3ulc();分類(lèi)結(jié)果 for (int i = 0; i Cla3se

9、s.length; i+) (String Ci = Classes i;第i個(gè)分類(lèi)probility = calcFrcd(terms, Ui);計(jì)算給定的文本屬性向里csms在給定的分類(lèi)CTi中的分類(lèi)條件概率 /保存分類(lèi)結(jié)果 ClassifyResult cr = new Cla33ifyResult();cr. classification = Ci; 分類(lèi)cr. probility = pebility;/關(guān)鍵字在分類(lèi)的條件概率System, out .printin (wIn process .”);System.out.printin(Ci + prcbility);cr3.add

10、(cr);三、測(cè)試數(shù)據(jù)訓(xùn)練集文本:數(shù)據(jù)樣例選用Sogou試驗(yàn)室的文本分類(lèi)數(shù)據(jù)的mini版本C000007C000008,C000010COOOO13C000014C000016COOOO2OCOOOO22COOOO23C000024,ClassList.txt2016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182006/10/26 11:37文件夾 文件夾 文件夾 文件

11、夾 文件夾 文件夾 文件夾 文件夾文件夾 文件夾文本文檔類(lèi)別及標(biāo)號(hào)C000007 汽車(chē)C000008 財(cái)經(jīng)C000010 ITC000013C000014C000016C000020C000022C000023C000024測(cè)試數(shù)據(jù)文本:微軟公司提出以44 5億美元的價(jià)格收購(gòu)雅虎巾國(guó)網(wǎng)2月1日?qǐng)?bào)道美聯(lián)社消息,微軟公司提出以4堂億美元現(xiàn)金加股票的價(jià)格收購(gòu)搜索網(wǎng)站雅虎公司。微軟提出以每股31美元的價(jià)格收購(gòu)雅虎。微軟的收購(gòu)報(bào)價(jià)較雅虎二月31日的收盤(pán)價(jià)19.工美元溢價(jià)微軟公司稱(chēng)雅虎公司的股東可以選擇以現(xiàn)金或 股票進(jìn)行交易。微軟和雅虎公司在20箕年底和2007年初已在尋求雙方合作。而近兩年,雅虎一直處于

12、困境:市場(chǎng)份額下滑、運(yùn)營(yíng)業(yè)績(jī)不佳、股價(jià)大幅下跌。對(duì)于力圖 在互聯(lián)網(wǎng)市場(chǎng)有所作為的微軟來(lái)說(shuō),收購(gòu)雅虎無(wú)疑是一條捷徑,因?yàn)殡p方具有非常強(qiáng)的互補(bǔ)性。(小橋)通過(guò)觀(guān)看可知,該文本預(yù)期為IT類(lèi)文章三、試驗(yàn)結(jié)果運(yùn)行結(jié)果如下列圖In process.C000007: 4.0854457E-7In process.C000008: 3.7337093E-9In process.C000010: 3.9367328E-4In process.C000013: 4.6463947E-11In process.C000014: 1.3958673E-20In process.C00O016: 1.4360195E-15In process.C000020: 6.3035146E-18In process.C000022: 5.2257925E-16In process.C000023: 9.089387E-22In p

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論