下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
使用樸素過濾郵。學過概率的同學一定都知道定理這個在250多年前發(fā)明的算法在信息領(lǐng)域內(nèi)有著無與倫比的地位分類是一類分類算法的總稱這類算法均以斯定理為基礎(chǔ)故統(tǒng)稱為分類而樸素樸素分類是分類中最簡單,。樸素分類器基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。通過以上定理和“樸素”的假定,我們知道:P(Category| )=P(|Category)*PCategory)/ )由一個被稱為類的屬性確定。為建立模型而被分析的數(shù)據(jù)元組形成訓練數(shù)據(jù)集,模型(DecisionTreeModel)和樸素模型(NaiveBayesianModel,NBC。和決模型相比,樸素分類器(NaiveBayesClassifier,或NBC)發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方NBC模型假設(shè)屬性NBC模型的正確分類這樣做也符合概率原理因為我們把一個詞組看作一個單獨的模式例如言來理解,所以結(jié)果是一樣的。
在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決文中已經(jīng)得到公認在機器學書中也提到過算法對于屬性的識別情況決定于很多決對于文本分類識別,要看具體情況。在屬性相關(guān)性較小時,NBC模型的yf(x)ri屬于IyiCyif(xi)CI叫做項集合(特征集f的分類算法,對應著不同的思想。定理也稱推理,早在18世紀,英國學者(1702~1763)曾提出計算條件概率的用來解決如下一類問題:假設(shè)H[1],H[2]…,H[n]互斥且構(gòu)成一H[,1],H[,2]…,H[,n]P(A/H[,i])P(H[,i]/A)。率學派的和都對學派不屑一顧但是學派硬是憑借在現(xiàn)代特定領(lǐng)域的出色應用表現(xiàn)為自己贏得了半壁。被頻率學派的是先驗概率一般來說先驗概率就是我們對于數(shù)據(jù)所在領(lǐng)域的歷史經(jīng)驗但是這個經(jīng)驗常常難以量化或者模型化于是學派大膽的假設(shè)先驗分布率學派認為很荒謬雖然難以從嚴密的數(shù)學邏輯里推出學派的邏輯但是在很多實際應用中,理論很好用,比如郵件分類,文本分類。我們先看看條件獨立,如果X和Y相互獨立,則有:P(X,Y)=P(X)P(Y)。我們接著看看條件概率:P(Y|X)=P(X,Y)/P(X)P(X|Y)=P(X,Y)/P(Y)。或者說:P(Y|X)=P(X|Y)P(Y)/P(X)。接著看看全概率:P(X)=\sum\limits_{k}P(X|Y=Y_k)P(Y_k)其中\(zhòng)sum\limits_{k}P(Y_k)=1。從上面的很容易得出:P(Y_k|X)=\frac{P(X|Y_k)P(Y_k)}/{\sum\limits_{k}P(X|Y=Y_k)P(Y_k)}。從統(tǒng)計學(x_1^{(1)},x_2^{(1)},...x_n^{(1)},y_1),(x_1^{(2)},x_2^{(2)},...x_n^{(2)},y_2),{(m)},x_2^{(m)},...x_n^{(m)},y_n)。即我們有m個樣本,每個樣本有n個特征輸出 K個類別,定義為C1,C2,...CK。從樣本我們可以學習得到樸素的先驗分布P(Y=C_k)(k=1,2,...K),接著學P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k),然后我們就可以用得到X和Y的聯(lián)合分布P(X,Y)了。聯(lián)合分布P(X,Y)定義P(Y=Ck)比較容易通過最大似然法求出,得到的P(Y=Ck)CkP(X1=x1,X2=x2,...Xn=xn|Y=Ck)n布。樸素模型在這里做了一個大膽的假設(shè),即X的n個維度之間相互獨立,的確性。你會說如果我的特征之間非常不獨立怎么辦?如果真是非常不獨立的話,那就盡量不要使用樸素模型了,考慮使用其他的分類方法比較好。但是化了,這就是模型的選擇。最后回到我們要解決的問題,我們的問題是給定型?既然是模型,當然是后驗概率最大化來判斷分類了。我們只要計算出所KP(Y=Ck|X=X(test)),然后找出最大的條件概率對應的類別,這就是樸素的預測了。樸素:假設(shè)給定目標值時屬性之間相互條件獨立。根據(jù)1,在給定B,Ai,…,AnAi,…,An是相互獨立的。
樸素模型:根據(jù)定理和樸素假設(shè)條件,從訓練集中訓練出一、現(xiàn)在要對郵件過濾進行原理分析件??梢允褂脕磬]件,但是對于一封新郵箱地址發(fā)送的郵件,卻不能識別?,F(xiàn)在需要對郵件進行分析,判斷其是郵件的概率,來幫助管理員分擔實際為郵識別為郵ABCD數(shù)據(jù)集中每一行代表一封郵件。以spam開頭代表是郵件,以ham開頭代表是正常郵件?,F(xiàn)在使用這個數(shù)據(jù)集訓練出一個樸素模型。再來任意一封郵件,由模型判斷出這封郵件是郵件的概率。如果這封郵件為郵件,則識別成功,如果為正常郵件,則識別錯誤。有兩個標準來評價模型的價值。率(RecallRate)和準確率(PrecisionRate)實際為郵識別為郵ABCD則率為:R=A/(A+C)。準確率為:P=A/(A+B)監(jiān)測反則是保準確率的條件下提升所以在兩者都要求高的情況下,F(xiàn)1來衡量。F1=2*P*R/(P+R)。二、進行分析常郵件中的次數(shù),郵件有多少封,正常郵件有多少封。模型就訓練出來了。然后輸入一封待處理郵件,找到里面所有出現(xiàn)的。求出郵件中的。T1,…1,…Tn是多個。A和T是關(guān)聯(lián)的。T1,…1,…Tn每個根據(jù)樸素的假設(shè)是相互獨立的P(A|T1,…Tn)P(A|T1,…Tn)為T1,…1,…Tn這些同時出現(xiàn)的情況下A是垃圾郵件的概率…P(T_{n-1}|A)P(T_n|A)P(A)}{P(T_1)P(T_2)…P(T_{n-1})P(T_n)}\tag。P(A|T1,…率大于95%時,認為此郵件為郵件。測試這些郵件的效果,得到測試的率和準確率,然后評價算法的效果。本實驗中是用是否出現(xiàn),以及出現(xiàn)的頻率來判斷郵件是否為郵件class{//publicString//此在郵件中出現(xiàn)的次publicint//郵件總數(shù)publicint//此在正常郵件中出現(xiàn)的次publicint//publicint//這個存在的情況下,是郵件的概publicdouble
String[]banword=//預熱數(shù)據(jù),MapMap<String,KeywordCount>keywordMap=newHashMap<String,for(Strings:keywordMap.put(snewKeywordCount(s0,0,0,0));// //統(tǒng)計郵件出現(xiàn)的次intspamNumber=//intlegitNumber=//統(tǒng)計每個關(guān)鍵字在正常郵件和郵件中出現(xiàn)的次for(inti=0;i<mailList.size();{StringmailContent=//看真實情況是否是郵if{ { KeywordCountkeywordCount=}//
if(containFlag=={keywordCount.spam+=}
if(kcTemp.spam+kcTemp.legit==0)keywordCount.spamAll+=}
}
}{
{ KeywordCountkeywordCount=entry.getValue();
doubleSpam=1.0*kcTemp.spam/doubleSpamAll=1.0*kcTemp.spamAll/(kcTemp.spamAlldoubleLegit=1.0*kcTemp.legit/doubleLegitAll=1.0*kcTemp.legitAll/(kcTemp.spamAllbiningProbabilities=(Spam*SpamAll)/(Spamif(containFlag=={keywordCount.legit+=}keywordCount.legitAll+=}
SpamAll+Legit*LegitAll);//根據(jù)(if biningProbabilities<{}}}}4)過濾
//過濾得到所有符合要求的對郵件有較高識別度的for(Strings:{得到單個單詞出現(xiàn)的情況下郵件是否為郵件的概率并設(shè)定一個閾值是否List<String>needRemoveKey=new//得到每一個關(guān)鍵字出現(xiàn)的情況下是郵件的概率的概for(Map.Entry<String,KeywordCount>entry:{
}5)//List<String>testMailList=//intrightCount=intwrongCount0;//總共郵件數(shù)intspamCount=for(Stringmail:{//StringthisMail=//總共郵件數(shù)if{}List<String>onKeywordList=new {booleancontainFlag=FilterKeyWord(thisMail,entry.getKey());if(containFlag==true){ }}if KeywordList.size()<={System.out.println("沒有含有關(guān)鍵字,應該是正常郵件
}//得到這封郵件所有的聯(lián)合概率,根據(jù)(doublePup=1.0*spamNumber/(spamNumber+legitNumber);doublePdown=1.0f;for(Stringkw:on{ keywordMap.get(kw).legit)/(spamNumber+legitNumber);}doublePmail=Pup/(Pup+System.out.println("該封郵件是郵件的概率為:"+Pmail+",實際是否為郵件:"+thisMail.startsWith("spam"));//if(Pmail>0.999&&{}//if(Pmail>0.999&&{}}System.out.println("郵件總數(shù)為"+spamCount+",正確識別了"+rightCount+"封郵件,率"+rightCount*1.0/spamCount+",準確率:"+rightCount*1.0/(rightCount+},99.9%以上才能定為郵件進行。在這個前提下,過濾時的閾值進行變動時率和準確率的變,,前面已經(jīng)了郵件要在保證準確率的前提下,提高率。從此次93%100%
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度太陽能光伏發(fā)電站項目進度控制與協(xié)調(diào)合同
- 二零二五版美容美發(fā)行業(yè)員工試用期勞動合同4篇
- 二零二五年度新型公私合作轉(zhuǎn)賬借款合同模板3篇
- 二零二五年度國有企業(yè)原材料采購合同補充協(xié)議范文3篇
- 二零二五年度影視MV拍攝制作與藝人肖像權(quán)合同
- 二零二五年度民政局離婚協(xié)議書修訂版解讀3篇
- 課題申報參考:民俗視域下江漢平原地區(qū)民歌音樂形態(tài)研究
- 二零二五年度農(nóng)業(yè)節(jié)水灌溉技術(shù)服務(wù)合同4篇
- 黑龍江省雙鴨山市高三上學期開學考試語文試題(含答案)
- 二零二五年度社區(qū)食堂運營管理合同4篇
- 再生障礙性貧血課件
- 產(chǎn)后抑郁癥的護理查房
- 2024年江蘇護理職業(yè)學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 電能質(zhì)量與安全課件
- 醫(yī)藥營銷團隊建設(shè)與管理
- 工程項目設(shè)計工作管理方案及設(shè)計優(yōu)化措施
- 圍場滿族蒙古族自治縣金匯螢石開采有限公司三義號螢石礦礦山地質(zhì)環(huán)境保護與土地復墾方案
- 小升初幼升小擇校畢業(yè)升學兒童簡歷
- 資金支付審批單
- 第一單元(金融知識進課堂)課件
- 介入導管室護士述職報告(5篇)
評論
0/150
提交評論