垃圾郵件過濾_第1頁
垃圾郵件過濾_第2頁
垃圾郵件過濾_第3頁
垃圾郵件過濾_第4頁
垃圾郵件過濾_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、垃圾郵件過濾系統(tǒng)垃圾郵件過濾系統(tǒng) 1、什么是垃圾郵件?垃圾郵件過濾 2、什么是過濾?如何過濾?垃圾郵件的定義垃圾郵件的定義 垃圾郵件是指向未主動請求的用戶發(fā)送的電子郵件如廣告、刊物或其他資料;或沒有明確的退信方法、發(fā)信人、回信地址等的郵件;或者利用網(wǎng)絡(luò)從事違反網(wǎng)絡(luò)服務(wù)供應(yīng)商的安全策略或服務(wù)條款的行為和其他預(yù)計會導(dǎo)致投訴的郵件。垃圾郵件的防范垃圾郵件的防范 現(xiàn)在,采用的反垃圾郵件技術(shù)主要從三個方面來防范垃圾郵件:郵件發(fā)送方、郵件傳輸過程、郵件接收方。采用的主要技術(shù)有: 1、郵件服務(wù)系統(tǒng)的安全加固:主要措施有增強(qiáng)郵件服務(wù)器 的安全性、提供郵件服務(wù)安全身份認(rèn)證、添加反垃圾 郵件的專用設(shè)備或插件等。

2、2、郵件過濾技術(shù)。主要技術(shù)有基于規(guī)則(如IP地址、域名、 郵件地址等)和基于統(tǒng)計的過濾方式(基于郵件內(nèi)容過 濾)。 3、提高發(fā)送垃圾郵件成本,從源頭上阻止垃圾郵件的產(chǎn) 生。主要技術(shù)有電子郵票、Challenge-Response, SPE (sender policy framework)等。過濾過濾l過濾就是分類。l信息過濾(Information filtering)是一個十分廣泛的概念。有人定義信息過濾為:根據(jù)用戶的信息需求對動態(tài)數(shù)據(jù)流進(jìn)行過濾,僅僅把滿足用戶需求的信息傳送給用戶,以提高獲取信息的效率。這種定義主要是著重于信息檢索方面,他們主要研究的問題在于信息的自動分類、文本文摘自動化

3、,以及Web數(shù)據(jù)的檢索等問題。信息過濾所需要解決這樣幾個問題信息過濾所需要解決這樣幾個問題1.如何獲取信息。2.信息如何進(jìn)行表示。3.根據(jù)什么樣的規(guī)則和方法來處理信息。4.信息相似度如何計算。5.匹配規(guī)則的自動生成。 其中信息表示是系統(tǒng)的基礎(chǔ)部分,信息表示的好壞將直接影響到其他的幾個方面,因為它決定了信息處理的方法、規(guī)則的生成等。 信息過濾在文檔類信息中的應(yīng)用就是將文檔內(nèi)容按照一定的表示方法如向量空間模型進(jìn)行整理后,采用文本分類的方法進(jìn)行信息過濾。 文本分類的算法有基于概念的文本分類算法、貝葉斯分類方法、K最近鄰接分類算法、基于語義網(wǎng)絡(luò)的概念推理網(wǎng)分類方法和向量空間法等。我們主要采用的是貝葉斯

4、分類方法。 貝葉斯分類方法貝葉斯分類方法 貝葉斯分類算法是一種廣泛應(yīng)用的分類算法,應(yīng)用于文本分類時,通過計算文本屬于每個類別的概率P(cj|dx),將該文本歸為概率最大的一類,計算P(cj|dx)時利用貝葉斯公式。簡單貝葉斯分類算法即Naive Bayesian,它建立在“貝葉斯假設(shè)”的基礎(chǔ)之上:假設(shè)所有的特征之間互相獨(dú)立。實際上,在生活中這種獨(dú)立性很難存在,但從目前的實驗結(jié)果看來,基于這個假設(shè)的簡單貝葉斯分類算法的效果很好,而且計算簡單,因此在很多場合得到適用。Graham使用使用Naive Bayesian過濾過濾垃圾郵件的理論垃圾郵件的理論 Paul Graham于2002年8月發(fā)表了一

5、篇文章:A Plan for Spam,在文章中Graham提議建立垃圾郵件和非垃圾郵件單詞的貝葉斯概率模型?;舅枷?在已知的垃圾郵件中,一些單詞出現(xiàn)的頻率較高。運(yùn)用一些眾所周知的數(shù)學(xué)知識,對于每個特征,可以生成一個“垃圾郵件指示性概率” (spamminess probability)。根據(jù)郵件中所包含的一組詞,可以用另一個簡單的數(shù)學(xué)公式來確定文本郵件的“整體垃圾郵件概率”(combined probability),也稱郵件的聯(lián)合概率。算法說明算法說明之所以選擇貝葉斯算法,原因是由于該算法的優(yōu)點在于: 1、實現(xiàn)簡單; 2、貝葉斯模型能夠自我糾正。 特征概率的算法特征概率的算法 對于訓(xùn)練集

6、中的一個特征w: b(w)含有特征w的垃圾郵件數(shù)量/總的垃圾郵件 的數(shù)量; g(w)含有特征w的合法郵件數(shù)量/總的合法郵件的數(shù)量;特征w概率f(w)的計算:b(w)p(w) =b(w) + g(w)(s* x) + (n* p(w)f(w) =s+n上式中:n:含特征w的郵件數(shù)量;s:一個常數(shù)參量,通常為1;x:當(dāng)n0時,我們需要假設(shè)的常量,也是特征w的 概率,通常設(shè)為0.5;p(w)是Graham方法對特征概率的估計。郵件特征聯(lián)合概率的算法郵件特征聯(lián)合概率的算法 在過濾過程中,對于進(jìn)入過濾的郵件,我們要根據(jù)訓(xùn)練的結(jié)果和該郵件的特征表示,給該郵件一個綜合的判定值,即聯(lián)合概率。然后根據(jù)設(shè)定的閾值

7、,判定此郵件是垃圾郵件還是合法郵件。 計算方法如下:(1-)(1-)(1-)(1-)ABCNABCNABCN A,B,C,.,N代表了各個特征的在哈希表hash-spamminess中的值。當(dāng)郵件特征中包含以前沒有從來沒有出現(xiàn)的特征,建議特征概率為0.4。 本垃圾郵件過濾系統(tǒng)的工作說明本垃圾郵件過濾系統(tǒng)的工作說明垃圾郵件過濾系統(tǒng)的系統(tǒng)流程圖 : 特征庫訓(xùn)練器(特征提取)過濾器(把垃圾郵件標(biāo)識出來) 郵件訓(xùn)練集郵件測試集存儲過濾結(jié)果 郵件提取郵件提?。豪脤︵]件的解碼提取郵件信息,包括對測 試集郵件的提取和訓(xùn)練集郵件的提取。特征提取特征提?。簩⒂捎?xùn)練集或者測試集中的郵件,進(jìn)行特征提取。在訓(xùn)練集中

8、,把從郵件提取的特征,按照已定的算法進(jìn)行計算,再用放入特征庫中來進(jìn)行儲存;在測試集中,提取郵件的特征,交給下個環(huán)節(jié)處理。 在系統(tǒng)中,郵件階段是通過對郵件的解碼獲取信息,并將郵件轉(zhuǎn)換為文本。特征提取是提取郵件的主題和郵件體中的字符串,利用token串統(tǒng)計提取出的token串中各個token出現(xiàn)的次數(shù)。模式匹配:模式匹配:接受特征提取中后的信息,根據(jù)規(guī)則數(shù)據(jù)庫中的規(guī)則,按照某種相似度計算算法計算信息與實際需求的相關(guān)性,在達(dá)到一定的閥值后,輸出過濾的結(jié)果。信息表示信息表示:提供對過濾后的郵件的瀏覽,以及對過濾效果的評價。 模式匹配階段分為兩個階段:訓(xùn)練和測試。 訓(xùn)練階段主要是訓(xùn)練規(guī)則庫,提取spam和ham的特征;主要分三步: 解析郵件和提取特征; 建立三個哈希表:hash-good、hash-bad、 hash-spamminess; hash-good存放合法郵件中提取的特征和各特征在合法郵件中出現(xiàn)的次數(shù);hash-bad存放垃圾郵件中提取的特征和各特征在垃圾郵件中出現(xiàn)的次數(shù); 綜合考慮hash-good和hash-bad,建立各特征的垃圾郵件指示概率(spammniess probability), 存入哈希表hash-spamminess中。 測試階段是利用已訓(xùn)練完成的規(guī)則庫,對郵件進(jìn)行判斷。并向用戶提交結(jié)果。 其過濾過程為: 對于新的郵件,提取郵件的特征,通常是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論