




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第 頁反垃圾郵件技術及貝葉斯算法的研究 摘要:垃圾郵件給互聯(lián)網(wǎng)以及廣大的使用者帶來了很大的影響,這種影響不僅僅是人們需要花費時間來處理垃圾郵件、占用系統(tǒng)資源等,同時也帶來了很多的安全問題。過濾器技術是目前最為廣泛使用的反垃圾郵件技術,反垃圾郵件方案所采用的是多種多類技術的綜合體。 關鍵詞:垃圾郵件;安全;過濾器技術;貝葉斯算法 中圖分類號:TP393.098 文獻標識碼:A 1 引言 電子郵件是最常用的網(wǎng)絡應用之一,已經(jīng)成為網(wǎng)絡交流溝通的重要途徑。但是,垃圾郵件(spam)煩惱著大多數(shù)人,垃圾郵件隨著互聯(lián)網(wǎng)的不斷發(fā)展而大量增長,并且成了計算機病毒新的、快速的傳播途徑。 垃圾郵件給互聯(lián)網(wǎng)以及廣大
2、的使用者帶來了很大的影響,這種影響不僅僅是人們需要花費時間來處理垃圾郵件、占用系統(tǒng)資源等,同時也帶來了很多的安全問題。 垃圾郵件占用了大量網(wǎng)絡資源,這是顯而易見的。一些郵件服務器因為安全性差,被作為垃圾郵件轉(zhuǎn)發(fā)站為被警告、封IP等事件時有發(fā)生,大量消耗的網(wǎng)絡資源使得正常的業(yè)務運作變得緩慢。隨著國際上反垃圾郵件的發(fā)展,組織間黑名單共享,使得無辜服務器被更大范圍屏蔽,這無疑會給正常用戶的使用造成嚴重問題。 越來越具有欺騙性的病毒郵件,讓很多企業(yè)深受其害,很多安全事件都是因為郵件產(chǎn)生的,可能是病毒、木馬或者其他惡意程序。對于普通使用者來說,的確很難作出正確的判斷,但是造成的損失卻是很直接的。 2 反
3、垃圾郵件技術及貝葉斯算法 當前的反垃圾郵件技術可以分為4大類1:過濾器(Filter)、反向查詢(Reverse lookup)、挑戰(zhàn)(challenges)和密碼術(cryptography),這些解決辦法都可以減少垃圾郵件問題,但是都有它們的局限性。下面主要談談過濾技術中的一些方法及貝葉斯算法。 過濾(Filter)是一種相對來說最簡單卻很直接的處理垃圾郵件技術。這種技術主要用于接收系統(tǒng)來辨別和處理垃圾郵件。從應用情況來看,這種技術也是使用最廣泛的,比如很多郵件服務器上的反垃圾郵件插件、反垃圾郵件網(wǎng)關、客戶端上的反垃圾郵件功能等,都是采用的過濾技術。 2.1 關鍵詞過濾 關鍵詞過濾技術通常
4、創(chuàng)建一些簡單或復雜的與垃圾郵件關聯(lián)的單詞表來識別和處理垃圾郵件。比如某些關鍵詞大量出現(xiàn)在垃圾郵件中,如一些病毒的郵件標題,比如:test。這種方式比較類似反病毒軟件利用的病毒特征一樣。可以說這是一種簡單的內(nèi)容過濾方式來處理垃圾郵件,它的基礎是必須創(chuàng)建一個龐大的過濾關鍵詞列表。 2.2 黑白名單 黑名單(Black List)和白名單(White List)。分別是已知的垃圾郵件發(fā)送者或可信任的發(fā)送者IP地址或者郵件地址?,F(xiàn)在有很多組織都在做BL(block list),將那些經(jīng)常發(fā)送垃圾郵件的IP地址(甚至IP地址范圍)收集在一起,做成block list,比如spamhaus的SBL(Spa
5、mhaus Block List),一個BL,可以在很大范圍內(nèi)共享。許多ISP正在采用一些組織的BL來阻止接收垃圾郵件。白名單則與黑名單相反,對于那些信任的郵件地址或者IP就完全接受了。 目前很多郵件接收端都采用了黑白名單的方式來處理垃圾郵件,包括MUA和MTA,當然在MTA中使用得更廣泛,這樣可以有效地減少服務器的負擔。 2.3 HASH技術 HASH技術是郵件系統(tǒng)通過創(chuàng)建HASH來描述郵件內(nèi)容,比如將郵件的內(nèi)容、發(fā)件人等作為參數(shù),最后計算得出這個郵件的HASH來描述這個郵件。如果HASH相同,那么說明郵件內(nèi)容、發(fā)件人等相同。這在一些ISP上在采用,如果出現(xiàn)重復的HASH值,那么就可以懷疑是
6、大批量發(fā)送郵件了。 2.4 基于規(guī)則的過濾 這種過濾根據(jù)某些特征(比如單詞、詞組、位置、大小、附件等)來形成規(guī)則,通過這些規(guī)則來描述垃圾郵件,就好比IDS中描述一條入侵事件一樣。要使得過濾器有效,就意味著管理人員要維護一個龐大的規(guī)則庫。 2.5 智能和概率系統(tǒng)(貝葉斯算法) 在過濾器中,現(xiàn)在表現(xiàn)最好的應該是基于評分(score)的過濾器。評分系統(tǒng)過濾器是一種最基本的算法過濾器,也是貝葉斯算法的基本雛形。它的原理就是檢查垃圾郵件中的詞或字符等,將每個特征元素(最簡單的元素就是單詞,復雜點的元素就是短語)都給出一個分數(shù)(正分數(shù)),另一方面就是檢查正常郵件的特征元素,用來降低得分的(負分數(shù))。最后郵
7、件整體就得到一個垃圾郵件總分,通過這個分數(shù)來判斷是否spam。 貝葉斯理論現(xiàn)在在計算機行業(yè)中應用相當廣泛,這是一種對事物的不確定性描述,比如google計算中就采用了貝葉斯理論。貝葉斯算法的過濾器就是計算郵件內(nèi)容中成為垃圾郵件的概率,它要首先從許多垃圾郵件和正常郵件中進行學習,因此,效果將比普通的內(nèi)容過濾器更優(yōu)秀,錯報就會更少。貝葉斯過濾器也是一種基于評分的過濾器。但不僅僅是一種簡單的計算分數(shù),而更從根本上來識別。它采用自動建立特征表的方式,原理上,首先分析大量的垃圾郵件和大量的正常郵件,算法分析郵件中多種特征出現(xiàn)概率。 貝葉斯算法計算特征的來源通常是2:a郵件正文中的單詞;b郵件頭(發(fā)送者、
8、傳遞路徑等);c其他表現(xiàn),比如HTML編碼(如顏色等);d詞組、短語;emeta信息,比如特殊短語出現(xiàn)位置等。 比如,正常郵件中經(jīng)常出現(xiàn)單詞AAA,但是基本不在垃圾郵件中出現(xiàn),那么,AAA標示垃圾郵件的概率就接近0,反之則然。 貝葉斯算法的步驟為: (1)收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集。 (2)提取特征來源中的獨立字符串,例如AAA等作為TOKEN串并統(tǒng)計提取出的TOKEN串出現(xiàn)的次數(shù)即字頻。按照上述的方法分別處理垃圾郵件集和非垃圾郵件集中的所有郵件。 (3)每一個郵件集對應一個哈希表,hashtablegood對應非垃圾郵件集而hashtablebad對應垃圾郵
9、件集。表中存儲TOKEN串到字頻的映射關系。 (4)計算每個哈希表中TOKEN串出現(xiàn)的概率P=(某TOKEN串的字頻)/(對應哈希表的長度) (5)綜合考慮hashtablegood和hashtablebad,推斷出當新來的郵件中出現(xiàn)某個TOKEN串時,該新郵件為垃圾郵件的概率。數(shù)學表達式3為: A事件郵件為垃圾郵件; t1,t2 ,tn 代表TOKEN串 則P(A|ti)表示在郵件中出現(xiàn)TOKEN串ti時,該郵件為垃圾郵件的概率。設 P1(ti)=ti在hashtablegood中的值 P2(ti)=ti在hashtablebad中的值 則P(A|ti)=P2(ti)(P1(ti)+P2(t
10、i); (6)建立新的哈希表hashtableprobability存儲TOKEN串ti到P(A|ti)的映射 (7)根據(jù)建立的哈希表hashtableprobability可以估計一封新到的郵件為垃圾郵件的可能性。 當新到一封郵件時,按照步驟2,生成TOKEN串。查詢hashtableprobability得到該TOKEN串的鍵值。假設由該郵件共得到N個TOKEN串,t1,t2.tn,hashtableprobability中對應的值為P1,P2,PN,P(A|t1,t2,t3tn)表示在郵件中同時出現(xiàn)多個TOKEN串t1,t2tn時,該郵件為垃圾郵件的概率。 由復合概率公式可得3: P(A
11、|t1,t2,t3tn)=(P1*P2*PN)/P1*P2*PN+(1-P1)*(1-P2)*(1-PN) 當P(A|t1,t2,t3tn)超過預定閾值時,就可以判斷郵件為垃圾郵件。 當新郵件到達的時候,就通過貝葉斯過濾器分析,通過使用各個特征來計算郵件是spam的概率。通過不斷的分析,過濾器也不斷地獲得自更新。比如,通過各種特征判斷一個包含單詞AAA的郵件是spam,那么單詞AAA成為垃圾郵件特征的概率就增加了。 3 Foxmail中過濾技術及貝葉斯算法的應用 3.1 Foxmail中反垃圾郵件技術 在識別垃圾郵件方面,F(xiàn)oxmail使用了“黑名單”、“白名單”、“規(guī)則過濾”、“學習法過濾(
12、貝葉斯過濾)”等技術,綜合應用這些技術,F(xiàn)oxmail就能夠準確地識別垃圾郵件。 在Foxmail菜單中點擊“工具”-“反垃圾郵件功能設置”,就可打開反垃圾郵件設置窗口,如圖1所示。 收取郵件時,F(xiàn)oxmail首先使用“白名單”對郵件進行判斷,如果發(fā)件人的E-mail地址包含在“白名單”中,則把該郵件判定為非垃圾郵件,否則,繼續(xù)進行判斷。 接著使用“黑名單”對郵件進行判斷,如果發(fā)件人的E-mail地址或名字包含在黑名單中,則把該郵件判定為垃圾郵件并直接刪除,否則,繼續(xù)進行判斷。 接著使用“規(guī)則過濾”對郵件進行判斷。在Foxmail中定義了完善的垃圾郵件規(guī)則,每條規(guī)則對應一個分數(shù),當郵件符合某一
13、條規(guī)則,則給郵件增加相應的分數(shù),當郵件得到的分數(shù)達到一定值時,就把該郵件判定為垃圾郵件,否則,繼續(xù)進行判斷。 接著使用“貝葉斯過濾”對郵件進行判斷。貝葉斯過濾強大的反垃圾功能,讓系統(tǒng)能夠?qū)⒛鷤€人的正常郵件和垃圾郵件的特征詞語采集出來,為反垃圾判斷提供基準。 3.2 Foxmail中貝葉斯算法應用 例如:一封含有“”字樣的垃圾郵件A和一封含有“法律”字樣的非垃圾郵件B。 (1)根據(jù)郵件A生成hashtablebad,該哈希表中的記錄為:法1次,輪1次,功1次。 計算得在本表中:“法”出現(xiàn)的概率為0.3;“輪”出現(xiàn)的概率為0.3;“功”出現(xiàn)的概率為0.3。 (2)根據(jù)郵件B生成hashtableg
14、ood,該哈希表中的記錄為:法1次,律1次。 計算得在本表中:“法”出現(xiàn)的概率為0.5;“律”出現(xiàn)的概率為0.5。 (3)綜合考慮兩個哈希表,共有四個TOKEN串:律。 當郵件中出現(xiàn)“法”時,該郵件為垃圾郵件的概率為:P=0.3/(0.3+0.5)=0.375; 出現(xiàn)“輪”時:P=0.3/(0.3+0)=1; 出現(xiàn)“功”時:P=0.3/(0.3+0)=1; 出現(xiàn)“律”時:P=0/(0+0.5)=0。 (4)由此可得第三個哈希表:hashtableprobability,該哈希表中的記錄為:法0.375,輪1,功1,律0。 當新到一封含有“功律”的郵件時,我們可得到兩個TOKEN串:功律。 查詢哈希表hashtableprobability可得:P(垃圾郵件|功)=1,P(垃圾郵件|律)=0。 (5)計算該郵件為垃圾郵件的可能性:P=(0*1)/0*1+(1-0)*(1-1)=0。 由此可推出該郵件為非垃圾郵件。 4 總結 盡管過濾器技術存在局限,但是,這是目前最為廣泛使用的反垃圾郵件技術。其實,現(xiàn)在很多反垃圾郵件方案所采用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電力干線遷移施工方案
- 新中式瓦工施工方案
- 文官街地鐵施工方案
- TSHPA 0006-2024 學校有害生物綜合管理指南
- 2025年度跨境電商貸款擔保合同
- 二零二五年度餐飲管理輔導合同
- 二零二五年度柜臺品牌授權與推廣合同
- 茶樓茶藝師勞動合同2025年度與勞動合同簽訂流程
- 二零二五年度影視演員網(wǎng)絡直播聘用協(xié)議
- 二零二五年度個體店面轉(zhuǎn)讓與市場準入條件協(xié)議
- 物業(yè)公司人員培訓及考核方案
- 山東省淄博市2023-2024學年高一下學期期末教學質(zhì)量檢測數(shù)學試題
- 數(shù)據(jù)中心容災備份解決方案
- 七年級下冊第三單元名著導讀《駱駝祥子》公開課一等獎創(chuàng)新教學設計(公開課公開課一等獎創(chuàng)新教案及作業(yè)設計)
- 2025屆新高考生物精準復習+提高農(nóng)作物產(chǎn)量
- 幾何圖形中求線段線段和面積等最值問題 中考數(shù)學
- 真太陽時調(diào)整
- TD/T 1037-2013 土地整治重大項目可行性研究報告編制規(guī)程(正式版)
- 2024年時政試題庫(奪分金卷)
- 2024年江蘇農(nóng)林職業(yè)技術學院單招職業(yè)適應性測試題庫及答案1套
- 工程項目移交方案
評論
0/150
提交評論