




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于貝葉斯技術(shù)的垃圾郵件處理研究易 均 ,李暉 ,王歆(江西省科學(xué)院 ,江西 南昌 330029 )摘要: 本論文首先對(duì)垃圾郵件進(jìn)行了簡(jiǎn)要的描述,并敘述了反垃圾郵件技術(shù)的研究現(xiàn)狀,介紹貝葉斯 過濾技術(shù)的工作原理及技術(shù)原理,最后給出貝葉斯技術(shù)研究的發(fā)展方向。關(guān)鍵詞: 貝葉斯技術(shù);反垃圾郵件1、前言隨著因特網(wǎng)應(yīng)用的快速發(fā)展, 電子郵件也逐步成為因特網(wǎng)的最大一個(gè)應(yīng)用之 一,給我們生活帶來很大的方便, 而且電子郵件的發(fā)展也代表了我國(guó)進(jìn)入信息業(yè) 高速發(fā)展的階段。 但是也同時(shí)產(chǎn)生了一個(gè)新的問題, 即大量的垃圾郵件出現(xiàn)。 如 何把電子郵件中的垃圾郵件過濾掉, 已經(jīng)成為電子郵件用戶此刻最關(guān)心的一大問 題,這也
2、就是所謂的“反垃圾郵件”問題。反垃圾郵件是具有相當(dāng)難度的事情,垃圾郵件每天都在增加和變化。據(jù) Radicati 估計(jì) 2007 年,垃圾郵件的比例將達(dá)到 70?,F(xiàn)在的垃圾郵件發(fā)送者變 得更加狡猾, 采用靜態(tài)反垃圾郵件技術(shù)很難防范。 垃圾郵件發(fā)送者只要簡(jiǎn)單的研 究一下現(xiàn)在采用了哪些靜態(tài)反垃圾郵件, 然后相應(yīng)的改變一下郵件的內(nèi)容或發(fā)送 方式,就可以逃避檢查了, 因此,必須采用一種新的技術(shù)來克服靜態(tài)反垃圾郵件 的弱點(diǎn),這種技術(shù)應(yīng)該對(duì)垃圾郵件發(fā)送者的各種伎倆了如指掌, 還要能適應(yīng)不同 用戶對(duì)于反垃圾郵件的個(gè)性化需求。這種技術(shù)就是貝葉斯過濾技術(shù)。2、垃圾郵件概述以及反垃圾郵件技術(shù)的研究現(xiàn)狀2.1 、垃圾
3、郵件的概述我國(guó)至今對(duì)垃圾郵件的定義有很多種,包括如下幾種:收件人沒有提出要 求或者同意接收的廣告、 及其各種形式的宣傳品等宣傳性的電子郵件; 在郵件 中,隱藏了發(fā)件人身份、地址、標(biāo)題等信息的電子郵件:含有虛假的發(fā)件人的 身份、地址等信息源的電子郵件;收件人無(wú)法拒收或者無(wú)法刪除的電子郵件。 目前,垃圾郵件的定義被擴(kuò)大了,除了上述對(duì)垃圾郵件定義外,病毒、反動(dòng)、色 情等等無(wú)用的郵件,也被包括在垃圾郵件的定義中2.2 、反垃圾郵件技術(shù)的研究現(xiàn)狀目前影響較大的主流反垃圾郵件技術(shù)有以下二種:協(xié)議改進(jìn)類的方法,重新構(gòu)建 SMTP協(xié)議,加入安全認(rèn)證機(jī)制。針對(duì)垃圾 郵件問題對(duì)SMTP協(xié)議進(jìn)行改進(jìn)和完善是許多研究
4、人員關(guān)注的重點(diǎn)問題所在。因 為就SMTP協(xié)議改進(jìn)而言面臨著很多棘手之處,因此目前新協(xié)議沒有得到廣泛的 使用,相信未來隨著網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)一步發(fā)展, 在這方面的研究成果會(huì)成為解決垃 圾郵件問題的有力措施。在當(dāng)今的郵件系統(tǒng)中載入其它處理程序來阻斷垃圾郵件, 其中包含了垃圾 郵件過濾技術(shù)、 郵件服務(wù)器的安全管理技術(shù)兩部分內(nèi)容。 對(duì)過濾技術(shù)的應(yīng)用主要 集中在利用 IP 或者域名“黑名單”進(jìn)行郵件過濾或中斷;基于數(shù)據(jù)挖掘技術(shù)進(jìn) 行的過濾垃圾郵件, 利用文本分類與統(tǒng)計(jì)算法進(jìn)行垃圾郵件檢測(cè)。 比較有代表性 的包括結(jié)合DNS的實(shí)時(shí)黑名單過濾、貝葉斯過濾器等,其中貝葉斯過濾器以較高 的準(zhǔn)確率在垃圾郵件過濾技術(shù)中占據(jù)
5、了很重要的地位。3、貝葉斯過濾技術(shù)3.1 、貝葉斯過濾技術(shù)的工作原理根據(jù)貝葉斯理論, 根據(jù)已經(jīng)發(fā)生的時(shí)間可以預(yù)測(cè)未來事件發(fā)生的可能性。 將 該理論運(yùn)用到反垃圾郵件上: 若已知某些字詞經(jīng)常出現(xiàn)在垃圾郵件中, 卻很少出 現(xiàn)在合法郵件中, 當(dāng)一封郵件含有這些字詞時(shí), 那么他是垃圾郵件的可能性就很 大。創(chuàng)建基于字詞符號(hào)的貝葉斯數(shù)據(jù)庫(kù) 用戶首先需要對(duì)貝葉斯進(jìn)行培訓(xùn), 即將郵件分類為垃圾郵件 (用戶不想要的) 和 正常郵件(用戶想要的) ,貝葉斯將提取這些郵件樣本中主題和信體中的獨(dú)立字 串,包括字詞(word)和符號(hào)(token )(如$,IP地址,域名等),并建立相 應(yīng)的數(shù)據(jù)庫(kù)。創(chuàng)建貝葉斯概率庫(kù) 統(tǒng)計(jì)出
6、每個(gè)字串在垃圾郵件中出現(xiàn)的概率以及在正常郵件中出現(xiàn)的概率, 然后根 據(jù)公式計(jì)算出郵件中含某字串則為垃圾郵件的概率。例如:在 3000 封垃圾郵件 樣本中 "mortgage" (抵押) 出現(xiàn)了 400次,而在 300封正常郵件中這個(gè)詞出現(xiàn)了 5次,那么其對(duì)應(yīng)的垃圾概率為 0.8889 (400/3000 /5/300+400/3000 )。創(chuàng)建個(gè)性化的貝葉斯庫(kù)由于每個(gè)單位對(duì)所收到的郵件偏好是不同的, 例如,某個(gè)金融類單位在正常 郵件中可能經(jīng)常用到"mortgage"這個(gè)詞,如果使用靜態(tài)的關(guān)鍵詞過濾,就可能產(chǎn) 生很多誤判。如果采用貝葉斯過濾,在對(duì)貝葉斯進(jìn)行
7、培訓(xùn)的時(shí)候,將該單位的合 法郵件(自然,很多都包含了 "mortgage"這個(gè)詞)分類為正常郵件。這樣,垃圾 郵件的識(shí)別率將更高,同時(shí)也使得誤判率變得很低。貝葉斯過濾算法的主要思想是在已知的大量垃圾郵件中,郵件中包含一些 特征串(token),這些特征串可以簡(jiǎn)單的理解為一個(gè)完整的單詞,但實(shí)際上它不 僅僅限于單詞,它們一般出現(xiàn)在郵件中的頻率特別高,而在一些合法郵件中,另一些特征串出現(xiàn)的頻率也很高。一般而言,對(duì)于同一個(gè)特征串出現(xiàn)在垃圾郵件和 合法郵件中的概率是不同的。因此,對(duì)于出現(xiàn)的每一個(gè)特征串,都會(huì)生成一個(gè)“垃 圾郵件指示性概率” (spam ratio)。所以我們就可以判斷
8、文本消息的整體“垃圾 郵件概率”。在垃圾郵件的處理中,對(duì)token的定義方法有很多種,如字母、數(shù)字、破折 號(hào)、撇號(hào)、美元號(hào)等,還有在收件人,發(fā)件人和主題等這些欄中出現(xiàn)的token作為相應(yīng)的標(biāo)記。根據(jù)一些劃分方法從郵件中提取標(biāo)識(shí)時(shí), 得到標(biāo)識(shí)的數(shù)量比較 大時(shí),這樣處理工作帶來了較大的計(jì)算開銷, 使整個(gè)處理過程的效率下降。另外, 有些標(biāo)識(shí),例如a、the、of、for等,這些詞出現(xiàn)的頻率雖然很高,但它們?cè)?一封郵件中頻繁出現(xiàn)我們并不能說明這封郵件是垃圾郵件還是合法郵件。因此, 必須對(duì)標(biāo)識(shí)進(jìn)行必要的細(xì)化處理,找出這些非用詞放入一個(gè)表中,保留其他的標(biāo) 識(shí)為以后工作使用。3.2、貝葉斯方法過濾垃圾郵件的
9、基本技術(shù)原理收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集。提取郵件主題和郵件體中的獨(dú)立字串作為TOKEN串,并統(tǒng)計(jì)提取它的TOKE串出現(xiàn)的次數(shù),即字頻。每一個(gè)郵件集對(duì)應(yīng)一個(gè)哈希表,設(shè)hashtable_good對(duì)應(yīng)非垃圾郵件集而hashtable_bac對(duì)應(yīng)垃圾郵件集。表中存儲(chǔ)TOKE串到字頻的映射關(guān)系。計(jì)算每個(gè)哈希表中TOKEN串出現(xiàn)的概率P=(某TOKEN串的字頻)/ (對(duì) 應(yīng)哈希表的長(zhǎng)度)。綜合考慮hashtable_good和hashtable_bad推斷出當(dāng)新來的郵件中出現(xiàn)某 個(gè)TOKENI時(shí),該新郵件為垃圾郵件的概率。數(shù)學(xué)表達(dá)式為:A 事件-郵件為垃圾郵件;It,t
10、n代表TOKEN串,則P(A/tJ表示在郵件中出現(xiàn)TOKEN串ti時(shí),該郵件為垃圾郵件的概率。設(shè):R(ti) = (ti在 hashtable _ good中的值)P2(tJ =(tj在 hashtable _ bad 中的值)貝U P(A/ti)-R(ti)+P2(ti)建立新的哈希表 hashtable_probability存儲(chǔ)TOKEN!ti到P(A/ti)的映射。此時(shí)垃圾郵件集和非垃圾郵件集的學(xué)習(xí)過程結(jié)束。根據(jù)建立的hashtable_probability估計(jì)一圭寸新到的郵件為垃圾郵件的可能性。當(dāng)新到一封郵件時(shí),按照步驟 2生成TOKEN串。查詢hashtable_probabil
11、ity得到該TOKEN串的鍵值。假設(shè)由該郵件共得到 N個(gè) TOKEN串, t|,t2 ,tn, hashtable_probability 中對(duì)應(yīng)的值為R,F2,R , P(A/tt2,tn)表示在郵件中同時(shí)出現(xiàn)多個(gè)TOKEN串tnt2tn時(shí),該郵件為垃圾郵件的概率。由復(fù)合概率公式得:P(A/t!,t2/ tn)1 2-R訃2汀巳+( P戶(1卩2戶(1 巳)當(dāng)P(A/tt2)超過預(yù)定閾值時(shí),就可以判斷郵件為垃圾郵件。3.3、貝葉斯過濾的優(yōu)點(diǎn)貝葉斯過濾技術(shù)對(duì)郵件的所有內(nèi)容進(jìn)行分析,不僅僅是其中的某個(gè)關(guān)鍵詞,而且他能判別郵件是垃圾郵件還是正常郵件。例如:包含 “free ”“ cash” “發(fā)票
12、”字樣的郵件不一定是垃圾郵件,如果采用關(guān)鍵字過濾技術(shù),顯然難以達(dá)到理想的效果。 而貝葉斯呢,即考慮了這些詞在垃圾郵件中出 現(xiàn)的概率又考慮了它在正常郵件中的概率,綜合考慮這些因素才做出判斷。可以說,貝葉斯具有一定的智能,它對(duì)郵件中的關(guān)鍵詞匯能綜合的進(jìn)行評(píng)判,可以把 握“好”與“壞”之間的平衡。顯然,這種技術(shù)遠(yuǎn)遠(yuǎn)高于非1即0的靜態(tài)過濾技 術(shù)。貝葉斯過濾技術(shù)具備自適應(yīng)功能一一通過學(xué)習(xí)新的垃圾郵件及正常郵件 樣本,貝葉斯將能對(duì)抗最新的垃圾郵件。并且對(duì)變體字有奇效。比如,垃圾郵件 發(fā)送者開始使用 "f-r-e-e" 來代替“ free ”這樣能夠繞過關(guān)鍵字檢查,除非 "f-
13、r-e-e" 被加到新的關(guān)鍵字中。 對(duì)貝葉斯而言, 當(dāng)它發(fā)現(xiàn)郵件中含有 "f-r -e-e" 時(shí),由于正常郵件中從來沒有發(fā)現(xiàn)這個(gè)詞, 因此他是垃圾郵件的可能性將急劇增 加, "f-r-e-e" 這個(gè)新詞無(wú)疑成了垃圾郵件的指示器。在比如,垃圾郵件中用 5e 代替se,貝葉斯也推算出他是垃圾郵件的可能性也急劇增加。貝葉斯過濾技術(shù)更加個(gè)性化。 他能學(xué)習(xí)并理解用戶對(duì)郵件的偏好。 如前所 述, mortgage '抵押一詞對(duì)軟件單位而言意味者垃圾, 但對(duì)金融類單位則意味 著好郵件。貝葉斯能根據(jù)用戶的這種偏好進(jìn)行處理。貝葉斯過濾技術(shù)支持多語(yǔ)種或者說
14、與編碼無(wú)關(guān)。 對(duì)于貝葉斯而言, 他分析 的是字串,無(wú)論他是字、詞、符號(hào)、還是別的什么,當(dāng)然更與語(yǔ)言無(wú)關(guān)。貝葉斯過濾器很難被欺騙。 垃圾郵件發(fā)送高手通常通過減少垃圾詞匯 (如 free 、viagra 、發(fā)票)或者在信中多摻一些好的詞匯(如合同、文件)來繞過檢 查一般的郵件內(nèi)容檢查, 但由于貝葉斯具有的個(gè)性化色彩, 要想成功的繞過貝葉 斯的檢查, 他就不得不對(duì)每個(gè)收件人的偏好進(jìn)行研究, 這簡(jiǎn)直是“不可能完成的 任務(wù)”。垃圾郵件發(fā)送者無(wú)法容忍的。 若采用變化字, 則如前所述貝葉斯判斷其 為垃圾郵件的可能性反而增加。4、結(jié)束貝葉斯網(wǎng)絡(luò)具有悠久的歷史, 很久以前貝葉斯就提出了基于統(tǒng)計(jì)方法的貝葉 斯網(wǎng)絡(luò)的概念。 貝葉斯網(wǎng)絡(luò)為因果信息提供了一種自然直觀的表達(dá)方式。 貝葉斯 網(wǎng)絡(luò)具有概率推理能力強(qiáng)、語(yǔ)義清晰、易于理解等特點(diǎn)。近年來,研究熱點(diǎn)在推 理的各種方法和從數(shù)據(jù)中進(jìn)行貝葉斯網(wǎng)絡(luò)學(xué)習(xí)的各種方法, 并且它對(duì)于網(wǎng)絡(luò)模型 的構(gòu)建和智能推理的應(yīng)用均具有重要的意義。參考文獻(xiàn)1 王理冬,汪光陽(yáng),程澤凱,朱孝宇,貝葉斯網(wǎng)絡(luò)的發(fā)展與展望J.安徽工業(yè)大學(xué)學(xué)報(bào) 200
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年山東城市建設(shè)職業(yè)學(xué)院高職單招高職單招英語(yǔ)2016-2024歷年頻考點(diǎn)試題含答案解析
- 2025年寧波職業(yè)技術(shù)學(xué)院高職單招高職單招英語(yǔ)2016-2024歷年頻考點(diǎn)試題含答案解析
- 2025年天津國(guó)土資源和房屋職業(yè)學(xué)院高職單招(數(shù)學(xué))歷年真題考點(diǎn)含答案解析
- 消化內(nèi)科護(hù)理帶教老師總結(jié)
- Camtasia知識(shí)課件視頻教
- 大學(xué)生思想教育
- 體育與健康課程標(biāo)準(zhǔn)
- 人教版數(shù)學(xué)小學(xué)六年級(jí)下冊(cè)《第一課成正比例的量》習(xí)題
- 民辦四川天一學(xué)院《設(shè)備安裝課程實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 哈爾濱北方航空職業(yè)技術(shù)學(xué)院《Hydraulics》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年4月自考13887經(jīng)濟(jì)學(xué)原理中級(jí)押題及答案
- 小學(xué)校長(zhǎng)在月度教師會(huì)議總結(jié)發(fā)言:教學(xué)、管理、成長(zhǎng)全回顧
- 公司事故隱患內(nèi)部報(bào)告獎(jiǎng)勵(lì)制度
- 如何通過合理膳食安排促進(jìn)嬰幼兒成長(zhǎng)發(fā)育
- JJF(紡織) 061-2024 圓盤取樣器校準(zhǔn)規(guī)范
- 智能健康養(yǎng)老服務(wù)人才培養(yǎng)創(chuàng)新與實(shí)踐探索
- 人教版(2024)七年級(jí)下冊(cè)生物期中復(fù)習(xí)必背知識(shí)點(diǎn)提綱
- 統(tǒng)編歷史七年級(jí)下冊(cè)(2024版)第8課-北宋的政治【課件】j
- 抖音陪跑合同范本
- 2025年度灰渣采購(gòu)與運(yùn)輸一體化服務(wù)合同
- 城中村改造項(xiàng)目建設(shè)方案
評(píng)論
0/150
提交評(píng)論