進(jìn)的貝葉斯分類對垃圾郵件識別探討_圖文_第1頁
進(jìn)的貝葉斯分類對垃圾郵件識別探討_圖文_第2頁
進(jìn)的貝葉斯分類對垃圾郵件識別探討_圖文_第3頁
進(jìn)的貝葉斯分類對垃圾郵件識別探討_圖文_第4頁
進(jìn)的貝葉斯分類對垃圾郵件識別探討_圖文_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、改進(jìn)的貝葉斯分類對垃圾郵件識別探討徐春玲(南昌大學(xué)信息工程學(xué)院,江西南昌330013摘要:垃圾郵件日益泛濫給人們的生活帶來了越來越多的擾亂與危害。結(jié)合規(guī)則過濾技術(shù)及改進(jìn)的樸素貝葉斯分類模型,對垃圾郵件進(jìn)行識別過濾,最后實(shí)驗(yàn)結(jié)果表明該策略提高了準(zhǔn)確率,具有良好的分類效果。關(guān)鍵詞:垃圾短信l過濾;貝葉斯分類;概率中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:16723198(2009240269-010前言隨著郵件在人們?nèi)粘I钪械膽?yīng)用飛速發(fā)展,各種垃圾郵件大量出現(xiàn),帶來了網(wǎng)絡(luò)安全等諸多問題,影響了人們方便快捷地獲取有效信息。為了更有效過濾垃圾郵件,提出了改進(jìn)的樸素貝葉斯分類方法,該分類方法在描述

2、的簡潔性、預(yù)測準(zhǔn)確性、計(jì)算復(fù)雜性、模型的健壯性及處理規(guī)模性方面均符合有效分類模型的評估標(biāo)準(zhǔn),使用用其對垃圾郵件進(jìn)行分類識別有效實(shí)現(xiàn)了對郵件的過濾。l貝葉斯分類算法在分類研究中經(jīng)常使用的有有最小距離分類器,K_最近鄰分類器,Naive Bayes分類器和支持向量機(jī)分類器(SVM等,其中Bayes分類器在實(shí)際應(yīng)用中取得了比較好的效果,該算法利用先驗(yàn)概率來計(jì)算某個分類目標(biāo)屬于某個類別的概率。貝葉斯分類的理論基礎(chǔ)是貝葉斯定理就是公式(1也稱逆概率公式。假設(shè)試驗(yàn)E的樣本空間為S,A為E的事件,B1、B2Bn為S的一個劃分,且P(A>0,P(Bi>0(i一1。2,1,由條件概率的定義及全概率公

3、式:p(Bi IA:掣型型盟(1P(AIBfp(Bi2樸素貝葉斯分類算法2.1樸素貝葉斯分類原理用樸素貝葉斯分類的基本原理描述如下:通過概率計(jì)算,從待分類的樣本數(shù)據(jù)的屬性al,a2。, a。中求出最可能的分類目標(biāo)值,即計(jì)算各類cjC對于這組屬性的條件概率P(cj Ial,a2。,a。,其中J=1。2,m (類別標(biāo)識數(shù),并輸出條件概率最大的類別標(biāo)識作為該樣本數(shù)據(jù)的所屬類別。2.2樸素貝葉斯分類過程樸素貝葉斯分類的流程為:(1每個樣本數(shù)據(jù)都是由一個類別標(biāo)識屬性c和一組行維向量X一(xx。z2,o。組成。(2假設(shè)存在m個類別f1,f2,Cm,對于給定的未知其類的樣本數(shù)據(jù)X,利用樸素貝葉斯分類算法將對

4、該樣本數(shù)據(jù)X進(jìn)行類別歸屬的預(yù)測,預(yù)測準(zhǔn)則是:樣本數(shù)據(jù)X歸屬于具有最大后驗(yàn)概率的類別。(3由于P(x對于所有的類別標(biāo)識屬性值來說都是個常量,所以。只需要p(X舊p(c1最大即可。類別標(biāo)識屬性值的先驗(yàn)概率可以通過公式P(c1一韙/s來估算。其中以是訓(xùn)練樣本數(shù)據(jù)中c類的數(shù)量,s是訓(xùn)練樣本數(shù)據(jù)的總數(shù)。(4如果給定的數(shù)據(jù)集有許多屬性,那么在計(jì)算戶(XI 矗時會有很大開銷,為了降低這種計(jì)算成本,假設(shè)類別的限制性條件是相互獨(dú)立的,也就是假設(shè)了各個屬性之間是相互獨(dú)立的。不存在相互依賴的關(guān)系。P(Xk=:一】P(xt k(2對于公式(2來說,概率p(xx Ci,p(x2ci。,p(x。I cj,可以從樣本數(shù)據(jù)中

5、獲取。其計(jì)算方法在取值為連續(xù)型和離散型時有所不同。如果Ak是離散型取值,則P(xk k=¥1KIsl,其中¥iK 表示在A中,屬于“類的訓(xùn)練樣本數(shù)據(jù)中含有的zl值的數(shù)量埔表示訓(xùn)練樣本數(shù)據(jù)集中屬于ci類的數(shù)量.如果A是連續(xù)型取值,則采用最常見的高斯分布來計(jì)算,即:1t一'。P(xk Ci=g(xk,肚,鞏一-=一eir(3。%/2nocj公式(3中,g(xt,脅;,鞏。是屬性Ak高斯密度函數(shù),雕。及“分別表示類ci中訓(xùn)練樣本數(shù)據(jù)中Al屬性值的平均值及標(biāo)準(zhǔn)差。(5為了對未知類別的樣本數(shù)據(jù)進(jìn)行分類,需要對每一類G估計(jì)P(XI CiP(ci,當(dāng)且僅當(dāng)下列條件成立時表示樣本數(shù)據(jù)X屬于Ci類。P(

6、XI CiP(ci>P(XI cjP(cj,其中1Jm,Ji,也就是假設(shè)類“的P(XkP(ci具有最大的取值。2.3樸素貝葉斯分類模型P(X/ci通常使用拉普拉斯估計(jì)(Laplacean prior來推算,因?qū)崿F(xiàn)細(xì)節(jié)的不同有兩種樸素貝葉斯模型,多元模型和多項(xiàng)模型,其中多元模型只考慮了特征詞在文本中是否出現(xiàn)(出現(xiàn)計(jì)為l,否則計(jì)為o,根據(jù)實(shí)際情況,我們研究在多元模型中t.IvlP(x/G一II(B。P(m/G+(1一B矗(1一一1p(wt/G(4在公式(4中,砒表示第t個特征詞。I廿I是特征詞的個數(shù)。B。表示訓(xùn)。是否在文本X中出現(xiàn)(出現(xiàn)記1,不出現(xiàn)記o.樸素貝葉斯分類模型訓(xùn)練的過程就是統(tǒng)計(jì)某

7、個特征詞在在各類中出現(xiàn)規(guī)律的過程。理論上講,貝葉斯分類的出錯率最小.2.4改進(jìn)的樸素貝葉斯分類模型樸素貝葉斯分類模型訓(xùn)練的過程其實(shí)就是統(tǒng)計(jì)每一個特征詞在各類別中出現(xiàn)規(guī)律的過程,多元模型只考慮特征詞是否在文本中出現(xiàn),采用樸素貝葉斯分類的多元模型。對于樸素貝葉斯模型的多元模型,由于只考慮了特征詞在作者簡介:徐春玲(1971一,南昌大學(xué)信息-t,ll學(xué)院計(jì)算機(jī)應(yīng)用專業(yè)在讀研究生。269論SDH技術(shù)下電力系統(tǒng)通信網(wǎng)建設(shè)袁泉(四川嘉能佳電力集團(tuán)有限責(zé)任公司,四川樂山614000摘要:SDH技術(shù)引入電力通信網(wǎng),對于滿足電力系統(tǒng)安全、穩(wěn)定、高效生產(chǎn)的需求及電力企業(yè)運(yùn)營走向事場化對電力系統(tǒng)通信網(wǎng)建設(shè)起著重要的

8、作用。關(guān)鍵詞:SDH技術(shù);電力系統(tǒng)l通信網(wǎng)中圖分類號:TM764文獻(xiàn)標(biāo)識碼:A文章編號:16723198(2009240270021我國電力系統(tǒng)通信網(wǎng)建設(shè)1.1電力系統(tǒng)通信網(wǎng)的特點(diǎn)現(xiàn)代電網(wǎng)的電力調(diào)度、繼電保護(hù)、遠(yuǎn)動數(shù)據(jù)和遠(yuǎn)程監(jiān)控要求通信系統(tǒng)必須建立在一個實(shí)時的多媒體綜臺業(yè)務(wù)平臺之上,電力系統(tǒng)通信網(wǎng)的特點(diǎn)是:(1防電磁、抗電壓、安全可靠、性能穩(wěn)定I(2話音、數(shù)據(jù)、圖像、遠(yuǎn)動控制等信息種類多、業(yè)務(wù)置不太大、業(yè)務(wù)點(diǎn)較分散I(3既有通信方式繁多,各種業(yè)務(wù)采用的通信方式不盡相同l(4設(shè)備種類多,接口復(fù)雜。1.2我國電力系統(tǒng)通信的主要業(yè)務(wù)(1話音業(yè)務(wù):調(diào)度電話、行政電話等。(2數(shù)據(jù)業(yè)務(wù):主要包括線路繼電保

9、護(hù)及安全自動裝置有關(guān)的數(shù)據(jù)業(yè)務(wù),調(diào)度自動化數(shù)據(jù)業(yè)務(wù)、電力市場數(shù)據(jù)業(yè)務(wù)、管理信息系統(tǒng)以及信息檢索瀋學(xué)計(jì)算和信息處理、電子郵件等。(3數(shù)據(jù)業(yè)務(wù):數(shù)據(jù)業(yè)務(wù)又可以分為實(shí)時數(shù)據(jù)業(yè)務(wù)和非實(shí)時數(shù)據(jù)業(yè)務(wù)。(4多媒體業(yè)務(wù):變電站視頻監(jiān)視、會議電視、視頻點(diǎn)播等.1.3電力系統(tǒng)通信網(wǎng)改造目標(biāo)電力通信網(wǎng)應(yīng)立足于電力企業(yè)信息化。以保障安全生產(chǎn)、指揮調(diào)度、電網(wǎng)管理和運(yùn)營為主體,并能隨著電信市場的發(fā)展逐步向外開放。網(wǎng)絡(luò)的建設(shè)應(yīng)做到全網(wǎng)統(tǒng)一規(guī)劃、遠(yuǎn)近結(jié)合、適度超前、分布實(shí)施。當(dāng)前,現(xiàn)有電力通信網(wǎng)的優(yōu)化改造目標(biāo)是:(1規(guī)劃網(wǎng)絡(luò)層次結(jié)構(gòu),分層優(yōu)化改造。文本中是否出現(xiàn)(出現(xiàn)計(jì)為1,否則計(jì)為0,因此用該模型進(jìn)行文本分類的準(zhǔn)確度不是很

10、高。為了強(qiáng)調(diào)特征詞在未知文本中出現(xiàn)的重要性,經(jīng)過反復(fù)試驗(yàn),對多元模型公式改進(jìn),我們提出了如下改進(jìn)公式(5。旦P(x/Ci=ll(R。(BdP(砒/Ci+(1一Bd(1一薔戶(砌/cf(5在公式(5中,常數(shù)R是對分類器進(jìn)行測試時所得到的經(jīng)驗(yàn)值,我們可以重點(diǎn)分析郵件標(biāo)題或文本中的名詞,很多時候就是通過少量的關(guān)鍵詞來決定郵件的類別(比如大優(yōu)惠,為了提高出現(xiàn)詞的權(quán)重,公式(5引人參數(shù)R,它的值由實(shí)驗(yàn)情況來決定,根據(jù)反復(fù)實(shí)驗(yàn),我們把R取值100。3實(shí)驗(yàn)與結(jié)論常用的模型質(zhì)量估計(jì)方法有分類準(zhǔn)確率、查準(zhǔn)率和查全率(Recall,我們采用分類準(zhǔn)確率來進(jìn)行衡量。我們知道,分類準(zhǔn)確率定義為;Accuracy(M=p

11、(tAccuracy(M。一戶(C(t=C(t Accuracy(M;仁賺髂以幻(6、V丹巳在公式(6中,C(t為郵件t的實(shí)際類值,C(t為分類模型對短信t的計(jì)算類值,P(1為短信l的概率(通常為1/n,竹為樣本集大小.由于郵件內(nèi)容的范圍非常廣,無法將其收齊,這里只收集了三類有代表性的郵件來做實(shí)驗(yàn),分別為:過節(jié)問候郵件50條、廣告郵件100條、商務(wù)郵件300條。為了防止學(xué)習(xí)模-270-型傾向于過分適合數(shù)據(jù),在實(shí)驗(yàn)中將數(shù)據(jù)源分成兩大部分,其中黃色短信200條、祝福短信200條、中獎短信23條作為訓(xùn)練樣本,用于樸素貝葉斯分類模型建立學(xué)習(xí)所用,余下的短信作為測試樣本。用來檢測分類模型的準(zhǔn)確率,表1是

12、通過實(shí)驗(yàn)得到的數(shù)據(jù)。表1改進(jìn)的樸素貝葉斯分類的準(zhǔn)確率表短信類別問候廣告商務(wù)正確散4699190錯誤數(shù)0110準(zhǔn)確率92%99%95%通過表1知道在廣告類的準(zhǔn)確率較高,改進(jìn)的貝葉斯分類在此非常有效,只要根據(jù)不同的環(huán)境,調(diào)整R值,理論上可以取得較好的分類效果。參考文獻(xiàn)E1潘華.項(xiàng)同德著數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理、工具、及應(yīng)用M.北京:中國電力出版社,2005.z盛驟。謝式千.潘承教著概率論度數(shù)境計(jì)(第三版M.北京:高等教育出版社。2001.3Han Jiawei,Kamber MM.Data Mining Concepts and Teeh-niques(影印版.2001.4McCallum and

13、K.Nigam.A comparison of event models for NaiveBayes text classification.In,M.Sahami ed.In AAAI-98Workshop on Learning for Text Categorization.AAAl Press。1998.41-48. 5陳學(xué)進(jìn).數(shù)據(jù)挖掘中聚類分析的研兜J.計(jì)算機(jī)技術(shù)與發(fā)展.2006.(09. 改進(jìn)的貝葉斯分類對垃圾郵件識別探討作者:徐春玲作者單位:南昌大學(xué)信息工程學(xué)院,江西南昌,330013刊名:現(xiàn)代商貿(mào)工業(yè)英文刊名:MODERN BUSINESS TRADE INDUSTRY年,卷

14、(期:2009,21(24被引用次數(shù):0次參考文獻(xiàn)(5條1.潘華.項(xiàng)同德著數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理、工具、及應(yīng)用M.北京:中國電力出版社,2005.2.盛驟,謝式千.潘承毅著概率論及數(shù)統(tǒng)計(jì)(第三版M.北京:高等教育出版社,2001.3.Han Jiawei,Kamber MM.Data Mining Concepts and Techniques(影印版,2001.4.McCallum and K.Nigam.A comparison of event models for Naive Bayes text classification.In:M.Sahami ed.In AAAF98 Work

15、shop on Learning for Text Categorization.AAAI Press,1998.41-48.5.陳學(xué)進(jìn).數(shù)據(jù)挖掘中聚類分析的研究J.計(jì)算機(jī)技術(shù)與發(fā)展,2006,(09.相似文獻(xiàn)(10條1.期刊論文沈超.黃衛(wèi)東.SHEN Chao.HUANG Wei-dong數(shù)據(jù)挖掘在垃圾短信過濾中的應(yīng)用-電子科技大學(xué)學(xué)報2009,38(z1針對手機(jī)垃圾短信泛濫、治理效果不佳的問題,基于運(yùn)營商現(xiàn)有業(yè)務(wù)平臺,借助統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)了垃圾短信過濾系統(tǒng),提出了垃圾短信過濾閉環(huán)流程圖;系統(tǒng)根據(jù)動態(tài)荻取的垃圾短信數(shù)據(jù)自動生成過濾規(guī)則,在信息轉(zhuǎn)發(fā)階段對垃圾短信進(jìn)行過濾.結(jié)合某省運(yùn)營

16、商短信運(yùn)營數(shù)據(jù)對垃圾短信過濾進(jìn)行了實(shí)證研究,在分析樣本短信數(shù)據(jù)的基礎(chǔ)上確定了建模特征屬性集,采用決策樹推進(jìn)算法獲取了垃圾短信的過濾規(guī)則,并設(shè)計(jì)了垃圾短信過濾方案,從準(zhǔn)確率和覆蓋率兩方面進(jìn)行了驗(yàn)證,取得了較好的效果.2.學(xué)位論文關(guān)娜基于文本分類算法的垃圾短信過濾技術(shù)研究2008手機(jī)短信因具有移動性好、價格低廉、收發(fā)便捷和娛樂性強(qiáng)等特點(diǎn)而使人們逐漸習(xí)慣于用短信的方式來傳送信息和進(jìn)行溝通交流。但垃圾短信問題也變得日益嚴(yán)峻。因此,研究短信智能監(jiān)管技術(shù)具有重要的意義。過濾技術(shù)是目前對付垃圾短信的主要手段,但采用現(xiàn)有的過濾方法時,短信中心需要對短信進(jìn)行逐條分析,才能判斷是否為垃圾短信,因此處理的效率比較低

17、。同時不管是基于關(guān)鍵詞還是基于內(nèi)容的垃圾短信過濾方法,都存在大量運(yùn)算,這樣會造成短信服務(wù)中心網(wǎng)絡(luò)堵塞,增加網(wǎng)絡(luò)的成本,其最終結(jié)果是采用放棄部分垃圾短信的過濾或延遲短信轉(zhuǎn)發(fā),從而就會降低垃圾短信過濾的準(zhǔn)確率和效率。因此,本文針對現(xiàn)有過濾技術(shù)的不足,提出了一個基于多層的垃圾短信過濾方法,該方法引入了用戶信任度的概念,根據(jù)用戶的信任度對用戶發(fā)送的短信進(jìn)行抽樣過濾,這樣極大的提高了處理的效率。同時該方法整合了多項(xiàng)垃圾短信過濾技術(shù)(黑白名單、關(guān)鍵詞及內(nèi)容過濾技術(shù),該方法較之單一的過濾方法準(zhǔn)確率和效率上有很大的提高。本文的主要工作包括:1.提出了基于短信行為特征的垃圾短信判別技術(shù),由于不同的短信用戶具有不

18、同的發(fā)送行為,通過對短信發(fā)送行為的監(jiān)測不僅可以實(shí)時監(jiān)測垃圾短信,還可以對垃圾短信發(fā)送進(jìn)行預(yù)測。2.由于絕大多數(shù)手機(jī)用戶并不是垃圾短信制造者,本文引入了用戶信任度的概念,根據(jù)用戶發(fā)送行為確定用戶的信任度級別。3.提出了根據(jù)用戶信任度對用戶發(fā)送的短信進(jìn)行抽樣檢測的方法,該方法在兼顧垃圾短信過濾正確性的情況下,也極大提高了過濾系統(tǒng)對經(jīng)過短信中心的垃圾短信的監(jiān)測效率。4.根據(jù)提出的抽樣監(jiān)測方法,融合了已有的垃圾短信過濾技術(shù),構(gòu)建了一個多層的垃圾短信過濾系統(tǒng)。實(shí)驗(yàn)表明,本文中提出的新方法對垃圾短信的過濾具有較高的效率。3.會議論文黃文良.李石堅(jiān).陸冠中大規(guī)模實(shí)時垃圾短信過濾系統(tǒng)2007垃圾短信是近年來困

19、擾手機(jī)用戶和運(yùn)營商的一大難題。設(shè)計(jì)了一種垃圾短信監(jiān)控和過濾系統(tǒng),根據(jù)短信發(fā)送行為特征、短信文本內(nèi)容等特點(diǎn),采用實(shí)時過濾和離線分類相結(jié)合地方法進(jìn)行高效短信過濾。系統(tǒng)中創(chuàng)新性地提出了雙層Hash方法,并將多種基于統(tǒng)計(jì)學(xué)習(xí)的文本分類方法應(yīng)用于短信過濾。相比傳統(tǒng)方法而言,本系統(tǒng)在過濾效率和準(zhǔn)確率兩方面均獲得大幅度提升。4.學(xué)位論文黃文良垃圾短信過濾關(guān)鍵技術(shù)研究2008本文針對垃圾短信過濾中的垃圾短信判別問題,利用機(jī)器學(xué)習(xí)領(lǐng)域中的Bayes分類方法、SVM分類方法和社會網(wǎng)絡(luò)方法,結(jié)合短信發(fā)送過程中的具體限制性條件,對垃圾短信內(nèi)容識別和垃圾短信發(fā)送用戶的識別這兩個問題中的關(guān)鍵技術(shù)進(jìn)行了深入的研究。完成的主

20、要工作包括:1、統(tǒng)一垃圾短信過濾模型本文中提出了一個可以解決多種短信發(fā)送方式的過濾模型-統(tǒng)一垃圾短信過濾模型。該模型即考慮到了不同發(fā)送端短信的具體特征,又盡可能利用現(xiàn)有的針對短信和短信發(fā)送用戶的短信阻止機(jī)制,能夠有效地過濾各種類型的垃圾短信,減少改造成本。2、基于多特征的垃圾短信識別算法設(shè)計(jì)了一種基于多特征的垃圾短信識別算法,綜合考慮短信發(fā)送的行為特征、短信的文本分詞后特征,利用Bayes分類和SVM分類方法分別離線與在線的實(shí)現(xiàn)對垃圾短信內(nèi)容的學(xué)習(xí)和實(shí)時分類:并通過一組基于反饋的自學(xué)習(xí)機(jī)制,使分類器具備增量式學(xué)習(xí)能力。實(shí)驗(yàn)和分析表明:本文的算法相比傳統(tǒng)方法在過濾效率和準(zhǔn)確率兩方面均獲得大幅度提

21、升。3、基于社會網(wǎng)絡(luò)的垃圾短信發(fā)送用戶識別從社會網(wǎng)絡(luò)的角度對短信發(fā)送問題進(jìn)行形式化的建模,通過實(shí)驗(yàn)驗(yàn)證了短信發(fā)送網(wǎng)絡(luò)所具有的社會性特征,如小世界原理、冪率等,并在此基礎(chǔ)上進(jìn)一步分析和挖掘了垃圾短信用戶在網(wǎng)絡(luò)上發(fā)送接收的異常模式和行為,并以此提出了一個基于語音關(guān)聯(lián)程度和短信回復(fù)比率的過濾算法(NASFA算法。實(shí)驗(yàn)和分析表明:算法不僅能夠高效的識別垃圾短信發(fā)送號碼,同時能夠有效的控制將正常用戶誤識別為垃圾短信用戶的比率。4、基于位置特征的垃圾短信發(fā)送用戶識別對于垃圾短信發(fā)送者而言,其在地理位置上具有明顯的特征。據(jù)此提出了一個利用位置特征和短信發(fā)送內(nèi)容的垃圾短信發(fā)送用戶識別算法。5、面向網(wǎng)絡(luò)端發(fā)送短

22、信的快速匹配過濾算法針對網(wǎng)絡(luò)端發(fā)送的短信具有發(fā)送速度快、發(fā)送頻率變化范圍大、不具備社會性特征和分類特征過少等特點(diǎn),本文提出了一種適用于網(wǎng)絡(luò)端口發(fā)送類垃圾短信的監(jiān)控和過濾解決方案,通過編碼預(yù)處理算法來克服反過濾干擾手段,并根據(jù)短信日發(fā)送數(shù)量、短信內(nèi)容等特征,采用模糊匹配和頻度監(jiān)控相結(jié)合的方法動態(tài)進(jìn)行短信過濾。此外,還引入了關(guān)鍵字加權(quán)控制頻度方法,根據(jù)短信長度修正過濾的閥值。最后對全文進(jìn)行概括性總結(jié),并指出了下一步重點(diǎn)需要研究和突破的方向。5.期刊論文金展.范晶.陳峰.徐從富基于樸素貝葉斯和支持向量機(jī)的自適應(yīng)垃圾短信過濾系統(tǒng)-計(jì)算機(jī)應(yīng)用2008,28(3隨著短信業(yè)務(wù)的不斷發(fā)展,垃圾短信的特征和內(nèi)容

23、也在不斷變化,傳統(tǒng)垃圾短信過濾系統(tǒng)中存在的主要問題是,短信特征和內(nèi)容未能得到及時更新而導(dǎo)致過濾性能降低.考慮樸素貝葉斯的快速統(tǒng)計(jì)分類及支持向量機(jī)(SVM的增量訓(xùn)練等特點(diǎn),將其應(yīng)用于垃圾短信過濾中,并把分析結(jié)果及時反饋給在線過濾子系統(tǒng),使得系統(tǒng)具有更好的自適應(yīng)性.實(shí)驗(yàn)結(jié)果表明,該方法可有效地解決當(dāng)前垃圾短信過濾系統(tǒng)中存在的問題.6.學(xué)位論文何孝金垃圾短信過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)2009近年來,隨著中國手機(jī)用戶數(shù)的增長,手機(jī)短消息業(yè)務(wù)得到了迅猛發(fā)展,但同時垃圾短信也以非??斓乃俣仍谠鲩L。目前,垃圾短信過濾技術(shù)主要有黑名單過濾、關(guān)鍵詞過濾和基于文本分類的內(nèi)容過濾。黑名單過濾和關(guān)鍵詞過濾能快速的過濾垃圾短

24、信,但其過濾的準(zhǔn)確率不高;基于文本分類的短信過濾的準(zhǔn)確率主要依賴于其訓(xùn)練樣本的數(shù)量及質(zhì)量,由于日常短信涉及個人的私隱,短信中心從不對外公布,現(xiàn)有的短信樣本很少,因此單純依靠文本分類的短信過濾其準(zhǔn)確率也不高。同時,現(xiàn)有的過濾技術(shù)都采用逐條檢測的方式,對于每天有大量短信息的短信中心來說,其運(yùn)算量是很大的,這樣會造成短信服務(wù)中心網(wǎng)絡(luò)堵塞。因此,從現(xiàn)有的技術(shù)上來說,垃圾短信的過濾在準(zhǔn)確率和效率方面仍然不能滿足現(xiàn)實(shí)需要。本文將針對現(xiàn)有短信過濾技術(shù)的不足,研究有效的解決或改進(jìn)的方法,同時引入新的技術(shù)與原有的過濾技術(shù)相結(jié)合,使垃圾短信過濾系統(tǒng)能夠具有更好的過濾性能。本文所做的主要工作如下:1.研究了應(yīng)用在垃

25、圾短信過濾系統(tǒng)中的關(guān)鍵詞查找算法,該算法采用WM算法的多模式匹配思想,通過預(yù)處理建立的哈希表來加快匹配速度,并且根據(jù)垃圾短信的特征,提出了用壓縮存儲的TRIE樹來組織模式串的方法,加快了查找速度。2.分析了主要的文本分類技術(shù),重點(diǎn)敘述基于最小風(fēng)險的貝葉斯分類在短信過濾中的應(yīng)用。3.提出用日志分析的方法來分析已經(jīng)過濾的短信,提取有用的數(shù)據(jù),更新關(guān)鍵詞庫及分類訓(xùn)練樣本,實(shí)現(xiàn)系統(tǒng)的自我優(yōu)化。4.將貝葉斯分類與新的過濾方法(包括流量檢測、抽樣檢測、日志分析結(jié)合,在保證短信過濾準(zhǔn)確率的情況下,提高短信過濾效率。最后,給出整個垃圾短信過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。7.期刊論文鄧維維.彭宏.DENG Wei-wei

26、.PENG Hong移動環(huán)境下的垃圾短信過濾系統(tǒng)的研究-計(jì)算機(jī)應(yīng)用2007,27(1提出了一種分布式的垃圾短信過濾系統(tǒng),它適合于移動網(wǎng)絡(luò),具有自學(xué)習(xí)能力,能夠及時發(fā)現(xiàn)垃圾信息源,有效的過濾垃圾短信.在傳統(tǒng)以詞為屬性的貝葉斯過濾算法的基礎(chǔ)上,加入了規(guī)則和長度信息,利用互信息減小單詞屬性的個數(shù).實(shí)驗(yàn)表明,它在短信過濾方面具有空間占用小和性能更好的特點(diǎn),適合在移動電話上使用.同時還提出了一種垃圾短信發(fā)送者的可能性排名的方法.8.學(xué)位論文鐘延輝基于文本挖掘的垃圾短信過濾方法2009手機(jī)短信作為一種收發(fā)便捷、移動性好、價格低廉的通訊方式,逐漸影響著人們的生活。但隨著短信的日益普及,垃圾短信問題也變得同益

27、嚴(yán)峻,其嚴(yán)重的泛濫不僅僅嚴(yán)重影響人們的正常生活,而且嚴(yán)重影響社會穩(wěn)定和公共安全。垃圾短信的過濾成為了當(dāng)前人們生活急需解決的一個重要任務(wù),因此垃圾短信智能過濾技術(shù)的研究具有重要的意義。目前垃圾短信過濾技術(shù)包括黑白名單技術(shù)、規(guī)則過濾以及關(guān)鍵詞匹配等。然而現(xiàn)有的技術(shù)需要對短信進(jìn)行逐條分析與判斷,存在大量運(yùn)算,會造成短信服務(wù)中心網(wǎng)絡(luò)堵塞,使得短信發(fā)送得不到及時的處理。針對目前過濾技術(shù)的缺點(diǎn),本文提出了一種基于抽樣的短信流過濾方法,該方法提出用部分短信代表整個短信流的思想;同時給每個用戶設(shè)定一個可信值,并根據(jù)用戶可信值的不同,對發(fā)送到短信服務(wù)中心的短信進(jìn)行不同強(qiáng)度的檢測。檢測到的短信根據(jù)短信的文字信息進(jìn)

28、行分類,而不必對每一條短信進(jìn)行分析,提高了垃圾短信的處理效率。該方法整合了現(xiàn)有的垃圾短信過濾技術(shù)(長度過濾,黑白名單、關(guān)鍵詞及內(nèi)容過濾等技術(shù)。在內(nèi)容過濾技術(shù)中,本文采用了協(xié)同神經(jīng)網(wǎng)絡(luò)的分類方法,然而經(jīng)典的Haken模型對海量數(shù)據(jù)識別是極為困難的,本文根據(jù)協(xié)同神經(jīng)網(wǎng)絡(luò)在注意參數(shù)相等時能快速識別的原理,改進(jìn)算法,使之能適應(yīng)海量垃圾短信分類。同時將現(xiàn)有的垃圾短信過濾技術(shù)和改進(jìn)的協(xié)同神經(jīng)網(wǎng)絡(luò)應(yīng)用于MapReduce模型之中。實(shí)驗(yàn)表明基于抽樣的垃圾短信過濾方法比單一的內(nèi)容過濾方法準(zhǔn)確率和處理時間上有很大的提高,以及這些技術(shù)應(yīng)用MapReduce模型中的可行性和有效性。本文的主要工作包括:(1概述了現(xiàn)有的垃圾短信過濾技術(shù)以及分析了這些技術(shù)存在的問題,同時對垃圾短信的定義、危害進(jìn)行了描述。(2介紹了協(xié)同神經(jīng)網(wǎng)絡(luò)模型原理,并在現(xiàn)有的模型基礎(chǔ)上進(jìn)行改進(jìn),建立一個多輸入單輸出的協(xié)同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使之能適合海量的短信識別。(3提出了抽樣短信流過濾方法,構(gòu)建了一個基于抽樣的短信流過濾系統(tǒng)。(4介紹了MapReduce模型,并將現(xiàn)有的垃圾短信過濾技術(shù)和改進(jìn)的協(xié)同神經(jīng)網(wǎng)絡(luò)應(yīng)用于MapReduce模型之中。9.期刊論文范晶.劉菊新.陳峰.徐從富.FAN Jing.LIU

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論