版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、改進(jìn)的貝葉斯分類對(duì)垃圾郵件識(shí)別探討徐春玲(南昌大學(xué)信息工程學(xué)院,江西南昌330013摘要:垃圾郵件日益泛濫給人們的生活帶來(lái)了越來(lái)越多的擾亂與危害。結(jié)合規(guī)則過(guò)濾技術(shù)及改進(jìn)的樸素貝葉斯分類模型,對(duì)垃圾郵件進(jìn)行識(shí)別過(guò)濾,最后實(shí)驗(yàn)結(jié)果表明該策略提高了準(zhǔn)確率,具有良好的分類效果。關(guān)鍵詞:垃圾短信l過(guò)濾;貝葉斯分類;概率中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16723198(2009240269-010前言隨著郵件在人們?nèi)粘I钪械膽?yīng)用飛速發(fā)展,各種垃圾郵件大量出現(xiàn),帶來(lái)了網(wǎng)絡(luò)安全等諸多問(wèn)題,影響了人們方便快捷地獲取有效信息。為了更有效過(guò)濾垃圾郵件,提出了改進(jìn)的樸素貝葉斯分類方法,該分類方法在描述
2、的簡(jiǎn)潔性、預(yù)測(cè)準(zhǔn)確性、計(jì)算復(fù)雜性、模型的健壯性及處理規(guī)模性方面均符合有效分類模型的評(píng)估標(biāo)準(zhǔn),使用用其對(duì)垃圾郵件進(jìn)行分類識(shí)別有效實(shí)現(xiàn)了對(duì)郵件的過(guò)濾。l貝葉斯分類算法在分類研究中經(jīng)常使用的有有最小距離分類器,K_最近鄰分類器,Naive Bayes分類器和支持向量機(jī)分類器(SVM等,其中Bayes分類器在實(shí)際應(yīng)用中取得了比較好的效果,該算法利用先驗(yàn)概率來(lái)計(jì)算某個(gè)分類目標(biāo)屬于某個(gè)類別的概率。貝葉斯分類的理論基礎(chǔ)是貝葉斯定理就是公式(1也稱逆概率公式。假設(shè)試驗(yàn)E的樣本空間為S,A為E的事件,B1、B2Bn為S的一個(gè)劃分,且P(A>0,P(Bi>0(i一1。2,1,由條件概率的定義及全概率公
3、式:p(Bi IA:掣型型盟(1P(AIBfp(Bi2樸素貝葉斯分類算法2.1樸素貝葉斯分類原理用樸素貝葉斯分類的基本原理描述如下:通過(guò)概率計(jì)算,從待分類的樣本數(shù)據(jù)的屬性al,a2。, a。中求出最可能的分類目標(biāo)值,即計(jì)算各類cjC對(duì)于這組屬性的條件概率P(cj Ial,a2。,a。,其中J=1。2,m (類別標(biāo)識(shí)數(shù),并輸出條件概率最大的類別標(biāo)識(shí)作為該樣本數(shù)據(jù)的所屬類別。2.2樸素貝葉斯分類過(guò)程樸素貝葉斯分類的流程為:(1每個(gè)樣本數(shù)據(jù)都是由一個(gè)類別標(biāo)識(shí)屬性c和一組行維向量X一(xx。z2,o。組成。(2假設(shè)存在m個(gè)類別f1,f2,Cm,對(duì)于給定的未知其類的樣本數(shù)據(jù)X,利用樸素貝葉斯分類算法將對(duì)
4、該樣本數(shù)據(jù)X進(jìn)行類別歸屬的預(yù)測(cè),預(yù)測(cè)準(zhǔn)則是:樣本數(shù)據(jù)X歸屬于具有最大后驗(yàn)概率的類別。(3由于P(x對(duì)于所有的類別標(biāo)識(shí)屬性值來(lái)說(shuō)都是個(gè)常量,所以。只需要p(X舊p(c1最大即可。類別標(biāo)識(shí)屬性值的先驗(yàn)概率可以通過(guò)公式P(c1一韙/s來(lái)估算。其中以是訓(xùn)練樣本數(shù)據(jù)中c類的數(shù)量,s是訓(xùn)練樣本數(shù)據(jù)的總數(shù)。(4如果給定的數(shù)據(jù)集有許多屬性,那么在計(jì)算戶(XI 矗時(shí)會(huì)有很大開銷,為了降低這種計(jì)算成本,假設(shè)類別的限制性條件是相互獨(dú)立的,也就是假設(shè)了各個(gè)屬性之間是相互獨(dú)立的。不存在相互依賴的關(guān)系。P(Xk=:一】P(xt k(2對(duì)于公式(2來(lái)說(shuō),概率p(xx Ci,p(x2ci。,p(x。I cj,可以從樣本數(shù)據(jù)中
5、獲取。其計(jì)算方法在取值為連續(xù)型和離散型時(shí)有所不同。如果Ak是離散型取值,則P(xk k=¥1KIsl,其中¥iK 表示在A中,屬于“類的訓(xùn)練樣本數(shù)據(jù)中含有的zl值的數(shù)量埔表示訓(xùn)練樣本數(shù)據(jù)集中屬于ci類的數(shù)量.如果A是連續(xù)型取值,則采用最常見(jiàn)的高斯分布來(lái)計(jì)算,即:1t一'。P(xk Ci=g(xk,肚,鞏一-=一eir(3。%/2nocj公式(3中,g(xt,脅;,鞏。是屬性Ak高斯密度函數(shù),雕。及“分別表示類ci中訓(xùn)練樣本數(shù)據(jù)中Al屬性值的平均值及標(biāo)準(zhǔn)差。(5為了對(duì)未知類別的樣本數(shù)據(jù)進(jìn)行分類,需要對(duì)每一類G估計(jì)P(XI CiP(ci,當(dāng)且僅當(dāng)下列條件成立時(shí)表示樣本數(shù)據(jù)X屬于Ci類。P(
6、XI CiP(ci>P(XI cjP(cj,其中1Jm,Ji,也就是假設(shè)類“的P(XkP(ci具有最大的取值。2.3樸素貝葉斯分類模型P(X/ci通常使用拉普拉斯估計(jì)(Laplacean prior來(lái)推算,因?qū)崿F(xiàn)細(xì)節(jié)的不同有兩種樸素貝葉斯模型,多元模型和多項(xiàng)模型,其中多元模型只考慮了特征詞在文本中是否出現(xiàn)(出現(xiàn)計(jì)為l,否則計(jì)為o,根據(jù)實(shí)際情況,我們研究在多元模型中t.IvlP(x/G一II(B。P(m/G+(1一B矗(1一一1p(wt/G(4在公式(4中,砒表示第t個(gè)特征詞。I廿I是特征詞的個(gè)數(shù)。B。表示訓(xùn)。是否在文本X中出現(xiàn)(出現(xiàn)記1,不出現(xiàn)記o.樸素貝葉斯分類模型訓(xùn)練的過(guò)程就是統(tǒng)計(jì)某
7、個(gè)特征詞在在各類中出現(xiàn)規(guī)律的過(guò)程。理論上講,貝葉斯分類的出錯(cuò)率最小.2.4改進(jìn)的樸素貝葉斯分類模型樸素貝葉斯分類模型訓(xùn)練的過(guò)程其實(shí)就是統(tǒng)計(jì)每一個(gè)特征詞在各類別中出現(xiàn)規(guī)律的過(guò)程,多元模型只考慮特征詞是否在文本中出現(xiàn),采用樸素貝葉斯分類的多元模型。對(duì)于樸素貝葉斯模型的多元模型,由于只考慮了特征詞在作者簡(jiǎn)介:徐春玲(1971一,南昌大學(xué)信息-t,ll學(xué)院計(jì)算機(jī)應(yīng)用專業(yè)在讀研究生。269論SDH技術(shù)下電力系統(tǒng)通信網(wǎng)建設(shè)袁泉(四川嘉能佳電力集團(tuán)有限責(zé)任公司,四川樂(lè)山614000摘要:SDH技術(shù)引入電力通信網(wǎng),對(duì)于滿足電力系統(tǒng)安全、穩(wěn)定、高效生產(chǎn)的需求及電力企業(yè)運(yùn)營(yíng)走向事場(chǎng)化對(duì)電力系統(tǒng)通信網(wǎng)建設(shè)起著重要的
8、作用。關(guān)鍵詞:SDH技術(shù);電力系統(tǒng)l通信網(wǎng)中圖分類號(hào):TM764文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16723198(2009240270021我國(guó)電力系統(tǒng)通信網(wǎng)建設(shè)1.1電力系統(tǒng)通信網(wǎng)的特點(diǎn)現(xiàn)代電網(wǎng)的電力調(diào)度、繼電保護(hù)、遠(yuǎn)動(dòng)數(shù)據(jù)和遠(yuǎn)程監(jiān)控要求通信系統(tǒng)必須建立在一個(gè)實(shí)時(shí)的多媒體綜臺(tái)業(yè)務(wù)平臺(tái)之上,電力系統(tǒng)通信網(wǎng)的特點(diǎn)是:(1防電磁、抗電壓、安全可靠、性能穩(wěn)定I(2話音、數(shù)據(jù)、圖像、遠(yuǎn)動(dòng)控制等信息種類多、業(yè)務(wù)置不太大、業(yè)務(wù)點(diǎn)較分散I(3既有通信方式繁多,各種業(yè)務(wù)采用的通信方式不盡相同l(4設(shè)備種類多,接口復(fù)雜。1.2我國(guó)電力系統(tǒng)通信的主要業(yè)務(wù)(1話音業(yè)務(wù):調(diào)度電話、行政電話等。(2數(shù)據(jù)業(yè)務(wù):主要包括線路繼電保
9、護(hù)及安全自動(dòng)裝置有關(guān)的數(shù)據(jù)業(yè)務(wù),調(diào)度自動(dòng)化數(shù)據(jù)業(yè)務(wù)、電力市場(chǎng)數(shù)據(jù)業(yè)務(wù)、管理信息系統(tǒng)以及信息檢索瀋學(xué)計(jì)算和信息處理、電子郵件等。(3數(shù)據(jù)業(yè)務(wù):數(shù)據(jù)業(yè)務(wù)又可以分為實(shí)時(shí)數(shù)據(jù)業(yè)務(wù)和非實(shí)時(shí)數(shù)據(jù)業(yè)務(wù)。(4多媒體業(yè)務(wù):變電站視頻監(jiān)視、會(huì)議電視、視頻點(diǎn)播等.1.3電力系統(tǒng)通信網(wǎng)改造目標(biāo)電力通信網(wǎng)應(yīng)立足于電力企業(yè)信息化。以保障安全生產(chǎn)、指揮調(diào)度、電網(wǎng)管理和運(yùn)營(yíng)為主體,并能隨著電信市場(chǎng)的發(fā)展逐步向外開放。網(wǎng)絡(luò)的建設(shè)應(yīng)做到全網(wǎng)統(tǒng)一規(guī)劃、遠(yuǎn)近結(jié)合、適度超前、分布實(shí)施。當(dāng)前,現(xiàn)有電力通信網(wǎng)的優(yōu)化改造目標(biāo)是:(1規(guī)劃網(wǎng)絡(luò)層次結(jié)構(gòu),分層優(yōu)化改造。文本中是否出現(xiàn)(出現(xiàn)計(jì)為1,否則計(jì)為0,因此用該模型進(jìn)行文本分類的準(zhǔn)確度不是很
10、高。為了強(qiáng)調(diào)特征詞在未知文本中出現(xiàn)的重要性,經(jīng)過(guò)反復(fù)試驗(yàn),對(duì)多元模型公式改進(jìn),我們提出了如下改進(jìn)公式(5。旦P(x/Ci=ll(R。(BdP(砒/Ci+(1一Bd(1一薔戶(砌/cf(5在公式(5中,常數(shù)R是對(duì)分類器進(jìn)行測(cè)試時(shí)所得到的經(jīng)驗(yàn)值,我們可以重點(diǎn)分析郵件標(biāo)題或文本中的名詞,很多時(shí)候就是通過(guò)少量的關(guān)鍵詞來(lái)決定郵件的類別(比如大優(yōu)惠,為了提高出現(xiàn)詞的權(quán)重,公式(5引人參數(shù)R,它的值由實(shí)驗(yàn)情況來(lái)決定,根據(jù)反復(fù)實(shí)驗(yàn),我們把R取值100。3實(shí)驗(yàn)與結(jié)論常用的模型質(zhì)量估計(jì)方法有分類準(zhǔn)確率、查準(zhǔn)率和查全率(Recall,我們采用分類準(zhǔn)確率來(lái)進(jìn)行衡量。我們知道,分類準(zhǔn)確率定義為;Accuracy(M=p
11、(tAccuracy(M。一戶(C(t=C(t Accuracy(M;仁賺髂以幻(6、V丹巳在公式(6中,C(t為郵件t的實(shí)際類值,C(t為分類模型對(duì)短信t的計(jì)算類值,P(1為短信l的概率(通常為1/n,竹為樣本集大小.由于郵件內(nèi)容的范圍非常廣,無(wú)法將其收齊,這里只收集了三類有代表性的郵件來(lái)做實(shí)驗(yàn),分別為:過(guò)節(jié)問(wèn)候郵件50條、廣告郵件100條、商務(wù)郵件300條。為了防止學(xué)習(xí)模-270-型傾向于過(guò)分適合數(shù)據(jù),在實(shí)驗(yàn)中將數(shù)據(jù)源分成兩大部分,其中黃色短信200條、祝福短信200條、中獎(jiǎng)短信23條作為訓(xùn)練樣本,用于樸素貝葉斯分類模型建立學(xué)習(xí)所用,余下的短信作為測(cè)試樣本。用來(lái)檢測(cè)分類模型的準(zhǔn)確率,表1是
12、通過(guò)實(shí)驗(yàn)得到的數(shù)據(jù)。表1改進(jìn)的樸素貝葉斯分類的準(zhǔn)確率表短信類別問(wèn)候廣告商務(wù)正確散4699190錯(cuò)誤數(shù)0110準(zhǔn)確率92%99%95%通過(guò)表1知道在廣告類的準(zhǔn)確率較高,改進(jìn)的貝葉斯分類在此非常有效,只要根據(jù)不同的環(huán)境,調(diào)整R值,理論上可以取得較好的分類效果。參考文獻(xiàn)E1潘華.項(xiàng)同德著數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理、工具、及應(yīng)用M.北京:中國(guó)電力出版社,2005.z盛驟。謝式千.潘承教著概率論度數(shù)境計(jì)(第三版M.北京:高等教育出版社。2001.3Han Jiawei,Kamber MM.Data Mining Concepts and Teeh-niques(影印版.2001.4McCallum and
13、K.Nigam.A comparison of event models for NaiveBayes text classification.In,M.Sahami ed.In AAAI-98Workshop on Learning for Text Categorization.AAAl Press。1998.41-48. 5陳學(xué)進(jìn).數(shù)據(jù)挖掘中聚類分析的研兜J.計(jì)算機(jī)技術(shù)與發(fā)展.2006.(09. 改進(jìn)的貝葉斯分類對(duì)垃圾郵件識(shí)別探討作者:徐春玲作者單位:南昌大學(xué)信息工程學(xué)院,江西南昌,330013刊名:現(xiàn)代商貿(mào)工業(yè)英文刊名:MODERN BUSINESS TRADE INDUSTRY年,卷
14、(期:2009,21(24被引用次數(shù):0次參考文獻(xiàn)(5條1.潘華.項(xiàng)同德著數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理、工具、及應(yīng)用M.北京:中國(guó)電力出版社,2005.2.盛驟,謝式千.潘承毅著概率論及數(shù)統(tǒng)計(jì)(第三版M.北京:高等教育出版社,2001.3.Han Jiawei,Kamber MM.Data Mining Concepts and Techniques(影印版,2001.4.McCallum and K.Nigam.A comparison of event models for Naive Bayes text classification.In:M.Sahami ed.In AAAF98 Work
15、shop on Learning for Text Categorization.AAAI Press,1998.41-48.5.陳學(xué)進(jìn).數(shù)據(jù)挖掘中聚類分析的研究J.計(jì)算機(jī)技術(shù)與發(fā)展,2006,(09.相似文獻(xiàn)(10條1.期刊論文沈超.黃衛(wèi)東.SHEN Chao.HUANG Wei-dong數(shù)據(jù)挖掘在垃圾短信過(guò)濾中的應(yīng)用-電子科技大學(xué)學(xué)報(bào)2009,38(z1針對(duì)手機(jī)垃圾短信泛濫、治理效果不佳的問(wèn)題,基于運(yùn)營(yíng)商現(xiàn)有業(yè)務(wù)平臺(tái),借助統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)了垃圾短信過(guò)濾系統(tǒng),提出了垃圾短信過(guò)濾閉環(huán)流程圖;系統(tǒng)根據(jù)動(dòng)態(tài)荻取的垃圾短信數(shù)據(jù)自動(dòng)生成過(guò)濾規(guī)則,在信息轉(zhuǎn)發(fā)階段對(duì)垃圾短信進(jìn)行過(guò)濾.結(jié)合某省運(yùn)營(yíng)
16、商短信運(yùn)營(yíng)數(shù)據(jù)對(duì)垃圾短信過(guò)濾進(jìn)行了實(shí)證研究,在分析樣本短信數(shù)據(jù)的基礎(chǔ)上確定了建模特征屬性集,采用決策樹推進(jìn)算法獲取了垃圾短信的過(guò)濾規(guī)則,并設(shè)計(jì)了垃圾短信過(guò)濾方案,從準(zhǔn)確率和覆蓋率兩方面進(jìn)行了驗(yàn)證,取得了較好的效果.2.學(xué)位論文關(guān)娜基于文本分類算法的垃圾短信過(guò)濾技術(shù)研究2008手機(jī)短信因具有移動(dòng)性好、價(jià)格低廉、收發(fā)便捷和娛樂(lè)性強(qiáng)等特點(diǎn)而使人們逐漸習(xí)慣于用短信的方式來(lái)傳送信息和進(jìn)行溝通交流。但垃圾短信問(wèn)題也變得日益嚴(yán)峻。因此,研究短信智能監(jiān)管技術(shù)具有重要的意義。過(guò)濾技術(shù)是目前對(duì)付垃圾短信的主要手段,但采用現(xiàn)有的過(guò)濾方法時(shí),短信中心需要對(duì)短信進(jìn)行逐條分析,才能判斷是否為垃圾短信,因此處理的效率比較低
17、。同時(shí)不管是基于關(guān)鍵詞還是基于內(nèi)容的垃圾短信過(guò)濾方法,都存在大量運(yùn)算,這樣會(huì)造成短信服務(wù)中心網(wǎng)絡(luò)堵塞,增加網(wǎng)絡(luò)的成本,其最終結(jié)果是采用放棄部分垃圾短信的過(guò)濾或延遲短信轉(zhuǎn)發(fā),從而就會(huì)降低垃圾短信過(guò)濾的準(zhǔn)確率和效率。因此,本文針對(duì)現(xiàn)有過(guò)濾技術(shù)的不足,提出了一個(gè)基于多層的垃圾短信過(guò)濾方法,該方法引入了用戶信任度的概念,根據(jù)用戶的信任度對(duì)用戶發(fā)送的短信進(jìn)行抽樣過(guò)濾,這樣極大的提高了處理的效率。同時(shí)該方法整合了多項(xiàng)垃圾短信過(guò)濾技術(shù)(黑白名單、關(guān)鍵詞及內(nèi)容過(guò)濾技術(shù),該方法較之單一的過(guò)濾方法準(zhǔn)確率和效率上有很大的提高。本文的主要工作包括:1.提出了基于短信行為特征的垃圾短信判別技術(shù),由于不同的短信用戶具有不
18、同的發(fā)送行為,通過(guò)對(duì)短信發(fā)送行為的監(jiān)測(cè)不僅可以實(shí)時(shí)監(jiān)測(cè)垃圾短信,還可以對(duì)垃圾短信發(fā)送進(jìn)行預(yù)測(cè)。2.由于絕大多數(shù)手機(jī)用戶并不是垃圾短信制造者,本文引入了用戶信任度的概念,根據(jù)用戶發(fā)送行為確定用戶的信任度級(jí)別。3.提出了根據(jù)用戶信任度對(duì)用戶發(fā)送的短信進(jìn)行抽樣檢測(cè)的方法,該方法在兼顧垃圾短信過(guò)濾正確性的情況下,也極大提高了過(guò)濾系統(tǒng)對(duì)經(jīng)過(guò)短信中心的垃圾短信的監(jiān)測(cè)效率。4.根據(jù)提出的抽樣監(jiān)測(cè)方法,融合了已有的垃圾短信過(guò)濾技術(shù),構(gòu)建了一個(gè)多層的垃圾短信過(guò)濾系統(tǒng)。實(shí)驗(yàn)表明,本文中提出的新方法對(duì)垃圾短信的過(guò)濾具有較高的效率。3.會(huì)議論文黃文良.李石堅(jiān).陸冠中大規(guī)模實(shí)時(shí)垃圾短信過(guò)濾系統(tǒng)2007垃圾短信是近年來(lái)困
19、擾手機(jī)用戶和運(yùn)營(yíng)商的一大難題。設(shè)計(jì)了一種垃圾短信監(jiān)控和過(guò)濾系統(tǒng),根據(jù)短信發(fā)送行為特征、短信文本內(nèi)容等特點(diǎn),采用實(shí)時(shí)過(guò)濾和離線分類相結(jié)合地方法進(jìn)行高效短信過(guò)濾。系統(tǒng)中創(chuàng)新性地提出了雙層Hash方法,并將多種基于統(tǒng)計(jì)學(xué)習(xí)的文本分類方法應(yīng)用于短信過(guò)濾。相比傳統(tǒng)方法而言,本系統(tǒng)在過(guò)濾效率和準(zhǔn)確率兩方面均獲得大幅度提升。4.學(xué)位論文黃文良垃圾短信過(guò)濾關(guān)鍵技術(shù)研究2008本文針對(duì)垃圾短信過(guò)濾中的垃圾短信判別問(wèn)題,利用機(jī)器學(xué)習(xí)領(lǐng)域中的Bayes分類方法、SVM分類方法和社會(huì)網(wǎng)絡(luò)方法,結(jié)合短信發(fā)送過(guò)程中的具體限制性條件,對(duì)垃圾短信內(nèi)容識(shí)別和垃圾短信發(fā)送用戶的識(shí)別這兩個(gè)問(wèn)題中的關(guān)鍵技術(shù)進(jìn)行了深入的研究。完成的主
20、要工作包括:1、統(tǒng)一垃圾短信過(guò)濾模型本文中提出了一個(gè)可以解決多種短信發(fā)送方式的過(guò)濾模型-統(tǒng)一垃圾短信過(guò)濾模型。該模型即考慮到了不同發(fā)送端短信的具體特征,又盡可能利用現(xiàn)有的針對(duì)短信和短信發(fā)送用戶的短信阻止機(jī)制,能夠有效地過(guò)濾各種類型的垃圾短信,減少改造成本。2、基于多特征的垃圾短信識(shí)別算法設(shè)計(jì)了一種基于多特征的垃圾短信識(shí)別算法,綜合考慮短信發(fā)送的行為特征、短信的文本分詞后特征,利用Bayes分類和SVM分類方法分別離線與在線的實(shí)現(xiàn)對(duì)垃圾短信內(nèi)容的學(xué)習(xí)和實(shí)時(shí)分類:并通過(guò)一組基于反饋的自學(xué)習(xí)機(jī)制,使分類器具備增量式學(xué)習(xí)能力。實(shí)驗(yàn)和分析表明:本文的算法相比傳統(tǒng)方法在過(guò)濾效率和準(zhǔn)確率兩方面均獲得大幅度提
21、升。3、基于社會(huì)網(wǎng)絡(luò)的垃圾短信發(fā)送用戶識(shí)別從社會(huì)網(wǎng)絡(luò)的角度對(duì)短信發(fā)送問(wèn)題進(jìn)行形式化的建模,通過(guò)實(shí)驗(yàn)驗(yàn)證了短信發(fā)送網(wǎng)絡(luò)所具有的社會(huì)性特征,如小世界原理、冪率等,并在此基礎(chǔ)上進(jìn)一步分析和挖掘了垃圾短信用戶在網(wǎng)絡(luò)上發(fā)送接收的異常模式和行為,并以此提出了一個(gè)基于語(yǔ)音關(guān)聯(lián)程度和短信回復(fù)比率的過(guò)濾算法(NASFA算法。實(shí)驗(yàn)和分析表明:算法不僅能夠高效的識(shí)別垃圾短信發(fā)送號(hào)碼,同時(shí)能夠有效的控制將正常用戶誤識(shí)別為垃圾短信用戶的比率。4、基于位置特征的垃圾短信發(fā)送用戶識(shí)別對(duì)于垃圾短信發(fā)送者而言,其在地理位置上具有明顯的特征。據(jù)此提出了一個(gè)利用位置特征和短信發(fā)送內(nèi)容的垃圾短信發(fā)送用戶識(shí)別算法。5、面向網(wǎng)絡(luò)端發(fā)送短
22、信的快速匹配過(guò)濾算法針對(duì)網(wǎng)絡(luò)端發(fā)送的短信具有發(fā)送速度快、發(fā)送頻率變化范圍大、不具備社會(huì)性特征和分類特征過(guò)少等特點(diǎn),本文提出了一種適用于網(wǎng)絡(luò)端口發(fā)送類垃圾短信的監(jiān)控和過(guò)濾解決方案,通過(guò)編碼預(yù)處理算法來(lái)克服反過(guò)濾干擾手段,并根據(jù)短信日發(fā)送數(shù)量、短信內(nèi)容等特征,采用模糊匹配和頻度監(jiān)控相結(jié)合的方法動(dòng)態(tài)進(jìn)行短信過(guò)濾。此外,還引入了關(guān)鍵字加權(quán)控制頻度方法,根據(jù)短信長(zhǎng)度修正過(guò)濾的閥值。最后對(duì)全文進(jìn)行概括性總結(jié),并指出了下一步重點(diǎn)需要研究和突破的方向。5.期刊論文金展.范晶.陳峰.徐從富基于樸素貝葉斯和支持向量機(jī)的自適應(yīng)垃圾短信過(guò)濾系統(tǒng)-計(jì)算機(jī)應(yīng)用2008,28(3隨著短信業(yè)務(wù)的不斷發(fā)展,垃圾短信的特征和內(nèi)容
23、也在不斷變化,傳統(tǒng)垃圾短信過(guò)濾系統(tǒng)中存在的主要問(wèn)題是,短信特征和內(nèi)容未能得到及時(shí)更新而導(dǎo)致過(guò)濾性能降低.考慮樸素貝葉斯的快速統(tǒng)計(jì)分類及支持向量機(jī)(SVM的增量訓(xùn)練等特點(diǎn),將其應(yīng)用于垃圾短信過(guò)濾中,并把分析結(jié)果及時(shí)反饋給在線過(guò)濾子系統(tǒng),使得系統(tǒng)具有更好的自適應(yīng)性.實(shí)驗(yàn)結(jié)果表明,該方法可有效地解決當(dāng)前垃圾短信過(guò)濾系統(tǒng)中存在的問(wèn)題.6.學(xué)位論文何孝金垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)2009近年來(lái),隨著中國(guó)手機(jī)用戶數(shù)的增長(zhǎng),手機(jī)短消息業(yè)務(wù)得到了迅猛發(fā)展,但同時(shí)垃圾短信也以非??斓乃俣仍谠鲩L(zhǎng)。目前,垃圾短信過(guò)濾技術(shù)主要有黑名單過(guò)濾、關(guān)鍵詞過(guò)濾和基于文本分類的內(nèi)容過(guò)濾。黑名單過(guò)濾和關(guān)鍵詞過(guò)濾能快速的過(guò)濾垃圾短
24、信,但其過(guò)濾的準(zhǔn)確率不高;基于文本分類的短信過(guò)濾的準(zhǔn)確率主要依賴于其訓(xùn)練樣本的數(shù)量及質(zhì)量,由于日常短信涉及個(gè)人的私隱,短信中心從不對(duì)外公布,現(xiàn)有的短信樣本很少,因此單純依靠文本分類的短信過(guò)濾其準(zhǔn)確率也不高。同時(shí),現(xiàn)有的過(guò)濾技術(shù)都采用逐條檢測(cè)的方式,對(duì)于每天有大量短信息的短信中心來(lái)說(shuō),其運(yùn)算量是很大的,這樣會(huì)造成短信服務(wù)中心網(wǎng)絡(luò)堵塞。因此,從現(xiàn)有的技術(shù)上來(lái)說(shuō),垃圾短信的過(guò)濾在準(zhǔn)確率和效率方面仍然不能滿足現(xiàn)實(shí)需要。本文將針對(duì)現(xiàn)有短信過(guò)濾技術(shù)的不足,研究有效的解決或改進(jìn)的方法,同時(shí)引入新的技術(shù)與原有的過(guò)濾技術(shù)相結(jié)合,使垃圾短信過(guò)濾系統(tǒng)能夠具有更好的過(guò)濾性能。本文所做的主要工作如下:1.研究了應(yīng)用在垃
25、圾短信過(guò)濾系統(tǒng)中的關(guān)鍵詞查找算法,該算法采用WM算法的多模式匹配思想,通過(guò)預(yù)處理建立的哈希表來(lái)加快匹配速度,并且根據(jù)垃圾短信的特征,提出了用壓縮存儲(chǔ)的TRIE樹來(lái)組織模式串的方法,加快了查找速度。2.分析了主要的文本分類技術(shù),重點(diǎn)敘述基于最小風(fēng)險(xiǎn)的貝葉斯分類在短信過(guò)濾中的應(yīng)用。3.提出用日志分析的方法來(lái)分析已經(jīng)過(guò)濾的短信,提取有用的數(shù)據(jù),更新關(guān)鍵詞庫(kù)及分類訓(xùn)練樣本,實(shí)現(xiàn)系統(tǒng)的自我優(yōu)化。4.將貝葉斯分類與新的過(guò)濾方法(包括流量檢測(cè)、抽樣檢測(cè)、日志分析結(jié)合,在保證短信過(guò)濾準(zhǔn)確率的情況下,提高短信過(guò)濾效率。最后,給出整個(gè)垃圾短信過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。7.期刊論文鄧維維.彭宏.DENG Wei-wei
26、.PENG Hong移動(dòng)環(huán)境下的垃圾短信過(guò)濾系統(tǒng)的研究-計(jì)算機(jī)應(yīng)用2007,27(1提出了一種分布式的垃圾短信過(guò)濾系統(tǒng),它適合于移動(dòng)網(wǎng)絡(luò),具有自學(xué)習(xí)能力,能夠及時(shí)發(fā)現(xiàn)垃圾信息源,有效的過(guò)濾垃圾短信.在傳統(tǒng)以詞為屬性的貝葉斯過(guò)濾算法的基礎(chǔ)上,加入了規(guī)則和長(zhǎng)度信息,利用互信息減小單詞屬性的個(gè)數(shù).實(shí)驗(yàn)表明,它在短信過(guò)濾方面具有空間占用小和性能更好的特點(diǎn),適合在移動(dòng)電話上使用.同時(shí)還提出了一種垃圾短信發(fā)送者的可能性排名的方法.8.學(xué)位論文鐘延輝基于文本挖掘的垃圾短信過(guò)濾方法2009手機(jī)短信作為一種收發(fā)便捷、移動(dòng)性好、價(jià)格低廉的通訊方式,逐漸影響著人們的生活。但隨著短信的日益普及,垃圾短信問(wèn)題也變得同益
27、嚴(yán)峻,其嚴(yán)重的泛濫不僅僅嚴(yán)重影響人們的正常生活,而且嚴(yán)重影響社會(huì)穩(wěn)定和公共安全。垃圾短信的過(guò)濾成為了當(dāng)前人們生活急需解決的一個(gè)重要任務(wù),因此垃圾短信智能過(guò)濾技術(shù)的研究具有重要的意義。目前垃圾短信過(guò)濾技術(shù)包括黑白名單技術(shù)、規(guī)則過(guò)濾以及關(guān)鍵詞匹配等。然而現(xiàn)有的技術(shù)需要對(duì)短信進(jìn)行逐條分析與判斷,存在大量運(yùn)算,會(huì)造成短信服務(wù)中心網(wǎng)絡(luò)堵塞,使得短信發(fā)送得不到及時(shí)的處理。針對(duì)目前過(guò)濾技術(shù)的缺點(diǎn),本文提出了一種基于抽樣的短信流過(guò)濾方法,該方法提出用部分短信代表整個(gè)短信流的思想;同時(shí)給每個(gè)用戶設(shè)定一個(gè)可信值,并根據(jù)用戶可信值的不同,對(duì)發(fā)送到短信服務(wù)中心的短信進(jìn)行不同強(qiáng)度的檢測(cè)。檢測(cè)到的短信根據(jù)短信的文字信息進(jìn)
28、行分類,而不必對(duì)每一條短信進(jìn)行分析,提高了垃圾短信的處理效率。該方法整合了現(xiàn)有的垃圾短信過(guò)濾技術(shù)(長(zhǎng)度過(guò)濾,黑白名單、關(guān)鍵詞及內(nèi)容過(guò)濾等技術(shù)。在內(nèi)容過(guò)濾技術(shù)中,本文采用了協(xié)同神經(jīng)網(wǎng)絡(luò)的分類方法,然而經(jīng)典的Haken模型對(duì)海量數(shù)據(jù)識(shí)別是極為困難的,本文根據(jù)協(xié)同神經(jīng)網(wǎng)絡(luò)在注意參數(shù)相等時(shí)能快速識(shí)別的原理,改進(jìn)算法,使之能適應(yīng)海量垃圾短信分類。同時(shí)將現(xiàn)有的垃圾短信過(guò)濾技術(shù)和改進(jìn)的協(xié)同神經(jīng)網(wǎng)絡(luò)應(yīng)用于MapReduce模型之中。實(shí)驗(yàn)表明基于抽樣的垃圾短信過(guò)濾方法比單一的內(nèi)容過(guò)濾方法準(zhǔn)確率和處理時(shí)間上有很大的提高,以及這些技術(shù)應(yīng)用MapReduce模型中的可行性和有效性。本文的主要工作包括:(1概述了現(xiàn)有的垃圾短信過(guò)濾技術(shù)以及分析了這些技術(shù)存在的問(wèn)題,同時(shí)對(duì)垃圾短信的定義、危害進(jìn)行了描述。(2介紹了協(xié)同神經(jīng)網(wǎng)絡(luò)模型原理,并在現(xiàn)有的模型基礎(chǔ)上進(jìn)行改進(jìn),建立一個(gè)多輸入單輸出的協(xié)同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使之能適合海量的短信識(shí)別。(3提出了抽樣短信流過(guò)濾方法,構(gòu)建了一個(gè)基于抽樣的短信流過(guò)濾系統(tǒng)。(4介紹了MapReduce模型,并將現(xiàn)有的垃圾短信過(guò)濾技術(shù)和改進(jìn)的協(xié)同神經(jīng)網(wǎng)絡(luò)應(yīng)用于MapReduce模型之中。9.期刊論文范晶.劉菊新.陳峰.徐從富.FAN Jing.LIU
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025建筑裝修裝飾工程施工合同
- 橋梁場(chǎng)地磚施工合同
- 能源管理精細(xì)化管理技巧
- 咨詢公司客戶資料保密政策
- 教育培訓(xùn)機(jī)構(gòu)兼職教師聘用合同
- 陵園綠化項(xiàng)目廢標(biāo)條件研究
- 招投標(biāo)主體法律問(wèn)題研究
- 藝人經(jīng)紀(jì)承銷協(xié)議書范本
- 商業(yè)秘密保護(hù)實(shí)施細(xì)則
- 住房公積金購(gòu)買二手房合同
- 新疆維吾爾自治區(qū)公共建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)實(shí)施細(xì)則2023
- 2022年西藏自治區(qū)中考英語(yǔ)真題卷(含答案與解析)
- 醫(yī)院輸血質(zhì)量管理考核標(biāo)準(zhǔn)
- 七年級(jí)語(yǔ)文上冊(cè):15、《古代詩(shī)歌四首》教案
- 氣道評(píng)估與處理課件
- 腦血管病的介入診療課件
- RCS-9626CN電動(dòng)機(jī)保護(hù)測(cè)控裝置
- 苗木供貨服務(wù)計(jì)劃方案
- 回轉(zhuǎn)支承實(shí)驗(yàn)臺(tái)測(cè)試系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)論文
- 全員安全生產(chǎn)責(zé)任考核表
- 董事長(zhǎng)調(diào)研方案
評(píng)論
0/150
提交評(píng)論