研究垃圾短信大數(shù)據(jù)自動識別的新方法_第1頁
研究垃圾短信大數(shù)據(jù)自動識別的新方法_第2頁
研究垃圾短信大數(shù)據(jù)自動識別的新方法_第3頁
研究垃圾短信大數(shù)據(jù)自動識別的新方法_第4頁
研究垃圾短信大數(shù)據(jù)自動識別的新方法_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

一項目背景一項目背景二技術(shù)方案三項目詳細內(nèi)容四應(yīng)用及效果項目背景項目背景要采用“系統(tǒng)監(jiān)測”模式。隨著中獎詐騙類、政治違法類、涉黃涉黑類、系統(tǒng)監(jiān)測:主要指通過“頻次+關(guān)鍵詞”等過濾方式,篩選得到現(xiàn)網(wǎng)疑似垃圾短 信。如:內(nèi)容含“發(fā)票&代開”,1分鐘 內(nèi)發(fā)送20次等。若想提升垃圾短信治理效率,亟需引入新的方法。面臨的問題以及現(xiàn)有方案面臨的問題以及現(xiàn)有方案技術(shù)難點技術(shù)難點:>表示稀疏問題:單條短信內(nèi)容短小,傳統(tǒng)的BOW模型無法獲取足夠的特征信息,用來區(qū)分垃圾短信和非垃圾短信。>數(shù)據(jù)噪音問題:存在大量的非正規(guī)語言的使用現(xiàn)象,傳統(tǒng)的基于詞匯的文檔表示模型無法處理該問題。>動態(tài)演化問題:短信內(nèi)容和語言使用隨時間高速演化,固定的特征集合和分類模型無法應(yīng)對該問題。短文本分類方面,終端安全公司大多使用以貝葉斯算法為代表的機器學(xué)習(xí)方法,在終端側(cè)對用戶接收到的短信進行識別,將疑似垃圾短信攔截在垃圾過濾垃圾短信!google公司前期提出Simhash算法,將長文本轉(zhuǎn)化為64位的哈希碼進行計算、比對。方法在業(yè)界廣受好評,但目前僅限于在長文本方面(如網(wǎng)頁)應(yīng)用。查找重復(fù)網(wǎng)頁!--項目背景二技術(shù)方案三項目詳細內(nèi)容四應(yīng)用及效果技術(shù)方案選擇技術(shù)方案選擇將垃圾短信自動化識別系統(tǒng)成功應(yīng)用到現(xiàn)網(wǎng)中,關(guān)鍵在于保障接入識別算法的準確率與將垃圾短信自動化識別系統(tǒng)成功應(yīng)用到現(xiàn)網(wǎng)中,關(guān)鍵在于保障接入識別算法的準確率與查全率。通過對2016年3、4月份歷史數(shù)據(jù)進行抽樣分析,約有12%的樣本內(nèi)容完全一致,有34%的樣本內(nèi)容相似,合計比例達46%!123456789算法原理對比算法原理對比鑒于此,以算法準確率與查全率為核心參考指標,我們重點考慮準確率極高的“基于短信內(nèi)容精確匹配的識別算法”與“基于指紋技術(shù)的大數(shù)據(jù)識別算法”,以及在垃圾郵件處理上已成功獲得廣泛應(yīng)用的“基于貝葉斯學(xué)習(xí)的大數(shù)據(jù)識別算法”。關(guān)鍵指標:算法效果比對算法效果比對我們使用2016年4月的數(shù)據(jù),共計2836萬條樣本,對三個方案的核心實驗發(fā)現(xiàn),方案一的自動識別率僅為11.5%,方案三的識別準確率僅為93%,與指標要求差別大。方案二的指紋算法同時具有較好的自動識別率和識別準確率,與原理比對結(jié)果一致。項目最終將系統(tǒng)算法鎖定為基于指紋技術(shù)的大數(shù)據(jù)識別算法。--項目背景二技術(shù)方案三項目詳細內(nèi)容四應(yīng)用及效果總體流程總體流程在二次過濾模塊中央平臺中,引入垃圾短信自動化識別系統(tǒng),用以提升垃圾短在二次過濾模塊中央平臺中,引入垃圾短信自動化識別系統(tǒng),用以提升垃圾短信識別率。具體垃圾短信大數(shù)據(jù)識別應(yīng)用方案,如下圖:利用中移信安中心前期積累的海量短信樣本利用中移信安中心前期積累的海量短信樣本對人工智能分類器和指紋數(shù)據(jù)庫進行初始化;行自動識別;進行處理;系統(tǒng)整體架構(gòu)系統(tǒng)整體架構(gòu)基于上述核心算法,項目組結(jié)合應(yīng)用場景和線上持續(xù)基于上述核心算法,項目組結(jié)合應(yīng)用場景和線上持續(xù)運營要求,完善系統(tǒng)功能設(shè)計,滿足以指紋識別算法為核心算法的線上識別功能和運營功能。?應(yīng)用創(chuàng)新指紋算法對待識別短信進行處理;核心算法可擴展,支持引入新算法交叉融合識別?在基礎(chǔ)運營功能的基礎(chǔ)上,打造稽核質(zhì)檢、投訴回溯核查等針對指紋算法特點研發(fā)出的持續(xù)運營功能?采用金庫管理模式,對數(shù)據(jù)安全進行雙重保障?創(chuàng)新采用分布式多機多核系統(tǒng)架構(gòu),通過kafka實現(xiàn)內(nèi)部服務(wù)之間的通訊,有效保障了現(xiàn)網(wǎng)的實時運行需求算法優(yōu)化算法優(yōu)化研究團隊基于研究團隊基于Google公司Simhash開源算法,結(jié)合技術(shù)應(yīng)用場景和短信文本短的特點進行重構(gòu)開發(fā),突破算法準確率等方面的局限性,研發(fā)出具有自主知識產(chǎn)權(quán)的指紋識別算法??紤]到中國移動線上治理的極高準確性和性能要求,我們創(chuàng)新提出動態(tài)數(shù)據(jù)庫、基于多指紋庫識別、指紋篩選與指紋比對分離技術(shù),以達到滿足現(xiàn)網(wǎng)應(yīng)用的要求。1.動態(tài)數(shù)據(jù)庫機制在入庫方面,為指紋算法設(shè)計二次入庫技術(shù),并采用哈希再散列技術(shù)(FNV-1來降低訓(xùn)練數(shù)據(jù)沖突造成的影響;在出庫方面,動態(tài)剔除入庫早、不常使用的指紋,解決指紋庫膨脹問題,保障指紋庫的容量可持續(xù)高效運營,并進一步提升算法識別準確率。算法優(yōu)化算法優(yōu)化2.研發(fā)多指紋庫存儲?搭建多指紋庫,根據(jù)處置方式不同,分為正常短信指紋庫、違法詐騙短信指紋庫、商業(yè)廣告指紋庫;?對違規(guī)類型指紋庫采用更為嚴格的校驗入庫機制和優(yōu)先級更高的識別反饋機制;?根據(jù)考察各指紋庫相互沖突指紋,實現(xiàn)對數(shù)據(jù)庫的進一步去噪,降低算法誤識別比例。3.指紋篩選與指紋比對分離為了保證分布式模塊中預(yù)測指紋庫的一致性,算法對指紋庫的篩選入庫(訓(xùn)練)和指紋比對(預(yù)測)進行了分離。通過統(tǒng)一的指紋篩選庫完成對入庫指紋進行篩選,以保證在分布式系統(tǒng)中,所有指紋比對(預(yù)測)模塊使用的指紋庫是相同的。指紋比對與指紋入庫的解耦,增強了算法識別部分的可擴展。分布式系統(tǒng)架構(gòu)及其擴展分布式系統(tǒng)架構(gòu)及其擴展4.在分布式結(jié)構(gòu)上實現(xiàn)了所有模塊的服務(wù)化5.后續(xù)規(guī)劃與展望在系統(tǒng)中我們將所有模塊進行全部通過中間件kafka進行間接的消息傳遞。這種模式不僅僅實現(xiàn)了服務(wù)的解耦,也間接實在系統(tǒng)中可以引入多種算法,實現(xiàn)算法融合。通過算法模型的實時更新,能夠及時識學(xué)習(xí)算法,word2vec語義擴展等)。令識別系統(tǒng)對垃圾短信--項目背景二技術(shù)方案三項目詳細內(nèi)容四應(yīng)用及效果上線效果上線效果歷時兩年,經(jīng)過6輪44組,累計分析現(xiàn)網(wǎng)數(shù)據(jù)68億余件次,分析指標5萬余項的大數(shù)據(jù)測試歷時兩年,經(jīng)過6輪44組,累計分析現(xiàn)網(wǎng)數(shù)據(jù)68億余件次,分析指標5萬余項的大數(shù)據(jù)測試驗證,中國移動垃圾短信大數(shù)據(jù)自動識別系統(tǒng)于2017年1月上線,覆蓋全網(wǎng)31省。運行效果截止目前,系統(tǒng)接收垃圾短信系統(tǒng)全量疑似垃圾短信1.1億余條,自動社會效益社會效益垃圾短信大數(shù)據(jù)自動識別系統(tǒng)上線以來,運垃圾短信大數(shù)據(jù)自動識別系統(tǒng)上線以來,運行狀態(tài)良好,對線上疑似垃圾短信開展持續(xù)治理。在此期間,服務(wù)支撐了“黨的十九大”、“金磚國家領(lǐng)導(dǎo)人廈門會晤”、“一帶一路高峰論壇”等多次重大保障,圓滿完成任務(wù),實現(xiàn)了垃圾短信的高效治理。1.月均減少垃圾短信近億條通過引入大數(shù)據(jù)識別技術(shù),垃圾短信自動判定平均耗時僅為0.07毫秒,違規(guī)號碼的關(guān)停及時性大大提高。系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論