




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 基于RandomForest與SVM算法的流量識別系統(tǒng) Summary:隨著互聯(lián)網(wǎng)的飛速發(fā)展,根據(jù)網(wǎng)絡流量識別網(wǎng)絡業(yè)務的類型,逐漸成為網(wǎng)絡技術研究的重要課題。本文將SVM和Random Forest算法應用于流量識別系統(tǒng)的機器學習過程中,首先通過Random Forest算法對采集的數(shù)據(jù)特征信息進行分析選擇,提取出在SVM算法中用來識別流量類型的8個主要特征,進而對數(shù)據(jù)進行預處理、訓練學習,最終完成網(wǎng)絡流量的分類識別。通過實驗驗證,該系統(tǒng)對流量識別準確率達96.7%,對當前的互聯(lián)網(wǎng)應用的數(shù)據(jù)流量具有較高的識別準確率。Key:SVM;Random Forest;隨機森林;流量識別;支持向量機:
2、TP393 :A :1007-9416(2019)09-0117-030 引言互聯(lián)網(wǎng)的發(fā)展導致了網(wǎng)絡業(yè)務的種類多種多樣,通過流量識別技術去識別網(wǎng)絡業(yè)務在網(wǎng)絡監(jiān)控管理、用戶行為分析、網(wǎng)絡信息安全等方面有著非常重大的意義。在當前的網(wǎng)絡環(huán)境下,基于端口識別的流量識別方法因為網(wǎng)絡隱藏技術的出現(xiàn)已經(jīng)逐漸失效1,基于DPI的業(yè)務識別技術由于依賴于人工對知識特征庫的維護也大大降低了業(yè)務識別系統(tǒng)的準確率與有效性2,相當部分企業(yè)已經(jīng)逐漸開始實踐基于機器學習的業(yè)務識別系統(tǒng),因為基于機器學習的網(wǎng)絡流量識別方法表現(xiàn)出了較高的準確率,因此也得到越來越多研究者的關注3-4?;跈C器學習的流量識別方法就是在生成一個分類器的
3、基礎上,利用訓練的樣本數(shù)據(jù)先創(chuàng)建一個分類的模型,然后對未知的流量數(shù)據(jù)進行分類,通過相似性并根據(jù)流量的其他特征信息將網(wǎng)絡流量劃分成不同的聚類。當前的機器學習方法之一貝葉斯法,依賴于樣本數(shù)據(jù)的分布,分類準確性取決于特性和冗余度,而另一種方法神經(jīng)網(wǎng)絡法存在過度擬合和計算量大、復雜的問題。但是另一種SVM方法可以有效減少樣本分布,只對某些相關性能存在依賴,因此可以降低冗余度,避免過度擬合現(xiàn)象的發(fā)生。本文的數(shù)據(jù)來源于測試用戶在使用Whatsapp手機軟件產(chǎn)生的流量數(shù)據(jù),數(shù)據(jù)特征表現(xiàn)為高維度數(shù)據(jù),且數(shù)據(jù)分布不均。目前針對高維數(shù)據(jù)的特征簡化方案主要分為特征提取與特征選擇,由于特征提取方法在簡化特征的同時也丟
4、失了原始特征的物理意義,因此采用特征選擇的方法對原始數(shù)據(jù)特征進行降維。研究證明,Random Forest算法在特征選擇過程中取得了較好的成果5。基于以上觀點,以及數(shù)據(jù)樣本的高維及分布不均特性,本文提出一種基于Random Forest與SVM算法的流量識別系統(tǒng),與傳統(tǒng)的流量識別系統(tǒng)相比,能夠對數(shù)據(jù)特征進行選擇簡化,大大減少了特征值模塊進行特征匹配的工作量,也提升了業(yè)務識別的準確率。1 基本概念1.1 隨機森林技術(Random Forest)在機器學習中,隨機森林是一個包含多個決策樹的分類器,其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。隨機森林法是可以用來解決很多實際問題的一種數(shù)學方法,尤其
5、在處理大數(shù)據(jù)和分類問題時性能優(yōu)越6。對于傳統(tǒng)的隨機森林分類器模型,決策樹的每個節(jié)點分裂時,從全部屬性中等概率隨機抽取屬性子集,選擇一個最優(yōu)屬性將該節(jié)點的樣本分裂至左孩子節(jié)點和右孩子節(jié)點7。常用信息熵計算信息增益,采用信息增益度量每個屬性劃分的純度,從而選擇最優(yōu)分裂屬性。隨機森林的訓練停止的條件就是訓練樣本已分裂至樹的最大層數(shù),或信息增益低于設定值,或訓練樣本的數(shù)目少于設定值。1.2 支持向量機技術(SVM)支持向量機(Support Vector Machine)是由VAPNIK與其領導的貝爾實驗室的研究小組開發(fā)的一種新的機器學習技術8。支持向量機SVM算法支持線性分類和非線性分類的分類應用。
6、相關概念如下:(1)線性可分:在數(shù)據(jù)集中,如果可以找出一個超平面,將兩組數(shù)據(jù)分開,那么這個數(shù)據(jù)集叫做線性可分數(shù)據(jù)。(2)線性不可分:在數(shù)據(jù)集中,沒法找出一個超平面,能夠將兩組數(shù)據(jù)分開,那么這個數(shù)據(jù)集就叫做線性不可分數(shù)據(jù)。(3)分割超平面:將數(shù)據(jù)集分割開來的直線/平面叫做分割超平面。(4)間隔:數(shù)據(jù)點到分割超平面的距離稱為間隔。(5)支持向量:離分割超平面最近的那些點叫做支持向量。本文使用的SVM方法是從線性可分情況下的最優(yōu)分類超平面提出的,其基本思想為:首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)線性分類超平面。線性可分的支持向量機的特點如圖1所示。SVM對不平衡
7、本身并不十分敏感,SVM的超平面只與支持向量有關,因此原離決策超平面的數(shù)據(jù)的多少并不重要。使用SVM算法對一個數(shù)據(jù)點進行分類,當超平面離數(shù)據(jù)點的“間隔”越大,分類的確信度也越大。所以,為了使得分類的確信度盡量高,需要讓所選擇的超平面能夠最大化這個“間隔”值。這個間隔就是Gap的一半,如圖1所示。2 基于Random Forest與SVM算法的流量識別系統(tǒng)本文首先通過流量特征提取模塊,提取適合在支持向量機中識別的網(wǎng)絡流量的8個主要特征,接著對數(shù)據(jù)進行清洗和預處理,通過對數(shù)據(jù)進行訓練和學習,從而實現(xiàn)整個基于Random Forest與SVM算法的流量識別系統(tǒng)。2.1 流量識別基本流程流量識別系統(tǒng)的
8、處理流程如圖2所示。第一步,使用Wireshark工具進行用戶使用APP的流量數(shù)據(jù)采集;第二步,對采集到的原始數(shù)據(jù)進行處理,區(qū)分數(shù)據(jù)的初始維度和初始類型;第三步,使用隨機森林的算法構建特征提取模塊,對流量數(shù)據(jù)進行特征選擇;第四步,將特征選擇后的數(shù)據(jù)使用SVM算法構建的流量分類識別模塊進行分類;第五步,形成訓練樣本后對數(shù)據(jù)進行分類;第六步,使用剩余數(shù)據(jù)進行測試。2.2 流量識別系統(tǒng)架構系統(tǒng)的基本功能構建于對采集的流量統(tǒng)計特征信息進行整理,剔除冗余數(shù)據(jù),并將其轉換為特征向量形式,采用支持向量機的方法將其交給SVM進行訓練,訓練后得到一組支持向量,即今后的預測模型。將預測模型與預處理過的待預測特征向
9、量數(shù)據(jù)共同代入SVM的決策函數(shù)中,從而判別出該網(wǎng)絡流量的類型,如圖3所示。3 實驗過程3.1 實驗目的通過對Whatsapp應用中會話的上下行流量,上下行包數(shù),上下行包流量, 會話時間等維度分析,通過基于Random Forest與SVM算法的流量識別系統(tǒng)實現(xiàn)Whatsapp流量數(shù)據(jù)中的視頻、語音、一般類型(如消息)等流量類型的識別區(qū)分。3.2 實驗數(shù)據(jù)準備與處理使用Wireshark工具獲取到經(jīng)過Whatsapp的樣本數(shù)據(jù)如表1所示。樣本數(shù)據(jù)的原始特征維度包含:(源端口,目的端口,開始時間,上行流量,下行流量,上行包數(shù),下行包數(shù),上行平均包流量,下行平均包流量,會話時間,平均包數(shù),平均包間隔
10、)。經(jīng)過分析,由于源端口、目的端口,開始時間,結束時間跟Whatsapp程序密切相關,故不作為統(tǒng)計維度。最終選取九個維度的特征進行隨機森林分析,分別為:(上行流量,下行流量,上行包數(shù),下行包數(shù),上行平均流量,下行平均流量,回話時間,平均包數(shù),平均包間隔)。3.3 實驗過程對流量數(shù)據(jù)的9個特征維度,使用隨機森林的算法,得到每個維度的信息熵如表2所示。根據(jù)隨機森林特征選擇結果可以看出,會話時間所包含的信息熵值最小,因此只選取(上行流量,下行流量,上行包數(shù),下行包數(shù),上行平均包流量,下行平均包流量,平均包數(shù),平均包間隔)這8個數(shù)據(jù)維度進行SVM算法分析。由于訓練數(shù)據(jù)樣本包含3種類型的數(shù)據(jù),且數(shù)據(jù)樣本
11、分布不均勻,其中語音類型數(shù)據(jù)包含最多,為2005條,是視頻類數(shù)據(jù)的5倍多,樣本數(shù)據(jù)不均衡,根據(jù)這一的樣本分布特性,使用SVM算法進行分類。3.4 實驗結果本次實驗使用的2918條數(shù)據(jù),其中80%用于模型訓練,20%用于分類驗證測試,測試輸入584條數(shù)據(jù),系統(tǒng)正確識別類型,共命中正確類型566條,流量類型識別正確率達96.7%,結果矩陣如圖4所示。4 結語本文將隨機森林與支持向量機應用于網(wǎng)絡流量類型的識別檢測,構建了一種基于Random Forest與SVM算法的流量識別系統(tǒng),從數(shù)據(jù)包捕獲、預處理、特征選擇,識別、學習和訓練等流程進行了系統(tǒng)功能的介紹,并且最終證明,此流量識別系統(tǒng)對流量分類具有較
12、高的識別率,說明采用隨機森林以及支持向量機對流量識別是十分有效的。Reference1 彭立志.基于機器學習的流量識別關鍵技術研究D.哈爾濱工業(yè)大學,2015.2 王璐.基于DPI及人工智能的業(yè)務識別系統(tǒng)的分析研究J.無線互聯(lián)通信,2019,16(8):30-33.3 ZAREI R,MONEMI A,MARSONO M N.Automated dataset generation for training per-to-per machine learning classifiersJ. Journal of Network and Systems Management,2015,23(1)
13、:89-110.4 NGUYEN T,ARMITAGE G,BRANCH Petal.Timely and continuous machine-learning-based classification for interactive IP trafficJ.IEEE/ACM Transactions on Networking (TON),2012,20(6):1880-1894.5 朱玨鈺,曹亞微,周書仁,等.基于隨森林深度特征選擇的人體姿態(tài)估計J.計算機工程與應用,2017,53(2):172-176.6 Breiman L.Random forestsJ.Machine Learni
14、ng,2001,45(1):5-32.7 馬娟娟.基于改進Grassberger熵隨機森林分類起的目標檢測J.中國激光,2019,46(7):1-9.8 BOSERBE,GUYONIM,VAPNIKVN. A training algorithm for optimal margin classifiers C/Proceedings of the 5th Annual ACM Workshop on Computational,NY,1992:144-152.Abstract:With the rapid development of the Internet, identifying th
15、e types of network services according to network traffic has gradually become an important topic of network technology research. In this paper, SVM and Random Forest algorithm are applied to the machine learning process of traffic identification system. Firstly, Random Forest algorithm is used to an
16、alyze and select the characteristic information of the collected data. Eight main features used to identify traffic types in SVM algorithm are extracted, and then the data are preprocessed, trained and learned. Finally, the classification and identification of network traffic is completed. The experimental results sh
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年春八年級英語下冊 Unit 10 Ive had this bike for three years Section A教學設計 (新版)人教新目標版
- 【西安】2025年陜西西安交通大學招聘專職輔導員20人筆試歷年典型考題及考點剖析附帶答案詳解
- 小自考市場營銷模擬測試題及答案
- 【濮陽】2024年河南濮陽市南樂縣事業(yè)單位公開招聘工作人員100人筆試歷年典型考題及考點剖析附帶答案詳解
- Unit 1 Welcome to my new home Lesson 4(教學設計)-2023-2024學年人教精通版英語四年級下冊
- 2018春冀少版七年級生物下冊第二單元第1章教學設計:2.1.2食物的消化
- 旅游文化選修課
- 第1單元第1課《信息新概念-信息與信息技術》-教學設計2023-2024學年清華大學版(2012)初中信息技術七年級下冊
- 半導體蝕刻機廢氣處理設備安裝協(xié)議二零二五年合規(guī)細則
- 《第二單元 圖像處理的基本方法 第10課 路徑的應用(一) 三、路徑的應用》教學設計教學反思-2023-2024學年初中信息技術人教版七年級下冊
- LS-MDG-用戶操作手冊-物料主數(shù)據(jù)流程-20181103-V1.0
- 年會頒獎晚會頒獎盛典簡約PPT模板
- 綏江縣農(nóng)村飲水安全工程水質檢測中心建設方案
- 鉗工-實操技能試題
- 中國傳統(tǒng)故事英文花木蘭二篇
- GB/T 3091-2008低壓流體輸送用焊接鋼管
- GB/T 22004-2007食品安全管理體系GB/T 22000-2006的應用指南
- 上消化道早癌篩查須知
- 永大新梯種Y15電梯調試手順及故障碼
- DB32-T 4416-2022《高延性纖維增強水泥基復合材料加固砌體結構應用技術規(guī)程》
- 第5課《孔乙己》課件(共19張ppt) 部編版語文九年級下冊
評論
0/150
提交評論