學(xué)習(xí)報(bào)告9-22利用機(jī)器學(xué)習(xí)方法進(jìn)行安卓惡意軟件檢測(cè)_第1頁
學(xué)習(xí)報(bào)告9-22利用機(jī)器學(xué)習(xí)方法進(jìn)行安卓惡意軟件檢測(cè)_第2頁
學(xué)習(xí)報(bào)告9-22利用機(jī)器學(xué)習(xí)方法進(jìn)行安卓惡意軟件檢測(cè)_第3頁
學(xué)習(xí)報(bào)告9-22利用機(jī)器學(xué)習(xí)方法進(jìn)行安卓惡意軟件檢測(cè)_第4頁
學(xué)習(xí)報(bào)告9-22利用機(jī)器學(xué)習(xí)方法進(jìn)行安卓惡意軟件檢測(cè)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Titel(論文題目):EMULATOR vs REAL PHONE: Android Malware Detection Using Machine LearningAuthors(作者):Mohammed K. Alzaylaee HYPERLINK mailto:malzaylaee01qub.ac.uk malzaylaee01qub.ac.ukSuleiman Y. Yerima HYPERLINK mailto:s.yerimaqub.ac.uk s.yerimaqub.ac.ukSakir Sezer HYPERLINK mailto:s.sezerqub.ac.uk s.sez

2、erqub.ac.ukCentre for Secure Information Technologies (CSIT)Queen s University BelfastBelfast, Northern IrelandPublished in( 發(fā)表在):IWSPA 17: Proceedings of the 3rd ACM on International Workshopon Security And Privacy AnalyticsAbstract(摘要):論文介紹了一種基于機(jī)器學(xué)習(xí)方法的Android惡意軟件檢測(cè)研究。(采用在真實(shí)設(shè)備上的動(dòng)態(tài)分析)一種工具被用來實(shí)施從Andro

3、id手機(jī)和幾項(xiàng)試驗(yàn)中自動(dòng)提取動(dòng)態(tài)特征的工具;一項(xiàng)對(duì)比分析(基于仿真器和基于真實(shí)設(shè)備),檢測(cè)手段用到了幾種機(jī)器學(xué)習(xí)算法。實(shí)驗(yàn)結(jié)果表明:相比仿真器,在真實(shí)設(shè)備(手機(jī))上的一些特征能夠被更高效地提取,動(dòng)態(tài)分析。近24%勺app成功在手機(jī)上被分析。研究中用到的所有基于機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)方法,都在設(shè)備(手機(jī))動(dòng)態(tài)分析上表現(xiàn)更佳。Keywords(關(guān)鍵詞):Android; Malware; Malware detection; Anti-analysis;Antiemulation; Machine Learning; Device-based detectionIntroduction( 弓 I言

4、):省略PHONE BASED DYNAMIC ANALYSIS AND FEATURE EXTRACTIONf 機(jī)的動(dòng)態(tài)分析和特征提?。榱藨?yīng)用機(jī)器學(xué)習(xí)方法分類和檢測(cè)惡意APP就需要一個(gè)platfrom 來從app中提取特征。本實(shí)驗(yàn)?zāi)康氖菫榱吮容^基于仿真器的檢測(cè),和基于設(shè)備的檢測(cè),故需要從這兩種環(huán)境下都提取特征,為下一步監(jiān)督學(xué)習(xí)做準(zhǔn)備。對(duì)于仿真器,我們采用DynaLog動(dòng)態(tài)分析框架。大體框架:自動(dòng)接收大量app,在仿真器上連續(xù)運(yùn)行,記錄動(dòng)態(tài)行為(特征),提取。DynaLog組件包括一個(gè)基于仿真器分析的沙盒,一個(gè)APK設(shè)備模塊,行為(特征)記錄和提取,App觸發(fā)/實(shí)驗(yàn)程序,記錄解析,處理腳本。

5、DynaLog使每個(gè)app的必要API都能夠被監(jiān)控,記錄,提?。◤姆抡嫫?, 在運(yùn)行中)為了能在手機(jī)上進(jìn)行動(dòng)態(tài)分析和特征提取,DynaLog框架需要被擴(kuò)展,用一個(gè)基于Python的工具:1、推一張contacts 表給設(shè)備的 SD卡,再導(dǎo)出他們(adb shell command 填充到手機(jī)的contact表中。2、找到并卸載所有第三方app,在安裝待分析(提取特征)app之前。uninstall = lhadb shell pm list packages -3 | cut -dd: -f2 | tr| k3ng$ -r -nl -t adb uni n stair1 os.system (u

6、ninstall)print(uninstalling all 3rd party user app&)3、關(guān)閉飛行。Monkey (the app exerciser tool)4、電量5、向外撥號(hào)(adb shell)6、向外發(fā)送消息(adb shell)7、向SD卡中填充其它,如虛擬文件夾:圖像文件,pdf, text文件等。每個(gè)app被安裝,并運(yùn)行300秒在仿真器上(然后在手機(jī)上進(jìn)行第二次 實(shí)驗(yàn)),行為都被記錄和解析(through提取特征的腳本)實(shí)驗(yàn)所用到的特征包括,API調(diào)用,Intent (關(guān)鍵事件的信號(hào))API call signatures使API能夠被記錄和提取 viaad

7、b logcat,當(dāng)app運(yùn)行 時(shí)。對(duì)于-包含反仿真器方法的惡意app,提取的API調(diào)用就是那些能夠使他們暴露出來的惡意行為不被記錄,LhfruLof Oymamfc AiMty&isML ElawfflmMethodology and experiments(方法和實(shí)驗(yàn))本部分描述實(shí)驗(yàn)方法(被用來評(píng)估檢測(cè)和提取特征的環(huán)境有效性)以及機(jī)器學(xué)習(xí)算法在手機(jī)和仿真器上的分析性能Dataset(數(shù)據(jù)集)實(shí)驗(yàn)所用數(shù)據(jù)集包含 2444個(gè)Android app ,其中1222個(gè)惡意樣本(來自49種類型,Android genome project),剩余1222個(gè)良性樣本(來自Inter Security,

8、 McAfee Labs)Environment configurations(環(huán)境配置)Phone: Elephone P6000, Android 5.0 Lollipop, 1.3 GHz CPU, 16GB internal memory, 32G of external SD card storage.Emulator: Santoku Linux VirtualBox(Andriod虛擬設(shè)備),2GB 內(nèi)存,8GB外部 SD 卡,4.1.2Jelly Bean(API level 16) 特征使由app決定的,不受 Andriod版本的影響 Features extraction(

9、特征提?。┨卣鞅硎境上蛄枯敵?、每個(gè)特征被表示為0/1代表該特征是否存在。特征文件被轉(zhuǎn)換成 ARFF格式,丟到 WEKA機(jī)器學(xué)習(xí)工具中。178個(gè)特征(手機(jī)和仿真器),然后按照信息嫡排序,選出前 100用來實(shí) 驗(yàn),比較檢測(cè)性能,使用一些機(jī)器學(xué)習(xí)算法。Machine learning classifiers(機(jī)器學(xué)習(xí)分類器)特征被分為五檔:20、40、60、80、100top算法:SVM、Naive Bayes(NB)、Simple Logistic(SL)、Multilayer Perceptron(MLP)、Partial Decision Tree(PART)、Random Forest(RF

10、)、J48 Decision Tree.Metric(度量) 真正率 真反率 假真率 假反率F1Results and discussions(實(shí)驗(yàn)結(jié)果和討論): 實(shí)驗(yàn)一:仿真器設(shè)備,特征提取分析1222個(gè)惡意軟件,1205能98.6%在手機(jī)上成功運(yùn)行 VS 939個(gè)76.84% 能在仿真器上運(yùn)行1222個(gè)良性軟件,1097個(gè)90%能在手機(jī)上被成功檢測(cè),786個(gè)64.27%在仿真器上能給檢測(cè)到手機(jī)上的總成功率 94.3%,仿真器70.5%USB1.0接口,只能運(yùn)行 480/1222良性樣本。大于1兆的將花費(fèi)更多時(shí) 間分析,遭遇超時(shí)。特征TimerTask;- ,在手機(jī)上被記錄了 813次,在仿

11、真器上被記 錄了 633次。類似 intent.BOOT COMPLETED ”在手機(jī)上被提取了662次,在仿真器上僅 501次。對(duì)良性樣本也有類似的發(fā)現(xiàn),手機(jī)上可以分析更多的樣本;對(duì)某些特征,手機(jī)提取和仿真器提取相差200.動(dòng)態(tài)分析中我們能提取到的特征越多,檢測(cè)結(jié)果就可能會(huì)越好。還有一些特征只能從手機(jī)提取到;System.loadLibrary特征是和本地代碼相關(guān)的API調(diào)用。仿真器沒有記錄它的原因可能是由于缺少運(yùn)行本地代碼的能力。總之,基于手機(jī)上的惡意軟件檢測(cè)、特征提取、分析app或訓(xùn)練機(jī)器學(xué)習(xí)分類器,更加有效。 Experiment 2: Emulator vs Device Machi

12、ne learning detection comparison 實(shí)驗(yàn)2:仿真器VS設(shè)備 機(jī)器學(xué)習(xí)檢測(cè)比較 表4、5展示了不同的機(jī)器學(xué)習(xí)算法結(jié)果(對(duì)前一百個(gè)特征) 結(jié)果說明,使用基于手機(jī)的特征進(jìn)行動(dòng)態(tài)分析更加有效,對(duì)檢測(cè)和分類app,相比較仿真器而言。 檢測(cè)木本33%,訓(xùn)練樣本66% 表5展示較高的檢測(cè)率,對(duì)所有算法,基于手機(jī)提取到的特征。真正率90% (對(duì)所有算法,除了 N.B),然而,N.B, SL, PART和J48 均有90%的真正率對(duì)基于仿真器提取到的特征。前面提到過,939/1222的惡意軟件和786/1222的良性軟件,在仿真器 上成功運(yùn)行,總共1725,其中12沒有在手機(jī)上運(yùn)行

13、,所以1713個(gè)(939惡意,774良性)重疊app都在手機(jī)和仿真器上成功運(yùn)行。另一組實(shí)驗(yàn)集,只用這些app作為樣本執(zhí)行。結(jié)果(2:1劃分)(對(duì)前100個(gè)特征)如表6、7結(jié)果表明,除了 RF,所有檢測(cè)算法都從仿真器數(shù)據(jù)中得到了0.9的F1值,而對(duì)手機(jī),只有 NB , PART和J48得到小于0.9的F1值。再次說明,基于手機(jī)的特征表現(xiàn)性能更佳。Comparison with other works(和其他人的工作對(duì)比 )對(duì)比我們結(jié)果和 DroidDolphin 31 and STREAM ,動(dòng)態(tài)分析框架 DroidDolphin是一個(gè)動(dòng)態(tài)分析框架,檢測(cè)安卓惡意app,利用基于圖形界面的檢測(cè)方法

14、,大數(shù)據(jù)分析,和機(jī)器學(xué)習(xí)。STREAM也是一個(gè)動(dòng)態(tài)分析框架,基于Andromaly ,能夠快速大規(guī)模驗(yàn)證惡意軟件,利用機(jī)器學(xué)習(xí)分類器。DroidDolphin使用1000到64000個(gè)平衡惡意軟件和良性安卓應(yīng)用。在STREAM方法,測(cè)試集使用 24個(gè)良性和23個(gè)惡意app,訓(xùn)練集包 含408個(gè)良性1330個(gè)惡意軟件,都使用分離訓(xùn)練/測(cè)試集(T.S), 10折交 叉驗(yàn)證法(C.V)。表8對(duì)比了我們的手機(jī)結(jié)果和STREAM結(jié)果,表9展示了和DroidDolphin的實(shí)驗(yàn)結(jié)果。從DroidDolphin的實(shí)驗(yàn)結(jié)果,顯然,檢測(cè)準(zhǔn)確率隨訓(xùn)練集中樣本數(shù)增加而增大,準(zhǔn)確率 83%/1000app, 92.5

15、%/64000app。表8說明, 盡管測(cè)試 集數(shù)目在我們的方法和 STREAM中不一樣,但是我們的手機(jī)基于 RF、 SL、J48、MLP表現(xiàn)要遠(yuǎn)比T.S.準(zhǔn)確。在C.V方法下,準(zhǔn)確率,S.L表現(xiàn)優(yōu)于我們的手機(jī)結(jié)果, 然而RF, J48, 和MLP結(jié)果接近于STREAM ,在我們的手機(jī)結(jié)果中 C.V , RF, SL, J48 和MLP的準(zhǔn)確率優(yōu)于DroidDolphin C.V .下的所有結(jié)果。對(duì)于T.S.的結(jié)果,我們的手機(jī) SL, J48和MLP表現(xiàn)更好,相較 DroidDolphin在T.S.方法中的結(jié)果(除了 32k/32k訓(xùn)練/測(cè)t),我們的T.S 方法基于RF在手機(jī)上結(jié)果表現(xiàn)出更好的

16、準(zhǔn)確性,比DroidDolphin , T.S.上的所有算法結(jié)果?;谝陨瞎奈枞诵牡慕Y(jié)果,我們將繼續(xù)分析,使用真實(shí)手機(jī),用更多的訓(xùn)練樣本。Related work(相關(guān)工作)一旦在意外發(fā)現(xiàn)了 一個(gè)新的惡意軟件應(yīng)用程序,它就應(yīng)該在一個(gè)封閉的環(huán)境中運(yùn)行,以了解它的行為。 研究人員和惡意軟件分析師嚴(yán)重依賴于 仿真器或虛擬設(shè)備,因?yàn)檫@是一個(gè)相對(duì)較低的成本分析環(huán)境。仿真器對(duì)機(jī)器學(xué)習(xí)常用的自動(dòng)質(zhì)量分析也更有吸引力。因此,大多數(shù)以前的基于機(jī)器學(xué)習(xí)的基于動(dòng)態(tài)分析的檢測(cè)依賴于在模擬器環(huán)境中運(yùn)行的工具的 特性提取。與之前的基于機(jī)器學(xué)習(xí)的動(dòng)態(tài)檢測(cè)工作相反,我們?cè)噲D利用真實(shí)的手機(jī)(設(shè)備)來實(shí)現(xiàn)自動(dòng)的功能提取,以避免

17、Android惡意軟件使 用的反仿真技術(shù)來逃避檢測(cè)。之前的一些基于機(jī)器學(xué)習(xí)的Android惡意軟件檢測(cè)工作,比如16、33、13、32,在他們的研究中已經(jīng)考慮過API調(diào)用和意圖。然而,與我們的工作不同,這些都是基于靜態(tài)特性提取的,因此可能會(huì)受到混淆的影響。為了提高檢測(cè)性能,馬文 23采用了一種機(jī)器學(xué)習(xí)方法,從靜態(tài)和動(dòng)態(tài) 分析技術(shù)的組合中提取出提取的特征。Bayes和Bayes提出了一種動(dòng)態(tài)框架,它應(yīng)用了幾種不同的機(jī)器學(xué)習(xí)算法,包括隨機(jī)森林、樸素的貝葉 斯、多層感知機(jī)、貝葉斯網(wǎng)絡(luò)、邏輯回歸和J48,又Android應(yīng)用進(jìn)行分類。然而,他們?cè)谒膫€(gè)自我編寫的惡意軟件應(yīng)用程序中評(píng)估了他們的 表現(xiàn)。MA

18、DAM也是一個(gè)動(dòng)態(tài)分析框架,它使用機(jī)器學(xué)習(xí)來對(duì) Android 應(yīng)用進(jìn)行分類。MADAM 在用戶和內(nèi)核級(jí)提取了13個(gè)特性。然而,他們的實(shí)驗(yàn)只在一個(gè)帶有小數(shù)據(jù)集的模擬器上執(zhí)行。Crowdroid是一個(gè)基于云的機(jī)器學(xué)習(xí)框架,用于Android惡意軟件的檢測(cè)。 Crowdroid的特點(diǎn)是基于Strace的兩個(gè)自編寫的惡意軟件樣本。前面的大部分工作都利 用了基于模擬器的分析所提取的動(dòng)態(tài)特性。在此基礎(chǔ)上,我們的工作是基于實(shí)際設(shè)備動(dòng)態(tài)提取的特性,并對(duì)仿真器與基于電話的機(jī)器學(xué)習(xí)方法進(jìn)行比較分析。BareDroid提出了一種系統(tǒng),該系統(tǒng)可以使對(duì)Android應(yīng)用程序的分析變得可行。它對(duì)來自 Android.HeHe , OBAD ,和 Android Pincer.A families 的惡意軟件進(jìn)行了分析。他們的工作突出了惡意軟件的反仿真能力,可以通過使用真實(shí)的設(shè)備來解決。Glassbox 21還提出了一個(gè)動(dòng)態(tài)分析平臺(tái),用于分析真實(shí)設(shè)備

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論