人工智能應(yīng)用素養(yǎng) 課件 第12章 通信技術(shù)領(lǐng)域中AI的應(yīng)用-網(wǎng)絡(luò)流量異常檢測(cè)實(shí)戰(zhàn)_第1頁
人工智能應(yīng)用素養(yǎng) 課件 第12章 通信技術(shù)領(lǐng)域中AI的應(yīng)用-網(wǎng)絡(luò)流量異常檢測(cè)實(shí)戰(zhàn)_第2頁
人工智能應(yīng)用素養(yǎng) 課件 第12章 通信技術(shù)領(lǐng)域中AI的應(yīng)用-網(wǎng)絡(luò)流量異常檢測(cè)實(shí)戰(zhàn)_第3頁
人工智能應(yīng)用素養(yǎng) 課件 第12章 通信技術(shù)領(lǐng)域中AI的應(yīng)用-網(wǎng)絡(luò)流量異常檢測(cè)實(shí)戰(zhàn)_第4頁
人工智能應(yīng)用素養(yǎng) 課件 第12章 通信技術(shù)領(lǐng)域中AI的應(yīng)用-網(wǎng)絡(luò)流量異常檢測(cè)實(shí)戰(zhàn)_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)流量異常檢測(cè)業(yè)務(wù)背景人工智能應(yīng)用素養(yǎng)01目錄CONTENTS數(shù)據(jù)安全性02入侵監(jiān)測(cè)、網(wǎng)絡(luò)流量異常檢測(cè)數(shù)據(jù)安全性1Part數(shù)據(jù)安全性大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)安全性已成為網(wǎng)絡(luò)安全性的主要關(guān)注點(diǎn)。在網(wǎng)絡(luò)世界,人的貪欲尤其容易膨脹。詳細(xì)案例展示2020年10月,美國一家網(wǎng)絡(luò)安全公司Trustwave調(diào)查報(bào)告富士康在其位于墨西哥華雷斯城的富士康CTBGMX設(shè)備遭受了攻擊巴西人的個(gè)人信息泄露入侵監(jiān)測(cè)網(wǎng)絡(luò)流量異常檢測(cè)2Part網(wǎng)絡(luò)流量異常是指對(duì)網(wǎng)絡(luò)正常使用造成不良影響的網(wǎng)絡(luò)流量模式網(wǎng)絡(luò)攻擊,如DDoS攻擊、DoS攻擊、端口查看等;導(dǎo)致數(shù)據(jù)量模式改變的網(wǎng)絡(luò)病毒,如蠕蟲病毒等;網(wǎng)絡(luò)的使用問題,如大量的P2P的應(yīng)用模式對(duì)網(wǎng)絡(luò)流量造成影響;網(wǎng)絡(luò)誤配置及網(wǎng)絡(luò)存儲(chǔ)耗盡等。網(wǎng)絡(luò)流量異常的檢測(cè)檢測(cè)何時(shí)何處有異常的網(wǎng)絡(luò)流量發(fā)生異常分析則在異常檢測(cè)的基礎(chǔ)上進(jìn)一步確定哪些數(shù)據(jù)流引發(fā)網(wǎng)絡(luò)異常并診斷異常類型。流量異常檢測(cè)及分析是網(wǎng)絡(luò)流量異常監(jiān)視及響應(yīng)應(yīng)用的基礎(chǔ),便于網(wǎng)絡(luò)及安全管理人員排查網(wǎng)絡(luò)異常、維護(hù)網(wǎng)絡(luò)正常運(yùn)轉(zhuǎn)、保證網(wǎng)絡(luò)安全。以往的異常流量監(jiān)測(cè)主要是基于特征和行為的判斷基于特征/行為的研究通過在網(wǎng)絡(luò)流量數(shù)據(jù)中查找與異常特征相匹配的模式來檢測(cè)異常。此研究常用的輸入數(shù)據(jù)有包追蹤和網(wǎng)絡(luò)流,被廣泛用于基于網(wǎng)絡(luò)鏈路的入侵檢測(cè)系統(tǒng)中。研究者們分類描述網(wǎng)絡(luò)異常的流量特征及行為特征刻畫Intenet的入侵活動(dòng)、分析IP網(wǎng)絡(luò)的失效時(shí)間、構(gòu)造Intenet蠕蟲分類和DoS攻擊行為等。基于特征/行為的研究成果被應(yīng)用于開發(fā)網(wǎng)絡(luò)入侵檢測(cè)工具或網(wǎng)絡(luò)流工具?;谔卣?行為的研究的特點(diǎn):檢測(cè)和分析精確,不僅可以檢測(cè)網(wǎng)絡(luò)異常,還可以確定和診斷異常;可以做到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)分析和檢測(cè);其局限性則在于只能檢測(cè)已知模式的網(wǎng)絡(luò)異常。特別是數(shù)據(jù)量大的時(shí)候,監(jiān)測(cè)的準(zhǔn)確性和實(shí)效性都有待商榷。但是隨著互聯(lián)網(wǎng)的繁榮,現(xiàn)階段的惡意代碼也呈現(xiàn)出快速發(fā)展的趨勢(shì),主要表現(xiàn)為變種數(shù)量多、傳播速度快、影響范圍廣。在這樣的形勢(shì)下,傳統(tǒng)的惡意代碼檢測(cè)方法已經(jīng)無法滿足人們對(duì)惡意代碼檢測(cè)的要求。比如基于簽名特征碼的惡意代碼檢測(cè)為了應(yīng)對(duì)上面的問題,基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法一直是學(xué)界研究的熱點(diǎn)。由于機(jī)器學(xué)習(xí)算法可以挖掘輸入特征之間更深層次的聯(lián)系,更加充分地利用惡意代碼的信息基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)往往表現(xiàn)出較高的準(zhǔn)確率一定程度上可以對(duì)未知的惡意代碼實(shí)現(xiàn)自動(dòng)化的分析。感謝您的觀看!以上是

本節(jié)全部內(nèi)容數(shù)據(jù)集人工智能應(yīng)用素養(yǎng)01目錄CONTENTS數(shù)據(jù)集介紹和來源02數(shù)據(jù)特征描述數(shù)據(jù)集介紹和來源1PartKDDCup1999數(shù)據(jù)集介紹:是與KDD-99第五屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會(huì)議同時(shí)舉行的第三屆國際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘工具競賽使用的數(shù)據(jù)集。競爭任務(wù)是建立一個(gè)網(wǎng)絡(luò)入侵檢測(cè)器,這是一種能夠區(qū)分稱為入侵或攻擊的“不良”連接和“良好”的正常連接的預(yù)測(cè)模型。該數(shù)據(jù)集包含一組要審核的標(biāo)準(zhǔn)數(shù)據(jù),其中包括在軍事網(wǎng)絡(luò)環(huán)境中模擬的多種入侵。KDDCUP99數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)1998年美國國防部高級(jí)規(guī)劃署(DARPA)在MIT林肯實(shí)驗(yàn)室-

入侵檢測(cè)評(píng)估項(xiàng)目。模擬美國空軍局域網(wǎng)的一個(gè)網(wǎng)絡(luò)環(huán)境,收集了9周時(shí)間的TCPdump(*)網(wǎng)絡(luò)連接和系統(tǒng)審計(jì)數(shù)據(jù),仿真各種用戶類型、各種不同的網(wǎng)絡(luò)流量和攻擊手段,使它就像一個(gè)真實(shí)的網(wǎng)絡(luò)環(huán)境。標(biāo)識(shí)類型含義具體分類標(biāo)識(shí)Normal正常記錄NormalDOS拒絕服務(wù)攻擊back、land、neptune、pod、smurf、teardropProbing監(jiān)視和其他探測(cè)活動(dòng)ipsweep、nmap、portsweep、satanR2L來自遠(yuǎn)程機(jī)器的非法訪問ftp_write、guess_passwd、imap、multihop、phf、spy、warezclient、warezmasterU2R未授權(quán)的本地超級(jí)用戶特權(quán)訪問buffer_overflow,loadmodule,perl,rootkit數(shù)據(jù)特征描述2PartTCP連接基本特征TCP連接的內(nèi)容特征基于時(shí)間的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征基于主機(jī)的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征序號(hào)1~9序號(hào)10~22序號(hào)23~31序號(hào)32~419種13種9種10種數(shù)據(jù)集概述TCP連接基本特征(共9種,序號(hào)1~9)0,tcp,http,SF,181,5450,0,0,0,基本連接特征包含了一些連接的基本屬性,如連續(xù)時(shí)間,協(xié)議類型,傳送的字節(jié)數(shù)等。(1)duration-連接持續(xù)時(shí)間,以秒為單位,連續(xù)類型。范圍是[0,58329]。它的定義是從TCP連接以3次握手建立算起,到FIN/ACK連接結(jié)束為止的時(shí)間;若為UDP協(xié)議類型,則將每個(gè)UDP數(shù)據(jù)包作為一條連接。數(shù)據(jù)集中出現(xiàn)大量的duration=0的情況,是因?yàn)樵摋l連接的持續(xù)時(shí)間不足1秒。(2)protocol_type-協(xié)議類型,離散類型,共有3種:TCP,UDP,ICMP。(3)service-目標(biāo)主機(jī)的網(wǎng)絡(luò)服務(wù)類型,離散類型,共有70種。TCP連接基本特征(共9種,序號(hào)1~9)0,tcp,http,SF,181,5450,0,0,0,基本連接特征包含了一些連接的基本屬性,如連續(xù)時(shí)間,協(xié)議類型,傳送的字節(jié)數(shù)等。(4)flag-連接正?;蝈e(cuò)誤的狀態(tài),離散類型,共11種。

(5)src_bytes-從源主機(jī)到目標(biāo)主機(jī)的數(shù)據(jù)的字節(jié)數(shù),連續(xù)類型,范圍是[0,1379963888]。(6)dst_bytes-從目標(biāo)主機(jī)到源主機(jī)的數(shù)據(jù)的字節(jié)數(shù),連續(xù)類型,范圍是[0.1309937401]。(7)land-若連接來自/送達(dá)同一個(gè)主機(jī)/端口則為1,否則為0,離散類型,0或1。(8)wrong_fragment-錯(cuò)誤分段的數(shù)量,連續(xù)類型,范圍是[0,3]。(9)urgent-加急包的個(gè)數(shù),連續(xù)類型,范圍是[0,14]。TCP連接的內(nèi)容特征(共13種,序號(hào)10~22)0,0,1,0,0,0,0,0,0,0,0,0,0對(duì)于U2R和R2L之類的攻擊,由于它們不像DoS攻擊那樣在數(shù)據(jù)記錄中具有頻繁序列模式,而一般都是嵌入在數(shù)據(jù)包的數(shù)據(jù)負(fù)載里面,單一的數(shù)據(jù)包和正常連接沒有什么區(qū)別。為了檢測(cè)這類攻擊,WenkeLee等從數(shù)據(jù)內(nèi)容里面抽取了部分可能反映入侵行為的內(nèi)容特征,如登錄失敗的次數(shù)等。(10)hot-訪問系統(tǒng)敏感文件和目錄的次數(shù),連續(xù),范圍是[0,101]。例如訪問系統(tǒng)目錄,建立或執(zhí)行程序等。(11)num_failed_logins-登錄嘗試失敗的次數(shù)。連續(xù),[0,5]。(12)logged_in-成功登錄則為1,否則為0,離散,0或1。(13)num_compromised-compromised條件出現(xiàn)的次數(shù),連續(xù),[0,7479]。(14)root_shell-若獲得rootshell則為1,否則為0,離散,0或1。root_shell是指獲得超級(jí)用戶權(quán)限。(15)su_attempted-若出現(xiàn)”suroot”命令則為1,否則為0,離散,0或1。(16)num_root-root用戶訪問次數(shù),連續(xù),[0,7468]。(17)num_file_creations-文件創(chuàng)建操作的次數(shù),連續(xù),[0,100]。(18)num_shells-使用shell命令的次數(shù),連續(xù),[0,5]。(19)num_access_files-訪問控制文件的次數(shù),連續(xù),[0,9]。例如對(duì)/etc/passwd或.rhosts文件的訪問。(20)num_outbound_cmds-一個(gè)FTP會(huì)話中出站連接的次數(shù),連續(xù),0。數(shù)據(jù)集中這一特征出現(xiàn)次數(shù)為0。(21)is_hot_login-登錄是否屬于“hot”列表,是為1,否則為0,離散,0或1。例如超級(jí)用戶或管理員登錄。(22)is_guest_login-若是guest登錄則為1,否則為0,離散,0或1?;跁r(shí)間的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征(共9種,序號(hào)23~31)8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,由于網(wǎng)絡(luò)攻擊事件在時(shí)間上有很強(qiáng)的關(guān)聯(lián)性,因此統(tǒng)計(jì)出當(dāng)前連接記錄與之前一段時(shí)間內(nèi)的連接記錄之間存在的某些聯(lián)系,可以更好的反映連接之間的關(guān)系。這類特征又分為兩種集合:一個(gè)是“samehost”特征,只觀察在過去兩秒內(nèi)與當(dāng)前連接有相同目標(biāo)主機(jī)的連接,例如相同的連接數(shù),在這些相同連接與當(dāng)前連接有相同的服務(wù)的連接等等;另一個(gè)是“sameservice”特征,只觀察過去兩秒內(nèi)與當(dāng)前連接有相同服務(wù)的連接,例如這樣的連接有多少個(gè),其中有多少出現(xiàn)SYN錯(cuò)誤或者REJ錯(cuò)誤。(23)count-過去兩秒內(nèi),與當(dāng)前連接具有相同的目標(biāo)主機(jī)的連接數(shù),連續(xù),[0,511]。(24)srv_count-過去兩秒內(nèi),與當(dāng)前連接具有相同服務(wù)的連接數(shù),連續(xù),[0,511]。(25)serror_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接中,出現(xiàn)“SYN”錯(cuò)誤的連接的百分比,連續(xù),[0.00,1.00]。(26)srv_serror_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同服務(wù)的連接中,出現(xiàn)“SYN”錯(cuò)誤的連接的百分比,連續(xù),[0.00,1.00]。(27)rerror_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接中,出現(xiàn)“REJ”錯(cuò)誤的連接的百分比,連續(xù),[0.00,1.00]。(28)srv_rerror_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同服務(wù)的連接中,出現(xiàn)“REJ”錯(cuò)誤的連接的百分比,連續(xù),[0.00,1.00]。(29)same_srv_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接中,與當(dāng)前連接具有相同服務(wù)的連接的百分比,連續(xù),[0.00,1.00]。(30)diff_srv_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接中,與當(dāng)前連接具有不同服務(wù)的連接的百分比,連續(xù),[0.00,1.00]。(31)srv_diff_host_rate-過去兩秒內(nèi),在與當(dāng)前連接具有相同服務(wù)的連接中,與當(dāng)前連接具有不同目標(biāo)主機(jī)的連接的百分比,連續(xù),[0.00,1.00]?;谥鳈C(jī)的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征(共10種,序號(hào)32~41)9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,基于時(shí)間的流量統(tǒng)計(jì)只是在過去兩秒的范圍內(nèi)統(tǒng)計(jì)與當(dāng)前連接之間的關(guān)系,而在實(shí)際入侵中,有些Probing攻擊使用慢速攻擊模式來掃描主機(jī)或端口,當(dāng)它們掃描的頻率大于2秒的時(shí)候,基于時(shí)間的統(tǒng)計(jì)方法就無法從數(shù)據(jù)中找到關(guān)聯(lián)。WenkeLee等按照目標(biāo)主機(jī)進(jìn)行分類,使用一個(gè)具有100個(gè)連接的時(shí)間窗,統(tǒng)計(jì)當(dāng)前連接之前100個(gè)連接記錄中與當(dāng)前連接具有相同目標(biāo)主機(jī)的統(tǒng)計(jì)信息。(32)dst_host_count-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接數(shù),連續(xù),[0,255]。(33)dst_host_srv_count-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)相同服務(wù)的連接數(shù),連續(xù),[0,255]。(34)dst_host_same_srv_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)相同服務(wù)的連接所占的百分比,連續(xù),[0.00,1.00]。(35)dst_host_diff_srv_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)不同服務(wù)的連接所占的百分比,連續(xù),[0.00,1.00]。(36)dst_host_same_src_port_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)相同源端口的連接所占的百分比,連續(xù),[0.00,1.00]。(37)dst_host_srv_diff_host_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)相同服務(wù)的連接中,與當(dāng)前連接具有不同源主機(jī)的連接所占的百分比,連續(xù),[0.00,1.00]。(38)dst_host_serror_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接中,出現(xiàn)SYN錯(cuò)誤的連接所占的百分比,連續(xù),[0.00,1.00]。(39)dst_host_srv_serror_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)相同服務(wù)的連接中,出現(xiàn)SYN錯(cuò)誤的連接所占的百分比,連續(xù),[0.00,1.00]。(40)dst_host_rerror_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)的連接中,出現(xiàn)REJ錯(cuò)誤的連接所占的百分比,連續(xù),[0.00,1.00]。(41)dst_host_srv_rerror_rate-前100個(gè)連接中,與當(dāng)前連接具有相同目標(biāo)主機(jī)相同服務(wù)的連接中,出現(xiàn)REJ錯(cuò)誤的連接所占的百分比,連續(xù),[0.00,1.00]。感謝您的觀看!以上是

本節(jié)全部內(nèi)容Python數(shù)據(jù)預(yù)處理人工智能應(yīng)用素養(yǎng)01目錄CONTENTSKDD99數(shù)據(jù)集評(píng)價(jià)02字符型轉(zhuǎn)換為數(shù)值型03數(shù)值標(biāo)準(zhǔn)化KDD99數(shù)據(jù)集評(píng)價(jià)入侵檢測(cè)的方法從根本上講就是設(shè)計(jì)一個(gè)分類器,能將數(shù)據(jù)流中的正常與異常數(shù)據(jù)區(qū)分出來,從而實(shí)現(xiàn)對(duì)攻擊行為的報(bào)警。本文采用的KDD99數(shù)據(jù)集經(jīng)常為入侵檢測(cè)系統(tǒng)提供統(tǒng)一的性能評(píng)價(jià)基準(zhǔn),常用來在學(xué)術(shù)圈檢驗(yàn)入侵檢測(cè)算法的好壞。KDD99數(shù)據(jù)集每個(gè)連接有41個(gè)特征,對(duì)于一個(gè)分類器來說,要從這么多特征中提取規(guī)則是費(fèi)時(shí)且不精確的,這體現(xiàn)在一些無關(guān)或冗余的特征往往會(huì)降低分類器模型的檢測(cè)精度和速度。而且對(duì)于從原始的tcpdump數(shù)據(jù)中提取特征這一過程,也將是困難和費(fèi)時(shí)的,這對(duì)于在線入侵檢測(cè)系統(tǒng)是致命的。因此去除冗余特征或不重要特征,對(duì)于提高分類器訓(xùn)練速度和檢測(cè)精度來說,是必要的。對(duì)于不同的分類器來說,最優(yōu)的特征子集可以是不同的。本例子為了簡便,選擇了所有特征字符型轉(zhuǎn)換為數(shù)值型KDDCUP99數(shù)據(jù)集字符串?dāng)?shù)據(jù)編碼有一些特征或標(biāo)簽不是用數(shù)值表示的,而我們的DT、RF等算法只能處理數(shù)值型數(shù)據(jù),不能處理字母、文字等,因此需要將字符型數(shù)據(jù)統(tǒng)一編碼為數(shù)值型數(shù)據(jù)。目前有2種主流的方法,標(biāo)簽編碼(LabelEncoder),是獨(dú)熱編碼(OneHotEncoder)。獨(dú)熱編碼它先對(duì)該列字符串進(jìn)行分類,把原有的一列拆成n列(n是分類的個(gè)數(shù)),如果字符串所在的那一列在這一類上面則這一列為1,其余列為0。代碼見文件數(shù)值標(biāo)準(zhǔn)化數(shù)值標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中常用的一種方法。數(shù)據(jù)標(biāo)準(zhǔn)化主要是應(yīng)對(duì)特征向量中數(shù)據(jù)很分散的情況,防止小數(shù)據(jù)被大數(shù)據(jù)(絕對(duì)值)吞并的情況。另外,數(shù)據(jù)標(biāo)準(zhǔn)化也有加速訓(xùn)練,防止梯度爆炸的作用。在聚類\分類算法中,使用計(jì)算距離的方法對(duì)數(shù)據(jù)進(jìn)行聚類\分類,而連接記錄的固定特征屬性中有兩種類型的數(shù)值——離散型和連續(xù)型。對(duì)于連續(xù)型特征屬性,各屬性的度量方法不一樣。一般而言,所用的度量單位越小,變量可能的值域就越大,這樣對(duì)聚類結(jié)果的影響也越大,即在計(jì)算數(shù)據(jù)間距離時(shí)對(duì)聚類的影響越大,甚至?xí)霈F(xiàn)“大數(shù)”吃“小數(shù)”的現(xiàn)象。

代碼見文件感謝您的觀看!以上是

本節(jié)全部內(nèi)容KNN實(shí)現(xiàn)入侵檢測(cè)算法實(shí)現(xiàn)人工智能應(yīng)用素養(yǎng)01目錄CONTENTSKNN算法簡介02算法實(shí)現(xiàn)03評(píng)價(jià)算法KNN算法簡介1PartK最近鄰(K-NearestNeighbor,簡稱KNN)分類算法數(shù)據(jù)挖掘分類技術(shù)中最簡單常用的方法之一。所謂K最近鄰,就是尋找K個(gè)最近的鄰居的意思,每個(gè)樣本都可以用它最接近的K個(gè)鄰居來代表。本小節(jié)主要講解KNN分類算法的基礎(chǔ)知識(shí)及分析實(shí)例。KNN分類算法是最近鄰算法,字面意思就是尋找最近鄰居,由Cover和Hart在1968年提出,簡單直觀易于實(shí)現(xiàn)。下面通過一個(gè)經(jīng)典的例子來講解如何尋找鄰居,選取多少個(gè)鄰居。KNN分類算法核心思想是從訓(xùn)練樣本中尋找所有訓(xùn)練樣本X中與測(cè)試樣本距離(歐氏距離)最近的前K個(gè)樣本(作為相似度),再選擇與待分類樣本距離最小的K個(gè)樣本作為X的K個(gè)最鄰近,并檢測(cè)這K個(gè)樣本大部分屬于哪一類樣本,則認(rèn)為這個(gè)測(cè)試樣本類別屬于這一類樣本。當(dāng)K=3時(shí),圖中第一個(gè)圈包含了三個(gè)圖形,其中三角形2個(gè),正方形一個(gè),該圓的則分類結(jié)果為三角形。

當(dāng)K=5時(shí),第二個(gè)圈中包含了5個(gè)圖形,三角形2個(gè),正方形3個(gè),則以3:2的投票結(jié)果預(yù)測(cè)圓為正方形類標(biāo)。

注意:

設(shè)置不同的K值,可能預(yù)測(cè)得到不同的結(jié)果。KNeighborsClassifier可以設(shè)置3種算法:brute、kd_tree、ball_tree,設(shè)置K值參數(shù)為n_neighbors=3。

調(diào)用方法如下:算法實(shí)現(xiàn)2Par

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論