機(jī)器學(xué)習(xí)第2章 k-近鄰算法_第1頁(yè)
機(jī)器學(xué)習(xí)第2章 k-近鄰算法_第2頁(yè)
機(jī)器學(xué)習(xí)第2章 k-近鄰算法_第3頁(yè)
機(jī)器學(xué)習(xí)第2章 k-近鄰算法_第4頁(yè)
機(jī)器學(xué)習(xí)第2章 k-近鄰算法_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第章K-近鄰算法2電影題材:動(dòng)作片、科幻片、喜劇片、愛(ài)情片等等。如何劃分電影題材?動(dòng)作片也有愛(ài)情,也有喜劇的成分。基于電影中出現(xiàn)特征的次數(shù)進(jìn)行劃分。打斗、親吻、k-近鄰算法的優(yōu)缺點(diǎn):優(yōu)點(diǎn):精度高、對(duì)異常值不敏感、無(wú)數(shù)據(jù)輸入假定。缺點(diǎn):計(jì)算復(fù)雜度高、空間復(fù)雜度高。適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱(chēng)值KNN(K-NearestNeighbor)2.1K-近鄰算法的介紹K-近鄰算法采用測(cè)量不同特征值之間的距離方法進(jìn)行分類(lèi)。K-近鄰算法的概念:電影名稱(chēng)打斗鏡頭接吻鏡頭電影類(lèi)型泰坦尼克號(hào)3104愛(ài)情片那些年2100愛(ài)情片七月與安生181愛(ài)情片戰(zhàn)狼10110動(dòng)作片速度與激情995動(dòng)作片碟中諜982動(dòng)作片現(xiàn)在去見(jiàn)你1890?只要打斗鏡頭>接吻鏡頭就是動(dòng)作片只要打斗鏡頭<接吻鏡頭就是愛(ài)情片??當(dāng)特征數(shù)據(jù)數(shù)據(jù)非常多的時(shí)候,KNN算法步驟:1、計(jì)算已知類(lèi)別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離2、按距離從小到大排序3、選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)4、確定前k個(gè)點(diǎn)所在類(lèi)別的出現(xiàn)頻率5、返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類(lèi)別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類(lèi)

例如:點(diǎn)(0,0)與(1,2)之間的距離計(jì)算:

距離計(jì)算方法:歐式距離公式例如:點(diǎn)(1,2,3)與(7,6,8)之間的距離計(jì)算:

第1步:存在一個(gè)樣本數(shù)據(jù)集合,也稱(chēng)作訓(xùn)練樣本集,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽,即我們知道樣本集中每一數(shù)據(jù)與所屬分類(lèi)的對(duì)應(yīng)關(guān)系。第2步:輸入沒(méi)有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較,第3步:然后算法提取樣本集中特征最相似數(shù)據(jù)(最鄰近)的分類(lèi)標(biāo)簽。一般來(lái)說(shuō),我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似數(shù)據(jù),這就是k-近鄰算法中k的出處,通常k是不大于20的整數(shù),最后,選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類(lèi),作為新數(shù)據(jù)的分類(lèi)。使用步驟KNN使用步驟2.2使用KNN算法尋找室友現(xiàn)在有很多大學(xué)里出現(xiàn)室友矛盾,假如室友可以選擇,你會(huì)如何去選擇?現(xiàn)在趙六要選擇室友,現(xiàn)已存在一個(gè)數(shù)據(jù)文件datingTestSet2.txt,為趙六在大學(xué)中挑選室友的信息1、每年旅行的路程2、玩游戲所有時(shí)間百分比3、每個(gè)禮拜消耗零食的重量2.準(zhǔn)備輸入數(shù)據(jù)4、訓(xùn)練算法1、收集數(shù)據(jù)3、分析數(shù)據(jù)6、使用算法5、測(cè)試算法根據(jù)趙六提供的文件,制作一個(gè)軟件,可以自動(dòng)實(shí)現(xiàn)對(duì)應(yīng)學(xué)生是否為趙六喜歡的室友。應(yīng)用場(chǎng)景實(shí)現(xiàn)要求123不喜歡普通非常喜歡準(zhǔn)備輸入數(shù)據(jù)2.2.11、讀取文件2、一行一行獲取數(shù)據(jù)3、通過(guò)split將數(shù)據(jù)分隔開(kāi)4、將前3個(gè)數(shù)據(jù)保存在returnMat數(shù)據(jù)對(duì)象中,最后一個(gè)數(shù)據(jù)保存在classLabelVector輸入數(shù)據(jù)的函數(shù)名:file2matrixreturnMatclassLabelVector要求返回特征值和目標(biāo)變量(標(biāo)簽值)2.2.2matplotlib介紹與使用2D圖繪制3D圖繪制Matplotlib是一個(gè)Python2D繪圖庫(kù),可以生成各種硬拷貝格式和跨平臺(tái)交互式環(huán)境的出版物質(zhì)量數(shù)據(jù)。/專(zhuān)業(yè)的人工智能編程語(yǔ)言入門(mén)學(xué)習(xí)及技術(shù)文檔查詢(xún)網(wǎng)站由打印機(jī)輸出至紙上稱(chēng)為硬拷貝Matplotlib試圖讓簡(jiǎn)單易事的事情成為可能。你只需幾行代碼即可生成繪圖,直方圖,功率譜,條形圖,誤差圖,散點(diǎn)圖等。Matplotlib附帶了幾個(gè)附加工具包,包括mplot3d三維繪圖、AXIS_GID1中的軸幫助器和軸輔助器。當(dāng)繪制3D圖形不能旋轉(zhuǎn)時(shí)怎么辦?文件---settingsTools---Pythonscientificx軸數(shù)據(jù),y軸數(shù)據(jù),format_string控制曲線(xiàn)的格式字串format_string由顏色字符,風(fēng)格字符,和標(biāo)記字符三部分組成。顏色字符說(shuō)明‘b’藍(lán)色‘g’綠色‘r’紅色‘c’青綠色‘m’洋紅色‘y’黃色‘k’黑色‘w’白色‘#008000’RGB顏色‘0.8’灰度值字符串風(fēng)格字符說(shuō)明‘-’實(shí)線(xiàn)‘--’破折線(xiàn)‘-.’點(diǎn)劃線(xiàn)‘:’虛線(xiàn)‘’無(wú)線(xiàn)條標(biāo)記字符說(shuō)明‘.’點(diǎn)標(biāo)記‘s’實(shí)心方形標(biāo)記‘,’像素標(biāo)記(極小點(diǎn))‘p’實(shí)心五角標(biāo)記‘o’實(shí)心圓標(biāo)記‘*’星行標(biāo)記‘v’倒三角標(biāo)記‘h’豎六邊形標(biāo)記‘^’上三角標(biāo)記‘H’橫六邊形標(biāo)記‘>’右三角標(biāo)記‘+’十字標(biāo)記‘<’坐三角標(biāo)記‘x’x標(biāo)記‘1’下花三角標(biāo)記‘D’菱形標(biāo)記‘2’上花三角標(biāo)記‘d’瘦菱形標(biāo)記‘3’左花三角標(biāo)記‘|’垂直線(xiàn)標(biāo)記‘4’右花三角標(biāo)記plt.plot(x,y,format_string,**kwargs)scatter散點(diǎn)圖plt.scatter(x,y,s=None,c=None,marker=None,cmap=None,norm=None,vmin=None,vmax=None, alpha=None,linewidths=None,verts=None,edgecolors=None,*,data=None,**kwargs)x,y:表示為為數(shù)組,也就是我們即將繪制散點(diǎn)圖的數(shù)據(jù)點(diǎn)S:尺寸大小,默認(rèn)20c:色彩或顏色序列,與plot相同。marker:表示的是標(biāo)記的樣式,默認(rèn)的是'o'。matplotlib不能直接顯示中文字體。注測(cè)試算法:驗(yàn)證分類(lèi)器效果2.2.3趙六尋找室友,網(wǎng)絡(luò)上收集到趙六對(duì)1000個(gè)人進(jìn)行了分類(lèi)等級(jí),現(xiàn)在通過(guò)收集到的1000個(gè)數(shù)據(jù)構(gòu)建專(zhuān)屬趙六的分類(lèi)器,構(gòu)建好的分類(lèi)器可以用于將來(lái)自動(dòng)幫助趙六判斷將某個(gè)人劃分為哪一類(lèi)?!?000個(gè)已經(jīng)收集的數(shù)據(jù)……新數(shù)據(jù)NNK算法構(gòu)建模型分類(lèi)分類(lèi)結(jié)果需要驗(yàn)證分類(lèi)器。(例如流水線(xiàn)生產(chǎn)的手機(jī))如何判斷構(gòu)建的KNN算法模型是否可用?NNK算法構(gòu)建模型測(cè)試驗(yàn)證分類(lèi)結(jié)果機(jī)器學(xué)習(xí)算法中一個(gè)重要的工作就是評(píng)估算法的正確率,通??梢蕴峁┮延袛?shù)據(jù)的90%作為訓(xùn)練樣本來(lái)進(jìn)行訓(xùn)練分類(lèi)器,而使用其余的10%數(shù)據(jù)去測(cè)試分類(lèi)器。1000個(gè)已經(jīng)收集的數(shù)據(jù)40928.3269760.9539523144887.1534691.6739042260521.4418710.80512417513613.1473940.4289641383441.6697880.1342961………………7299310.1417401.0329551359486.8307921.21319234266613.2763690.5438803674978.6315770.7492781……3548312.2731691.508053502423.7234980.831917190%的數(shù)據(jù)10%的數(shù)據(jù)新數(shù)據(jù)分類(lèi)驗(yàn)證結(jié)果注:10%的測(cè)試數(shù)據(jù)應(yīng)該是隨機(jī)選擇的。

理想中的分類(lèi)器錯(cuò)誤率為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論