下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據挖掘干貨(k-NN )whatis k-NN ?k-nearest neighbors algorithm (k-NN) 是通過測量不同特征值之間的距離進行分類。它的的思路是:如果一個樣本在特征空間中的k 個最相似 (即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。K 通常是不大于 20 的整數。 KNN 算法中,所選擇的鄰居都是已經正確分類的對象。該方法在分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。其實早在南北朝時期,我國古人就提出了該算法的核心 '近朱者赤,近墨者黑 '。簡單地舉個例子, 假如我們要確定上圖中的藍色
2、的點真正的顏色是什么,我們就劃定一個范圍,找到與它最近的 9 個鄰居,在這 9 個鄰居中有 5 個是綠色的 4 個是紅色的,那么我們就可以說 K=9 時, X 更接近于綠色。與它最近的27 個點中 14 個是紅色 13 個是綠色, X 更接近于紅色。由此看來, KNN 算法的一般步驟 :- 計算測試數據與各個訓練數據之間的距離; - 按照距離的遞增關系進行排序; - 選取距離最小的 K 個點; - 確定前 K 個點所在類別的出現頻率;- 返回前 K 個點中出現頻率最高的類別作為測試數據的預測分類。值得注意的是,在距離當中我們一般采用的是歐氏幾何距離,如果說有特殊需求,我們也可以采取曼哈頓距離,
3、還可以看到的是 X 的預測分類與K 的取值有很大的關系。Using#!python #coding:utf-8#author:kim#copyrights 2017''' You can find theoriginal Code from the OffcialSite/stable/auto_examples/neighbors/plot_classification.html'''import numpy as npimportmatplotlib.pyplot as pltfrom matplo
4、tlib.colors importListedColormapfrom sklearn import neighbors,datasetsn_neighbors = 7# import some data to play withiris= datasets.load_iris()# we only take the first two features. We could avoid this ugly# slicing by using a two-dim datasetX = iris.data:, :2y = iris.targeth = 0.2 # step size in the
5、 mesh# Create color mapscmap_light = ListedColormap('#fffaaa', '#aaffaa', '#ccaaff')cmap_bold =ListedColormap('#00ffcc','#ff00cc','#0099ff')# we createan instance of Neighbours Classifier and fit the data.clf =neighbors.KNeighborsClassifier(n_neighbors
6、,weights='distance')clf.fit(X, y)# Plot the decision boundary.For that, we will assign a color to each# point in the meshx_min, x_maxxy_min, y_max.x_min, x_max = X:, 0.min()- 1, X:, 0.max() + 1y_min, y_max = X:, 1.min() - 1, X:,1.max() + 1xx, yy = np.meshgrid(np.arange(x_min, x_max,h), np.ar
7、ange(y_min, y_max, h)Z = clf.predict(np.c_xx.ravel(), yy.ravel()# Put the result into a color plotZ = Z.reshape(xx.shape)plt.figure()plt.pcolormesh(xx, yy, Z, cmap=cmap_light)# Plot also the training pointsplt.scatter(X:, 0, X:, 1, c=y, cmap=cmap_bold, edgecolor='k', s=20)plt.xlim(xx.min(), xx.max()plt.ylim(yy.min(), yy.max()plt.title('3-Classclassification (k = %
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘西2025年湖南湘西州保靖縣事業(yè)單位引進急需緊缺人才16人筆試歷年參考題庫附帶答案詳解
- 電子制造行業(yè)的生產安全管理與質量控制案例分析
- 電商平臺營銷數據驅動的實戰(zhàn)技巧
- 電商平臺的視頻廣告與內容營銷的結合實踐
- 拍賣行拍賣業(yè)務市場競爭力提升策略執(zhí)行考核試卷
- 意外傷害保險產品宣傳與品牌建設考核試卷
- 噴槍在汽車內飾座椅靠背涂裝的應用考核試卷
- 放射性礦物選礦的尾礦庫穩(wěn)定性分析考核試卷
- 公共設施管理與文化建設考核試卷
- 體育設備租賃業(yè)務品牌形象塑造考核試卷
- 實驗動物飼養(yǎng)人員崗位競聘演講范文匯報報告范文
- 商業(yè)地產市場競品樓盤市場調研表格
- GB/T 709-2019熱軋鋼板和鋼帶的尺寸、外形、重量及允許偏差
- GB/T 14177-2003林業(yè)機械便攜式割灌機和割草機試驗方法
- FZ/T 54007-2019錦綸6彈力絲
- DB11-T 291-2022日光溫室建造規(guī)范
- 外貿業(yè)務員面試試卷
- 紀檢知識答題測試題及答案
- 人教版八年級人文地理下冊知識點整理(2021版)
- 道教系統諸神仙位寶誥全譜
- 中國經濟轉型導論-政府與市場的關系課件
評論
0/150
提交評論