




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第3章k-最近鄰和k-d樹算法掌握k-最近鄰法的基本原理。熟悉k-最近鄰法的三個關(guān)鍵要素和優(yōu)缺點。熟悉k的取值對k-最近鄰法的影響因素。熟悉k-d樹的構(gòu)建過程。本章學習目標3.1k-最近鄰法3.2k-d樹第3章
k-最近鄰和k-d樹算法3.1k-最近鄰法3.1.1k-最近鄰法的基本思想距離度量,特征空間中樣本點的距離是樣本點間相似程度的反映。算法超參數(shù)
k的取值。決策規(guī)則,例如,對于分類任務(wù),采取少數(shù)服從多數(shù)的“投票法”;對于回歸任務(wù),采用取平均值的規(guī)則。給定一個訓(xùn)練樣本集,對于待預(yù)測類別標簽的新輸入測試實例,可以在特征空間中計算它與所有訓(xùn)練樣本的距離,然后在訓(xùn)練樣本集中找到與該測試實例最鄰近的
k
個訓(xùn)練樣本,統(tǒng)計這
k
個樣本所屬的類別,其中樣本數(shù)最多的那個類就是該測試實例所屬的類別。k-最近鄰(kNN)法涉及到以下三個關(guān)鍵要素:3.1k-最近鄰法3.1.2距離度量閔可夫斯基距離(Minkowskidistance)曼哈頓距離(Manhattandistance)3.1k-最近鄰法3.1.2距離度量歐氏距離(Euclideandistance)切比雪夫距離(Chebyshevdistance)漢明距離(Hammingdistance
)
3.1k-最近鄰法3.1.3k值的選擇3.1k-最近鄰法3.1.3k值的選擇如果選擇較小的k值優(yōu)點:
訓(xùn)練誤差會減小,只有與輸入的測試實例較近或相似的訓(xùn)練樣本才會對預(yù)測結(jié)果起作用。缺點:泛化誤差會增大,預(yù)測結(jié)果會對近鄰的訓(xùn)練樣本非常敏感。如果近鄰的訓(xùn)練樣本恰巧是噪聲,則預(yù)測就會出錯。如果選擇較大的k值優(yōu)點:可以減小泛化誤差。缺點:訓(xùn)練誤差會增大。k值太大會使模型整體變得簡單,容易發(fā)生欠擬合。3.1k-最近鄰法3.1.4k-最近鄰法的優(yōu)缺點優(yōu)點算法簡單,易于理解,既可以用于分類任務(wù)也可以用于回歸任務(wù),且適用于多分類和非線性分類問題。沒有顯式的訓(xùn)練過程,k值是唯一的超參數(shù),在確定k值后,直接進行預(yù)測。由于kNN法并不關(guān)注樣本的類別數(shù)量,因此在處理類別交叉或重疊較多的待分類樣本時,選用kNN法比較合適。缺點當訓(xùn)練樣本集較大、樣本的特征向量維數(shù)較高時計算量大,耗時長,時間復(fù)雜度高;需要大量的內(nèi)存,空間復(fù)雜度高。當存在樣本不平衡問題時,對稀有類別的預(yù)測準確度低。k值的選取沒有一個良好的準則。適用數(shù)據(jù)范圍數(shù)值型和標稱型
3.1k-最近鄰法3.2k-d樹第3章
k-最近鄰和k-d樹算法k-d樹是一種對k維空間中的實例點進行存儲以便對其進行快速檢索的樹形數(shù)據(jù)結(jié)構(gòu)。k-d樹是二叉樹,表示對k維空間的一個劃分(partition)。構(gòu)造k-d樹相當于不斷地用垂直于坐標軸的超平面將k維空間切分,構(gòu)成一系列的k維超矩形區(qū)域。k-d樹的每個結(jié)點對應(yīng)于一個k維超矩形區(qū)域。3.2k-d樹3.2k-d樹3.2.1如何構(gòu)建k-d樹圖3-3二叉搜索樹的一個例子
①3.2.1如何構(gòu)建k-d
樹構(gòu)建k-d樹的過程如下:
①②②3.2.1如何構(gòu)建k-d
樹
①②②③③3.2.1如何構(gòu)建k-d
樹
①②②③③④
3.2.1如何構(gòu)建k-d
樹①③③④②②3.2.1如何構(gòu)建k-d
樹
(1)首先要找到該目標點的葉子節(jié)點,然后以目標點為圓心,目標點到葉子節(jié)點的距離為半徑,建立一個超球體,我們要找尋的最近鄰點一定是在該球體內(nèi)部。搜索(4,4)的最近鄰時。首先從根節(jié)點(6,4)出發(fā),將當前最近鄰設(shè)為(6,4),對該KD樹作深度優(yōu)先遍歷。以(4,4)為圓心,其到(6,4)的距離為半徑畫圓(多維空間為超球面),可以看出(7,2)右側(cè)的區(qū)域與該圓不相交,所以(7,2)的右子樹全部忽略。3.2.2如何在k-d樹中搜索
(2)返回葉子結(jié)點的父節(jié)點,檢查另一個子結(jié)點包含的超矩形體是否和超球體相交,如果相交就到這個子節(jié)點尋找是否有更加近的近鄰,有的話就更新最近鄰。接著走到(6,4)左子樹根節(jié)點(4,5),與原最近鄰對比距離后,更新當前最近鄰為(4,5)。以(4,4)為圓心,其到(4,5)的距離為半徑畫圓,發(fā)現(xiàn)(6,4)右側(cè)的區(qū)域與該圓不相交,忽略該側(cè)所有節(jié)點,這樣(6,4)的整個右子樹被標記為已忽略。3.2.2如何在k-d樹中搜索
(3)如果不相交直接返回父節(jié)點,在另一個子樹繼續(xù)搜索最近鄰。(4)當回溯到根節(jié)點時,算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國電動防爆叉車行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國電熔高鉻剛玉砂行業(yè)投資前景及策略咨詢研究報告
- 婚禮上父母發(fā)言稿
- 女性職場現(xiàn)狀調(diào)查報告
- 2025-2030年中國IT培訓(xùn)行業(yè)運行形勢分析與投資趨勢預(yù)測研究報告
- 周期性癱瘓的臨床護理
- 制定公司客戶滿意策略的工作計劃
- 教學科研活動規(guī)劃計劃
- 腎上腺腦白質(zhì)營養(yǎng)不良的臨床護理
- 競爭分析與應(yīng)對策略計劃
- 廈門市外國語學校海滄附校教育集團2022-2023學年七年級下學期期中地理試題【帶答案】
- 2024年NOC初賽-Scratch(小學高年級組)試題及答案
- 食品安全與日常飲食智慧樹知到期末考試答案章節(jié)答案2024年中國農(nóng)業(yè)大學
- 化學品MRSL培訓(xùn)教材
- 循證護理個案
- T-CRHA 028-2023 成人住院患者靜脈血栓栓塞癥風險評估技術(shù)
- 冬季車輛安全駕駛培訓(xùn)課件
- 健康指南腰椎管狹窄如何診斷腰椎管狹窄
- 沐足樓面服務(wù)員禮貌禮節(jié)培訓(xùn)
- 遠動設(shè)備故障處理措施
- 藥浴嬰幼兒計劃書
評論
0/150
提交評論