《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸

上傳人：q*** IP屬地：山東上傳時(shí)間：2023-11-30 格式：PPTX 頁數(shù)：161 大?。?4.63MB 積分：25 舉報(bào) 版權(quán)申訴

《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸_第2頁

《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸_第3頁

《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸_第4頁

《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸_第5頁

已閱讀5頁，還剩156頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

單元4k-NN算法機(jī)器學(xué)習(xí)電氣與信息工程系CONTENTS

目錄010203任務(wù)4.1Seeds數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)4.2訓(xùn)練k-NN模型任務(wù)4.3模型評(píng)估引例描述

（a）（b）（a：該怎么判斷這粒種子是哪種小麥種子呢？b：很簡(jiǎn)單，看這粒種子和以上三種種子中的哪種比較像，就分成哪個(gè)吧?。﹫D4-1情景描述任務(wù)4.1Seeds數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)4.1—任務(wù)情景k-NN算法是一種直觀的、應(yīng)用廣泛的分類方式，在圖像識(shí)別、推薦算法、分類算法中有著廣泛的應(yīng)用。

本任務(wù)旨在使用k-NN算法進(jìn)行小麥種子分類前對(duì)其進(jìn)行簡(jiǎn)單的數(shù)據(jù)集導(dǎo)入和數(shù)據(jù)預(yù)處理，分離出需要使用的訓(xùn)練集與測(cè)試集、標(biāo)簽值與特征值。我們采用的數(shù)據(jù)集來自加利福尼亞大學(xué)（UCI）提供的Seeds數(shù)據(jù)集。

在Seeds數(shù)據(jù)集中，存放了不同品種小麥種子的區(qū)域、周長、壓實(shí)度、籽粒長度、籽粒寬度、不對(duì)稱系數(shù)、籽粒腹溝長度及類別數(shù)據(jù)。在該數(shù)據(jù)集中，總共有210條記錄、7個(gè)特征、1個(gè)標(biāo)簽，標(biāo)簽分為3類。數(shù)據(jù)集如圖所示。數(shù)據(jù)集圖示任務(wù)4.1—任務(wù)情景

在處理Seeds數(shù)據(jù)集時(shí)，首先應(yīng)該分離出訓(xùn)練集和測(cè)試集，訓(xùn)練集包括小麥種子的特征值、標(biāo)簽值，不同條的特征值對(duì)應(yīng)不同的標(biāo)簽Kama、Rosa、Canadian。若用A(a1,

a2,

a3,…)表示測(cè)試集中A種子的特征值，用B(b1,

b2,

b3,…)表示測(cè)試集中B種子的特征值，以此類推。在本單元中，要判斷新的種子數(shù)據(jù)以X(x1,

x2,

x3,…)為例為哪種類別的種子，就要先計(jì)算出新數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的歐氏距離DXA,

DXB,…，再從中選取k條距離最近的訓(xùn)練數(shù)據(jù)，通過多數(shù)投票制選擇k條訓(xùn)練數(shù)據(jù)中出現(xiàn)次數(shù)最多的標(biāo)簽，該標(biāo)簽則為最終的預(yù)測(cè)類別，小麥種子預(yù)測(cè)流程圖如圖所示。小麥種子預(yù)測(cè)流程圖任務(wù)4.1—任務(wù)布置

在Python中，實(shí)現(xiàn)數(shù)據(jù)集導(dǎo)入和數(shù)據(jù)預(yù)處理，提取特征值和標(biāo)簽值，隨機(jī)選取測(cè)試集與訓(xùn)練集。導(dǎo)入的Seeds數(shù)據(jù)集的部分?jǐn)?shù)值如圖所示。導(dǎo)入的Seeds數(shù)據(jù)集的部分?jǐn)?shù)值任務(wù)4.1—任務(wù)情景導(dǎo)入的Seeds數(shù)據(jù)集的部分?jǐn)?shù)據(jù)信息如圖所示。（a）導(dǎo)入的Seeds數(shù)據(jù)集的部分特征值（b）Seeds數(shù)據(jù)集部分標(biāo)簽值導(dǎo)入的Seeds數(shù)據(jù)集的部分?jǐn)?shù)據(jù)信息任務(wù)4.1—知識(shí)準(zhǔn)備1．用read_csv()函數(shù)讀取文件csv是目前十分常用的數(shù)據(jù)保存格式，pandas庫為數(shù)據(jù)處理過程中數(shù)據(jù)的讀取提供了強(qiáng)有力的支持。pandas讀取csv文件是通過read_csv()函數(shù)進(jìn)行的。讀取本地文件夾內(nèi)的students.csv文件。importpandasaspdstu=pd.read_csv(“./student.csv”)該函數(shù)不僅可以讀取本地文件，也可以讀取統(tǒng)一資源定位器（URL）指向的文件。讀取URL上的文件importpandasaspdstu=pd.read_csv(“http://localhost/student.csv”)任務(wù)4.1—知識(shí)準(zhǔn)備2．?dāng)?shù)據(jù)切分sklearn庫包含將數(shù)據(jù)集劃分成訓(xùn)練集與測(cè)試集的函數(shù)train_test_split()，其中，test_size參數(shù)為分?jǐn)?shù)時(shí)表示測(cè)試集樣本的占比，test_size參數(shù)為整數(shù)時(shí)表示測(cè)試樣本選取的數(shù)量。選取數(shù)據(jù)集的十分之一作為測(cè)試集X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=0.1)任務(wù)4.1—任務(wù)實(shí)施

Step1：引入相關(guān)模塊，NumPy模塊是Python中用于提供大量高級(jí)的數(shù)值編程工具的模塊，pandas庫可以對(duì)各種類型的文件進(jìn)行處理。Step2：用read_csv()函數(shù)導(dǎo)入數(shù)據(jù)集，并使用loc函數(shù)取數(shù)據(jù)集前7列作為特征值，取數(shù)據(jù)集第8列作為標(biāo)簽值。Step3：進(jìn)行數(shù)據(jù)切分，分出訓(xùn)練集與測(cè)試集。將測(cè)試集的數(shù)量設(shè)置為數(shù)據(jù)集的10%。（a）測(cè)試集特征值（b）測(cè)試集標(biāo)簽值劃分出的測(cè)試集數(shù)據(jù)任務(wù)4.2訓(xùn)練k-NN模型任務(wù)4.2—任務(wù)情景任務(wù)4.2—任務(wù)情景k-NN是一種直觀的、應(yīng)用廣泛的分類方式，其在圖像識(shí)別、推薦算法、分類算法中有著廣泛的應(yīng)用。本任務(wù)旨在使讀者了解k-NN的算法原理，模型的搭建，并使讀者學(xué)會(huì)使用Python搭建k-NN模型，訓(xùn)練集為Seeds數(shù)據(jù)集，調(diào)整參數(shù)得到較好的效果。Seeds數(shù)據(jù)集圖示如圖所示。Seeds數(shù)據(jù)集圖示任務(wù)4.2—任務(wù)布置要求通過訓(xùn)練出的k-NN模型預(yù)測(cè)測(cè)試集，并理解距離度量的變化、k值的變化對(duì)結(jié)果造成的影響。不同距離度量及k值的結(jié)果展示如圖所示。不同距離度量及k值的結(jié)果展示在本案例中，距離度量選擇曼哈頓距離與歐氏距離的結(jié)果相同，同學(xué)們可以選擇其他案例進(jìn)行測(cè)試。任務(wù)4.2—知識(shí)準(zhǔn)備—1.k-NN算法k-NN算法最初由Cover和Hart于1968年提出，是一種直觀的分類或回歸算法。給定一個(gè)擁有標(biāo)簽值和特征值的訓(xùn)練集例，如新聞信息訓(xùn)練集。對(duì)于一條新輸入的新聞實(shí)例，用k-NN算法計(jì)算與該新聞實(shí)例最鄰近（相似）的k個(gè)訓(xùn)練新聞實(shí)例，假如，這個(gè)新聞實(shí)例多數(shù)屬于時(shí)政新聞，就把新的實(shí)例分類給時(shí)政新聞；假如k個(gè)新聞實(shí)例多數(shù)屬于娛樂新聞，就把新的實(shí)例分類給娛樂新聞。任務(wù)4.2—知識(shí)準(zhǔn)備—1.k-NN算法假設(shè)訓(xùn)練集為式中，n為訓(xùn)練集樣本的個(gè)數(shù)；為數(shù)據(jù)集中實(shí)例i的特征向量；表示為數(shù)據(jù)集中實(shí)例i的標(biāo)簽值；若輸入一個(gè)新的實(shí)例x，根據(jù)給定的距離度量方法，在訓(xùn)練集S中找出由距離x最近的k個(gè)點(diǎn)組成的集合表示為類別的總數(shù)為q。根據(jù)k-NN算法分類規(guī)則，實(shí)例x所屬的分類y可以由集合

的出現(xiàn)概率最大的標(biāo)簽獲得。

任務(wù)4.2—知識(shí)準(zhǔn)備—1.k-NN算法k-NN模型圖示如圖所示，方形和三角形表示兩個(gè)類別的訓(xùn)練數(shù)據(jù)，圓形表示待預(yù)測(cè)的新實(shí)例。當(dāng)k=3時(shí)，可以發(fā)現(xiàn)，在距離圓形較近的三個(gè)點(diǎn)中，三角形有兩個(gè)，方形有一個(gè)，三角形居多，因此會(huì)將新實(shí)例分類給三角形這一類別；當(dāng)k=4時(shí)，可以發(fā)現(xiàn)，在距離圓形較近的五個(gè)點(diǎn)中，三角形有兩個(gè)，方形有三個(gè)，方形居多，因此會(huì)將實(shí)例分類給方形這一類別。

k-NN模型圖示k-NN算法中的一個(gè)特殊情況為

的情況，表示選擇距離新實(shí)例最近的一個(gè)實(shí)例的標(biāo)簽作為新實(shí)例的標(biāo)簽。此時(shí)，這種算法被稱為最近鄰算法。任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型前面說過，k-NN模型的建立具有三個(gè)要素：①如何計(jì)算兩個(gè)節(jié)點(diǎn)之間的距離，也就是距離度量的選擇。②k值的選擇。③分類決策的規(guī)則。1）距離度量的選擇k-NN模型的建立需要考慮距離度量的選擇，在選擇距離實(shí)例較近的k個(gè)點(diǎn)時(shí)，在特征空間中，可以采取多種距離度量方法，一般采用的是p=2時(shí)的閔可夫斯基距離，也就是歐氏距離。實(shí)例特征向量和的歐氏距離的定義式為式中，，表示是n維向量。任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型

距離度量不僅可以選擇歐氏距離，也可以選擇曼哈頓距離、馬氏距離、流形距離等。其中最常用的是歐氏距離與曼哈頓距離。歐氏距離就是空間中兩個(gè)節(jié)點(diǎn)之間的最短距離，曼哈頓距離是兩個(gè)節(jié)點(diǎn)之間每個(gè)維度的距離之和。距離度量如圖所示，兩個(gè)節(jié)點(diǎn)之間的綠色線條表示的是直線距離，也就是歐氏距離，而紅色、藍(lán)色、黃色線條表示的是曼哈頓距離。距離度量圖示不同距離度量方法選擇的最近鄰點(diǎn)也是不同的。在本單元中，我們默認(rèn)選擇歐氏距離度量方法。任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型課堂隨練4-4選擇曼哈頓距離度量方法訓(xùn)練k-NN模型。knn=KNeighborsClassifier(n_neighbors,weights,algorithm,p=1,metric='minkowski')metrix=‘minkowski’

表示選擇閔可夫斯基距離度量，p(整數(shù))是Minkowski距離的冪參數(shù)。p=1表示選擇曼哈頓距離度量，p=2表示選擇歐氏距離度量。任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型2）k值的選擇k-NN模型的建立需要考慮k值的選擇，會(huì)對(duì)k-NN算法的結(jié)果產(chǎn)生較大的影響。k值越小，選擇的近鄰集合元素就越少，如果近鄰集合中剛好出現(xiàn)了噪聲點(diǎn)，那么預(yù)測(cè)結(jié)果就很容易出錯(cuò)，因此容易出現(xiàn)過擬合現(xiàn)象。如圖所示為k=1時(shí)模型的選擇，如果k值過?。?），盡管新實(shí)例四周方形居多，但最近一個(gè)節(jié)點(diǎn)為圓形，因此很容易被噪聲節(jié)點(diǎn)影響而被分給錯(cuò)誤的類別。k=1時(shí)模型的選擇任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型k值越大，選擇的近鄰集合元素就越多，這時(shí)對(duì)新實(shí)例影響較小的訓(xùn)練實(shí)例也會(huì)被考慮在內(nèi)，如圖所示。很明顯，新實(shí)例應(yīng)分給方形的類別，但當(dāng)k值選擇得特別大時(shí)，新實(shí)例的分類會(huì)被大量的不相關(guān)屬性支配，最后新實(shí)例就會(huì)被錯(cuò)誤地分類給圓形的類別。k值選取過大時(shí)模型的分類情況任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型因此，k值的選擇過程也是準(zhǔn)確率和過擬合程度均衡的過程。在實(shí)際案例中，k值一般選擇較小的數(shù)值。如果想要取得最佳k值，一般采用CV法，從k=1開始，觀察分類準(zhǔn)確率，重復(fù)這個(gè)過程，每次k值增加1，允許增加一個(gè)近鄰，將準(zhǔn)確率最高的k值作為最佳k值，k值的選擇如圖所示，當(dāng)k=1時(shí)，新實(shí)例被分類給方形的類別；當(dāng)k=2時(shí)，新實(shí)例被分類給三角形的類別；當(dāng)k=3時(shí)，新實(shí)例被分類給方形的類別，依次增加計(jì)算。在一般數(shù)據(jù)集中，k的取值不超過20，但若數(shù)據(jù)集增大，則k的取值也應(yīng)該增大。k值的選擇任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型3）分類決策的規(guī)則在k-NN算法中，分類決策一般采用多數(shù)投票制，即在與新實(shí)例相近的k個(gè)實(shí)例中，哪個(gè)類別的實(shí)例較多，就把新實(shí)例分類給哪類。隨著k-NN算法的發(fā)展，衍生出針對(duì)傳統(tǒng)k-NN算法的許多改進(jìn)算法，如距離加權(quán)最近鄰算法，對(duì)k個(gè)近鄰的貢獻(xiàn)加權(quán)，根據(jù)它們相對(duì)新實(shí)例的距離，將較大的權(quán)重賦給較近的近鄰。本單元基于傳統(tǒng)的k-NN算法來建模。任務(wù)4.2—知識(shí)準(zhǔn)備—2.k-NN模型k-NN模型是一種消極（惰性）模型，那么什么是消極模型呢？首先，利用算法通過建立模型然后將測(cè)試數(shù)據(jù)應(yīng)用于模型的方法就是積極的學(xué)習(xí)方式，積極的模型在訓(xùn)練模型的過程中已經(jīng)考慮到了所有訓(xùn)練樣本的數(shù)據(jù)，在決策時(shí)基本不需要時(shí)間。而消極的模型推遲對(duì)訓(xùn)練數(shù)據(jù)的建模，雖然訓(xùn)練時(shí)間短，但是在最后預(yù)測(cè)分類時(shí)，仍需要考慮訓(xùn)練樣本的情況，例如k-NN需要在分類時(shí)依次計(jì)算測(cè)試樣本與訓(xùn)練樣本的距離，這種延遲的建模技術(shù)叫作消極的學(xué)習(xí)方法。之所以稱k-NN為消極模型，并不是因?yàn)閗-NN模型簡(jiǎn)單，而是因?yàn)槠渲粚?duì)訓(xùn)練數(shù)據(jù)進(jìn)行保存和“記憶”，沒有從訓(xùn)練樣本中學(xué)到真正的模型，除非測(cè)試樣本“來了”，才會(huì)開始學(xué)習(xí)。任務(wù)4.2—知識(shí)準(zhǔn)備—3.k-NN算法的優(yōu)缺點(diǎn)分析1）k-NN算法的優(yōu)點(diǎn)（1）k-NN算法簡(jiǎn)單直觀，易于理解，對(duì)數(shù)學(xué)基礎(chǔ)要求較低。（2）預(yù)測(cè)精度高，對(duì)異常值不敏感。（3）k值的選擇流程表明：k-NN算法適用于多樣本分類。（4）k-NN模型為惰性模型，因此模型訓(xùn)練階段用時(shí)較短。2）k-NN算法的缺點(diǎn)（1）內(nèi)存占用較多，需要在內(nèi)存中存儲(chǔ)所有訓(xùn)練數(shù)據(jù)。（2）因?yàn)樾枰陬A(yù)測(cè)階段依次計(jì)算測(cè)試樣本與訓(xùn)練樣本的距離，所以預(yù)測(cè)階段用時(shí)較長。（3）k值的選擇對(duì)結(jié)果影響較大，且k值不好選擇。任務(wù)4.2—任務(wù)實(shí)施Step1：引入相關(guān)模塊。Step2：使用sklearn庫自帶的KNeighborsClassifier()函數(shù)創(chuàng)建k-NN模型，參數(shù)選擇模型默認(rèn)參數(shù)（也可傳入空參數(shù)），即k值選擇5，選擇的距離度量為歐氏距離。Step3：根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練模型。任務(wù)4.3模型評(píng)估任務(wù)4.3—任務(wù)布置

模型評(píng)估是模型訓(xùn)練中必不可少的一部分，要評(píng)估k-NN模型的優(yōu)劣，不僅需要對(duì)已知數(shù)據(jù)進(jìn)行預(yù)測(cè)，還需要對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。在本任務(wù)中，我們通過Python中的工具對(duì)模型進(jìn)行評(píng)估，并尋找合適的方法對(duì)評(píng)估結(jié)果進(jìn)行可視化，以便更好地觀察模型表現(xiàn)。預(yù)測(cè)集的準(zhǔn)確率如圖所示圖測(cè)試集的準(zhǔn)確率任務(wù)4.3—任務(wù)布置

通過一個(gè)交叉表觀察k-NN模型對(duì)小麥種子的預(yù)測(cè)情況。預(yù)測(cè)出的測(cè)試樣本的熱圖展示如圖所示。預(yù)測(cè)出的測(cè)試樣本的熱圖展示預(yù)測(cè)出的測(cè)試樣本的交叉表任務(wù)4.3—知識(shí)準(zhǔn)備1．測(cè)試集預(yù)測(cè)利用sklearn庫中的predict()函數(shù)對(duì)測(cè)試集進(jìn)行預(yù)測(cè)假設(shè)測(cè)試集的特征值為X={x1,x2,…,xn}，模型為k-NN（已訓(xùn)練）。Y

=knn.predict(X)#predeic函數(shù)中的參數(shù)是待預(yù)測(cè)特征值，Y表示預(yù)測(cè)標(biāo)簽值由knn.score()函數(shù)可以直接得到k-NN模型的預(yù)測(cè)準(zhǔn)確率。它的兩個(gè)參數(shù)為待預(yù)測(cè)特征值與已知待預(yù)測(cè)值的標(biāo)簽值。假設(shè)測(cè)試集的特征值為X={x1,x2,…,xn}，測(cè)試集的標(biāo)簽值為Y={y1,y2,…,yn}模型為k-NN（已訓(xùn)練）。求模型對(duì)測(cè)試集預(yù)測(cè)的準(zhǔn)確率。acc=knn.score(X,Y)print("測(cè)試集的準(zhǔn)確率為",acc)任務(wù)4.3—知識(shí)準(zhǔn)備2．交叉表展示pandas庫中的crosstab()函數(shù)具有強(qiáng)大的展示功能，crosstab()函數(shù)中的參數(shù)index和columns分別表示取其交叉表的兩個(gè)變量，rownames參數(shù)與colnames參數(shù)可以分別設(shè)置為行與列的名稱。通過交叉表可以看到同時(shí)屬于兩種變量的樣本的個(gè)數(shù)。課堂隨練—practice-1針對(duì)如圖所示的學(xué)生信息文件students.csv，畫出成績(jī)與專業(yè)交叉表。學(xué)生信息文件students.csv任務(wù)4.3—知識(shí)準(zhǔn)備importnumpyasnpimportpandasaspddata=np.array(pd.read_csv('./students.csv'))score=data[:,2]major=data[:,3]#畫交叉表cross_table=pd.crosstab(index=score,columns=major,rownames=['Predicted'],colnames=['True'],margins=True)print(cross_table)交叉表案例任務(wù)4.3—知識(shí)準(zhǔn)備crosstab()函數(shù)還可以與.heatmap()函數(shù)搭配使用，畫出更美觀的熱圖。課堂隨練—practice-2畫出如圖交叉表的熱圖importmatplotlib.pyplotaspltimportseabornassnsa=pd.crosstab(index=score,columns=major,rownames=['Predicted'],colnames=['True'],margins=True)sns.heatmap(a,cmap='rocket_r',annot=True,fmt='g');熱圖案例任務(wù)4.3—任務(wù)實(shí)施Step1：采用訓(xùn)練集訓(xùn)練好的模型預(yù)測(cè)測(cè)試集，得到預(yù)測(cè)標(biāo)簽后，使用score()函數(shù)得到預(yù)測(cè)標(biāo)簽與標(biāo)簽對(duì)比的準(zhǔn)確率。Step2：畫出21個(gè)測(cè)試集的預(yù)測(cè)標(biāo)簽與標(biāo)簽的交叉表。采用crosstabl()函數(shù)，使得參數(shù)為標(biāo)簽與預(yù)測(cè)標(biāo)簽，設(shè)置表格的表頭內(nèi)容為“Ture”與“Predicted”，得到交叉表。Step3：畫出熱圖預(yù)測(cè)出的測(cè)試樣本的交叉表預(yù)測(cè)出的測(cè)試樣本的熱圖展示任務(wù)拓展

紅葡萄酒質(zhì)量預(yù)測(cè)任務(wù)和葡萄酒數(shù)據(jù)集請(qǐng)從華信教育資源網(wǎng)該書配套資源處下載。

通過本任務(wù)的實(shí)施，同學(xué)們可以搭建k-NN模型，從而實(shí)現(xiàn)對(duì)紅葡萄酒質(zhì)量的預(yù)測(cè)。完成紅葡萄酒數(shù)據(jù)集分類僑務(wù)，根據(jù)sklearn函數(shù)搭建合適的k-NN模型，對(duì)從數(shù)據(jù)集中劃分出的測(cè)試集進(jìn)行預(yù)測(cè)，輸出準(zhǔn)確率。服務(wù)器作業(yè)：10-5任務(wù)

截圖交

重點(diǎn)位置標(biāo)紅p215-218登錄名使用xyz08abc01例如:10.4企業(yè)實(shí)戰(zhàn)與應(yīng)用

終點(diǎn)位置標(biāo)紅p218-222登錄名使用xyz08abc01機(jī)器學(xué)習(xí)作業(yè)：作業(yè)1：歐氏距離a=(1,2,3)b=(4,5,6)結(jié)果是：5.196152422706632要求不使用distance.euclidean(a,b)函數(shù)作業(yè)2：畫出student.csv熱圖

交截圖

圖片tittle為

名字縮寫加學(xué)號(hào)xa08行列標(biāo)簽是SCORE和MAJOR作業(yè)3：完成紅葡萄酒的數(shù)據(jù)集分類任務(wù)單元5聚類機(jī)器學(xué)習(xí)電氣與信息工程系CONTENTS

目錄010203任務(wù)5.1鳶尾花數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)5.2訓(xùn)練k-Means模型任務(wù)5.3模型評(píng)估引例描述

假設(shè)花海公園進(jìn)了一批鳶尾花并需要移植，不同種類的鳶尾花混在一起，由于活動(dòng)需求，需要將不同種類的鳶尾花分開進(jìn)行種植，工人往往憑經(jīng)驗(yàn)和學(xué)識(shí)判斷鳶尾花是什么品種。如果使用計(jì)算機(jī)來完成鳶尾花的品種分類，該如何實(shí)現(xiàn)呢？可以先對(duì)花瓣的長度、花瓣的寬度、花萼的長度和花萼的寬度進(jìn)行測(cè)量，然后根據(jù)機(jī)器學(xué)習(xí)的算法對(duì)采集到的測(cè)量數(shù)據(jù)進(jìn)行聚類分析，即可對(duì)這些花進(jìn)行歸類。在本單元中，通過一種常用的聚類算法——k-Means來給大家介紹大量鳶尾花的分類過程。任務(wù)5.1鳶尾花數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)情景k-Means算法是一種無監(jiān)督的聚類算法，由于其實(shí)用、簡(jiǎn)單和高效的特性而廣受青睞。它被廣泛應(yīng)用于植物分類、圖像分割、客戶分類等場(chǎng)景。鳶尾花數(shù)據(jù)集包含鳶尾花的3個(gè)亞屬，分別是山鳶尾（IrisSetosa）、變色鳶尾（IrisVersicolour）和維吉尼亞鳶尾（IrisVirginica），存放了這3個(gè)品種鳶尾花的花萼長度、花萼寬度、花瓣長度、花瓣寬度及類別數(shù)據(jù)。該數(shù)據(jù)集總共150條記錄，每條記錄由4個(gè)特征和1個(gè)標(biāo)簽構(gòu)成，其中，標(biāo)簽按照3個(gè)品種分為3類。鳶尾花的3個(gè)亞屬如圖5-1所示。圖5-1鳶尾花的3個(gè)亞屬

任務(wù)情景由于聚類是一種無監(jiān)督的學(xué)習(xí)方法，因此模型構(gòu)建所需的訓(xùn)練集無須帶有類標(biāo)簽。但是模型的構(gòu)建需要依賴于訓(xùn)練數(shù)據(jù)兩兩之間的距離，即數(shù)據(jù)之間的距離。在構(gòu)建距離之前需要了解訓(xùn)練數(shù)據(jù)的分布情況。任務(wù)布置

在Python中，實(shí)現(xiàn)數(shù)據(jù)集導(dǎo)入和數(shù)據(jù)預(yù)處理，提取特征值和標(biāo)簽值，并對(duì)數(shù)據(jù)進(jìn)行可視化。導(dǎo)入的鳶尾花數(shù)據(jù)集的部分?jǐn)?shù)值如圖5-2所示。圖5-2導(dǎo)入的鳶尾花數(shù)據(jù)集的部分?jǐn)?shù)值任務(wù)布置導(dǎo)入的鳶尾花數(shù)據(jù)集的部分?jǐn)?shù)據(jù)信息如圖5-3所示。（a）導(dǎo)入的鳶尾花數(shù)據(jù)集的部分特征值（b）導(dǎo)入的鳶尾花數(shù)據(jù)集的部分標(biāo)簽值圖5-3導(dǎo)入的鳶尾花數(shù)據(jù)集的部分?jǐn)?shù)據(jù)信息任務(wù)布置鳶尾花數(shù)據(jù)集二維散點(diǎn)圖如圖5-4所示。（a）（b）（c）（d）（e）（f）圖5-4鳶尾花數(shù)據(jù)集二維散點(diǎn)圖知識(shí)準(zhǔn)備—1.數(shù)據(jù)讀取在Python中，讀取數(shù)據(jù)的方式有很多種。在單元4中通過pandas庫中的read_csv()函數(shù)對(duì)下載好的.csv格式的數(shù)據(jù)進(jìn)行讀取。通過sklearn庫提供的函數(shù)實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)生成和自帶數(shù)據(jù)集的導(dǎo)入，本單元的案例主要通過sklearn庫提供的函數(shù)實(shí)現(xiàn)自帶數(shù)據(jù)集的導(dǎo)入。sklearn庫中的datasets模塊提供了用于加載和讀取流行的參考數(shù)據(jù)集的方法，還提供了人工數(shù)據(jù)生成器，該生成器用于得到計(jì)算機(jī)生成的數(shù)據(jù)集。datasets模塊提供了幾種數(shù)據(jù)集讀取方式，如表5-1所示。表5-1datasets模塊提供的數(shù)據(jù)集讀取方式知識(shí)準(zhǔn)備—1.數(shù)據(jù)讀取

本單元的案例將直接通過sklearn.datasets.load_<name>()函數(shù)來讀取Sklearn庫自帶的部分?jǐn)?shù)據(jù)集，如表5-2所示。表5-2sklearn庫自帶的部分?jǐn)?shù)據(jù)集的讀取方式知識(shí)準(zhǔn)備—1.數(shù)據(jù)讀取通過sklearn.datasets.load_<name>()函數(shù)讀取的數(shù)據(jù)集是一個(gè)字典的數(shù)據(jù)結(jié)構(gòu)，下面以load_iris()函數(shù)的返回結(jié)果為例，它的屬性及其描述如表5-3所示。表5-3load_iris()函數(shù)返回結(jié)果的屬性及其描述知識(shí)準(zhǔn)備—1.數(shù)據(jù)讀取課堂隨練5-1使用sklearn庫的make_classification()函數(shù)實(shí)現(xiàn)分類數(shù)據(jù)的自動(dòng)生成，即可生成特征數(shù)據(jù)和類標(biāo)簽。使用sklearn庫中的load_digits()函數(shù)直接導(dǎo)入手寫數(shù)字?jǐn)?shù)據(jù)集。知識(shí)準(zhǔn)備—2.數(shù)據(jù)可視化matplotlib.pyplot是一個(gè)命令風(fēng)格函數(shù)的集合，使matplotlib庫的機(jī)制更像MATLAB。它提供了plot()、xlabel()、ylabel()、scatter()及show()等函數(shù)，可以實(shí)現(xiàn)數(shù)據(jù)的圖表展示。課堂隨練5-3為隨機(jī)生成的5個(gè)數(shù)據(jù)生成折線圖。知識(shí)準(zhǔn)備—2.數(shù)據(jù)可視化課堂隨練5-4隨機(jī)生成100個(gè)二維數(shù)據(jù)和100個(gè)類別，并通過圖表展示。任務(wù)實(shí)施Step1：引入相關(guān)模塊，sklearn庫中的datasets模塊提供了用于加載和讀取流行的參考數(shù)據(jù)集的方法，matplotlib庫提供了構(gòu)建圖表的函數(shù)，itertools庫提供了讀取排列組合數(shù)據(jù)的函數(shù)。Step2：使用datasets.load_iris()函數(shù)導(dǎo)入數(shù)據(jù)集。Step3：將鳶尾花數(shù)據(jù)集顯示在二維散點(diǎn)圖上。任務(wù)5.2訓(xùn)練k-Means模型任務(wù)布置要求訓(xùn)練出對(duì)鳶尾花聚類最佳的k-Means模型，k值在2～11范圍內(nèi)變化，找出聚類評(píng)估最佳的k-Means模型。需要分析k值的變化圖，找到最佳的k值，圖5-6所示為不同k值下的SSE值展示。圖5-6不同k值下的SSE值展示在本任務(wù)中，當(dāng)k值為3時(shí)，得到最優(yōu)化聚類模型，學(xué)生可以選擇其他案例進(jìn)行測(cè)試。知識(shí)準(zhǔn)備—1.聚類分析聚類分析既可以作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)的分布情況，從而觀察每個(gè)類的特點(diǎn)，也可以作為其他算法的數(shù)據(jù)預(yù)處理的方法，從而完成數(shù)據(jù)的預(yù)處理。

聚類分析是機(jī)器學(xué)習(xí)中的一種方法，屬于無監(jiān)督學(xué)習(xí)，其在很多領(lǐng)域都有相當(dāng)成功的應(yīng)用。在當(dāng)前大數(shù)據(jù)時(shí)代，面對(duì)海量的數(shù)據(jù)，聚類分析的數(shù)據(jù)挖掘和數(shù)據(jù)分析、處理功能更會(huì)發(fā)揮重要的作用。

聚類依據(jù)某種特定的規(guī)則，將一個(gè)數(shù)據(jù)集劃分成若干不同的子數(shù)據(jù)集，使得每個(gè)子數(shù)據(jù)集內(nèi)數(shù)據(jù)點(diǎn)的相似度盡可能大一些，同時(shí)，不同子數(shù)據(jù)集的數(shù)據(jù)點(diǎn)的差異度也盡可能大一些。知識(shí)準(zhǔn)備—1.聚類分析1）聚類的定義

聚類問題可以抽象成數(shù)學(xué)中的集合劃分問題，給定一個(gè)樣本集

，將其分成m個(gè)子集C1,C2,…,Cm，這些子集又稱為簇。聚類的嚴(yán)格數(shù)學(xué)定義需滿足下面3個(gè)條件：（1），。（2）（3）。

由以上3個(gè)條件可知，樣本集的對(duì)象必定屬于某一個(gè)類，且每個(gè)樣本最多屬于一個(gè)類。知識(shí)準(zhǔn)備—1.聚類分析對(duì)一個(gè)數(shù)據(jù)集聚類的整個(gè)過程可以由以下4個(gè)階段構(gòu)成：（1）數(shù)據(jù)初始準(zhǔn)備：對(duì)數(shù)據(jù)進(jìn)行特征的標(biāo)準(zhǔn)化和降維。（2）數(shù)據(jù)的特征選擇和提?。涸诔跏继卣髦刑暨x最有效的特征，并將這些特征轉(zhuǎn)換成新的突出特征。（3）數(shù)據(jù)聚類：選擇合適特征類型的相似性度量準(zhǔn)則，對(duì)數(shù)據(jù)對(duì)象間的相似度進(jìn)行度量，執(zhí)行聚類或分組。（4）聚類結(jié)果評(píng)估：對(duì)聚類結(jié)果進(jìn)行有效性評(píng)估，涉及的準(zhǔn)則包括內(nèi)部準(zhǔn)則、外部準(zhǔn)則、相關(guān)準(zhǔn)則。知識(shí)準(zhǔn)備—1.聚類分析2）聚類算法的分類聚類算法大體上可以分為幾種：基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。要獲得優(yōu)質(zhì)的聚類效果，則需要根據(jù)數(shù)據(jù)類型、聚類目的和應(yīng)用場(chǎng)景，在眾多的聚類算法中選擇合適的聚類算法進(jìn)行分析。圖5-7所示為聚類算法的分類。圖5-7聚類算法的分類知識(shí)準(zhǔn)備—1.聚類分析（1）基于劃分的方法。首先，給定一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集X及需要?jiǎng)澐值姆謪^(qū)數(shù)k，基于劃分的方法將數(shù)據(jù)集X劃分成k個(gè)分區(qū)，其中，每個(gè)分區(qū)表示一個(gè)簇?；趧澐值姆椒ú捎媚繕?biāo)最小化的規(guī)則，將數(shù)據(jù)對(duì)象組織為k（k≤n）個(gè)集合，這樣組織形成的每個(gè)集合都代表一個(gè)類。這些類必須滿足以下要求：①

每個(gè)數(shù)據(jù)對(duì)象必須屬于且只能屬于某一個(gè)類。②每個(gè)類不能為空（至少包含一個(gè)對(duì)象）。然后，采用一種迭代的重定位技術(shù)，嘗試通過對(duì)象在集合間的移動(dòng)來改進(jìn)劃分結(jié)果?；趧澐值姆椒ㄓ衚-Means（k均值集合），k-Medoids（k中心點(diǎn)），CLARA（大型數(shù)據(jù)集聚類），CLARANS（隨機(jī)搜索聚類）等算法。知識(shí)準(zhǔn)備—1.聚類分析（2）基于層次的方法。層次聚類算法又叫作樹聚類算法。該算法是將數(shù)據(jù)集按照樹的層次架構(gòu)來分裂或者聚合。根據(jù)層次分解的方式是自底向上還是自頂向下，可以將層次聚類算法分成凝聚法和分裂法。層次聚類的凝聚法和分裂法在1個(gè)包含5個(gè)對(duì)象的數(shù)據(jù)集{a,b,c,d,e}中的處理過程如圖5-8所示。圖5-8凝聚和分裂層次聚類知識(shí)準(zhǔn)備—1.聚類分析凝聚法（AGNES）也稱自底向上的方法，它首先將每個(gè)對(duì)象都設(shè)定為一個(gè)單獨(dú)的類，再合并相近（相似度最高）的對(duì)象或類，然后合并這些類為更大的類，逐層地向上聚合，最后當(dāng)所有的對(duì)象都在同一個(gè)類中或者滿足某個(gè)終止條件時(shí)，算法結(jié)束。分裂法（DIANA）也稱自頂向下的方法，它將所有對(duì)象所在的集合當(dāng)作一個(gè)類，每次迭代，將大的類分裂為更小的類，逐層地向下分裂，直到每個(gè)對(duì)象在一個(gè)簇中或者滿足某個(gè)終止條件時(shí)，算法結(jié)束。知識(shí)準(zhǔn)備—1.聚類分析在層次聚類算法中，絕大多數(shù)的方法都是凝聚法。對(duì)凝聚法的具體描述如下：首先，將每個(gè)對(duì)象當(dāng)作一個(gè)類；其次，合并所有類中距離最近（相似度最高）的兩個(gè)類；再次，重新計(jì)算新產(chǎn)生的類與其他類之間的距離，重復(fù)合并距離最近的兩個(gè)類；直到所有對(duì)象都在同一個(gè)類中或者滿足終止條件時(shí)，算法結(jié)束。根據(jù)類與類之間的距離度量方式的不同，可以將層次聚類算法分為三種典型的算法：?jiǎn)捂溄樱⊿ingleLink）、全鏈接（CompleteLink）和平均鏈接（AverageLink）。具有代表性的層次聚類算法還有CURE、ROCK、BIRCH、Chameleon等。知識(shí)準(zhǔn)備—1.聚類分析單鏈接：兩個(gè)簇之間的距離為兩個(gè)簇中所有對(duì)象之間的最短距離。圖5-9描述了單鏈接的簇A與簇B之間的距離度量方式，距離公式為,式中，；n為A的對(duì)象數(shù)目；m為B的對(duì)象數(shù)目；dist(a,b)表示樣本a與樣本b之間的相似度。圖5-9單鏈接算法知識(shí)準(zhǔn)備—1.聚類分析全鏈接：兩個(gè)簇之間的距離為兩個(gè)簇中所有對(duì)象之間的最長距離。圖5-10描述了全鏈接的簇A與簇B之間的距離度量方式，距離公式為,，式中，，n為A的對(duì)象數(shù)目；m為B的對(duì)象數(shù)目；dist(a,b)表示樣本a與樣本b之間的相似度。圖5-10全鏈接算法知識(shí)準(zhǔn)備—1.聚類分析平均鏈接：兩個(gè)簇之間的距離為兩個(gè)簇中所有對(duì)象之間距離的均值。圖5-11描述了平均鏈接的簇A與簇B之間的距離度量方式，距離公式為式中，；n為A的對(duì)象數(shù)目；m為B的對(duì)象數(shù)目；dist(a,b)表示樣本a與樣本b之間的相似度。知識(shí)準(zhǔn)備—1.聚類分析（3）基于密度的方法。絕大部分的聚類算法都是基于對(duì)象之間的距離來聚類的。這樣的算法只能發(fā)現(xiàn)球狀的類，對(duì)于其他形狀的類就無能為力?；谶@一缺陷，提出了基于密度的方法。它的基本思想如下：只要距離相近的區(qū)域的密度（數(shù)據(jù)對(duì)象的個(gè)數(shù)）超過某個(gè)閾值，就繼續(xù)聚類。此方法假設(shè)聚類結(jié)構(gòu)能通過樣本分布的緊密程度來確定。通常情形下，基于密度的法從樣本密度的角度來考察樣本之間的可連接性，并基于可連接樣本不斷擴(kuò)展聚類簇，以獲得最終的聚類結(jié)果。基于密度的方法的主要優(yōu)點(diǎn)是可以過濾噪聲孤立點(diǎn)數(shù)據(jù)，發(fā)現(xiàn)任意形狀的簇；缺點(diǎn)是結(jié)果受用戶定義的參數(shù)的影響較大?；诿芏鹊姆椒ǖ牡湫痛碛蠨BSCAN、OPTICS和DENCLUE。知識(shí)準(zhǔn)備—1.聚類分析（4）基于網(wǎng)格的方法?；诰W(wǎng)格的方法首先將數(shù)據(jù)空間劃分成有限個(gè)單元的網(wǎng)格結(jié)構(gòu)，然后用抽象的網(wǎng)格單元代表某個(gè)區(qū)域的數(shù)據(jù)點(diǎn)，在聚類處理過程中，都以網(wǎng)格單元為處理對(duì)象（即所有的聚類都是在這個(gè)網(wǎng)格結(jié)構(gòu)上進(jìn)行的）。該方法的主要優(yōu)點(diǎn)是處理速度很快，并且處理時(shí)間與數(shù)據(jù)對(duì)象的數(shù)目無關(guān)，而與每維空間劃分的單元數(shù)目有關(guān)；缺點(diǎn)是犧牲了聚類結(jié)果的精確率?；诰W(wǎng)格的方法的典型代表有STING、WaveCluster、CLIQUE等算法。知識(shí)準(zhǔn)備—1.聚類分析（5）基于模型的方法?；谀Ｐ偷姆椒僭O(shè)數(shù)據(jù)符合潛在的概率分布，為每個(gè)類假定一個(gè)模型，尋找能夠滿足該模型的數(shù)據(jù)集來聚類?；谀Ｐ偷姆椒ㄖ饕殖蓛深悾航y(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法。在基于統(tǒng)計(jì)學(xué)的聚類方法中，最著名的是COBWEB算法；在基于神經(jīng)網(wǎng)絡(luò)的聚類方法中，最著名的是自組織特征映射神經(jīng)網(wǎng)絡(luò)算法。知識(shí)準(zhǔn)備—1.聚類分析3）簇內(nèi)距離和簇間距離聚類是根據(jù)樣本間的相似度進(jìn)行劃分的，這里的相似度一般是以樣本點(diǎn)間的距離來衡量的。把整個(gè)數(shù)據(jù)集的樣本數(shù)據(jù)看成是分布在特征空間中的點(diǎn)，樣本數(shù)據(jù)之間的距離是對(duì)空間中點(diǎn)之間的距離。度量樣本數(shù)據(jù)之間的距離有閔可夫斯基距離（包含歐氏距離、曼哈頓距離和切比雪夫距離）、馬氏距離（協(xié)方差距離）、漢明距離等。評(píng)估聚類算法的聚類結(jié)果的好與差，往往通過計(jì)算簇內(nèi)距離和簇間距離，簇內(nèi)距離越小越好，簇間距離越大越好。知識(shí)準(zhǔn)備—1.聚類分析（1）簇內(nèi)距離。給定一個(gè)樣本數(shù)為n的簇，簇X的簇內(nèi)距離公式為式中，，dist(a,b)表示樣本a與樣本b之間的距離度量。（2）簇間距離。簇間距離的定義方式有多種，采用不同的類間距離定義方式可以

得到不同的聚類效果。簇間距離的定義方式有最短距離法、最長距離法、組間平均距離等。知識(shí)準(zhǔn)備—2.k-Means算法概述1967年，由MacQueen提出的k-Means（k均值聚類）算法是最經(jīng)典的基于劃分的方法，已發(fā)展成為一種經(jīng)典的聚類算法。該算法的思想如下：在數(shù)據(jù)集中，首先根據(jù)一定的策略選擇k個(gè)點(diǎn)作為每個(gè)類的初始中心點(diǎn)，然后根據(jù)樣本數(shù)據(jù)與類中心點(diǎn)的距離，將樣本數(shù)據(jù)劃分到距離最近的類中，在將所有樣本數(shù)據(jù)都劃分到k個(gè)類中后，即完成了一輪劃分。但是，形成新的類并不是最好的劃分方法。因此，對(duì)于一輪劃分后生成的新類，需要重新計(jì)算每個(gè)類的中心點(diǎn)，然后重新對(duì)數(shù)據(jù)進(jìn)行劃分。以此類推，直到每次劃分的結(jié)果保持不變，結(jié)束劃分得到最終的劃分結(jié)果。但是，在實(shí)際的數(shù)據(jù)處理過程中，往往經(jīng)過多輪迭代都得不到不變的劃分結(jié)果，這就需要對(duì)迭代輪次設(shè)定一個(gè)閾值，在迭代輪次達(dá)到閾值時(shí)，終止計(jì)算，獲得最終的劃分結(jié)果，k-Means算法流程圖如圖5-12所示。圖5-12k-Means算法流程圖知識(shí)準(zhǔn)備—2.k-Means算法概述通過圖5-13中的6張子圖對(duì)k-Means算法的數(shù)據(jù)劃分過程進(jìn)行描述。圖5-13（a）所示為初始二維數(shù)據(jù)集的分布情況。假設(shè)k=2，那么k-Means算法會(huì)先在數(shù)據(jù)的數(shù)值空間內(nèi)隨機(jī)選擇2個(gè)類對(duì)應(yīng)的中心，如圖5-8（b）中的2個(gè)三角形所示，然后分別計(jì)算所有樣本到這2個(gè)中心的距離，并將每個(gè)樣本的類別劃分為和該樣本距離最小的中心的類別，此時(shí)已經(jīng)完成了第1輪次的迭代，如圖5-8（c）所示。對(duì)于圖5-8（c）的劃分結(jié)果，計(jì)算出當(dāng)前2個(gè)類別中的中心點(diǎn)，如圖5-8（d）中的2個(gè)三角形所示，此時(shí)2個(gè)類別的中心的位置發(fā)生了變化。按照新的中心，對(duì)數(shù)據(jù)重新進(jìn)行劃分，得到圖5-13（e）的劃分結(jié)果。多次按照?qǐng)D5-8（c）～圖5-8（d）進(jìn)行操作，最終得到圖5-8（f）的結(jié)果。圖5-13k-Means算法對(duì)二維數(shù)據(jù)集的聚類過程知識(shí)準(zhǔn)備—3.k-Means模型根據(jù)前面對(duì)k-Means算法的了解，可知k-Means模型的建立具有三個(gè)核心要素：①k值的選擇。②距離度量的選擇。③初始中心點(diǎn)的選擇。聚類是無監(jiān)督學(xué)習(xí)方法，由于它不借助外部信息（如類標(biāo)），因此選擇不同的k值，得到的結(jié)果也必然不同。k-Means算法的初始中心點(diǎn)是隨機(jī)選擇的，可能會(huì)造成聚類結(jié)果不穩(wěn)定、迭代次數(shù)過多、資源消耗大、陷入局部最佳解等問題。k-Means算法默認(rèn)使用歐氏距離，歐氏距離的計(jì)算基于樣本的每個(gè)特征的尺度一致。但是，若樣本的某些特征的尺度遠(yuǎn)高于其他特征時(shí)，則會(huì)導(dǎo)致計(jì)算的距離結(jié)果向尺度較高的特征傾斜。在用k-Means算法進(jìn)行數(shù)據(jù)聚類時(shí)，選擇合適的k值、初始中心點(diǎn)及距離度量能夠有效保障聚類效果。知識(shí)準(zhǔn)備—3.k-Means模型1）k值的選擇k-Means模型的建立需要考慮k值的選擇，由于k-Means模型的建立不借助類標(biāo)簽，不同的k值會(huì)對(duì)模型建立結(jié)果產(chǎn)生較大的影響。k值的選擇有幾種常用的方法：經(jīng)驗(yàn)法、肘部法則（ElbowMethod）、間隔統(tǒng)計(jì)量（GapStatistic）法、輪廓系數(shù)（SilhouetteCoefficient）法和Canopy算法。k-Means算法以最小化樣本與質(zhì)點(diǎn)平方誤差作為目標(biāo)

，將每個(gè)聚類的質(zhì)點(diǎn)與類內(nèi)樣本點(diǎn)的平方距離誤差和稱為畸變程度，這也是肘部法則的核心指標(biāo)——誤差平方和（SumoftheSquaredErrors，SSE），其計(jì)算公式為式中，Si為第i個(gè)類的子數(shù)據(jù)集；x為Si中的樣本數(shù)據(jù)，Ci為Si中所有樣本數(shù)據(jù)的均值；SSE為所有樣本的聚類誤差。知識(shí)準(zhǔn)備—3.k-Means模型肘部法則的核心思想如下：對(duì)于一個(gè)聚類，它的SSE值越低，代表類內(nèi)結(jié)構(gòu)越緊密；SSE值越高，代表類內(nèi)結(jié)構(gòu)越松散。SSE值會(huì)隨著類別的增加而降低，但對(duì)于有一定區(qū)分度的數(shù)據(jù)，在SSE值達(dá)到某個(gè)臨界點(diǎn)時(shí)，畸變程度會(huì)得到極大改善，之后緩慢下降，這個(gè)臨界點(diǎn)可以考慮為聚類性能較好的點(diǎn)。在圖5-14中，當(dāng)k小于3時(shí)，由于k的增大會(huì)大幅提高每個(gè)簇的聚合程度，故SSE值的下降幅度會(huì)很大；而當(dāng)k等于3時(shí)，再增大k所得到的每個(gè)簇的聚合程度會(huì)迅速降低，所以SSE值的下降幅度會(huì)驟減。隨著k值的繼續(xù)增大，SSE值的曲線趨于平緩，此時(shí)最佳k值為3。圖5-14SSE值隨著k值的變化趨勢(shì)圖知識(shí)準(zhǔn)備—3.k-Means模型課堂隨練5-5我們使用matplotlib庫中的pyplot函數(shù)完成數(shù)據(jù)圖表的展示訓(xùn)練知識(shí)準(zhǔn)備—3.k-Means模型2）距離度量的選擇k-Means模型的建立需要考慮距離度量的選擇，在計(jì)算樣本與質(zhì)心的相似度時(shí)，需要計(jì)算二者之間的距離，距離越小表示兩者的相似度越高，距離越大表示兩者的差異度越高。k-Means算法采用的距離度量方法與單元4中介紹的距離度量方法一致。在特征空間中，可以采取多種距離度量方法，一般采用的是p=2時(shí)的閔可夫斯基距離（也就是歐氏距離），實(shí)例特征向量和的歐氏距離的定義式為式中,，表示是n維向量。知識(shí)準(zhǔn)備—3.k-Means模型樣本之間的距離需要根據(jù)樣本的數(shù)據(jù)特點(diǎn)進(jìn)行選擇，一般情況下，在歐幾里得空間中，選擇歐氏距離；在處理文檔時(shí)，選擇余弦相似度函數(shù)距離或者曼哈頓距離；在處理時(shí)間序列樣本數(shù)據(jù)時(shí)，選擇DTW距離或者歐氏距離。采用不同的距離度量方式計(jì)算樣本之間的相似度，會(huì)得到不同的效果。在本單元中，我們采用默認(rèn)的歐氏距離度量方法。知識(shí)準(zhǔn)備—3.k-Means模型課堂隨練5-6sklearn庫中的k-Means函數(shù)默認(rèn)采用歐氏距離度量方式，下面使用歐氏距離完成k-Means模型的訓(xùn)練。其中，n_clusters表示聚類個(gè)數(shù)，默認(rèn)值為0；init表示初始中心點(diǎn)的選擇方法，默認(rèn)為'k-means++'；max_iter表示k-Means算法的最大迭代次數(shù)，默認(rèn)值為300。知識(shí)準(zhǔn)備—3.k-Means模型3）初始中心點(diǎn)的選擇k-Means算法在最開始隨機(jī)選取數(shù)據(jù)集中的k個(gè)點(diǎn)作為聚類中心，由于數(shù)據(jù)具有隨機(jī)性，容易造成初始中心點(diǎn)聚集，導(dǎo)致最終的聚類結(jié)果容易陷入局部最佳解及出現(xiàn)迭代次數(shù)過多的現(xiàn)象。2017年，D.Arthur等人提出了k-Means++算法，該算法的基本思想是選擇的k個(gè)初始中心點(diǎn)之間的距離盡可能遠(yuǎn)。這也符合聚類算法的目的，讓類內(nèi)樣本之間的差異度越小，讓類之間的差異度越大。k-Means++算法在原有k-Means算法的基礎(chǔ)上對(duì)初始中心點(diǎn)的選擇進(jìn)行改進(jìn)，首先隨機(jī)選擇第一個(gè)中心點(diǎn)，然后在剩余的樣本中選擇距離第一個(gè)中心點(diǎn)最遠(yuǎn)的樣本點(diǎn)作為第二個(gè)中心點(diǎn)，以此類推，每次選擇的中心點(diǎn)都是與已選擇的所有中心點(diǎn)最遠(yuǎn)的樣本點(diǎn)，直到選出k個(gè)中心點(diǎn)為止。對(duì)于第一個(gè)中心點(diǎn)的選擇，可以隨機(jī)挑選樣本，還可以選擇距離樣本數(shù)據(jù)均值最遠(yuǎn)的樣本點(diǎn)，但是后者容易受到噪聲點(diǎn)的影響。知識(shí)準(zhǔn)備—3.k-Means模型k-Means++算法的聚類中心選擇流程圖如圖5-15所示。圖5-15k-Means++算法的聚類中心選擇流程圖知識(shí)準(zhǔn)備—3.k-Means模型假設(shè)一組數(shù)據(jù)如圖5-16（a）所示，用k-Means++算法對(duì)其聚類，聚類個(gè)數(shù)為3，那么k-Means++算法首先在該數(shù)據(jù)集中隨機(jī)選擇第一個(gè)中心點(diǎn)，如圖5-16（b）中編號(hào)為8的圓形。然后，選擇距離第一個(gè)中心點(diǎn)最遠(yuǎn)的樣本點(diǎn)，如圖5-16（c）中編號(hào)為5的圓形。接下來，在選擇第三個(gè)中心點(diǎn)時(shí)，計(jì)算剩下的樣本點(diǎn)與編號(hào)為5、編號(hào)為8的樣本點(diǎn)之間的距離均值，取距離均值最大的樣本點(diǎn)為第三個(gè)中心點(diǎn)，如圖5-16（d）所示。（a）（b）（c）（d）圖5-16k-Means++算法初始中心點(diǎn)的選擇過程圖知識(shí)準(zhǔn)備—4.k-Means算法的優(yōu)缺點(diǎn)分析1）k-Means算法的優(yōu)點(diǎn)（1）原理簡(jiǎn)單，易于理解，收斂速度快，聚類效果較好。（2）當(dāng)類中數(shù)據(jù)近似為正態(tài)分布時(shí)，聚類效果較好。（3）在處理大數(shù)據(jù)集時(shí)，k-Means算法可以保證較好的伸縮性和高效率。2）k-Means算法的缺點(diǎn)（1）k值要事先確定，不合適的k值會(huì)導(dǎo)致聚類效果較差。（2）對(duì)初始中心點(diǎn)的選擇敏感。（3）不適合發(fā)現(xiàn)非凸形狀的類或者大小差別較大的類。（4）噪聲和異常點(diǎn)對(duì)模型的建立影響較大。任務(wù)實(shí)施Step1：引入相關(guān)模塊。Step2：使用sklearn庫自帶的KMeans()函數(shù)創(chuàng)建k-Means模型，參數(shù)選擇模型默認(rèn)參數(shù)（也可傳入空參數(shù)），默認(rèn)的距離度量為歐氏距離，同時(shí)k-Means模型算法的初始中心點(diǎn)的選擇使用k-Means++方法Step3：完成SSE值的圖表展示。任務(wù)實(shí)施任務(wù)5.3模型評(píng)估任務(wù)情景

由于聚類不借助外部信息（如類標(biāo)）來完成數(shù)據(jù)的歸類，聚類模型中參數(shù)的設(shè)定不同會(huì)得到不同的聚類結(jié)果。在沒有先驗(yàn)知識(shí)的情況下，需要使用聚類指標(biāo)對(duì)聚類結(jié)果的有效性進(jìn)行評(píng)估，常用的一些聚類有效性評(píng)估指標(biāo)有蘭德指數(shù)（RandIndex）指標(biāo)、調(diào)整蘭德指數(shù)（AdjustedRandIndex）指標(biāo)、誤差平方和（SSE）指標(biāo)、輪廓系數(shù)（SilhouetteCoefficient）指標(biāo)和卡林斯基-哈拉巴斯指數(shù)（Calinski-HarabaszIndex，簡(jiǎn)稱CH系數(shù)）指標(biāo)等。在本任務(wù)中，對(duì)于生成的分類數(shù)據(jù)集，我們先使用k-Means算法對(duì)特征數(shù)據(jù)進(jìn)行分類，然后使用數(shù)據(jù)標(biāo)簽和調(diào)整蘭德指數(shù)指標(biāo)對(duì)模型的聚類效果進(jìn)行評(píng)估，最后使用Python中的matplotlib工具對(duì)評(píng)估結(jié)果可視化，以便更好地觀察模型表現(xiàn)。任務(wù)情景由于生成的數(shù)據(jù)具有隨機(jī)性，最終聚類評(píng)估指標(biāo)值如圖5-18所示。圖5-18聚類評(píng)估指標(biāo)值聚類結(jié)果的三維展示如5-19所示。圖5-19聚類后結(jié)果的三維展示知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)1．聚類有效性指標(biāo)聚類分析是一種無監(jiān)督學(xué)習(xí)行為，由于它不借助外部信息，因此即使采用相同的聚類算法、設(shè)置的參數(shù)不同，也會(huì)得到不同的聚類效果。為了評(píng)估聚類算法的有效性及參數(shù)設(shè)置的合理性，需要通過聚類有效性指標(biāo)對(duì)聚類結(jié)果進(jìn)行評(píng)估。聚類有效性指標(biāo)大致可以分為兩類：內(nèi)部聚類有效性指標(biāo)和外部聚類有效性指標(biāo)。內(nèi)部聚類有效性指標(biāo)和外部聚類有效性指標(biāo)的主要區(qū)別在于數(shù)據(jù)所屬的類別是否已知。內(nèi)部聚類有效性指標(biāo)適用于缺乏外部信息時(shí)對(duì)聚類劃分結(jié)果的評(píng)估。常見的內(nèi)部聚類有效性指標(biāo)有輪廓系數(shù)指標(biāo)、戴維斯-博爾丁指數(shù)（DBI）指標(biāo)、同質(zhì)性與差異性指標(biāo)等。外部有效性指標(biāo)是真實(shí)標(biāo)簽與劃分結(jié)果之間的相似性（或非相似性）度量，適用于數(shù)據(jù)類別已知的情況。常見的外部聚類有效性指標(biāo)有福爾克斯和馬洛斯指數(shù)（FMI）指標(biāo)、蘭德指數(shù)指標(biāo)、雅卡爾系數(shù)（JC）指標(biāo)等。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)1）內(nèi)部聚類有效性指標(biāo)內(nèi)部聚類有效性指標(biāo)用來描述數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)與數(shù)據(jù)之間的緊密關(guān)系，通過具體的目標(biāo)函數(shù)對(duì)聚類結(jié)果進(jìn)行計(jì)算以評(píng)估算法的有效性。下面介紹幾種常見的聚類有效性指標(biāo)。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)（1）輪廓系數(shù)指標(biāo)。輪廓系數(shù)指標(biāo)利用樣本點(diǎn)的類分離度與樣本點(diǎn)的類緊密度構(gòu)造輪廓系數(shù)，通過整體取平均獲取最終指標(biāo)值。設(shè)一個(gè)包含n個(gè)對(duì)象的數(shù)據(jù)集被聚類算法分成k個(gè)子集Ci(i=1,2,…,k)，數(shù)據(jù)集中某一個(gè)樣本t的輪廓系數(shù)的計(jì)算公式為式中，a(t)、b(t)的計(jì)算公式分別為式（5-8）與式（5-9）中的d(x,y)代表樣本x與樣本y的平均不相似度或距離，j=1,2,…,k。通常，以數(shù)據(jù)集中所有樣本的平均輪廓系數(shù)值作為聚類有效性指標(biāo)值，輪廓系數(shù)值越大表示聚類結(jié)果的質(zhì)量越好。（5-8）（5-9）知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)（2）戴維斯-博爾丁指數(shù)（Davies-BouldinIndex，DBI）指標(biāo)。式中，k為類簇個(gè)數(shù)；為第i個(gè)簇內(nèi)的樣本數(shù)據(jù)點(diǎn)之間的平均距離；為聚類結(jié)果中的第i個(gè)類簇；為第i個(gè)類簇的聚類中心。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)（3）同質(zhì)性與差異性指標(biāo)。同質(zhì)性與差異性指標(biāo)分為同質(zhì)性指標(biāo)與差異性指標(biāo)。同質(zhì)性指標(biāo)體現(xiàn)類內(nèi)的樣本聚合程度，也就是類內(nèi)樣本之間的平均相似度。而差異性指標(biāo)體現(xiàn)類與類的分離程度，也就是不同類的樣本之間的平均相似度。這二者的定義式分別為（5-11）（5-12）式中，k為數(shù)據(jù)集劃分的聚類數(shù)目；ni為第i個(gè)聚類Ci的樣本數(shù)目；d(s,t)為樣本s與樣本t的相似度。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)2）外部聚類有效性指標(biāo)外部聚類有效性指標(biāo)用來對(duì)比聚類結(jié)果與通過數(shù)據(jù)集數(shù)據(jù)對(duì)象真實(shí)分布信息構(gòu)建的參考模型，從而評(píng)估聚類結(jié)果的質(zhì)量與聚類算法的性能。給定一個(gè)數(shù)據(jù)集，n表示數(shù)據(jù)集的樣本數(shù)。數(shù)據(jù)集的真實(shí)類別中有m個(gè)簇，它們是，通過聚類算法獲得的聚類結(jié)果為k個(gè)簇，那么經(jīng)過聚類的每個(gè)樣本數(shù)據(jù)均存在于以下4種情況中：①

數(shù)據(jù)對(duì)象在C和中均同屬一個(gè)類簇，本情形下的數(shù)據(jù)量為a。②

數(shù)據(jù)對(duì)象在C中同屬一個(gè)類簇，而在中不同屬一個(gè)類簇，本情形下的數(shù)據(jù)量為b。③

數(shù)據(jù)對(duì)象在C中不同屬一個(gè)類簇，而在中同屬一個(gè)類簇，本情形下的數(shù)據(jù)量為c。④

數(shù)據(jù)對(duì)象在C和中均不同屬一個(gè)類簇，本情形下的數(shù)據(jù)量為d。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)（1）福爾克斯和馬洛斯指數(shù)（FowlkesandMallowsIndex，F(xiàn)MI）指標(biāo)。FMI的定義為精確率和召回率之間的幾何平均值，其取值范圍為[0,1]。FMI的計(jì)算公式為（5-13）（2）蘭德指數(shù)（RandIndex，RI）指標(biāo)。（5-14）知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-1.聚類有效性指標(biāo)（3）調(diào)整蘭德指數(shù)指標(biāo)。調(diào)整蘭德指數(shù)（adjustedRandIndex，ARI）指標(biāo)是一種常見的外部聚類有效性指標(biāo)，它可以用來判斷聚類結(jié)果和真實(shí)標(biāo)簽之間的相似度。蘭德指數(shù)的問題在于對(duì)于兩個(gè)隨機(jī)的數(shù)據(jù)劃分結(jié)果，其蘭德指數(shù)不是一個(gè)接近于0的常數(shù)。Hubert和Arabie在1985年提出了調(diào)整蘭德指數(shù)，其計(jì)算公式為（5-15）（4）雅卡爾系數(shù)（JaccardCoefficient，JC）指標(biāo)。（5-16）知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-2.生成數(shù)據(jù)集前面已經(jīng)用過sklearn庫中的datasets模塊自帶的數(shù)據(jù)集，但在多數(shù)情況下，我們需要自定義生成一些特殊形狀的用于算法的測(cè)試和驗(yàn)證數(shù)據(jù)集。sklearn庫提供了多種隨機(jī)樣本數(shù)據(jù)生成器，可以用于建立復(fù)雜的人工數(shù)據(jù)集。下面介紹幾種簡(jiǎn)單的人工數(shù)據(jù)集生成函數(shù)。1）make_blobs()函數(shù)make_blobs()函數(shù)用于產(chǎn)生多類單標(biāo)簽數(shù)據(jù)集，它為每個(gè)類分配服從一個(gè)或多個(gè)正態(tài)分布的點(diǎn)集，有助于更好地控制聚類中心

和各簇的標(biāo)準(zhǔn)偏差，可用于實(shí)現(xiàn)聚類

知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-2.生成數(shù)據(jù)集課堂隨練5-7通過make_blobs()函數(shù)生成一個(gè)樣本總數(shù)為1500、簇個(gè)數(shù)為3的二維數(shù)據(jù)集，并通過二維圖表進(jìn)行顯示。make_blobs()函數(shù)中的n_samples為生成的樣本總數(shù)；n_features為所有樣本的維度；centers為產(chǎn)生的中心點(diǎn)的數(shù)量（即產(chǎn)生的簇的數(shù)量）；cluster_std為聚簇的標(biāo)準(zhǔn)差；random_state為隨機(jī)種子，用于決定數(shù)據(jù)集創(chuàng)建過程中隨機(jī)數(shù)的生成。用make_blobs()函數(shù)生成的數(shù)據(jù)集如圖5-20所示。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-2.生成數(shù)據(jù)集2）make_classification()函數(shù)make_classification()函數(shù)用于產(chǎn)生多類單標(biāo)簽數(shù)據(jù)集，它為每個(gè)類分配服從一個(gè)或多個(gè)(每個(gè)維度)正態(tài)分布的點(diǎn)集，提供為數(shù)據(jù)添加噪聲的方式，包括利用維度相關(guān)性、無效特征（隨機(jī)噪聲）及冗余特征等。課堂隨練5-8通過make_classification()函數(shù)生成一個(gè)樣本總數(shù)為1500、簇個(gè)數(shù)為3的二維數(shù)據(jù)集，并通過二維圖表進(jìn)行顯示。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-2.生成數(shù)據(jù)集圖5-21用make_classification()函數(shù)生成的數(shù)據(jù)集圖5-20用make_blobs()函數(shù)生成的數(shù)據(jù)集知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-2.生成數(shù)據(jù)集3）make_circles()函數(shù)make_circles()函數(shù)用于產(chǎn)生一個(gè)環(huán)狀二分類單標(biāo)簽數(shù)據(jù)集。它可以生成帶有球面決策邊界的數(shù)據(jù)，可以選擇性加入高斯噪聲，用于可視化聚類和分類算法。課堂隨練5-9通過make_circles()函數(shù)生成一個(gè)樣本總數(shù)為1000、雙環(huán)形的二維數(shù)據(jù)集，并通過二維圖表進(jìn)行顯示。make_circles()函數(shù)中的n_samples為生成的樣本總數(shù)，factor為內(nèi)、外圓之間的比例因子，noise為加入的高斯噪聲的標(biāo)準(zhǔn)差。用make_circles()函數(shù)生成的雙環(huán)形數(shù)據(jù)集如圖5-22所示。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-2.生成數(shù)據(jù)集圖5-22用make_circles()函數(shù)生成的雙環(huán)形數(shù)據(jù)集知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-3.測(cè)試聚類模型使用sklearn.cluster.KMeans中的predict()函數(shù)對(duì)聚類結(jié)果進(jìn)行預(yù)測(cè)，可以通過訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試

。課堂隨練5-10假設(shè)訓(xùn)練集為X={x1,x2,…,xn}，訓(xùn)練集標(biāo)簽為Y={y1,y2,…,yn}，模型為k-Means（已訓(xùn)練）。蘭德指數(shù)可以用來比較聚類結(jié)果和真實(shí)標(biāo)簽之間的相似度。蘭德指數(shù)的計(jì)算方法是先將樣本兩兩配對(duì)，然后計(jì)算配對(duì)中真實(shí)標(biāo)簽和聚類結(jié)果相同的比例。調(diào)整蘭德指數(shù)通過對(duì)蘭德指數(shù)的調(diào)整，得到獨(dú)立于樣本數(shù)據(jù)量和類別的接近于0的值，其取值范圍為[-1,1]，負(fù)數(shù)代表結(jié)果不好，越接近于1，結(jié)果越好，也意味著聚類結(jié)果與真實(shí)情況吻合。sklearn庫提供了metrics.cluster.adjusted_rand_score()函數(shù)，用于對(duì)聚類結(jié)果進(jìn)行評(píng)估。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-4.三維圖表展示為了能夠從更多維度觀察數(shù)據(jù)的聚類效果，使用mpl_toolkits.mplot3d工具包生成三維圖，使用Axes3D.scatter()函數(shù)實(shí)現(xiàn)數(shù)據(jù)點(diǎn)在三維空間中的展示。課堂隨練5-12使用Axes3D.scatter()函數(shù)生成三維圖。知識(shí)準(zhǔn)備知識(shí)準(zhǔn)備-3.測(cè)試聚類模型圖5-23生成數(shù)據(jù)的三維展示任務(wù)實(shí)施Step1：采用訓(xùn)練集的原標(biāo)簽，使用調(diào)整蘭德指數(shù)指標(biāo)對(duì)聚類結(jié)果進(jìn)行評(píng)估。圖5-24聚類評(píng)估指標(biāo)值任務(wù)實(shí)施Step2：選擇鳶尾花數(shù)據(jù)的2、3、4維度上的特征，對(duì)k-Means算法的聚類結(jié)果進(jìn)行三維展示。圖5-25鳶尾花數(shù)據(jù)聚類結(jié)果的三維展示任務(wù)拓展糖尿病數(shù)據(jù)集預(yù)測(cè)任務(wù)和糖尿病數(shù)據(jù)集請(qǐng)從華信教育資源網(wǎng)該書配套資源處下載。通過本任務(wù)的實(shí)施，讀者可以搭建k-Means模型，實(shí)現(xiàn)對(duì)人員是否患病的歸類。K=3K=11單元6線性回歸機(jī)器學(xué)習(xí)電氣與信息工程系CONTENTS

目錄010203任務(wù)6.1房?jī)r(jià)數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理

任務(wù)6.2訓(xùn)練線性回歸模型任務(wù)6.3模型評(píng)估引例描述

房?jī)r(jià)可以說是當(dāng)下民生問題中最引人關(guān)注的話題，現(xiàn)在也有眾多專家通過多種手段預(yù)測(cè)房?jī)r(jià)。對(duì)于學(xué)習(xí)機(jī)器學(xué)習(xí)的我們，有沒有一種方法可以讓電子計(jì)算機(jī)去預(yù)測(cè)房?jī)r(jià)呢？通過街區(qū)住戶的收入、房型、街區(qū)人口、入住率等因素來預(yù)測(cè)這個(gè)街區(qū)的房?jī)r(jià)，這時(shí)，我們不能使用傳統(tǒng)的分類算法來預(yù)測(cè)，因?yàn)槲覀兿胍玫降氖沁B續(xù)的結(jié)果，本單元通過一種經(jīng)典的回歸模型——線性回歸模型來帶大家了解回歸問題的解決方法。圖6-1所述為情景描述。（a）（b）（a：想買房子，不知道明年的房?jī)r(jià)怎么樣呢？b：我用回歸模型幫你預(yù)測(cè)一下吧?。﹫D6-1情景描述任務(wù)6.1房?jī)r(jià)數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)情景

加利福尼亞房?jī)r(jià)數(shù)據(jù)集是sklearn庫自帶的一個(gè)經(jīng)典的房?jī)r(jià)數(shù)據(jù)集，本任務(wù)旨在成功讀取、導(dǎo)入數(shù)據(jù)集，查看數(shù)據(jù)集中數(shù)據(jù)的特征、大小，以及熟練劃分?jǐn)?shù)據(jù)集。

加利福尼亞房?jī)r(jià)數(shù)據(jù)集源于1990年加州人口普查的數(shù)據(jù)，一共包含20

640條房屋數(shù)據(jù)，包括以下8個(gè)特征：（1）MedInc：街區(qū)住戶收入的中位數(shù)。（2）HouseAge：房屋使用年數(shù)的中位數(shù)。（3）AveRooms：街區(qū)平均房屋的數(shù)量。（4）AveBedrms：街區(qū)平均的臥室數(shù)目。（5）'Population：街區(qū)人口。（6）AveOccup：平均入住率。（7）Latitude：街區(qū)的緯度。（8）Longitude：街區(qū)的經(jīng)度。任務(wù)布置

實(shí)現(xiàn)加利福尼亞房?jī)r(jià)數(shù)據(jù)集的讀取與解析，要求能夠讀取數(shù)據(jù)的條數(shù)與矩陣大小，并能夠查看數(shù)據(jù)集的一部分?jǐn)?shù)據(jù)。數(shù)據(jù)集的大小如圖6-2所示。數(shù)據(jù)的前5行如圖6-3所示。圖6-2數(shù)據(jù)集的大小圖6-3數(shù)據(jù)前5行任務(wù)布置數(shù)據(jù)集包含的特征及前5行數(shù)據(jù)如圖6-4所示。圖6-4數(shù)據(jù)集包含的特征及前5行數(shù)據(jù)劃分好的測(cè)試集數(shù)據(jù)如圖6-5所示。圖6-5劃分好的測(cè)試集數(shù)據(jù)知識(shí)準(zhǔn)備1．加利福尼亞房?jī)r(jià)數(shù)據(jù)集導(dǎo)入

加利福尼亞房?jī)r(jià)數(shù)據(jù)集可以從sklearn庫直接導(dǎo)入，sklearn庫會(huì)自帶一些數(shù)據(jù)集的讀取方式。課堂隨練6-1讀取sklearn庫自帶的鳶尾花數(shù)據(jù)集。知識(shí)準(zhǔn)備下載下來的數(shù)據(jù)集的存儲(chǔ)路徑為\Anaconda\Lib\site-packages\sklearn\datasets\data，如圖6-6所示。圖6-6下載下來的數(shù)據(jù)集的存儲(chǔ)路徑知識(shí)準(zhǔn)備2）當(dāng)下載的數(shù)據(jù)集較大時(shí)，一般不將其直接保存在sklearn庫中，而是采用在線下載的方式，需要聯(lián)網(wǎng)才可以下載，采用datasets.fetch_xxx，使用以下代碼獲取下載路徑：課堂隨練6-2下載加利福尼亞房?jī)r(jià)數(shù)據(jù)集并查看。知識(shí)準(zhǔn)備3）sklearn庫可以使用make_xxx函數(shù)來生成數(shù)據(jù)集，該類函數(shù)適用于多種類型任務(wù)，舉例如下：make_blobs函數(shù)：多類單標(biāo)簽數(shù)據(jù)集，為每個(gè)類分配一個(gè)或多個(gè)正態(tài)分布的點(diǎn)集。make_classification函數(shù)：用于產(chǎn)生多類單標(biāo)簽數(shù)據(jù)集，為每個(gè)類分配一個(gè)或多個(gè)正態(tài)分布的點(diǎn)集，提供為數(shù)據(jù)添加噪聲的方式，包括利用維度相關(guān)性、無效特征及冗余特征等。make_gaussian-quantiles函數(shù)：將一個(gè)單正態(tài)分布的點(diǎn)集劃分為兩個(gè)數(shù)量均等的點(diǎn)集，并將其作為兩類。make_hastie-10-2函數(shù)：產(chǎn)生一個(gè)相似的二元分類數(shù)據(jù)集

，有10個(gè)維度。make_circle函數(shù)和make_moom函數(shù)：產(chǎn)生二維二元分類數(shù)據(jù)集，以此測(cè)試某些算法的性能，可以為數(shù)據(jù)集添加噪聲，可以為二元分類器產(chǎn)生一些球形判決界面的數(shù)據(jù)。知識(shí)準(zhǔn)備課堂隨練6-3使用make_xxx函數(shù)生成數(shù)據(jù)集的訓(xùn)練。知識(shí)準(zhǔn)備2．?dāng)?shù)據(jù)集劃分使用train_test_split函數(shù)進(jìn)行數(shù)據(jù)集的劃分，在機(jī)器學(xué)習(xí)訓(xùn)練中，數(shù)據(jù)集一般分為訓(xùn)練集和測(cè)試集（有些情況下還存在驗(yàn)證集），train_test_split是最常用的數(shù)據(jù)集劃分方法。其中，*arrays表示輸入的是列表、數(shù)組等可索引的序列；train_size表示訓(xùn)練樣本的大小，數(shù)值為浮點(diǎn)數(shù)表示占總數(shù)據(jù)集的比例，數(shù)值為整數(shù)表示訓(xùn)練樣本數(shù)，數(shù)值為空則表示測(cè)試集的補(bǔ)集；test_size表示測(cè)試樣本的大小，數(shù)值為浮點(diǎn)數(shù)表示占總數(shù)據(jù)集的比例，數(shù)值為整數(shù)表示測(cè)試樣本數(shù)，數(shù)值為空則表示訓(xùn)練集的補(bǔ)集；知識(shí)準(zhǔn)備random_state表示隨機(jī)種子，也就是該組隨機(jī)數(shù)的編號(hào)，在需要重復(fù)試驗(yàn)的時(shí)候，保證得到一組一樣的隨機(jī)數(shù)。例如，我們本次試驗(yàn)和下次代碼循環(huán)到這個(gè)位置的時(shí)候都想要一樣的隨機(jī)數(shù)，那就每次都將隨機(jī)數(shù)設(shè)置為一樣的值，默認(rèn)值為False，即雖然每次切分的比例相同，但是切分的結(jié)果不同。stratify的設(shè)置是為了保持劃分前數(shù)據(jù)的分布，若stratify的值為None，則在劃分出來的測(cè)試集或訓(xùn)練集中，類標(biāo)簽所占的比例是隨機(jī)的；若stratify的值不為None，則劃分出來的測(cè)試集或訓(xùn)練集中類標(biāo)簽所占的比例同輸入的數(shù)組中類標(biāo)簽所占的比例相同，該設(shè)置可以用于處理不均衡的數(shù)據(jù)集。任務(wù)實(shí)施Step1：導(dǎo)入庫，并導(dǎo)入數(shù)據(jù)集fetch_california_housing。Step2：將數(shù)據(jù)集讀取到DataFrame中，以便查看。Step3：查看一些數(shù)據(jù)集的內(nèi)容。Step4：劃分測(cè)試集與訓(xùn)練集。任務(wù)實(shí)施（a）數(shù)據(jù)集下載地址讀取數(shù)據(jù)集如圖6-7所示。（b）數(shù)據(jù)集內(nèi)容展示圖6-7讀取數(shù)據(jù)集任務(wù)6.2訓(xùn)練線性回歸模型任務(wù)情景線性回歸模型是機(jī)器學(xué)習(xí)中最簡(jiǎn)單的回歸模型，是所有回歸模型的基礎(chǔ)。分類問題的目標(biāo)是得到離散型的類別，回歸問題的目標(biāo)是得到連續(xù)的目標(biāo)值，如預(yù)測(cè)銷售額、房?jī)r(jià)等。本任務(wù)旨在使讀者了解線性回歸模型的原理、搭建過程，并使讀者學(xué)會(huì)使用sklearn庫自帶的函數(shù)搭建線性回歸模型，訓(xùn)練加利福尼亞房?jī)r(jià)數(shù)據(jù)集，預(yù)測(cè)房?jī)r(jià)并展示。加利福尼亞房?jī)r(jià)數(shù)據(jù)集如圖6-8所示。圖6-8加利福尼亞房?jī)r(jià)數(shù)據(jù)集任務(wù)布置

要求通過建立線性回歸模型來預(yù)測(cè)測(cè)試樣本值，并輸出線性回歸模型的回歸系數(shù)和截距。圖6-9測(cè)試樣本的預(yù)測(cè)結(jié)果

線性加強(qiáng)歸模型的回歸系數(shù)如圖6-10所示。圖6-10線性加強(qiáng)歸模型的回歸系數(shù)知識(shí)準(zhǔn)備—1.線性回歸的原理1．線性回歸的原理1）一元線性回歸的原理一元線性回歸的原理與初中學(xué)過的一元一次方程類似，設(shè)x和y為兩個(gè)變量，假設(shè)y受x變量的影響，其之間的關(guān)系為式中，w為回歸系數(shù)；b為截距?；貧w的典型例子就是給定數(shù)據(jù)點(diǎn)，擬合出最佳的曲線，這種只包含一個(gè)自變量x的模型被稱為一元線性回歸模型，如圖6-11所示。圖6-11一元線性回歸模型（6-1）2）多元線性回歸的原理多元線性回歸研究的是一個(gè)因變量與多個(gè)自變量之間的關(guān)系，多元線性回歸函數(shù)的計(jì)算公式為（6-2）知識(shí)準(zhǔn)備—1.線性回歸的原理知識(shí)準(zhǔn)備—2.模型評(píng)估2．模型評(píng)估如何根據(jù)多個(gè)樣本

來確定線性回歸模型的w和b呢？線性回歸模型示例如圖6-12所示，對(duì)于平面中的n個(gè)點(diǎn)可以有無數(shù)條直線來對(duì)它們進(jìn)行擬合，如何選出最合適的直線是我們需要考慮的問題。圖6-12線性回歸模型示例知識(shí)準(zhǔn)備線性回歸模型的預(yù)測(cè)可以通過殘差來評(píng)估，線性回歸模型殘差示例如圖6-13所示。圖6-13線性回歸模型殘差示例知識(shí)準(zhǔn)備—2.模型評(píng)估知識(shí)準(zhǔn)備假設(shè)選取圖6-12中的一條擬合直線，線上連續(xù)的值為預(yù)測(cè)值，那么該點(diǎn)的，擬合誤差的計(jì)算公式為擬合誤差為因此，最佳的擬合直線應(yīng)該是使所有樣本總的擬合誤差最小的直線，所有點(diǎn)的殘差可以表示為，殘差總和被定義為模型的損失（Loss）。代價(jià)函數(shù)/代價(jià)函數(shù)（LossFunction/CostFunction）用于表示模型的預(yù)測(cè)值和真實(shí)值不一致的程度，其計(jì)算公式為（6-3）（6-4）知識(shí)準(zhǔn)備—2.模型評(píng)估知識(shí)準(zhǔn)備（6-3）注意：由式（6-3）發(fā)現(xiàn)，殘差是有符號(hào)的。在選定直線上方的點(diǎn)，它的殘差總是正的；而在直線下方的點(diǎn)，它的殘差總是負(fù)的。如果將殘差簡(jiǎn)單地相加，那么正的殘差和負(fù)的殘差就會(huì)相互抵消，這樣做的話，有可能每個(gè)樣本單獨(dú)的殘差都很大，而計(jì)算得到的殘差的和卻很小。這樣的直線顯然不滿足我們的預(yù)期，因此代價(jià)函數(shù)的值應(yīng)該是一個(gè)非負(fù)數(shù)，那么我們很容易想到可以使用絕對(duì)值來消除殘差中符號(hào)的影響。用殘差絕對(duì)值的和作為代價(jià)函數(shù)，可以避免正負(fù)誤差相互抵消的問題。知識(shí)準(zhǔn)備—2.模型評(píng)估知識(shí)準(zhǔn)備用殘差絕對(duì)值的和表示的損失函數(shù)為但是，求殘差和的最小值是一個(gè)求最值的問題。在求函數(shù)的最值時(shí)，一般要進(jìn)行求導(dǎo)運(yùn)算，而絕對(duì)值是不利于求導(dǎo)運(yùn)算的。為了消除絕對(duì)值運(yùn)算，可以將式（6-5）中的絕對(duì)值改為平方，使得所有樣本點(diǎn)的殘差平方和最小。用殘差平方和表示的損失函數(shù)為（6-6）（6-5）知識(shí)準(zhǔn)備—2.模型評(píng)估知識(shí)準(zhǔn)備經(jīng)常將代價(jià)函數(shù)寫為式中，m為訓(xùn)練集的數(shù)量；為x的i個(gè)元素；

為y的第i個(gè)元素；為第i個(gè)預(yù)測(cè)值，注意：有時(shí)部分版本也為了方便求導(dǎo)運(yùn)算，直接在Loss前面加上1/2。（6-7）知識(shí)準(zhǔn)備—2.模型評(píng)估知識(shí)準(zhǔn)備（6-6）式（6-6）稱為平方和代價(jià)函數(shù)，是機(jī)器學(xué)習(xí)中最常見的代價(jià)函數(shù)。平方和代價(jià)函數(shù)示意圖如圖6-14所示。圖6-14平方和代價(jià)函數(shù)示意圖知識(shí)準(zhǔn)備—2.模型評(píng)估知識(shí)準(zhǔn)備—3．最小二乘法求解回歸模型3．最小二乘法求解回歸模型下面采用最小二乘法計(jì)算w和b，假設(shè)給定一組樣本值

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《機(jī)器學(xué)習(xí)技術(shù)》課件 第4-6章 k-NN算法、聚類、線性回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《機(jī)器學(xué)習(xí)技術(shù)》課件第4-6章 k-NN算法、聚類、線性回歸