Python機器學(xué)習(xí)-Python機器學(xué)習(xí)常用數(shù)據(jù)集_第1頁
Python機器學(xué)習(xí)-Python機器學(xué)習(xí)常用數(shù)據(jù)集_第2頁
Python機器學(xué)習(xí)-Python機器學(xué)習(xí)常用數(shù)據(jù)集_第3頁
Python機器學(xué)習(xí)-Python機器學(xué)習(xí)常用數(shù)據(jù)集_第4頁
Python機器學(xué)習(xí)-Python機器學(xué)習(xí)常用數(shù)據(jù)集_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第7章機器學(xué)習(xí)常用數(shù)據(jù)集本章將介紹5個機器學(xué)習(xí)常用地數(shù)據(jù)集,它們分別是boston房價數(shù)據(jù)集,diabetes糖尿病數(shù)據(jù)集,digits手寫字體數(shù)據(jù)集,irirs鳶尾花數(shù)據(jù)集以和wine紅酒數(shù)據(jù)集。7.1boston房價數(shù)據(jù)集boston房價數(shù)據(jù)集總共有506個樣本,每個樣本有13個特征變量與1個目標變量。每一個樣本代表了波士頓地一個區(qū)域(城鎮(zhèn))。7.1.1數(shù)據(jù)集基本信息描述實例個數(shù):506特征個數(shù):14特征信息:--CRIM:城鎮(zhèn)人均犯罪率。--ZN:住宅用地超過25000平方英尺地比例。--INDUS:城鎮(zhèn)非商業(yè)用地地比例。--CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。--NOX:一氧化氮濃度。--RM:住宅平均房間數(shù)。--AGE:1940年之前建成地自用房屋比例。--DIS:到波士頓五個中心地加權(quán)距離。--RAD:輻射公路地可達指數(shù)。--TAX:每10000美元地全值財產(chǎn)稅率。--PTRATIO:城鎮(zhèn)師生比例。--B:1000(Bk-0.63)^2,其中Bk指代城鎮(zhèn)中黑人地比例。--LSTAT:人口中地位低下者地比例。--MEDV:自住房地平均房價,以千美元計。丟失特征信息:無創(chuàng)建者:Harrison,D.andRubinfeld,D.L.這個數(shù)據(jù)集并沒有給定目標變量,一般我們將“MEDV”特征作為目標變量。7.1.2數(shù)據(jù)探索數(shù)據(jù)探索具體操作如下:(1)導(dǎo)入相應(yīng)模塊。(2)導(dǎo)入boston數(shù)據(jù)集。(3)查看boston數(shù)據(jù)集結(jié)構(gòu)。“data”是特征數(shù)據(jù),“target”是目標變量數(shù)據(jù),“feature_names”是特征名稱(特征名稱)。(4)查看boston數(shù)據(jù)集特征數(shù)據(jù)結(jié)構(gòu),總共有506個實例,每個實例有13個特征。(5)查看boston數(shù)據(jù)集特征數(shù)據(jù)具體數(shù)值。(6)查看boston數(shù)據(jù)集特征名稱。(7)查看boston數(shù)據(jù)集目標變量結(jié)構(gòu)。(8)查看boston數(shù)據(jù)集目標變量具體數(shù)據(jù)。這個就是我們上面所提到地MEDV:自住房地平均房價。7.2diabetes糖尿病數(shù)據(jù)集這個數(shù)據(jù)集是一個關(guān)于糖尿病患者病情地數(shù)據(jù)集??偣灿?42位糖尿病患者,11個變量。其中包含了10種因變量,分別是年齡(age),性別(sex),體重指標(bmi),平均血壓(bp)與6中血清測量指標(s1-s6),以和一個目標變量疾病級數(shù)(dp)。其中10種因變量已經(jīng)做了標準化處理。7.2.1數(shù)據(jù)基本信息描述實例個數(shù):442特征個數(shù):10特征名稱:--Age(年齡)--Sex(性別)--Bodymassindex(身體質(zhì)量指數(shù))--Averagebloodpressure(平均血壓)--S1(血清地化驗數(shù)據(jù))--S2(血清地化驗數(shù)據(jù))--S3(血清地化驗數(shù)據(jù))--S4(血清地化驗數(shù)據(jù))--S5(血清地化驗數(shù)據(jù))--S6(血清地化驗數(shù)據(jù))目標變量:第11列,記錄了從基準時間一年后疾病地進展這個數(shù)據(jù)地數(shù)據(jù)值都通過了標準化處理。7.2.2數(shù)據(jù)探索數(shù)據(jù)探索具體操作如下:(1)導(dǎo)入必要地模塊。(2)導(dǎo)入數(shù)據(jù)集。(3)查看數(shù)據(jù)集地內(nèi)容。數(shù)據(jù)集是一個字典,總共分四部分,因變量數(shù)據(jù)(data),目標變量數(shù)據(jù)(target),數(shù)據(jù)集描述(DESCR),因變量標簽名(feature_names)。(4)查看變量標簽名。(5)查看變量對應(yīng)地值。(6)查看目標變量,即糖尿病病情地評級。(7)觀察目標變量。(8)觀察體重指標變量。7.3digits手寫數(shù)字光學(xué)識別數(shù)據(jù)集圖像識別是機器學(xué)習(xí)地一個重要地分支應(yīng)用。其實圖像識別對我們來說并不陌生,比如我們隨身攜帶地手機就有一個常用地圖像識別技術(shù)地應(yīng)用——照相機功能。照相機功能中有一個輔助地選項是人臉識別,這個就是圖像識別技術(shù)。本小節(jié)所介紹地手寫字體識別是圖像識別地一部分,它主要解決地問題是將我們地手寫字體轉(zhuǎn)換為電腦可以識別地字符。這個應(yīng)用使非常廣泛地,比如有大量地文檔資料,轉(zhuǎn)換為電子資料,然后對這些資料做自然語言處理。那么如何將手寫字體地圖像轉(zhuǎn)換為字符呢?這個要用到后續(xù)章節(jié)所講到地分類算法。在這之前,我們先看一下,計算機是如何存儲這些手寫字體地。讓我們先看一個手寫字體地圖片,如圖7.1所示。對照著,我們來看一下,計算機是如何通過數(shù)字將這些圖片展示出來地,如表7.1所示,我們可以看到,手寫字體地圖片可以與表一一對應(yīng)起來,表中是一個8*8地矩陣,矩陣地每個元素地大小代表了圖片中對應(yīng)地像素點地深淺,比如[2,2]點,數(shù)值是15,那么對應(yīng)地圖片地相對位置它地顏色也就越深。你是否能直接看表,猜出這個手寫字體是什么呢?同樣地我們給出每個字體對應(yīng)地圖片以和矩陣。圖7.1手寫字體0,右邊是放大后地效果同樣地我們還可以給出其它手寫字體對應(yīng)地圖片與矩陣信息,如手寫字體1,如圖7.2,表7.2所示。圖7.2手寫字體1圖片7.3.1數(shù)據(jù)集基本信息描述實例個數(shù):5620(本數(shù)據(jù)集含有1797)特征個數(shù):64特征信息:每個圖片是8*8地矩陣,像素值地范圍是[0-16]丟失特征值:無創(chuàng)建者:E.Alpaydin(alpaydin'@'.tr)時間:1998年7月這個數(shù)據(jù)集是UCIML手寫字體數(shù)據(jù)集地一部分。這個數(shù)據(jù)集包含了10個類別地手寫字體,它們分別是0,1,2,3,4,5,6,7,8,9。這些數(shù)據(jù)集是總共搜集了43個人地手寫字體數(shù)據(jù),其中30個人是作為訓(xùn)練集,另外地13個人是作為測試集。7.3.2數(shù)據(jù)集探索數(shù)據(jù)探索具體操作如下:(1)導(dǎo)入相關(guān)模塊。(2)獲得手寫字體地數(shù)據(jù)集。(3)查看該數(shù)據(jù)集地結(jié)構(gòu)。(4)獲得目標變量地種類,以看到這里總共有10類手寫字體。(5)獲得實例地特征數(shù)據(jù)。(6)查看第0個實例地數(shù)據(jù)。(7)每個實例總共有64個特征值,也就是說一個手寫字體是8*8地矩陣。(8)將每個實例轉(zhuǎn)換為圖形矩陣。(9)查看圖片具體形狀。(10)查看“images”。我們可以看到數(shù)據(jù)已經(jīng)轉(zhuǎn)換為矩陣地形式,所以不需求我們再一步一步地轉(zhuǎn)換,來查看圖片。在做訓(xùn)練時,我們直接使用“data”,而在查看圖片時我們直接使用“images”。(11)查看目標變量。(12)查看目標變量地個數(shù)。7.4iris鳶尾花數(shù)據(jù)集鳶尾花數(shù)據(jù)集也許是最廣為人知地數(shù)據(jù)集。這個數(shù)據(jù)集包含了三個種類,每個種類包含了50個實例,每個種類是鳶尾花地一個分類。其中有一個種類是可以與其它兩類線性可分地。7.4.1數(shù)據(jù)集基本信息描述:實例地數(shù)量:150(每個種類分別含有50個實例)特征地數(shù)量:4個數(shù)值型特征特征信息:--sepallengthincm(花萼地長度,單位厘米)--sepalwidthincm(花萼地寬度,單位厘米)--petallengthincm(花瓣地長度,單位厘米)--petalwidthincm(花瓣地寬度,單位厘米)--類別:--Setosa--Versicolour--Virginica丟失地特征值:無類別地分布:每個種類占33.3%創(chuàng)建者:R.A.Fisher時間:1988年7月7.4.2數(shù)據(jù)探索數(shù)據(jù)探索具體操作如下:(1)導(dǎo)入相關(guān)地包。。(2)讀取iris數(shù)據(jù)集(3)查看數(shù)據(jù)集地結(jié)構(gòu)?!癲ata”是特征數(shù)據(jù),“feature_names”是特征名稱(特征名稱),“target”是目標變量,“target_names”是目標變量名稱,“DESCR”是描述信息。(4)查看“data”地類別。(5)查看“data”地形狀??偣灿?50行(150個實例),4列(4個特征)。(6)查看“data”地具體數(shù)據(jù)。(7)查看“feature_names”,既特征地名稱,對應(yīng)著“data”地四個列。(8)查看目標變量“target”地類別。(9)查看“target”地形狀。(10)查看“target”地具體數(shù)據(jù)。(11)查看目標變量“target”數(shù)值對應(yīng)地意義也就是說0代表了‘setosa’,1代表了‘versicolor’,2代表了‘virginica’。(12)將iris數(shù)據(jù)集轉(zhuǎn)換為pandas地DataFrame對象13)觀察各個特征之間地關(guān)系,結(jié)果如圖7.11所示。圖7.11鳶尾花數(shù)據(jù)集各個變量之間地關(guān)系圖7.11鳶尾花數(shù)據(jù)集各個變量之間地關(guān)系7.5wine紅酒數(shù)據(jù)集這個數(shù)據(jù)集是來自意大利同一個地區(qū)地不同地耕種地點地紅酒地化學(xué)成分分析。在這個三個不同種類地紅酒中總共發(fā)現(xiàn)13個不同地成分地測量結(jié)果。7.5.1數(shù)據(jù)集基本信息描述實例個數(shù):178特征個數(shù):13特征信息:(1)1)Alcohol(2)Malicacid(3)Ash(4)Alcalinityofash(5)Magnesium(6)Totalphenols(7)Flavanoids(8)Nonflavanoidphenols(9)Proanthocyanins(10)Colorintensity(11)Hue(12)OD280/OD315ofdilutedwines(13)Proline目標變量:3個種類目標變量:class_0(59),class_1(71),class_2(48)丟失特征值:無創(chuàng)建者:R.A.Fisher創(chuàng)建時間:1988年7月7.5.2數(shù)據(jù)探索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論