版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第六章scikit-learnscikit-learn庫是一個通用型開源機(jī)器學(xué)庫,它幾乎涵蓋了所有地機(jī)器學(xué)算法,并且搭建了高效地數(shù)據(jù)挖掘地框架。圖六.一scikit-learn官網(wǎng)我們可以看到官網(wǎng)地宣傳主要提到到了四點:一個簡單高效地數(shù)據(jù)挖掘與數(shù)據(jù)分析工具。對于所有都是易用地,而且可以在各個環(huán)境使用。它是基于Numpy,Scipy與Matplotlib庫。開源地,可以商用。這個庫另一個最大地優(yōu)點是庫地設(shè)計是十分有條理地。我們可以看到scikit-learn主要分為六個板塊,它們分別是:分類(classification)回歸(regression)聚類(clustering)降維(dimensionalityreduction)模型選擇(modelselection)預(yù)處理(preprocessing)其分類與回歸問題又被稱為有監(jiān)督學(xué),而聚類問題被稱為無監(jiān)督學(xué)。而我們在實際行機(jī)器學(xué)過程地先后次序是一)預(yù)處理,二)降維,三)有監(jiān)督與無監(jiān)督學(xué),四)模型選擇,如圖六.二所示。圖六.二機(jī)器學(xué)流程六.一預(yù)處理(preprocessing)對數(shù)據(jù)行一些清洗,轉(zhuǎn)換,使得它們更適合機(jī)器學(xué)模型。scikit提供了一些預(yù)處理地方法,它們分別是標(biāo)準(zhǔn)化,非線轉(zhuǎn)換,歸一化,二值化,分類特征編碼,缺失值插補,生成多項式特征,如圖六.三所示。圖六.三預(yù)處理有關(guān)分類六.一.一標(biāo)準(zhǔn)化為什么要對數(shù)據(jù)行標(biāo)準(zhǔn)化處理?如表六.一所示,我們可以看到收入這一列數(shù)字特別大,而年齡這一列數(shù)字相比之下就特別小。因此,在某些機(jī)器學(xué)過程,收入特征就會表現(xiàn)地比較"搶眼",而影響最終地模型效果。所以我們要將其單位去除,讓大家在同一起跑線上。我們需要去除這種影響,將該表轉(zhuǎn)換成另一種形式,如表六.二所示。在scikit提供了scale方法來對數(shù)據(jù)行標(biāo)準(zhǔn)化。(一)導(dǎo)入有關(guān)模塊。(二)導(dǎo)入有關(guān)數(shù)據(jù),這里我們將上述表格導(dǎo)入。(三)將數(shù)據(jù)標(biāo)準(zhǔn)化。(四)查看標(biāo)準(zhǔn)化結(jié)果。(五)查看標(biāo)準(zhǔn)化后地均值。(六)查看標(biāo)準(zhǔn)化后地標(biāo)準(zhǔn)差。六.一.二非線轉(zhuǎn)換類似于標(biāo)準(zhǔn)化處理,它是將數(shù)據(jù)映射到[零,一]地均勻分布上。非線轉(zhuǎn)換將每個特征轉(zhuǎn)換為相同地范圍內(nèi)或者分布內(nèi)。通過這個變化可以將異常地數(shù)據(jù)變得更滑從而受異常值地影響也會變小,但是它卻一定程度上改變了特征內(nèi)部與特征之間地距離與有關(guān)。(一)導(dǎo)入有關(guān)模塊。(二)創(chuàng)建非線轉(zhuǎn)換對象。(三)導(dǎo)入有關(guān)數(shù)據(jù)。(四)行線轉(zhuǎn)換。(五)查看線轉(zhuǎn)換地結(jié)果,所有地數(shù)值都被轉(zhuǎn)換[零,一]區(qū)間內(nèi)地數(shù)字。六.一.三歸一化歸一化地作用是縮放單個樣本,使其具有單位范數(shù)。有兩種歸一化地方式,分別是范數(shù)"L一"與范數(shù)"L二"。(一)導(dǎo)入有關(guān)模塊。(二)導(dǎo)入有關(guān)數(shù)據(jù)。(三)歸一化數(shù)據(jù)。(四)查看歸一化之后地結(jié)果,這里要注意,歸一化地是針對每一行做地。六.一.四二值化二值化地作用是將數(shù)值型地特征值轉(zhuǎn)換為布爾值。(一)導(dǎo)入有關(guān)模塊。(二)導(dǎo)入有關(guān)數(shù)據(jù)。(三)查看最后地編碼結(jié)果,我們可以看到所有大于一零零地數(shù)字都被編碼為一,所有小于一零零地數(shù)字都被編碼為零。(四)查看有關(guān)結(jié)果。六.一.五分類特征編碼在機(jī)器學(xué)過程,我們經(jīng)常會遇到字符串形式地特征。這個時候我們就需要將這些字符串類型地特征,轉(zhuǎn)換為數(shù)值型地特征。比如說"老師","學(xué)生","主任",我們需要將這些字符串轉(zhuǎn)換為整數(shù)。比如講"老師"轉(zhuǎn)換為零,將"學(xué)生"轉(zhuǎn)換為一,將"主任"轉(zhuǎn)換為二。這樣地轉(zhuǎn)換會提高機(jī)器學(xué)地效率,但是這樣地轉(zhuǎn)換還是不夠地,因為這樣連續(xù)數(shù)值地輸入,分類器會認(rèn)為類別之間是有序地,但實際上"老師","學(xué)生","主任"它們時間是無序地,而且沒有大小地區(qū)別。這個時候我們就需要將這些數(shù)值一步轉(zhuǎn)換。我們地解決思路就是將某個特征n個可能,轉(zhuǎn)換為n個特征,轉(zhuǎn)換后地特征是零,一二值類型數(shù)據(jù)。(一)導(dǎo)入有關(guān)模塊。(二)創(chuàng)建One-Hot編碼對象。(三)導(dǎo)入有關(guān)數(shù)據(jù)。(四)訓(xùn)練One-Hot編碼對象。(五)查看編碼后地結(jié)果。我們可以看到第一列有四種情況,所以第一列會被分為四個列。也就是說原來地。零表示為[一,零,零,零],一表示為[零,一,零,零],二表示為[零,零,一,零],三表示為[零,零,零,一]。同樣地道理,第二列也被分為四個列,四表示為[一,零,零,零],五表示為[零,一,零,零],六表示為[零,零,一,零],七表示為[零,零,零,一]。六.一.六缺失值插補我們所獲得地數(shù)據(jù)不一定是完整地數(shù)據(jù),里面可能存在著缺失地情況。這時候就需要對這些缺失地數(shù)據(jù)做一些處理,以補全它們。(一)導(dǎo)入有關(guān)模塊。(二)創(chuàng)建插值對象。(三)導(dǎo)入有關(guān)數(shù)據(jù)。(四)訓(xùn)練插值模塊。(五)行轉(zhuǎn)換。在axis=零地情況下,第一列有兩個非空值,它們地均值是一.五,所以空值全部都用一.五填充。六.一.七生成多項式特征在機(jī)器學(xué),有些時候數(shù)據(jù)集地特征很少,這個時候就需要我們自己根據(jù)以后地特征構(gòu)造一些新地特征出來。(一)導(dǎo)入有關(guān)模塊。(二)創(chuàng)建多項式特征對象。(三)導(dǎo)入有關(guān)數(shù)據(jù)。(四)訓(xùn)練多項式特征對象。(五)將原數(shù)據(jù)轉(zhuǎn)換為多項式,X地特征已經(jīng)從轉(zhuǎn)換為。六.二降維在機(jī)器學(xué)過程,我們可能會碰到一些維度非常多地數(shù)據(jù),當(dāng)使用這些復(fù)雜維度做學(xué)時可能會產(chǎn)生兩個問題:維度多會造成過度擬合。維度多會增加機(jī)器學(xué)算法地復(fù)雜度,從而降低機(jī)器學(xué)地效率。scikit-learn庫提供了三種降低維度地方法,它們分別是PCA,隨機(jī)投影與特征凝聚,如圖六.四所示。在本書地第一六章PCA降維我們會詳細(xì)講解其方法與思想。圖六.四scikit-learn提供地降維方法六.三有監(jiān)督學(xué),無監(jiān)督學(xué)有監(jiān)督學(xué)是指在訓(xùn)練模型地過程,已知正確結(jié)果。scikit-learn提供了多種有監(jiān)督學(xué)地方法,如圖六.五所示。本書地第八章至第一五章都屬于有監(jiān)督學(xué)地范疇。無監(jiān)督學(xué)是指在訓(xùn)練模型過程,不給出目地變量,讓算法自動找尋訓(xùn)練集地規(guī)律,如圖六.六所示。本書地第一八章聚類具體會闡述無監(jiān)督學(xué)思想與方法。六.四模型評估當(dāng)我們對一個數(shù)據(jù)集選定模型,并行訓(xùn)練之后,我們需要對這個模型行評估,以判定這個模型地優(yōu)劣。不好地模型通常有以下兩種情況:欠擬合。欠擬合是指模型不能很好地適應(yīng)與擬合已有地數(shù)據(jù)。欠擬合地模型在訓(xùn)練集與測試集上表現(xiàn)得都會很差。過度擬合。過度擬合是指模型非常完美地適應(yīng)與擬合已有地數(shù)據(jù),這將導(dǎo)致該模型地泛化能力嚴(yán)重下降。過度擬合在訓(xùn)練集上表現(xiàn)幾乎完美,而在測試集上則表現(xiàn)地很差。所以,最優(yōu)地模型應(yīng)該是欠擬合與過度擬合地折,它既較好地擬合了訓(xùn)練集又具有很好地泛化能力,這種泛化能力主要體現(xiàn)就是在測試集上也會有很好地表現(xiàn)。六.四.一測試集評分在scikit-learn包,提供了測試集評分地方法。讓我們看一個簡單地例子:(一)導(dǎo)入有關(guān)模塊。(二)導(dǎo)入有關(guān)數(shù)據(jù),這里導(dǎo)入鳶尾花數(shù)據(jù)集。(三)查看數(shù)據(jù)集屬數(shù)據(jù)形狀。(四)查看數(shù)據(jù)集目地變量數(shù)據(jù)形狀。(五)將數(shù)據(jù)集分割為訓(xùn)練集與測試集,分割比例是四:一。(六)查看訓(xùn)練集數(shù)據(jù)。(七)查看訓(xùn)練集數(shù)據(jù)。(八)查看學(xué)集數(shù)據(jù)。(九)查看學(xué)集數(shù)據(jù)。(一零)創(chuàng)建knn分類器對象。(一一)訓(xùn)練模型。(一二)對測試結(jié)果行評分??磥磉@個模型地得分不錯。我們可以調(diào)整模型不同地參數(shù)對其最后地得分行比較,然后選擇得分較多地參數(shù)模型作為最終地結(jié)果。但是,在不同地實驗過程,我們地測試集可能在某次實驗上,同訓(xùn)練集同時出現(xiàn)了過度擬合地情況,從而導(dǎo)致了在真實地應(yīng)用過程,泛化能力降低地結(jié)果。我們現(xiàn)在對數(shù)據(jù)集地劃分,如圖六.七所示。為了避免這個種情況地發(fā)生,我們需要再設(shè)置一個"驗證集",當(dāng)模型訓(xùn)練完成以后,現(xiàn)在驗證集上對模型行評估,然后選擇評估分?jǐn)?shù)最高地模型,再在測試集上行最終地測試,如圖六.八所示。圖六.七將數(shù)據(jù)分割為訓(xùn)練集與測試集,可能同時出現(xiàn)過度擬合圖六.八將數(shù)據(jù)分割為訓(xùn)練集,驗證集與測試集這是比較標(biāo)準(zhǔn)地模型評估過程,但是這并不是最優(yōu)地辦法。雖然"驗證集"地選擇,有效地避免地測試集出現(xiàn)過度擬合地情況,但是現(xiàn)在我們已經(jīng)將元數(shù)據(jù)分為了三個部分:"訓(xùn)練集","驗證集"與"測試集"。我們大大減少了"訓(xùn)練集"地數(shù)據(jù)量,這可能造成訓(xùn)練地模型效果很差。另外一方面,由于驗證集與測試集,仍然是一次選擇地結(jié)果,所以最后地模型評估結(jié)果有很大地隨機(jī)。叉驗證(Cross-validation)很好地解決了這兩個問題。叉驗證多次選擇了測試集做最后地評估,這有效地避免了隨機(jī)所帶來地誤差。而且叉驗證不需要選擇驗證集,這樣就避免地數(shù)據(jù)地浪費,使得訓(xùn)練集有足夠地樣本數(shù)量。叉驗證最基本地方法是k折叉驗證(k-foldcrossvalidation)。它地原理是,如圖六.九所示。圖六.九叉驗證,白色是訓(xùn)練集,黑色是測試集將原始數(shù)據(jù)隨機(jī)分為k份。每次挑選其k-一份作為訓(xùn)練集,剩余地一分作為測試集行訓(xùn)練。循環(huán)第二步k次,這樣每一份都會被作為測試集。計算k組測試集評估結(jié)果地均值作為模型地最終得分。當(dāng)然叉驗證唯一地缺點就是計算代價相對較高。實現(xiàn)叉驗證可以調(diào)用scikit-learn里面提供地cross_val_score輔助函數(shù)。叉驗證實例如下:(一)導(dǎo)入有關(guān)模塊。(二)導(dǎo)入有關(guān)數(shù)據(jù)集。(三)創(chuàng)建knn分類器對象。(四)對分類器行叉驗證。(五)查看驗證結(jié)果。這里是每次迭代地分?jǐn)?shù),我們可以看到最低地得分只有零.八六,而最高地話是一。(六)查看均值。(七)查看標(biāo)準(zhǔn)差。六.四.二叉驗證迭代器我們已經(jīng)了解了叉驗證地基本思想,接下來我們將會介紹幾個不同地叉迭代器以及它們地使用方法。一.K折KFold會將數(shù)據(jù)集劃分為k個分組,成為折疊(fold)。如果k地值等于數(shù)據(jù)集實例地個數(shù),那么每次地測試集就只有一個,這種處理方式我們成為"留一"。在sci-kit提供了KFold方法來行分組。二.重復(fù)K折叉驗證在KFold方法,是采用地不放回地抽樣方法,在scikit還提供了RepeatedKFold方法來行重復(fù)抽樣。三.留一叉驗證留一叉驗證是K折地特殊情況,既k地值等于數(shù)據(jù)集實例地個數(shù)。留一叉驗證地優(yōu)點是每次訓(xùn)練地訓(xùn)練集都是除了一個樣本之外地所有樣本,所以保證了訓(xùn)練集樣本盡可能大。四.留P叉驗證留P叉驗證是值選定P個樣本做測試集,然后輸出所有可能地訓(xùn)練-測試集對。與LeaveOneOut與KFold不同地地方是,當(dāng)P>一時,測試集會有重疊。五.隨機(jī)排列叉驗證這個方法會將數(shù)據(jù)集分散,隨機(jī)排列,然后劃分為一對測試集與訓(xùn)練集。六.四.三分層叉驗證迭代器有些數(shù)據(jù)集并不像我們想象地分布那么均勻,這樣在訓(xùn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年三季度碳交易市場運行與政策盤點-碳市場擴(kuò)容信號明確成交價量均有提升
- 財務(wù)崗位就業(yè)合同
- 補充耕地epc合同
- 保險合同扣款協(xié)議
- 藥品專業(yè)知識及技能培訓(xùn)
- 塔吊安拆施工方案
- 2024年小學(xué)生交通安全演講稿模版(4篇)
- 2024年物業(yè)工作計劃樣本(二篇)
- 危險化學(xué)品重大危險源管理制度范文(2篇)
- 2024年幼兒園德育工作總結(jié)范文(2篇)
- TRIZ理論-創(chuàng)新方法課件
- 實習(xí)協(xié)議模板(最新版)
- 人教版六年級上學(xué)期科學(xué)4.14《風(fēng)能和水能》教學(xué)課件
- 瀝青混凝土面層夜間施工安全專項方案
- 客戶滿意度及設(shè)備使用情況調(diào)查表
- 國家開放大學(xué)《政治學(xué)原理》章節(jié)自檢自測題參考答案
- 人體五臟六腑 課件
- 智慧樹知到《走進(jìn)故宮》2019期末考試答案
- 醫(yī)院人才梯隊建設(shè)情況匯報
- 動火作業(yè)票填寫模板
- 學(xué)校三年發(fā)展規(guī)劃落實情況評估報告(通用3篇)
評論
0/150
提交評論