![《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例1 監(jiān)督學(xué)習(xí)數(shù)據(jù)預(yù)處理_第1頁](http://file4.renrendoc.com/view8/M01/36/17/wKhkGWcXYp2APeMwAAJilhvRt2Y634.jpg)
![《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例1 監(jiān)督學(xué)習(xí)數(shù)據(jù)預(yù)處理_第2頁](http://file4.renrendoc.com/view8/M01/36/17/wKhkGWcXYp2APeMwAAJilhvRt2Y6342.jpg)
![《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例1 監(jiān)督學(xué)習(xí)數(shù)據(jù)預(yù)處理_第3頁](http://file4.renrendoc.com/view8/M01/36/17/wKhkGWcXYp2APeMwAAJilhvRt2Y6343.jpg)
![《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例1 監(jiān)督學(xué)習(xí)數(shù)據(jù)預(yù)處理_第4頁](http://file4.renrendoc.com/view8/M01/36/17/wKhkGWcXYp2APeMwAAJilhvRt2Y6344.jpg)
![《機(jī)器學(xué)習(xí)-Python實(shí)戰(zhàn)(微課版)》課件 綜合案例1 監(jiān)督學(xué)習(xí)數(shù)據(jù)預(yù)處理_第5頁](http://file4.renrendoc.com/view8/M01/36/17/wKhkGWcXYp2APeMwAAJilhvRt2Y6345.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
綜合案例1第十三章:實(shí)戰(zhàn)案例(一)1.簡介2.
數(shù)據(jù)預(yù)處理問題3.
標(biāo)記編碼方法定義問題
機(jī)器學(xué)習(xí)分為:監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)(也可以用hinton所說的強(qiáng)化學(xué)習(xí))等。
監(jiān)督學(xué)習(xí)(supervisedlearning)是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)(模型參數(shù)),當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測結(jié)果。
監(jiān)督學(xué)習(xí)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹的常見技術(shù)。
常見的有監(jiān)督學(xué)習(xí)算法:回歸分析和統(tǒng)計(jì)分類。最典型的算法是KNN和SVM。第十三章:實(shí)戰(zhàn)案例(一)1.簡介2.
數(shù)據(jù)預(yù)處理問題
準(zhǔn)備工作詳細(xì)步驟3.
標(biāo)記編碼方法準(zhǔn)備工作打開一個(gè)擴(kuò)展名為.py的文件,例如preprocessor.pyimportnumpyasnpfromsklearnimportpreprocessing創(chuàng)建一些樣本數(shù)據(jù):data=np.array([[3,-1.5,2,-5.4],[0,4,-0.3,2.1],[1,3.3,-1.9,-4.3]])第十三章:實(shí)戰(zhàn)案例(一)1.簡介2.
數(shù)據(jù)預(yù)處理問題
準(zhǔn)備工作詳細(xì)步驟3.
標(biāo)記編碼方法詳細(xì)步驟步驟一:均值移除(Meanremoval)
把每個(gè)特征的平均值移除,以保證特征均值為0(即標(biāo)準(zhǔn)化處理)。這樣做可以消除特征彼此間的偏差(bias)。data_standardized=preprocessing.scale(data)print"\nMean=",data_standardized.mean(axis=0)print"Stddeviation=",data_standardized.std(axis=0)詳細(xì)步驟運(yùn)行代碼:$pythonpreprocessor.py命令行工具中將顯示以下結(jié)果:
Mean=[5.55111512e-17-1.11022302e-16-7.40148683e-17-7.40148683e-17]Stddeviation=[1.1.1.1.]特征均值幾乎是`0`,而且標(biāo)準(zhǔn)差為`1`。詳細(xì)步驟步驟二:范圍縮放(Scaling)data_scaler=preprocessing.MinMaxScaler(feature_range=(0,1))data_scaled=data_scaler.fit_transform(data)print"\nMinmaxscaleddata=",data_scaled范圍縮放之后,所有數(shù)據(jù)點(diǎn)的特征數(shù)值都位于指定的數(shù)值范圍內(nèi)
Minmaxscaleddata:[[1.0.1.0.][0.1.0.410256411.][0.333333330.872727270.14666667]]詳細(xì)步驟步驟三:歸一化(Normalization)
數(shù)據(jù)歸一化用于需要對(duì)特征向量的值進(jìn)行調(diào)整時(shí),以保證每個(gè)特征向量的值都縮放到相同的數(shù)值范圍。data_normalized=preprocessing.normalize(data,norm='l1')print"\nL1normalizeddata=",data_normalized
Minmaxscaleddata:[[1.0.1.0.][0.1.0.410256411.][0.333333330.872727270.14666667]]詳細(xì)步驟步驟三:歸一化(Normalization)
用于需要對(duì)特征向量的值進(jìn)行調(diào)整時(shí),以保證每個(gè)特征向量的值都縮放到相同的數(shù)值范圍。data_normalized=preprocessing.normalize(data,norm='l1')print"\nL1normalizeddata=",data_normalized詳細(xì)步驟結(jié)果:L1normalizeddata:[[0.25210084-0.126050420.16806723-0.45378151][0.0.625-0.0468750.328125][0.09523810.31428571-0.18095238-0.40952381]]這個(gè)方法經(jīng)常用于確保數(shù)據(jù)點(diǎn)沒有因?yàn)樘卣鞯幕拘再|(zhì)而產(chǎn)生較大差異,即確保數(shù)據(jù)處于同一數(shù)量級(jí),提高不同特征數(shù)據(jù)的可比性。定義問題步驟四:二值化(Binarization)用于將數(shù)值特征向量轉(zhuǎn)換為布爾類型向量。data_binarized=preprocessing.Binarizer(threshold=1.4).transform(data)print"\nBinarizeddata=",data_binarized詳細(xì)步驟Binarizeddata:[[1.0.1.0.][0.1.0.1.][0.1.0.0.]]結(jié)果:詳細(xì)步驟以把獨(dú)熱編碼看作是一種收緊(tighten)特征向量的工具。它把特征向量的每個(gè)特征與特征的非重復(fù)總數(shù)相對(duì)應(yīng),通過one-of-k的形式對(duì)每個(gè)值進(jìn)行編碼。特征向量的每個(gè)特征值都按照這種方式編碼,這樣可以更加有效地表示空間。步驟五:獨(dú)熱編碼詳細(xì)步驟encoder=preprocessing.OneHotEncoder()encoder.fit([[0,2,1,12],[1,3,5,3],[2,3,2,12],[1,2,4,3]])encoded_vector=encoder.transform([[2,3,5,3]]).toarray()print"\nEncodedvector=",encoded_vector結(jié)果:Encodedvector:[[0.0.1.0.1.0.0.0.1.1.0.]]第十三章:實(shí)戰(zhàn)案例(一)1.簡介2.
數(shù)據(jù)預(yù)處理技術(shù)3.
標(biāo)記編碼方法標(biāo)記編碼方法步驟一:新建一個(gè)Python文件,然后導(dǎo)入preprocessing程序包:fromsklearnimportpreprocessing步驟二:這個(gè)程序包包含許多數(shù)據(jù)預(yù)處理需要的函數(shù)。定義一個(gè)標(biāo)記編碼器(labelencoder):label_encoder=preprocessing.LabelEncoder()步驟三:label_encoder對(duì)象知道如何理解單詞標(biāo)記:input_classes=['audi','ford','audi','toyota','ford','bmw']步驟四:標(biāo)記編碼:label_encoder.fit(input_classes)print"\nClassmapping:"fori,iteminenumerate(label_encoder.classes_):printitem,'-->',i標(biāo)記編碼方法步驟五:運(yùn)行代碼,命令行工具中顯示下面的結(jié)果:Classmapping:audi-->0bmw-->1ford-->2toyota-->3步驟六:
labels=['toyota','ford','audi']encoded_labels=label_encoder.transform(labels)print"\nLabels=",labelsprint"Encodedlabels=",list(encoded_labels)結(jié)果:
Labels=['toyota','ford','audi']Encodedlabels=[3,2,0]標(biāo)記編碼方法步驟七:encoded_labels=[2,1,0,3,1]decoded_labels=label_encoder.inverse_transform(encoded_labels)prin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國液壓分塊機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國三輪摩托車發(fā)電機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國電子健康稱數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國深度游標(biāo)卡尺數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國恒壓供水實(shí)驗(yàn)裝置數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國輪胎拆裝機(jī)市場調(diào)查研究報(bào)告
- 2025-2030年可調(diào)節(jié)RGB燈光效果的耳機(jī)行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2025-2030年地下物流管道系統(tǒng)行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 2025-2030年數(shù)字化拼版軟件創(chuàng)新行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 2025-2030年手表DIY體驗(yàn)店行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 2025年度高端商務(wù)車輛聘用司機(jī)勞動(dòng)合同模板(專業(yè)版)4篇
- 2025年福建福州市倉山區(qū)國有投資發(fā)展集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- GB/T 45107-2024表土剝離及其再利用技術(shù)要求
- 五年級(jí)上冊(cè)脫式計(jì)算100題及答案
- 普通地質(zhì)學(xué)教材
- 反恐C-TPAT程序文件整套(通用)
- 2022年全國高考詩歌鑒賞試題-教學(xué)課件
- 天津華寧KTC101說明書
- 2023-2024學(xué)年浙江省杭州市小學(xué)語文六年級(jí)上冊(cè)期末深度自測試題
- 縣道及以上公路保潔考核檢查評(píng)分表
- 警燈、警報(bào)器使用證申請(qǐng)表
評(píng)論
0/150
提交評(píng)論