機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件_第1頁
機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件_第2頁
機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件_第3頁
機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件_第4頁
機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件_第5頁
已閱讀5頁,還剩245頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

圖靈測試(1950)“人工智能之父”

艾倫.圖靈圖靈測試(1950)“人工智能之父”1馬文·李·閔斯基(英語:MarvinLeeMinsky,1927年8月9日-2016年1月24日),科學(xué)家,專長于認知科學(xué)與人工智能領(lǐng)域,麻省理工學(xué)院人工智能實驗室的創(chuàng)始人之一,著有幾部人工智能和哲學(xué)方面的作品。1969年,因為在人工智能領(lǐng)域的貢獻,獲得圖靈獎。馬文·李·閔斯基(英語:MarvinLeeMinsky,2人工智能機器學(xué)習(xí)深度學(xué)習(xí)人工智能機器學(xué)習(xí)深度學(xué)習(xí)3新聞一“小”一“同”南方都市報的“小南”,廣州日報的“阿同”機器人新聞一“小”一“同”南方都市報的“小南”,廣州日報的“阿同”4機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件5機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件6圖片藝術(shù)化GAN神經(jīng)網(wǎng)絡(luò):圖片藝術(shù)化GAN神經(jīng)網(wǎng)絡(luò):7iphoneXiphoneX8機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件9機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件10機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件11機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件12機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件13課程定位以及學(xué)習(xí)目標以算法、案例為驅(qū)動的學(xué)習(xí),淺顯易懂的數(shù)學(xué)知識掌握算法基本的原理,能夠結(jié)合場景解決實際問題參考書比較晦澀難懂,不建議去直接讀,需要一些基本的數(shù)學(xué)素養(yǎng)課程定位以及學(xué)習(xí)目標以算法、案例為驅(qū)動的學(xué)習(xí),淺顯易懂的數(shù)學(xué)14企業(yè)現(xiàn)狀分析企業(yè)現(xiàn)狀分析15課程第一天1、機器學(xué)習(xí)概述2、數(shù)據(jù)來源與類型3、數(shù)據(jù)的特征工程4、機器學(xué)習(xí)基礎(chǔ)課程第一天1、機器學(xué)習(xí)概述16機器學(xué)習(xí)概述1、什么是機器學(xué)習(xí)2、為什么需要機器學(xué)習(xí)3、機器學(xué)習(xí)的應(yīng)用場景機器學(xué)習(xí)概述1、什么是機器學(xué)習(xí)17機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件18什么是機器學(xué)習(xí)機器學(xué)習(xí)是從數(shù)據(jù)中自動分析獲得規(guī)律(模型),并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測什么是機器學(xué)習(xí)機器學(xué)習(xí)是從數(shù)據(jù)中自動分析獲得規(guī)律(模型),并19結(jié)果結(jié)果20搜狗廣告推薦搜狗廣告推薦21為什么需要機器學(xué)習(xí)解放生產(chǎn)力解決專業(yè)問題提供社會便利智能客服不知疲倦進行24小時作業(yè)城市大腦杭州ET醫(yī)療幫助看病為什么需要機器學(xué)習(xí)解放生產(chǎn)力解決專業(yè)問題提供社會便利智能客服22機器學(xué)習(xí)應(yīng)用場景自然語言處理計算機視覺無人駕駛推薦系統(tǒng)機器學(xué)習(xí)應(yīng)用場景自然語言處理計算機視覺無人駕駛推薦系統(tǒng)23數(shù)據(jù)來源與類型1、數(shù)據(jù)來源2、數(shù)據(jù)類型3、可用的數(shù)據(jù)集數(shù)據(jù)來源與類型1、數(shù)據(jù)來源24數(shù)據(jù)來源企業(yè)日益積累的大量數(shù)據(jù)(互聯(lián)網(wǎng)公司更為顯著)政府掌握的各種數(shù)據(jù)科研機構(gòu)的實驗數(shù)據(jù)…...數(shù)據(jù)來源企業(yè)日益積累的大量數(shù)據(jù)(互聯(lián)網(wǎng)公司更為顯著)25機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件26我們來看看下面兩組數(shù)據(jù),說說它們的區(qū)別?特定范圍內(nèi)的汽車數(shù)量、人口數(shù)量、班級數(shù)特定范圍內(nèi)的票房數(shù)、長度、重量我們來看看下面兩組數(shù)據(jù),說說它們的區(qū)別?特定范圍內(nèi)的汽車數(shù)量27數(shù)據(jù)類型離散型數(shù)據(jù):由記錄不同類別個體的數(shù)目所得到的數(shù)據(jù),又稱計數(shù)數(shù)據(jù),所

有這些數(shù)據(jù)全部都是整數(shù),而且不能再細分,也不能進一步提高他

們的精確度。連續(xù)型數(shù)據(jù):變量可以在某個范圍內(nèi)取任一數(shù),即變量的取值可以是連續(xù)

的,如,長度、時間、質(zhì)量值等,這類整數(shù)通常是非整數(shù),含有小數(shù)

部分。注:只要記住一點,離散型是區(qū)間內(nèi)不可分,連續(xù)型是區(qū)間內(nèi)可分數(shù)據(jù)類型離散型數(shù)據(jù):由記錄不同類別個體的數(shù)目所得到的數(shù)據(jù),又28數(shù)據(jù)的類型將是機器學(xué)習(xí)模型不同問題不同處理的依據(jù)?將在后面機器學(xué)習(xí)模型選擇時講解!數(shù)據(jù)類型的不同應(yīng)用數(shù)據(jù)的類型將是機器學(xué)習(xí)模型不同問題不同處理的依據(jù)?將在后面機29可用數(shù)據(jù)集Kaggle特點:1、大數(shù)據(jù)競賽平臺

2、80萬科學(xué)家

3、真實數(shù)據(jù)

4、數(shù)據(jù)量巨大UCI特點:1、收錄了360個數(shù)據(jù)集

2、覆蓋科學(xué)、生活、經(jīng)濟等領(lǐng)域

3、數(shù)據(jù)量幾十萬scikit-learn特點:1、數(shù)據(jù)量較小

2、方便學(xué)習(xí)可用數(shù)據(jù)集Kaggle特點:1、大數(shù)據(jù)競賽平臺UCI特點:130常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成結(jié)構(gòu):特征值+目標值8093080100951120801030100目標值房子面積房子位置房子樓層房子朝向數(shù)據(jù)1數(shù)據(jù)2數(shù)據(jù)3注:有些數(shù)據(jù)集可以沒有目標值常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成結(jié)構(gòu):特征值+目標值8093080131如何利用工具自己進行對原始數(shù)據(jù)(非連續(xù)型)的處理?如何利用工具自己進行對原始數(shù)據(jù)(非連續(xù)型)的處理?32數(shù)據(jù)的特征工程1、特征工程是什么2、特征工程的意義3、scikit-learn庫介紹4、數(shù)據(jù)的特征抽取5、數(shù)據(jù)的特征處理6、數(shù)據(jù)的特征選擇7、降維數(shù)據(jù)的特征工程1、特征工程是什么33特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測模型的潛在問題的特征的過程,從而提高了對未知數(shù)據(jù)的模型準確性特征工程是什么特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測模型的潛在問題的特征34機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件35特征工程的意義直接影響模型的預(yù)測結(jié)果特征工程的意義直接影響模型的預(yù)測結(jié)果36Scikit-learn庫介紹Python語言的機器學(xué)習(xí)工具Scikit-learn包括許多知名的機器學(xué)習(xí)算法的實現(xiàn)Scikit-learn文檔完善,容易上手,豐富的API,使其在學(xué)術(shù)界頗受歡迎。目前穩(wěn)定版本0.18Scikit-learn庫介紹Python語言的機器學(xué)習(xí)工具37安裝創(chuàng)建一個基于Python3的虛擬環(huán)境(可以在你自己已有的虛擬環(huán)境中):mkvirtualenv

–p

/usr/bin/python3.5

ml3在ubuntu的虛擬環(huán)境當中運行以下命令pip3installScikit-learn然后通過導(dǎo)入命令查看是否可以使用:importsklearn注:安裝scikit-learn需要Numpy,pandas等庫安裝創(chuàng)建一個基于Python3的虛擬環(huán)境(可以在你自己已有的38數(shù)據(jù)的特征抽取1、特征抽取實例演示2、sklearn特征抽取API3、字典特征抽取4、文本特征抽取數(shù)據(jù)的特征抽取1、特征抽取實例演示39通過演示得出結(jié)論:特征抽取針對非連續(xù)型數(shù)據(jù)特征抽取對文本等進行特征值化注:特征值化是為了計算機更好的去理解數(shù)據(jù)通過演示得出結(jié)論:注:特征值化是為了計算機更好的去理解數(shù)據(jù)40sklearn特征抽取APIsklearn.feature_extractionsklearn特征抽取APIsklearn.feature_41字典特征抽取作用:對字典數(shù)據(jù)進行特征值化類:sklearn.feature_extraction.DictVectorizer字典特征抽取作用:對字典數(shù)據(jù)進行特征值化類:sklearn.42DictVectorizer語法DictVectorizer(sparse=True,…)DictVectorizer.fit_transform(X)X:字典或者包含字典的迭代器返回值:返回sparse矩陣DictVectorizer.inverse_transform(X)X:array數(shù)組或者sparse矩陣返回值:轉(zhuǎn)換之前數(shù)據(jù)格式DictVectorizer.get_feature_names()返回類別名稱DictVectorizer.transform(X)按照原先的標準轉(zhuǎn)換DictVectorizer語法DictVectorizer43實例化類DictVectorizer調(diào)用fit_transform方法輸入數(shù)據(jù)并轉(zhuǎn)換注意返回格式[{'city':'北京','temperature':100}{'city':'上海','temperature':60}{'city':'深圳','temperature':30}]流程實例化類DictVectorizer[{'city':'北44one-hot編碼分析one-hot編碼分析45機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件46文本特征抽取作用:對文本數(shù)據(jù)進行特征值化類:sklearn.feature_extraction.text.CountVectorizer文本特征抽取作用:對文本數(shù)據(jù)進行特征值化類:sklearn.47CountVectorizer語法CountVectorizer(max_df=1.0,min_df=1,…)返回詞頻矩陣CountVectorizer.fit_transform(X,y)X:文本或者包含文本字符串的可迭代對象返回值:返回sparse矩陣CountVectorizer.inverse_transform(X)X:array數(shù)組或者sparse矩陣返回值:轉(zhuǎn)換之前數(shù)據(jù)格式CountVectorizer.get_feature_names()返回值:單詞列表CountVectorizer語法CountVectoriz48實例化類CountVectorizer調(diào)用fit_transform方法輸入數(shù)據(jù)并轉(zhuǎn)換注意返回格式,利用toarray()進行sparse矩陣轉(zhuǎn)換array數(shù)組["lifeisshort,ilikepython","lifeistoolong,idislikepython"]流程實例化類CountVectorizer["lifeiss49機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件50結(jié)果對比英文結(jié)果中文結(jié)果結(jié)果對比英文結(jié)果中文結(jié)果51如何去對中文文本特征值化需要對中文進行分詞才能詳細的進行特征值化不支持單個中文字!如何去對中文文本特征值化需要對中文進行分詞才能詳細的進行特征52jieba分詞下載pip3installjieba使用importjiebajieba.cut(“我是一個好程序員”)注意返回值:詞語生成器jieba分詞下載pip3installjieba使用i53案例:對三段話進行特征值化1、今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。2、我們看到的從很遠星系來的光是在幾百萬年之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。3、如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。案例:對三段話進行特征值化1、今天很殘酷,明天更殘酷,后天很54案例:對三段話進行特征值化——流程準備句子,利用jieba.cut進行分詞實例化CountVectorizer將分詞結(jié)果變成字符串當作fit_transform的輸入值案例:對三段話進行特征值化——流程準備句子,利用jieba.55“共享”其它詞語詞語占比“車”文章類型???“經(jīng)濟”“證券”“銀行”其它詞語“共享”其它詞語詞語占比“車”文章類型???“經(jīng)濟”“證券”56類:sklearn.feature_extraction.text.TfidfVectorizerTF-IDFTF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的概率高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF作用:用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。類:sklearn.feature_extraction.t57TfidfVectorizer語法TfidfVectorizer(stop_words=None,…)返回詞的權(quán)重矩陣TfidfVectorizer.fit_transform(X,y)X:文本或者包含文本字符串的可迭代對象返回值:返回sparse矩陣TfidfVectorizer.inverse_transform(X)X:array數(shù)組或者sparse矩陣返回值:轉(zhuǎn)換之前數(shù)據(jù)格式TfidfVectorizer.get_feature_names()返回值:單詞列表TfidfVectorizer語法TfidfVectoriz58為什么需要TfidfVectorizer分類機器學(xué)習(xí)算法的的重要依據(jù)為什么需要TfidfVectorizer分類機器學(xué)習(xí)算法的的59數(shù)據(jù)的特征處理1、特征處理的方法2、sklearn特征處理API數(shù)據(jù)的特征處理1、特征處理的方法60特征處理是什么通過特定的統(tǒng)計方法(數(shù)學(xué)方法)將數(shù)據(jù)轉(zhuǎn)換成算法要求的數(shù)據(jù)特征處理是什么通過特定的統(tǒng)計方法(數(shù)學(xué)方法)將數(shù)據(jù)轉(zhuǎn)換成算法619021040604154575313461.0.0.0.0.1.1.0.830.50.50.61.284563085491第一組第二組特征1特征2特征3特征4特征1特征2特征3特征4特征1特征2特征3特征4特征1特征2特征39021040604154575313461.0.0.0.062數(shù)值型數(shù)據(jù):標準縮放: 1、歸一化

2、標準化

3、缺失值類別型數(shù)據(jù):one-hot編碼時間類型:時間的切分數(shù)值型數(shù)據(jù):標準縮放:63sklearn特征處理APIsklearn.preprocessing

sklearn特征處理APIsklearn.preproc64歸一化特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)映射到(默認為[0,1])之間

公式:注:作用于每一列,max為一列的最大值,min為一列的最小值,那么X’’為最終結(jié)果,mx,mi分別為指定區(qū)間值默認mx為1,mi為0

歸一化特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)映射到(默認為[0,65歸一化公式計算過程902104060415457531346特征1特征2特征3特征4特征1特征2特征3特征4注:里面是第一步,還需要第二步乘以(1-0)+0歸一化公式計算過程90210406041545753134666sklearn歸一化API:sklearn.preprocessing.MinMaxScalersklearn歸一化APIsklearn歸一化API:sklearn.prepro67MinMaxScaler語法MinMaxScalar(feature_range=(0,1)…)每個特征縮放到給定范圍(默認[0,1])MinMaxScalar.fit_transform(X)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后的形狀相同的arrayMinMaxScaler語法MinMaxScalar(fea681、實例化MinMaxScalar2、通過fit_transform轉(zhuǎn)換歸一化步驟[[90,2,10,40],[60,4,15,45],[75,3,13,46]]1、實例化MinMaxScalar歸一化步驟[[90,2,169歸一化案例:約會對象數(shù)據(jù)相親約會對象數(shù)據(jù),這個樣本時男士的數(shù)據(jù),三個特征,玩游戲所消耗時間的百分比、每年獲得的飛行??屠锍虜?shù)、每周消費的冰淇淋公升數(shù)。然后有一個所屬類別,被女士評價的三個類別,不喜歡didnt、魅力一般small、極具魅力large也許也就是說飛行里程數(shù)對于結(jié)算結(jié)果或者說相親結(jié)果影響較大,但是統(tǒng)計的人覺得這三個特征同等重要。144887.1534691.673904 smallDoses

260521.4418710.805124 didntLike

7513613.1473940.428964 didntLike

383441.6697880.134296 didntLike

7299310.1417401.032955 didntLike

359486.8307921.213192 largeDoses

4266613.2763690.543880 largeDoses

674978.6315770.749278 didntLike

3548312.2731691.508053 largeDoses

502423.7234980.831917 didntLike里程數(shù)公升數(shù)消耗時間比評價歸一化案例:約會對象數(shù)據(jù)相親約會對象數(shù)據(jù),這個樣本時男士的數(shù)70問題:如果數(shù)據(jù)中異常點較多,會有什么影響?問題:如果數(shù)據(jù)中異常點較多,會有什么影響?71注意在特定場景下最大值最小值是變化的,另外,最大值與最小值非常容易受異常點影響,所以這種方法魯棒性較差,只適合傳統(tǒng)精確小數(shù)據(jù)場景。歸一化總結(jié)注意在特定場景下最大值最小值是變化的,另外,最大值與最小值非72標準化1、特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)變換到均值為0,方差為1范圍內(nèi)

2、公式:

標準化1、特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)變換到均值為0,7322.5

3平均值為(1.5+2+2.5+5)/4=2.75平均值為(2.5+4.5+2+3)/4=31.552.54.52對于歸一化來說:如果出現(xiàn)異常點,影響了最大值和最小值,那么結(jié)果顯然

會發(fā)生改變對于標準化來說:如果出現(xiàn)異常點,由于具有一定數(shù)據(jù)量,少量的異常點對

于平均值的影響并不大,從而方差改變較小。結(jié)合歸一化來談標準化22.53平均值為(1.5+2+2.5+5)/4=2.74sklearn特征化API:scikit-learn.preprocessing.StandardScalersklearn特征化APIsklearn特征化API:scikit-learn.p75StandardScaler語法StandardScaler(…)處理之后每列來說所有數(shù)據(jù)都聚集在均值0附近方差為1StandardScaler.fit_transform(X,y)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后的形狀相同的arrayStandardScaler.mean_原始數(shù)據(jù)中每列特征的平均值StandardScaler.std_原始數(shù)據(jù)每列特征的方差StandardScaler語法StandardScaler76[[1.,-1.,3.],[2.,4.,2.],[4.,6.,-1.]]標準化步驟1、實例化StandardScaler2、通過fit_transform轉(zhuǎn)換[[1.,-1.,3.],標準化步驟1、實例化Stan77在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場景。標準化總結(jié)在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場景。標78如何處理數(shù)據(jù)中的缺失值?缺失值如何處理數(shù)據(jù)中的缺失值?缺失值79缺失值處理方法刪除如果每列或者行數(shù)據(jù)缺失值達到一定的比例,建議放棄整行或者整列插補可以通過缺失值每行或者每列的平均值、中位數(shù)來填充1、2、sklearn缺失值A(chǔ)PI:sklearn.preprocessing.Imputer缺失值處理方法刪除如果每列或者行數(shù)據(jù)缺失值達到一定的比例,建80Imputer語法Imputer(missing_values='NaN',

strategy='mean',

axis=0)完成缺失值插補Imputer.fit_transform(X,y)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后的形狀相同的arrayImputer語法Imputer(missing_value81[[1,2],[np.nan,3],[7,6]]Imputer流程1、初始化Imputer,指定”缺失值”,指定填補策略,指定行或列2、調(diào)用fit_transform注:缺失值也可以是別的指定要替換的值[[1,2],Imputer流程1、初始化Imputer82關(guān)于np.nan(np.NaN)1、numpy的數(shù)組中可以使用np.nan/np.NaN來代替缺失值,屬于float類型2、如果是文件中的一些缺失值,可以替換成nan,通過np.array轉(zhuǎn)化成float型的數(shù)組即可關(guān)于np.nan(np.NaN)1、numpy的數(shù)組中可以83特征選擇1、特征選擇是什么2、sklearn特征選擇API3、其它特征選擇方法特征選擇1、特征選擇是什么84特征選擇原因冗余:部分特征的相關(guān)度高,容易消耗計算性能噪聲:部分特征對預(yù)測結(jié)果有負影響特征選擇原因冗余:部分特征的相關(guān)度高,容易消耗計算性能85特征?1、羽毛顏色2、眼睛寬度3、是否有爪子4、爪子長度特征?86特征選擇就是單純地從提取到的所有特征中選擇部分特征作為訓(xùn)練集特征,特征在選擇前和選擇后可以改變值、也不改變值,但是選擇后的特征維數(shù)肯定比選擇前小,畢竟我們只選擇了其中的一部分特征。特征選擇是什么主要方法(三大武器):Filter(過濾式):VarianceThreshold

Embedded(嵌入式):正則化、決策樹

Wrapper(包裹式)特征選擇就是單純地從提取到的所有特征中選擇部分特征作為訓(xùn)練集87sklearn特征選擇APIsklearn.feature_selection.VarianceThresholdsklearn特征選擇APIsklearn.feature_88VarianceThreshold語法VarianceThreshold(threshold=0.0)刪除所有低方差特征Variance.fit_transform(X,y)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:訓(xùn)練集差異低于threshold的特征將被刪除。默認值是保留所有非零方差特征,即刪除所有樣本中具有相同值的特征。VarianceThreshold語法VarianceThr89[[0,2,0,3],[0,1,4,3],[0,1,1,3]]VarianceThreshold流程(代碼演示)1、初始化VarianceThreshold,指定閥值方差2、調(diào)用fit_transform[[0,2,0,3],VarianceThresho90其他特征選擇方法神經(jīng)網(wǎng)絡(luò)后面具體介紹其他特征選擇方法后面具體介紹91sklearn降維APIsklearn.decomposition

sklearn降維APIsklearn.decomposi92如何最好的對一個立體的物體二維表示PCA(主成分分析)如何最好的對一個立體的物體二維表示PCA(主成分分析)93PCA是什么本質(zhì):PCA是一種分析、簡化數(shù)據(jù)集的技術(shù)目的:是數(shù)據(jù)維數(shù)壓縮,盡可能降低原數(shù)據(jù)的維數(shù)(復(fù)雜度),損失少量信息。作用:可以削減回歸分析或者聚類分析中特征的數(shù)量PCA是什么本質(zhì):PCA是一種分析、簡化數(shù)據(jù)集的技術(shù)94高維度數(shù)據(jù)容易出現(xiàn)的問題特征之間通常是線性相關(guān)的高維度數(shù)據(jù)容易出現(xiàn)的問題特征之間通常是線性相關(guān)的95數(shù)據(jù):(-1,-2)(-1,

0)(

0,

0)(

2,

1)(

0,

1)要求:將這個二維的數(shù)據(jù)簡化成一維?數(shù)據(jù):96機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件97通過公式計算(只做了解)矩陣運算得出P為通過公式計算(只做了解)矩陣運算得出P為98機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件99PCA語法PCA(n_components=None)將數(shù)據(jù)分解為較低維數(shù)空間PCA.fit_transform(X)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后指定維度的arrayPCA語法PCA(n_components=None)PCA100[[2,8,4,5],[6,3,0,8],[5,4,9,1]]PCA流程(代碼演示)1、初始化PCA,指定減少后的維度2、調(diào)用fit_transform[[2,8,4,5],PCA流程(代碼演示)1、初始化PCA101探究:用戶對物品類別的喜好細分降維數(shù)據(jù):products.csv商品信息order_products__prior.csv訂單與商品信息orders.csv

用戶的訂單信息

aisles.csv商品所屬具體物品類別探究:用戶對物品類別的喜好細分降維數(shù)據(jù):102其它降維方法線性判別分析LDA其它降維方法線性判別分析LDA103特征選擇與降維的比較?特征選擇與降維的比較?104機器學(xué)習(xí)基礎(chǔ)1、機器學(xué)習(xí)開發(fā)流程2、機器學(xué)習(xí)模型是什么3、機器學(xué)習(xí)算法分類機器學(xué)習(xí)基礎(chǔ)1、機器學(xué)習(xí)開發(fā)流程105(1)算法是核心,數(shù)據(jù)和計算是基礎(chǔ)需明確幾點問題:(1)算法是核心,數(shù)據(jù)和計算是基礎(chǔ)需明確幾點問題:106(2)找準定位大部分復(fù)雜模型的算法設(shè)計都是算法工程師在做,而我們分析很多的數(shù)據(jù)分析具體的業(yè)務(wù)應(yīng)用常見的算法特征工程、調(diào)參數(shù)、優(yōu)化(2)找準定位107我們應(yīng)該怎么做學(xué)會分析問題,使用機器學(xué)習(xí)算法的目的,想要算法完成何種任務(wù)掌握算法基本思想,學(xué)會對問題用相應(yīng)的算法解決學(xué)會利用庫或者框架解決問題我們應(yīng)該怎么做108機器學(xué)習(xí)開發(fā)流程機器學(xué)習(xí)開發(fā)流程109機器學(xué)習(xí)模型是什么定義:通過一種映射關(guān)系將輸入值到輸出值模型學(xué)習(xí)特征值、目標值被預(yù)測特征值預(yù)測輸出值機器學(xué)習(xí)模型是什么定義:通過一種映射關(guān)系將輸入值到輸出值模型110貓、狗?貓、狗?111科技、體育…?科技、體育…?112月票房下月票房數(shù)據(jù)?月票房下月票房數(shù)據(jù)?113結(jié)合前面講過的數(shù)據(jù)類型,針對剛才三個例子的輸出結(jié)果你能說出區(qū)別嗎?結(jié)合前面講過的數(shù)據(jù)類型,針對剛才三個例子的輸出結(jié)果你能說出區(qū)114機器學(xué)習(xí)算法分類監(jiān)督學(xué)習(xí)分類k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經(jīng)網(wǎng)絡(luò)回歸線性回歸、嶺回歸標注隱馬爾可夫模型(不做要求)無監(jiān)督學(xué)習(xí)聚類k-means機器學(xué)習(xí)算法分類監(jiān)督學(xué)習(xí)115監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)有特征有標簽,即有標準答案分類、回歸無監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)有特征無標簽,即無標準答案聚類監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)有特征有標簽,即有標準答案分類、回歸無監(jiān)督學(xué)116監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)(英語:Supervisedlearning),可以由輸入數(shù)據(jù)中學(xué)到或建立一個模型,并依此模式推測新的結(jié)果。輸入數(shù)據(jù)是由輸入特征值和目標值所組成。函數(shù)的輸出可以是一個連續(xù)的值(稱為回歸),或是輸出是有限個離散值(稱作分類)。監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)(英語:Supervisedlearnin117無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)(英語:Supervisedlearning),可以由輸入數(shù)據(jù)中學(xué)到或建立一個模型,并依此模式推測新的結(jié)果。輸入數(shù)據(jù)是由輸入特征值所組成。無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)(英語:Supervisedlearn118分類問題分類問題119概念:分類是監(jiān)督學(xué)習(xí)的一個核心問題,在監(jiān)督學(xué)習(xí)中,當輸出變量取有限個離散值時,預(yù)測問題變成為分類問題。最基礎(chǔ)的便是二分類問題,即判斷是非,從兩個類別中選擇一個作為預(yù)測結(jié)果;概念:分類是監(jiān)督學(xué)習(xí)的一個核心問題,在監(jiān)督學(xué)習(xí)中,當輸出變量120分類問題的應(yīng)用分類在于根據(jù)其特性將數(shù)據(jù)“分門別類”,所以在許多領(lǐng)域都有廣泛的應(yīng)用在銀行業(yè)務(wù)中,構(gòu)建一個客戶分類模型,按客戶按照貸款風(fēng)險的大小進行分類圖像處理中,分類可以用來檢測圖像中是否有人臉出現(xiàn),動物類別等手寫識別中,分類可以用于識別手寫的數(shù)字文本分類,這里的文本可以是新聞報道、網(wǎng)頁、電子郵件、學(xué)術(shù)論文…分類問題的應(yīng)用分類在于根據(jù)其特性將數(shù)據(jù)“分門別類”,所以在許121回歸問題回歸問題122概念:回歸是監(jiān)督學(xué)習(xí)的另一個重要問題?;貧w用于預(yù)測輸入變量和輸出變量之間的關(guān)系,輸出是連續(xù)型的值。概念:回歸是監(jiān)督學(xué)習(xí)的另一個重要問題?;貧w用于預(yù)測輸入變量和123回歸問題的應(yīng)用回歸在多領(lǐng)域也有廣泛的應(yīng)用房價預(yù)測,根據(jù)某地歷史房價數(shù)據(jù),進行一個預(yù)測金融信息,每日股票走向…回歸問題的應(yīng)用回歸在多領(lǐng)域也有廣泛的應(yīng)用124說一下它們具體問題類別:1、預(yù)測明天的氣溫是多少度?2、預(yù)測明天是陰、晴還是雨?3、人臉年齡預(yù)測?4、人臉識別?說一下它們具體問題類別:125圖靈測試(1950)“人工智能之父”

艾倫.圖靈圖靈測試(1950)“人工智能之父”126馬文·李·閔斯基(英語:MarvinLeeMinsky,1927年8月9日-2016年1月24日),科學(xué)家,專長于認知科學(xué)與人工智能領(lǐng)域,麻省理工學(xué)院人工智能實驗室的創(chuàng)始人之一,著有幾部人工智能和哲學(xué)方面的作品。1969年,因為在人工智能領(lǐng)域的貢獻,獲得圖靈獎。馬文·李·閔斯基(英語:MarvinLeeMinsky,127人工智能機器學(xué)習(xí)深度學(xué)習(xí)人工智能機器學(xué)習(xí)深度學(xué)習(xí)128新聞一“小”一“同”南方都市報的“小南”,廣州日報的“阿同”機器人新聞一“小”一“同”南方都市報的“小南”,廣州日報的“阿同”129機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件130機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件131圖片藝術(shù)化GAN神經(jīng)網(wǎng)絡(luò):圖片藝術(shù)化GAN神經(jīng)網(wǎng)絡(luò):132iphoneXiphoneX133機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件134機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件135機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件136機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件137機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件138課程定位以及學(xué)習(xí)目標以算法、案例為驅(qū)動的學(xué)習(xí),淺顯易懂的數(shù)學(xué)知識掌握算法基本的原理,能夠結(jié)合場景解決實際問題參考書比較晦澀難懂,不建議去直接讀,需要一些基本的數(shù)學(xué)素養(yǎng)課程定位以及學(xué)習(xí)目標以算法、案例為驅(qū)動的學(xué)習(xí),淺顯易懂的數(shù)學(xué)139企業(yè)現(xiàn)狀分析企業(yè)現(xiàn)狀分析140課程第一天1、機器學(xué)習(xí)概述2、數(shù)據(jù)來源與類型3、數(shù)據(jù)的特征工程4、機器學(xué)習(xí)基礎(chǔ)課程第一天1、機器學(xué)習(xí)概述141機器學(xué)習(xí)概述1、什么是機器學(xué)習(xí)2、為什么需要機器學(xué)習(xí)3、機器學(xué)習(xí)的應(yīng)用場景機器學(xué)習(xí)概述1、什么是機器學(xué)習(xí)142機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件143什么是機器學(xué)習(xí)機器學(xué)習(xí)是從數(shù)據(jù)中自動分析獲得規(guī)律(模型),并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測什么是機器學(xué)習(xí)機器學(xué)習(xí)是從數(shù)據(jù)中自動分析獲得規(guī)律(模型),并144結(jié)果結(jié)果145搜狗廣告推薦搜狗廣告推薦146為什么需要機器學(xué)習(xí)解放生產(chǎn)力解決專業(yè)問題提供社會便利智能客服不知疲倦進行24小時作業(yè)城市大腦杭州ET醫(yī)療幫助看病為什么需要機器學(xué)習(xí)解放生產(chǎn)力解決專業(yè)問題提供社會便利智能客服147機器學(xué)習(xí)應(yīng)用場景自然語言處理計算機視覺無人駕駛推薦系統(tǒng)機器學(xué)習(xí)應(yīng)用場景自然語言處理計算機視覺無人駕駛推薦系統(tǒng)148數(shù)據(jù)來源與類型1、數(shù)據(jù)來源2、數(shù)據(jù)類型3、可用的數(shù)據(jù)集數(shù)據(jù)來源與類型1、數(shù)據(jù)來源149數(shù)據(jù)來源企業(yè)日益積累的大量數(shù)據(jù)(互聯(lián)網(wǎng)公司更為顯著)政府掌握的各種數(shù)據(jù)科研機構(gòu)的實驗數(shù)據(jù)…...數(shù)據(jù)來源企業(yè)日益積累的大量數(shù)據(jù)(互聯(lián)網(wǎng)公司更為顯著)150機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件151我們來看看下面兩組數(shù)據(jù),說說它們的區(qū)別?特定范圍內(nèi)的汽車數(shù)量、人口數(shù)量、班級數(shù)特定范圍內(nèi)的票房數(shù)、長度、重量我們來看看下面兩組數(shù)據(jù),說說它們的區(qū)別?特定范圍內(nèi)的汽車數(shù)量152數(shù)據(jù)類型離散型數(shù)據(jù):由記錄不同類別個體的數(shù)目所得到的數(shù)據(jù),又稱計數(shù)數(shù)據(jù),所

有這些數(shù)據(jù)全部都是整數(shù),而且不能再細分,也不能進一步提高他

們的精確度。連續(xù)型數(shù)據(jù):變量可以在某個范圍內(nèi)取任一數(shù),即變量的取值可以是連續(xù)

的,如,長度、時間、質(zhì)量值等,這類整數(shù)通常是非整數(shù),含有小數(shù)

部分。注:只要記住一點,離散型是區(qū)間內(nèi)不可分,連續(xù)型是區(qū)間內(nèi)可分數(shù)據(jù)類型離散型數(shù)據(jù):由記錄不同類別個體的數(shù)目所得到的數(shù)據(jù),又153數(shù)據(jù)的類型將是機器學(xué)習(xí)模型不同問題不同處理的依據(jù)?將在后面機器學(xué)習(xí)模型選擇時講解!數(shù)據(jù)類型的不同應(yīng)用數(shù)據(jù)的類型將是機器學(xué)習(xí)模型不同問題不同處理的依據(jù)?將在后面機154可用數(shù)據(jù)集Kaggle特點:1、大數(shù)據(jù)競賽平臺

2、80萬科學(xué)家

3、真實數(shù)據(jù)

4、數(shù)據(jù)量巨大UCI特點:1、收錄了360個數(shù)據(jù)集

2、覆蓋科學(xué)、生活、經(jīng)濟等領(lǐng)域

3、數(shù)據(jù)量幾十萬scikit-learn特點:1、數(shù)據(jù)量較小

2、方便學(xué)習(xí)可用數(shù)據(jù)集Kaggle特點:1、大數(shù)據(jù)競賽平臺UCI特點:1155常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成結(jié)構(gòu):特征值+目標值8093080100951120801030100目標值房子面積房子位置房子樓層房子朝向數(shù)據(jù)1數(shù)據(jù)2數(shù)據(jù)3注:有些數(shù)據(jù)集可以沒有目標值常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成結(jié)構(gòu):特征值+目標值80930801156如何利用工具自己進行對原始數(shù)據(jù)(非連續(xù)型)的處理?如何利用工具自己進行對原始數(shù)據(jù)(非連續(xù)型)的處理?157數(shù)據(jù)的特征工程1、特征工程是什么2、特征工程的意義3、scikit-learn庫介紹4、數(shù)據(jù)的特征抽取5、數(shù)據(jù)的特征處理6、數(shù)據(jù)的特征選擇7、降維數(shù)據(jù)的特征工程1、特征工程是什么158特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測模型的潛在問題的特征的過程,從而提高了對未知數(shù)據(jù)的模型準確性特征工程是什么特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測模型的潛在問題的特征159機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件160特征工程的意義直接影響模型的預(yù)測結(jié)果特征工程的意義直接影響模型的預(yù)測結(jié)果161Scikit-learn庫介紹Python語言的機器學(xué)習(xí)工具Scikit-learn包括許多知名的機器學(xué)習(xí)算法的實現(xiàn)Scikit-learn文檔完善,容易上手,豐富的API,使其在學(xué)術(shù)界頗受歡迎。目前穩(wěn)定版本0.18Scikit-learn庫介紹Python語言的機器學(xué)習(xí)工具162安裝創(chuàng)建一個基于Python3的虛擬環(huán)境(可以在你自己已有的虛擬環(huán)境中):mkvirtualenv

–p

/usr/bin/python3.5

ml3在ubuntu的虛擬環(huán)境當中運行以下命令pip3installScikit-learn然后通過導(dǎo)入命令查看是否可以使用:importsklearn注:安裝scikit-learn需要Numpy,pandas等庫安裝創(chuàng)建一個基于Python3的虛擬環(huán)境(可以在你自己已有的163數(shù)據(jù)的特征抽取1、特征抽取實例演示2、sklearn特征抽取API3、字典特征抽取4、文本特征抽取數(shù)據(jù)的特征抽取1、特征抽取實例演示164通過演示得出結(jié)論:特征抽取針對非連續(xù)型數(shù)據(jù)特征抽取對文本等進行特征值化注:特征值化是為了計算機更好的去理解數(shù)據(jù)通過演示得出結(jié)論:注:特征值化是為了計算機更好的去理解數(shù)據(jù)165sklearn特征抽取APIsklearn.feature_extractionsklearn特征抽取APIsklearn.feature_166字典特征抽取作用:對字典數(shù)據(jù)進行特征值化類:sklearn.feature_extraction.DictVectorizer字典特征抽取作用:對字典數(shù)據(jù)進行特征值化類:sklearn.167DictVectorizer語法DictVectorizer(sparse=True,…)DictVectorizer.fit_transform(X)X:字典或者包含字典的迭代器返回值:返回sparse矩陣DictVectorizer.inverse_transform(X)X:array數(shù)組或者sparse矩陣返回值:轉(zhuǎn)換之前數(shù)據(jù)格式DictVectorizer.get_feature_names()返回類別名稱DictVectorizer.transform(X)按照原先的標準轉(zhuǎn)換DictVectorizer語法DictVectorizer168實例化類DictVectorizer調(diào)用fit_transform方法輸入數(shù)據(jù)并轉(zhuǎn)換注意返回格式[{'city':'北京','temperature':100}{'city':'上海','temperature':60}{'city':'深圳','temperature':30}]流程實例化類DictVectorizer[{'city':'北169one-hot編碼分析one-hot編碼分析170機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件171文本特征抽取作用:對文本數(shù)據(jù)進行特征值化類:sklearn.feature_extraction.text.CountVectorizer文本特征抽取作用:對文本數(shù)據(jù)進行特征值化類:sklearn.172CountVectorizer語法CountVectorizer(max_df=1.0,min_df=1,…)返回詞頻矩陣CountVectorizer.fit_transform(X,y)X:文本或者包含文本字符串的可迭代對象返回值:返回sparse矩陣CountVectorizer.inverse_transform(X)X:array數(shù)組或者sparse矩陣返回值:轉(zhuǎn)換之前數(shù)據(jù)格式CountVectorizer.get_feature_names()返回值:單詞列表CountVectorizer語法CountVectoriz173實例化類CountVectorizer調(diào)用fit_transform方法輸入數(shù)據(jù)并轉(zhuǎn)換注意返回格式,利用toarray()進行sparse矩陣轉(zhuǎn)換array數(shù)組["lifeisshort,ilikepython","lifeistoolong,idislikepython"]流程實例化類CountVectorizer["lifeiss174機器學(xué)習(xí)與應(yīng)用:機器學(xué)習(xí)概述、特征工程、機器學(xué)習(xí)算法課件175結(jié)果對比英文結(jié)果中文結(jié)果結(jié)果對比英文結(jié)果中文結(jié)果176如何去對中文文本特征值化需要對中文進行分詞才能詳細的進行特征值化不支持單個中文字!如何去對中文文本特征值化需要對中文進行分詞才能詳細的進行特征177jieba分詞下載pip3installjieba使用importjiebajieba.cut(“我是一個好程序員”)注意返回值:詞語生成器jieba分詞下載pip3installjieba使用i178案例:對三段話進行特征值化1、今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。2、我們看到的從很遠星系來的光是在幾百萬年之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。3、如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。案例:對三段話進行特征值化1、今天很殘酷,明天更殘酷,后天很179案例:對三段話進行特征值化——流程準備句子,利用jieba.cut進行分詞實例化CountVectorizer將分詞結(jié)果變成字符串當作fit_transform的輸入值案例:對三段話進行特征值化——流程準備句子,利用jieba.180“共享”其它詞語詞語占比“車”文章類型???“經(jīng)濟”“證券”“銀行”其它詞語“共享”其它詞語詞語占比“車”文章類型???“經(jīng)濟”“證券”181類:sklearn.feature_extraction.text.TfidfVectorizerTF-IDFTF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的概率高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF作用:用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。類:sklearn.feature_extraction.t182TfidfVectorizer語法TfidfVectorizer(stop_words=None,…)返回詞的權(quán)重矩陣TfidfVectorizer.fit_transform(X,y)X:文本或者包含文本字符串的可迭代對象返回值:返回sparse矩陣TfidfVectorizer.inverse_transform(X)X:array數(shù)組或者sparse矩陣返回值:轉(zhuǎn)換之前數(shù)據(jù)格式TfidfVectorizer.get_feature_names()返回值:單詞列表TfidfVectorizer語法TfidfVectoriz183為什么需要TfidfVectorizer分類機器學(xué)習(xí)算法的的重要依據(jù)為什么需要TfidfVectorizer分類機器學(xué)習(xí)算法的的184數(shù)據(jù)的特征處理1、特征處理的方法2、sklearn特征處理API數(shù)據(jù)的特征處理1、特征處理的方法185特征處理是什么通過特定的統(tǒng)計方法(數(shù)學(xué)方法)將數(shù)據(jù)轉(zhuǎn)換成算法要求的數(shù)據(jù)特征處理是什么通過特定的統(tǒng)計方法(數(shù)學(xué)方法)將數(shù)據(jù)轉(zhuǎn)換成算法1869021040604154575313461.0.0.0.0.1.1.0.830.50.50.61.284563085491第一組第二組特征1特征2特征3特征4特征1特征2特征3特征4特征1特征2特征3特征4特征1特征2特征39021040604154575313461.0.0.0.0187數(shù)值型數(shù)據(jù):標準縮放: 1、歸一化

2、標準化

3、缺失值類別型數(shù)據(jù):one-hot編碼時間類型:時間的切分數(shù)值型數(shù)據(jù):標準縮放:188sklearn特征處理APIsklearn.preprocessing

sklearn特征處理APIsklearn.preproc189歸一化特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)映射到(默認為[0,1])之間

公式:注:作用于每一列,max為一列的最大值,min為一列的最小值,那么X’’為最終結(jié)果,mx,mi分別為指定區(qū)間值默認mx為1,mi為0

歸一化特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)映射到(默認為[0,190歸一化公式計算過程902104060415457531346特征1特征2特征3特征4特征1特征2特征3特征4注:里面是第一步,還需要第二步乘以(1-0)+0歸一化公式計算過程902104060415457531346191sklearn歸一化API:sklearn.preprocessing.MinMaxScalersklearn歸一化APIsklearn歸一化API:sklearn.prepro192MinMaxScaler語法MinMaxScalar(feature_range=(0,1)…)每個特征縮放到給定范圍(默認[0,1])MinMaxScalar.fit_transform(X)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后的形狀相同的arrayMinMaxScaler語法MinMaxScalar(fea1931、實例化MinMaxScalar2、通過fit_transform轉(zhuǎn)換歸一化步驟[[90,2,10,40],[60,4,15,45],[75,3,13,46]]1、實例化MinMaxScalar歸一化步驟[[90,2,1194歸一化案例:約會對象數(shù)據(jù)相親約會對象數(shù)據(jù),這個樣本時男士的數(shù)據(jù),三個特征,玩游戲所消耗時間的百分比、每年獲得的飛行??屠锍虜?shù)、每周消費的冰淇淋公升數(shù)。然后有一個所屬類別,被女士評價的三個類別,不喜歡didnt、魅力一般small、極具魅力large也許也就是說飛行里程數(shù)對于結(jié)算結(jié)果或者說相親結(jié)果影響較大,但是統(tǒng)計的人覺得這三個特征同等重要。144887.1534691.673904 smallDoses

260521.4418710.805124 didntLike

7513613.1473940.428964 didntLike

383441.6697880.134296 didntLike

7299310.1417401.032955 didntLike

359486.8307921.213192 largeDoses

4266613.2763690.543880 largeDoses

674978.6315770.749278 didntLike

3548312.2731691.508053 largeDoses

502423.7234980.831917 didntLike里程數(shù)公升數(shù)消耗時間比評價歸一化案例:約會對象數(shù)據(jù)相親約會對象數(shù)據(jù),這個樣本時男士的數(shù)195問題:如果數(shù)據(jù)中異常點較多,會有什么影響?問題:如果數(shù)據(jù)中異常點較多,會有什么影響?196注意在特定場景下最大值最小值是變化的,另外,最大值與最小值非常容易受異常點影響,所以這種方法魯棒性較差,只適合傳統(tǒng)精確小數(shù)據(jù)場景。歸一化總結(jié)注意在特定場景下最大值最小值是變化的,另外,最大值與最小值非197標準化1、特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)變換到均值為0,方差為1范圍內(nèi)

2、公式:

標準化1、特點:通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)變換到均值為0,19822.5

3平均值為(1.5+2+2.5+5)/4=2.75平均值為(2.5+4.5+2+3)/4=31.552.54.52對于歸一化來說:如果出現(xiàn)異常點,影響了最大值和最小值,那么結(jié)果顯然

會發(fā)生改變對于標準化來說:如果出現(xiàn)異常點,由于具有一定數(shù)據(jù)量,少量的異常點對

于平均值的影響并不大,從而方差改變較小。結(jié)合歸一化來談標準化22.53平均值為(1.5+2+2.5+5)/4=2.199sklearn特征化API:scikit-learn.preprocessing.StandardScalersklearn特征化APIsklearn特征化API:scikit-learn.p200StandardScaler語法StandardScaler(…)處理之后每列來說所有數(shù)據(jù)都聚集在均值0附近方差為1StandardScaler.fit_transform(X,y)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后的形狀相同的arrayStandardScaler.mean_原始數(shù)據(jù)中每列特征的平均值StandardScaler.std_原始數(shù)據(jù)每列特征的方差StandardScaler語法StandardScaler201[[1.,-1.,3.],[2.,4.,2.],[4.,6.,-1.]]標準化步驟1、實例化StandardScaler2、通過fit_transform轉(zhuǎn)換[[1.,-1.,3.],標準化步驟1、實例化Stan202在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場景。標準化總結(jié)在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場景。標203如何處理數(shù)據(jù)中的缺失值?缺失值如何處理數(shù)據(jù)中的缺失值?缺失值204缺失值處理方法刪除如果每列或者行數(shù)據(jù)缺失值達到一定的比例,建議放棄整行或者整列插補可以通過缺失值每行或者每列的平均值、中位數(shù)來填充1、2、sklearn缺失值A(chǔ)PI:sklearn.preprocessing.Imputer缺失值處理方法刪除如果每列或者行數(shù)據(jù)缺失值達到一定的比例,建205Imputer語法Imputer(missing_values='NaN',

strategy='mean',

axis=0)完成缺失值插補Imputer.fit_transform(X,y)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:轉(zhuǎn)換后的形狀相同的arrayImputer語法Imputer(missing_value206[[1,2],[np.nan,3],[7,6]]Imputer流程1、初始化Imputer,指定”缺失值”,指定填補策略,指定行或列2、調(diào)用fit_transform注:缺失值也可以是別的指定要替換的值[[1,2],Imputer流程1、初始化Imputer207關(guān)于np.nan(np.NaN)1、numpy的數(shù)組中可以使用np.nan/np.NaN來代替缺失值,屬于float類型2、如果是文件中的一些缺失值,可以替換成nan,通過np.array轉(zhuǎn)化成float型的數(shù)組即可關(guān)于np.nan(np.NaN)1、numpy的數(shù)組中可以208特征選擇1、特征選擇是什么2、sklearn特征選擇API3、其它特征選擇方法特征選擇1、特征選擇是什么209特征選擇原因冗余:部分特征的相關(guān)度高,容易消耗計算性能噪聲:部分特征對預(yù)測結(jié)果有負影響特征選擇原因冗余:部分特征的相關(guān)度高,容易消耗計算性能210特征?1、羽毛顏色2、眼睛寬度3、是否有爪子4、爪子長度特征?211特征選擇就是單純地從提取到的所有特征中選擇部分特征作為訓(xùn)練集特征,特征在選擇前和選擇后可以改變值、也不改變值,但是選擇后的特征維數(shù)肯定比選擇前小,畢竟我們只選擇了其中的一部分特征。特征選擇是什么主要方法(三大武器):Filter(過濾式):VarianceThreshold

Embedded(嵌入式):正則化、決策樹

Wrapper(包裹式)特征選擇就是單純地從提取到的所有特征中選擇部分特征作為訓(xùn)練集212sklearn特征選擇APIsklearn.feature_selection.VarianceThresholdsklearn特征選擇APIsklearn.feature_213VarianceThreshold語法VarianceThreshold(threshold=0.0)刪除所有低方差特征Variance.fit_transform(X,y)X:numpyarray格式的數(shù)據(jù)[n_samples,n_features]返回值:訓(xùn)練集差異低于threshold的特征將被刪除。默認值是保留所有非零方差特征,即刪除所有樣本中具有相同值的特征。VarianceThreshold語法VarianceThr214[[0,2,0,3],[0,1,4,3],[0,1,1,3]]VarianceThreshold流程(代碼演示)1、初始化VarianceThreshold,指定閥值方差2、調(diào)用fit_transform[[0,2,0,3],VarianceThresho215其他特征選擇方法神經(jīng)網(wǎng)絡(luò)后面具體介紹其他特征選擇方法后面具體介紹216sklearn降維APIsklearn.decomposition

sklearn降維APIsklearn.decomposi217如何最好的對一個立體的物體二維表示PCA(主成分分析)如何最好的對一個立體的物體二

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論