《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分?jǐn)?shù)據(jù)_第1頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分?jǐn)?shù)據(jù)_第2頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分?jǐn)?shù)據(jù)_第3頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分?jǐn)?shù)據(jù)_第4頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件5.1.2 數(shù)據(jù)降維、處理玻璃成分?jǐn)?shù)據(jù)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

處理玻璃成分?jǐn)?shù)據(jù)加工廠玻璃類別識別——決策樹、隨機(jī)森林任務(wù)描述數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的基礎(chǔ),基礎(chǔ)不牢,地動山搖,因此,數(shù)據(jù)預(yù)處理是關(guān)鍵一步。打好堅(jiān)實(shí)的基礎(chǔ)才能為之后的騰飛做好準(zhǔn)備。數(shù)據(jù)預(yù)處理的具體目標(biāo)是將不同格式和單位的數(shù)據(jù),整合為同一形式,便于之后的數(shù)據(jù)分析。本任務(wù)將主要對加工廠生產(chǎn)的玻璃進(jìn)行數(shù)據(jù)的預(yù)處理,包括數(shù)據(jù)集的劃分、數(shù)據(jù)的標(biāo)準(zhǔn)化,以及通過PCA降維,提取數(shù)據(jù)集的主要特征。任務(wù)要求利用sklearn庫進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化。利用sklearn庫進(jìn)行PCA降維。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)降維數(shù)據(jù)降維數(shù)據(jù)降維是一種數(shù)據(jù)預(yù)處理技術(shù),它通過減少數(shù)據(jù)中的冗余信息,來降低數(shù)據(jù)的維度,同時盡量保留原始數(shù)據(jù)的重要特征。什么是數(shù)據(jù)降維?1減少計(jì)算成本。在大規(guī)模數(shù)據(jù)集上進(jìn)行計(jì)算是一項(xiàng)非常耗時的任務(wù),通過降低數(shù)據(jù)維度,可以減少計(jì)算成本,并且加快算法的執(zhí)行速度。2去除冗余信息。數(shù)據(jù)通常包含很多冗余信息,這些信息可能對分析和建模沒有任何幫助。通過降維,可以去除這些冗余信息,提高數(shù)據(jù)的效率和準(zhǔn)確性。易于可視化。通過將數(shù)據(jù)降低到較低的維度,可以更容易地可視化和理解數(shù)據(jù)。數(shù)據(jù)降維的意義3數(shù)據(jù)降維將高維數(shù)據(jù)映射到低維空間,并盡可能保留原始數(shù)據(jù)的信息將數(shù)據(jù)投影到一個新的低維空間,同時最大化類間距離,最小化類內(nèi)距離主成分分析(PCA)線性判別分析(LDA)常見的數(shù)據(jù)降維方法數(shù)據(jù)降維線性判別分析是一種經(jīng)典的線性降維技術(shù),也是一種常用的分類方法。用于在多類分類問題中尋找一個線性判別函數(shù),能夠最大程度地區(qū)分不同類別之間的差異。線性判別分析的基本思想是,將數(shù)據(jù)投影到一條直線或一個超平面上,使得同一類別的數(shù)據(jù)點(diǎn)盡量靠近,不同類別的數(shù)據(jù)點(diǎn)盡量遠(yuǎn)離。投影后,根據(jù)每個數(shù)據(jù)點(diǎn)在這條直線上的位置進(jìn)行分類。什么是線性判別分析?線性判別分析對于給定的數(shù)據(jù)集,LDA的目標(biāo)是找到一個線性判別函數(shù),通過將數(shù)據(jù)點(diǎn)投影到一維或多維的超平面,使得同一類內(nèi)的數(shù)據(jù)點(diǎn)盡可能地接近,不同類之間的數(shù)據(jù)點(diǎn)盡可能地分開。投影向量偏置該線性判別函數(shù)可以表示為:

線性判別分析LDA的目標(biāo)是最大化類間方差,最小化類內(nèi)方差。類間散度矩陣類內(nèi)散度矩陣線性判別分析其中,、

可以通過計(jì)算各類的均值向量和協(xié)方差矩陣得到。通過求解上述優(yōu)化問題,可以得到最優(yōu)的投影向量w,并將數(shù)據(jù)點(diǎn)投影到該向量上進(jìn)行分類。線性判別分析使用sklearn庫中的LinearDiscriminantAnalysis類實(shí)現(xiàn)線性判別分析,其基本使用格式如下。classsklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver=’svd’,shrinkage=None,priors=None,n_components=None,store_covariance=False,tol=0.0001)線性判別分析LinearDiscriminantAnalysis類常用參數(shù)及其說明如下。參數(shù)名稱說明solver接收str,表示指定求解的算法。取值“svd”時,表示奇異值分解;取值“l(fā)sqr”時,表示最小平方差算法;取值“eigen”時,表示特征值分解算法。默認(rèn)為“svd”shrinkage接收“auto”或者float,該參數(shù)通常在訓(xùn)練樣本數(shù)量小于特征數(shù)量的場合下使用。該參數(shù)只有在solver=“l(fā)sqr”或“eigen”下才有意義。接收“auto”時,表示自動決定該參數(shù)大??;接收float時,表示指定該參數(shù)大小;接收None時,表示不使用該參數(shù)。默認(rèn)為Nonepriors接收array,表示數(shù)組中的元素依次指定了每個類別的先驗(yàn)概率。如果為None,則認(rèn)為每個類的先驗(yàn)概率相等。默認(rèn)為Nonen_components接收int,表示指定數(shù)據(jù)降維后的維度。默認(rèn)為Nonestore_covariance接收boolean,表示是否計(jì)算每個類別的協(xié)方差矩陣。默認(rèn)為False線性判別分析什么是主成分分析法?PCA降維可以提高計(jì)算效率,同時提高模型效果和泛化能力,從而在實(shí)際應(yīng)用中具有重要的意義和應(yīng)用價(jià)值。PCA降維的基本思想是找到一個新的坐標(biāo)系,使得數(shù)據(jù)在新的坐標(biāo)系下具有最大的方差。換句話說,PCA降維通過線性變換將原始數(shù)據(jù)映射到新的坐標(biāo)系中,使得數(shù)據(jù)在新的坐標(biāo)系下的方差最大化,從而找到數(shù)據(jù)中最重要的方向(即主成分)。主成分分析在主成分分析中,先對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,再計(jì)算協(xié)方差矩陣,協(xié)方差矩陣反映了數(shù)據(jù)中各個變量之間的相關(guān)性。如何計(jì)算協(xié)方差矩陣?主成分分析其中,

表示第i個樣本的特征向量,

表示第j個樣本的特征向量。設(shè)有

的p維的隨機(jī)向量,協(xié)方差矩陣計(jì)算方法如下。通過對協(xié)方差矩陣進(jìn)行特征值分解,可以得到一組新的坐標(biāo)系和相應(yīng)的特征向量。這些特征向量代表了原始數(shù)據(jù)在新的坐標(biāo)系中的方向。主成分是按照特征值大小排序的特征向量,也就是說,第一主成分是方差最大的方向,第二主成分是在第一主成分方向上與其不相關(guān)的方向,如圖所示。第i個主成分第i個特征向量以此類推,則第i個主成分可以表示為主成分分析使用sklearn庫中的PCA類實(shí)現(xiàn)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其基本使用格式如下。classsklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)主成分分析PCA類常用參數(shù)及其說明如下。參數(shù)名稱說明n_components接收int或str,表示所要保留的主成分個數(shù)n,即保留下來的特征個數(shù)n,賦值為int時,表示降維的維度,如n_components=1,將把原始數(shù)據(jù)降到一個維度。賦值為str時,表示降維的模式,如取值為'mle'時,將自動選取特征個數(shù)n,使得滿足所要求的方差百分比。默認(rèn)為Nonecopy接收bool,表示是否在運(yùn)行算法時,將原始訓(xùn)練數(shù)據(jù)復(fù)制一份。若為True,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值不會有任何改變,因?yàn)槭窃谠紨?shù)據(jù)的副本上進(jìn)行運(yùn)算;若為False,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值會發(fā)生改變。默認(rèn)為Truewhiten接收bool,表示是否白化,使得每個特征具有相同的方差。默認(rèn)為False主成分分析某銷售公司想要對不同的客戶進(jìn)行分析,客戶的信息儲存在客戶信心數(shù)據(jù)集中。數(shù)據(jù)集包括客戶的能力、品格、擔(dān)保、資源、教育5個輸入特征,以及客戶類型1個類別標(biāo)簽,如下表所示。能力品格擔(dān)保資源教育客戶類型6972607184059946677981486060879116183699581269706977872為了對客戶的類型進(jìn)行判定,需要對數(shù)據(jù)集進(jìn)行降維。請分別使用線性判別分析和主成分分析法對數(shù)據(jù)集進(jìn)行降維。0、1、2分別代表重要客戶、優(yōu)質(zhì)客戶和普通客戶數(shù)據(jù)降維讀取玻璃類別數(shù)據(jù)使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)使用PCA進(jìn)行數(shù)據(jù)降維讀取玻璃類別數(shù)據(jù)讀取玻璃類別數(shù)據(jù)主要通過以下4個步驟實(shí)現(xiàn)。查看玻璃類別數(shù)據(jù)使用import和from導(dǎo)入pandas、NumPy、StandardScaler、PCA等開發(fā)類庫使用pandas庫中read_csv函數(shù)讀取玻璃類別數(shù)據(jù)集使用iloc()方法提取自變量和因變量查看玻璃類別數(shù)據(jù)某加工廠采購了一批玻璃,玻璃的特性及元素成分儲存于玻璃類別數(shù)據(jù)集中。數(shù)據(jù)集包括折射率、鈉含量、鎂含量、鋁含量等9個輸入特征和1個類別標(biāo)簽,類別標(biāo)簽包括(1、2、3、4)4種玻璃,共192條數(shù)據(jù)。玻璃類別數(shù)據(jù)集的部分?jǐn)?shù)據(jù)如下表所示。折射率/%鈉含量/%鎂含量/%鋁含量/%硅含量/%鉀含量/%鈣含量/%鋇含量/%鐵含量/%類別1.5210113.644.491.171.780.068.750011.5176113.893.61.3672.730.487.830011.5161813.533.551.5472.990.397.780011.5176613.213.691.2972.610.578.220011.5174213.273.621.2473.080.558.07001使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)通過觀察數(shù)據(jù)集可以發(fā)現(xiàn),原始數(shù)據(jù)的尺度差異較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論