Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-12-17 格式：PPTX 頁數(shù)：74 大?。?.16MB 積分：15 舉報(bào) 版權(quán)申訴

Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第2頁

Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第3頁

Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第4頁

Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)_第5頁

已閱讀5頁，還剩69頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)缺失值處理數(shù)據(jù)規(guī)范化主成分分析缺失值處理第5章

在數(shù)據(jù)處理過程中，缺失值是常見的，需要對(duì)其進(jìn)行處理。Pandas包中的fillna()函數(shù)并沒有充分利用數(shù)據(jù)集中的信息。這里介紹scikit-learn包中能充分利用數(shù)據(jù)信息的3種常用填充方法，即均值填充、中位數(shù)填充和最頻繁值填充。注意填充方式主要是按列填充均值填充：對(duì)某列中的所有缺失值用該列中非缺失部分的值的平均值來表示；中位數(shù)填充：取某列中非缺失部分的值的中位數(shù)來表示缺失值。最頻繁值填充：取某列中非缺失部分的值出現(xiàn)頻次最多的值來表示缺失值。（常用于分類型或離散型變量）缺失值處理第5章

（1）導(dǎo)入數(shù)據(jù)預(yù)處理中的填充模塊SimpleImputer

fromsklearn.imputeimportSimpleImputer（2）利用SimpleImputer創(chuàng)建填充對(duì)象impimp=SimpleImputer(missing_values=np.nan,strategy='mean')參數(shù)說明如下：strategy：均值（mean）、中位數(shù)（median）、最頻繁值（most_frequent）（3）調(diào)用填充對(duì)象imp中的fit()擬合方法，對(duì)待填充數(shù)據(jù)進(jìn)行擬合訓(xùn)練。

imp.fit(Data)#Data為待填充數(shù)據(jù)集變量（4）調(diào)用填充對(duì)象imp中的transform()方法，返回填充后的數(shù)據(jù)集。

FData=imp.transform(Data)#返回填充后的數(shù)據(jù)集FData需要注意的是填充的數(shù)據(jù)集結(jié)構(gòu)要求為數(shù)組或數(shù)據(jù)框，類型為數(shù)值類型缺失值處理第5章

fromsklearn.imputeimportSimpleImputerfC=Cimp=SimpleImputer(missing_values=np.nan,strategy='mean')imp.fit(fC)fC=imp.transform(fC)數(shù)據(jù)規(guī)范化第5章

變量或指標(biāo)的單位不同，導(dǎo)致有些指標(biāo)數(shù)據(jù)值非常大，而有些指標(biāo)數(shù)據(jù)值非常小，在模型運(yùn)算過程中大的數(shù)據(jù)會(huì)把小的數(shù)據(jù)覆蓋，導(dǎo)致模型失真。因此，需要對(duì)這些數(shù)據(jù)規(guī)范化處理，或者說去量綱化。所謂均值-方差規(guī)范化，是指變量或指標(biāo)數(shù)據(jù)減去其均值再除以標(biāo)準(zhǔn)差得到新的數(shù)據(jù)。新的數(shù)據(jù)均值為0，方差為1，其公式如下：極差規(guī)范化是指變量或指標(biāo)數(shù)據(jù)減去其最小值，再除以最大值與最小值之差，得到新的數(shù)據(jù)。新的數(shù)據(jù)取值范圍在[0,1]，其公式如下：數(shù)據(jù)規(guī)范化第5章

對(duì)數(shù)據(jù)集X（數(shù)組）做均值-方差規(guī)范化處理，基本步驟如下：（1）導(dǎo)入均值-方差規(guī)范化模塊StandardScaler。

fromsklearn.preprocessingimportStandardScaler（2）利用StandardScaler創(chuàng)建均值-方差規(guī)范化對(duì)象scaler。

scaler=StandardScaler()（3）調(diào)用scaler對(duì)象中的fit()擬合方法，對(duì)待處理的數(shù)據(jù)X進(jìn)行擬合訓(xùn)練。

scaler.fit(X)（4）調(diào)用scaler對(duì)象中的transform()方法，返回規(guī)范化后的數(shù)據(jù)集X（覆蓋原未規(guī)范化的X）。

X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportStandardScalerX=datascaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

對(duì)數(shù)據(jù)集X1（數(shù)組）做極差規(guī)范化處理，基本步驟如下：（1）導(dǎo)入極差規(guī)范化模塊MinMaxScaler。

fromsklearn.preprocessingimportMinMaxScaler（2）利用MinMaxScaler創(chuàng)建極差規(guī)范化對(duì)象min_max_scaler。

min_max_scaler=MinMaxScaler()（3）調(diào)用min_max_scaler中的fit()擬合方法，對(duì)處理的數(shù)據(jù)X1進(jìn)行擬合訓(xùn)練。

min_max_scaler.fit(X1)（4）調(diào)用min_max_scaler中的transform()方法，返回處理后的數(shù)據(jù)集X1（覆蓋原未處理的X1）。

X1=min_max_scaler.transform(X1)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportMinMaxScalerX1=datamin_max_scaler=MinMaxScaler()min_max_scaler.fit(X1)x1=min_max_scaler.transform(X1)主成分分析第5章

在數(shù)據(jù)分析與挖掘中，通常會(huì)遇到眾多變量，這些變量之間往往具有一定的相關(guān)性。例如，身高、體重這兩個(gè)指標(biāo)，身高較高，其體重也相對(duì)較大；經(jīng)營收入、凈利潤這兩個(gè)指標(biāo)，經(jīng)營收入越高，其凈利潤也相對(duì)較高，這就是指標(biāo)之間相關(guān)性的一種體現(xiàn)。如果眾多指標(biāo)之間具有較強(qiáng)的相關(guān)性，不僅會(huì)增加計(jì)算復(fù)雜度，也會(huì)影響模型的分析結(jié)果。一種思路就是把眾多的變量轉(zhuǎn)換為少數(shù)幾個(gè)互不相關(guān)的綜合變量，同時(shí)又不影響原來變量所反映的信息。這種方法在數(shù)學(xué)上稱為主成分分析我們通?？吹礁鞣N各樣的排行榜，如綜合國力排名、省市經(jīng)濟(jì)發(fā)展水平排名、大學(xué)綜合排名等——綜合評(píng)價(jià)問題，就是主成分分析應(yīng)用的一種體現(xiàn)。主成分分析第5章

怎樣對(duì)各地區(qū)2016年農(nóng)村居民人均可支配收入情況進(jìn)行排名呢

地區(qū)工資性收入（X1）經(jīng)營凈收入（X2）財(cái)產(chǎn)凈收入（X3）轉(zhuǎn)移凈收入（X4）北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………我們需要一個(gè)綜合指標(biāo)來衡量，但是這個(gè)綜合指標(biāo)該如何定義和計(jì)算呢？指標(biāo)加權(quán)是一個(gè)通常的思路，例如： Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農(nóng)村居民人均可支配收入某個(gè)方面的指標(biāo)，僅代表某方面的信息，它在綜合指標(biāo)Y1中，其重要程度可以通過對(duì)應(yīng)的a1j來反映，可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息，如果一個(gè)綜合變量不夠，就繼續(xù)構(gòu)造新的綜合變量Y2，……，同時(shí)要求綜合變量之間互不相關(guān)主成分分析第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息（方差），其數(shù)學(xué)表達(dá)式為：

Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息，則再構(gòu)造一個(gè)Y2：

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關(guān)，同時(shí)：

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息，則繼續(xù)構(gòu)造Y3?？傊疃鄻?gòu)造到Y(jié)4一定能滿足條件。一般地，前k個(gè)變換后的變量Y1…Yk，其方差之和與原變量總方差之比為：

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個(gè)變換后變量的信息占比。在實(shí)際應(yīng)用中只需取少數(shù)幾個(gè)變換后的變量。例如，它們的

信息占比為90%，就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解，系數(shù)如何限制？系數(shù)向量如何計(jì)算？這些分析嚴(yán)格嗎？為了解決這些問題，需要給出嚴(yán)格的主成分分析數(shù)學(xué)模型（具體見課本）。主成分分析第5章

主成分分析的一般步驟（1）對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。（2）計(jì)算樣本相關(guān)系數(shù)矩陣。（3）求相關(guān)系數(shù)矩陣的特征值和相應(yīng)的特征向量。（4）選擇重要的主成分，并寫出主成分表達(dá)式。（5）計(jì)算主成分得分。（6）依據(jù)主成分得分的數(shù)據(jù)，進(jìn)一步從事統(tǒng)計(jì)分析。主成分分析（應(yīng)用舉例）第5章

#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)（1）數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析（應(yīng)用舉例）第5章

①導(dǎo)入主成分分析模塊PCA。

fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對(duì)象pca。

pca=PCA(n_components=0.95)③調(diào)用pca對(duì)象中的fit()方法，進(jìn)行擬合訓(xùn)練。

pca.fit(X)④調(diào)用pca對(duì)象中的transform()方法，返回提取的主成分。

Y=pca.transform(X)⑤通過pca對(duì)象中的相關(guān)屬性，返回相關(guān)結(jié)果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比（貢獻(xiàn)率）

gxl=pca.explained_variance_ratio_（2）對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)X做主成分分析，基本步驟如下：主成分分析（應(yīng)用舉例）第5章

⑥主成分表達(dá)式及驗(yàn)證。由前面分析，我們知道第i個(gè)主成分表示為：代表第i個(gè)主成分對(duì)應(yīng)的特征向量。例如，可以通過程序驗(yàn)證第1個(gè)主成分前面的4個(gè)分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析（應(yīng)用舉例）第5章

（3）基于主成分進(jìn)行綜合排名。記綜合排名指標(biāo)為F，則F的計(jì)算公式如下其中m表示提取的主成分個(gè)數(shù)，分別表示第i個(gè)主成分和其貢獻(xiàn)率F=gxl[0]*Y[:,0]+gxl[1]*Y[:,1]+gxl[2]*Y[:,2]dq=list(Data['省、直轄市及地區(qū)'].values)Rs=pd.Series(F,index=dq)

Rs=Rs.sort_values(ascending=False)

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)一元線性回歸多元線性回歸線性回歸應(yīng)用舉例一元線性回歸第5章

引例1：有一則新聞：預(yù)計(jì)20××年中國旅游業(yè)總收入將超過3000億美元。這個(gè)數(shù)據(jù)是如何預(yù)測(cè)出來的呢？引例2：身高預(yù)測(cè)問題：子女的身高（y），父母的身高（x）旅游總收入（y）居民平均收入（x）……變量之間的相互關(guān)系，主要有3種：①確定的函數(shù)關(guān)系，。②不確定的統(tǒng)計(jì)相關(guān)關(guān)系，。③沒有關(guān)系，不用分析。以上兩個(gè)例子均屬于第（2）種情況。一元線性回歸第5章

一元線性回歸模型y為因變量（隨機(jī)變量），x為自變量（確定的變量），

為模型系數(shù)，

每給定一個(gè)x，就得到y(tǒng)的一個(gè)分布。一元線性回歸第5章

對(duì)回歸模型兩邊取數(shù)學(xué)期望，得到以下回歸方程：每給定一個(gè)x，便有y的一個(gè)數(shù)學(xué)期望值與之對(duì)應(yīng)，它們是一個(gè)函數(shù)關(guān)系。一般地，通過樣本觀測(cè)數(shù)據(jù)，可以估計(jì)出以上回歸方程的參數(shù)，一般形式為：其中為對(duì)期望值及兩個(gè)參數(shù)的估計(jì)一元線性回歸第5章

對(duì)總體(x,y)進(jìn)行n次獨(dú)立觀測(cè)，獲得n個(gè)樣本觀測(cè)數(shù)據(jù)，即(x1,y1),(x2,y2),…,(xn,yn)，將其繪制在圖像上。如何對(duì)這些觀測(cè)值給出最合適的擬合直線呢？使用最小二乘法。其基本思路是真實(shí)觀測(cè)值與預(yù)測(cè)值（均值）總的偏差平方和最小，計(jì)算公式如下：求解以上最優(yōu)化問題，即得到：其中最后得到了基于經(jīng)驗(yàn)的回歸方程一元線性回歸第5章

總離差平方和TSS、回歸平方和RSS、殘差平方和ESS，計(jì)算公式分別如下：可以證明：回歸方程的線性關(guān)系是否顯著，可以用一個(gè)指標(biāo)公式來計(jì)算：稱為擬合優(yōu)度（判定系數(shù)），值越大表明直線擬合程度越好。多元線性回歸第5章

前文介紹了只有一個(gè)自變量和一個(gè)因變量的一元線性回歸模型，然而在現(xiàn)實(shí)中自變量通常包含多個(gè)，這時(shí)稱它為多元線性回歸模型對(duì)于總體的n個(gè)觀測(cè)值，滿足以下公式：其中

相互獨(dú)立，且記，則其矩陣形式為其中

即為待估計(jì)的向量多元線性回歸第5章

對(duì)

兩邊取期望值，即得到以下回歸方程：其一般的形式如下其中

分布為期望值及回歸系數(shù)的估計(jì)的參數(shù)估計(jì)（最小二乘法，過程略）為的參數(shù)估計(jì)（推導(dǎo)過程略）為其中，H稱為對(duì)稱冪等矩陣與一元線性回歸模型類似，擬合優(yōu)度（判定系數(shù)）公式為：線性回歸應(yīng)用舉例第5章

在發(fā)電場(chǎng)中電力輸出（PE）與溫度（AT）、壓力（V）、濕度（AP）、壓強(qiáng)（RH）有關(guān)，相關(guān)測(cè)試數(shù)據(jù)（部分）如表所示ATVAPRHPE8.3440.771010.8490.01480.4823.6458.491011.474.2445.7529.7456.91007.1541.91438.7619.0749.691007.2276.79453.09…………………………需實(shí)現(xiàn)的功能如下：（1）利用線性回歸分析命令，求出PE與AT、V、AP、RH之間的線性回歸關(guān)系式系數(shù)

向量（包括常數(shù)項(xiàng)）和擬合優(yōu)度（判定系數(shù)），并在命令窗口輸出。（2）現(xiàn)有某次測(cè)試數(shù)據(jù)AT=28.4、V=50.6、AP=1011.9、RH=80.54，試預(yù)測(cè)其PE值。線性回歸應(yīng)用舉例第5章

1．讀取數(shù)據(jù)，確定自變量x和因變量yimportpandasaspddata=pd.read_excel('發(fā)電場(chǎng)數(shù)據(jù).xlsx')x=data.iloc[:,0:4].valuesy=data.iloc[:,4].values線性回歸應(yīng)用舉例第5章

（1）導(dǎo)入線性回歸模塊（簡(jiǎn)稱LR）。

fromsklearn.linear_modelimportLinearRegressionasLR（2）利用LR創(chuàng)建線性回歸對(duì)象lr。

lr=LR()（3）調(diào)用lr對(duì)象中的fit()方法，對(duì)數(shù)據(jù)進(jìn)行擬合訓(xùn)練。

lr.fit(x,y)（4）調(diào)用lr對(duì)象中的score()方法，返回其擬合優(yōu)度，觀察線性關(guān)系是否顯著。

Slr=lr.score(x,y)#判定系數(shù)R2（5）取lr對(duì)象中的coef_、intercept_屬性，返回x對(duì)應(yīng)的回歸系數(shù)和回歸系數(shù)常數(shù)項(xiàng)。

c_x=lr.coef_#x對(duì)應(yīng)的回歸系數(shù)

c_b=ercept_#回歸系數(shù)常數(shù)項(xiàng)2.線性回歸分析線性回歸應(yīng)用舉例第5章

（1）可以利用lr對(duì)象中的predict()方法進(jìn)行預(yù)測(cè)。

importnumpyasnp

x1=np.array([28.4,50.6,1011.9,80.54])

x1=x1.reshape(1,4)

R1=lr.predict(x1)（2）也可以利用線性回歸方程式進(jìn)行預(yù)測(cè)，這個(gè)方法需要自行計(jì)算。

r1=x1*c_x

R2=r1.sum()+c_b#計(jì)算預(yù)測(cè)值print('x回歸系數(shù)為：',c_x)print('回歸系數(shù)常數(shù)項(xiàng)為：',c_b)print('判定系數(shù)為：',Slr)print('樣本預(yù)測(cè)值為：',R1)3．利用線性回歸模型進(jìn)行預(yù)測(cè)執(zhí)行結(jié)果為：x回歸系數(shù)為：[-1.97751311-0.233916420.06208294-0.1580541]回歸系數(shù)常數(shù)項(xiàng)為：454.609274315判定系數(shù)為：0.928696089812樣本預(yù)測(cè)值為：[436.70378447]第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)邏輯回歸模型邏輯回歸模型應(yīng)用舉例邏輯回歸第5章

線性回歸模型處理的因變量是數(shù)值型變量。然而在許多實(shí)際問題中，我們需要研究的因變量y不是數(shù)值型變量，而是名義變量或者分類變量，如0、1變量問題。邏輯回歸模型是使用一個(gè)函數(shù)來歸一化y值，使y的取值在區(qū)間（0,1）內(nèi)，這個(gè)函數(shù)稱為Logistic函數(shù)，公式如下：其中這樣就將線性回歸預(yù)測(cè)問題轉(zhuǎn)化為一個(gè)概率問題，一般以0.5為界，如果預(yù)測(cè)值大于0.5，我們判斷此時(shí)y更可能為1，否則為y=0邏輯回歸應(yīng)用舉例第5章

取UCI公共測(cè)試數(shù)據(jù)庫中的澳大利亞信貸批準(zhǔn)數(shù)據(jù)集作為本例的數(shù)據(jù)集，該數(shù)據(jù)集共有14個(gè)特征，1個(gè)分類標(biāo)簽y（1—同意貸款，0—不同意貸款），共690個(gè)申請(qǐng)者記錄。x1x2x3x4x5x6x7x8x9x10x11x12x13x14y122.0811.462441.5850001210012130022.6772840.1650000216010029.581.751441.250001228010021.6711.51530111112011120.178.172641.96111402601591015.830.5852881.51120210011117.426.52340.12500002601010058.674.4621183.0411602435611……以前600個(gè)申請(qǐng)者作為訓(xùn)練數(shù)據(jù)，后90個(gè)申請(qǐng)者作為測(cè)試數(shù)據(jù)，利用邏輯回歸模型預(yù)測(cè)準(zhǔn)確率。邏輯回歸應(yīng)用舉例第5章

1．?dāng)?shù)據(jù)獲取

importpandasaspd

data=pd.read_excel('credit.xlsx')2．訓(xùn)練樣本與測(cè)試樣本劃分

訓(xùn)練用的特征數(shù)據(jù)用x表示，預(yù)測(cè)變量用y表示，測(cè)試樣本則分別記為x1和y1。

x=data.iloc[:600,:14]

y=data.iloc[:600,14]

x1=data.iloc[600:,:14]

y1=data.iloc[600:,14]邏輯回歸應(yīng)用舉例第5章

（1）導(dǎo)入邏輯回歸模塊（簡(jiǎn)稱LR）。

fromsklearn.linear_modelimportLogisticRegressionasLR（2）利用LR創(chuàng)建邏輯回歸對(duì)象lr。

lr=LR()（3）調(diào)用lr中的fit()方法進(jìn)行訓(xùn)練。

lr.fit(x,y)（4）調(diào)用lr中的score()方法返回模型準(zhǔn)確率。

r=lr.score(x,y);#模型準(zhǔn)確率（針對(duì)訓(xùn)練數(shù)據(jù)）（5）調(diào)用lr中的predict()方法，對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)，獲得預(yù)測(cè)結(jié)果。

R=lr.predict(x1)3．邏輯回歸分析邏輯回歸應(yīng)用舉例第5章

邏輯回歸分析完整示例代碼如下：importpandasaspddata=pd.read_excel('credit.xlsx')x=data.iloc[:600,:14]y=data.iloc[:600,14]x1=data.iloc[600:,:14]y1=data.iloc[600:,14]fromsklearn.linear_modelimportLogisticRegressionasLRlr=LR()#創(chuàng)建邏輯回歸模型類lr.fit(x,y)#訓(xùn)練數(shù)據(jù)r=lr.score(x,y);#模型準(zhǔn)確率（針對(duì)訓(xùn)練數(shù)據(jù)）R=lr.predict(x1)Z=R-y1Rs=len(Z[Z==0])/len(Z)print('預(yù)測(cè)結(jié)果為：',R)print('預(yù)測(cè)準(zhǔn)確率為：',Rs)預(yù)測(cè)結(jié)果為：[0111100101100011000101101110100010010

0010110101011100100100010110001001101

0001010110110110]預(yù)測(cè)準(zhǔn)確率為：0.8333333333333334第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模擬思想與神經(jīng)元工作過程神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型神經(jīng)網(wǎng)絡(luò)分類與回歸應(yīng)用舉例神經(jīng)網(wǎng)絡(luò)模擬思想第5章

資料學(xué)習(xí)（孩子的日常辨識(shí)能力）：一個(gè)孩子從生下來，就開始不斷地學(xué)習(xí)。他的大腦就好比一個(gè)能不斷接受新事物，同時(shí)能識(shí)別事物的龐大而復(fù)雜的模型，大腦模型不斷地接受外界的信息，并對(duì)其進(jìn)行判斷和處理。小孩會(huì)說話后，總喜歡問這問那，并不斷地說出這是什么那是什么。即使很多是錯(cuò)誤的，但經(jīng)過大人的糾正后，小孩終于能辨識(shí)日常中一些常見的事物了，這就是一個(gè)監(jiān)督學(xué)習(xí)的過程。某一天，大人帶著小孩，來到一個(gè)農(nóng)場(chǎng)，遠(yuǎn)遠(yuǎn)地就看到一大片綠油油的稻田，小孩興奮地說出“好大的一片稻田”，大人樂了。因?yàn)樾『⒌拇竽X已經(jīng)是一個(gè)經(jīng)過長時(shí)間學(xué)習(xí)訓(xùn)練的“模型”，具備了一定的辨識(shí)能力。神經(jīng)元工作過程第5章

可以理解為n個(gè)輸入信號(hào)（信息），可以理解為對(duì)n個(gè)輸入信號(hào)的加權(quán)值，從而得到一個(gè)綜合信號(hào)（加權(quán)求和）神經(jīng)元需要對(duì)這個(gè)綜合信號(hào)做出反應(yīng)，即引入一個(gè)閾值

并與綜合信號(hào)比較，根據(jù)比較的結(jié)果做出不同的反應(yīng)，即輸出。這里用一個(gè)被稱為激發(fā)函數(shù)的函數(shù)

來模擬其反應(yīng)。例如，你蒙上眼睛，要判斷面前的人是男孩，還是女孩?？梢宰鲆粋€(gè)簡(jiǎn)單假設(shè)（大腦只有一個(gè)神經(jīng)元），只用一個(gè)輸入信號(hào)x1=頭發(fā)長度（如50cm），權(quán)重為1，則其綜合信號(hào)為

我們用一個(gè)二值函數(shù)作為激發(fā)函數(shù)：假設(shè)閾值

=12，由于

，故

，由此我們可以得到輸出1為女孩，0為男孩。神經(jīng)元工作過程第5章

那么如何確定閾值是12，輸出1表示女孩，而0表示男孩呢？這就要通過日常生活中的大量實(shí)踐認(rèn)識(shí)。數(shù)學(xué)模型不像人可以通過日常中漫長的學(xué)習(xí)和實(shí)踐訓(xùn)練，它只能通過樣本數(shù)據(jù)來訓(xùn)練，從而獲得模型的參數(shù)并應(yīng)用。例如，可以選擇1000個(gè)人，其中500個(gè)人是男孩，500個(gè)人是女孩，分別量其頭發(fā)長度，輸入以上模型進(jìn)行訓(xùn)練，訓(xùn)練的準(zhǔn)則是判別正確率最大化。（1）取閾值=1，這時(shí)判別正確率應(yīng)該非常低。（2）取值依次增加，假設(shè)閾值=12時(shí)為最大，達(dá)到0.95，當(dāng)閾值>12時(shí)，判別的正確率開始下降，

故可以認(rèn)為閾值=12時(shí)達(dá)到判別正確率最大。這個(gè)時(shí)候，其中95%的男孩對(duì)應(yīng)的函數(shù)值為0，

同樣95%的女孩對(duì)應(yīng)的函數(shù)值為1。如果選用這個(gè)模型進(jìn)行判別，其判別正確率達(dá)到0.95。以上兩步訓(xùn)練完成即得到參數(shù)閾值=12，有95%的可能性輸出1表示判別為女孩，輸出0表示判別為男孩神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型第5章

x為m維向量，y為n維向量，隱含層有q個(gè)神經(jīng)元。假設(shè)有N個(gè)樣本數(shù)據(jù)，從輸入層到隱含層的權(quán)重記為從隱含層到輸出層的權(quán)重記為記第t個(gè)樣本輸入網(wǎng)絡(luò)時(shí)，隱含層單元的輸出為輸出層單元的輸出為，則：這里

為對(duì)應(yīng)輸入神經(jīng)元的閾值，

通常為1，

為對(duì)應(yīng)隱含層神經(jīng)元的閾值，

通常為1，

和

分別為隱含層、輸出層神經(jīng)元的激發(fā)函數(shù)。常用的激發(fā)函數(shù)如下神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型第5章

選定隱含層及輸出層神經(jīng)元的個(gè)數(shù)和激發(fā)函數(shù)后，這個(gè)神經(jīng)網(wǎng)絡(luò)就只有輸入層至隱含層、隱含層至輸出層的參數(shù)未知了。一旦確定了這些參數(shù)，神經(jīng)網(wǎng)絡(luò)就可以工作了。如何確定這些參數(shù)呢？基本思路如下：通過輸入層的N個(gè)樣本數(shù)據(jù)，使得真實(shí)的y值與網(wǎng)絡(luò)的預(yù)測(cè)值的誤差最小即可，它變成了一個(gè)優(yōu)化問題，記

，則優(yōu)化問題如下：如何求解這個(gè)優(yōu)化問題獲得最優(yōu)的

呢？常用的有BP算法，這里不再介紹該算法的具體細(xì)節(jié)，本節(jié)著重介紹如何利用Python進(jìn)行神經(jīng)網(wǎng)絡(luò)模型應(yīng)用。神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

取UCI公共測(cè)試數(shù)據(jù)庫中的澳大利亞信貸批準(zhǔn)數(shù)據(jù)集作為本例的數(shù)據(jù)集，該數(shù)據(jù)集共有14個(gè)特征，1個(gè)分類標(biāo)簽y（1—同意貸款，0—不同意貸款），共690個(gè)申請(qǐng)者記錄。x1x2x3x4x5x6x7x8x9x10x11x12x13x14y122.0811.462441.5850001210012130022.6772840.1650000216010029.581.751441.250001228010021.6711.51530111112011120.178.172641.96111402601591015.830.5852881.51120210011117.426.52340.12500002601010058.674.4621183.0411602435611……以前600個(gè)申請(qǐng)者作為訓(xùn)練數(shù)據(jù)，后90個(gè)申請(qǐng)者作為測(cè)試數(shù)據(jù)，利用神經(jīng)網(wǎng)絡(luò)分類模型預(yù)測(cè)準(zhǔn)確率。神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

1．?dāng)?shù)據(jù)獲取、訓(xùn)練樣本與測(cè)試樣本的劃分

importpandasaspd

data=pd.read_excel('credit.xlsx')#訓(xùn)練用的特征數(shù)據(jù)用x表示，預(yù)測(cè)變量用y表示，測(cè)試樣本則分別記為x1和y1。

x=data.iloc[:600,:14]

y=data.iloc[:600,14]

x1=data.iloc[600:,:14]

y1=data.iloc[600:,14]神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

（1）導(dǎo)入神經(jīng)網(wǎng)絡(luò)分類模塊MLPClassifier。

fromsklearn.neural_networkimportMLPClassifier（2）利用MLPClassifier創(chuàng)建神經(jīng)網(wǎng)絡(luò)分類對(duì)象clf。

clf=MLPClassifier(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=(5,2),random_state=1)

參數(shù)說明如下：

solver：神經(jīng)網(wǎng)絡(luò)優(yōu)化求解算法，包括lbfgs、sgd、adam3種，默認(rèn)值為adam。

alpha：模型訓(xùn)練誤差，默認(rèn)值為0.0001。

hidden_layer_sizes：隱含層神經(jīng)元個(gè)數(shù)。單層神經(jīng)元設(shè)置具體數(shù)值即可，本例隱含層有兩層，即5×2。

random_state：默認(rèn)設(shè)置為1即可。（3）調(diào)用clf對(duì)象中的fit()方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。

clf.fit(x,y)（4）調(diào)用clf對(duì)象中的score()方法，獲得神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率（針對(duì)訓(xùn)練數(shù)據(jù)）。

rv=clf.score(x,y)（5）調(diào)用clf對(duì)象中的predict()方法可以對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)，獲得預(yù)測(cè)結(jié)果。

R=clf.predict(x1)2．神經(jīng)網(wǎng)絡(luò)分類模型構(gòu)建神經(jīng)網(wǎng)絡(luò)分類應(yīng)用舉例第5章

importpandasaspddata=pd.read_excel('credit.xlsx')x=data.iloc[:600,:14].valuesy=data.iloc[:600,14].valuesx1=data.iloc[600:,:14].valuesy1=data.iloc[600:,14].valuesfromsklearn.neural_networkimportMLPClassifierclf=MLPClassifier(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=(5,2),random_state=1)clf.fit(x,y);rv=clf.score(x,y)R=clf.predict(x1)Z=R-y1Rs=len(Z[Z==0])/len(Z)print('預(yù)測(cè)結(jié)果為：',R)print('預(yù)測(cè)準(zhǔn)確率為：',Rs)預(yù)測(cè)結(jié)果為：[011110010110001100010110100000000000000001101011010001001000101000000000000000010010110010]預(yù)測(cè)準(zhǔn)確率為：0.8222222222222222神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

在發(fā)電場(chǎng)中電力輸出（PE）與溫度（AT）、壓力（V）、濕度（AP）、壓強(qiáng)（RH）有關(guān)，相關(guān)測(cè)試數(shù)據(jù)（部分）如表所示ATVAPRHPE8.3440.771010.8490.01480.4823.6458.491011.474.2445.7529.7456.91007.1541.91438.7619.0749.691007.2276.79453.09…………………………需實(shí)現(xiàn)的功能如下：（1）構(gòu)建神經(jīng)網(wǎng)絡(luò)回歸預(yù)測(cè)模型。（2）現(xiàn)有某次測(cè)試數(shù)據(jù)AT=28.4、V=50.6、AP=1011.9、RH=80.54，試預(yù)測(cè)其PE值。神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

1．?dāng)?shù)據(jù)獲取及訓(xùn)練樣本構(gòu)建#訓(xùn)練樣本的特征輸入變量用x表示，輸出變量用y表示。

importpandasaspd

data=pd.read_excel('發(fā)電場(chǎng)數(shù)據(jù).xlsx')

x=data.iloc[:,0:4]

y=data.iloc[:,4]2．預(yù)測(cè)樣本的構(gòu)建#預(yù)測(cè)樣本的輸入特征變量用x1表示。

importnumpyasnp

x1=np.array([28.4,50.6,1011.9,80.54])

x1=x1.reshape(1,4)神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

（1）導(dǎo)入神經(jīng)網(wǎng)絡(luò)回歸模塊MLPRegressor。

fromsklearn.neural_networkimportMLPRegressor（2）利用MLPRegressor創(chuàng)建神經(jīng)網(wǎng)絡(luò)回歸對(duì)象clf。

clf=MLPRegressor(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=8,random_state=1)

參數(shù)說明如下：

solver：神經(jīng)網(wǎng)絡(luò)優(yōu)化求解算法，包括lbfgs、sgd、adam3種，默認(rèn)為adam。

alpha：模型訓(xùn)練誤差，默認(rèn)為0.0001。

hidden_layer_sizes：隱含層神經(jīng)元個(gè)數(shù)。單層神經(jīng)元設(shè)置具體數(shù)值即可。如果是多層，如隱含層有兩層5×2。

random_state：默認(rèn)設(shè)置為1即可。（3）調(diào)用clf對(duì)象中的fit()方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。

clf.fit(x,y)（4）調(diào)用clf對(duì)象中的score()方法，獲得神經(jīng)網(wǎng)絡(luò)回歸的擬合優(yōu)度（判決系數(shù)）。

rv=clf.score(x,y)（5）調(diào)用clf對(duì)象中的predict()可以對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)，獲得預(yù)測(cè)結(jié)果。

R=clf.predict(x1)3．神經(jīng)網(wǎng)絡(luò)回歸模型構(gòu)建神經(jīng)網(wǎng)絡(luò)回歸應(yīng)用舉例第5章

importpandasaspddata=pd.read_excel('發(fā)電場(chǎng)數(shù)據(jù).xlsx')x=data.iloc[:,0:4]y=data.iloc[:,4]fromsklearn.neural_networkimportMLPRegressorclf=MLPRegressor(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=8,random_state=1)clf.fit(x,y);rv=clf.score(x,y)importnumpyasnpx1=np.array([28.4,50.6,1011.9,80.54])x1=x1.reshape(1,4)R=clf.predict(x1)print('樣本預(yù)測(cè)值為：',R)樣本預(yù)測(cè)值為：[439.27258187]第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)支持向量機(jī)原理支持向量機(jī)應(yīng)用舉例支持向量機(jī)原理第5章

支持向量機(jī)基于統(tǒng)計(jì)學(xué)理論，強(qiáng)調(diào)結(jié)構(gòu)風(fēng)險(xiǎn)最小化。其基本思想是：對(duì)給定有限數(shù)量訓(xùn)練樣本的學(xué)習(xí)任務(wù)，通過在原空間或投影后的高維空間構(gòu)造最優(yōu)分離超平面，將給定的兩類訓(xùn)練樣本分開，構(gòu)造分離超平面的依據(jù)是兩類樣本對(duì)分離超平面的最小距離最大。最優(yōu)分離超平面可以記為：位于最優(yōu)分離超平面上方的點(diǎn)滿足：位于最優(yōu)分離超平面下方的點(diǎn)滿足：通過調(diào)整權(quán)重

，邊緣的超平面可以記為：正類負(fù)類綜合所得從最優(yōu)分離超平面到

上任意點(diǎn)的距離為

，同理

到上任意點(diǎn)的距離也為

，則最大邊緣間隔為

。支持向量機(jī)原理第5章

如何尋找最優(yōu)分離超平面，需要用到更高的數(shù)學(xué)理論知識(shí)及技巧，這里不再介紹。對(duì)于非線性可分的情形，可以通過非線性映射將原數(shù)據(jù)變換到更高維空間，在新的高維空間中實(shí)現(xiàn)線性可分。這種非線性映射可以通過核函數(shù)來實(shí)現(xiàn)，常用的核函數(shù)包括。1．高斯核函數(shù)2．多項(xiàng)式核函數(shù)3．sigmoid核函數(shù)支持向量機(jī)應(yīng)用舉例第5章

取自UCI公共測(cè)試數(shù)據(jù)庫中的汽車評(píng)價(jià)數(shù)據(jù)集作為本例的數(shù)據(jù)集，該數(shù)據(jù)集共有6個(gè)特征、1個(gè)分類標(biāo)簽，共1728條記錄a1a2a3a4a5a6d442232344223334422313442222344222334422213……其中特征a1～a6的含義及取值依次為：buyingv-high,high,med,lowmaintv-high,high,med,lowdoors2,3,4,5-morepersons2,4,morelug_bootsmall,med,bigsafetylow,med,high分類標(biāo)簽d的取值情況為：unacc、acc、good、v-good，分別用1、2、3、4來表示。取數(shù)據(jù)集的前1690條記錄作為訓(xùn)練集，余下的作為測(cè)試集，計(jì)算預(yù)測(cè)準(zhǔn)確率。支持向量機(jī)應(yīng)用舉例第5章

1．?dāng)?shù)據(jù)獲取importpandasaspddata=pd.read_excel('car.xlsx')2．訓(xùn)練樣本與測(cè)試樣本劃分#訓(xùn)練用的特征數(shù)據(jù)用x表示，預(yù)測(cè)變量用y表示，測(cè)試樣本則分別記為x1和y1。x=data.iloc[:1690,:6].valuesy=data.iloc[:1690,6].valuesx1=data.iloc[1691:,:6].valuesy1=data.iloc[1691:,6].values支持向量機(jī)應(yīng)用舉例第5章

（1）導(dǎo)入支持向量機(jī)模塊svm。

fromsklearnimportsvm（2）利用svm創(chuàng)建支持向量機(jī)類svm。

clf=svm.SVC(kernel='rbf')

其中核函數(shù)可以選擇線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯核函數(shù)、sigmoid核，

分別用linear、poly、rbf、sigmoid表示，默認(rèn)情況下選擇高斯核函數(shù)。（3）調(diào)用svm中的fit()方法進(jìn)行訓(xùn)練。

clf.fit(x,y)（4）調(diào)用svm中的score()方法，考查訓(xùn)練效果。

rv=clf.score(x,y);#模型準(zhǔn)確率（針對(duì)訓(xùn)練數(shù)據(jù)）（5）調(diào)用svm中的predict()方法，對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)，獲得預(yù)測(cè)結(jié)果。

R=clf.predict(x1)3．支持向量機(jī)分類模型構(gòu)建支持向量機(jī)應(yīng)用舉例第5章

支持向量機(jī)完整示例代碼如下：importpandasaspddata=pd.read_excel('car.xlsx')x=data.iloc[:1690,:6].valuesy=data.iloc[:1690,6].valuesx1=data.iloc[1691:,:6].valuesy1=data.iloc[1691:,6].valuesfromsklearnimportsvmclf=svm.SVC(kernel='rbf')clf.fit(x,y)rv=clf.score(x,y);R=clf.predict(x1)Z=R-y1Rs=len(Z[Z==0])/len(Z)print('預(yù)測(cè)結(jié)果為：',R)print('預(yù)測(cè)準(zhǔn)確率為：',Rs)預(yù)測(cè)結(jié)果為：[4311314314333333333331314314331314314]預(yù)測(cè)準(zhǔn)確率為：0.7027027027027027第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)聚類思想與K-均值聚類K-均值聚類應(yīng)用舉例聚類思想第5章

聚類分析主要是使類內(nèi)的樣本盡可能相似，而類之間的樣本盡可能相異。聚類問題的一般提法是，設(shè)有n個(gè)樣本的

維觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣為：其中，每一行表示一個(gè)樣本，每一列表示一個(gè)指標(biāo)，xij表示第i個(gè)樣本關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值，并根據(jù)觀測(cè)值矩陣X對(duì)樣本進(jìn)行聚類。聚類分析的基本思想是：在樣本之間定義距離，距離表明樣本之間的相似度，距離越小，相似度越高，關(guān)系越緊密；將關(guān)系密切的聚集為一類，關(guān)系疏遠(yuǎn)的聚集為另一類，直到所有樣本都聚集完畢。K-均值聚類方法第5章

K-均值聚類是一種基于原型的、根據(jù)距離劃分組的算法，其時(shí)間復(fù)雜度比其他聚類算法低，用戶需指定劃分組的個(gè)數(shù)K。其中，K-均值聚類常見距離測(cè)度包括歐幾里得距離（也稱歐氏距離）、曼哈頓距離、切比雪夫距離等。K-均值聚類默認(rèn)采用歐氏距離進(jìn)行計(jì)算，其公式如下：（表示第個(gè)i樣本與第個(gè)j樣本之間的歐氏距離）K-均值聚類算法的直觀理解如下：Step1：隨機(jī)初始化K個(gè)聚類中心，即K個(gè)類中心向量。Step2：對(duì)每個(gè)樣本，計(jì)算其與各個(gè)類中心向量的距離，并將該樣本指派給距離最小的類。Step3：更新每個(gè)類的中心向量，更新的方法為取該類所有樣本的特征向量均值。Step4：直到各個(gè)類的中心向量不再發(fā)生變化為止，作為退出條件。K-均值聚類方法第5章

xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類，其算法執(zhí)行如下Step1：初始化兩個(gè)類的聚類中心，這里取前兩個(gè)樣本分別為聚類中心。C1=（1.5,2.5），C2=（1.7,1.3）到達(dá)C1的距離：0

1.22

0.32

3.75

2.79

4.69

4.41

0.67到達(dá)C2的距離：1.22

0.91

4.92

3.93

5.84

5.56

0.61各樣本所屬類：

2Step2：分別計(jì)算每個(gè)樣本到達(dá)各個(gè)聚類中心的距離：Step3：更新聚類中心，更新方法為計(jì)算所屬類的特征向量的均值C1=（（1.5+1.6+2.1+2.2+2.4+2.5）/6，（2.5+2.2+6.2+5.2+7.1+6.8）/6）=（2.05,5）C2=（（1.7+1.8）/2，（1.3+1.9）/2）=（1.75,1.6）K-均值聚類方法第5章

xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類，其算法執(zhí)行如下返回Step2，重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離：2.56

3.72

2.84

1.2

0.25

2.13

1.86

3.11到達(dá)C2的距離：0.93

0.3

0.62

4.61

3.63

5.54

5.25

0.3各樣本所屬類：

2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2，重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離：3.91

5.06

4.18

0.24

1.13

0.78

0.52

4.45到達(dá)C2的距離：0.55

0.68

0.23

4.25

3.27

5.18

4.9

0.17各樣本所屬類：

2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4：這里我們發(fā)現(xiàn)，聚類中心不再發(fā)生變化，而且類歸屬也沒有發(fā)生變化。其實(shí)正是因?yàn)轭悮w屬?zèng)]有發(fā)生變化，才導(dǎo)致了聚類中心不再發(fā)生變化，達(dá)到算法終止條件。故樣本1、2、3、8歸為一類，樣本4、5、6、7歸為另一類。K-均值聚類算法應(yīng)用舉例第5章

對(duì)表所示的31個(gè)地區(qū)2016年農(nóng)村居民人均可支配收入情況做聚類分析地區(qū)工資性收入（X1）經(jīng)營凈收入（X2）財(cái)產(chǎn)凈收入（X3）轉(zhuǎn)移凈收入（X4）北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………1．?dāng)?shù)據(jù)獲取及標(biāo)準(zhǔn)化處理importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)K-均值聚類算法應(yīng)用舉例第5章

（1）導(dǎo)入K-均值聚類模塊KMeans。

fromsklearn.clusterimportKMeans（2）利用KMeans創(chuàng)建K-均值聚類對(duì)象model。

model=KMeans(n_clusters=K,random_state=0,max_iter=500)

參數(shù)說明如下：

n_clusters：設(shè)置的聚類個(gè)數(shù)K。

random_state：隨機(jī)初始狀態(tài)，設(shè)置為0即可。

max_iter：最大迭代次數(shù)。（3）調(diào)用model對(duì)象中的fit()方法進(jìn)行擬合訓(xùn)練。

model.fit(X)（4）獲取model對(duì)象中的labels_屬性，可以返回其聚類的標(biāo)簽。

c=model.labels_2．K-均值聚類分析K-均值聚類算法應(yīng)用舉例第5章

完整代碼如下：importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)fromsklearn.clusterimportKMeansmodel=KMeans(n_clusters=4,random_state=0,max_iter=500)model.fit(X)c=model.labels_Fs=pd.Series(c,index=data['地區(qū)'])Fs=Fs.sort_values(ascending=True)第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)關(guān)聯(lián)規(guī)則概念布爾關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則概念第5章

假設(shè)有以下數(shù)據(jù)，每行代表一個(gè)顧客在超市的購買記錄。I1：西紅柿、排骨、雞蛋。I2：西紅柿、茄子。I3：雞蛋、襪子。I4：西紅柿、排骨、茄子。I5：西紅柿、排骨、襪子、酸奶。I6：雞蛋、茄子、酸奶。I7：排骨、雞蛋、茄子。I8：土豆、雞蛋、襪子。I9：西紅柿、排骨、鞋子、土豆。假如有一條規(guī)則：西紅柿—排骨，則同時(shí)購買西紅柿和排骨的顧客比例為4/9，而購買西紅柿的顧客當(dāng)中也購買了排骨的比例是

4/5。這兩個(gè)比例參數(shù)在關(guān)聯(lián)規(guī)則中是非常有意義的度量，分別稱作支持度（Support）和置信度（Confidence）。支持度反映了規(guī)則的覆蓋范圍，置信度反映了規(guī)則的可信程度。關(guān)聯(lián)規(guī)則概念第5章

在關(guān)聯(lián)規(guī)則中，商品集合I={西紅柿,排骨,雞蛋,茄子,襪子,酸奶,土豆,鞋子}稱作項(xiàng)集，每一個(gè)顧客購買的商品集合Ii稱為一個(gè)事務(wù)，所有事務(wù)T={I1,I2,…，I9}稱作事務(wù)集合，且滿足Ii是T的真子集。項(xiàng)集是項(xiàng)的集合。包含k項(xiàng)的項(xiàng)集稱作k項(xiàng)集，例如，集合{西紅柿,排骨,雞蛋}是一個(gè)3項(xiàng)集。項(xiàng)集出現(xiàn)的頻率是所有包含項(xiàng)集的事務(wù)計(jì)數(shù)，又稱作絕對(duì)支持度或支持度計(jì)數(shù)。假設(shè)某項(xiàng)集I的相對(duì)支持度滿足預(yù)定義的最小支持度閾值，則I是頻繁項(xiàng)集。頻繁k項(xiàng)集通常記作k。假設(shè)有以下數(shù)據(jù)，每行代表一個(gè)顧客在超市的購買記錄。I1：西紅柿、排骨、雞蛋。I2：西紅柿、茄子。I3：雞蛋、襪子。I4：西紅柿、排骨、茄子。I5：西紅柿、排骨、襪子、酸奶。I6：雞蛋、茄子、酸奶。I7：排骨、雞蛋、茄子。I8：土豆、雞蛋、襪子。I9：西紅柿、排骨、鞋子、土豆。關(guān)聯(lián)規(guī)則概念第5章

一對(duì)一關(guān)聯(lián)規(guī)則的形式如下：，A、B滿足A、B是T的真子集，并且A和B的交集為空集。其中A稱為前件，B稱為后件。關(guān)聯(lián)規(guī)則有時(shí)也表示形如“如果……那么……”，前者是規(guī)則成立的條件，后者是條件下發(fā)生的結(jié)果。支持度和置信度有以下計(jì)算公式：支持度表示為項(xiàng)集A、B同時(shí)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Python金融數(shù)據(jù)分析與挖掘（微課版） 課件 第5章 機(jī)器學(xué)習(xí)與實(shí)現(xiàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

Python金融數(shù)據(jù)分析與挖掘（微課版）課件第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)