甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)_第1頁(yè)
甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)_第2頁(yè)
甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)_第3頁(yè)
甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)_第4頁(yè)
甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第1篇甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第1篇可以分為以下2種情況:

缺失值較多

缺失值較少

用一個(gè)異常值填充(比如0),將缺失值作為一個(gè)特征處理

(0)

用均值|條件均值填充

如果數(shù)據(jù)是不平衡的,那么應(yīng)該使用條件均值填充

所謂條件均值,指的是與缺失值所屬標(biāo)簽相同的所有數(shù)據(jù)的均值

(())

用相鄰數(shù)據(jù)填充

()

簡(jiǎn)單來(lái)說(shuō),就是將缺失值也作為一個(gè)預(yù)測(cè)問(wèn)題來(lái)處理:將數(shù)據(jù)分為正常數(shù)據(jù)和缺失數(shù)據(jù),對(duì)有值的數(shù)據(jù)采用隨機(jī)森林等方法擬合,然后對(duì)有缺失值的數(shù)據(jù)進(jìn)行預(yù)測(cè),用預(yù)測(cè)的值來(lái)填充。

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第2篇條件概率(似然概率)

先驗(yàn)概率

后驗(yàn)概率

貝葉斯公式

(Y|X)&space;=&space;\frac{P(X|Y)&space;&space;P(Y)}{P(X)}_target=__blank_>(Y|X)&space;=&space;\frac{P(X|Y)&space;&space;P(Y)}{P(X)}_title=_P(Y|X)=\frac{P(X|Y)*P(Y)}{P(X)}_/>

最大似然理論:

認(rèn)為P(x|y)最大的類別y,就是當(dāng)前文檔所屬類別。即MaxP(x|y)=Maxp(x1|y)*p(x2|y)*...p(xn|y),forally

貝葉斯理論:

認(rèn)為需要增加先驗(yàn)概率p(y),因?yàn)橛锌赡苣硞€(gè)y是很稀有的類別幾千年才看見(jiàn)一次,即使P(x|y)很高,也很可能不是它。

所以y=MaxP(x|y)*P(y),其中p(y)一般是數(shù)據(jù)集里統(tǒng)計(jì)出來(lái)的。

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第3篇Sigmoid函數(shù)也叫Logistic函數(shù),用于隱層神經(jīng)元輸出,取值范圍為(0,1),它可以將一個(gè)實(shí)數(shù)映射到(0,1)的區(qū)間,可以用來(lái)做二分類。在特征相差比較復(fù)雜或是相差不是特別大時(shí)效果比較好。sigmoid是一個(gè)十分常見(jiàn)的激活函數(shù),函數(shù)的表達(dá)式如下:

\[S(x)=\frac{1}{1+e^{-x}}\]

Sigmoid函數(shù)的導(dǎo)數(shù)可以用其自身表示:

\[S'(x)=S(x)(1-S(x))\]

Sigmoid函數(shù)的特性與優(yōu)缺點(diǎn):

Sigmoid函數(shù)及其導(dǎo)數(shù)的圖像:

Tanh激活函數(shù)又叫作雙曲正切激活函數(shù)(hyperbolictangentactivationfunction)。與Sigmoid函數(shù)類似,Tanh函數(shù)也使用真值,但Tanh函數(shù)將其壓縮至-1到1的區(qū)間內(nèi)。與Sigmoid不同,Tanh函數(shù)的輸出以零為中心,因?yàn)閰^(qū)間在-1到1之間。

函數(shù)表達(dá)式:

f(x)=Tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}=\frac{2}{1+e^{-2x}}-1

我們可以發(fā)現(xiàn)Tanh函數(shù)可以看作放大并平移的Logistic函數(shù),其值域是(?1,1)。Tanh與Sigmoid的關(guān)系如下:

tanh(x)=2Sigmoid(2x)-1

Tanh激活函數(shù)的圖像也是S形,作為一個(gè)雙曲正切函數(shù),Tanh函數(shù)和Sigmoid函數(shù)的曲線相對(duì)相似。但是它比Sigmoid函數(shù)更有一些優(yōu)勢(shì)。

Tanh函數(shù)的特性與優(yōu)缺點(diǎn):

Tanh函數(shù)的使用優(yōu)先性高于Sigmoid函數(shù)。負(fù)數(shù)輸入被當(dāng)作負(fù)值,零輸入值的映射接近零,正數(shù)輸入被當(dāng)作正值:

注意:在一般的二元分類問(wèn)題中,Tanh函數(shù)用于隱藏層,而Sigmoid函數(shù)用于輸出層,但這并不是固定的,需要根據(jù)特定問(wèn)題進(jìn)行調(diào)整。

tanh函數(shù)的圖像:

線性整流函數(shù),又稱修正線性單元ReLU,是一種人工神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù),通常指代以斜坡函數(shù)及其變種為代表的非線性函數(shù)。

ReLU函數(shù)又稱為修正線性單元(RectifiedLinearUnit),是一種分段線性函數(shù),其彌補(bǔ)了Sigmoid函數(shù)以及Tanh函數(shù)的梯度消失問(wèn)題,在目前的深度神經(jīng)網(wǎng)絡(luò)中被廣泛使用。ReLU函數(shù)本質(zhì)上是一個(gè)斜坡(ramp)函數(shù),公式及函數(shù)圖像如下:

\begin{aligned}f(x)&=\left\{\begin{array}{ll}x&,x>=0\\0&,x<0\end{array}\right.\\&=\max(0,x)\end{aligned}

線性整流函數(shù)(ReLU函數(shù))的特性與優(yōu)缺點(diǎn):

ReLU函數(shù)(線性整流函數(shù))的圖像:

為了解決ReLU激活函數(shù)中的梯度消失問(wèn)題,當(dāng)x<0時(shí),我們使用LeakyReLU——該函數(shù)試圖修復(fù)deadReLU問(wèn)題。下面我們就來(lái)詳細(xì)了解LeakyReLU。

函數(shù)表達(dá)式如下:

\begin{aligned}\text{LeakyReLU}(x)&=\left\{\begin{array}{ll}x&\text{if}x>0\\αx&\text{if}x\leq0\end{array}\right.\\&=\max(0,x)+α\min(0,x),\end{aligned}

其中α是一個(gè)很小的數(shù),如等等。

LeakyReLU函數(shù)的特點(diǎn):

LeakyReLU函數(shù)的圖像:

ELU的提出也解決了ReLU的問(wèn)題。與ReLU相比,ELU有負(fù)值,這會(huì)使激活的平均值接近零。均值激活接近于零可以使學(xué)習(xí)更快,因?yàn)樗鼈兪固荻雀咏匀惶荻?。函?shù)表達(dá)式為:

\mathrm{g}(x)=\mathrm{ELU}(x)=\left\{\begin{aligned}x,&x>0\\\alpha\left(\mathrm{e}^{x}-1\right),&x\leqslant0\end{aligned}\right.

ELU函數(shù)的特點(diǎn):

ELU函數(shù)的圖像:

LeakyReLU是在ReLU的基礎(chǔ)上針對(duì)存在的問(wèn)題進(jìn)行的擴(kuò)展。除此以外也可以從其他角度進(jìn)行擴(kuò)展,不讓x乘常數(shù)項(xiàng),而是讓x乘超參數(shù),這看起來(lái)比LeakyReLU效果要好,這一種擴(kuò)展就是ParametricReLU,即為帶參數(shù)的ReLU函數(shù)。

函數(shù)表達(dá)式為:

\begin{aligned}\operatorname{PReLU}_{i}(x)&=\left\{\begin{array}{ll}x&\text{if}x>0\\a_{i}x&\text{if}x\leq0\end{array}\right.\\&=\max(0,x)+a_{i}\min(0,x),\end{aligned}

PReLU函數(shù)的特點(diǎn):

PReLU函數(shù)的圖像:

Softmax函數(shù)是用于多類分類問(wèn)題的激活函數(shù),在多類分類問(wèn)題中,超過(guò)兩個(gè)類標(biāo)簽則需要類成員關(guān)系。對(duì)于長(zhǎng)度為K的任意實(shí)向量,Softmax函數(shù)可以將其壓縮為長(zhǎng)度為K,值在(0,1)范圍內(nèi),并且向量中元素的總和為1的實(shí)向量。函數(shù)表達(dá)式如下:S_{i}=\frac{e^{i}}{\sum_{j}e^{j}}

Softmax函數(shù)與正常的max函數(shù)不同:max函數(shù)僅輸出最大值,但Softmax函數(shù)確保較小的值具有較小的概率,并且不會(huì)直接丟棄。我們可以認(rèn)為它是arg?max函數(shù)的概率版本或“soft”版本。Softmax函數(shù)的分母結(jié)合了原始輸出值的所有因子,這意味著Softmax函數(shù)獲得的各種概率彼此相關(guān)。

Softmax激活函數(shù)的特點(diǎn):

Softmax激活函數(shù)的圖像:(假如有三類)

Swish的設(shè)計(jì)受到了LSTM和高速網(wǎng)絡(luò)中g(shù)ating的sigmoid函數(shù)使用的啟發(fā)。我們使用相同的gating值來(lái)簡(jiǎn)化gating機(jī)制,這稱為self-gating。數(shù)學(xué)表達(dá)式為:

\sigma(x)=x*sigmoid(\betax)=x\sigma(\betax)=\frac{x}{1+e^{-\betax}}

self-gating的優(yōu)點(diǎn)在于它只需要簡(jiǎn)單的標(biāo)量輸入,而普通的gating則需要多個(gè)標(biāo)量輸入。這使得諸如Swish之類的self-gated激活函數(shù)能夠輕松替換以單個(gè)標(biāo)量為輸入的激活函數(shù)(如:ReLU),而無(wú)需更改隱藏容量或參數(shù)數(shù)量。

Swish函數(shù)的特點(diǎn):

Swish函數(shù)的圖像:

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第4篇

混淆矩陣

準(zhǔn)確率(accuracy)

精確率(precision)【查準(zhǔn)率】

準(zhǔn)確率與精確率的區(qū)別:

召回率(recall,sensitivity,truepositiverate)【查全率】

F1值——精確率和召回率的調(diào)和均值

\frac{2}{F_{1}}&space;=&space;\frac{1}{P}&space;+&space;\frac{1}{R}_target=_blank_>\frac{2}{F{1}}&space;=&space;\frac{1}{P}&space;+&space;\frac{1}{R}_title=_\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R}_/>

_{1}&space;=&space;\frac{2TP}{2TP&space;+&space;FP&space;+&space;FN}_target=_blank_>{1}&space;=&space;\frac{2TP}{2TP&space;+&space;FP&space;+&space;FN}_title=_F_{1}=\frac{2TP}{2TP+FP+FN}_/>

只有當(dāng)精確率和召回率都很高時(shí),F(xiàn)1值才會(huì)高

ROC

ROC曲線:接收者操作特征曲線(receiveroperatingcharacteristiccurve),是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),roc曲線上每個(gè)點(diǎn)反映著對(duì)同一信號(hào)刺激的感受性。

對(duì)于分類器,或者說(shuō)分類算法,評(píng)價(jià)指標(biāo)主要有precision,recall,F(xiàn)-score等,以及這里要討論的ROC和AUC。下圖是一個(gè)ROC曲線的示例:

橫坐標(biāo):1-Specificity,偽正類率(Falsepositiverate,F(xiàn)PR),預(yù)測(cè)為正但實(shí)際為負(fù)的樣本占所有負(fù)例樣本的比例;

縱坐標(biāo):Sensitivity,真正類率(Truepositiverate,TPR),預(yù)測(cè)為正且實(shí)際為正的樣本占所有正例樣本的比例。

在一個(gè)二分類模型中,假設(shè)采用邏輯回歸分類器,其給出針對(duì)每個(gè)實(shí)例為正類的概率,那么通過(guò)設(shè)定一個(gè)閾值如,概率大于等于的為正類,小于的為負(fù)類。對(duì)應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對(duì)應(yīng)坐標(biāo)點(diǎn)。隨著閾值的逐漸減小,越來(lái)越多的實(shí)例被劃分為正類,但是這些正類中同樣也摻雜著真正的負(fù)實(shí)例,即TPR和FPR會(huì)同時(shí)增大。閾值最大時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)為(0,0),閾值最小時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)(1,1)。

如下面這幅圖,(a)圖中實(shí)線為ROC曲線,線上每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)閾值。

(a)理想情況下,TPR應(yīng)該接近1,F(xiàn)PR應(yīng)該接近0。ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)于一個(gè)threshold,對(duì)于一個(gè)分類器,每個(gè)threshold下會(huì)有一個(gè)TPR和FPR。比如Threshold最大時(shí),TP=FP=0,對(duì)應(yīng)于原點(diǎn);Threshold最小時(shí),TN=FN=1,對(duì)應(yīng)于右上角的點(diǎn)(1,1)。(b)P和N得分不作為特征間距離d的一個(gè)函數(shù),隨著閾值theta增加,TP和FP都增加。

AUC

AUC(AreaUnderCurve)被定義為ROC曲線下的面積,顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍一般在和1之間。

使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說(shuō)明哪個(gè)分類器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類器效果更好。

AUC的計(jì)算有兩種方式,梯形法和ROCAUCH法,都是以逼近法求近似值,具體見(jiàn)wikipedia。

AUC意味著什么

那么AUC值的含義是什么呢?根據(jù)(Fawcett,2006),AUC的值的含義是:

TheAUCvalueisequivalenttotheprobabilitythatarandomlychosenpositiveexampleisrankedhigherthanarandomlychosennegativeexample.

這句話有些繞,我嘗試解釋一下:首先AUC值是一個(gè)概率值,當(dāng)你隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本,當(dāng)前的分類算法根據(jù)計(jì)算得到的Score值將這個(gè)正樣本排在負(fù)樣本前面的概率就是AUC值。當(dāng)然,AUC值越大,當(dāng)前的分類算法越有可能將正樣本排在負(fù)樣本前面,即能夠更好的分類。

從AUC判斷分類器(預(yù)測(cè)模型)優(yōu)劣的標(biāo)準(zhǔn):

三種AUC值示例:

簡(jiǎn)單說(shuō):AUC值越大的分類器,正確率越高。

為什么使用ROC曲線

既然已經(jīng)這么多評(píng)價(jià)標(biāo)準(zhǔn),為什么還要使用ROC和AUC呢?

因?yàn)镽OC曲線有個(gè)很好的特性:當(dāng)測(cè)試集中的正負(fù)樣本的分布變化的時(shí)候,ROC曲線能夠保持不變。在實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)類不平衡(classimbalance)現(xiàn)象,即負(fù)樣本比正樣本多很多(或者相反),而且測(cè)試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時(shí)間變化。

MAE(平均絕對(duì)誤差)

平均絕對(duì)誤差MAE(MeanAbsoluteError)又被稱為L(zhǎng)1范數(shù)損失。(n=m-1)

(y,\hat{y})&space;=&space;\frac{1}{m}\sum_{i=1}^{n}|y_i&space;-&space;\hat{y_i}|_target=_blank_>(y,\hat{y})&space;=&space;\frac{1}{m}\sum{i=1}^{n}|y_i&space;-&space;\hat{y_i}|_title=_MAE(y,\hat{y})=\frac{1}{m}\sum_{i=1}^{n}|y_i-\hat{y_i}|_/>

MAE有哪些不足?

MSE(均方誤差)

均方誤差MSE(MeanSquaredError)又被稱為**L2范數(shù)損失**。

(y,\hat{y})&space;=&space;\frac{1}{m}\sum_{i=1}{m}(y_i&space;-&space;\hat{y_i})2_target=_blank_>(y,\hat{y})&space;=&space;\frac{1}{m}\sum{i=1}{m}(y_i&space;-&space;\hat{y_i})2_title=_MSE(y,\hat{y})=\frac{1}{m}\sum_{i=1}^{m}(y_i-\hat{y_i})^2_/>

還有沒(méi)有比MSE更合理一些的指標(biāo)?

RMSE(均方根誤差)

(y,\hat{y})&space;=&space;\sqrt{\frac{1}{m}\sum_{i=1}{m}(y_i&space;-&space;\hat{y_i})2}_target=_blank_>(y,\hat{y})&space;=&space;\sqrt{\frac{1}{m}\sum{i=1}{m}(y_i&space;-&space;\hat{y_i})2}_title=_RMSE(y,\hat{y})=\sqrt{\frac{1}{m}\sum_{i=1}^{m}(y_i-\hat{y_i})^2}_/>

RMSE有沒(méi)有不足的地方?有沒(méi)有規(guī)范化(無(wú)量綱化的指標(biāo))?

R^2(決定系數(shù))

變量之所以有價(jià)值,就是因?yàn)樽兞渴亲兓摹J裁匆馑寄??比如說(shuō)一組因變量為[0,0,0,0,0],顯然該因變量的結(jié)果是一個(gè)常數(shù)0,我們也沒(méi)有必要建模對(duì)該因變量進(jìn)行預(yù)測(cè)。假如一組的因變量為[1,3,7,10,12],該因變量是變化的,也就是有變異,因此需要通過(guò)建立回歸模型進(jìn)行預(yù)測(cè)。這里的變異可以理解為一組數(shù)據(jù)的方差不為0。

決定系數(shù)又稱為R^2score,反映因變量的全部變異能通過(guò)回歸關(guān)系被自變量解釋的比例。

如果結(jié)果是0,就說(shuō)明模型預(yù)測(cè)不能預(yù)測(cè)因變量。

如果結(jié)果是1。就說(shuō)明是函數(shù)關(guān)系。

如果結(jié)果是0-1之間的數(shù),就是我們模型的好壞程度。

化簡(jiǎn)上面的公式,分子就變成了我們的均方誤差MSE,下面分母就變成了方差:

以上評(píng)估指標(biāo)有沒(méi)有缺陷,如果有,該怎樣改進(jìn)?

以上的評(píng)估指標(biāo)是基于誤差的均值對(duì)進(jìn)行評(píng)估的,均值對(duì)異常點(diǎn)(outliers)較敏感,如果樣本中有一些異常值出現(xiàn),會(huì)對(duì)以上指標(biāo)的值有較大影響,即均值是非魯棒的。

我們通常用以下兩種方法解決評(píng)估指標(biāo)的魯棒性問(wèn)題:

MAPE是一個(gè)相對(duì)誤差的中位數(shù),當(dāng)然也可以使用別的分位數(shù)。

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第5篇偏差與方差分別是用于衡量一個(gè)模型泛化誤差的兩個(gè)方面;

在監(jiān)督學(xué)習(xí)中,模型的泛化誤差可分解為偏差、方差與噪聲之和。

偏差用于描述模型的擬合能力方差用于描述模型的穩(wěn)定性

記在訓(xùn)練集D上學(xué)得的模型為

模型的期望預(yù)測(cè)為

\hat&space;f(x)&space;=&space;\Bbb&space;E_{D}[f(x;&space;D)]_target=_blank_>\hat&space;f(x)&space;=&space;\Bbb&space;E{D}[f(x;&space;D)]_title=_\hatf(x)=\BbbE_{D}[f(x;D)]_/>

偏差(Bias)

2(x)&space;=&space;(\hat&space;f(x)&space;-&space;y)2_target=__blank_>2(x)&space;=&space;(\hat&space;f(x)&space;-&space;y)2_title=_bias^2(x)=(\hatf(x)-y)^2_/>

偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力;

方差(Variance)

(x)&space;=&space;\Bbb&space;E_{D}[(f(x;&space;D)&space;-&space;\hat&space;f(x))^2]_target=_blank_>(x)&space;=&space;\Bbb&space;E{D}[(f(x;&space;D)&space;-&space;\hat&space;f(x))^2]_title=_var(x)=\BbbE_{D}[(f(x;D)-\hatf(x))^2]_/>

方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響(模型的穩(wěn)定性);

噪聲則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問(wèn)題本身的難度。

“偏差-方差分解”表明模型的泛化能力是由算法的能力、數(shù)據(jù)的充分性、任務(wù)本身的難度共同決定的。

避免欠擬合(刻畫不夠)

避免過(guò)擬合(刻畫太細(xì),泛化太差)

給定學(xué)習(xí)任務(wù),

偏差和方差的關(guān)系和模型容量(模型復(fù)雜度)、欠擬合和過(guò)擬合的概念緊密相聯(lián)

《深度學(xué)習(xí)》權(quán)衡偏差和方差以最小化均方誤差

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第6篇什么是熵?

《深度學(xué)習(xí)》信息論

信息論的基本想法是一個(gè)不太可能的事件居然發(fā)生了,要比一個(gè)非??赡艿氖录l(fā)生,能提供更多的信息。

該想法可描述為以下性質(zhì):

自信息(self-information)是一種量化以上性質(zhì)的函數(shù),定義一個(gè)事件x的自信息為:

當(dāng)該對(duì)數(shù)的底數(shù)為e時(shí),單位為奈特(nats,本書標(biāo)準(zhǔn));當(dāng)以2為底數(shù)時(shí),單位為比特(bit)或香農(nóng)(shannons)

自信息只處理單個(gè)的輸出。此時(shí),用信息熵(Information-entropy)來(lái)對(duì)整個(gè)概率分布中的不確定性總量進(jìn)行量化:

(\mathrm{X})=\mathbb{E}{\mathrm{X}\simP}[I(x)]=-\sum{x\in\mathrm{X}}P(x)\logP(x)_/>

信息熵也稱香農(nóng)熵(Shannonentropy)

信息論中,記0log0=0

P對(duì)Q的KL散度(Kullback-Leiblerdivergence):

_P(Q)=\mathbb{E}{\mathrm{X}\simP}\left[\log\frac{P(x)}{Q(x)}\right]=\sum{x\in\mathrm{X}}P(x)\left[\logP(x)-\logQ(x)\right]_/>

KL散度在信息論中度量的是那個(gè)直觀量:

在離散型變量的情況下,KL散度衡量的是,當(dāng)我們使用一種被設(shè)計(jì)成能夠使得概率分布Q產(chǎn)生的消息的長(zhǎng)度最小的編碼,發(fā)送包含由概率分布P產(chǎn)生的符號(hào)的消息時(shí),所需要的額外信息量。

KL散度的性質(zhì):

交叉熵(cross-entropy):

_P(Q)=-\mathbb{E}{\mathrm{X}\simP}\logQ(x)=-\sum{x\in\mathrm{X}}P(x)\logQ(x)_/>

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第7篇數(shù)學(xué)抽象

明確問(wèn)題是進(jìn)行機(jī)器學(xué)習(xí)的第一步。機(jī)器學(xué)習(xí)的訓(xùn)練過(guò)程通常都是一件非常耗時(shí)的事情,胡亂嘗試時(shí)間成本是非常高的。

這里的抽象成數(shù)學(xué)問(wèn)題,指的是根據(jù)數(shù)據(jù)明確任務(wù)目標(biāo),是分類、還是回歸,或者是聚類。

數(shù)據(jù)獲取

數(shù)據(jù)決定了機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能逼近這個(gè)上限。

數(shù)據(jù)要有代表性,否則必然會(huì)過(guò)擬合。

對(duì)于分類問(wèn)題,數(shù)據(jù)偏斜不能過(guò)于嚴(yán)重(平衡),不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個(gè)數(shù)量級(jí)的差距。

對(duì)數(shù)據(jù)的量級(jí)要有一個(gè)評(píng)估,多少個(gè)樣本,多少個(gè)特征,據(jù)此估算出內(nèi)存需求。如果放不下就得考慮改進(jìn)算法或者使用一些降維技巧,或者采用分布式計(jì)算。

預(yù)處理與特征選擇

良好的數(shù)據(jù)要能夠提取出良好的特征才能真正發(fā)揮效力。

預(yù)處理/數(shù)據(jù)清洗是很關(guān)鍵的步驟,往往能夠使得算法的效果和性能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等,數(shù)據(jù)挖掘過(guò)程中很多時(shí)間就花在它們上面。這些工作簡(jiǎn)單可復(fù)制,收益穩(wěn)定可預(yù)期,是機(jī)器學(xué)習(xí)的基礎(chǔ)必備步驟。

篩選出顯著特征、摒棄非顯著特征,需要機(jī)器學(xué)習(xí)工程師反復(fù)理解業(yè)務(wù)。這對(duì)很多結(jié)果有決定性的影響。特征選擇好了,非常簡(jiǎn)單的算法也能得出良好、穩(wěn)定的結(jié)果。這需要運(yùn)用特征有效性分析的相關(guān)技術(shù),如相關(guān)系數(shù)、卡方檢驗(yàn)、平均互信息、條件熵、后驗(yàn)概率、邏輯回歸權(quán)重等方法。

模型訓(xùn)練與調(diào)優(yōu)

直到這一步才用到我們上面說(shuō)的算法進(jìn)行訓(xùn)練。

現(xiàn)在很多算法都能夠封裝成黑盒使用。但是真正考驗(yàn)水平的是調(diào)整這些算法的(超)參數(shù),使得結(jié)果變得更加優(yōu)良。這需要我們對(duì)算法的原理有深入的理解。理解越深入,就越能發(fā)現(xiàn)問(wèn)題的癥結(jié),提出良好的調(diào)優(yōu)方案。

模型診斷

如何確定模型調(diào)優(yōu)的方向與思路呢?這就需要對(duì)模型進(jìn)行診斷的技術(shù)。

過(guò)擬合、欠擬合判斷是模型診斷中至關(guān)重要的一步。常見(jiàn)的方法如交叉驗(yàn)證,繪制學(xué)習(xí)曲線等。過(guò)擬合的基本調(diào)優(yōu)思路是增加數(shù)據(jù)量,降低模型復(fù)雜度。欠擬合的基本調(diào)優(yōu)思路是提高特征數(shù)量和質(zhì)量,增加模型復(fù)雜度。

誤差分析也是機(jī)器學(xué)習(xí)至關(guān)重要的步驟。通過(guò)觀察誤差樣本,全面分析誤差產(chǎn)生誤差的原因:是參數(shù)的問(wèn)題還是算法選擇的問(wèn)題,是特征的問(wèn)題還是數(shù)據(jù)本身的問(wèn)題......

診斷后的模型需要進(jìn)行調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新進(jìn)行診斷,這是一個(gè)反復(fù)迭代不斷逼近的過(guò)程,需要不斷地嘗試,進(jìn)而達(dá)到最優(yōu)狀態(tài)。

模型融合/集成

一般來(lái)說(shuō),模型融合后都能使得效果有一定提升。而且效果很好。

工程上,主要提升算法準(zhǔn)確度的方法是分別在模型的前端(特征清洗和預(yù)處理,不同的采樣模式)與后端(模型融合)上下功夫。因?yàn)樗麄儽容^標(biāo)準(zhǔn)可復(fù)制,效果比較穩(wěn)定。而直接調(diào)參的工作不會(huì)很多,畢竟大量數(shù)據(jù)訓(xùn)練起來(lái)太慢了,而且效果難以保證。

上線運(yùn)行

這一部分內(nèi)容主要跟工程實(shí)現(xiàn)的相關(guān)性更大。工程上是結(jié)果導(dǎo)向,模型在線上運(yùn)行的效果直接決定模型的成敗。不單純包括其準(zhǔn)確程度、誤差等情況,還包括其運(yùn)行的速度(時(shí)間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)、穩(wěn)定性是否可接受。

這些工作流程主要是工程實(shí)踐上總結(jié)出的一些經(jīng)驗(yàn)。并不是每個(gè)項(xiàng)目都包含完整的一個(gè)流程。這里的部分只是一個(gè)指導(dǎo)性的說(shuō)明,只有多實(shí)踐,多積累項(xiàng)目經(jīng)驗(yàn),才會(huì)有自己更深刻的認(rèn)識(shí)。

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第8篇因?yàn)樯窠?jīng)網(wǎng)絡(luò)中每一層的輸入輸出都是一個(gè)線性求和的過(guò)程,下一層的輸出只是承接了上一層輸入函數(shù)的線性變換,所以如果沒(méi)有激活函數(shù),那么無(wú)論你構(gòu)造的神經(jīng)網(wǎng)絡(luò)多么復(fù)雜,有多少層,最后的輸出都是輸入的線性組合,純粹的線性組合并不能夠解決更為復(fù)雜的問(wèn)題。而引入激活函數(shù)之后,我們會(huì)發(fā)現(xiàn)常見(jiàn)的激活函數(shù)都是非線性的,因此也會(huì)給神經(jīng)元引入非線性元素,使得神經(jīng)網(wǎng)絡(luò)可以逼近其他的任何非線性函數(shù),這樣可以使得神經(jīng)網(wǎng)絡(luò)應(yīng)用到更多非線性模型中。

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第9篇監(jiān)督學(xué)習(xí)的任務(wù)是學(xué)習(xí)一個(gè)模型,對(duì)給定的輸入預(yù)測(cè)相應(yīng)的輸出

這個(gè)模型的一般形式為一個(gè)決策函數(shù)或一個(gè)條件概率分布(后驗(yàn)概率):

監(jiān)督學(xué)習(xí)模型可分為生成模型與判別模型

判別模型直接學(xué)習(xí)決策函數(shù)或者條件概率分布

生成模型學(xué)習(xí)的是聯(lián)合概率分布P(X,Y),然后根據(jù)條件概率公式計(jì)算P(Y|X)

兩者之間的聯(lián)系

由生成模型可以得到判別模型,但由判別模型得不到生成模型。

當(dāng)存在“隱變量”時(shí),只能使用生成模型

隱變量:當(dāng)我們找不到引起某一現(xiàn)象的原因時(shí),就把這個(gè)在起作用,但無(wú)法確定的因素,叫“隱變量”

優(yōu)缺點(diǎn)

常見(jiàn)模型

甘肅機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)第10篇支持度(Support)

X→Y的支持度表示項(xiàng)集{X,Y}在總項(xiàng)集中出現(xiàn)的概率

其中,I表示總事務(wù)集,num()表示事務(wù)集中特定項(xiàng)集出現(xiàn)的次數(shù),P(X)=num(X)/num(I)

置信度(Confidence)

X→Y的置信度表示在先決條件X發(fā)生的情況下,由規(guī)則X→Y推出Y的概率。

提升度(Lift)

X→Y的提升度表示含有X的條件下,同時(shí)含有Y的概率,與Y總體發(fā)生的概率之比。

\begin{align}&space;Lift(X&space;\rightarrow&space;Y)&space;&=&space;\frac{P(Y|X)}{P(Y)}&space;=&space;\frac{Confidence(X&space;\rightarrow&space;Y)}{num(Y)&space;/&space;num(I)}&space;\&space;&=&space;\frac{P(X&space;\cup&space;Y)}{P(X)P(Y)}&space;=&space;\frac{num(X&space;\cup&space;Y)num(I)}{num(X)num(Y)}&space;\end{align}_target=__blank_>\begin{align}&space;Lift(X&space;\rightarrow&space;Y)&space;&=&space;\frac{P(Y|X)}{P(Y)}&space;=&space;\frac{Confidence(X&space;\rightarrow&space;Y)}{num(Y)&space;/&space;num(I)}&space;\&space;&=&space;\frac{P(X&space;\cup&space;Y)}{P(X)P(Y)}&space;=&space;\frac{num(X&space;\cup&space;Y)num(I)}{num(X)num(Y)}&space;\end{align}_title=_\begin{align}Lift(X\rightarrowY)&=\frac{P(Y|X)}{P(Y)}=\frac{Confidence(X\rightarrowY)}{num(Y)/num(I)}\&=\frac{P(X\cupY)}{P(X)P(Y)}=\frac{num(X\cupY)num(I)}{num(X)num(Y)}\end{align

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論