商務(wù)大數(shù)據(jù)分析導(dǎo)論 課件 項(xiàng)目二 大數(shù)據(jù)分析的算法_第1頁(yè)
商務(wù)大數(shù)據(jù)分析導(dǎo)論 課件 項(xiàng)目二 大數(shù)據(jù)分析的算法_第2頁(yè)
商務(wù)大數(shù)據(jù)分析導(dǎo)論 課件 項(xiàng)目二 大數(shù)據(jù)分析的算法_第3頁(yè)
商務(wù)大數(shù)據(jù)分析導(dǎo)論 課件 項(xiàng)目二 大數(shù)據(jù)分析的算法_第4頁(yè)
商務(wù)大數(shù)據(jù)分析導(dǎo)論 課件 項(xiàng)目二 大數(shù)據(jù)分析的算法_第5頁(yè)
已閱讀5頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商務(wù)大數(shù)據(jù)分析

導(dǎo)論目錄項(xiàng)目一

數(shù)據(jù)分析基礎(chǔ)項(xiàng)目二

大數(shù)據(jù)分析算法項(xiàng)目三

創(chuàng)業(yè)實(shí)踐:數(shù)據(jù)采集與整理

項(xiàng)目四

創(chuàng)業(yè)實(shí)踐:構(gòu)建數(shù)據(jù)模型項(xiàng)目五

創(chuàng)業(yè)實(shí)踐:認(rèn)識(shí)客戶價(jià)值項(xiàng)目六

創(chuàng)業(yè)實(shí)踐:數(shù)據(jù)可視化項(xiàng)目七

數(shù)字化創(chuàng)新創(chuàng)業(yè)實(shí)踐項(xiàng)目二大數(shù)據(jù)分析算法項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)一

決策

1.信息、熵及信息增益的概念

1.1信息及其度量

1.2信息熵

1.3條件熵、信息增益及信息增益比

2.決策樹的構(gòu)建

2.1ID3算法

2.2C4.5算法

2.3ID3、C4.5、CART的區(qū)別算法

3.算法用例1.信息、熵及信息增益的概念1.1信息及其度量克勞德·艾爾伍德·香農(nóng),美國(guó)數(shù)學(xué)家、電子工程師和密碼學(xué)家,被譽(yù)為信息論的創(chuàng)始人。他發(fā)表了劃時(shí)代的論文——通信的數(shù)學(xué)原理,奠定了現(xiàn)代信息論的基礎(chǔ)。不僅如此,香農(nóng)還被認(rèn)為是數(shù)字計(jì)算機(jī)理論和數(shù)字電路設(shè)計(jì)理論的創(chuàng)始人。香農(nóng)對(duì)信息的描述是“信息是用來(lái)消除隨機(jī)不確定性的東西”。信息是消息中包含的有效內(nèi)容,那么如何度量離散消息中所含的信息量?其度量的基本原則有三點(diǎn),一是能度量任何消息,并與消息的種類無(wú)關(guān);二是度量方法應(yīng)該與消息的重要程度無(wú)關(guān);三是消息中所含信息量和消息內(nèi)容的不確定性有關(guān)。1.2信息熵當(dāng)熵中的概率由數(shù)據(jù)估計(jì)(特別是最大似然估計(jì))得到時(shí),所對(duì)應(yīng)的熵稱為經(jīng)驗(yàn)熵(empiricalentropy)。所謂數(shù)據(jù)估計(jì),是指通過(guò)訓(xùn)練數(shù)據(jù)計(jì)算得出的分類概率值,比如有10個(gè)數(shù)據(jù),一共有兩個(gè)類別,A類和B類。其中有7個(gè)數(shù)據(jù)屬于A類,則該A類的概率即為十分之七。其中有3個(gè)數(shù)據(jù)屬于B類,則該B類的概率即為十分之三。淺顯的解釋就是,這概率是我們根據(jù)已有的數(shù)據(jù)數(shù)出來(lái)的。1.3

條件熵、信息增益及信息增益比1.信息、熵及信息增益的概念2.決策樹的構(gòu)建2.1ID3算法ID3算法的核心是在決策樹各個(gè)結(jié)點(diǎn)上對(duì)應(yīng)信息增益準(zhǔn)則選擇特征,遞歸地構(gòu)建決策樹。具體方法是:第一步。從根結(jié)點(diǎn)(rootnode)開始,對(duì)結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點(diǎn)的特征。第二步。由該特征的不同取值建立子節(jié)點(diǎn),再對(duì)子結(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹;直到所有特征的信息增益均很小或沒有特征可以選擇為止;第三步。最后得到一個(gè)決策樹。2.決策樹的構(gòu)建2.2C4.5算法與ID3算法相似,但是做了改進(jìn),將信息增益率作為選擇特征的標(biāo)準(zhǔn)。信息增益率=信息增益/屬性熵。用公式表示為:特征變量特征取值信息量條件信息熵信息增益屬性熵信息增益率outlooksunny0.9709510.6935360.246749821.57740.1564overcast0rainy0.970951temperaturehot10.9110630.0292225661.55670.0188mild0.918296cool0.811278humidityhigh0.9852280.7884501518normal0.591673windyFALSE0.8112780.8921590.048127030.98520.0489TRUE1節(jié)點(diǎn)特征取值特征特征取值信息量條件信息熵信息增益屬性熵信息增益率Rainytemperaturemild0.9182960.9509780.0199730.9709510.020571cool1humidityhigh10.9509780.0199730.9709510.020571normal0.918296windyFALSE000.9709510.9709511TRUE0Sunnytemperaturehot00.40.5709511.5219280.37515mild1cool0humidityhigh000.9709510.9709511normal0windyFALSE0.9182960.9509780.0199730.9709510.020571TRUE12.決策樹的構(gòu)建2.3ID3、C4.5、CART的區(qū)別算法對(duì)于這三個(gè)非常著名的決策樹算法,簡(jiǎn)單地區(qū)別是:ID3使用信息增益作為選擇特征的準(zhǔn)則;C4.5使用信息增益率作為選擇特征的準(zhǔn)則;CART使用基尼系數(shù)作為選擇特征的準(zhǔn)則。ID3:熵表示的是數(shù)據(jù)中包含的信息量大小。熵越小,數(shù)據(jù)的純度越高,也就是說(shuō)數(shù)據(jù)越趨于一致,這是我們希望的劃分之后每個(gè)子節(jié)點(diǎn)的樣子。C4.5:克服了ID3僅僅能夠處理離散屬性的問(wèn)題,以及信息增益偏向選擇取值較多特征的問(wèn)題,使用信息增益率來(lái)選擇特征。信息增益率=信息增益/屬性熵,選擇信息增益率最大的作為最優(yōu)特征。C4.5處理連續(xù)特征是先將特征取值排序,以連續(xù)兩個(gè)值中間值作為劃分標(biāo)準(zhǔn)。嘗試每一種劃分,并計(jì)算修正后的信息增益,選擇信息增益最大的分裂點(diǎn)作為該屬性的分裂點(diǎn)。CART:與ID3、C4.5不同之處在于CART生成的樹必須是二叉樹。也就是說(shuō),無(wú)論是回歸還是分類問(wèn)題,無(wú)論特征是離散的還是連續(xù)的,無(wú)論屬性取值有多個(gè)還是兩個(gè),內(nèi)部節(jié)點(diǎn)只能根據(jù)屬性值進(jìn)行二分。CART的全稱是分類與回歸樹。從這個(gè)名字中就應(yīng)該知道,CART既可以用于分類問(wèn)題,也可以用于回歸問(wèn)題。2.決策樹的構(gòu)建3.算法用例以天氣打球數(shù)據(jù)集D為例,在Orange中用決策樹算法構(gòu)造的流程圖如下:2.決策樹的構(gòu)建3.算法用例通過(guò)Tree模型插件后數(shù)據(jù)就分好類了,然后我們?cè)偈褂肨reeviewer可視化插件看下分類情況,如下圖。可以看到Treeviewer很形象地展示了決策樹,與我們的手動(dòng)計(jì)算結(jié)果一致,也表示出了每個(gè)特征分類值。項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)二

聚類算法

1.K-means算法

1.1距離的計(jì)算

1.2算法流程

1.3幾個(gè)聚類算法中的數(shù)學(xué)公式

2.感受質(zhì)心的遷移過(guò)程

3.K值的選擇

3.1快速判斷法

3.2肘部法則(ElbowMethod)

3.3輪廓系數(shù)法(SilhouetteCoefficient)4.從等高線認(rèn)識(shí)正則項(xiàng)

4.1與正則化

4.2正則項(xiàng)與稀疏解

聚類算法所謂聚類算法是指將一堆沒有標(biāo)簽的數(shù)據(jù)自動(dòng)劃分成幾類的方法,因?yàn)槭孪炔⒉恢廊绾蝿澐旨皹颖舅鶎俚念悇e,屬于無(wú)監(jiān)督學(xué)習(xí)方法,但這個(gè)方法要保證同一類的數(shù)據(jù)有相似的特征,如下圖。其基本理論是,根據(jù)樣本之間的距離或者說(shuō)是相似性(親疏性),把越相似、差異越小的樣本聚成一類(簇),最后形成多個(gè)簇,使同一個(gè)簇內(nèi)部的樣本相似度高,不同簇之間差異性高。1.K-means算法K-means算法是最基礎(chǔ)和最常用聚類算法。其相關(guān)概念有:K值:希望得到的簇的個(gè)數(shù)。質(zhì)心:即簇的中心值,是每個(gè)簇的均值向量,向量各維取平均即可。距離量度:常用歐幾里得距離和余弦相似度,但在計(jì)算之前,先要將各維數(shù)據(jù)標(biāo)準(zhǔn)化。1.K-means算法1.1距離的計(jì)算在聚類算法的距離計(jì)算中,不得不提到范數(shù)這一數(shù)學(xué)概念,在很多機(jī)器學(xué)習(xí)相關(guān)的著作和教材中,我們也經(jīng)常看到各式各樣的距離及范數(shù)。圖4-2曼哈頓距離歐式距離1.K-means算法1.2算法流程(1)首先確定一個(gè)k值,即我們希望將數(shù)據(jù)集經(jīng)過(guò)聚類得到k個(gè)集合。(2)從數(shù)據(jù)集中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心。(3)對(duì)數(shù)據(jù)集中每一個(gè)點(diǎn),計(jì)算其與每一個(gè)質(zhì)心的距離(如歐式距離),離哪個(gè)質(zhì)心近,就劃分到那個(gè)質(zhì)心所屬的集合。(4)把所有數(shù)據(jù)歸好集合后,一共有k個(gè)集合。然后重新計(jì)算每個(gè)集合的質(zhì)心,計(jì)算均值,即向量各維取平均。(5)如果新計(jì)算出來(lái)的質(zhì)心和原來(lái)的質(zhì)心之間的距離小于某一個(gè)設(shè)置的閾值(表示重新計(jì)算的質(zhì)心的位置變化不大,趨于穩(wěn)定,或者說(shuō)收斂),我們可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果,算法終止。

(6)如果新質(zhì)心和原質(zhì)心距離變化很大,需要迭代3~5步驟。1.K-means算法1.3幾個(gè)聚類算法中的數(shù)學(xué)公式在聚類算法的流程中,讀者可能會(huì)產(chǎn)生一種錯(cuò)覺,認(rèn)為其聚類原理容易理解,符合所有人的一般認(rèn)知。不就是找到幾個(gè)相對(duì)中心,然后計(jì)算距離,以最小距離歸類嗎?況且計(jì)算過(guò)程也不復(fù)雜。這些錯(cuò)覺很容易讓讀者對(duì)聚類不屑一顧,而不愿深入研究。事實(shí)上,聚類算法也有自己的深度內(nèi)容,這些內(nèi)容將在以下部分有限度地展開,但在此之前,讓我們先學(xué)習(xí)幾個(gè)聚類算法中無(wú)法繞開的概念及它們的數(shù)學(xué)公式。(1)質(zhì)心的計(jì)算。(2)誤差平方和(SSE,TheSumofSquaresduetoError)。是指簇內(nèi)每一個(gè)點(diǎn)與其質(zhì)心的距離平方和,體現(xiàn)的是質(zhì)心位置的合適程度。其表達(dá)式為:(3)輪廓系數(shù)(SilhouetteCoefficient)。是結(jié)合了聚類的凝聚度(Cohesion)和分離度(Separation)的一個(gè)參數(shù),用于評(píng)估聚類的效果。其表達(dá)式為:2.感受質(zhì)心的遷移過(guò)程以上內(nèi)容還是太抽象,但至少我們隱隱約約感受到,聚類算法最重要的三個(gè)要素是距離的計(jì)算方式、質(zhì)心如何找到和k值的選擇問(wèn)題。目前來(lái)看,距離計(jì)算方式的選擇問(wèn)題不大,因?yàn)樽畛S玫木褪菤W式距離和曼哈頓距離這兩種,只要根據(jù)樣本內(nèi)容和研究目的進(jìn)行適當(dāng)選擇就可以了。

質(zhì)心如何確定?它又是如何遷移的?用實(shí)際數(shù)據(jù)分步驟計(jì)算才能一睹真容。初始樣本2.感受質(zhì)心的遷移過(guò)程質(zhì)心集(A)8.716.895.6質(zhì)心集(B)3.124.64-2.7質(zhì)心集(C)2.09-1.788.42質(zhì)心集(A)6.5588245.3311760.662941質(zhì)心集(B)-0.800560.508916-4.59029質(zhì)心集(C)-0.47549-3.984425.091429質(zhì)心集(A)5.8893945.008182-1.05242質(zhì)心集(B)-1.32384-0.82931-6.24457質(zhì)心集(C)-1.81255-3.575674.919818質(zhì)心集(A)5.9676194.661389-1.48361質(zhì)心集(B)-1.59279-1.01492-6.25326質(zhì)心集(C)-2.04694-3.530344.925636第一次迭代

第二次迭代

第三次迭代

第四次迭代3.K值的選擇K值的選擇在聚類算法中至關(guān)重要,因?yàn)槠錉砍兜剿惴P偷挠行?。依然以上?jié)中的數(shù)據(jù)為例,我們借助Orange分析軟件,對(duì)幾種主要的K值評(píng)判方法加以介紹。3.1快速判斷法3.2肘部法則(ElbowMethod)快速判斷法是一種經(jīng)驗(yàn)判斷方法,那么有沒有一種可以選擇聚類數(shù)目的較為科學(xué)的方法呢?有一種方法叫做“肘部法則”,也就是說(shuō)我們分別計(jì)算在各種K值中聚類算法最終的損失函數(shù),一般是指SSE,繪制出隨著K值變化損失函數(shù)變化的曲線,通過(guò)曲線的“拐點(diǎn)”來(lái)判斷最佳的K值。3.K值的選擇將Orange中k=2到k=7的聚類數(shù)據(jù)全部保存下來(lái),并且對(duì)其SSE逐個(gè)進(jìn)行計(jì)算,得到如下表k值1234567SSE145628451629052754400348930093.K值的選擇3.3輪廓系數(shù)法(SilhouetteCoefficient)k=2,SilhouetteScores=0.303.k=3,SilhouetteScores=0.310.3.K值的選擇3.3輪廓系數(shù)法(SilhouetteCoefficient)k=4,silhouettescores=0.307.k=5,SilhouetteScores=0.303.3.K值的選擇3.3輪廓系數(shù)法(SilhouetteCoefficient)k=6,silhouettescores=0.317.k=7,silhouettescores=0.315.4.從等高線認(rèn)識(shí)正則項(xiàng)等高線和正則項(xiàng)原本是一對(duì)完全不搭嘎的兩個(gè)概念,之所以把它們放在一起,是因?yàn)檎齽t項(xiàng)(RegularTerms)過(guò)于抽象,如果不學(xué)習(xí)大數(shù)據(jù)分析算法,我們也許一輩子都不會(huì)接觸這個(gè)詞匯,但在本書的登高之旅中,正則項(xiàng)又是一個(gè)繞不過(guò)去的山丘。4.1L1與L2正則化L1正則項(xiàng)與損失函數(shù)的關(guān)系示意圖

L2正則項(xiàng)與損失函數(shù)的關(guān)系示意圖4.從等高線認(rèn)識(shí)正則項(xiàng)4.2正則項(xiàng)與稀疏解在機(jī)器學(xué)習(xí)的諸多方法中,如果我們得到的數(shù)據(jù)集較小,那在訓(xùn)練過(guò)程中很可能遇到過(guò)擬合(over-fitting)問(wèn)題,即訓(xùn)練出來(lái)的模型可能將數(shù)據(jù)中隱含的噪聲和毫無(wú)關(guān)系的特征也表征出來(lái)。一次函數(shù)無(wú)數(shù)解示意圖

L1范數(shù)示意圖

稀疏解示意圖項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)三

樸素貝葉斯

1.算法概要

2.貝葉斯公式

3.算法說(shuō)明

4.案例推演

5.Orange用例

1.算法概要樸素貝葉斯算法主要應(yīng)用于分類,二分類及多分類均可。因?yàn)槠渌惴ㄒ载惾~斯定理為基礎(chǔ)展開,同時(shí)有很強(qiáng)的獨(dú)立性假設(shè),使得計(jì)算簡(jiǎn)單,應(yīng)用廣泛,所以將這一類算法稱之為樸素貝葉斯算法。其算法的應(yīng)用流程可圖示如下圖。2.貝葉斯公式首先引入經(jīng)典的貝葉斯公式:3.樸素貝葉樹分類的正式定義:4.案例推演在某學(xué)校,對(duì)學(xué)生是否吃牛肉面進(jìn)行了統(tǒng)計(jì),并對(duì)統(tǒng)計(jì)當(dāng)天的平均溫差及天氣特征進(jìn)行記錄,其目的是想了解學(xué)生的飲食偏好與溫差和氣象特征之間的關(guān)系。統(tǒng)計(jì)表如下表所示:性別平均溫差區(qū)間天氣特征是否吃牛肉面男中區(qū)晴不吃女低區(qū)多云吃男中區(qū)陰不吃男高區(qū)晴吃女低區(qū)小雪吃女低區(qū)小雪不吃男中區(qū)晴吃男高區(qū)陰不吃女中區(qū)小雪吃男低區(qū)陰吃性別身高(英尺)體重(磅)腳掌(英寸)男618012男5.9219011男5.5817012男5.9216510女51006女5.51508女5.421307女5.75150.995.

Orange用例本次Orange用例的目的是期望在溫度、氣象、價(jià)位、午餐/晚餐這四個(gè)特征變量的“加持”下,生成學(xué)生選擇葷/素或米/面的分類器。應(yīng)用樸素貝葉斯算法是本用例的重點(diǎn),但為了增強(qiáng)比較性,我們同時(shí)應(yīng)用了隨機(jī)森林和邏輯回歸這兩個(gè)算法作為貝葉斯算法的背景。因其“樸素”,所以整個(gè)Orange算法流程圖也相當(dāng)“簡(jiǎn)約”,如圖。正確分類數(shù)據(jù)集錯(cuò)誤分類數(shù)據(jù)集樸素貝葉斯算法的部分散點(diǎn)圖三種算法的評(píng)測(cè)指標(biāo)樸素貝葉斯Orange流程圖項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)四

K近鄰分類算法

1.算法概述

2.算法要點(diǎn)

1.1距離計(jì)算

1.2K值的選擇

1.3特征工程及One-hot編碼

1.4KNN算法的特點(diǎn)及優(yōu)缺點(diǎn)

3.KNN的交叉驗(yàn)證

4.模型評(píng)估指標(biāo)

4.1模塊

4.2指標(biāo)

5.算法用例

1.算法概述k近鄰(Knearestneighbor)算法,也簡(jiǎn)稱為KNN算法,是一種基本的分類算法。其原理是:對(duì)于一個(gè)待分類的數(shù)據(jù),將其和一組已經(jīng)分類標(biāo)注好的樣本集合進(jìn)行比較,得到距離最近的k個(gè)樣本,k個(gè)樣本最多歸屬的類別,就是待分類數(shù)據(jù)的類別。KNN算法可用于各種分類的場(chǎng)景,比如新聞分類、商品分類、模式識(shí)別、多分類領(lǐng)域等,甚至可用于簡(jiǎn)單的文字識(shí)別。KNN算法原理圖示KNN算法流程2.算法要點(diǎn)2.1距離計(jì)算在KNN中,要度量空間中點(diǎn)距離的話,有好幾種度量方式,比如常見的曼哈頓距離計(jì)算,歐式距離計(jì)算等等。關(guān)于距離計(jì)算,我們?cè)诰垲愃惴ㄖ幸延性敿?xì)介紹。不過(guò)通常KNN算法中使用的是歐式距離,即如下公式:2.2K值的選擇在KNN算法中,計(jì)算過(guò)程及原理解析都不復(fù)雜,但k值的選擇至關(guān)重要。那么,在實(shí)際場(chǎng)景應(yīng)用中,如何選擇k值呢?一般來(lái)講,是利用算法工具,如Orange,進(jìn)行不同k值的測(cè)算,通過(guò)錯(cuò)誤率的對(duì)比,找到一個(gè)錯(cuò)誤率最低的k值,k一般選取1~20。比如在后續(xù)小節(jié)中要講到的汽車分類案例中,其錯(cuò)誤率的曲線圖(如圖6-3)為:汽車分類案例中的K值曲線2.算法要點(diǎn)2.3特征工程及One-hot編碼KNN的應(yīng)用場(chǎng)景是分類,所以一般來(lái)講,應(yīng)用于KNN的數(shù)據(jù)集大多數(shù)都是離散型、目錄型數(shù)據(jù)結(jié)構(gòu)。特征工程及One-hot編碼都是將類別變量轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法易于利用的一種形式的工具。尤其是One-hot編碼,對(duì)類別進(jìn)行“二進(jìn)制化”操作,然后將其作為模型訓(xùn)練的特征,可以快速形成算法程序可識(shí)別運(yùn)算的數(shù)據(jù)結(jié)構(gòu)。在汽車分類用例中,其源數(shù)據(jù)與One-hot編碼轉(zhuǎn)換后的數(shù)據(jù)格式如下表:2.算法要點(diǎn)2.4KNN算法的特點(diǎn)及優(yōu)缺點(diǎn)標(biāo)題中已說(shuō)明,KNN是一種非參的,惰性的算法模型,解釋如下,同時(shí)也是對(duì)標(biāo)題的注解。首先,非參的意思并不是說(shuō)KNN算法不需要參數(shù),而是意味著這個(gè)模型不會(huì)對(duì)數(shù)據(jù)做出任何的假設(shè),與之相對(duì)的是線性回歸(我們總會(huì)假設(shè)線性回歸是一條直線)。也就是說(shuō)KNN建立的模型結(jié)構(gòu)是根據(jù)數(shù)據(jù)來(lái)決定的,這也比較符合現(xiàn)實(shí)的情況,畢竟在現(xiàn)實(shí)中的情況往往與理論上的假設(shè)是不相符的。其次,惰性是指與其他分類算法相比,沒有的損失函數(shù)和訓(xùn)練過(guò)程。比如,同樣是分類算法,邏輯回歸或人工神經(jīng)網(wǎng)絡(luò)等都需要先對(duì)數(shù)據(jù)進(jìn)行大量訓(xùn)練,最后才會(huì)得到一個(gè)算法模型。而KNN算法卻不需要,它沒有明確的訓(xùn)練數(shù)據(jù)的過(guò)程,或者說(shuō)這個(gè)過(guò)程很快。3.

KNN的交叉驗(yàn)證一般來(lái)講,按比例的數(shù)據(jù)采樣或多折交叉驗(yàn)證需要多次應(yīng)用,相互印證。通常將數(shù)據(jù)集進(jìn)行不同方法的分割,人為將整個(gè)數(shù)據(jù)集分為訓(xùn)練集(trainingset)和測(cè)試集(testset)兩部分。我們將這種數(shù)據(jù)集分割組合進(jìn)行算法模型評(píng)估的方法叫交叉驗(yàn)證。在實(shí)際應(yīng)用中,有如下幾種常用方法:3.1TheValidationSetApproach把整個(gè)數(shù)據(jù)集分成兩部分,一部分用于訓(xùn)練,一部分用于驗(yàn)證,分割時(shí)以比例進(jìn)行調(diào)節(jié)。以汽車分類為例,以不同的比例分割數(shù)據(jù)集,其錯(cuò)誤率是不同的,如下圖:汽車分類案例不同比例分割的錯(cuò)誤率3.2Cross-Validation(1)LOOCV首先,我們先介紹LOOCV方法,即(Leave-one-outcross-validation),或稱為留一法。像Testsetapproach一樣,LOOCV方法也包含將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集這一步驟。但是不同的是,我們現(xiàn)在只用一個(gè)數(shù)據(jù)作為測(cè)試集,其他的數(shù)據(jù)都作為訓(xùn)練集,并將此步驟重復(fù)N次(N為數(shù)據(jù)集的數(shù)據(jù)數(shù)量)。(2)K-foldCrossValidation3.

KNN的交叉驗(yàn)證1.數(shù)據(jù)采樣器模塊2.測(cè)試模塊數(shù)據(jù)采樣器模塊窗口測(cè)試模塊窗口4.模型評(píng)估指標(biāo)大數(shù)據(jù)分析技術(shù)領(lǐng)域不僅包含數(shù)據(jù)和算法,還有一個(gè)重要的環(huán)節(jié),就是測(cè)試和驗(yàn)證,其主要職能是對(duì)算法產(chǎn)生的模型,或稱為學(xué)習(xí)器,就其預(yù)測(cè)的準(zhǔn)確性,使用數(shù)據(jù)的測(cè)試集進(jìn)行驗(yàn)證,用以評(píng)判學(xué)習(xí)器的性能。性能不好的學(xué)習(xí)器,要考慮調(diào)整參數(shù),或者更改算法;而性能良好的學(xué)習(xí)器,其良好程度如何?是否達(dá)到滿意程度等都需要相關(guān)指標(biāo)的精確表達(dá)。以下就以KNN算法為例,就Orange平臺(tái)所采用的測(cè)試驗(yàn)證模塊的主要使用方法及指標(biāo)含義詳細(xì)說(shuō)明。4.1模塊1.混淆矩陣模塊表6-1ConfusionMatrix矩陣表汽車數(shù)據(jù)案例的KNN混淆矩陣模塊汽車數(shù)據(jù)案例的KNN混淆矩陣(按樣本數(shù))4.模型評(píng)估指標(biāo)4.1模塊2.測(cè)試模塊:汽車數(shù)據(jù)案例ROC曲線圖汽車數(shù)據(jù)案例測(cè)試模塊5.算法用例buying(購(gòu)買價(jià))v-highhighmedlowmaint(維保支出)v-highhighmedlowdoors(車門)2345-morepersons(載人)24morelug_boot(后備箱)smallmedbigsafety(安全性)lowmedhigh汽車數(shù)據(jù)的屬性表汽車數(shù)據(jù)的Orange流程圖項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)五

關(guān)聯(lián)規(guī)則

1.算法概述

2.Apriori算法

1.1相關(guān)概念

1.2算原理

1.3算法流程

3.Orange與Apriori算例

1.算法概述關(guān)聯(lián)規(guī)則(AssociationRules)是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則通過(guò)發(fā)現(xiàn)顧客放人其購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)買習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購(gòu)買模式的顧客劃分??蓮臄?shù)據(jù)庫(kù)中關(guān)聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。TransactionItems1{面包,牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂(lè)}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂(lè)}項(xiàng)目:英文表示為Item(I),是指某個(gè)單個(gè)的事務(wù),如上表中的商品,面包、牛奶、啤酒等。事項(xiàng):英文表示為Transaction(T),是指某一條記錄,是所有項(xiàng)目的非空子集。如上表中每條記錄都是一次交易事項(xiàng)。項(xiàng)集:英文表示為Itemset,是指某幾個(gè)項(xiàng)目的集合,通常用{}進(jìn)行標(biāo)注,如{牛奶,尿布,啤酒}。關(guān)聯(lián)規(guī)則:英文表示為Associationrule,通常表示為{X}->{Y},{X}叫前件,{Y}叫后件。2.Apriori算法2.1相關(guān)概念關(guān)聯(lián)規(guī)則最常用的是Apriori算法,同時(shí)也是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法。所謂頻繁項(xiàng)集是指由獨(dú)立事件組成的項(xiàng)目交集頻繁發(fā)生且達(dá)到預(yù)期值的集合,其嚴(yán)謹(jǐn)?shù)谋硎龇椒ㄟ€需要如下幾個(gè)概念的引入:支持度:幾個(gè)關(guān)聯(lián)的項(xiàng)目組成的項(xiàng)集在總事項(xiàng)中出現(xiàn)的次數(shù)占總事項(xiàng)數(shù)量的比重。置信度:一個(gè)項(xiàng)集出現(xiàn)后,另一個(gè)項(xiàng)集出現(xiàn)的概率,或者說(shuō)前件與后件的條件概率。提升度:項(xiàng)集X的出現(xiàn)對(duì)項(xiàng)集Y的出現(xiàn)概率提升的程度。頻繁項(xiàng)集:支持度大于或等于某個(gè)閾值的項(xiàng)集就叫做頻繁項(xiàng)集。例如閾值設(shè)為50%時(shí),因?yàn)閧牛奶,尿布}的支持度是60%,所以它是頻繁項(xiàng)集。項(xiàng)集的超集:包含某個(gè)項(xiàng)集的元素且元素個(gè)數(shù)更多的項(xiàng)集。比如{牛奶,尿布}這個(gè)項(xiàng)集,它的超集可以是{牛奶,尿布,啤酒},也可以是{牛奶,尿布,啤酒,可樂(lè)}。項(xiàng)集的子集:與超集相反,子集是指包含某個(gè)項(xiàng)集的一部分,且元素個(gè)數(shù)更少的項(xiàng)集。比如{牛奶,尿布,啤酒,可樂(lè)}這個(gè)項(xiàng)集,它的子集可以是{牛奶,尿布,啤酒},也可以是{牛奶,尿布}或{牛奶}。2.Apriori算法2.2算法原理Apriori算法的核心思想:頻繁項(xiàng)的非空子集肯定頻繁。如果一個(gè)項(xiàng)不頻繁,那么他的超項(xiàng)肯定不頻繁。2.3算法流程輸入:數(shù)據(jù)集合D,支持度閾值a。輸出:最大的K頻繁3.Orange與Apriori算例單號(hào)點(diǎn)餐1麻辣豆腐,木耳粉條,蒜苗肉絲2宮爆雞丁,紅燒肉3紅燒雞塊,炒拉條4重慶辣子雞,青椒火腿5土豆絲,鹵肉,麻辣粉條6孜然土豆片,麻辣豆腐,青椒肉絲,雞丁炒米飯7孜然土豆片,酸菜粉條8回鍋肉炒飯,孜然肉炒飯9重慶辣子雞,紅燒肉,紅燒排骨10麻辣豆腐,酸菜粉條,辣子肉片11青椒火腿,西紅柿炒雞蛋12青椒肉絲,回鍋肉炒飯,酸菜鹵肉┇┇┇┇709紅燒肉,紅燒雞塊在Orange中針對(duì)關(guān)聯(lián)規(guī)則提供了兩個(gè)算法。因?yàn)殛P(guān)聯(lián)規(guī)則是一種無(wú)監(jiān)督學(xué)習(xí)算法,所以O(shè)range在諸多無(wú)監(jiān)督學(xué)習(xí)模型后專門開列了關(guān)聯(lián)規(guī)則算法模型供應(yīng)用。示例數(shù)據(jù)集收列了某學(xué)校食堂各灶學(xué)生點(diǎn)餐外賣的數(shù)據(jù),以一單為一個(gè)項(xiàng)集,共709條數(shù)據(jù),陳列在Excel中的形式如下表所示:表

學(xué)校食堂點(diǎn)餐外賣數(shù)據(jù)需要說(shuō)明的是,Orange在進(jìn)行關(guān)聯(lián)規(guī)則算法計(jì)算時(shí),需要的是后綴名為.basket或.bsk文件格式,這兩個(gè)文件其實(shí)都是文本文件。首先需要做的就是數(shù)據(jù)清理,將不是菜名的數(shù)據(jù)清除,同時(shí)要注意在各個(gè)菜名之間加入小寫逗號(hào)(,)分隔,且每單的最后要保證是以回車符結(jié)束的。然后將所有項(xiàng)集復(fù)制,粘貼入一個(gè)文本文件,并且將文本文件改為英文名,同時(shí)將.txt后綴名改為.bsk。至此,所有的文件準(zhǔn)備工作基本結(jié)束。打開Orange平臺(tái),先將文件載入。如下圖:3.Orange與Apriori算例圖

學(xué)生點(diǎn)餐數(shù)據(jù)的載入窗口圖

學(xué)生點(diǎn)餐數(shù)據(jù)的工作流圖3.Orange與Apriori算例圖

支持度2.5%的頻繁項(xiàng)圖

支持度5%的頻繁項(xiàng)項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)六

邏輯回歸

1.Logistic分布

1.1分布形態(tài)及相關(guān)概念

1.2應(yīng)用場(chǎng)景及優(yōu)劣

2.求模型參數(shù)

2.1極大似然估計(jì)

2.2梯度下降

3.極大似然估計(jì)求解

4.邏輯回歸函數(shù)的正則化

5.Orange算例

1.

邏輯回歸也稱作logistic回歸分析,是一種廣義的線性回歸分析模型,屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)。其推導(dǎo)過(guò)程與計(jì)算方式類似于回歸的過(guò)程,但實(shí)際上主要是用來(lái)解決二分類問(wèn)題,當(dāng)然也可以解決多分類問(wèn)題。通過(guò)給定的n組數(shù)據(jù)(訓(xùn)練集)來(lái)訓(xùn)練模型,并在訓(xùn)練結(jié)束后對(duì)給定的一組或多組數(shù)據(jù)(測(cè)試集)進(jìn)行分類。在理解邏輯回歸算法過(guò)程中,需要引入相對(duì)大量的數(shù)學(xué)相關(guān)概念,如果全部展開講解,將是一個(gè)漫長(zhǎng)的探索之旅。為突出重點(diǎn),本章僅著重介紹了Logistic分布及邏輯回歸的求解模型,并在展開過(guò)程中,采取了邊講解邊舉例邊深入邊思考的方式,從體例上來(lái)講,可能缺乏連續(xù)性,但對(duì)于初學(xué)者來(lái)講,可能更易于理解和接受。下圖是本節(jié)內(nèi)容的知識(shí)點(diǎn)導(dǎo)圖(如圖8-1),方便讀者在學(xué)習(xí)過(guò)程中梳理思路。圖8-1本章內(nèi)容的知識(shí)點(diǎn)導(dǎo)圖1.

Logistic分布1.1分布形態(tài)及相關(guān)概念Logistic分布是一種連續(xù)型的概率分布,其分布函數(shù)(或質(zhì)量函數(shù))和密度函數(shù)分別為:分布函數(shù):密度函數(shù):圖8-2Logistic分布函數(shù)及密度函數(shù)圖8-3二分類邏輯回歸示意圖設(shè)分界線方為:1.

Logistic分布【思考二】我們使用對(duì)數(shù)幾率的意義在哪?通過(guò)上述推導(dǎo)我們可以看到Logistic回歸實(shí)際上是使用線性回歸模型的預(yù)測(cè)值逼近分類任務(wù)真實(shí)標(biāo)記的對(duì)數(shù)幾率,其優(yōu)點(diǎn)有:1.直接對(duì)分類的概率建模,無(wú)需實(shí)現(xiàn)假設(shè)數(shù)據(jù)分布,從而避免了假設(shè)分布不準(zhǔn)確帶來(lái)的問(wèn)題;2.不僅可預(yù)測(cè)出類別,還能得到該預(yù)測(cè)的概率,這對(duì)一些利用概率輔助決策的任務(wù)很有用;3.對(duì)數(shù)幾率函數(shù)是任意階可導(dǎo)的凸函數(shù),有許多數(shù)值優(yōu)化算法都可以求出最優(yōu)解。【思考一】如何找到分類概率P(Y=1)與輸入變量x之間的函數(shù)關(guān)系,然后通過(guò)比較概率值來(lái)判定分類??紤]二分類問(wèn)題,給定數(shù)據(jù)集:【延伸思考一】為什么要引入

函數(shù)?圖8-4以自然對(duì)數(shù)為底數(shù)的指數(shù)函數(shù)示意圖1.

Logistic分布圖8-5邏輯回歸函數(shù)的三維展現(xiàn)【延伸思考二】決策分界線與各數(shù)據(jù)點(diǎn)之間的距離關(guān)系。1.

Logistic分布【延伸思考三】特征向量的公式表達(dá)

圖思1-1二特征變量的坐標(biāo)表達(dá)圖思1-2三特征變量的坐標(biāo)表達(dá)字段名數(shù)據(jù)類型變量類型值門店CategoricalFeature4-4灶,4-5灶,5-6灶,5-7灶訂單號(hào)NumericSkip

樓號(hào)CategoricalSkip士官,松鳴,柏盛,榆繁,槐香房號(hào)NumericSkip

下單時(shí)間DatetimeSkip

午餐/晚餐CategoricalFeature午餐,晚餐溫差NumericFeature

均溫NumericFeature

氣象CategoricalFeature多云,小雪,晴,浮塵,陰,陣雪,雨夾雪價(jià)格NumericFeature

葷/素CategoricalTarget素,葷米/面CategoricalSkip米,面

1.

Logistic分布【延伸思考三】特征向量的公式表達(dá)

圖8-6兩特征向量的邏輯回歸性狀指標(biāo)1.

Logistic分布【延伸思考三】特征向量的公式表達(dá)

圖8-6三特征向量的邏輯回歸性狀指標(biāo)1.

Logistic分布

1.2應(yīng)用場(chǎng)景及優(yōu)劣優(yōu)點(diǎn):邏輯回歸訓(xùn)練速度很快,可用于工業(yè)級(jí)別的數(shù)據(jù),也可以在使用其他準(zhǔn)確率更高的算法之前先用邏輯回歸計(jì)算出baseline,查看下當(dāng)前的數(shù)據(jù)在算法上的表現(xiàn),以判斷是否還要繼續(xù)進(jìn)行數(shù)據(jù)清洗和特征工程??捎糜诟怕暑A(yù)測(cè),也可用于分類;對(duì)于數(shù)據(jù)中小噪聲的魯棒性很好。缺點(diǎn):對(duì)數(shù)據(jù)特征間的獨(dú)立性要求較高;不適用于features和label為非線性關(guān)系的數(shù)據(jù)中;當(dāng)特征空間很大、特征有缺失時(shí),邏輯回歸的性能不是很好?!局R(shí)點(diǎn)】什么是features和label。機(jī)器學(xué)習(xí)中有l(wèi)abel和feature概念,一般來(lái)講,label是分類,是你要預(yù)測(cè)的東西,而feature則是特征。如果你訓(xùn)練出feature和label的關(guān)系,之后你可以通過(guò)feature得出label。2.求解模型參數(shù)

定義:對(duì)于事件E和事件F,如果滿足下面的公式,那么稱它們是獨(dú)立的。若兩個(gè)事件E和F不獨(dú)立,則稱它們是相依的,或者相互不獨(dú)立。進(jìn)一步思考,觀察另一幅維恩圖。圖中E和F沒有相交,按照“同比例切割”的觀點(diǎn),E事件和F事件是“不獨(dú)立”的。這個(gè)圖告訴我們,兩個(gè)不相交的事件,反而是“相互不獨(dú)立”的。除了一種情況,事件E不可能出現(xiàn)。2.求解模型參數(shù)

引例1.從一副洗好的52張撲克牌里隨機(jī)抽取一張牌,令E表示事件“抽取的牌為一張A”,令F表示事件“抽取的牌為一張黑桃”,那么E和F就是獨(dú)立的。引例2.擲兩枚均勻的骰子,令E1表示事件“骰子點(diǎn)數(shù)和為6”,令F表示事件“第一枚骰子點(diǎn)數(shù)為4”,那么2.求解模型參數(shù)

2.1極大似然估計(jì)首先引入經(jīng)典的貝葉斯公式:【知識(shí)點(diǎn)引入】全概率公式【知識(shí)點(diǎn)引入】IID即獨(dú)立同分布(IndependentandIdenticallyDistributed),極大似然估計(jì)原理:極大似然估計(jì)提供了一種給定觀察數(shù)據(jù)來(lái)評(píng)估模型參數(shù)的方法,即“模型已定,參數(shù)未知”。通過(guò)若干次試驗(yàn),觀察其結(jié)果,利用試驗(yàn)結(jié)果得到某個(gè)參數(shù)值能夠使樣本出現(xiàn)的概率為最大,則稱為極大似然估計(jì)。似然函數(shù)(likelihoodfunction):2.求解模型參數(shù)

最大似然估計(jì)(MaxmiumLikelihoodEstimation,MLE)求解:【知識(shí)點(diǎn)引入】數(shù)學(xué)符號(hào)arg含義:全稱為argumentofthemaximum/minimum?!疽弧吭O(shè)樣本服從正態(tài)分布,則似然函數(shù)為:2.求解模型參數(shù)

圖8-7高斯分布極大似然估計(jì)對(duì)比圖2.求解模型參數(shù)

【引例二】設(shè)樣本服從均勻分布[a,b],則x的概率密度函數(shù)為:2.求解模型參數(shù)

【引例三】伯努利分布的極大似然函數(shù)公式推導(dǎo)。首先要說(shuō)明的是,伯努利分布是一個(gè)離散型隨機(jī)變量分布。如將隨機(jī)變量X=1表示拋硬幣正面朝上,設(shè)正面朝上的概率為P,那么隨機(jī)變量X的概率密度函數(shù)(probabilitydensityfunction,PDF)是:這就是伯努利分布(Bernoullidistribution)概率密度函數(shù)的表達(dá)式了,需要說(shuō)明的是,我們一般用大寫字母P或F來(lái)表示概率質(zhì)量函數(shù),而用小寫字母p或者f來(lái)表示概率密度函數(shù)。如邏輯分布(連續(xù)型隨機(jī)變量分布):圖8-8伯努利分布極大似然估計(jì)對(duì)比圖2.求解模型參數(shù)2.2梯度下降一般來(lái)說(shuō),關(guān)于求解函數(shù)的最優(yōu)解(極大值和極小值),在數(shù)學(xué)中我們一般會(huì)對(duì)函數(shù)求導(dǎo),然后讓導(dǎo)數(shù)等于0,獲得方程,然后通過(guò)解方程直接得到結(jié)果。但是在機(jī)器學(xué)習(xí)中,我們的函數(shù)常常是多維高階的,得到導(dǎo)數(shù)為0的方程后很難直接求解(有些時(shí)候甚至不能求解),邏輯回歸的最大似然估計(jì)函數(shù)就屬于無(wú)法求解的情況,所以就需要通過(guò)其他方法來(lái)獲得函數(shù)的極值,而梯度下降就是其中一種。函數(shù)

,初始值

,步長(zhǎng)值

迭代次數(shù)k=1k=2k=3k=4k=5k=6k=7k=8-6.4-5.12-4.096-3.2768-2.62144-2.09715-1.67772-1.3421840.9626.214416.777210.73746.87194.3982.81471.8014梯度降幅23.0414.74569.43726.03983.86552.47391.58331.0133迭代次數(shù)k=9k=10k=11k=12k=13k=14k=15k=16-1.07374-0.85899-0.68719-0.54976-0.4398-0.35184-0.28147-0.225181.15290.73790.47220.30220.19340.12380.07920.0507梯度降幅0.64850.4150.26570.170.10880.06960.04460.0285表8-1二次函數(shù)梯度下降表圖8-9不同a值y的梯度降幅2.求解模型參數(shù)

圖8-10梯度下降學(xué)習(xí)率示意圖3.極大似然估計(jì)求解圖8-11梯度下降的樣式靜態(tài)圖3.極大似然估計(jì)求解【知識(shí)點(diǎn)引入】目標(biāo)函數(shù)、損失函數(shù)、代價(jià)函數(shù)三種擬合示意圖如下圖8-12。4.邏輯回歸函數(shù)的正則化本節(jié)內(nèi)容是在通用知識(shí)的基礎(chǔ)上專門針對(duì)邏輯回歸所開展的正則項(xiàng)說(shuō)明,對(duì)進(jìn)一步加深正則項(xiàng)理解有極大的幫助。正則化是一個(gè)通用的算法和思想,所有會(huì)產(chǎn)生過(guò)擬合現(xiàn)象的算法都可以使用正則化來(lái)避免過(guò)擬合。邏輯回歸函數(shù)也同樣存在這個(gè)問(wèn)題,下面簡(jiǎn)單介紹一下邏輯回歸函數(shù)的正則化方法。正則化一般會(huì)采用L1范式或者L2范式,其形式分別為以下2種4.1L1正則化通常稱之為L(zhǎng)ASSO回歸,相當(dāng)于為模型添加了這樣一個(gè)先驗(yàn)知識(shí):w服從零均值拉普拉斯分布。而拉普拉斯分布的表達(dá)式為:4.2L2正則化通常稱之為Ridge回歸,或嶺回歸,相當(dāng)于為模型添加了這樣一個(gè)先驗(yàn)知識(shí):w服從零均值正態(tài)分布。正態(tài)分布的表達(dá)式為:5.

Orange算例該數(shù)據(jù)集來(lái)自UCI機(jī)器學(xué)習(xí)庫(kù),它與葡萄牙銀行機(jī)構(gòu)的直接營(yíng)銷活動(dòng)(電話)有關(guān)。分類目標(biāo)是預(yù)測(cè)客戶是否將購(gòu)買定期存款。數(shù)據(jù)下載網(wǎng)址:/ml/index.php。屬于開源的機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)網(wǎng)站。為便于比較,Orange中將數(shù)據(jù)集(共41188條記錄)拆分為兩個(gè)子集,一個(gè)為訓(xùn)練集(39999條記錄),一個(gè)為測(cè)試集(1189條記錄),其在Orange中的流程圖如圖8-13:圖8-13銀行業(yè)務(wù)數(shù)據(jù)邏輯回歸Orange算法流程圖圖8-14銀行業(yè)務(wù)數(shù)據(jù)邏輯回歸Orange算法評(píng)測(cè)指標(biāo)三種算法的評(píng)估參數(shù)如下圖8-14所示:項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)七

人工神經(jīng)網(wǎng)絡(luò)

1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過(guò)程

1.1前向傳播

1.2反向傳播

2.人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算

3.激活函數(shù)

4.神經(jīng)網(wǎng)絡(luò)的應(yīng)用

4.1分類

4.2回歸

人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN),簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)(neuralnetwork,NN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應(yīng)系統(tǒng)。現(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)性數(shù)據(jù)建模工具,常用來(lái)對(duì)輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模,或用來(lái)探索數(shù)據(jù)的模式。神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱“神經(jīng)元”)和之間相互的聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)、激活函數(shù)(activationfunction)。每?jī)蓚€(gè)節(jié)點(diǎn)間的聯(lián)接都代表一個(gè)對(duì)于通過(guò)該連接信號(hào)的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對(duì)自然界某種算法或者函數(shù)的逼近,也可能是對(duì)一種邏輯策略的表達(dá)。1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過(guò)程以一個(gè)實(shí)例逐漸展開人工神經(jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程,下圖(如圖9-1)是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D,第一層是輸入層,包含兩個(gè)神經(jīng)元i1和i2,截距項(xiàng)為b1;第二層為隱含層,包含兩個(gè)神經(jīng)元h1和h2,截距項(xiàng)為b2;第三層為輸出層,包含兩個(gè)輸出項(xiàng)o1和o2,每條線上的數(shù)字表示神經(jīng)元之間傳遞的權(quán)重值,記為w1;激活函數(shù)默認(rèn)Sigmoid函數(shù)。圖9-1一個(gè)簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)示意圖1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過(guò)程1.1前向傳播(1)輸入層→隱含層隱含層的計(jì)算過(guò)程如圖(圖9-2)所示(以h1為例):(2)隱含層→輸出層輸出層的計(jì)算過(guò)程如圖(圖9-3)所示(以o1為例):1.神經(jīng)網(wǎng)絡(luò)的正向及反向傳播過(guò)程1.2反向傳播(1)計(jì)算總誤差(Squareerror):(2)隱含層→輸出層的權(quán)值更新以權(quán)重參數(shù)w5為例,如果我們想知道w5對(duì)整體誤差產(chǎn)生了多少影響,可以用整體誤差對(duì)w5求偏導(dǎo)。圖9-6人工神經(jīng)網(wǎng)絡(luò)的回歸分析需要說(shuō)明的是:第一,此例是只有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),并且各層的神經(jīng)元數(shù)量都為2,在實(shí)際應(yīng)用中,特征層的提取有時(shí)是相當(dāng)復(fù)雜的,比如對(duì)圖像的識(shí)別,對(duì)音頻或視頻的識(shí)別等,需要不只一個(gè)隱含層才有可能獲得滿意的模型,其正向傳播或反向傳播的計(jì)算量相當(dāng)大,對(duì)計(jì)算機(jī)的算力要求也是相當(dāng)高,采用的激活函數(shù)及目標(biāo)函數(shù)也不盡相同,但基本模式及核心原理是一致的。第二,此例所呈現(xiàn)的輸入層神經(jīng)元i1和i2,映射到大數(shù)據(jù)集,即表示訓(xùn)練數(shù)據(jù)的特征變量,樣本數(shù)據(jù)有幾個(gè)特征變量,就有幾個(gè)輸入層的神經(jīng)元。第三,在正向傳播計(jì)算中,對(duì)于多個(gè)樣本值,不用每輸入一個(gè)樣本就去變換參數(shù),而是輸入一批樣本(叫做一個(gè)Batch或Mini-Batch),需要求得這些樣本的梯度平均值后,根據(jù)這個(gè)平均值改變參數(shù),也就是說(shuō),每個(gè)樣本只進(jìn)行前向傳播和反向傳播一次,然后計(jì)算梯度平均值,再進(jìn)行下一輪計(jì)算。第四,神經(jīng)網(wǎng)絡(luò)既可以用于回歸分析,也可以作為分類工具加以使用。一般來(lái)講,如果做回歸分析,其輸出層以一個(gè)神經(jīng)元為主,即只需要輸出我們所關(guān)心的相關(guān)值即可。如果做分類分析(是人工神經(jīng)網(wǎng)絡(luò)的骨干應(yīng)用層面),以二分類為例,分類如下圖2.人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算為便于理解人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,作者使用VBA編程在Excel中進(jìn)行了人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算。目前該程序僅包含一個(gè)隱藏層,但各層的神經(jīng)元個(gè)數(shù)及訓(xùn)練樣本數(shù)量可以按實(shí)際場(chǎng)景無(wú)限制設(shè)定,各層參數(shù)及迭代數(shù)量亦可自行設(shè)定。計(jì)算過(guò)程中,不僅可以實(shí)時(shí)顯現(xiàn)迭代的中間數(shù)據(jù),也可借助Excel的強(qiáng)大制圖功能動(dòng)態(tài)展示數(shù)據(jù)的迭代趨勢(shì),適合入門級(jí)學(xué)生的學(xué)習(xí)。下載該程序可掃描右邊二維碼。用該程序模擬訓(xùn)練數(shù)據(jù)過(guò)程如下:x1x2x1x2x1x2x1x20.5143950.7490220.2500190.8483620.7759230.7744680.534230.5398730.6779740.0794360.6647780.2030070.1177920.8159920.8335170.0161460.4525470.1441180.5326570.471841

表9-1隨機(jī)10組數(shù)據(jù)表2.人工神經(jīng)網(wǎng)絡(luò)的模擬計(jì)算圖9-10單純兩類分類圖示3.激活函數(shù)激活函數(shù)的存在與人工神經(jīng)網(wǎng)絡(luò)的模擬態(tài)是相關(guān)的。在人工神經(jīng)網(wǎng)絡(luò)中,一個(gè)神經(jīng)元的運(yùn)算過(guò)程我們稱之為感知器。感知器是模仿生物神經(jīng)元而設(shè)計(jì)的一種簡(jiǎn)單數(shù)學(xué)模型,它主要有兩部分組成,前半部分是一個(gè)線性模型,而后半部分是一個(gè)激活函數(shù)。在感知器中,設(shè)計(jì)激活函數(shù)的初衷應(yīng)該是為了模仿生物神經(jīng)元(生物神經(jīng)元存在激活和非激活這兩種狀態(tài),當(dāng)神經(jīng)元處于激活狀態(tài)時(shí)會(huì)發(fā)出電脈沖)。從數(shù)學(xué)角度去考慮的話,在感知器的后半部分加上一個(gè)激活函數(shù),可以增加感知器模型的“擬合能力”,使得模型有更強(qiáng)的表達(dá)作用。在基本的感知器模型中,激活函數(shù)是一個(gè)階躍函數(shù),這個(gè)函數(shù)的特性是,在輸入為零的時(shí)候會(huì)發(fā)生跳轉(zhuǎn),形狀像一個(gè)臺(tái)階。在下圖的感知器模型中,當(dāng)階躍函數(shù)的輸入小于等于零時(shí)候,輸出為零,而在其它情況輸出為1。其數(shù)學(xué)模型如下圖9-11。3.1Sigmoid函數(shù)

雖然在基的感知器模型中選擇階躍函數(shù)作為激活函數(shù),但是在實(shí)際中卻很少采用階躍函數(shù),這是因?yàn)殡A躍函數(shù)有點(diǎn)太極端了,要么輸出為0要么輸出為1。人們最初的考慮是能不能讓激活函數(shù)的輸出別這么極端,讓它平滑一些,因此有了Sigmoid函數(shù)。3.激活函數(shù)3.2.ReLU函數(shù)ReLU是目前最常用的激活函數(shù)。3.激活函數(shù)3.激活函數(shù)3.3Tanh函數(shù)Tanh為雙切正切曲線,相比Sigmoid函數(shù),實(shí)際應(yīng)用中一般更傾向于用Tanh函數(shù)。其優(yōu)點(diǎn)為函數(shù)的輸出以(0,0)為中點(diǎn),雙邊對(duì)稱。同時(shí),收斂速度相對(duì)于Sigmoid更快。其函數(shù)形式為:4.神經(jīng)網(wǎng)絡(luò)的應(yīng)用4.1分類神經(jīng)網(wǎng)絡(luò)最重要的用途是分類,比如如下的應(yīng)用場(chǎng)景:垃圾郵件識(shí)別:有一封電子郵件,把出現(xiàn)在里面的所有詞匯提取出來(lái),通過(guò)神經(jīng)網(wǎng)絡(luò)識(shí)別是否是垃圾郵件。疾病判斷:病人首先進(jìn)行多種醫(yī)學(xué)檢測(cè),并將檢測(cè)結(jié)果送入神經(jīng)網(wǎng)絡(luò),從輸入結(jié)果來(lái)判斷病人是否得病,得的什么病。圖像分類:比如有一批街景的圖片,通過(guò)神經(jīng)網(wǎng)絡(luò)模型,計(jì)算機(jī)可以分辨出哪些是樹,哪些是人,哪些是交通燈。這種能將事物的特征向量作為輸入端,并自動(dòng)判別事物類別的機(jī)器,我們稱之為分類器。神經(jīng)網(wǎng)絡(luò)對(duì)事物的分類,主要是通過(guò)神經(jīng)元和多層神經(jīng)網(wǎng)絡(luò)來(lái)完成的。單個(gè)神經(jīng)元我們也稱之為感知器,即通過(guò)接收信息(輸入數(shù)據(jù))→處理信息(激活函數(shù))→發(fā)出信息(輸出數(shù)據(jù))進(jìn)行信息轉(zhuǎn)換。對(duì)簡(jiǎn)單數(shù)據(jù)集的分類,比如在上節(jié)提到的平面上下(或左右)兩類數(shù)據(jù),用一條直線就可以進(jìn)行分類,用二個(gè)神經(jīng)元和一層神經(jīng)網(wǎng)絡(luò)就可以進(jìn)行輕松解決問(wèn)題。但在現(xiàn)實(shí)場(chǎng)景中,要解決的問(wèn)題遠(yuǎn)比平面兩類數(shù)據(jù)復(fù)雜地多,比如下面三圖(圖9-15)所表示的A、B兩類,就無(wú)法用一根直線將兩個(gè)類別區(qū)分開來(lái)。3.激活函數(shù)通過(guò)掃描右圖二維碼可以查看螺旋線的空間變形,亦可從下圖紅藍(lán)兩線在不同空間的分割對(duì)比體會(huì)神經(jīng)元的作用。左圖紅藍(lán)兩條線在二維空間無(wú)法找到一個(gè)超平面去分割,經(jīng)過(guò)放大、平移、旋轉(zhuǎn)、扭曲原二維空間后,在三維空間下就可以成功找到一個(gè)超平面分割紅藍(lán)兩線(右圖)。3.激活函數(shù)(1)ConvnetJsdemo:二分類神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,可以增刪隱藏層及神經(jīng)元個(gè)數(shù),對(duì)各神經(jīng)元的空間扭曲及變形狀態(tài)呈現(xiàn)地非常細(xì)致(如圖9-16)??赏ㄟ^(guò)掃描下方二維碼進(jìn)行手機(jī)端操作。圖9-16ConvnetJsdemo3.激活函數(shù)(2)GoogleTensorflow–Playground:二分類神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,可以簡(jiǎn)單并直觀地增刪隱藏層及神經(jīng)元個(gè)數(shù),并且可選擇激活函數(shù)及正則化類型(如圖9-17)。可通過(guò)掃描下方二維碼進(jìn)行手機(jī)端操作。圖9-17GoogleTensorflow-Playgroud3.激活函數(shù)4.2回歸我們知道,回歸分析是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。人工神經(jīng)網(wǎng)絡(luò)模型算法也可以進(jìn)行回歸分析,其分析原理及計(jì)算過(guò)程與分類分析大體相同,區(qū)別是需要對(duì)損失函數(shù)和神經(jīng)網(wǎng)絡(luò)最后一層輸出激活函數(shù)修改,主要注意以下兩點(diǎn):損失函數(shù)最常用均方誤差:最后一層往往不采用激活函數(shù),直接用得到最后結(jié)果,因?yàn)榧せ詈瘮?shù)會(huì)將線性加權(quán)的結(jié)果映射到固定range。項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)八

支持向量機(jī)

1.硬間隔支持向量機(jī)

2.非線性支持向量機(jī)

3.SVM中的核函數(shù)

4.Orange中的SVM應(yīng)用

支持向量機(jī)(SupportVectorMachine,簡(jiǎn)稱SVM)是一種用來(lái)解決二分類問(wèn)題的機(jī)器學(xué)習(xí)算法,它通過(guò)在樣本空間中找到一個(gè)劃分超平面,將不同類別的樣本分開,同時(shí)使得兩個(gè)點(diǎn)集到此平面的最小距離最大,兩個(gè)點(diǎn)集中的邊緣點(diǎn)到此平面的距離最大。如下圖10-1所示,圖中有方形和圓形兩類樣本,支持向量機(jī)的目標(biāo)就是找到一條直線,將圓形和方形分開,同時(shí)所有圓形和方形到這條直線的距離加起來(lái)的值最大。支持向量機(jī)支持向量機(jī)上面討論的情況是一種理想中的狀況,兩個(gè)類別的樣本之間存在著清晰的劃分超平面,但我們?cè)趯?shí)際工作中處理的任務(wù)上并不一定都是這種清晰線性可分的,對(duì)于這種清晰線性可分的任務(wù),我們構(gòu)造一個(gè)線性分類器,也稱為硬間隔支持向量機(jī)(如圖10-2-1);當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時(shí),也可以構(gòu)造一個(gè)線性的分類器,即軟間隔支持向量機(jī)(如圖10-2-2);當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),我們可以通過(guò)使用核函數(shù)及軟間隔最大化構(gòu)造分類器,稱為非線性支持向量機(jī)(如圖10-2-3)。圖10-2-1硬間隔SVM圖10-2-2軟間隔SVM圖10-2-3非線性SVM1.硬間隔支持向量機(jī)數(shù)學(xué)表達(dá):目標(biāo)函數(shù):

2.非線性支持向量機(jī)在以上二維點(diǎn)的實(shí)例講解中,我們假設(shè)訓(xùn)練樣本是線性可分的,即存在一個(gè)劃分超平面能將訓(xùn)練樣本正確分類。然而在現(xiàn)實(shí)任務(wù)中,原始樣本空間內(nèi),也許并不存在一個(gè)能正確劃分兩類樣本的超平面。如下圖所示,橢圓內(nèi)的點(diǎn)代表“+”數(shù)據(jù),橢圓外的點(diǎn)代表“-”數(shù)據(jù),而這兩類數(shù)據(jù)都無(wú)法用一條直線進(jìn)行分割,如圖10-5所示的兩條直線都是失敗的劃分。對(duì)于原空間中的非線性可分問(wèn)題,可將樣本從原始空間映射到一個(gè)更高維的特征空間,使得樣本在這個(gè)特征空間內(nèi)線性可分。例如在以下圖中,可以將以上數(shù)據(jù)集的二維數(shù)據(jù)映射到一個(gè)合適的三維空間,就能找到一個(gè)合適的劃分超平面。幸運(yùn)的是,如果原始空間是有限維,即屬性數(shù)有限,那么一定存在一個(gè)高維特征空間使樣本可分。掃描二維碼,即可觀看映射到三維空間后的各點(diǎn)分布。圖10-6橢圓數(shù)據(jù)二維遷三維示意圖在此圖中,二維平面中的所有數(shù)據(jù)點(diǎn)被經(jīng)過(guò)函數(shù)變換后映射到三維空間。可以直觀地看到,映射后的數(shù)據(jù)在三維空間形成了一個(gè)明顯的分隔帶。掃描二維碼,即可觀看到二維數(shù)據(jù)經(jīng)過(guò)核函數(shù)轉(zhuǎn)換后遷移到三維空間的過(guò)程。2.非線性支持向量機(jī)那么如何將低維空間數(shù)據(jù)映射到高維空間,這里我們要用到核函數(shù)(KernelFunction)。核函數(shù)是對(duì)低維的屬性值進(jìn)行某種計(jì)算,實(shí)現(xiàn)在低維下計(jì)算出高維映射后的內(nèi)積結(jié)果的一種函數(shù)。簡(jiǎn)單來(lái)講,核函數(shù)就是關(guān)于低維特征值與高維特征值之間的內(nèi)積函數(shù)。2.非線性支持向量機(jī)樣本點(diǎn)X點(diǎn)Y點(diǎn)類別升維X點(diǎn)升維Y點(diǎn)升維Z點(diǎn)類別a-1.110.5901.23-0.930.350b-0.391.2800.15-0.711.640c0.311.2400.10.541.540d0.90.3300.810.420.110e0.480.9900.230.670.980f-0.43-1.2200.180.741.490g-1.15-0.7101.321.150.50k-1.88-1.5713.534.172.461l-1.37-2.3611.884.575.571m0.38-2.8810.14-1.558.291n1.61-1.9612.59-4.463.841o2.22-1.0714.93-3.361.141p2.180.4614.751.420.211q1.71.5912.893.822.531r-1.082.2611.17-3.455.111s-1.851.613.42-4.192.561t-2.16114.67-3.0511u-2.570.6716.6-2.440.451v-2.27-0.2215.150.710.051數(shù)據(jù)升維之后,由上圖可以清晰看出,兩類數(shù)據(jù)在三維空間中形成明顯分隔帶?,F(xiàn)在的任務(wù)是找出支持向量,借助Orange工具,如下圖10-7所示。圖10-7SVM在Orange中的流程圖2.非線性支持向量機(jī)2.非線性支持向量機(jī)通過(guò)可視化工具,可以看出,該數(shù)據(jù)集的支持向量有5個(gè)數(shù)據(jù)點(diǎn),如下圖10-8所示,列表10-2如下:表10-2橢圓數(shù)據(jù)的支持向量點(diǎn)坐標(biāo)值樣本點(diǎn)X點(diǎn)Y點(diǎn)升維X點(diǎn)升維Y點(diǎn)升維Z點(diǎn)類別a值序號(hào)Y值及序號(hào)q1.71.592.893.822.531

r-1.082.261.17-3.455.111

p2.180.464.751.420.211

g-1.15-0.711.321.150.500

a-1.110.591.23-0.930.350

2.非線性支持向量機(jī)軟件求解的結(jié)果報(bào)告如下圖10-9所示:3.SVM中的核函數(shù)在用SVM處理問(wèn)題時(shí),如果數(shù)據(jù)線性不可分,希望通過(guò)將輸入空間內(nèi)線性不可分的數(shù)據(jù)映射到一個(gè)高維的特征空間內(nèi),使數(shù)據(jù)在特征空間內(nèi)是線性可分的,這個(gè)映射記作ф(x),之后優(yōu)化問(wèn)題中就會(huì)有內(nèi)積фiфj,這個(gè)內(nèi)積的計(jì)算維度會(huì)非常大,因此引入了核函數(shù),kernel可以幫我們很快地做一些計(jì)算,否則將需要在高維空間中進(jìn)行計(jì)算。下表10-2列出了SVM中常用的4種核函數(shù)以及它們的應(yīng)用場(chǎng)景,它們是:linear(線性),Polynomial(多項(xiàng)式),RBF(高斯核函數(shù),也叫徑向基核函數(shù))和Sigmoid。

核函數(shù)應(yīng)用場(chǎng)景應(yīng)用圖例linearkernel線性可分時(shí),特征數(shù)量多時(shí),樣本數(shù)量多再補(bǔ)充一些特征時(shí),linearkernel可以是RBFkernel的特殊情況。Polynomialkernel一般用于圖像處理,參數(shù)比RBF多,取值范圍是(0,inf)。Gaussianradialbasisfunction(RBF)通用,線性不可分時(shí),特征維數(shù)少樣本數(shù)量正常時(shí),在沒有先驗(yàn)知識(shí)時(shí)用,取值在[0,1]Sigmoidkernel生成神經(jīng)網(wǎng)絡(luò),在某些參數(shù)下和RBF很像,可能在某些參數(shù)下是無(wú)效的。4.Orange中的SVM應(yīng)用Orange主要從LIBSVM包中嵌入了SVM的流行實(shí)現(xiàn)。對(duì)于回歸任務(wù),SVM使用ε這一不敏感損失在高維特征空間中執(zhí)行線性回歸。其估計(jì)精度取決于c,ε和核參數(shù)的良好設(shè)置。Orange的主要參數(shù)調(diào)節(jié)界面如下圖10-11所示:4.1SVM類型SVM和V-SVM都是基于誤差函數(shù)的不同最小化。SVM:-c——即懲罰系數(shù),適用于分類和回歸任務(wù)。c越高,容易過(guò)擬合;c越小,容易欠擬合。-ε——ε-SVR模型的參數(shù),適用于回歸任務(wù)。定義與真實(shí)值的距離,在該距離內(nèi)沒有懲罰與預(yù)測(cè)值相關(guān)聯(lián)。V-SVM:-c——即回歸懲罰系數(shù),僅適用于回歸任務(wù)-V:V-SVR模型的參數(shù),適用于分類和回歸任務(wù)。訓(xùn)練誤差分?jǐn)?shù)的上限,支持向量分?jǐn)?shù)的下限。SVM回歸算法稱為支持向量回歸或SVR。支持向量回歸是一種監(jiān)督學(xué)習(xí)算法,用于預(yù)測(cè)離散值。支持向量回歸使用與SVM相同的原理。SVR背后的基本思想是找到最佳擬合線。在SVR中,最佳擬合線是點(diǎn)數(shù)最多的超平面。4.Orange中的SVM應(yīng)用4.Orange中的SVM應(yīng)用4.2核函數(shù)的調(diào)參核函數(shù)調(diào)參linearkernelPolynomialkernel-d:多項(xiàng)式核函數(shù)的最高次項(xiàng)次數(shù),-g:gamma參數(shù),-r:核函數(shù)中的coef0Gaussianradialbasisfunction(RBF)-g:gamma參數(shù),默認(rèn)值是1/kSigmoidkernel-g:gamma參數(shù),-r:核函數(shù)中的coef0gamma越大,支持向量越少,gamma越小,支持向量越多。在“數(shù)值公差(Numericaltolerance)”中設(shè)置與期望值的允許偏差。在“迭代極限(Iterationlimit)”中設(shè)置允許的最大迭代次數(shù)?!緦?shí)例解析】源數(shù)據(jù)下載:下載地址:/disk/main#/index?category=all&path=%2FSVM%2FSVM%E6%93%8D%E4%BD%9C%E5%AE%9E%E8%B7%B5源數(shù)據(jù)包含三個(gè)文件,adult-data.txt(訓(xùn)練集),adult-test.txt(測(cè)試集),adult-attribute.txt(數(shù)據(jù)來(lái)源及屬性說(shuō)明)。Orange平臺(tái)上機(jī)操作關(guān)鍵步驟設(shè)置了四個(gè)核函數(shù)學(xué)習(xí)器,如圖10-12,步驟如下:四個(gè)核函數(shù)的學(xué)習(xí)器;訓(xùn)練集及測(cè)試集部署合理;調(diào)整懲罰項(xiàng)及參數(shù)設(shè)置,調(diào)優(yōu)學(xué)習(xí)器;數(shù)據(jù)集在線端配屬正確,無(wú)報(bào)錯(cuò);調(diào)用可視化模塊,對(duì)支持向量進(jìn)行展示。項(xiàng)目二大數(shù)據(jù)分析算法任務(wù)九馬爾科夫鏈及自然語(yǔ)言處理

1.馬爾科夫鏈

2.馬爾科夫鏈的應(yīng)用

2.1隨機(jī)漫步

2.2病情預(yù)測(cè)

2.3語(yǔ)音識(shí)別及自然語(yǔ)言處理

3.N-Gram算法

3.1Bi-Gram詞串生成過(guò)程

3.2Bi-Gram評(píng)判語(yǔ)句合理性

4.Orange中的自然語(yǔ)言處理

4.1Orange預(yù)處理窗口

4.2中對(duì)文本分類的計(jì)算

馬爾科夫鏈及自然語(yǔ)言處理1856年出生的馬爾可夫是俄國(guó)著名數(shù)學(xué)家,他研究并提出一個(gè)用數(shù)學(xué)方法就能解釋自然變化的一般規(guī)律模型,后人將其命名為馬爾可夫鏈(MarkovChain)。講馬爾可夫鏈不得不提到隨機(jī)過(guò)程,它本身就是隨機(jī)過(guò)程課本中的重要內(nèi)容,猶如牛頓定律在力學(xué)中的地位。作為概率論的一個(gè)重要分支,隨機(jī)過(guò)程撐起了概率論的半壁江山,如今,它廣泛使用在諸如天氣預(yù)報(bào)、統(tǒng)計(jì)物理、天體物理、運(yùn)籌決策、經(jīng)濟(jì)數(shù)學(xué)、安全科學(xué)、人口理論、可靠性及計(jì)算機(jī)科學(xué)等領(lǐng)域。自然中存在的隨機(jī)過(guò)程非常廣泛,利用隨機(jī)過(guò)程的理論建模,就總也逃不開馬爾可夫鏈,比如我們熟知的液體中顆粒所做的布朗運(yùn)動(dòng)、商業(yè)活動(dòng)中索要研究的每天銷售情況、在數(shù)字通信中的語(yǔ)音信號(hào)、視頻信號(hào),包括自然語(yǔ)言處理等等。它可以將無(wú)規(guī)則的運(yùn)動(dòng)用數(shù)學(xué)描述出來(lái),對(duì)現(xiàn)實(shí)生產(chǎn)生活有著巨大的指導(dǎo)意義!【知識(shí)準(zhǔn)備】讓我們?cè)俅魏?jiǎn)要重溫一下聯(lián)合概率及全概率公式,同時(shí)對(duì)條件概率從另一個(gè)角度再次做一個(gè)解釋。概率的乘法公式:其實(shí),條件概率可以用另一種方式表達(dá):馬爾科夫鏈及自然語(yǔ)言處理1856年出生的馬爾可夫是俄國(guó)著名數(shù)學(xué)家,他研究并提出一個(gè)用數(shù)學(xué)方法就能解釋自然變化的一般規(guī)律模型,后人將其命名為馬爾可夫鏈(MarkovChain)。講馬爾可夫鏈不得不提到隨機(jī)過(guò)程,它本身就是隨機(jī)過(guò)程課本中的重要內(nèi)容,猶如牛頓定律在力學(xué)中的地位。作為概率論的一個(gè)重要分支,隨機(jī)過(guò)程撐起了概率論的半壁江山,如今,它廣泛使用在諸如天氣預(yù)報(bào)、統(tǒng)計(jì)物理、天體物理、運(yùn)籌決策、經(jīng)濟(jì)數(shù)學(xué)、安全科學(xué)、人口理論、可靠性及計(jì)算機(jī)科學(xué)等領(lǐng)域。自然中存在的隨機(jī)過(guò)程非常廣泛,利用隨機(jī)過(guò)程的理論建模,就總也逃不開馬爾可夫鏈,比如我們熟知的液體中顆粒所做的布朗運(yùn)動(dòng)、商業(yè)活動(dòng)中索要研究的每天銷售情況、在數(shù)字通信中的語(yǔ)音信號(hào)、視頻信號(hào),包括自然語(yǔ)言處理等等。它可以將無(wú)規(guī)則的運(yùn)動(dòng)用數(shù)學(xué)描述出來(lái),對(duì)現(xiàn)實(shí)生產(chǎn)生活有著巨大的指導(dǎo)意義!【知識(shí)準(zhǔn)備】讓我們?cè)俅魏?jiǎn)要重溫一下聯(lián)合概率及全概率公式,同時(shí)對(duì)條件概率從另一個(gè)角度再次做一個(gè)解釋。概率的乘法公式:其實(shí),條件概率可以用另一種方式表達(dá):全概率公式:1.馬爾科夫鏈隨機(jī)過(guò)程描述的是一個(gè)量隨時(shí)間可能的變化。在這個(gè)過(guò)程里,每一個(gè)時(shí)刻變化的方向都是不確定的,隨機(jī)過(guò)程就是由這一系列不確定的隨機(jī)變量組成的。每一個(gè)時(shí)刻系統(tǒng)的狀態(tài)都由一個(gè)隨機(jī)變量表述,整個(gè)過(guò)程則構(gòu)成一個(gè)隨機(jī)過(guò)程的實(shí)現(xiàn)。馬爾可夫性:過(guò)程或(系統(tǒng))在時(shí)刻T0所處的狀態(tài)為已知的條件下,過(guò)程在時(shí)刻T>T0所處狀態(tài)的條件分布過(guò)程在時(shí)刻T0之前所處的狀態(tài)無(wú)關(guān)的特性成為馬爾科夫性或無(wú)后效性。具有馬爾可夫性的隨機(jī)過(guò)程成為馬爾可夫過(guò)程。馬爾可夫鏈:時(shí)間和狀態(tài)都是離散的馬爾科夫過(guò)程。一句話描述,狀態(tài)空間中經(jīng)過(guò)從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)換的隨機(jī)過(guò)程。該過(guò)程要求具備無(wú)記憶的性質(zhì):下一狀態(tài)的概率分布只能由當(dāng)前狀態(tài)決定,在時(shí)間序列中它前面的事件均與之無(wú)關(guān),如圖。2.馬爾科夫鏈的應(yīng)用2.1隨機(jī)漫步馬爾可夫鏈的一個(gè)典型例子是隨機(jī)漫步,其每一步的狀態(tài)是在圖形中的點(diǎn),每一步可以移動(dòng)到任何一個(gè)相鄰的點(diǎn),在這里移動(dòng)到每一個(gè)點(diǎn)的概率都是相同的(無(wú)論之前漫步路徑是如何的),如圖11-2。以下是隨機(jī)漫步程序的VBA語(yǔ)言實(shí)現(xiàn)。其程序及動(dòng)態(tài)演示可下載右邊的二維碼,可在手機(jī)端查看。2.馬爾科夫鏈的應(yīng)用2.2病情預(yù)測(cè)艾滋病毒感染者病情發(fā)展有這樣幾個(gè)階段(狀態(tài)):無(wú)臨床癥狀(HIVasymptomatic)有臨床病狀(HIVsymptomatic)獲得性免疫缺陷綜合征(AIDS)死亡(death)其轉(zhuǎn)移矩陣為:asymptomaticsymptomaticAIDSdeathasymptomatic0.90.070.020.01symptomatic00.930.050.02AIDS000.850.15death0001某地區(qū)艾滋病感染者一年后由一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率如上圖所示。如果目前該地區(qū)感染者處于各狀態(tài)的比例如下:asymptomaticsymptomaticAIDSdeath0.850.10.050那么三年后,該地區(qū)感染者處于各狀態(tài)的比例如何?第一年asymptomaticsymptomaticAIDSdeath0.770.150.060.02第二年asymptomaticsymptomaticAIDSdeath0.690.200.080.04第三年asymptomaticsymptomaticAIDSdeath0.620.230.090.062.馬爾科夫鏈的應(yīng)用2.3語(yǔ)音識(shí)別及自然語(yǔ)言處理讓機(jī)器“聽懂”人類的語(yǔ)言,需要用到兩個(gè)馬爾科夫模型:1.聲學(xué)模型:利用HMM建模(隱馬爾可夫模型),HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。關(guān)于這部分內(nèi)容,不是本章討論的重點(diǎn),在此不再贅述。2.語(yǔ)言模型:N-Gram最簡(jiǎn)單有效,所以應(yīng)用的也最廣泛。它基于獨(dú)立輸入假設(shè):第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān)。整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)n個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。簡(jiǎn)單來(lái)說(shuō),人們利用馬爾科夫模型,來(lái)計(jì)算事件的狀態(tài)轉(zhuǎn)移概率矩陣,除了語(yǔ)音識(shí)別,只要隨機(jī)過(guò)程具有馬爾科夫性,都少不了應(yīng)用馬爾科夫鏈。3.N-Gram算法N-Gram是一種基于統(tǒng)計(jì)語(yǔ)言模型的算法。它的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動(dòng)窗口操作,形成了長(zhǎng)度是N的字節(jié)片段序列。每一個(gè)字節(jié)片段稱為gram,對(duì)所有g(shù)ram的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并且按照事先設(shè)定好的閾值進(jìn)行過(guò)濾,形成關(guān)鍵gram列表,也就是這個(gè)文本的向量特征空間,列表中的每一種gram就是一個(gè)特征向量維度。該模型基于這樣一種假設(shè),第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。3.1Bi-Gram詞串生成過(guò)程這個(gè)概率顯然并不好算,不妨利用馬爾科夫鏈的假設(shè),即當(dāng)前這個(gè)詞僅僅跟前面幾個(gè)有限的詞相關(guān),因此也就不必追溯到最開始的那個(gè)詞,這樣便可以大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論