大數(shù)據(jù)應(yīng)用基礎(chǔ)分類(lèi)算法2_第1頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類(lèi)算法2_第2頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類(lèi)算法2_第3頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類(lèi)算法2_第4頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類(lèi)算法2_第5頁(yè)
已閱讀5頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類(lèi)算法大數(shù)據(jù)應(yīng)用基礎(chǔ)魏煒1大數(shù)據(jù)復(fù)習(xí)2大數(shù)據(jù)的核心是什么大數(shù)據(jù)人才可以分為分析人才和架構(gòu)人才。其中,需求量最大的是分析人才。而分析的核心是數(shù)據(jù)挖掘。大數(shù)據(jù)目前的發(fā)展重點(diǎn)是怎么對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。物聯(lián)網(wǎng)、智能手機(jī)、可穿戴、智能硬件等技術(shù)設(shè)備將正在讓數(shù)據(jù)成幾何倍數(shù)增長(zhǎng)。3大數(shù)據(jù)的核心——非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)的分析相對(duì)比較成熟,比如Excel、關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)的OLAP在企業(yè)中已經(jīng)無(wú)人不知。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),難點(diǎn)在于:數(shù)據(jù)收集與集成:設(shè)法通過(guò)各種設(shè)備收集數(shù)據(jù),并把各種數(shù)據(jù)來(lái)源集成起來(lái)。例如,圍繞一個(gè)人,怎樣能從公司內(nèi)部和外部的各種渠道,收集他多方面的數(shù)據(jù),把其中的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),然后把各種數(shù)據(jù)集成起來(lái),從而用一個(gè)特征向量來(lái)表示他的特征。數(shù)據(jù)分析:怎樣分析這種高維度的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的維度是無(wú)止境的,比如百度能分析幾十億維的特征。4大數(shù)據(jù)架構(gòu)技術(shù)的核心主要有兩種計(jì)算:離線(xiàn)分布式計(jì)算這種計(jì)算能處理海量數(shù)據(jù),并運(yùn)行復(fù)雜的算法,其中包括數(shù)據(jù)挖掘算法、非結(jié)構(gòu)化數(shù)據(jù)特征的提?。ɡ缢阉饕嫠饕木幹疲⑼扑]算法等。它能充分發(fā)揮分布式計(jì)算的優(yōu)點(diǎn),但是完成所需計(jì)算的耗時(shí)可能是幾分鐘、幾小時(shí)或更長(zhǎng)時(shí)間,因此有時(shí)還需要用在線(xiàn)計(jì)算加以補(bǔ)充。主要的開(kāi)源技術(shù)是Hadoop。這也是最熱門(mén)的大數(shù)據(jù)架構(gòu)技術(shù)。很多算法都有其適合于在Hadoop平臺(tái)上進(jìn)行分布式運(yùn)行的版本。大數(shù)據(jù)分析人員應(yīng)能掌握常見(jiàn)算法的分布式版本。在線(xiàn)分布式計(jì)算可以把一些簡(jiǎn)單的計(jì)算以極快的速度完成。例如,搜索引擎的反應(yīng)時(shí)間、廣告交易平臺(tái)的更新時(shí)間都在0.1秒以?xún)?nèi)。相關(guān)開(kāi)源技術(shù)有Storm、Kafka等。商用方案有IBM的流計(jì)算等。5大數(shù)據(jù)架構(gòu)技術(shù)的核心此外,還有一種重要技術(shù),叫內(nèi)存計(jì)算。原理是:在內(nèi)存里計(jì)算比在硬盤(pán)里計(jì)算快得多。這種技術(shù)使用的前提就是內(nèi)存足夠大。商用方案有SAPHana等。它可以和分布式計(jì)算結(jié)合。例如,開(kāi)源平臺(tái)Spark就采取這種思路。6大數(shù)據(jù)技術(shù)中的算法大數(shù)據(jù)技術(shù)中的算法不只是數(shù)據(jù)挖掘。除了數(shù)據(jù)挖掘,典型的計(jì)算任務(wù)還有:搜索引擎中的文本特征提取,即相對(duì)詞頻計(jì)算推薦系統(tǒng)中的用戶(hù)間相似度計(jì)算、物品間相似度計(jì)算等不過(guò),數(shù)據(jù)挖掘無(wú)疑是最重要的一大類(lèi)算法。7數(shù)據(jù)挖掘的概念辨析和統(tǒng)計(jì)相比,數(shù)據(jù)挖掘傾向于處理大規(guī)模數(shù)據(jù),并且其宗旨是減少人工操作。而統(tǒng)計(jì)往往有賴(lài)于分析人員手工操作。在統(tǒng)計(jì)之前,常常對(duì)變量間的關(guān)系做假設(shè);而數(shù)據(jù)挖掘的重點(diǎn)在于預(yù)測(cè)的結(jié)果,不一定追究預(yù)測(cè)的依據(jù)。數(shù)據(jù)挖掘和人工智能、機(jī)器學(xué)習(xí)的重合度非常高。不過(guò),早先的人工智能側(cè)重于由人工設(shè)定規(guī)則,而當(dāng)今越來(lái)越重視從數(shù)據(jù)中自動(dòng)獲得知識(shí)、對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的挖掘,通常需要把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的形式,然后再采用數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘不只是要重視算法,提高數(shù)據(jù)質(zhì)量、理解應(yīng)用領(lǐng)域也是不可或缺的。8數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評(píng)估4信息收集31數(shù)據(jù)挖掘33知識(shí)表示359數(shù)據(jù)挖掘算法分類(lèi)有監(jiān)督學(xué)習(xí):分類(lèi)與回歸有標(biāo)識(shí)。通過(guò)模仿做出正確分類(lèi)的已有數(shù)據(jù),從而能夠?qū)π碌臄?shù)據(jù)做出比較準(zhǔn)確的分類(lèi)。這就像教小孩學(xué)習(xí)一樣。無(wú)監(jiān)督學(xué)習(xí):聚類(lèi)、關(guān)聯(lián)規(guī)則無(wú)標(biāo)識(shí)聚類(lèi):針對(duì)客戶(hù)特征進(jìn)行客戶(hù)群劃分。由此,我們可以對(duì)不同客戶(hù)群采取差異化的促銷(xiāo)方式。關(guān)聯(lián)規(guī)則:分析發(fā)現(xiàn)購(gòu)買(mǎi)面包的顧客中有很大比例的人同時(shí)購(gòu)買(mǎi)牛奶。由此,我們可以把面包和牛奶擺在同一個(gè)貨架上。此外,降維方法經(jīng)常服務(wù)于數(shù)據(jù)挖掘算法它把特征維度降低,從而使運(yùn)算更快。10數(shù)據(jù)據(jù)挖挖掘掘算算法法分分類(lèi)類(lèi)此處處觀觀看看案案例例視視頻頻11高度度重重視視以以下下同同義義詞詞以下下術(shù)術(shù)語(yǔ)語(yǔ)大大致致是是同同一一個(gè)個(gè)意意思思::表格格中中的的行:個(gè)個(gè)案案=實(shí)例例=記錄錄=樣本本點(diǎn)點(diǎn)=數(shù)據(jù)據(jù)點(diǎn)點(diǎn)表格格中中的的列:屬屬性性=特征征=字段段=維度度=預(yù)測(cè)測(cè)變變量量=自變變量量12數(shù)據(jù)據(jù)準(zhǔn)準(zhǔn)備備的的重重要要性性沒(méi)有有高質(zhì)質(zhì)量量的的數(shù)數(shù)據(jù)據(jù),就就沒(méi)沒(méi)有有高高質(zhì)質(zhì)量量的的挖挖掘掘結(jié)結(jié)果果。。數(shù)據(jù)據(jù)準(zhǔn)準(zhǔn)備備工工作作占占用用的的時(shí)時(shí)間間往往往往在60%以上上!!13分類(lèi)類(lèi)模模型型的的評(píng)評(píng)價(jià)價(jià)模型型算算法法質(zhì)質(zhì)量量的的評(píng)評(píng)價(jià)價(jià)是是很很重重要要的的一一部部分分。。對(duì)對(duì)分分類(lèi)類(lèi)模模型型和和聚聚類(lèi)類(lèi)模模型型的的評(píng)評(píng)價(jià)價(jià)方方法法是是不不同同的的。。對(duì)于于分分類(lèi)類(lèi)模模型型,,通通常常用用一一些些指標(biāo)標(biāo)來(lái)來(lái)進(jìn)進(jìn)行行模模型型評(píng)評(píng)價(jià)價(jià)和和選選擇擇。通常常采采用用的的指指標(biāo)標(biāo)有有::ROC曲線(xiàn)線(xiàn)、、Lift曲線(xiàn)線(xiàn)。。其本本質(zhì)質(zhì)都都是是與與預(yù)預(yù)測(cè)測(cè)的的準(zhǔn)準(zhǔn)確確性性有有關(guān)關(guān)的的。。分類(lèi)類(lèi)模模型型評(píng)評(píng)價(jià)價(jià)的的主主要要宗旨旨就就是是:減減少少誤判判((假假陽(yáng)陽(yáng)性性))和和漏漏判判((假假陰陰性性))。。我們們可可以以對(duì)對(duì)不不同同的的分分類(lèi)類(lèi)算算法法,,設(shè)設(shè)置置不不同同的的參參數(shù)數(shù),,進(jìn)進(jìn)行行反反復(fù)復(fù)比比較較,,根根據(jù)據(jù)在在多多個(gè)個(gè)效效果果指指標(biāo)標(biāo)((比如如ROC曲線(xiàn)線(xiàn)的的AUC值、、Lift曲線(xiàn)線(xiàn)))上是是否否有有穩(wěn)定定的好好的的表表現(xiàn)現(xiàn),,選擇擇一一個(gè)個(gè)最終終落落地地應(yīng)應(yīng)用用的的模模型型。。14分類(lèi)類(lèi)的的步步驟驟———數(shù)據(jù)據(jù)集的的劃劃分分把過(guò)過(guò)去去的的數(shù)數(shù)據(jù)據(jù)分分成成兩兩份份,,其其中中一一份份當(dāng)當(dāng)做做訓(xùn)訓(xùn)練練集集,,另另一一份份當(dāng)當(dāng)做做測(cè)測(cè)試試集集((用用來(lái)來(lái)模模擬擬““未未來(lái)來(lái)的的””數(shù)數(shù)據(jù)據(jù)))。。通通常常,,我我們們會(huì)會(huì)將將大大多多數(shù)數(shù)數(shù)數(shù)據(jù)據(jù)作作為為訓(xùn)訓(xùn)練練集集((比比如如80%),,而而少少數(shù)數(shù)數(shù)數(shù)據(jù)據(jù)作作為為測(cè)測(cè)試試集集。歷史史數(shù)數(shù)據(jù)據(jù)中中每行行都都要要有有輸輸入入數(shù)數(shù)據(jù)據(jù)(輸輸入入變變量量值值)和和輸輸出出數(shù)數(shù)據(jù)據(jù)(目標(biāo)標(biāo)變量量值值))。。15分類(lèi)類(lèi)的的步驟驟———模型型的的訓(xùn)訓(xùn)練練與與使使用用首先先采采用用訓(xùn)訓(xùn)練練集集進(jìn)進(jìn)行行訓(xùn)訓(xùn)練練,,目目的的是是在在已已知知目目標(biāo)標(biāo)值值的的情情況況下下,,找找出出輸輸入入變變量量和和目目標(biāo)標(biāo)值值之之間間的的關(guān)關(guān)系系,,從從而而得得到到經(jīng)經(jīng)過(guò)過(guò)訓(xùn)訓(xùn)練練的的分分類(lèi)類(lèi)模模型型。。我們們用用這這個(gè)個(gè)模模型型對(duì)對(duì)測(cè)測(cè)試試集集中中的的目目標(biāo)標(biāo)變變量量進(jìn)進(jìn)行行預(yù)預(yù)測(cè)測(cè),,然然后后把把目目標(biāo)標(biāo)變變量量的的真真實(shí)實(shí)值值和和預(yù)預(yù)測(cè)測(cè)值值進(jìn)進(jìn)行行比比較較,,看看看看預(yù)預(yù)測(cè)測(cè)精精度度如如何何。。我們們可可以以嘗嘗試試不不同同的的分分類(lèi)類(lèi)算算法法,,并并對(duì)對(duì)每每個(gè)個(gè)分分類(lèi)類(lèi)算算法法進(jìn)進(jìn)行行參參數(shù)數(shù)調(diào)調(diào)節(jié)節(jié),,經(jīng)經(jīng)過(guò)過(guò)反反復(fù)復(fù)比比較較后后,,可可以以選選擇擇一一種種預(yù)預(yù)測(cè)測(cè)精精度度最最高高的的分分類(lèi)類(lèi)算算法法及及其其參參數(shù)數(shù)組組合合。。之后后,,就就可可以以對(duì)對(duì)新新的的真真實(shí)實(shí)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行分分類(lèi)類(lèi)了了。。16分類(lèi)類(lèi)的的步步驟驟17復(fù)習(xí)習(xí)到到此此結(jié)結(jié)束束復(fù)習(xí)習(xí)到到此此結(jié)結(jié)束束?!,F(xiàn)在在翻翻到到本本幻幻燈燈片片后后面面幾幾頁(yè)頁(yè),,在在上上一一次次課課的的進(jìn)進(jìn)度度基基礎(chǔ)礎(chǔ)上上繼繼續(xù)續(xù)。。18分類(lèi)類(lèi)算算法法的的核核心心概概念念辨辨析析19按目目標(biāo)標(biāo)變變量量類(lèi)類(lèi)型型把把監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)分分為為兩兩類(lèi)類(lèi)監(jiān)督督學(xué)學(xué)習(xí)習(xí)可可分分為為兩兩類(lèi)類(lèi)::回歸歸::針針對(duì)對(duì)數(shù)值值型型目目標(biāo)標(biāo)變變量量的監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)。?;貧w歸也也可可以以稱(chēng)稱(chēng)作作估估計(jì)計(jì)((estimation)分類(lèi)類(lèi)::針針對(duì)對(duì)分分類(lèi)類(lèi)型型目目標(biāo)標(biāo)變變量量的的監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)。。很多多監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)算法法既既可可以以用用于于分分類(lèi)類(lèi),,也也可可以以用用于于回回歸歸::例如如::支支持持向向量量機(jī)機(jī)、、人工工神神經(jīng)經(jīng)網(wǎng)網(wǎng)絡(luò)絡(luò)、、決決策策樹(shù)樹(shù)分類(lèi)類(lèi)和和回回歸歸的的原原理理是是一一致致的的。。20注意意回回歸歸這這一一概概念念的的歧歧義義以上上所所說(shuō)說(shuō)的的是是廣廣義義的的回回歸歸。。狹義義的的回回歸歸則則是是源源于于統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)的的建建模模方方法法,,根根據(jù)據(jù)目目標(biāo)標(biāo)變變量量類(lèi)類(lèi)型型的的不不同同,,可可分分為為線(xiàn)線(xiàn)性性回回歸歸、、邏邏輯輯斯蒂蒂回歸歸等等。。在監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)當(dāng)當(dāng)中中,,在這這些些回回歸歸模模型型里里,,以以邏輯輯斯斯蒂蒂回歸歸最最為為常常用用,,其其次次是是線(xiàn)線(xiàn)性性回回歸歸。。邏輯輯回回歸歸是是針針對(duì)對(duì)分分類(lèi)類(lèi)型型目目標(biāo)標(biāo)變變量量的的回回歸歸模模型型。。線(xiàn)性性回回歸歸是針針對(duì)對(duì)連連續(xù)續(xù)型型目目標(biāo)標(biāo)變變量量的回歸歸模模型型。21有監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)與與預(yù)預(yù)測(cè)測(cè)的的區(qū)區(qū)別別分類(lèi)類(lèi)與與回回歸歸經(jīng)經(jīng)常常被被用用于于對(duì)對(duì)未未來(lái)來(lái)進(jìn)進(jìn)行行預(yù)預(yù)測(cè)測(cè),,但但它它們們并并不不總總是是用用于于對(duì)對(duì)未未來(lái)來(lái)進(jìn)進(jìn)行行預(yù)預(yù)測(cè)測(cè)。。比如如,,垃垃圾圾郵郵件件識(shí)識(shí)別別和和異異常常交交易易識(shí)識(shí)別別就就不不是是預(yù)預(yù)測(cè)測(cè);;而而貸貸款款還還款款風(fēng)風(fēng)險(xiǎn)險(xiǎn)預(yù)預(yù)估估則則算算是是預(yù)預(yù)測(cè)測(cè)。。但但兩兩者者都都采采用用有有監(jiān)監(jiān)督督學(xué)學(xué)習(xí)習(xí)。。預(yù)測(cè)測(cè)的的方方法法不不只只有有分分類(lèi)類(lèi)和和回回歸歸,,但但分分類(lèi)類(lèi)和和回回歸歸是是最最主主要要的的預(yù)預(yù)測(cè)測(cè)方方法法。?;谟跁r(shí)時(shí)間間序序列列的的預(yù)預(yù)測(cè)測(cè)也也是是比比較較常常用用的的預(yù)預(yù)測(cè)測(cè)方方法法。。22二分分類(lèi)類(lèi)和和多多分分類(lèi)類(lèi)除了了二二分分類(lèi)類(lèi),,很很多多分分類(lèi)類(lèi)算算法法也也支支持持多多分分類(lèi)類(lèi)。。多分分類(lèi)類(lèi)的的輸輸出出可可以以是是多多個(gè)個(gè)類(lèi)類(lèi)別別中中的的一一個(gè)個(gè)。。多多分分類(lèi)比比二二分分類(lèi)類(lèi)要要稍稍微微難難一一點(diǎn)點(diǎn)。?;颈舅妓悸仿肥鞘牵海簩⒍喽喾址诸?lèi)類(lèi)問(wèn)問(wèn)題題轉(zhuǎn)轉(zhuǎn)化化成成一一系系列列二二分分類(lèi)類(lèi)問(wèn)問(wèn)題題,,從從而而得得以以使使用用二二分分類(lèi)類(lèi)模模型型。。23分類(lèi)類(lèi)算算法法的的典典型型應(yīng)應(yīng)用用24分類(lèi)類(lèi)算算法法的的應(yīng)應(yīng)用用———銷(xiāo)售售經(jīng)典典應(yīng)用用———響應(yīng)應(yīng)模型型:例例如如預(yù)預(yù)測(cè)測(cè)顧客客是是否否會(huì)會(huì)響應(yīng)應(yīng)直直接接郵郵寄寄廣廣告告((directmail,直直郵郵))或或促促銷(xiāo)銷(xiāo)短短信信,,即即是是否否會(huì)會(huì)成成為為客客戶(hù)戶(hù)。。我們們通通常常會(huì)會(huì)把把以以前前的的促促銷(xiāo)銷(xiāo)活活動(dòng)動(dòng)的的歷歷史史消消費(fèi)費(fèi)數(shù)數(shù)據(jù)據(jù)作作為為訓(xùn)訓(xùn)練練集集。。25分類(lèi)類(lèi)算算法法的的應(yīng)用用———金融融通過(guò)過(guò)風(fēng)險(xiǎn)險(xiǎn)評(píng)評(píng)估估,銀銀行行可可以以減減少少壞壞賬賬,,增增加加收收益益。。經(jīng)典典應(yīng)用用———貸款款風(fēng)風(fēng)險(xiǎn)險(xiǎn)評(píng)評(píng)估估:銀銀行行貸貸款款部部門(mén)門(mén)預(yù)預(yù)測(cè)測(cè)借借款款人是是否否有有可可能能拖拖欠欠,,從從而而判判斷斷是否應(yīng)接受貸款申請(qǐng)。我們把以往信信用不良的客戶(hù)的的數(shù)據(jù)作為訓(xùn)練練集。經(jīng)典應(yīng)用——信用卡風(fēng)險(xiǎn)評(píng)估:判斷是否應(yīng)應(yīng)該批準(zhǔn)某顧顧客的信用卡卡申請(qǐng),即通通過(guò)分析申請(qǐng)請(qǐng)人的信用卡卡使用行為、、社交媒體數(shù)數(shù)據(jù)、電話(huà)使使用數(shù)據(jù),對(duì)未來(lái)惡意透透支的信用風(fēng)險(xiǎn)進(jìn)行行預(yù)測(cè)。在這這個(gè)應(yīng)用中,,用戶(hù)個(gè)人信信息很豐富,,所以數(shù)據(jù)維維度很多,進(jìn)進(jìn)而預(yù)測(cè)精準(zhǔn)準(zhǔn)度比較高。。26分類(lèi)算法的應(yīng)應(yīng)用——金融經(jīng)典應(yīng)用——欺詐檢測(cè):主要有信用用卡欺詐交易易檢測(cè)、網(wǎng)上上銀行交易欺欺詐、保險(xiǎn)索索賠的欺詐檢檢測(cè)。通過(guò)分析客戶(hù)基本本特征和以往往使用行為來(lái)來(lái)檢測(cè)非法使使用。這種監(jiān)控可以以在線(xiàn)實(shí)時(shí)進(jìn)行,也可以以定期進(jìn)行。??蛻?hù)進(jìn)行保險(xiǎn)投訴訴時(shí)提供的理理由的文本也也是一種數(shù)據(jù)據(jù)來(lái)源。正類(lèi)(欺詐交交易)遠(yuǎn)不及負(fù)類(lèi)(正常交易易)頻繁。27保險(xiǎn)索賠的欺欺詐檢測(cè)28分類(lèi)算法的應(yīng)應(yīng)用——電信經(jīng)典應(yīng)用——電信運(yùn)營(yíng)商、銀行行、保險(xiǎn)公司司等會(huì)員制公公司的客戶(hù)流失分析析:通過(guò)客戶(hù)消費(fèi)數(shù)據(jù)據(jù)、客戶(hù)致電呼呼叫中心的通通話(huà)(例如打打電話(huà)進(jìn)行投訴或威威脅要更換運(yùn)運(yùn)營(yíng)商)、微博上的帖子和在搜索索引擎上的搜搜索記錄(比比如關(guān)于“如如何取消與中中國(guó)電信的合合約”),預(yù)測(cè)哪些客戶(hù)戶(hù)可能要離網(wǎng)或取消賬號(hào)。運(yùn)營(yíng)商可以對(duì)可能流失的的顧客采取打打折促銷(xiāo)等措措施。29分類(lèi)算法的應(yīng)用——機(jī)電設(shè)備經(jīng)典應(yīng)用——故障預(yù)測(cè):根據(jù)傳感器數(shù)數(shù)據(jù),預(yù)測(cè)設(shè)備的哪個(gè)部位容易易出故障。數(shù)據(jù)實(shí)實(shí)時(shí)傳回制造造商。對(duì)于大型設(shè)備備,制造商會(huì)會(huì)及時(shí)主動(dòng)上上門(mén)維修;對(duì)對(duì)家用設(shè)備,,制造商則通通知用戶(hù)找人人維修。例如:復(fù)印機(jī)、汽車(chē)車(chē)、飛機(jī)、火火車(chē)、軍車(chē)、、游艇、鉆孔孔設(shè)備、發(fā)動(dòng)動(dòng)機(jī)30分類(lèi)算法的應(yīng)用——溝通交流經(jīng)典應(yīng)用——垃圾郵件過(guò)濾濾:把郵件自動(dòng)標(biāo)記記為垃圾郵件或或正常郵件。。31分類(lèi)算法的應(yīng)應(yīng)用從衛(wèi)星圖像檢檢測(cè)石油泄漏漏預(yù)測(cè)犯罪可能性癌癥診斷Web新聞分類(lèi)手寫(xiě)字符識(shí)別別語(yǔ)音識(shí)別32對(duì)分類(lèi)算法的的常見(jiàn)應(yīng)用的的小結(jié)營(yíng)銷(xiāo):響應(yīng)模模型金融:客戶(hù)風(fēng)風(fēng)險(xiǎn)評(píng)估、欺欺詐檢測(cè)電信:客戶(hù)流流失預(yù)測(cè)設(shè)備制造:故故障預(yù)測(cè)33常見(jiàn)分類(lèi)算法法34決策樹(shù)決策樹(shù)是最流流行的分類(lèi)方方法。直觀上看,其過(guò)程程是:從根部部開(kāi)始,層層層分枝,最終終生長(zhǎng)出樹(shù)葉葉,也就是形形成若干葉子子結(jié)點(diǎn)。它的每次劃分分都是基于最顯著的特征征的。所分析的數(shù)據(jù)樣樣本被稱(chēng)作樹(shù)根,算法從所有有特征中選出出一個(gè)最重要的((即最“具有有信息”的,,即使得所得得到的兩個(gè)分分支的差異最最大的特征)),用這個(gè)特征把樣本分割成若干子集。重復(fù)這個(gè)過(guò)程,直到所有分支支下面的實(shí)例例都是“純”的,即子集中各個(gè)個(gè)實(shí)例都屬于同同一個(gè)類(lèi)別,這樣的的分支即可確確定為一個(gè)葉葉子節(jié)點(diǎn)。在在所有子集都都變成“純””的后,樹(shù)就就停止生長(zhǎng)了了。35決策樹(shù)隨著決策樹(shù)不不斷向下延伸伸,就好比是是用榨汁機(jī)不不斷擠出“知知識(shí)的果汁””。36決策樹(shù)的剪枝枝如果決策樹(shù)建建得過(guò)深,容容易導(dǎo)致過(guò)度擬合問(wèn)題。當(dāng)每個(gè)分枝只只對(duì)應(yīng)一個(gè)具具體的實(shí)例((例如一個(gè)客客戶(hù)),這個(gè)個(gè)規(guī)則就完全全失去了概括括性。為了避免生成的樹(shù)對(duì)訓(xùn)練數(shù)據(jù)過(guò)度度擬合,必須須在樹(shù)生成之之后,對(duì)樹(shù)進(jìn)進(jìn)行剪枝處理,對(duì)節(jié)點(diǎn)點(diǎn)進(jìn)行刪減,,控制樹(shù)的復(fù)復(fù)雜度。剪枝對(duì)提高樹(shù)樹(shù)對(duì)新實(shí)例的的預(yù)測(cè)準(zhǔn)確性性至關(guān)重要。。剪枝通常采用用自下而上的的方式。每次次找出訓(xùn)練數(shù)數(shù)據(jù)中對(duì)預(yù)測(cè)測(cè)精度貢獻(xiàn)最最小的那個(gè)分支,剪掉它。37決策樹(shù)的剪枝枝簡(jiǎn)言之,先讓讓決策樹(shù)瘋狂狂生長(zhǎng),然后后再慢慢往回回收縮。整體上往回縮縮多少,要根根據(jù)在測(cè)試集集上的表現(xiàn)來(lái)來(lái)反復(fù)嘗試。。38決策樹(shù)的用途途分類(lèi)樹(shù):決策策樹(shù)可以處理理二分類(lèi)、多多分類(lèi)問(wèn)題。。這時(shí)它也叫叫做分類(lèi)樹(shù)。?;貧w樹(shù):最早早的決策樹(shù)僅用用于分類(lèi)型的目標(biāo)標(biāo)值。它已經(jīng)擴(kuò)展到到可以用于數(shù)值型目目標(biāo)變量(比比如預(yù)測(cè)每個(gè)個(gè)人的月收入入),這時(shí)它也也叫回歸樹(shù)。。不過(guò),回歸歸樹(shù)的性能不如回歸分析析和神經(jīng)網(wǎng)絡(luò)。所以,在估計(jì)計(jì)數(shù)值型目標(biāo)標(biāo)變量時(shí),它它很少作為首首選算法。它除了用來(lái)分類(lèi)類(lèi),也常常用于幫幫其他算法篩選出一組好好的輸入變量量。所以,即即使最終使用用的模型是其其他模型,分分析的初期階階段也經(jīng)常用用決策樹(shù)。39決策樹(shù)的優(yōu)缺缺點(diǎn)決策樹(shù)的最大大優(yōu)點(diǎn)是它所所產(chǎn)生的是一一系列“如果果…那么…”的判判斷規(guī)規(guī)則,,非常直直觀、、通俗俗易懂懂,容易易被業(yè)業(yè)務(wù)人人員理理解,,很多多規(guī)則則能直直接拿拿來(lái)應(yīng)應(yīng)用。其輸出出結(jié)果果很容容易可可視化化展示示。它需要要的數(shù)數(shù)據(jù)預(yù)預(yù)處理理很少少。它它對(duì)數(shù)據(jù)據(jù)分布布沒(méi)有有嚴(yán)格格的要要求、、不容容易受受異常常值影響、、對(duì)缺失值值很寬容。。由于它它沒(méi)使使用數(shù)數(shù)值型型特征征的實(shí)實(shí)際值值,而而是對(duì)對(duì)其進(jìn)進(jìn)行離離散化化后再再使用用,所所以它它對(duì)異異常值值和偏偏態(tài)分分布不不敏感感。缺失值對(duì)它它根本本不是是問(wèn)題題。40決策樹(shù)樹(shù)的例子——是否去去相親親41決策樹(shù)樹(shù)的例子——判斷性性別決策樹(shù)樹(shù)的輸輸出結(jié)結(jié)果有有兩種種:決決策樹(shù)樹(shù)、規(guī)規(guī)則集集這是用用規(guī)則則集的的形式式展示示的決決策樹(shù)樹(shù)輸出出結(jié)果果42決策樹(shù)樹(shù)例子子——是否參參加戰(zhàn)戰(zhàn)斗43決策樹(shù)樹(shù)的其其他例例子根據(jù)各各種用用戶(hù)特特征判判斷該該賬號(hào)號(hào)是否否真實(shí)實(shí)根據(jù)各各種天天氣參參數(shù)判判斷是是否適適合打打高爾爾夫44邏輯回回歸邏輯回回歸是是一種種常用用的分分類(lèi)方方法。。它非非常成成熟、、應(yīng)用用非常常廣泛泛。它是回回歸的的一種種?;貧w歸分析析也是是統(tǒng)計(jì)計(jì)學(xué)中中應(yīng)用用最廣廣泛的的一種種分析析工具具。回歸歸不只只可以以用于于分類(lèi)類(lèi),也也能用用于發(fā)發(fā)現(xiàn)變變量間間的因因果關(guān)關(guān)系。。最主要要的回回歸模模型有有多元元線(xiàn)性性回歸歸(Linearregression)和邏邏輯回回歸((Logisticregression)。前前者適適于連連續(xù)的的目標(biāo)標(biāo)變量量,后后者適適于類(lèi)類(lèi)別型型的目目標(biāo)變變量((比如如:是是否購(gòu)購(gòu)買(mǎi)))。有些時(shí)時(shí)候,,邏輯輯回歸歸不被被當(dāng)做做典型型的數(shù)數(shù)據(jù)挖挖掘算算法。。45邏輯回歸的的步驟驟它用于于監(jiān)督督學(xué)習(xí)習(xí)時(shí)的的步驟驟是::先訓(xùn)練練,目目的是是找到到分類(lèi)類(lèi)效果果最佳佳的回歸系系數(shù)。然后使使用訓(xùn)訓(xùn)練得得到的的一組組回歸系系數(shù),對(duì)輸輸入的的數(shù)據(jù)據(jù)進(jìn)行行計(jì)算算,判判定它它們所所屬的的類(lèi)別別?;旧仙?,就就是把把測(cè)試試集上上每個(gè)個(gè)特征征向量量乘以以訓(xùn)練練得到到的回回歸系系數(shù),,再將將這個(gè)個(gè)乘積積結(jié)果果求和和,最最后輸輸入到到Sigmoid函數(shù)中即可可。如如果對(duì)對(duì)應(yīng)的的Sigmoid值大于于0.5就預(yù)測(cè)測(cè)為類(lèi)別1,否則則為類(lèi)別0。46邏輯回歸模模型的的檢驗(yàn)驗(yàn)在用模模型進(jìn)進(jìn)行預(yù)預(yù)測(cè)之之前,,我們們希望望模型型中的的輸入入變量量與目目標(biāo)變變量之之間的的關(guān)系系足夠夠強(qiáng),,為此此主要要做兩兩個(gè)診診斷::對(duì)模型型整體體的檢檢驗(yàn)——R2,即全全部輸輸入變變量能能夠解解釋目目標(biāo)變變量變變異性性的百分之之多少。。R2越大,,說(shuō)明明模型型擬合合得越越好。。如果果R2太小,,則模模型不不可用用于預(yù)預(yù)測(cè)。?;貧w系系數(shù)的的顯著著性((p-value)。如如果某某個(gè)輸輸入變變量對(duì)對(duì)目標(biāo)標(biāo)變量量的作作用的的p-value小于0.05,則可可以認(rèn)認(rèn)為該該輸入入變量量具有有顯著著作用用。對(duì)對(duì)不顯顯著的的輸入入變量量可以以考慮慮從模模型中中去掉掉。47邏輯回歸模模型的的檢驗(yàn)驗(yàn)其實(shí),,在用用于監(jiān)監(jiān)督學(xué)學(xué)習(xí)時(shí)時(shí),它它最重重要的的檢驗(yàn)驗(yàn)還是是預(yù)測(cè)測(cè)能力力的檢檢驗(yàn)。。在這方方面,,所采采用的的檢驗(yàn)驗(yàn)方法法和其其他算算法是是一樣樣的::采用用測(cè)試試集進(jìn)進(jìn)行交交叉檢檢驗(yàn),,并采采用ROC曲線(xiàn)和和Lift曲線(xiàn)。。48決策樹(shù)樹(shù)和邏邏輯回回歸的比較決策樹(shù)樹(shù)由于于采用用分割割的方方法,,所以以能夠夠深入入數(shù)據(jù)據(jù)細(xì)部部,但但同時(shí)時(shí)失去去了對(duì)對(duì)全局的把握握。一一個(gè)分枝枝一旦旦形成,,它和和別的分枝或節(jié)點(diǎn)的的關(guān)系系就被被切斷斷了,,以后后的挖挖掘只只能在在局部部中進(jìn)進(jìn)行。有些有有趣的的模式式是局局部的的,例例如北北京和和上海海的大大學(xué)生生的微微信使使用習(xí)習(xí)慣差差別可可能很很大。。而邏輯輯回歸歸,始始終著著眼整整個(gè)數(shù)數(shù)據(jù)的的擬合合,所所以對(duì)對(duì)全局模模式把握較好。決策樹(shù)樹(shù)比較較容易易上手手,需需要的的數(shù)據(jù)預(yù)預(yù)處理理較少。。邏輯回回歸模模型不不能處處理缺失值值,而且且對(duì)異異常值值敏感感。因因此,,回歸歸之前前應(yīng)該該處理理缺失失值,,并盡盡量刪刪除異異常值值。49支持向向量機(jī)機(jī)該算法法自問(wèn)問(wèn)世以以來(lái)就就被認(rèn)認(rèn)為是是效果果最好好的分分類(lèi)算算法之之一。我們可以這這樣理理解SVM,我們希希望找找到一一條直直線(xiàn)能能把兩兩類(lèi)樣樣本完完美的的分開(kāi),,盡量量使樣樣本中中從更高的的維度度看起起來(lái)在在一起起的樣樣本合合在一起。。50支持向向量機(jī)的原原理SVM考慮尋尋找一一個(gè)滿(mǎn)滿(mǎn)足分分類(lèi)要要求的的超平面面,并且使使訓(xùn)練練集中中的點(diǎn)點(diǎn)距離離分類(lèi)類(lèi)面盡盡可能能的遠(yuǎn)遠(yuǎn),也就是是尋找找一個(gè)個(gè)最優(yōu)優(yōu)分類(lèi)類(lèi)面使使它兩兩側(cè)的的空白白區(qū)域域(即分類(lèi)類(lèi)間隔隔、margin)最大。??梢钥纯吹絻蓛蓚€(gè)支支撐著著中間間的gap的超平面面,它們們到中中間的的separatinghyperplane的距離相相等。。而““支撐撐”這這兩個(gè)個(gè)超平平面的的必定定會(huì)有有一些些點(diǎn),,而這這些““支撐撐”的的點(diǎn)便便叫做做支持持向量(SupportVector)。5152支持向向量機(jī)機(jī)——選最大大邊際際的那那個(gè)超超平面面53支持向向量機(jī)的一一個(gè)特特點(diǎn)少數(shù)幾個(gè)訓(xùn)訓(xùn)練樣樣本點(diǎn)點(diǎn)(支持向向量)決定定了最終終結(jié)果。。劃分分不是是依賴(lài)賴(lài)于所所有樣樣本點(diǎn)點(diǎn)。因因此,,增、刪“非非支持持向量量”的的樣本本對(duì)模型型沒(méi)有有影響。。計(jì)算的的復(fù)雜雜性取取決于于支持持向量量的數(shù)數(shù)目,而不是是樣本本空間間的維數(shù),這在某某種意意義上上避免免了““維數(shù)數(shù)災(zāi)難難”。。54支持向向量機(jī)機(jī)的原原理很多實(shí)際問(wèn)問(wèn)題都不是是線(xiàn)性模型型。這種訓(xùn)練數(shù)據(jù)集是線(xiàn)性不可分分的。55支持向量機(jī)機(jī)的原理解決線(xiàn)性不不可分問(wèn)題題的基本思思路——向高維空間間轉(zhuǎn)化,使使其變得線(xiàn)線(xiàn)性可分。。56支持向量機(jī)機(jī)的原理要想變得線(xiàn)性可分,就要用用到核函數(shù)。SVM用核函數(shù)來(lái)來(lái)避免高維維運(yùn)算。57支持向量機(jī)機(jī)的原理紅黑兩段線(xiàn)段在在一維空間間不可分;;但在二維空空間則變成成可以用一一條直線(xiàn)分分開(kāi)的了。。58支持向量機(jī)機(jī)的優(yōu)缺點(diǎn)點(diǎn)支持向量機(jī)經(jīng)常非常常準(zhǔn)確,尤尤其是在處處理高維數(shù)據(jù)時(shí)。支持向量機(jī)機(jī)經(jīng)常用于不需要要人類(lèi)直觀觀理解的應(yīng)應(yīng)用領(lǐng)域,因?yàn)槿撕芎茈y在高維維空間中理理解支持向向量機(jī)產(chǎn)生生的超平面面。而且,,它能處理理那些分類(lèi)類(lèi)界限不明明確的數(shù)據(jù)據(jù)。支持向量機(jī)機(jī)只能用數(shù)數(shù)值型屬性性。因此,,對(duì)于離散散的屬性,,需要轉(zhuǎn)換換成數(shù)值型型屬性。59支持向量機(jī)機(jī)的應(yīng)用由于它在解解決小樣本本、非線(xiàn)性性和高維度度的模式識(shí)識(shí)別中的優(yōu)優(yōu)勢(shì),所以以在如下領(lǐng)領(lǐng)域得到廣廣泛應(yīng)用::自然語(yǔ)言處理、圖像識(shí)別(例如如面部識(shí)別別)、語(yǔ)音識(shí)別。并且也能用用于商業(yè)分分析。還可用于蛋蛋白質(zhì)結(jié)構(gòu)構(gòu)預(yù)測(cè)、生生物信息學(xué)學(xué)。60支持向量機(jī)機(jī)關(guān)鍵概念念小結(jié)超平面:支持向量::核函數(shù):61在SPSSModeler中使用SVM主要需要設(shè)設(shè)置兩個(gè)參參數(shù):Regularization參數(shù)。這個(gè)個(gè)參數(shù)用于于控制分類(lèi)類(lèi)所得類(lèi)別別間最大邊際(Margin)和最小錯(cuò)誤分分類(lèi)之間的平衡衡。增加該該值會(huì)得到到準(zhǔn)確度高高但可能過(guò)過(guò)度擬合的的模型。這是因?yàn)?,,如果分?lèi)類(lèi)間的間隙隙變小,雖雖然引起的的被錯(cuò)誤分分類(lèi)的實(shí)例例會(huì)很少,,但可能引引入過(guò)度擬擬合的問(wèn)題題。這個(gè)值的設(shè)設(shè)置往往需需要不斷嘗試和比較。核函數(shù)類(lèi)型。我們可能需需要嘗試不同的核函函數(shù),選出出分類(lèi)效果果最好的一一種。常用用核函數(shù)有有:徑向基基、多項(xiàng)式等。62KNN算法K最近鄰(K-NearestNeighbor,KNN)分類(lèi)算法法可以說(shuō)是是整個(gè)數(shù)據(jù)據(jù)挖掘分類(lèi)類(lèi)技術(shù)中最簡(jiǎn)單的方法。簡(jiǎn)言之,它它是找K個(gè)最近鄰居居的方法。。由這些鄰鄰居投票決決定新的數(shù)數(shù)據(jù)屬于哪哪個(gè)類(lèi)。KNN算法的核心心思想是如如果一個(gè)樣樣本在特征征空間中的的K個(gè)最相似的樣本本中的大多多數(shù)屬于某某一個(gè)類(lèi)別別,則該樣樣本也屬于于這個(gè)類(lèi)別,并具有這這個(gè)類(lèi)別上上樣本的特特性。KNN在確定分類(lèi)決決策上只依據(jù)最鄰近近的一個(gè)或者幾幾個(gè)樣本的類(lèi)別別來(lái)決定待分分樣本所屬的類(lèi)別。63KNN算法的最大大特點(diǎn)它跟其他分分類(lèi)算法不不同:其他算法都都是先根據(jù)據(jù)預(yù)分類(lèi)的的訓(xùn)練集來(lái)來(lái)訓(xùn)練模型型,然后拋拋開(kāi)訓(xùn)練集集進(jìn)行預(yù)測(cè)測(cè)。而KNN的訓(xùn)練集就就是模型本本身。因此,選擇擇正確的訓(xùn)訓(xùn)練集是KNN的最重要一一步。它要求訓(xùn)練練集中各個(gè)個(gè)分類(lèi)的數(shù)數(shù)量要體現(xiàn)現(xiàn)實(shí)際當(dāng)中中這些類(lèi)別別出現(xiàn)的概概率。例如如,在欺詐詐檢測(cè)中,,我們不能能因?yàn)轭?lèi)別別不平衡,,就對(duì)非欺欺詐實(shí)例做做“欠抽樣樣”。64在SPSSModeler中使用KNN算法主要有兩個(gè)個(gè)參數(shù)需要要設(shè)定:距離函數(shù)。。鄰居的遠(yuǎn)遠(yuǎn)近是按照照距離函數(shù)數(shù)計(jì)算的。。SPSS有兩種距離離計(jì)算方式式供選擇。。鄰居的數(shù)量量。KNN中的K字母的含義就是是鄰居的數(shù)數(shù)量。具體體設(shè)置方式式有兩種::設(shè)置一個(gè)固固定的K值由算法根據(jù)據(jù)驗(yàn)證集來(lái)來(lái)自動(dòng)決定K值65樸素貝葉斯分類(lèi)類(lèi)樸素貝葉斯分類(lèi)類(lèi)(Na?veBayesianModel)是基于貝葉斯斯條件概率率定理的概概率分類(lèi)器器。這個(gè)算法比比較簡(jiǎn)單。。最大特點(diǎn)::該模型假設(shè)特征之之間相互獨(dú)立、彼此不相相關(guān)。這就就是它“樸樸素”之處。這也是很很多人對(duì)它它最擔(dān)心之之處。人們往往先先入為主地地認(rèn)為,其其根本性假假設(shè)都不對(duì)對(duì),那么效效果一定好好不到哪里里去。但事事實(shí)是,它它在很多應(yīng)應(yīng)用中表現(xiàn)現(xiàn)很好。66樸素貝葉斯斯分類(lèi)的步驟然后用一個(gè)個(gè)簡(jiǎn)單的貝貝葉斯公式式,對(duì)于某某個(gè)特征,,算出實(shí)例例的后驗(yàn)概概率(也叫叫條件概率率)。只需把各個(gè)特征的后驗(yàn)概率相乘,就得到一一個(gè)類(lèi)的總總概率。選擇具有最大后驗(yàn)概率的類(lèi)作為該實(shí)例所屬的類(lèi)。67樸素貝葉斯分類(lèi)類(lèi)的原理樸素貝葉斯斯模型會(huì)通過(guò)郵件中中的諸多垃垃圾郵件標(biāo)志物來(lái)判斷郵件件是否是垃垃圾郵件。。這些標(biāo)志志物可能是是詞匯(例例如是否有有貨幣符號(hào)號(hào)),也可可能是其他他特征(例例如是否群群發(fā))。一封郵件需要要多高的概率才值得貼上垃垃圾郵件的的標(biāo)簽?這取決于三三個(gè)信息::68Pr(垃圾郵件標(biāo)標(biāo)志物|垃圾郵件)。垃圾郵件中中包含這個(gè)個(gè)標(biāo)志物的的概率,即即這個(gè)標(biāo)志志物是否經(jīng)經(jīng)常出現(xiàn)在在垃圾郵件件中。如果這個(gè)標(biāo)標(biāo)志物在垃垃圾郵件中中出現(xiàn)并不不頻繁,那那么它顯然然不是個(gè)好好的標(biāo)志物物。Pr(垃圾郵件)。一封垃圾圾郵件出現(xiàn)現(xiàn)的基本概概率,即先驗(yàn)概率。如果垃圾圾郵件經(jīng)常常出現(xiàn),那那么顯然我我們正在考考察的這封封郵件也更更有可能是是垃圾郵件件。Pr(垃圾郵件標(biāo)標(biāo)志物)。即標(biāo)志物物出現(xiàn)的概概率。如果果標(biāo)志物在在很多郵件件、甚至所所有郵件中中都出現(xiàn),,那么它就就不是個(gè)好好的標(biāo)志物物。根據(jù)這三個(gè)個(gè)信息,可可以得到后驗(yàn)概率:即在出現(xiàn)現(xiàn)垃圾郵件件標(biāo)志物的的前提下,,郵件為垃垃圾郵件的的可能性。。69具體公式70具體公式71為什么獨(dú)立立性假設(shè)是是可行的??只要正確類(lèi)類(lèi)的后驗(yàn)概概率比其他他類(lèi)要高就就可以得到到正確的分分類(lèi)。所以以即使概率率估計(jì)不精精確,都不不影響正確確做出分類(lèi)類(lèi)。在數(shù)據(jù)預(yù)處處理環(huán)節(jié),,通常會(huì)進(jìn)進(jìn)行變量選選擇,把對(duì)對(duì)于高度相相關(guān)的變量量只保留其其中一個(gè),,剩下的變變量之間就就接近于相相互獨(dú)立了了。72樸素貝葉斯斯學(xué)習(xí)的應(yīng)應(yīng)用在文本分類(lèi)類(lèi)中被廣泛泛使用。最典型的應(yīng)應(yīng)用是垃圾郵件過(guò)過(guò)濾其他還有自自動(dòng)語(yǔ)言識(shí)識(shí)別等。它很適合于于規(guī)模巨大大的郵件數(shù)數(shù)據(jù)集。73貝葉斯網(wǎng)絡(luò)絡(luò)在上述樸素素貝葉斯分分類(lèi)中,如如果數(shù)據(jù)集集中的變量量相互之間間不獨(dú)立,那么預(yù)測(cè)測(cè)效果會(huì)很很差。貝葉斯網(wǎng)絡(luò)絡(luò)則放寬了了變量之間間相互獨(dú)立這一假設(shè)。。它對(duì)于解解決變量之之間有關(guān)聯(lián)聯(lián)性的問(wèn)題題很有優(yōu)勢(shì)勢(shì)。它把貝葉斯斯原理和圖圖論相結(jié)合合。但是,在抑抑制了獨(dú)立性假設(shè)的同時(shí)時(shí),也容易易增加計(jì)算算難度。74組合方法組合方法((Ensemblemethods)。常用術(shù)語(yǔ)::Boosting、AdaBoost、RandomForest(隨機(jī)森林)。組合分類(lèi)器器由多個(gè)成員分類(lèi)類(lèi)器組合而成,,大家“投投票”決定定分類(lèi)結(jié)果果。它把成員分分類(lèi)器叫做做弱分類(lèi)器器。雖然每每個(gè)弱分類(lèi)類(lèi)器分類(lèi)的的不那么準(zhǔn)準(zhǔn)確,但是是如果把多多個(gè)弱分類(lèi)類(lèi)器組合起起來(lái)可以得得到相當(dāng)不不錯(cuò)的結(jié)果果。組合分類(lèi)分類(lèi)器器往往比它它的成員分分類(lèi)器更準(zhǔn)確,而且分類(lèi)結(jié)結(jié)果更穩(wěn)定定。此類(lèi)方法類(lèi)類(lèi)似于投資或投票票,“不把雞蛋蛋放在一個(gè)個(gè)籃子”。75組合方法的種類(lèi)類(lèi)組合方法主主要包括:bagging,randomforest,和boosting。袋裝(Bagging)的每個(gè)弱分類(lèi)類(lèi)器的組合合權(quán)重是相相等。隨機(jī)森林((Randomforest)是建立在Bagging基礎(chǔ)上的一一種方法。第一個(gè)實(shí)用的提升(Boosting)算法是AdaBoost。76組合方法——提升算法在投票中,,我們希望望讓各選民民的意見(jiàn)有有一定的多多樣性。77組合方法——袋裝袋裝(Bagging)的每個(gè)弱弱分類(lèi)器的的組合權(quán)重重是相等。。這就類(lèi)似于選舉舉中每張選票有相同的權(quán)重重。而且,我們們盡可能讓讓每個(gè)選民民根據(jù)不同同的信息來(lái)來(lái)進(jìn)行投票票。具體表表現(xiàn)為:將數(shù)據(jù)集中中的數(shù)據(jù)進(jìn)進(jìn)行多次抽抽樣,每次次用抽樣出出來(lái)的子數(shù)數(shù)據(jù)集來(lái)訓(xùn)訓(xùn)練單個(gè)弱弱分類(lèi)器,,最后對(duì)歷歷次訓(xùn)練出出的各分類(lèi)類(lèi)器的結(jié)果果進(jìn)行投票票,得到最最終結(jié)果。。78組合方法——隨機(jī)森林Randomforest(隨機(jī)森林林):隨機(jī)森林是是把Bagging與隨機(jī)屬性性選擇結(jié)合合起來(lái)的方方法。這種組合分分類(lèi)器中的的每個(gè)分類(lèi)類(lèi)器都是一一棵決策樹(shù)樹(shù),因此分分類(lèi)器的集集合就是一一個(gè)“森林林”。79組合方法——隨機(jī)森林的步驟驟和Bagging類(lèi)似之處在在于,每個(gè)個(gè)決策樹(shù)用用的訓(xùn)練樣本本都是從原始始訓(xùn)練集中中隨機(jī)抽取取出來(lái)的。。每個(gè)決策樹(shù)樹(shù)在每個(gè)節(jié)節(jié)點(diǎn)都是用用隨機(jī)選擇出出來(lái)的一小小部分屬性性來(lái)決定如何何分類(lèi)。分類(lèi)時(shí),每棵樹(shù)樹(shù)都對(duì)每個(gè)實(shí)實(shí)例投票,,并返回得票最最多的類(lèi)。。80組合方法——隨機(jī)森林的優(yōu)點(diǎn)由于隨機(jī)森森林在每次次劃分時(shí)只考慮很少少的屬性,所以每棵棵樹(shù)的生長(zhǎng)長(zhǎng)很快。因因此它在大大數(shù)據(jù)集上上非常有效。81組合方法——提升算法在投票中,,我們希望望給意見(jiàn)很很靠譜的選選民的票較較大權(quán)重。82組合方法——提升算法Bagging只是將分類(lèi)類(lèi)器進(jìn)行簡(jiǎn)簡(jiǎn)單的組合合。Boosting則更復(fù)雜一一些,它是是一個(gè)迭代的的算法。每個(gè)樣本本都被賦予予一個(gè)初始始權(quán)重。每個(gè)分類(lèi)類(lèi)器也被賦賦予一個(gè)初初始權(quán)重。分類(lèi)器的錯(cuò)錯(cuò)誤率越高高,越不能能器重它,,它的權(quán)重重就應(yīng)該低低。每個(gè)分類(lèi)類(lèi)器的權(quán)重重代表其在在上一輪迭迭代中的成成功程度。。同樣的道理,樣樣本也要區(qū)區(qū)分對(duì)待。每一輪迭代都都尤其關(guān)注注上一輪被錯(cuò)誤分分類(lèi)的實(shí)例例,增加錯(cuò)誤分類(lèi)的實(shí)例的權(quán)重重。最終分類(lèi)結(jié)結(jié)果是弱分分類(lèi)器的加加權(quán)平均。。83組合方法的的優(yōu)點(diǎn)多個(gè)模型組組合所取得得的結(jié)果往往往要好于于單個(gè)模型型。組合模型看看似復(fù)雜,,卻能擺脫脫過(guò)度擬合合的宿命。。因此,可可以放心地地讓上百個(gè)個(gè)模型集合合在一起。。84人工神經(jīng)網(wǎng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)絡(luò)(ArtificialNeuralNetwork,ANN)或神經(jīng)網(wǎng)絡(luò)絡(luò)(NN)。神經(jīng)網(wǎng)絡(luò)最早是由心理理學(xué)家和神經(jīng)經(jīng)學(xué)家開(kāi)創(chuàng)的的。它可以在計(jì)算算機(jī)上模擬人人類(lèi)大腦中的的神經(jīng)連接。。這種運(yùn)作方方式使之能夠夠從數(shù)據(jù)中概概括和學(xué)習(xí)知知識(shí)。人腦中有數(shù)以以百億個(gè)神經(jīng)經(jīng)元,它們是是人腦處理信信息的微單元元。這些神經(jīng)經(jīng)元之間相互互連接,使得得大腦產(chǎn)生精精密的邏輯思思維。85人工神經(jīng)網(wǎng)絡(luò)絡(luò)神經(jīng)網(wǎng)絡(luò)是一一組相互連接接的輸入/輸出單元,其其中每個(gè)連接接都有一個(gè)權(quán)重。在“學(xué)習(xí)””階段,依據(jù)訓(xùn)練集數(shù)據(jù),,反復(fù)調(diào)整這些權(quán)重以減少總誤差差,使得它能更好地預(yù)預(yù)測(cè)。人們難以解釋釋這些權(quán)重的的含義。神經(jīng)元會(huì)接收收到來(lái)自多個(gè)個(gè)其他神經(jīng)元元的輸入,但但是輸出只有有一個(gè)。輸出取決于不同的的連接方式、、權(quán)重、激勵(lì)勵(lì)函數(shù)。86人工神經(jīng)網(wǎng)絡(luò)絡(luò)的缺點(diǎn)神經(jīng)網(wǎng)絡(luò)最主主要的缺點(diǎn)是是可解釋性差。它的結(jié)果不容容易以規(guī)則的的形式表達(dá)出出來(lái)。人們很難解釋權(quán)重的含義。它的工作方式式就像一個(gè)黑黑盒,像我們們的大腦一樣樣神秘。因此此,很多數(shù)據(jù)據(jù)分析師視其其為黑盒子,,只是在實(shí)在在無(wú)計(jì)可施的的時(shí)候才“放放手一搏”。87人工神經(jīng)網(wǎng)絡(luò)絡(luò)的缺點(diǎn)它可變參數(shù)太太多,幾乎可可以“記住””任何事情。。這使得它具有過(guò)度擬合(over-fitting)的傾向,可能導(dǎo)致模型用于于新數(shù)據(jù)時(shí)效效率顯著下降降。它容易變得““衰老”,即即隨著時(shí)間推推移對(duì)新數(shù)據(jù)據(jù)的分類(lèi)效果果不好。應(yīng)對(duì)策略是::如果訓(xùn)練集樣本量量不太大,那那么隱含層有有一個(gè)就夠了了,而且自變變量不要太多多;另一方面面,訓(xùn)練集樣樣本量要盡量量大,盡量采用新新數(shù)據(jù)訓(xùn)練,,并使用測(cè)試集進(jìn)行交叉驗(yàn)證。88人工神經(jīng)網(wǎng)絡(luò)絡(luò)的優(yōu)點(diǎn)雖說(shuō)神經(jīng)網(wǎng)絡(luò)絡(luò)可解釋性差差,但其結(jié)果果往往很正確確。它最大優(yōu)點(diǎn)是是能容忍含噪聲的數(shù)據(jù)。而且,它能有有效發(fā)現(xiàn)非線(xiàn)線(xiàn)性關(guān)系。89人工神經(jīng)網(wǎng)絡(luò)絡(luò)中的函數(shù)人工神經(jīng)網(wǎng)絡(luò)絡(luò)的處理單元元本質(zhì)上是人人工神經(jīng)元。。每個(gè)處理單單元接收到輸輸入,采用函數(shù)進(jìn)進(jìn)行處理后,進(jìn)行行輸出。輸入可以是原原始輸入數(shù)據(jù)據(jù),也可以是是其他處理單單元的輸出。。神經(jīng)元接收到到輸入后,先是采用求和和函數(shù),得到到輸入及其連連接權(quán)重的乘乘積的和;然后再用轉(zhuǎn)換換函數(shù),對(duì)求求和函數(shù)所得得的值進(jìn)行非非線(xiàn)性函數(shù)((經(jīng)常是S型函數(shù))運(yùn)算算,得到輸出出值。90人工神經(jīng)網(wǎng)絡(luò)絡(luò)中的函數(shù)如圖91人工神經(jīng)網(wǎng)絡(luò)絡(luò)的訓(xùn)練算法最常用的訓(xùn)練練算法:后向傳播,即反向傳播播(Backpropagation)。遵循一個(gè)迭代代過(guò)程:網(wǎng)絡(luò)絡(luò)輸出和理想想輸出之間的的差異被反饋饋到網(wǎng)絡(luò),用用以調(diào)整網(wǎng)絡(luò)權(quán)重,從而得到更接接近實(shí)際值的的輸出結(jié)果。92人工神經(jīng)網(wǎng)絡(luò)絡(luò)的常用訓(xùn)練練算法——后向傳播算法法93人工神經(jīng)網(wǎng)絡(luò)絡(luò)的結(jié)構(gòu)最常用的結(jié)構(gòu)構(gòu):前向型拓?fù)浣Y(jié)構(gòu)最常常用,它適合合進(jìn)行分類(lèi)。。具體包括多層感知器(Multi-LayeredPerceptron,MLP)和和徑向基基函數(shù)網(wǎng)絡(luò)((radialbasisfunctionnetwork,RBF)。MLP一般包括三層層:輸入層、隱藏層、輸出層。隱藏層可以有一個(gè)或多個(gè)個(gè)。RBF的拓?fù)浣Y(jié)構(gòu)同同樣是前向型型的,但是只只有一個(gè)隱藏藏層。MLP允許建立比較較復(fù)雜的關(guān)系系,但是訓(xùn)練練時(shí)間更長(zhǎng)。。RBF的訓(xùn)練時(shí)間較較短,但預(yù)測(cè)測(cè)能力差些。。94人工神經(jīng)網(wǎng)絡(luò)絡(luò)的常用結(jié)構(gòu)構(gòu)——多層感知器95人工神經(jīng)網(wǎng)絡(luò)絡(luò)的應(yīng)用由于它往往有有很好的性能能表現(xiàn),所以以應(yīng)用場(chǎng)景很很多。最典型型的有兩個(gè)領(lǐng)領(lǐng)域:金融:信用卡卡欺詐交易檢檢測(cè)、貸款風(fēng)風(fēng)險(xiǎn)評(píng)估、非結(jié)構(gòu)化數(shù)據(jù)的的挖掘:圖像像識(shí)別(例如如手寫(xiě)字符識(shí)識(shí)別)、語(yǔ)音音識(shí)別、文字字識(shí)別等。96深度學(xué)習(xí)深度學(xué)習(xí)的宗宗旨是增加人人工神經(jīng)網(wǎng)絡(luò)絡(luò)中隱層的層數(shù),也也就是深度,,所以被稱(chēng)為為深度學(xué)習(xí)。。以往很長(zhǎng)一段段時(shí)間內(nèi),由由于巨大的計(jì)算量量和優(yōu)化求解解難度,神經(jīng)網(wǎng)絡(luò)只能包含少許隱藏層,,從而限制了性性能。深度學(xué)習(xí)的熱潮自自2010年前后興起。隨著分布式式計(jì)算等技術(shù)術(shù)的發(fā)展,由由于計(jì)算能力力的提升,耗耗時(shí)數(shù)月的訓(xùn)練過(guò)程可縮縮短為數(shù)天甚至數(shù)數(shù)小時(shí),深度度學(xué)習(xí)才在實(shí)實(shí)踐中有了用用武之地。深度學(xué)習(xí)模仿仿人腦、基于于神經(jīng)網(wǎng)絡(luò)。。很適合理解解圖像,聲音和文本。97深度學(xué)習(xí)深度學(xué)習(xí)在大大數(shù)據(jù)量的條條件下優(yōu)勢(shì)明明顯。比如,谷歌識(shí)識(shí)別貓臉實(shí)驗(yàn)驗(yàn)中,輸入了從1000萬(wàn)個(gè)YouTube視頻中截取的的圖像,參數(shù)約為10億個(gè),神經(jīng)網(wǎng)絡(luò)絡(luò)的隱蔽層多多達(dá)7層。98深度學(xué)習(xí)基本原理理深度學(xué)習(xí)對(duì)特征空間按照照層次分層建模。它建立模型逐步學(xué)習(xí)習(xí),試圖確定定下來(lái)低層次次的分類(lèi)(如字母),然后再?lài)L試試學(xué)習(xí)更高級(jí)級(jí)別的分類(lèi)(如詞)。99基本原理谷歌識(shí)別貓臉臉的實(shí)驗(yàn)位于最后的輸輸出層的1個(gè)神經(jīng)元已經(jīng)經(jīng)可以自然地地識(shí)別出貓臉。當(dāng)然,可以識(shí)識(shí)別的并不只只是貓。人、、汽車(chē)和長(zhǎng)頸頸鹿等各種事事物都可以進(jìn)進(jìn)行識(shí)別。100深度學(xué)習(xí)在業(yè)界的的代表性應(yīng)用用Facebook:百度:微軟:101百度的深度識(shí)識(shí)別應(yīng)用——百度輕拍你有可能看到的一個(gè)美女猜她她是明星,你你想知道她是是誰(shuí)怎么辦?一張電影海報(bào)報(bào),不輸入文文字能找到打打折票嗎?看到一片蔥綠葉子,叫不出植物名

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論