大數(shù)據(jù)應(yīng)用基礎(chǔ)分類算法_第1頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類算法_第2頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類算法_第3頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類算法_第4頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)分類算法_第5頁
已閱讀5頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用基礎(chǔ)分類算法第1頁/共116頁大數(shù)據(jù)復(fù)習2第2頁/共116頁大數(shù)據(jù)的核心是什么大數(shù)據(jù)人才可以分為分析人才和架構(gòu)人才。其中,需求量最大的是分析人才。而分析的核心是數(shù)據(jù)挖掘。大數(shù)據(jù)目前的發(fā)展重點是怎么對非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘。物聯(lián)網(wǎng)、智能手機、可穿戴、智能硬件等技術(shù)設(shè)備將正在讓數(shù)據(jù)成幾何倍數(shù)增長。3第3頁/共116頁大數(shù)據(jù)的核心——非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)的分析相對比較成熟,比如Excel、關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫的OLAP在企業(yè)中已經(jīng)無人不知。對于非結(jié)構(gòu)化數(shù)據(jù),難點在于:數(shù)據(jù)收集與集成:設(shè)法通過各種設(shè)備收集數(shù)據(jù),并把各種數(shù)據(jù)來源集成起來。例如,圍繞一個人,怎樣能從公司內(nèi)部和外部的各種渠道,收集他多方面的數(shù)據(jù),把其中的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),然后把各種數(shù)據(jù)集成起來,從而用一個特征向量來表示他的特征。數(shù)據(jù)分析:怎樣分析這種高維度的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的維度是無止境的,比如百度能分析幾十億維的特征。4第4頁/共116頁大數(shù)據(jù)架構(gòu)技術(shù)的核心主要有兩種計算:離線分布式計算這種計算能處理海量數(shù)據(jù),并運行復(fù)雜的算法,其中包括數(shù)據(jù)挖掘算法、非結(jié)構(gòu)化數(shù)據(jù)特征的提?。ɡ缢阉饕嫠饕木幹疲?、推薦算法等。它能充分發(fā)揮分布式計算的優(yōu)點,但是完成所需計算的耗時可能是幾分鐘、幾小時或更長時間,因此有時還需要用在線計算加以補充。主要的開源技術(shù)是Hadoop。這也是最熱門的大數(shù)據(jù)架構(gòu)技術(shù)。很多算法都有其適合于在Hadoop平臺上進行分布式運行的版本。大數(shù)據(jù)分析人員應(yīng)能掌握常見算法的分布式版本。在線分布式計算可以把一些簡單的計算以極快的速度完成。例如,搜索引擎的反應(yīng)時間、廣告交易平臺的更新時間都在0.1秒以內(nèi)。相關(guān)開源技術(shù)有Storm、Kafka等。商用方案有IBM的流計算等。5第5頁/共116頁大數(shù)據(jù)架構(gòu)技術(shù)的核心此外,還有一種重要技術(shù),叫內(nèi)存計算。原理是:在內(nèi)存里計算比在硬盤里計算快得多。這種技術(shù)使用的前提就是內(nèi)存足夠大。商用方案有SAPHana等。它可以和分布式計算結(jié)合。例如,開源平臺Spark就采取這種思路。6第6頁/共116頁大數(shù)據(jù)技術(shù)中的算法大數(shù)據(jù)技術(shù)中的算法不只是數(shù)據(jù)挖掘。除了數(shù)據(jù)挖掘,典型的計算任務(wù)還有:搜索引擎中的文本特征提取,即相對詞頻計算推薦系統(tǒng)中的用戶間相似度計算、物品間相似度計算等不過,數(shù)據(jù)挖掘無疑是最重要的一大類算法。7第7頁/共116頁數(shù)據(jù)挖掘的概念辨析和統(tǒng)計相比,數(shù)據(jù)挖掘傾向于處理大規(guī)模數(shù)據(jù),并且其宗旨是減少人工操作。而統(tǒng)計往往有賴于分析人員手工操作。在統(tǒng)計之前,常常對變量間的關(guān)系做假設(shè);而數(shù)據(jù)挖掘的重點在于預(yù)測的結(jié)果,不一定追究預(yù)測的依據(jù)。數(shù)據(jù)挖掘和人工智能、機器學習的重合度非常高。不過,早先的人工智能側(cè)重于由人工設(shè)定規(guī)則,而當今越來越重視從數(shù)據(jù)中自動獲得知識、對于非結(jié)構(gòu)化數(shù)據(jù)的挖掘,通常需要把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的形式,然后再采用數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘不只是要重視算法,提高數(shù)據(jù)質(zhì)量、理解應(yīng)用領(lǐng)域也是不可或缺的。8第8頁/共116頁數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評估4信息收集31數(shù)據(jù)挖掘33知識表示359第9頁/共116頁數(shù)據(jù)挖掘算法分類有監(jiān)督學習:分類與回歸有標識。通過模仿做出正確分類的已有數(shù)據(jù),從而能夠?qū)π碌臄?shù)據(jù)做出比較準確的分類。這就像教小孩學習一樣。無監(jiān)督學習:聚類、關(guān)聯(lián)規(guī)則無標識聚類:針對客戶特征進行客戶群劃分。由此,我們可以對不同客戶群采取差異化的促銷方式。關(guān)聯(lián)規(guī)則:分析發(fā)現(xiàn)購買面包的顧客中有很大比例的人同時購買牛奶。由此,我們可以把面包和牛奶擺在同一個貨架上。此外,降維方法經(jīng)常服務(wù)于數(shù)據(jù)挖掘算法它把特征維度降低,從而使運算更快。10第10頁/共116頁數(shù)據(jù)挖掘算法分類此處觀看案例視頻11第11頁/共116頁高度重視以下同義詞以下術(shù)語大致是同一個意思:表格中的行:個案=實例=記錄=樣本點=數(shù)據(jù)點表格中的列:屬性=特征=字段=維度=預(yù)測變量=自變量12第12頁/共116頁數(shù)據(jù)準備的重要性沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果。數(shù)據(jù)準備工作占用的時間往往在60%以上!13第13頁/共116頁分類模型的評價模型算法質(zhì)量的評價是很重要的一部分。對分類模型和聚類模型的評價方法是不同的。對于分類模型,通常用一些指標來進行模型評價和選擇。通常采用的指標有:ROC曲線、Lift曲線。其本質(zhì)都是與預(yù)測的準確性有關(guān)的。分類模型評價的主要宗旨就是:減少誤判(假陽性)和漏判(假陰性)。我們可以對不同的分類算法,設(shè)置不同的參數(shù),進行反復(fù)比較,根據(jù)在多個效果指標(比如ROC曲線的AUC值、Lift曲線)上是否有穩(wěn)定的好的表現(xiàn),選擇一個最終落地應(yīng)用的模型。14第14頁/共116頁分類的步驟——數(shù)據(jù)集的劃分把過去的數(shù)據(jù)分成兩份,其中一份當做訓(xùn)練集,另一份當做測試集(用來模擬“未來的”數(shù)據(jù))。通常,我們會將大多數(shù)數(shù)據(jù)作為訓(xùn)練集(比如80%),而少數(shù)數(shù)據(jù)作為測試集。歷史數(shù)據(jù)中每行都要有輸入數(shù)據(jù)(輸入變量值)和輸出數(shù)據(jù)(目標變量值)。15第15頁/共116頁分類的步驟——模型的訓(xùn)練與使用首先采用訓(xùn)練集進行訓(xùn)練,目的是在已知目標值的情況下,找出輸入變量和目標值之間的關(guān)系,從而得到經(jīng)過訓(xùn)練的分類模型。我們用這個模型對測試集中的目標變量進行預(yù)測,然后把目標變量的真實值和預(yù)測值進行比較,看看預(yù)測精度如何。我們可以嘗試不同的分類算法,并對每個分類算法進行參數(shù)調(diào)節(jié),經(jīng)過反復(fù)比較后,可以選擇一種預(yù)測精度最高的分類算法及其參數(shù)組合。之后,就可以對新的真實數(shù)據(jù)進行分類了。16第16頁/共116頁分類的步驟17第17頁/共116頁復(fù)習到此結(jié)束復(fù)習到此結(jié)束?,F(xiàn)在翻到本幻燈片后面幾頁,在上一次課的進度基礎(chǔ)上繼續(xù)。18第18頁/共116頁分類算法的核心概念辨析19第19頁/共116頁按目標變量類型把監(jiān)督學習分為兩類監(jiān)督學習可分為兩類:回歸:針對數(shù)值型目標變量的監(jiān)督學習。回歸也可以稱作估計(estimation)分類:針對分類型目標變量的監(jiān)督學習。很多監(jiān)督學習算法既可以用于分類,也可以用于回歸:例如:支持向量機、人工神經(jīng)網(wǎng)絡(luò)、決策樹分類和回歸的原理是一致的。20第20頁/共116頁注意回歸這一概念的歧義以上所說的是廣義的回歸。狹義的回歸則是源于統(tǒng)計學的建模方法,根據(jù)目標變量類型的不同,可分為線性回歸、邏輯斯蒂回歸等。在監(jiān)督學習當中,在這些回歸模型里,以邏輯斯蒂回歸最為常用,其次是線性回歸。邏輯回歸是針對分類型目標變量的回歸模型。線性回歸是針對連續(xù)型目標變量的回歸模型。21第21頁/共116頁有監(jiān)督學習與預(yù)測的區(qū)別分類與回歸經(jīng)常被用于對未來進行預(yù)測,但它們并不總是用于對未來進行預(yù)測。比如,垃圾郵件識別和異常交易識別就不是預(yù)測;而貸款還款風險預(yù)估則算是預(yù)測。但兩者都采用有監(jiān)督學習。預(yù)測的方法不只有分類和回歸,但分類和回歸是最主要的預(yù)測方法?;跁r間序列的預(yù)測也是比較常用的預(yù)測方法。22第22頁/共116頁二分類和多分類除了二分類,很多分類算法也支持多分類。多分類的輸出可以是多個類別中的一個。多分類比二分類要稍微難一點?;舅悸肥牵簩⒍喾诸悊栴}轉(zhuǎn)化成一系列二分類問題,從而得以使用二分類模型。23第23頁/共116頁分類算法的典型應(yīng)用24第24頁/共116頁分類算法的應(yīng)用——銷售經(jīng)典應(yīng)用——響應(yīng)模型:例如預(yù)測顧客是否會響應(yīng)直接郵寄廣告(directmail,直郵)或促銷短信,即是否會成為客戶。我們通常會把以前的促銷活動的歷史消費數(shù)據(jù)作為訓(xùn)練集。25第25頁/共116頁分類算法的應(yīng)用——金融通過風險評估,銀行可以減少壞賬,增加收益。經(jīng)典應(yīng)用——貸款風險評估:銀行貸款部門預(yù)測借款人是否有可能拖欠,從而判斷是否應(yīng)接受貸款申請。我們把以往信用不良的客戶的數(shù)據(jù)作為訓(xùn)練集。經(jīng)典應(yīng)用——信用卡風險評估:判斷是否應(yīng)該批準某顧客的信用卡申請,即通過分析申請人的信用卡使用行為、社交媒體數(shù)據(jù)、電話使用數(shù)據(jù),對未來惡意透支的信用風險進行預(yù)測。在這個應(yīng)用中,用戶個人信息很豐富,所以數(shù)據(jù)維度很多,進而預(yù)測精準度比較高。26第26頁/共116頁分類算法的應(yīng)用——金融經(jīng)典應(yīng)用——欺詐檢測:主要有信用卡欺詐交易檢測、網(wǎng)上銀行交易欺詐、保險索賠的欺詐檢測。通過分析客戶基本特征和以往使用行為來檢測非法使用。這種監(jiān)控可以在線實時進行,也可以定期進行。客戶進行保險投訴時提供的理由的文本也是一種數(shù)據(jù)來源。正類(欺詐交易)遠不及負類(正常交易)頻繁。27第27頁/共116頁保險索賠的欺詐檢測28第28頁/共116頁分類算法的應(yīng)用——電信經(jīng)典應(yīng)用——電信運營商、銀行、保險公司等會員制公司的客戶流失分析:通過客戶消費數(shù)據(jù)、客戶致電呼叫中心的通話(例如打電話進行投訴或威脅要更換運營商)、微博上的帖子和在搜索引擎上的搜索記錄(比如關(guān)于“如何取消與中國電信的合約”),預(yù)測哪些客戶可能要離網(wǎng)或取消賬號。運營商可以對可能流失的顧客采取打折促銷等措施。29第29頁/共116頁分類算法的應(yīng)用——機電設(shè)備經(jīng)典應(yīng)用——故障預(yù)測:根據(jù)傳感器數(shù)據(jù),預(yù)測設(shè)備的哪個部位容易出故障。數(shù)據(jù)實時傳回制造商。對于大型設(shè)備,制造商會及時主動上門維修;對家用設(shè)備,制造商則通知用戶找人維修。例如:復(fù)印機、汽車、飛機、火車、軍車、游艇、鉆孔設(shè)備、發(fā)動機30第30頁/共116頁分類算法的應(yīng)用——溝通交流經(jīng)典應(yīng)用——垃圾郵件過濾:把郵件自動標記為垃圾郵件或正常郵件。31第31頁/共116頁分類算法的應(yīng)用從衛(wèi)星圖像檢測石油泄漏預(yù)測犯罪可能性癌癥診斷Web新聞分類手寫字符識別語音識別32第32頁/共116頁對分類算法的常見應(yīng)用的小結(jié)營銷:響應(yīng)模型金融:客戶風險評估、欺詐檢測電信:客戶流失預(yù)測設(shè)備制造:故障預(yù)測33第33頁/共116頁常見分類算法34第34頁/共116頁決策樹決策樹是最流行的分類方法。直觀上看,其過程是:從根部開始,層層分枝,最終生長出樹葉,也就是形成若干葉子結(jié)點。它的每次劃分都是基于最顯著的特征的。所分析的數(shù)據(jù)樣本被稱作樹根,算法從所有特征中選出一個最重要的(即最“具有信息”的,即使得所得到的兩個分支的差異最大的特征),用這個特征把樣本分割成若干子集。重復(fù)這個過程,直到所有分支下面的實例都是“純”的,即子集中各個實例都屬于同一個類別,這樣的分支即可確定為一個葉子節(jié)點。在所有子集都變成“純”的后,樹就停止生長了。35第35頁/共116頁決策樹隨著決策樹不斷向下延伸,就好比是用榨汁機不斷擠出“知識的果汁”。36第36頁/共116頁決策樹的剪枝如果決策樹建得過深,容易導(dǎo)致過度擬合問題。當每個分枝只對應(yīng)一個具體的實例(例如一個客戶),這個規(guī)則就完全失去了概括性。為了避免生成的樹對訓(xùn)練數(shù)據(jù)過度擬合,必須在樹生成之后,對樹進行剪枝處理,對節(jié)點進行刪減,控制樹的復(fù)雜度。剪枝對提高樹對新實例的預(yù)測準確性至關(guān)重要。剪枝通常采用自下而上的方式。每次找出訓(xùn)練數(shù)據(jù)中對預(yù)測精度貢獻最小的那個分支,剪掉它。37第37頁/共116頁決策樹的剪枝簡言之,先讓決策樹瘋狂生長,然后再慢慢往回收縮。整體上往回縮多少,要根據(jù)在測試集上的表現(xiàn)來反復(fù)嘗試。38第38頁/共116頁決策樹的用途分類樹:決策樹可以處理二分類、多分類問題。這時它也叫做分類樹。回歸樹:最早的決策樹僅用于分類型的目標值。它已經(jīng)擴展到可以用于數(shù)值型目標變量(比如預(yù)測每個人的月收入),這時它也叫回歸樹。不過,回歸樹的性能不如回歸分析和神經(jīng)網(wǎng)絡(luò)。所以,在估計數(shù)值型目標變量時,它很少作為首選算法。它除了用來分類,也常常用于幫其他算法篩選出一組好的輸入變量。所以,即使最終使用的模型是其他模型,分析的初期階段也經(jīng)常用決策樹。39第39頁/共116頁決策樹的優(yōu)缺點決策樹的最大優(yōu)點是它所產(chǎn)生的是一系列“如果…那么…”的判斷規(guī)則,非常直觀、通俗易懂,容易被業(yè)務(wù)人員理解,很多規(guī)則能直接拿來應(yīng)用。其輸出結(jié)果很容易可視化展示。它需要的數(shù)據(jù)預(yù)處理很少。它對數(shù)據(jù)分布沒有嚴格的要求、不容易受異常值影響、對缺失值很寬容。由于它沒使用數(shù)值型特征的實際值,而是對其進行離散化后再使用,所以它對異常值和偏態(tài)分布不敏感。缺失值對它根本不是問題。40第40頁/共116頁決策樹的例子

——是否去相親41第41頁/共116頁決策樹的例子——判斷性別決策樹的輸出結(jié)果有兩種:決策樹、規(guī)則集這是用規(guī)則集的形式展示的決策樹輸出結(jié)果42第42頁/共116頁決策樹例子——是否參加戰(zhàn)斗43第43頁/共116頁決策樹的其他例子根據(jù)各種用戶特征判斷該賬號是否真實根據(jù)各種天氣參數(shù)判斷是否適合打高爾夫44第44頁/共116頁邏輯回歸邏輯回歸是一種常用的分類方法。它非常成熟、應(yīng)用非常廣泛。它是回歸的一種?;貧w分析也是統(tǒng)計學中應(yīng)用最廣泛的一種分析工具?;貧w不只可以用于分類,也能用于發(fā)現(xiàn)變量間的因果關(guān)系。最主要的回歸模型有多元線性回歸(Linearregression)和邏輯回歸(Logisticregression)。前者適于連續(xù)的目標變量,后者適于類別型的目標變量(比如:是否購買)。有些時候,邏輯回歸不被當做典型的數(shù)據(jù)挖掘算法。45第45頁/共116頁邏輯回歸的步驟它用于監(jiān)督學習時的步驟是:先訓(xùn)練,目的是找到分類效果最佳的回歸系數(shù)。然后使用訓(xùn)練得到的一組回歸系數(shù),對輸入的數(shù)據(jù)進行計算,判定它們所屬的類別。基本上,就是把測試集上每個特征向量乘以訓(xùn)練得到的回歸系數(shù),再將這個乘積結(jié)果求和,最后輸入到Sigmoid函數(shù)中即可。如果對應(yīng)的Sigmoid值大于0.5就預(yù)測為類別1,否則為類別0。46第46頁/共116頁邏輯回歸模型的檢驗在用模型進行預(yù)測之前,我們希望模型中的輸入變量與目標變量之間的關(guān)系足夠強,為此主要做兩個診斷:對模型整體的檢驗——R2,即全部輸入變量能夠解釋目標變量變異性的百分之多少。

R2越大,說明模型擬合得越好。如果R2太小,則模型不可用于預(yù)測?;貧w系數(shù)的顯著性(p-value)。如果某個輸入變量對目標變量的作用的p-value小于0.05,則可以認為該輸入變量具有顯著作用。對不顯著的輸入變量可以考慮從模型中去掉。47第47頁/共116頁邏輯回歸模型的檢驗其實,在用于監(jiān)督學習時,它最重要的檢驗還是預(yù)測能力的檢驗。在這方面,所采用的檢驗方法和其他算法是一樣的:采用測試集進行交叉檢驗,并采用ROC曲線和Lift曲線。48第48頁/共116頁決策樹和邏輯回歸的比較決策樹由于采用分割的方法,所以能夠深入數(shù)據(jù)細部,但同時失去了對全局的把握。一個分枝一旦形成,它和別的分枝或節(jié)點的關(guān)系就被切斷了,以后的挖掘只能在局部中進行。有些有趣的模式是局部的,例如北京和上海的大學生的微信使用習慣差別可能很大。而邏輯回歸,始終著眼整個數(shù)據(jù)的擬合,所以對全局模式把握較好。決策樹比較容易上手,需要的數(shù)據(jù)預(yù)處理較少。邏輯回歸模型不能處理缺失值,而且對異常值敏感。因此,回歸之前應(yīng)該處理缺失值,并盡量刪除異常值。49第49頁/共116頁支持向量機該算法自問世以來就被認為是效果最好的分類算法之一。我們可以這樣理解SVM,我們希望找到一條直線能把兩類樣本完美的分開,盡量使樣本中從更高的維度看起來在一起的樣本合在一起。50第50頁/共116頁支持向量機的原理SVM考慮尋找一個滿足分類要求的超平面,并且使訓(xùn)練集中的點距離分類面盡可能的遠,也就是尋找一個最優(yōu)分類面使它兩側(cè)的空白區(qū)域(即分類間隔、margin)最大??梢钥吹絻蓚€支撐著中間的gap的超平面,它們到中間的separatinghyperplane的距離相等。而“支撐”這兩個超平面的必定會有一些點,而這些“支撐”的點便叫做支持向量(SupportVector)。51第51頁/共116頁52第52頁/共116頁支持向量機——選最大邊際的那個超平面53第53頁/共116頁支持向量機的一個特點少數(shù)幾個訓(xùn)練樣本點(支持向量)決定了最終結(jié)果。劃分不是依賴于所有樣本點。因此,增、刪“非支持向量”的樣本對模型沒有影響。計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。54第54頁/共116頁支持向量機的原理很多實際問題都不是線性模型。這種訓(xùn)練數(shù)據(jù)集是線性不可分的。55第55頁/共116頁支持向量機的原理解決線性不可分問題的基本思路——向高維空間轉(zhuǎn)化,使其變得線性可分。56第56頁/共116頁支持向量機的原理要想變得線性可分,就要用到核函數(shù)。SVM用核函數(shù)來避免高維運算。57第57頁/共116頁支持向量機的原理紅黑兩段線段在一維空間不可分;但在二維空間則變成可以用一條直線分開的了。58第58頁/共116頁支持向量機的優(yōu)缺點支持向量機經(jīng)常非常準確,尤其是在處理高維數(shù)據(jù)時。支持向量機經(jīng)常用于不需要人類直觀理解的應(yīng)用領(lǐng)域,因為人很難在高維空間中理解支持向量機產(chǎn)生的超平面。而且,它能處理那些分類界限不明確的數(shù)據(jù)。支持向量機只能用數(shù)值型屬性。因此,對于離散的屬性,需要轉(zhuǎn)換成數(shù)值型屬性。59第59頁/共116頁支持向量機的應(yīng)用由于它在解決小樣本、非線性和高維度的模式識別中的優(yōu)勢,所以在如下領(lǐng)域得到廣泛應(yīng)用:自然語言處理、圖像識別(例如面部識別)、語音識別。并且也能用于商業(yè)分析。還可用于蛋白質(zhì)結(jié)構(gòu)預(yù)測、生物信息學。60第60頁/共116頁支持向量機關(guān)鍵概念小結(jié)超平面:支持向量:核函數(shù):61第61頁/共116頁在SPSSModeler中使用SVM主要需要設(shè)置兩個參數(shù):Regularization參數(shù)。這個參數(shù)用于控制分類所得類別間最大邊際(Margin)和最小錯誤分類之間的平衡。增加該值會得到準確度高但可能過度擬合的模型。這是因為,如果分類間的間隙變小,雖然引起的被錯誤分類的實例會很少,但可能引入過度擬合的問題。這個值的設(shè)置往往需要不斷嘗試和比較。核函數(shù)類型。我們可能需要嘗試不同的核函數(shù),選出分類效果最好的一種。常用核函數(shù)有:徑向基、多項式等。62第62頁/共116頁KNN算法K最近鄰(K-NearestNeighbor,KNN)分類算法可以說是整個數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法。簡言之,它是找K個最近鄰居的方法。由這些鄰居投票決定新的數(shù)據(jù)屬于哪個類。KNN算法的核心思想是如果一個樣本在特征空間中的K個最相似的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。KNN在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。63第63頁/共116頁KNN算法的最大特點它跟其他分類算法不同:其他算法都是先根據(jù)預(yù)分類的訓(xùn)練集來訓(xùn)練模型,然后拋開訓(xùn)練集進行預(yù)測。而KNN的訓(xùn)練集就是模型本身。因此,選擇正確的訓(xùn)練集是KNN的最重要一步。它要求訓(xùn)練集中各個分類的數(shù)量要體現(xiàn)實際當中這些類別出現(xiàn)的概率。例如,在欺詐檢測中,我們不能因為類別不平衡,就對非欺詐實例做“欠抽樣”。64第64頁/共116頁在SPSSModeler中使用KNN算法主要有兩個參數(shù)需要設(shè)定:距離函數(shù)。鄰居的遠近是按照距離函數(shù)計算的。SPSS有兩種距離計算方式供選擇。鄰居的數(shù)量。KNN中的K字母的含義就是鄰居的數(shù)量。具體設(shè)置方式有兩種:設(shè)置一個固定的K值由算法根據(jù)驗證集來自動決定K值65第65頁/共116頁樸素貝葉斯分類樸素貝葉斯分類(Na?veBayesianModel)是基于貝葉斯條件概率定理的概率分類器。這個算法比較簡單。最大特點:該模型假設(shè)特征之間相互獨立、彼此不相關(guān)。這就是它“樸素”之處。這也是很多人對它最擔心之處。人們往往先入為主地認為,其根本性假設(shè)都不對,那么效果一定好不到哪里去。但事實是,它在很多應(yīng)用中表現(xiàn)很好。66第66頁/共116頁樸素貝葉斯分類的步驟然后用一個簡單的貝葉斯公式,對于某個特征,算出實例的后驗概率(也叫條件概率)。只需把各個特征的后驗概率相乘,就得到一個類的總概率。選擇具有最大后驗概率的類作為該實例所屬的類。67第67頁/共116頁樸素貝葉斯分類的原理樸素貝葉斯模型會通過郵件中的諸多垃圾郵件標志物來判斷郵件是否是垃圾郵件。這些標志物可能是詞匯(例如是否有貨幣符號),也可能是其他特征(例如是否群發(fā))。一封郵件需要多高的概率才值得貼上垃圾郵件的標簽?這取決于三個信息:68第68頁/共116頁Pr(垃圾郵件標志物|垃圾郵件)。垃圾郵件中包含這個標志物的概率,即這個標志物是否經(jīng)常出現(xiàn)在垃圾郵件中。如果這個標志物在垃圾郵件中出現(xiàn)并不頻繁,那么它顯然不是個好的標志物。Pr(垃圾郵件)。一封垃圾郵件出現(xiàn)的基本概率,即先驗概率。如果垃圾郵件經(jīng)常出現(xiàn),那么顯然我們正在考察的這封郵件也更有可能是垃圾郵件。Pr(垃圾郵件標志物)。即標志物出現(xiàn)的概率。如果標志物在很多郵件、甚至所有郵件中都出現(xiàn),那么它就不是個好的標志物。根據(jù)這三個信息,可以得到后驗概率:即在出現(xiàn)垃圾郵件標志物的前提下,郵件為垃圾郵件的可能性。69第69頁/共116頁具體公式70第70頁/共116頁具體公式71第71頁/共116頁為什么獨立性假設(shè)是可行的?只要正確類的后驗概率比其他類要高就可以得到正確的分類。所以即使概率估計不精確,都不影響正確做出分類。在數(shù)據(jù)預(yù)處理環(huán)節(jié),通常會進行變量選擇,把對于高度相關(guān)的變量只保留其中一個,剩下的變量之間就接近于相互獨立了。72第72頁/共116頁樸素貝葉斯學習的應(yīng)用在文本分類中被廣泛使用。最典型的應(yīng)用是垃圾郵件過濾其他還有自動語言識別等。它很適合于規(guī)模巨大的郵件數(shù)據(jù)集。73第73頁/共116頁貝葉斯網(wǎng)絡(luò)在上述樸素貝葉斯分類中,如果數(shù)據(jù)集中的變量相互之間不獨立,那么預(yù)測效果會很差。貝葉斯網(wǎng)絡(luò)則放寬了變量之間相互獨立這一假設(shè)。它對于解決變量之間有關(guān)聯(lián)性的問題很有優(yōu)勢。它把貝葉斯原理和圖論相結(jié)合。但是,在抑制了獨立性假設(shè)的同時,也容易增加計算難度。74第74頁/共116頁組合方法組合方法(Ensemblemethods)。常用術(shù)語:Boosting、AdaBoost、RandomForest(隨機森林)。組合分類器由多個成員分類器組合而成,大家“投票”決定分類結(jié)果。它把成員分類器叫做弱分類器。雖然每個弱分類器分類的不那么準確,但是如果把多個弱分類器組合起來可以得到相當不錯的結(jié)果。組合分類分類器往往比它的成員分類器更準確,而且分類結(jié)果更穩(wěn)定。此類方法類似于投資或投票,“不把雞蛋放在一個籃子”。75第75頁/共116頁組合方法的種類組合方法主要包括:bagging,randomforest,和boosting。袋裝(Bagging)的每個弱分類器的組合權(quán)重是相等。隨機森林(Randomforest)是建立在Bagging基礎(chǔ)上的一種方法。第一個實用的提升(Boosting)算法是AdaBoost。76第76頁/共116頁組合方法——提升算法在投票中,我們希望讓各選民的意見有一定的多樣性。77第77頁/共116頁組合方法——袋裝袋裝(Bagging)的每個弱分類器的組合權(quán)重是相等。這就類似于選舉中每張選票有相同的權(quán)重。而且,我們盡可能讓每個選民根據(jù)不同的信息來進行投票。具體表現(xiàn)為:將數(shù)據(jù)集中的數(shù)據(jù)進行多次抽樣,每次用抽樣出來的子數(shù)據(jù)集來訓(xùn)練單個弱分類器,最后對歷次訓(xùn)練出的各分類器的結(jié)果進行投票,得到最終結(jié)果。78第78頁/共116頁組合方法——隨機森林Randomforest(隨機森林):隨機森林是把Bagging與隨機屬性選擇結(jié)合起來的方法。這種組合分類器中的每個分類器都是一棵決策樹,因此分類器的集合就是一個“森林”。79第79頁/共116頁組合方法——隨機森林的步驟和Bagging類似之處在于,每個決策樹用的訓(xùn)練樣本都是從原始訓(xùn)練集中隨機抽取出來的。每個決策樹在每個節(jié)點都是用隨機選擇出來的一小部分屬性來決定如何分類。分類時,每棵樹都對每個實例投票,并返回得票最多的類。80第80頁/共116頁組合方法——隨機森林的優(yōu)點由于隨機森林在每次劃分時只考慮很少的屬性,所以每棵樹的生長很快。因此它在大數(shù)據(jù)集上非常有效。81第81頁/共116頁組合方法——提升算法在投票中,我們希望給意見很靠譜的選民的票較大權(quán)重。82第82頁/共116頁組合方法——提升算法Bagging只是將分類器進行簡單的組合。

Boosting則更復(fù)雜一些,它是一個迭代的算法。每個樣本都被賦予一個初始權(quán)重。每個分類器也被賦予一個初始權(quán)重。分類器的錯誤率越高,越不能器重它,它的權(quán)重就應(yīng)該低。每個分類器的權(quán)重代表其在上一輪迭代中的成功程度。同樣的道理,樣本也要區(qū)分對待。每一輪迭代都尤其關(guān)注上一輪被錯誤分類的實例,增加錯誤分類的實例的權(quán)重。最終分類結(jié)果是弱分類器的加權(quán)平均。83第83頁/共116頁組合方法的優(yōu)點多個模型組合所取得的結(jié)果往往要好于單個模型。組合模型看似復(fù)雜,卻能擺脫過度擬合的宿命。因此,可以放心地讓上百個模型集合在一起。84第84頁/共116頁人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)或神經(jīng)網(wǎng)絡(luò)(NN)。神經(jīng)網(wǎng)絡(luò)最早是由心理學家和神經(jīng)學家開創(chuàng)的。它可以在計算機上模擬人類大腦中的神經(jīng)連接。這種運作方式使之能夠從數(shù)據(jù)中概括和學習知識。人腦中有數(shù)以百億個神經(jīng)元,它們是人腦處理信息的微單元。這些神經(jīng)元之間相互連接,使得大腦產(chǎn)生精密的邏輯思維。85第85頁/共116頁人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一組相互連接的輸入/輸出單元,其中每個連接都有一個權(quán)重。在“學習”階段,依據(jù)訓(xùn)練集數(shù)據(jù),反復(fù)調(diào)整這些權(quán)重以減少總誤差,使得它能更好地預(yù)測。人們難以解釋這些權(quán)重的含義。神經(jīng)元會接收到來自多個其他神經(jīng)元的輸入,但是輸出只有一個。輸出取決于不同的連接方式、權(quán)重、激勵函數(shù)。86第86頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的缺點神經(jīng)網(wǎng)絡(luò)最主要的缺點是可解釋性差。它的結(jié)果不容易以規(guī)則的形式表達出來。人們很難解釋權(quán)重的含義。它的工作方式就像一個黑盒,像我們的大腦一樣神秘。因此,很多數(shù)據(jù)分析師視其為黑盒子,只是在實在無計可施的時候才“放手一搏”。87第87頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的缺點它可變參數(shù)太多,幾乎可以“記住”任何事情。這使得它具有過度擬合(over-fitting)的傾向,可能導(dǎo)致模型用于新數(shù)據(jù)時效率顯著下降。它容易變得“衰老”,即隨著時間推移對新數(shù)據(jù)的分類效果不好。應(yīng)對策略是:如果訓(xùn)練集樣本量不太大,那么隱含層有一個就夠了,而且自變量不要太多;另一方面,訓(xùn)練集樣本量要盡量大,盡量采用新數(shù)據(jù)訓(xùn)練,并使用測試集進行交叉驗證。88第88頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點雖說神經(jīng)網(wǎng)絡(luò)可解釋性差,但其結(jié)果往往很正確。它最大優(yōu)點是能容忍含噪聲的數(shù)據(jù)。而且,它能有效發(fā)現(xiàn)非線性關(guān)系。89第89頁/共116頁人工神經(jīng)網(wǎng)絡(luò)中的函數(shù)人工神經(jīng)網(wǎng)絡(luò)的處理單元本質(zhì)上是人工神經(jīng)元。每個處理單元接收到輸入,采用函數(shù)進行處理后,進行輸出。輸入可以是原始輸入數(shù)據(jù),也可以是其他處理單元的輸出。神經(jīng)元接收到輸入后,先是采用求和函數(shù),得到輸入及其連接權(quán)重的乘積的和;然后再用轉(zhuǎn)換函數(shù),對求和函數(shù)所得的值進行非線性函數(shù)(經(jīng)常是S型函數(shù))運算,得到輸出值。90第90頁/共116頁人工神經(jīng)網(wǎng)絡(luò)中的函數(shù)如圖91第91頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法最常用的訓(xùn)練算法:后向傳播,即反向傳播(Backpropagation)。遵循一個迭代過程:網(wǎng)絡(luò)輸出和理想輸出之間的差異被反饋到網(wǎng)絡(luò),用以調(diào)整網(wǎng)絡(luò)權(quán)重,從而得到更接近實際值的輸出結(jié)果。92第92頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的常用訓(xùn)練算法——后向傳播算法93第93頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最常用的結(jié)構(gòu):前向型拓撲結(jié)構(gòu)最常用,它適合進行分類。具體包括多層感知器(Multi-LayeredPerceptron,MLP)和和徑向基函數(shù)網(wǎng)絡(luò)(radialbasisfunctionnetwork,RBF)。MLP一般包括三層:輸入層、隱藏層、輸出層。隱藏層可以有一個或多個。RBF的拓撲結(jié)構(gòu)同樣是前向型的,但是只有一個隱藏層。MLP允許建立比較復(fù)雜的關(guān)系,但是訓(xùn)練時間更長。RBF的訓(xùn)練時間較短,但預(yù)測能力差些。94第94頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的常用結(jié)構(gòu)——多層感知器95第95頁/共116頁人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用由于它往往有很好的性能表現(xiàn),所以應(yīng)用場景很多。最典型的有兩個領(lǐng)域:金融:信用卡欺詐交易檢測、貸款風險評估、非結(jié)構(gòu)化數(shù)據(jù)的挖掘:圖像識別(例如手寫字符識別)、語音識別、文字識別等。96第96頁/共116頁深度學習深度學習的宗旨是增加人工神經(jīng)網(wǎng)絡(luò)中隱層的層數(shù),也就是深度,所以被稱為深度學習。以往很長一段時間內(nèi),由于巨大的計算量和優(yōu)化求解難度,神經(jīng)網(wǎng)絡(luò)只能包含少許隱藏層,從而限制了性能。深度學習的熱潮自2010年前后興起。隨著分布式計算等技術(shù)的發(fā)展,由于計算能力的提升,耗時數(shù)月的訓(xùn)練過程可縮短為數(shù)天甚至數(shù)小時,深度學習才在實踐中有了用武之地。深度學習模仿人腦、基于神經(jīng)網(wǎng)絡(luò)。很適合理解圖像,聲音和文本。97第97頁/共116頁深度學習深度學習在大數(shù)據(jù)量的條件下優(yōu)勢明顯。比如,谷歌識別貓臉實驗中,輸入了從1000萬個YouTube視頻中截取的圖像,參數(shù)約為10億個,神經(jīng)網(wǎng)絡(luò)的隱蔽層多達7層。98第98頁/共116頁深度學習基本原理深度學習對特征空間按照層次分層建模。它建立模型逐步學習,試圖確定下來低層次的分類(如字母),然后再嘗試學習更高級別的分類(如詞)。99第99頁/共116頁基本原理谷歌識別貓臉的實驗位于最后的輸出層的1個神經(jīng)元已經(jīng)可以自然地識別出貓臉。當然,可以識別的并不只是貓。人、汽車和長頸鹿等各種事物都可以進行識別。100第100頁/共116頁深度學習在業(yè)界的代表性應(yīng)用Facebook:百度:微軟:101第101頁/共116頁百度的深度識別應(yīng)用——百度輕拍你有可能看到的一個美女猜她是明星,你想知道她是誰怎么辦?一張電影海報,不輸入文字能找到打折票嗎?看到一片蔥綠葉子,叫不出植物名字怎么辦?102第102頁/共116頁如何在R和SPSS上使用神經(jīng)網(wǎng)絡(luò)算法103第103頁/共116頁先要做數(shù)據(jù)預(yù)處理不管是在R還是SPSS中,在建立神經(jīng)網(wǎng)絡(luò)模型之前,都要先進行數(shù)據(jù)標準化,即歸一化。由此,可以取消各維度之間在數(shù)量級上的差別,避免因為數(shù)量級差別較大而造成預(yù)測誤差較大。104第104頁/共116頁如何在R上使用神經(jīng)網(wǎng)絡(luò)算法首先,使用nnet軟件包中的nnet()函數(shù)來利用訓(xùn)練集數(shù)據(jù)建立模型。其中主要參數(shù)為:X:自變量Y:目標變量Size:隱藏層中的節(jié)點個數(shù)maxit:模型的最大迭代次數(shù)然后,再用predict()函數(shù)來利用模型,利用測試集數(shù)據(jù)進行預(yù)測。它會自動把每個實例歸入某個類別(例如購買vs不購買)。105第105頁/共116頁如何在R上使用神經(jīng)網(wǎng)絡(luò)算法然后,我們進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論