




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第9章大數(shù)據(jù)分析模型QQ:81505050楊武劍周蘇大數(shù)據(jù)分析與實踐——社會研究與數(shù)字治理下面是行業(yè)人士應(yīng)該知道的十大數(shù)據(jù)思維原理。(1)數(shù)據(jù)核心原理:從“流程”核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)”核心。這是因為計算模式發(fā)生了轉(zhuǎn)變。Hadoop體系的分布式計算框架是“數(shù)據(jù)”為核心的范式。非結(jié)構(gòu)化數(shù)據(jù)及分析需求將改變IT系統(tǒng)的升級方式:從簡單增量到架構(gòu)變化。例如:IBM使用以數(shù)據(jù)為中心的設(shè)計,目的是降低在超級計算機(jī)之間進(jìn)行大量數(shù)據(jù)交換的必要性。大數(shù)據(jù)背景下,云計算破繭重生,在存儲和計算上都體現(xiàn)了以數(shù)據(jù)為核心的理念。大數(shù)據(jù)可以有效地利用已大量建設(shè)的云計算資源。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理科學(xué)進(jìn)步越來越多地由數(shù)據(jù)來推動。大數(shù)據(jù)往往利用眾多技術(shù)和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應(yīng)對大數(shù)據(jù)帶來的挑戰(zhàn),需要新的統(tǒng)計思路和計算方法。說明:用以數(shù)據(jù)為核心的思維方式思考問題,解決問題,反映了當(dāng)下IT產(chǎn)業(yè)的變革,數(shù)據(jù)成為人工智能的基礎(chǔ)。數(shù)據(jù)比流程更重要,數(shù)據(jù)庫可以開發(fā)出深層次信息。云計算機(jī)可以從數(shù)據(jù)庫、記錄數(shù)據(jù)庫中搜索出你是誰,你需要什么,從而推薦給你所需要的信息。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(2)數(shù)據(jù)價值原理:由功能是價值轉(zhuǎn)變?yōu)閿?shù)據(jù)是價值。大數(shù)據(jù)的真正價值在于創(chuàng)造,在于填補(bǔ)無數(shù)個還未實現(xiàn)過的空白。大數(shù)據(jù)并不在“大”,而在于“有用”,價值含量、挖掘成本比數(shù)量更為重要。不管大數(shù)據(jù)的核心價值是不是預(yù)測,基于大數(shù)據(jù)所形成的決策模式已經(jīng)為不少企業(yè)帶來了盈利和聲譽。數(shù)據(jù)能告訴我們每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進(jìn)行分類或聚合。大數(shù)據(jù)是數(shù)據(jù)數(shù)量上的增加,以至于我們能夠?qū)崿F(xiàn)從量變到質(zhì)變的過程。舉例來說,這里有一張照片,照片里的人在騎馬,這張照片每一分鐘,每一秒都要拍一張,但隨著處理速度越來越快,從1分鐘一張到1秒鐘1張,突然到1秒鐘10張,數(shù)量的增長實現(xiàn)質(zhì)變時,就產(chǎn)生了電影。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用數(shù)據(jù)價值思維方式思考問題,解決問題。信息總量的變化導(dǎo)致了信息形態(tài)的變化。如今“大數(shù)據(jù)”這個概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。從功能為價值轉(zhuǎn)變?yōu)閿?shù)據(jù)為價值,說明數(shù)據(jù)和大數(shù)據(jù)的價值在擴(kuò)大,“數(shù)據(jù)為王”的時代出現(xiàn)了。數(shù)據(jù)被解釋為信息,信息常識化是知識,所以說數(shù)據(jù)解釋、數(shù)據(jù)分析能產(chǎn)生價值。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(3)全樣本原理:從抽樣轉(zhuǎn)變?yōu)椴捎萌珨?shù)據(jù)作為樣本。如果數(shù)據(jù)足夠多,它會讓人能夠看得見、摸得著規(guī)律。例如在大數(shù)據(jù)時代,無論是商家還是信息的搜集者,會比我們自己更知道我們想干什么。如果數(shù)據(jù)被真正挖掘出來的話,通過信用卡消費的記錄,可以成功預(yù)測未來5年內(nèi)的情況。說明:用全數(shù)據(jù)樣本思維方式思考問題,解決問題。從抽樣中得到的結(jié)論總是有水分的,,大數(shù)據(jù)越大,真實性也就越大,因為大數(shù)據(jù)包含了全部的信息。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(4)關(guān)注效率原理:由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率。大數(shù)據(jù)標(biāo)志著人類在尋求量化和認(rèn)識世界的道路上前進(jìn)了一大步,過去不可計量、存儲、分析和共享的很多東西都被數(shù)據(jù)化了,擁有大量的數(shù)據(jù)和更多不那么精確的數(shù)據(jù)為我們理解世界打開了一扇新的大門。大數(shù)據(jù)能提高生產(chǎn)效率和銷售效率,其原因是它能夠讓我們知道市場的需要,人的消費需要。大數(shù)據(jù)讓企業(yè)的決策更科學(xué),由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率的提高,大數(shù)據(jù)分析能提高企業(yè)的效率。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理競爭是企業(yè)的動力,而效率是企業(yè)的生命。一般來講,投入與產(chǎn)出比是效率,追求高效率也就是追求高價值。手工、機(jī)器、自動機(jī)器、智能機(jī)器之間效率是不同的,智能機(jī)器效率更高,已能代替人的思維勞動。智能機(jī)器核心是大數(shù)據(jù)驅(qū)動,而大數(shù)據(jù)驅(qū)動的速度更快。在快速變化的市場,快速預(yù)測、快速決策、快速創(chuàng)新、快速定制、快速生產(chǎn)、快速上市成為企業(yè)行動的準(zhǔn)則,也就是說,速度就是價值,效率就是價值,而這一切離不開大數(shù)據(jù)思維。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用關(guān)注效率思維方式思考問題,解決問題。大數(shù)據(jù)思維有點像混沌思維,確定與不確定交織在一起,過去那種一元思維結(jié)果已被二元思維結(jié)果取代。過去尋求精確度,現(xiàn)在尋求高效率;過去尋求因果性,現(xiàn)在尋求相關(guān)性;過去尋求確定性,現(xiàn)在尋求概率性,對不精確的數(shù)據(jù)結(jié)果已能容忍。只要大數(shù)據(jù)分析指出可能性,就會有相應(yīng)的結(jié)果,從而為企業(yè)快速決策、快速動作、搶占先機(jī)提高了效率。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(5)關(guān)注相關(guān)性原理:由因果關(guān)系轉(zhuǎn)變?yōu)殛P(guān)注相關(guān)性。社會需要放棄它對因果關(guān)系的渴求,轉(zhuǎn)而關(guān)注相關(guān)關(guān)系,也就是說只需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而人們做決定和理解現(xiàn)實的最基本方式也將受到挑戰(zhàn)。圖9-1數(shù)據(jù)的相關(guān)性第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理大數(shù)據(jù)不需要科學(xué)的手段來證明這個事件和那個事件之間有一個必然,先后關(guān)聯(lián)發(fā)生的一個因果規(guī)律。它只需要知道出現(xiàn)這種跡象的時候,數(shù)據(jù)統(tǒng)計的結(jié)果顯示它會有高概率產(chǎn)生相應(yīng)的結(jié)果,只要發(fā)現(xiàn)這種跡象,就可以去做一個決策。大數(shù)據(jù)透露出來的信息有時確實會顛覆人的現(xiàn)有認(rèn)知。比如,騰訊一項針對社交網(wǎng)絡(luò)的統(tǒng)計顯示,愛看家庭劇的男人是女性的兩倍還多;最關(guān)心金價的是中國大媽,但緊隨其后的卻是90后。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用關(guān)注相關(guān)性思維方式來思考問題,解決問題。過去尋找原因的信念正在被“更好”的相關(guān)性所取代。當(dāng)世界由探求因果關(guān)系變成挖掘相關(guān)關(guān)系,我們怎樣才能既不損壞社會繁榮和人類進(jìn)步所依賴的因果推理基石,又能取得實際進(jìn)步呢?這是值得思考的問題。轉(zhuǎn)向相關(guān)性,不是不要因果關(guān)系,因果關(guān)系還是基礎(chǔ),科學(xué)的基石還是要的。只是在高速信息化的時代,為了得到即時信息,實時預(yù)測,在快速的大數(shù)據(jù)分析技術(shù)下,尋找到相關(guān)性信息,就可預(yù)測用戶的行為,為企業(yè)快速決策提供提前量。比如預(yù)警技術(shù),只有提前幾十秒察覺,防御系統(tǒng)才能起作用。雷達(dá)顯示有個提前量,如果沒有這個預(yù)知的提前量,雷達(dá)的作用就沒有了。相關(guān)性也是這個原理。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(6)預(yù)測原理:從不能預(yù)測轉(zhuǎn)變?yōu)榭梢灶A(yù)測。大數(shù)據(jù)的核心就是預(yù)測,這個預(yù)測性體現(xiàn)在很多方面。大數(shù)據(jù)把數(shù)學(xué)算法運用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性,因為在大數(shù)據(jù)規(guī)律面前,每個人的行為都跟別人一樣,沒有本質(zhì)變化。我們進(jìn)入了一個用數(shù)據(jù)進(jìn)行預(yù)測的時代,雖然可能無法解釋其背后的原因。隨著系統(tǒng)接收到的數(shù)據(jù)越來越多,通過記錄找到的最好的預(yù)測與模式,可以對系統(tǒng)進(jìn)行改進(jìn)。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機(jī)器學(xué)習(xí)。真正的革命并不在于分析數(shù)據(jù)的機(jī)器,而在于數(shù)據(jù)本身和我們?nèi)绾芜\用數(shù)據(jù)。一旦把統(tǒng)計學(xué)和現(xiàn)在大規(guī)模的數(shù)據(jù)融合在一起,將會顛覆很多我們原來的思維。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用大數(shù)據(jù)預(yù)測思維方式來思考問題,解決問題。數(shù)據(jù)預(yù)測、數(shù)據(jù)記錄預(yù)測、數(shù)據(jù)統(tǒng)計預(yù)測、數(shù)據(jù)模型預(yù)測,數(shù)據(jù)分析預(yù)測、數(shù)據(jù)模式預(yù)測、數(shù)據(jù)深層次信息預(yù)測等等,已轉(zhuǎn)變?yōu)榇髷?shù)據(jù)預(yù)測、大數(shù)據(jù)記錄預(yù)測、大數(shù)據(jù)統(tǒng)計預(yù)測、大數(shù)據(jù)模型預(yù)測,大數(shù)據(jù)分析預(yù)測、大數(shù)據(jù)模式預(yù)測、大數(shù)據(jù)深層次信息預(yù)測?;ヂ?lián)網(wǎng)、移動互聯(lián)網(wǎng)和云計算保證了大數(shù)據(jù)實時預(yù)測的可能性,也為企業(yè)和用戶提供了實時預(yù)測的信息,相關(guān)性預(yù)測的信息,讓企業(yè)和用戶搶占先機(jī)。由于大數(shù)據(jù)的全樣本性,使云計算軟件預(yù)測的效率和準(zhǔn)確性大大提高,有這種跡象,就有這種結(jié)果。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(7)信息找人原理:從人找信息,轉(zhuǎn)變?yōu)樾畔⒄胰恕;ヂ?lián)網(wǎng)和大數(shù)據(jù)的發(fā)展,是一個從人找信息,到信息找人的過程?;ヂ?lián)網(wǎng)提供搜索引擎技術(shù),讓人們知道如何找到自己所需要的信息,所以搜索引擎是一個很關(guān)鍵的技術(shù)。在后搜索引擎時代,使用搜索引擎的頻率會大大降低,使用的時長也會大大地縮短,這是因為推薦引擎的誕生。就是說從人找信息到信息找人越來越成為一個趨勢,推薦引擎很懂“我”。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理大數(shù)據(jù)還改變了信息優(yōu)勢。按照循證醫(yī)學(xué),現(xiàn)在治病的第一件事情不是去研究病理學(xué),而是拿過去的數(shù)據(jù)去研究,相同情況下是如何治療的。這導(dǎo)致專家和普通人之間的信息優(yōu)勢沒有了。原來我相信醫(yī)生,因為醫(yī)生知道得多,但現(xiàn)在我可以到谷歌上查,知道自己得了什么病。說明:用信息找人的思維方式思考問題,解決問題。從人找信息到信息找人,是交互時代一個轉(zhuǎn)變,也是智能時代的要求。智能機(jī)器已不是冷冰冰的機(jī)器,而是具有一定智能的機(jī)器。信息找人這四個字,預(yù)示著大數(shù)據(jù)時代可以讓信息找人,原因是企業(yè)懂用戶,機(jī)器懂用戶,你需要什么信息,企業(yè)和機(jī)器提前知道,而且主動提供你所需要的信息。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(8)機(jī)器懂人原理:由人懂機(jī)器轉(zhuǎn)變?yōu)闄C(jī)器更懂人。讓機(jī)器更懂人,或者說是能夠在使用者很笨的情況下,仍然可以使用機(jī)器。甚至不是讓人懂環(huán)境,而是讓環(huán)境來適應(yīng)人。某種程度上自然環(huán)境不能這樣講,但是在數(shù)字化環(huán)境中已經(jīng)是這樣的一個趨勢,就是我們所生活的世界越來越趨向于更適應(yīng)我們,更懂我們。例如圖書網(wǎng)站的相關(guān)書籍推薦就是這樣。讓機(jī)器懂人是讓機(jī)器具有學(xué)習(xí)的功能。人工智能在研究機(jī)器學(xué)習(xí),大數(shù)據(jù)分析要求機(jī)器更智能,具有分析能力,機(jī)器即時學(xué)習(xí)變得更重要。機(jī)器學(xué)習(xí)主要研究如何使用計算機(jī)模擬和實現(xiàn)人類獲取知識(學(xué)習(xí))過程、創(chuàng)新、重構(gòu)已有的知識,從而提升自身處理問題的能力,機(jī)器學(xué)習(xí)的最終目的是從數(shù)據(jù)中獲取知識。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理大數(shù)據(jù)技術(shù)的其中一個核心目標(biāo)是要從體量巨大、結(jié)構(gòu)繁多的數(shù)據(jù)中挖掘出隱蔽在背后的規(guī)律,從而使數(shù)據(jù)發(fā)揮最大化的價值。由計算機(jī)代替人去挖掘信息,獲取知識。從各種各樣的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))中快速獲取有價值信息的能力,就是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)機(jī)器分析中,半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)、概率模型等技術(shù)尤為重要。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用機(jī)器更懂人的思維方式思考問題,解決問題。機(jī)器從沒有常識到逐步有點常識,這是很大的變化。讓機(jī)器懂人是人工智能的成功,同時也是人的大數(shù)據(jù)思維轉(zhuǎn)變。你的機(jī)器、你的軟件、你的服務(wù)是否更懂人?這將是衡量一個機(jī)器、一組軟件、一項服務(wù)好壞的標(biāo)準(zhǔn)。人機(jī)關(guān)系已發(fā)生很大變化,由人機(jī)分離,轉(zhuǎn)化為人機(jī)溝通,人機(jī)互補(bǔ),機(jī)器懂人。在互聯(lián)網(wǎng)大數(shù)據(jù)時代有問題問機(jī)器,問百度,成為生活的一部分。機(jī)器什么都知道,原因是有大數(shù)據(jù)庫,機(jī)器可搜索到相關(guān)數(shù)據(jù),從而使機(jī)器懂人。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(9)智能電商原理:大數(shù)據(jù)改變了電子商務(wù)模式,讓電子商務(wù)更智能。商務(wù)智能在大數(shù)據(jù)時代獲得了重新定義。例如:交友網(wǎng)站根據(jù)個人的性格與之前成功配對的情侶之間的關(guān)聯(lián)來進(jìn)行新的配對。在不久的將來,世界許多現(xiàn)在單純依靠人類判斷力的領(lǐng)域都會被計算機(jī)系統(tǒng)所改變甚至取代。計算機(jī)系統(tǒng)可以發(fā)揮作用的領(lǐng)域遠(yuǎn)遠(yuǎn)不止駕駛和交友,還有更多更復(fù)雜的任務(wù)。當(dāng)然,同樣的技術(shù)也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。就像互聯(lián)網(wǎng)通過給計算機(jī)添加通信功能而改變了世界,大數(shù)據(jù)也將改變我們生活中最重要的方面,因為它為我們的生活創(chuàng)造了前所未有的可量化的維度。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用電子商務(wù)更智能的思維方式思考問題,解決問題。人腦思維與機(jī)器思維有很大差別,但機(jī)器思維在速度上是取勝的,而且智能軟件在很多領(lǐng)域已能代替人腦思維的操作工作。例如云計算機(jī)已能處理超字節(jié)的大數(shù)據(jù)量,人們需要的所有信息都可得到顯現(xiàn),而且每個人互聯(lián)網(wǎng)行為都可記錄,這些記錄的大數(shù)據(jù)經(jīng)過云計算處理能產(chǎn)生深層次信息,經(jīng)過大數(shù)據(jù)軟件挖掘,企業(yè)需要的商務(wù)信息都能實時提供,為企業(yè)決策和營銷、定制產(chǎn)品等提供了大數(shù)據(jù)支持。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理(10)定制產(chǎn)品原理:由企業(yè)生產(chǎn)產(chǎn)品轉(zhuǎn)變?yōu)橛煽蛻舳ㄖ飘a(chǎn)品。大規(guī)模定制是指為大量客戶定制產(chǎn)品和服務(wù),成本低又兼具個性化。在廠家可以負(fù)擔(dān)得起大規(guī)模定制帶去的高成本的前提下,要真正做到個性化產(chǎn)品和服務(wù),就必須對客戶需求有很好的了解,這背后就需要依靠大數(shù)據(jù)技術(shù)。大數(shù)據(jù)改變企業(yè)競爭力,定制產(chǎn)品是其中一個很好的技術(shù)。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理說明:用定制產(chǎn)品思維方式思考問題,解決問題。大數(shù)據(jù)時代讓企業(yè)找到了定制產(chǎn)品、訂單生產(chǎn)、用戶銷售的新路子。用戶在家購買商品已成為趨勢,快遞的快速,讓用戶體驗到實時購物的快感,進(jìn)而成為網(wǎng)購迷,個人消費不是減少了,反而是增加了。為什么企業(yè)要互聯(lián)網(wǎng)化大數(shù)據(jù)化,也許有這個原因。2000萬家互聯(lián)網(wǎng)網(wǎng)店的出現(xiàn),說明數(shù)據(jù)廣告、數(shù)據(jù)傳媒的重要性。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理企業(yè)產(chǎn)品直接銷售給用戶,省去了中間商流通環(huán)節(jié),使產(chǎn)品的價格可以以出廠價銷售,讓消費者獲得了好處,網(wǎng)上產(chǎn)品便宜成為用戶的信念,網(wǎng)購市場形成了。要讓用戶成為你的產(chǎn)品粉絲,就必須了解用戶需要,定制產(chǎn)品成為用戶的心愿,也就成為企業(yè)發(fā)展的新方向。大數(shù)據(jù)思維是客觀存在的,是新的思維觀。用大數(shù)據(jù)思維方式思考問題,解決問題是當(dāng)下企業(yè)潮流。大數(shù)據(jù)思維開啟了一次重大的時代轉(zhuǎn)型。第9章導(dǎo)讀案例行業(yè)人士必知的十大數(shù)據(jù)思維原理目錄什么是分析模型回歸分析模型關(guān)聯(lián)分析模型分類分析模型12345聚類分析模型6結(jié)構(gòu)分析模型7文本分析模型什么是分析模型PART019.19.1什么是分析模型客觀事物或現(xiàn)象是一個多因素的綜合體,而模型就是對被研究對象(客觀事物或現(xiàn)象)的一種抽象,分析模型是對客觀事物或現(xiàn)象的一種描述??陀^事物或現(xiàn)象的各因素之間存在著相互依賴又相互制約的關(guān)系,通常是復(fù)雜的非線性關(guān)系。為了分析相互作用機(jī)制,揭示內(nèi)部規(guī)律,可根據(jù)理論推導(dǎo),或?qū)τ^測數(shù)據(jù)的分析,或依據(jù)實踐經(jīng)驗,設(shè)計一種模型來代表所研究的對象。模型反映對象最本質(zhì)的東西,略去了枝節(jié),是被研究對象實質(zhì)性的描述和某種程度的簡化,其目的在便于分析研究。模型可以是數(shù)學(xué)模型或物理模型。前者不受空間和時間尺度的限制,可進(jìn)行壓縮或延伸,利用計算機(jī)進(jìn)行模擬研究,因而得到廣泛應(yīng)用;后者根據(jù)相似理論來建立模型。借助模型進(jìn)行分析是一種有效的科學(xué)方法。回歸分析模型PART029.29.2回歸分析模型回歸分析是靈活常用的統(tǒng)計分析方法之一,它旨在探尋在一個數(shù)據(jù)集內(nèi),根據(jù)實際問題考察其中一個或多個變量(因變量)與其余變量(自變量)的依賴關(guān)系。特別適用于定量地描述和解釋變量之間相互關(guān)系,或者估測、預(yù)測因變量的值。例如,回歸分析可以用于發(fā)現(xiàn)個人收入和性別、年齡、受教育程度、工作年限的關(guān)系,基于數(shù)據(jù)庫中現(xiàn)有的個人收入、性別、年齡、受教育程度和工作年限構(gòu)造回歸模型,在該模型中輸入性別、年齡、受教育程度和工作年限來預(yù)測個人收入。
圖9-3簡單線性回歸模型9.2回歸分析模型又例如,回歸性分析可以幫助確定溫度(自變量)和作物產(chǎn)量(因變量)之間存在的關(guān)系類型。利用此項技術(shù)幫助確定自變量變化時,因變量的值如何變化。例如當(dāng)自變量增加因變量是否會增加?如果是,增加是線性還是非線性的?例如,為了決定冰激凌店要準(zhǔn)備的庫存數(shù)量,分析師通過插入溫度值來進(jìn)行回歸性分析。將基于天氣預(yù)報的值作為自變量,將冰激凌出售量作為因變量。分析師發(fā)現(xiàn)溫度每上升5度,就需要增加15%的庫存。9.2回歸分析模型如圖9-4所示,線性回歸表示一個恒定的變化速率。而非線性回歸表示一個可變的變化速率(見圖9-5)。
圖9-4線性回歸圖9-5非線性回歸9.2回歸分析模型其中,回歸性分析適用的問題例如:·一個離海250英里的城市的溫度會是怎樣的?·基于小學(xué)成績,一個學(xué)生的高中成績會是怎樣的?·基于食物的攝入量,一個人肥胖的概率是怎樣的?如果只需考察一個變量與其余多個變量之間的相互依賴關(guān)系,稱為多元回歸問題。若要同時考察多個因變量與多個自變量之間的相互依賴關(guān)系,稱為多因變量的多元回歸問題。關(guān)聯(lián)分析模型PART039.39.3關(guān)聯(lián)分析模型關(guān)聯(lián)分析是指一組識別哪些事件趨向于一起發(fā)生的技術(shù)。當(dāng)應(yīng)用到零售市場購物籃分析時,關(guān)聯(lián)學(xué)習(xí)會告訴你是否會有一種不尋常的高概率事件,其中消費者會在同一次購物之旅中一起購買某些商品(這方面的一個著名案例就是有關(guān)啤酒和尿布的故事)。關(guān)聯(lián)分析需要單品層級的數(shù)據(jù)。單品就是商品,任何商品在單獨提及的時候都可以稱作單品,指的是包含特定自然屬性與社會屬性的商品種類。對于零售交易的數(shù)據(jù)量,意味著需要在數(shù)據(jù)管理平臺上運行的可擴(kuò)展性的算法。在某些情況下,分析師可以使用集群抽象法(抽取部分客戶或購物行程及所有相關(guān)單品交易作為樣品)。一些有趣和有用的關(guān)聯(lián)可能是罕見的,并非常容易被忽略,除非進(jìn)行全數(shù)據(jù)集分析。9.3關(guān)聯(lián)分析模型關(guān)聯(lián)分析模型用于描述多個變量之間的關(guān)聯(lián),這是大數(shù)據(jù)分析的一種重要模型。如果兩個或多個變量之間存在一定的關(guān)聯(lián),那么其中一個變量的狀態(tài)就能通過其他變量進(jìn)行預(yù)測。關(guān)聯(lián)分析的輸入是數(shù)據(jù)集合,輸出是數(shù)據(jù)集合中全部或者某些元素之間的關(guān)聯(lián)關(guān)系。例如,房屋的位置和房價之間的關(guān)聯(lián)關(guān)系,或者氣溫和空調(diào)銷量之間的關(guān)系。圖9-6關(guān)聯(lián)分析模型示例9.3.2相關(guān)分析9.3.1關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)分析是指一組識別哪些事件趨向于一起發(fā)生的技術(shù)。9.3關(guān)聯(lián)分析模型9.3.1
關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則分析又稱關(guān)聯(lián)挖掘,是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)?;蛘哒f,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系。先驗算法是用于關(guān)聯(lián)分析的經(jīng)典算法之一,其設(shè)計目的是為了處理包含交易信息內(nèi)容的數(shù)據(jù)庫(如顧客購買的商品清單,或者網(wǎng)頁常訪清單),而其他的算法則是設(shè)計用來尋找無交易信息或無時間標(biāo)記(如DNA測序)的數(shù)據(jù)之間的聯(lián)系規(guī)則。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián),并以規(guī)則的形式表達(dá)出來,這就是關(guān)聯(lián)規(guī)則。9.3.1
關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則分析用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)規(guī)則分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計、商品促銷、商品的排放和基于購買模式的顧客劃分。9.3.2
相關(guān)分析相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別表示一個人的身高和體重,或分別表示每畝地的施肥量與每畝地的小麥產(chǎn)量,則X與Y顯然有關(guān)系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關(guān)關(guān)系。相關(guān)性分析是對總體中確實具有聯(lián)系的指標(biāo)進(jìn)行分析,它描述客觀事物相互間關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)計指標(biāo)表示出來的過程。例如,變量B無論何時增長,變量A都會增長,更進(jìn)一步,我們也想分析變量A增長與變量B增長的相關(guān)程度。利用相關(guān)性分析可以幫助形成對數(shù)據(jù)集的理解,發(fā)現(xiàn)可以幫助解釋某個現(xiàn)象的關(guān)聯(lián)。因此相關(guān)性分析常被用來做數(shù)據(jù)挖掘,也就是識別數(shù)據(jù)集中變量之間的關(guān)系來發(fā)現(xiàn)模式和異常,揭示數(shù)據(jù)集的本質(zhì)或現(xiàn)象的原因。9.3.2
相關(guān)分析當(dāng)兩個變量被認(rèn)為相關(guān)時,基于線性關(guān)系它們保持一致,意味著當(dāng)一個變量改變另一個變量也會恒定地成比例地改變。相關(guān)性用一個-1到+1之間的十進(jìn)制數(shù)來表示,它也被叫作相關(guān)系數(shù)。當(dāng)數(shù)字從-1到0或從+1到0改變時,關(guān)系程度由強(qiáng)變?nèi)酢D9-8描述了+1相關(guān)性,表明兩個變量之間呈正相關(guān)關(guān)系。
圖9-8當(dāng)一個變量增大,另一個也增大,反之亦然9.3.2
相關(guān)分析圖9-9描述了0相關(guān)性,表明兩個變量之間沒有關(guān)系。圖9-9當(dāng)一個變量增大,另一個保持不變或者無規(guī)律地增大或者減少9.3.2
相關(guān)分析圖9-10描述了-1相關(guān)性,表明兩個變量之間呈負(fù)相關(guān)關(guān)系。圖9-10當(dāng)一個變量增大,另一個減小,反之亦然9.3.2
相關(guān)分析相關(guān)性分析適用的問題例如可以是:·離大海的距離遠(yuǎn)近會影響一個城市的溫度高低嗎?·在小學(xué)表現(xiàn)好的學(xué)生在高中也會同樣表現(xiàn)很好嗎?·肥胖癥和過度飲食有怎樣的關(guān)聯(lián)?9.3.2
相關(guān)分析典型相關(guān)分析是研究兩組變量之間相關(guān)關(guān)系(相關(guān)程度)的一種多元統(tǒng)計分析方法。為了研究兩組變量之間的相關(guān)關(guān)系,采用類似于主成分分析的方法,在兩組變量中,分別選取若干有代表性的變量組成有代表性的綜合指數(shù),使用這兩組綜合指數(shù)之間的相關(guān)關(guān)系,來代替這兩組變量之間的相關(guān)關(guān)系,這些綜合指數(shù)稱為典型變量。9.3.2
相關(guān)分析其基本思想是,首先在每組變量中找到變量的線性組合,使得兩組線性組合之間具有最大的相關(guān)系數(shù)。然后選取和最初挑選的這對線性組合不相關(guān)的線性組合,使其配對,并選取相關(guān)系數(shù)最大的一對,如此繼續(xù)下去,直到兩組變量之間的相關(guān)性被提取完畢為止。被選取的線性組合配對稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。典型相關(guān)系數(shù)度量了這兩組變量之間聯(lián)系的強(qiáng)度。在大數(shù)據(jù)中,相關(guān)性分析可以首先讓用戶發(fā)現(xiàn)關(guān)系的存在。回歸性分析可以用于進(jìn)一步探索關(guān)系并且基于自變量的值來預(yù)測因變量的值。分類分析模型PART049.49.4分類分析模型分類是應(yīng)用極其廣泛的一大問題,也是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域深入研究的重要內(nèi)容。分類分析可以在已知研究對象已經(jīng)分為若干類的情況下,確定新的對象屬于哪一類。根據(jù)判別中的組數(shù),可以分為二分類和多分類。按分類策略,可以分為判別分析和機(jī)器學(xué)習(xí)分類。圖9-11分類分析模型9.4.3支持向量機(jī)9.4.1判別分類的原理和方法9.4.4邏輯回歸9.4.2基于機(jī)器學(xué)習(xí)的分類模型9.4.5決策樹9.4.7隨機(jī)森林9.4.8樸素貝葉斯9.4.6K近鄰9.4分類分析模型9.4.1
判別分析的原理和方法判別分析是多元統(tǒng)計分析中用于判別樣品所屬類型的一種統(tǒng)計分析方法,是一種在已知研究對象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品屬于哪一類的多元統(tǒng)計分析方法。根據(jù)判別中的組數(shù),可以分為兩組判別分析和多組判別分析;根據(jù)判別函數(shù)的形式,可以分為線性判別和非線性判別;根據(jù)判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;根據(jù)判別標(biāo)準(zhǔn)不同,可以分為距離判別、費舍爾判別、貝葉斯判別等。判別方法處理問題時,通常要設(shè)法建立用來衡量新樣品與各已知組別的接近程度的指數(shù),即判別函數(shù),然后利用此函數(shù)來進(jìn)行判別,同時也指定一種判別準(zhǔn)則,借以判別新樣品的歸屬。最常用的判別函數(shù)是線性判別函數(shù),即將判別函數(shù)表示成為線性的形式。9.4.2
基于機(jī)器學(xué)習(xí)的分類模型分類是一種有監(jiān)督機(jī)器學(xué)習(xí),它將數(shù)據(jù)分為相關(guān)的、以前學(xué)習(xí)過的類別,包括兩個步驟:(1)將已經(jīng)被分類或者有標(biāo)號的訓(xùn)練數(shù)據(jù)給系統(tǒng),可以形成一個對不同類別的理解。(2)將未知或者相似數(shù)據(jù)給系統(tǒng)分類,基于訓(xùn)練數(shù)據(jù)形成理解,算法會分類無標(biāo)號數(shù)據(jù)。分類技術(shù)可以對兩個或者兩個以上的類別進(jìn)行分類,常見應(yīng)用是過濾垃圾郵件。在一個簡化的分類過程中,在訓(xùn)練時將有標(biāo)號的數(shù)據(jù)給機(jī)器使其建立對分類的理解,然后將未標(biāo)號的數(shù)據(jù)給機(jī)器,使它進(jìn)行自我分類。
圖9-12機(jī)器學(xué)習(xí)可以用來自動分類數(shù)據(jù)集9.4.2
基于機(jī)器學(xué)習(xí)的分類模型例如,銀行想找出哪些客戶可能會拖欠貸款?;跉v史數(shù)據(jù)編制一個訓(xùn)練數(shù)據(jù)集,其中包含標(biāo)記的曾經(jīng)拖欠貸款的顧客樣例和不曾拖欠貸款的顧客樣例。將這樣的訓(xùn)練數(shù)據(jù)給分類算法,使之形成對“好”或“壞”顧客的認(rèn)識。最終,將這種認(rèn)識作用于新的未加標(biāo)簽的客戶數(shù)據(jù),來發(fā)現(xiàn)一個給定的客戶屬于哪個類。9.4.2
基于機(jī)器學(xué)習(xí)的分類模型分類適用的樣例問題可以是:·基于其他申請是否被接受或者被拒絕,申請人的信用卡申請是否應(yīng)該被接受?·基于已知的水果蔬菜樣例,西紅柿是水果還是蔬菜?·病人的藥檢結(jié)果是否表示有心臟病的風(fēng)險?需要注意的是,判別分析和機(jī)器學(xué)習(xí)分類方法并非涇渭分明,例如,基于機(jī)器學(xué)習(xí)的分類方法可以根據(jù)樣例學(xué)習(xí)(如支持向量機(jī))得到線性判別函數(shù)用于判別分析。9.4.3
支持向量機(jī)支持向量機(jī)是一個有監(jiān)督的學(xué)習(xí)模型,它是一種對線性和非線性數(shù)據(jù)進(jìn)行分類的方法,是所有知名的數(shù)據(jù)挖掘算法中最健壯、最準(zhǔn)確的方法之一。它使用一種非線性映射,把原訓(xùn)練數(shù)據(jù)映射到較高的維度上,在新的維度上,它搜索最佳分離超平面,即將一個類的元組與其他類分離的決策邊界。其基本模型定義為特征空間上間隔最大的線性分類器,其學(xué)習(xí)策略是使間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。9.4.4
邏輯回歸利用邏輯回歸可以實現(xiàn)二分類,邏輯回歸與多重線性回歸有很多相同之處,最大的區(qū)別就在于它們的因變量不同。正因為此,這兩種回歸可以歸于同一個家族,即廣義線性模型。如果是連續(xù)的,就是多重線性回歸;如果是二項分布,就是邏輯回歸;如果是泊松分布,就是泊松回歸;如果是負(fù)二項分布,就是負(fù)二項回歸。邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,所以實際最常用的就是二分類邏輯回歸。9.4.4
邏輯回歸邏輯回歸應(yīng)用廣泛,在流行病學(xué)中應(yīng)用較多,比較常用的情形是探索某一疾病的危險因素,根據(jù)危險因素預(yù)測某疾病發(fā)生的概率,或者預(yù)測(根據(jù)模型預(yù)測在不同自變量情況下,發(fā)生某病或某種情況的概率有多大)、判別(跟預(yù)測有些類似,也是根據(jù)模型判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個人有多大的可能性是屬于某?。@?,想探討胃癌發(fā)生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染情況等。自變量既可以是連續(xù)的,也可以是分類的。邏輯回歸雖然名字里帶“回歸”,但它實際上是一種分類方法,主要用于兩分類問題(即輸出只有兩種,分別代表兩個類別),所以利用了邏輯函數(shù)。9.4.5
決策樹決策樹是進(jìn)行預(yù)測分析的一種很常用的簡單分類工具,它相對容易使用,并且對非線性關(guān)系的運行效果好,可以產(chǎn)生高度可解釋的輸出。圖9-13決策樹示例9.4.5
決策樹通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,可以高效地對未知的數(shù)據(jù)進(jìn)行分類。決策樹有兩大優(yōu)點:①決策樹模型可讀性好,具有描述性,有助于人工分析;②效率高,只需要一次構(gòu)建,反復(fù)使用,每一次預(yù)測的最大計算次數(shù)不超過決策樹的深度。決策樹是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型,它代表的是對象屬性與對象值之間的一種映射關(guān)系。9.4.5
決策樹決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。決策樹是一個預(yù)測模型,代表對象屬性與對象值之間的一種映射關(guān)系。樹中每個節(jié)點表示某個對象,每個分叉路徑代表某個可能的屬性值,而每個葉節(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫作決策樹學(xué)習(xí)。決策樹學(xué)習(xí)輸出為一組規(guī)則,它將整體逐步細(xì)分成更小的細(xì)分,每個細(xì)分相對于單一特性或者目標(biāo)變量是同質(zhì)的。終端用戶可以將規(guī)則以樹狀圖的形式可視化,該樹狀圖很容易進(jìn)行解釋,并且這些規(guī)則在決策機(jī)器中易于部署。這些特性——方法的透明度和部署的快速性——使決策樹成為一個常用的方法。9.4.5
決策樹注意不要混淆決策樹學(xué)習(xí)和在決策分析中使用的決策樹方法,盡管在每種情況下的結(jié)果都是一個樹狀的圖。決策分析中的決策樹方法是管理者可以用來評估復(fù)雜決策的工具,它處理主觀可能性并且利用博弈論來確定最優(yōu)選擇。另一方面,建立決策樹的算法完全從數(shù)據(jù)中來,并且根據(jù)所觀測的關(guān)系而不是用戶先前預(yù)期來建立樹。9.4.6k近鄰鄰近算法,或者說k近鄰(kNN)分類算法,是分類技術(shù)中最簡單的方法之一。所謂k近鄰,就是k個最近鄰居的意思,是說每個樣本都可以用它最接近的k個鄰居來代表。其核心思想是,如果一個樣本在特征空間中的k個最相鄰樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別樣本的特性。kNN方法在類別決策時只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰近樣本,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。9.4.6k近鄰如圖9-14所示,要判斷平面中黑色叉號代表的樣本的類別。分別選取1近鄰、2近鄰、3近鄰。在1近鄰時,判定為黑色圓圈代表的類別,但在3近鄰時卻判定為黑色三角代表的類別。
圖9-14k近鄰實例顯然,k是一個重要的參數(shù),當(dāng)k取不同值時,結(jié)果也會顯著不同;采用不同的距離度量,也會導(dǎo)致分類結(jié)果的不同。我們還可能采取基于權(quán)值等多種策略改變投票機(jī)制。9.4.7
隨機(jī)森林隨機(jī)森林是一類專門為決策樹分類器設(shè)計的組合方法,它組合了多棵決策樹對樣本進(jìn)行訓(xùn)練和預(yù)測,其中每棵樹使用的訓(xùn)練集是從總的訓(xùn)練集中,通過有放回采樣得到的。也就是說,總的訓(xùn)練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓(xùn)練集中,也可能從未出現(xiàn)在一棵樹的訓(xùn)練集中。在訓(xùn)練每棵樹的節(jié)點時,使用的特征是從所有特征中按照一定比例隨機(jī)無放回地抽取而得到的。9.4.7
隨機(jī)森林宏觀來說,隨機(jī)森林的構(gòu)建步驟如下:首先,對原始訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)化,創(chuàng)建隨機(jī)向量;然后,使用這些隨機(jī)向量來建立多棵決策樹。再將這些決策樹組合,構(gòu)成隨機(jī)森林??梢钥闯觯S機(jī)森林是自主聚集的一個拓展變體,它在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。具體來說,決策樹在劃分屬性時會選擇當(dāng)前節(jié)點屬性集合中的最優(yōu)屬性,而隨機(jī)森林則會從當(dāng)前節(jié)點的屬性集合中隨機(jī)選擇含有k個屬性的子集,然后從這個子集中選擇最優(yōu)屬性進(jìn)行劃分。9.4.7
隨機(jī)森林隨機(jī)森林方法雖然簡單,但在許多實現(xiàn)中表現(xiàn)驚人,而且,隨機(jī)森林的訓(xùn)練效率經(jīng)常優(yōu)于自主聚集。隨機(jī)森林的隨機(jī)性來自于以下幾個方面:(1)抽樣帶來的樣本隨機(jī)性。(2)隨機(jī)選擇部分屬性作為決策樹的分裂判別屬性,而不是利用全部的屬性。(3)生成決策樹時,在每個判斷節(jié)點,從最好的幾個劃分中隨機(jī)選擇一個。9.4.7
隨機(jī)森林我們通過一個例子來介紹隨機(jī)森林的產(chǎn)生和運用方法。有一組大小為200的訓(xùn)練樣本,記錄著被調(diào)查者是否會購買一種健身器械,類別為“是”和“否”。其余的屬性如下:年齡>30 婚否 性別 是否有貸款
學(xué)歷>本科 收入>1萬/月我們構(gòu)建4棵決策樹來組成隨機(jī)森林,并且使用了剪枝的手段保證每棵決策樹盡可能簡單(這樣就有更好的泛化能力)。9.4.7
隨機(jī)森林對每棵決策樹采用如下方法進(jìn)行構(gòu)建:(1)從200個樣本中有放回抽樣200次,從而得到大小為200的樣本,顯然,這個樣本中可能存在著重復(fù)的數(shù)據(jù)。(2)隨機(jī)地選擇3個屬性作為決策樹的分裂屬性。(3)構(gòu)建決策樹并剪枝。假設(shè)最終我們得到了如圖9-15所示的4棵決策樹。9.4.7
隨機(jī)森林
圖9-154棵決策樹組成的隨機(jī)森林9.4.7
隨機(jī)森林可以看出,性別和婚姻狀況對于是否購買該產(chǎn)品起到十分重要的作用,此外,對于第3棵決策樹,“學(xué)歷”屬性并沒有作為決策樹的劃分屬性,這說明學(xué)歷和是否購買此產(chǎn)品關(guān)系很小。每棵樹從不同的側(cè)面體現(xiàn)出了蘊含在樣本后的規(guī)律知識。當(dāng)新樣本到達(dá)時,我們只需對4棵樹的結(jié)果進(jìn)行匯總,這里采用投票的方式進(jìn)行匯總。例如,新樣本為(年齡24歲,未婚,女,有貸款,本科學(xué)歷,收入<1萬/月)。第一棵樹將預(yù)測為購買;第二棵樹預(yù)測為不購買,第三棵樹預(yù)測為購買,第四棵樹預(yù)測為購買。所以最后的投票結(jié)果為:購買3票,不購買1票,從而隨機(jī)森林預(yù)測此記錄為“購買”。9.4.8
樸素貝葉斯貝葉斯判別法是在概率框架下實施決策的基本判別方法。對于分類問題來說,在所有相關(guān)概率都已知的情形下,貝葉斯判別法考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標(biāo)記。而樸素貝葉斯判別法則是基于貝葉斯定理和特征條件獨立假設(shè)的分類方法,是貝葉斯判別法中的一個有特定假設(shè)和限制的具體方法。對于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨立假設(shè)學(xué)習(xí)輸入和輸出的聯(lián)合分布概率;然后基于此模型對給定的輸入x,再利用貝葉斯定理求出其后驗概率最大的輸出y。9.4.8
樸素貝葉斯樸素貝葉斯分類算法的基本思想是:對于給定元組X,求解在X出現(xiàn)的前提下各個類別出現(xiàn)的概率,哪個最大就認(rèn)為X屬于哪個類別。在沒有其他可用信息下,我們會選擇后驗概率最大的類別。樸素貝葉斯方法的重要假設(shè)就是屬性之間相互獨立?,F(xiàn)實應(yīng)用中,屬性之間很難保證全部都相互獨立,這時可以考慮使用貝葉斯網(wǎng)絡(luò)等方法。聚類分析模型PART059.59.5聚類分析模型細(xì)分是對業(yè)務(wù)可使用的最有效和最廣泛的戰(zhàn)略工具之一。戰(zhàn)略細(xì)分是一種取決于分析用例的商業(yè)實踐,例如市場細(xì)分或者客戶細(xì)分。當(dāng)解析目標(biāo)是將用例分成同質(zhì)化的子類,或基于多個變量維度的相似性進(jìn)行區(qū)分時,稱為分類問題或用例,通常采用聚類技術(shù)的特定方法來解決這個問題。例如,營銷研究人員基于調(diào)查每個受訪者的盡可能多的信息,使用聚類技術(shù)來標(biāo)示潛在的細(xì)分市場。聚類技術(shù)還可以用到預(yù)測模型分析中,當(dāng)分析師擁有的數(shù)據(jù)是一個非常大的集合時,可以先運行一個基于多變量維度的分割來細(xì)分該數(shù)據(jù)集,然后為每個分類建立單獨的預(yù)測模型。9.5聚類分析模型聚類技術(shù)將一系列用例劃分為不同的組,這些組與一系列活躍變量是同質(zhì)的。在客戶細(xì)分中,每個案例代表一個客戶;在市場細(xì)分中。每個案例代表一個消費者,他可能是當(dāng)前客戶、原來的客戶或者潛在客戶。在使用所有可用的數(shù)據(jù)進(jìn)行分析時,聚類的效率是最高的,因此在數(shù)據(jù)庫或Hadoop內(nèi)部運行的聚類算法都特別有用。目前有100多種多變量聚類分析方法,最流行的是k-均值聚類技術(shù),它可以最大限度地減少所有活動變量的聚類均值的方差,在大多數(shù)數(shù)據(jù)挖掘的軟件包里都有。9.5.3聚類分析方法9.5.1聚類問題分析9.5.4聚類分析的應(yīng)用9.5.2聚類分析的分類細(xì)分是對業(yè)務(wù)可使用的最有效和最廣泛的戰(zhàn)略工具之一。戰(zhàn)略細(xì)分是一種取決于分析用例的商業(yè)實踐,例如市場細(xì)分或者客戶細(xì)分。9.5聚類分析模型9.5.1
聚類問題分析聚類是一種典型的無監(jiān)督學(xué)習(xí)技術(shù),通過這項技術(shù),數(shù)據(jù)被分割成不同的組,在每組中的數(shù)據(jù)有相似的性質(zhì)。聚類不需要先學(xué)習(xí)類別,相反,類別是基于分組數(shù)據(jù)產(chǎn)生的。數(shù)據(jù)如何成組取決于用什么類型的算法,每個算法都有不同的技術(shù)來確定聚類。聚類常用在數(shù)據(jù)挖掘中理解一個給定數(shù)據(jù)集的性質(zhì)。在形成理解之后,分類可以被用來更好地預(yù)測相似但卻是全新或未見過的數(shù)據(jù)。聚類可以被用在未知文件的分類以及通過將具有相似行為的顧客分組的個性化市場營銷策略上。圖9-16所示的散點圖描述了可視化表示的聚類。
圖9-16散點圖總結(jié)了聚類的結(jié)果9.5.1
聚類問題分析例如,基于已有的顧客記錄檔案,某銀行想要給現(xiàn)有顧客介紹很多新的金融產(chǎn)品。分析師用聚類將顧客分類至多組中,然后給每組介紹最適合這個組整體特征的一個或多個金融產(chǎn)品。聚類適用的樣例問題如:(1)根據(jù)樹之間的相似性,存在多少種樹?(2)根據(jù)相似的購買記錄,存在多少組顧客?(3)根據(jù)病毒的特性,它們的不同分組是什么?9.5.1
聚類問題分析聚類分析的目標(biāo)是將基于共同特點的用例、樣品或變量按照它們在性質(zhì)上的親疏程度進(jìn)行分類,其中沒有關(guān)于樣品或變量的分類標(biāo)簽,這在實際生活中也是十分重要的。例如,你希望根據(jù)消費者的選擇而不是對象本身的特性來進(jìn)行分組,你可能想了解哪些物品消費者會一起購買,從而可以在消費者購買時推薦相關(guān)商品,或者開發(fā)一種打包商品。用來描述樣品或變量的親疏程度通常有兩個途徑。一是個體間的差異度:把每個樣品或變量看成是多維空間上的一個點,在多維坐標(biāo)中,定義點與點、類和類之問的距離,用點與點間距離來描述樣品或變量之間的親疏程度。二是測度個體間的相似度:計算樣品或變量的簡單相關(guān)系數(shù)或者等級相關(guān)系數(shù),用相似系數(shù)來描述樣品或變量之間的親疏程度。9.5.1
聚類問題分析聚類問題中,除了要計算物體和物體之間的相似性,還要度量兩個類之間的相似性。常用的度量有最遠(yuǎn)(最近)距離、組間平均鏈鎖距離、組內(nèi)平均鏈鎖距離、重心距離和離差平方和距離。此外,變量的選擇和處理也是不容忽視的重要環(huán)節(jié)。9.5.2
聚類分析的分類我們來了解聚類分析策略的分類方法。(1)基于分類對象的分類。根據(jù)分類對象的不同,聚類分析可以分為Q型聚類和R型聚類。Q型聚類就是對樣品個體進(jìn)行聚類,R型聚類則是對指標(biāo)變量進(jìn)行聚類。9.5.2
聚類分析的分類①Q(mào)型聚類:當(dāng)聚類把所有的觀測記錄進(jìn)行分類時,將性質(zhì)相似的觀測分在同一個類,性質(zhì)差異較大的觀測分在不同的類。Q型聚類分析的目的是對樣品進(jìn)行分類。分類的結(jié)果是直觀的,且比傳統(tǒng)分類方法更細(xì)致和合理。使用不同的分類方法通常有不同的分類結(jié)果。對任何觀測數(shù)據(jù)都沒有唯一“正確”的分類方法。實際應(yīng)用中,常采用不同的分類方法對數(shù)據(jù)進(jìn)行分析計算,以便對分類提供具體意見,并由實際工作者決定所需要的分類數(shù)及分類情況。Q型聚類主要采取基于相似性的度量。9.5.2
聚類分析的分類②R型聚類:把變量作為分類對象進(jìn)行聚類。這種聚類適用于變量數(shù)目比較多且相關(guān)性比較強(qiáng)的情形,目的是將性質(zhì)相近的變量聚類為同一個類,并從中找出代表變量,從而減少變量的個數(shù)以達(dá)到降維的效果。R型聚類主要采取基于相似系數(shù)相似性度量。9.5.2
聚類分析的分類R型聚類分析的目的有以下幾方面:①了解變量間及變量組合間的親疏關(guān)系。②對變量進(jìn)行分類。③根據(jù)分類結(jié)果及它們之間的關(guān)系,在每一類中選擇有代表性的變量作為重要變量,利用少數(shù)幾個重要變量進(jìn)一步作分析計算,如進(jìn)行回歸分析或Q型聚類分析等以達(dá)到減少變量個數(shù)、變量降維的目的。9.5.2
聚類分析的分類(2)基于聚類結(jié)構(gòu)的分類。根據(jù)聚類結(jié)構(gòu),聚類分析可以分為凝聚和分解兩種方式。在凝聚方式中,每個個體自成一體,將最親密的凝聚成一類,再重新計算各個個體間的距離,最相近的凝聚成一類,以此類推。隨著凝聚過程的進(jìn)行,每個類內(nèi)的親密程度逐漸下降。9.5.2
聚類分析的分類在分解方式中,所有個體看成一個大類,類內(nèi)計算距離,將彼此間距離最遠(yuǎn)的個體分離出去,直到每個個體自成一類。分解過程中每個類內(nèi)的親密程度逐漸增強(qiáng)。評價聚類有效性的標(biāo)準(zhǔn)有兩種:一是外部標(biāo)準(zhǔn),通過測量聚類結(jié)果和參考標(biāo)準(zhǔn)的一致性來評價聚類結(jié)果的優(yōu)良;另一種是內(nèi)部指標(biāo),用于評價同一聚類算法在不同聚類條件下聚類結(jié)果的優(yōu)良程度,通常用來確定數(shù)據(jù)集的最佳聚類數(shù)。內(nèi)部指標(biāo)用于根據(jù)數(shù)據(jù)集本身和聚類結(jié)果的統(tǒng)計特征對聚類結(jié)果進(jìn)行評估,并根據(jù)聚類結(jié)果的優(yōu)劣選取最佳聚類數(shù)。9.5.3
聚類分析方法聚類分析的內(nèi)容十分豐富,按其聚類的方法可分為以下幾種:(1)k均值聚類法:指定聚類數(shù)目Κ確定Κ個數(shù)據(jù)中心,每個點分到距離最近的類中,重新計算K個類的中心,然后要么結(jié)束,要么重算所有點到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點距離上一次中心點的偏移量小于指定值。(2)系統(tǒng)聚類法:開始每個對象自成一類,然后每次將最相似的兩類合并,合并后重新計算新類與其他類的距離或相近性測度。這一過程可用一張譜系聚類圖描述。(3)調(diào)優(yōu)法(動態(tài)聚類法):首先對n個對象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則對其進(jìn)行調(diào)整,直到分類合理為止。9.5.3
聚類分析方法(4)最優(yōu)分割法(有序樣品聚類法):開始將所有樣品看作一類,然后根據(jù)某種最優(yōu)準(zhǔn)則將它們分割為二類、三類,一直分割到所需的Κ類為止。這種方法適用于有序樣品的分類問題,也稱為有序樣品的聚類法。(5)模糊聚類法:利用模糊集理論來處理分類問題,它對經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。(6)圖論聚類法:利用圖論中最小生成樹、內(nèi)聚子圖、頂點隨機(jī)游走等方法處理圖類問題。9.5.4
聚類分析的應(yīng)用聚類分析有著廣泛的應(yīng)用。在商業(yè)方面,聚類分析被用來將用戶根據(jù)其性質(zhì)分類,從而發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征;在計算生物學(xué)領(lǐng)域,聚類分析被用來對動植物和對基因進(jìn)行分類,從而獲得更加準(zhǔn)確的生物分類;在保險領(lǐng)域,聚類分析根據(jù)住宅類型、價值、地理位置來鑒定一個城市的房產(chǎn)分組;在電子商務(wù)中,通過聚類分析可以發(fā)現(xiàn)具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好地幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。結(jié)構(gòu)分析模型PART069.69.6結(jié)構(gòu)分析模型結(jié)構(gòu)分析是對數(shù)據(jù)中結(jié)構(gòu)的發(fā)現(xiàn),其輸入是數(shù)據(jù),輸出是數(shù)據(jù)中某種有規(guī)律性的結(jié)構(gòu)。在統(tǒng)計分組的基礎(chǔ)上,結(jié)構(gòu)分析將部分與整體的關(guān)系作為分析對象,以發(fā)現(xiàn)在整體變化過程中各關(guān)鍵影響因素及其作用的程度和方向的分析過程。
圖9-17結(jié)構(gòu)分析模型示例9.6.2社團(tuán)發(fā)現(xiàn)9.6.1典型的結(jié)構(gòu)分析方法結(jié)構(gòu)分析是對數(shù)據(jù)中結(jié)構(gòu)的發(fā)現(xiàn),其輸入是數(shù)據(jù),輸出是數(shù)據(jù)中某種有規(guī)律性的結(jié)構(gòu)。9.6結(jié)構(gòu)分析模型9.6.1
典型的結(jié)構(gòu)分析方法結(jié)構(gòu)分析的對象是圖或者網(wǎng)絡(luò)。例如,在醫(yī)學(xué)中,通常情況下某一類藥物都具有相似分子結(jié)構(gòu)或相同的子結(jié)構(gòu),它們針對某一種疾病的治療具有很好的效果,如抗生素中的大環(huán)內(nèi)酯類,幾乎家喻戶曉的紅霉素就是其中的一種。這種特性給我們提供了一個很好的設(shè)想:如果科學(xué)家新發(fā)現(xiàn)了某種物質(zhì),經(jīng)探尋,它的分子結(jié)構(gòu)中某一子結(jié)構(gòu)與某一類具有相同治療效果藥物的子結(jié)構(gòu)相同,我們雖不可以斷定這種物質(zhì)對治療這種疾病有積極作用,但是這至少提供了一個實驗的方向,對相關(guān)研究起到積極作用。甚至我們可以通過改變具有類似結(jié)構(gòu)的物質(zhì)的分子結(jié)構(gòu)來獲得這種物質(zhì),如果在成本上優(yōu)于之前制藥方法的成本,那么在醫(yī)學(xué)史上將是一大突破。9.6.1
典型的結(jié)構(gòu)分析方法結(jié)構(gòu)分析中有最短路徑、鏈接排名、結(jié)構(gòu)計數(shù)、結(jié)構(gòu)聚類和社團(tuán)發(fā)現(xiàn)這5個問題。最短路徑問題是對圖中頂點之間最短路徑結(jié)構(gòu)的發(fā)現(xiàn);鏈接排名則是對圖中節(jié)點的鏈接關(guān)系進(jìn)行發(fā)現(xiàn),從而對圖中的節(jié)點按照其重要性進(jìn)行排名;鏈接排名在搜索引擎中得到了廣泛的應(yīng)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZSA 272-2024 高磁導(dǎo)率低矯頑力FeNiMnSi 軟磁合金
- 二零二五年度養(yǎng)老公寓入住與心理咨詢服務(wù)合同
- 二零二五年度房屋買賣及家居升級借款協(xié)議
- 2025年度生鮮配送與電商渠道合作合同范本
- 二零二五年度互聯(lián)網(wǎng)公司業(yè)績對賭協(xié)議約定倍收益合同
- 2025年度退房合同租賃期滿通知協(xié)議
- 二零二五年度人工智能產(chǎn)業(yè)股東入股合同
- 2025年度新能源技術(shù)研發(fā)中心委托管理合同協(xié)議書
- 二零二五年度健身俱樂部合伙開店經(jīng)營協(xié)議
- 二零二五年度手機(jī)行業(yè)經(jīng)銷商返利管理細(xì)則
- 2024解析:第十五章電流和電路-基礎(chǔ)練(解析版)
- 2024江蘇太倉市城市建設(shè)投資集團(tuán)限公司招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2024年全新統(tǒng)計法培訓(xùn)課件:普法教育新方向
- 2020-2024年五年高考?xì)v史真題分類匯編(全國)專題14 中國古代史(非選擇題)(解析版)
- 電子教案-《3D打印技術(shù)概論》
- 安全生產(chǎn)責(zé)任體系重點崗位履職清單
- 《東北財經(jīng)大學(xué)審計》課件
- 牧童謠課件教學(xué)
- 大學(xué)物理實驗(緒論)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 圖書出版項目合作協(xié)議
- 《現(xiàn)代家政導(dǎo)論》電子教案 2.2模塊二項目二家庭制度認(rèn)知
評論
0/150
提交評論