大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理課件第7-13章預(yù)測分析方法-組織分析團(tuán)隊(duì)

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-02-29 格式：PPTX 頁數(shù)：603 大?。?1.77MB 積分：50 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理課件第7-13章預(yù)測分析方法-組織分析團(tuán)隊(duì)_第2頁

大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理課件第7-13章預(yù)測分析方法-組織分析團(tuán)隊(duì)_第3頁

大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理課件第7-13章預(yù)測分析方法-組織分析團(tuán)隊(duì)_第4頁

大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理課件第7-13章預(yù)測分析方法-組織分析團(tuán)隊(duì)_第5頁

已閱讀5頁，還剩598頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章預(yù)測分析方法大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理我們已經(jīng)知道，地震是由構(gòu)造板塊（即偶爾會(huì)漂移的陸地板塊）相互擠壓造成的，這種板塊擠壓發(fā)生在地球深處，并且各個(gè)板塊的相互運(yùn)動(dòng)極其復(fù)雜。因此，有用的地震數(shù)據(jù)來之不易，而要弄明白是什么地質(zhì)運(yùn)動(dòng)導(dǎo)致了地震，基本上是不現(xiàn)實(shí)的。每年，世界各地約有7000次里氏4.0或更高級(jí)別的地震發(fā)生，每年有成千上萬的人因此喪命，而一次地震帶來的物質(zhì)損失就有千億美元之多。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震雖然地震有預(yù)兆，“但是我們?nèi)匀粺o法通過它們可靠、有效地預(yù)測地震”。相反，我們能做的就是盡可能地為地震做好準(zhǔn)備，包括在設(shè)計(jì)、修建橋梁和其他建筑的時(shí)候就把地震考慮在內(nèi)，并且準(zhǔn)備好地震應(yīng)急包等，一旦發(fā)生大地震，這些基礎(chǔ)設(shè)施和群眾都能有更充足的準(zhǔn)備。

圖7-1全球?qū)崟r(shí)地震監(jiān)測第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震如今，科學(xué)家們只能預(yù)報(bào)某個(gè)地方、某個(gè)具體的時(shí)間段內(nèi)發(fā)生某級(jí)地震的可能性。例如，他們只能說未來30年，某個(gè)地區(qū)有80％的可能性會(huì)發(fā)生里氏8.4級(jí)地震，但他們無法完全確定地說出何時(shí)何地會(huì)發(fā)生地震，或者發(fā)生幾級(jí)地震?？茖W(xué)家能預(yù)報(bào)地震，但是他們無法預(yù)測地震。歸根結(jié)底，準(zhǔn)確地預(yù)測地震，就要回答何時(shí)、何地、何種震級(jí)這三個(gè)關(guān)鍵問題，需要掌握促使地震發(fā)生的不同自然因素，以及揭示它們之間復(fù)雜的相互運(yùn)動(dòng)的更多、更好的數(shù)據(jù)。預(yù)測不同于預(yù)報(bào)。不過，雖然準(zhǔn)確預(yù)測地震還有很長的路要走，但科學(xué)家已經(jīng)越來越多地為地震受害者爭取到那么幾秒鐘的時(shí)間了。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震例如，斯坦福大學(xué)的“地震捕捉者網(wǎng)絡(luò)”就是一個(gè)會(huì)生成大量數(shù)據(jù)的廉價(jià)監(jiān)測網(wǎng)絡(luò)的典型例子，它由參與分布式地震檢測網(wǎng)絡(luò)的大約200個(gè)志愿者的計(jì)算機(jī)組成。有時(shí)候，這個(gè)監(jiān)測網(wǎng)絡(luò)能提前10秒鐘提醒可能會(huì)受災(zāi)的人群。這10秒鐘，就意味著你可以選擇是搭乘運(yùn)行的電梯還是走樓梯，是走到開闊處去還是躲到桌子下面。技術(shù)的進(jìn)步使得捕捉和存儲(chǔ)如此多數(shù)據(jù)的成本大大降低。能得到更多、更好的數(shù)據(jù)不只為計(jì)算機(jī)實(shí)現(xiàn)更精明的決策提供了更多的可能性，也使人類變得更聰明了。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震從本質(zhì)上來說，準(zhǔn)確預(yù)測地震既是大數(shù)據(jù)的機(jī)遇又是挑戰(zhàn)。單純擁有數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。我們既要掌握足夠多的相關(guān)數(shù)據(jù)，又要具備快速分析并處理這些數(shù)據(jù)的能力，只有這樣，我們才能爭取到足夠多的行動(dòng)時(shí)間。越是即將逼近的事情，越需要我們快速地實(shí)現(xiàn)準(zhǔn)確預(yù)測。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震目錄預(yù)測分析方法論建立業(yè)務(wù)需求建立分析數(shù)據(jù)集降維與特征工程12345建立預(yù)測模型6部署預(yù)測模型預(yù)測分析方法論P(yáng)ART017.17.1預(yù)測分析方法論預(yù)測分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系，從而預(yù)測未來的事件和行為。因此，預(yù)測分析已經(jīng)在各行各業(yè)得到廣泛應(yīng)用，例如預(yù)測保險(xiǎn)索賠、市場營銷反饋、債務(wù)損失、購買行為、商品用途、客戶流失等。假設(shè)治療數(shù)據(jù)顯示，大多數(shù)患有ABC疾病的病人在用XYZ藥物治療后反映效果很好，盡管其中有個(gè)別人出現(xiàn)了副作用甚至死亡。你可以拒絕給任何人提供XYZ藥物，因?yàn)樗懈弊饔玫娘L(fēng)險(xiǎn)，但這樣一來，大多數(shù)病人就會(huì)繼續(xù)受到疾病的折磨；或者你也可以讓病人自己來做決定，通過簽署法律文件來免責(zé)。但是，最好的解決方法是基于患者的其他信息，利用分析來預(yù)測治療的效果。7.1.2預(yù)測分析的流程7.1.1數(shù)據(jù)具有內(nèi)在預(yù)測性預(yù)測分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系，從而預(yù)測未來的事件和行為。7.1預(yù)測分析方法論7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性現(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)的堆積都不是為了預(yù)測，但預(yù)測分析系統(tǒng)能從這些龐大的數(shù)據(jù)中學(xué)到預(yù)測未來的能力，正如人們可以從自己的經(jīng)歷中汲取經(jīng)驗(yàn)教訓(xùn)那樣。我們敬畏數(shù)據(jù)的龐大數(shù)量，但規(guī)模是相對(duì)的，數(shù)據(jù)最激動(dòng)人心的不是其數(shù)量，而是數(shù)量的增長速度。7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性世上萬物均有關(guān)聯(lián)，這在數(shù)據(jù)中也有反映。例如：?你的購買行為與你的消費(fèi)歷史、在線習(xí)慣、支付方式以及社會(huì)交往人群相關(guān)。數(shù)據(jù)能從這些因素中預(yù)測出消費(fèi)者的行為。?你的身體健康狀況與生命選擇和環(huán)境有關(guān)，因此數(shù)據(jù)能通過小區(qū)以及家庭規(guī)模等信息來預(yù)測你的健康狀態(tài)。?你對(duì)工作的滿意程度與你的工資水平、表現(xiàn)評(píng)定以及升職情況相關(guān)，而數(shù)據(jù)則能反映這些現(xiàn)實(shí)。?經(jīng)濟(jì)行為與人類情感相關(guān)，因此數(shù)據(jù)也將反映這種關(guān)系。7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性數(shù)據(jù)科學(xué)家通過預(yù)測分析系統(tǒng)不斷地從數(shù)據(jù)集中找到規(guī)律。如果將數(shù)據(jù)整合在一起，盡管你不知道自己將從這些數(shù)據(jù)里發(fā)現(xiàn)什么，但至少能通過觀測解讀數(shù)據(jù)語言來發(fā)現(xiàn)某些內(nèi)在聯(lián)系。預(yù)測常常是從小處入手。預(yù)測分析是從預(yù)測變量開始的，這是對(duì)個(gè)人單一值的評(píng)測。近期性就是一個(gè)常見的變量，表示某人最近一次購物、最近一次犯罪或最近一次發(fā)病到現(xiàn)在的時(shí)間，近期值越接近現(xiàn)在，觀察對(duì)象再次采取行動(dòng)的概率就越高。許多模型的應(yīng)用都是從近期表現(xiàn)最積極的人群開始的，無論是試圖建立聯(lián)系、開展犯罪調(diào)查還是進(jìn)行醫(yī)療診斷。7.1.1

數(shù)據(jù)具有內(nèi)在預(yù)測性與此相似，頻率一一描述某人做出相同行為的次數(shù)也是常見且富有成效的指標(biāo)。如果有人此前經(jīng)常做某事，那么他再次做這件事的概率就會(huì)很高。實(shí)際上，預(yù)測就是根據(jù)人的過去行為來預(yù)見其未來行為。因此，預(yù)測分析模型不僅要靠那些枯燥的基本人口數(shù)據(jù)，例如住址、性別等，而且也要涵蓋近期性、頻率、購買行為、經(jīng)濟(jì)行為以及電話和上網(wǎng)等產(chǎn)品使用習(xí)慣之類的行為預(yù)測變量。這些行為通常是最有價(jià)值的，因?yàn)槲覀円A(yù)測的就是未來是否還會(huì)出現(xiàn)這些行為，這就是通過行為來預(yù)測行為的過程。預(yù)測分析系統(tǒng)會(huì)綜合考慮數(shù)十項(xiàng)甚至數(shù)百項(xiàng)預(yù)測變量。把個(gè)人的全部已知數(shù)據(jù)都輸入系統(tǒng)，然后等著系統(tǒng)運(yùn)轉(zhuǎn)。系統(tǒng)內(nèi)綜合考量這些因素的核心學(xué)習(xí)技術(shù)正是科學(xué)的魔力所在。7.1.2

預(yù)測分析的流程分析方法論應(yīng)該充分利用分析工具所具有的功能。為了使效用最大化，分析師和客戶應(yīng)該全神貫注于項(xiàng)目過程開始和結(jié)論的部分——業(yè)務(wù)定義和部署上。問題定義和部署之間的技術(shù)開發(fā)活動(dòng)，如模型訓(xùn)練和驗(yàn)證是很重要的，但是這些步驟中的關(guān)鍵選擇卻取決于如何定義這個(gè)問題。7.1.2

預(yù)測分析的流程預(yù)測分析的目標(biāo)是根據(jù)你所知道的事實(shí)來預(yù)測你所不知道的事情。例如，你可能會(huì)知道一所住房的特征信息——它的地理位置、建筑時(shí)間、建筑面積、房間數(shù)等，但是你不知道它的市場價(jià)值。如果知道了它的市場價(jià)值，你就能為這個(gè)房子制定一個(gè)報(bào)價(jià)。類似的，你可能會(huì)想知道一個(gè)病人是否會(huì)患有某些疾病，一個(gè)手機(jī)用戶每月消費(fèi)的通話時(shí)長，或者借款人是否會(huì)每月還款等等。在每個(gè)例子里，你都要利用那些已經(jīng)知道的數(shù)據(jù)來預(yù)測需要知道的信息。精準(zhǔn)預(yù)測能產(chǎn)生很大的好處，能帶動(dòng)商業(yè)價(jià)值的增加，因?yàn)榭煽康念A(yù)測能夠?qū)е赂玫臎Q策。7.1.2

預(yù)測分析的流程預(yù)測分析的流程包括四個(gè)主要步驟或部分，即業(yè)務(wù)定義、數(shù)據(jù)準(zhǔn)備、模型開發(fā)和模型部署，每一個(gè)部分又包括一系列子任務(wù)。應(yīng)該明確的是，現(xiàn)代企業(yè)中的分析方法不只是一組數(shù)據(jù)的技術(shù)說明。還有一些必要的組織步驟來確保預(yù)測模型能夠完成組織的目標(biāo)，同時(shí)不會(huì)給業(yè)務(wù)帶來法律法規(guī)的風(fēng)險(xiǎn)。

圖7-3預(yù)測分析方法論定義業(yè)務(wù)需求PART027.27.2定義業(yè)務(wù)需求一個(gè)分析項(xiàng)目應(yīng)該以結(jié)果為導(dǎo)向，并且其結(jié)果也應(yīng)該對(duì)業(yè)務(wù)產(chǎn)生積極的作用，但這一點(diǎn)常常會(huì)被忽略。例如有的分析師往往不知道或者無法闡明他們所進(jìn)行的分析會(huì)對(duì)項(xiàng)目的業(yè)務(wù)產(chǎn)生怎樣的影響。7.2.3了解誤差成本7.2.1理解業(yè)務(wù)問題7.2.4確定預(yù)測窗口7.2.2定義應(yīng)對(duì)措施一個(gè)分析項(xiàng)目應(yīng)該以結(jié)果為導(dǎo)向，并且其結(jié)果也應(yīng)該對(duì)業(yè)務(wù)產(chǎn)生積極的作用。7.2.5評(píng)估部署環(huán)境7.2定義業(yè)務(wù)需求7.2.1

理解業(yè)務(wù)問題每個(gè)分析項(xiàng)目都應(yīng)該從一個(gè)清晰定義好的業(yè)務(wù)目標(biāo)開始，并且從項(xiàng)目利益相關(guān)者的角度來進(jìn)行闡述。例如：·將市場活動(dòng)ABC的反饋率提高至少x%；·將欺詐交易損失減少y%；·將客戶留存率提高z%。分析師經(jīng)常抱怨組織不用他們的分析結(jié)果。換言之，分析師花費(fèi)了很大精力來收集數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù)，運(yùn)用分析構(gòu)建預(yù)測模型，然后，該模型卻被束之高閣，這樣其實(shí)就是失敗了。大多數(shù)的失敗案例都是由于缺少精確定義的業(yè)務(wù)價(jià)值。這跟分析本身不同，實(shí)施預(yù)測模型是一項(xiàng)跨部門的活動(dòng)，它需要利益相關(guān)者、分析師和IT等多方合作，并且也有既定的項(xiàng)目實(shí)施成本。7.2.2

定義應(yīng)對(duì)措施應(yīng)對(duì)的措施之一就是獲得想要的預(yù)測內(nèi)容。為了實(shí)現(xiàn)更大的價(jià)值，應(yīng)對(duì)措施應(yīng)該能對(duì)那些產(chǎn)出結(jié)果會(huì)影響組織關(guān)鍵指標(biāo)的決策或者業(yè)務(wù)流程起到作用。例如，一個(gè)針對(duì)性的促銷是否會(huì)對(duì)目標(biāo)客戶有影響，一個(gè)住房最可能的銷售價(jià)格是什么，一個(gè)頁面訪問者最可能的下一次點(diǎn)擊位置，或者一個(gè)足球賽中的進(jìn)球分布。在大多數(shù)分析案例中，應(yīng)對(duì)措施代表了一種未來事件，因此你還不知道這種對(duì)策方法產(chǎn)生的結(jié)果。例如，一個(gè)信用卡發(fā)卡機(jī)構(gòu)可能想要預(yù)測某個(gè)客戶是否會(huì)在明年申請(qǐng)破產(chǎn)。一個(gè)發(fā)生在未來的事件本質(zhì)上是不確定的，如果你的目的是為了避免給破產(chǎn)客戶提供貸款從而減少債務(wù)損失，那么事后才得到的信息就太晚了。7.2.2

定義應(yīng)對(duì)措施在一些情況下，應(yīng)對(duì)措施代表了一個(gè)當(dāng)前或過去的事件。例如，如果因?yàn)橐恍┰驘o法獲得破產(chǎn)記錄，那么可以利用預(yù)測模型在其他客戶信息的基礎(chǔ)上估計(jì)一個(gè)客戶是否之前已經(jīng)申請(qǐng)了破產(chǎn)。應(yīng)對(duì)措施的時(shí)間維度應(yīng)該是明確的。假設(shè)想要預(yù)測一個(gè)潛在借款人是否會(huì)在十年分期貸款里違約，你應(yīng)該定義違約的應(yīng)對(duì)措施是在整個(gè)貸款周期內(nèi)還是在一個(gè)更短的周期內(nèi)？長期應(yīng)對(duì)舉措往往更適合商業(yè)決策，但是需要更多的歷史數(shù)據(jù)去驗(yàn)證。預(yù)測長期行為也比預(yù)測短期行為更加困難，因?yàn)橥獠恳蛩赜懈蟮目赡苄詠碛绊懙侥阆ＭM的行為。7.2.2

定義應(yīng)對(duì)措施對(duì)于任何商業(yè)應(yīng)用，都有可能需要預(yù)測多種對(duì)策：·稅務(wù)機(jī)關(guān)需要確定應(yīng)該審核哪些納稅申報(bào)表：審計(jì)的成本很高，并且審計(jì)師的數(shù)量有限。為了最大限度地提高每個(gè)審計(jì)師帶來的收益，稅務(wù)機(jī)關(guān)應(yīng)該同時(shí)預(yù)測瞞報(bào)收入的查出概率和稅務(wù)機(jī)關(guān)可能收回的金額?！ひ凰髮W(xué)希望最大限度地提高在校友捐贈(zèng)活動(dòng)中的投資回報(bào)。為了正確制定不同的策略，校方應(yīng)該預(yù)測兩個(gè)概率：每個(gè)校友響應(yīng)的可能性和每位校友可能會(huì)捐贈(zèng)的金額。7.2.2

定義應(yīng)對(duì)措施如果面對(duì)很多商業(yè)問題，你想要預(yù)測的就可能是多個(gè)應(yīng)對(duì)措施。例如，為了最大限度地提高一場捐贈(zèng)活動(dòng)的投資回報(bào)率（ROI），你會(huì)想知道預(yù)測捐贈(zèng)活動(dòng)的潛在目標(biāo)是否會(huì)得到響應(yīng)，以及如果響應(yīng)了可能會(huì)捐助多少錢。盡管存在單個(gè)模型對(duì)應(yīng)多種應(yīng)對(duì)措施建模的技術(shù)，但大多數(shù)分析師更愿意將問題劃分成幾個(gè)部分，然后針對(duì)每種應(yīng)對(duì)措施分別建立預(yù)測模型。以這種方式分解問題，能夠確保分析師針對(duì)每個(gè)應(yīng)對(duì)措施產(chǎn)生的影響來獨(dú)立優(yōu)化預(yù)測模型，并且可以給業(yè)務(wù)使用者提供更大的靈活性。7.2.2

定義應(yīng)對(duì)措施例如，考慮兩組可能的捐贈(zèng)人：對(duì)活動(dòng)響應(yīng)度較低卻有較高的平均捐贈(zèng)額的人，以及對(duì)活動(dòng)響應(yīng)度較高卻有較低的平均捐贈(zèng)額的人。這兩部分都有著相似的整體預(yù)期值。然而，通過細(xì)分應(yīng)對(duì)行為和分別建模，客戶可以區(qū)分這兩組捐贈(zèng)人并采用不同的策略。大多數(shù)預(yù)測問題可以分成兩類：分類和回歸。在分類中，分析師希望預(yù)測將在未來發(fā)生的一個(gè)可分類的事件，在大多數(shù)案例中這是一個(gè)二值問題。因?yàn)橄M(fèi)者要么對(duì)一個(gè)營銷活動(dòng)做出響應(yīng)要么不響應(yīng)，負(fù)債人要么宣布破產(chǎn)要么不破產(chǎn)。在回歸中，分析師希望預(yù)測一個(gè)連續(xù)值，例如消費(fèi)者將會(huì)消費(fèi)的手機(jī)通話時(shí)長，或者購買者將會(huì)在一個(gè)時(shí)期里消費(fèi)的金額。有一些技術(shù)適合分類問題，而另一些適合回歸問題，還有一些則同時(shí)可以用于分類和回歸。分析師一定要了解所預(yù)測的問題，從而選擇正確的技術(shù)。7.2.3

了解誤差成本在理想情況下，人們希望用一個(gè)模型就完美地預(yù)測了未來的事件，但實(shí)際上這樣的可能性不大。但放棄追求建立完美模型的想法，就應(yīng)考慮模型要多精確才算“足夠好”？通常，預(yù)測模型必須能夠提高決策的有效性，從而帶來足夠多的經(jīng)濟(jì)收益，以抵消開發(fā)和部署模型的成本。當(dāng)風(fēng)險(xiǎn)價(jià)值較高時(shí)，預(yù)測模型能夠產(chǎn)生很好的經(jīng)濟(jì)效益。如果風(fēng)險(xiǎn)價(jià)值較低，即使一個(gè)非常好的預(yù)測模型也只能提供很少的經(jīng)濟(jì)效益或幾乎沒有經(jīng)濟(jì)效益，因?yàn)樽鲆粋€(gè)錯(cuò)誤決策的損失很小。許多組織不愿意費(fèi)心建立針對(duì)郵件營銷活動(dòng)的預(yù)測模型，就是因?yàn)榘l(fā)一封電子郵件給一個(gè)不會(huì)響應(yīng)的消費(fèi)者的增量成本很低，這也意味著你的郵箱里會(huì)有更多的垃圾郵件。7.2.3

了解誤差成本假設(shè)風(fēng)險(xiǎn)價(jià)值高到需要建立一個(gè)預(yù)測模型，那么這個(gè)模型的效果一定要比現(xiàn)有的針對(duì)性方案的效果好。預(yù)測模型的總體準(zhǔn)確性十分重要，但一定要考慮到誤差的成分。一個(gè)二值分類模型有兩種正確的結(jié)果：它可以精準(zhǔn)地預(yù)測一個(gè)事件是否會(huì)發(fā)生，或者它可以預(yù)測這個(gè)事件是否不會(huì)發(fā)生。同樣它也有兩種錯(cuò)誤的結(jié)果：它可能錯(cuò)誤地預(yù)測一個(gè)事件將會(huì)發(fā)生，或者它錯(cuò)誤地預(yù)測這個(gè)事件不會(huì)發(fā)生。7.2.3

了解誤差成本假設(shè)開發(fā)預(yù)測模型的目標(biāo)是預(yù)測在ICU（重癥監(jiān)護(hù)病房）的患者心臟驟停這個(gè)事件。如果模型預(yù)測結(jié)果是該患者心臟會(huì)驟停，那么ICU的工作人員將會(huì)主動(dòng)采取治療措施，在這種情況下，患者有更大的可能活下來。否則，這些工作人員只會(huì)在患者心臟驟停時(shí)采取措施，到那時(shí)一切都太遲了。

圖7-5ICU監(jiān)測7.2.3

了解誤差成本如果一個(gè)預(yù)測模型錯(cuò)誤地預(yù)測了該患者會(huì)心臟驟停，那么結(jié)果可以稱作積極錯(cuò)誤。如果預(yù)測模型預(yù)測該患者不會(huì)心臟驟停，但是患者實(shí)際上心臟驟停了，那么結(jié)果則被稱作消極錯(cuò)誤。在大多數(shù)實(shí)際的決策中，錯(cuò)誤的代價(jià)是不對(duì)稱的，這意味著積極錯(cuò)誤的代價(jià)和消極錯(cuò)誤的代價(jià)有天壤之別。在這個(gè)案例中，積極錯(cuò)誤的代價(jià)只是不必要的治療，而消極錯(cuò)誤的代價(jià)則是患者死亡概率增加。大多數(shù)醫(yī)療決策中，利益相關(guān)者把重心放在最大限度地減少消極錯(cuò)誤而不是積極錯(cuò)誤上。7.2.4

確定預(yù)測窗口預(yù)測窗口對(duì)分析項(xiàng)目的設(shè)計(jì)有很大影響，它會(huì)影響到分析方法的選擇和數(shù)據(jù)的選擇。所有的預(yù)測都與未來發(fā)生的事件有關(guān)，但是不同的商業(yè)應(yīng)用對(duì)預(yù)測提前的時(shí)間有不同的要求。例如，在零售業(yè)商店，排班人員可能只對(duì)明天或接下來幾天的預(yù)期店鋪流量感興趣；采購經(jīng)理可能會(huì)關(guān)注接下來幾個(gè)月的店鋪流量；而商場選址人員可能會(huì)關(guān)注未來幾年的預(yù)測流量。7.2.4

確定預(yù)測窗口一般來說，隨著預(yù)測窗口長度延長，模型預(yù)測的精確性會(huì)下降。換句話說，預(yù)測明天的店鋪流量要比預(yù)測未來三年的店鋪流量簡單得多。這里有兩個(gè)主要原因，一是預(yù)測窗口延長了，突發(fā)事件發(fā)生的概率會(huì)增加。例如，如果一個(gè)突發(fā)事件發(fā)生在你店鋪的附近，那么該店鋪的流量將會(huì)發(fā)生改變。二是隨著時(shí)間的變化，隨機(jī)誤差會(huì)累積增加，并且對(duì)預(yù)測產(chǎn)生很大的影響。7.2.4

確定預(yù)測窗口預(yù)測窗口也會(huì)影響預(yù)測中作為預(yù)測因子使用的數(shù)據(jù)。還是以零售業(yè)為例，假設(shè)你想要提前預(yù)測一天中一個(gè)店鋪的流量，使用建立在動(dòng)態(tài)參數(shù)上的一個(gè)時(shí)間序列分析可能就很好用，比如過去三天中的每日流量。另一方面，如果你想要預(yù)測未來三年的店鋪流量，你可能不得不加入一些基礎(chǔ)要素?cái)?shù)據(jù)，如本地住房建設(shè)情況、家庭分布、家庭收入變化以及競爭格局的變化。7.2.5

評(píng)估部署環(huán)境部署是分析過程的重要部分，分析師在開展預(yù)測建模項(xiàng)目工作前一定要了解預(yù)測模型的部署環(huán)境。有兩種方式可以用來部署預(yù)測模型：批量部署或者事務(wù)部署。在批量預(yù)測中，評(píng)分機(jī)制會(huì)針對(duì)一組實(shí)體計(jì)算記錄級(jí)的預(yù)測結(jié)果，并且將結(jié)果存儲(chǔ)在一個(gè)信息倉庫中，需要使用預(yù)測結(jié)果的商業(yè)應(yīng)用可以直接從信息庫中獲取預(yù)測結(jié)果。在事務(wù)部署中，評(píng)分機(jī)制根據(jù)應(yīng)用程序的請(qǐng)求對(duì)每個(gè)記錄計(jì)算預(yù)測結(jié)果，該應(yīng)用程序會(huì)立即使用預(yù)測結(jié)果。事務(wù)型的或者實(shí)時(shí)的評(píng)分對(duì)需要實(shí)時(shí)或很小延遲的應(yīng)用至關(guān)重要，但是它們的成本也會(huì)更高，同時(shí)大多數(shù)應(yīng)用并不一定需要較小的延遲。7.2.5

評(píng)估部署環(huán)境分析師一定要知道一個(gè)應(yīng)用程序可以在部署環(huán)境中獲得哪些數(shù)據(jù)。這個(gè)問題很重要，因?yàn)榉治鰩熗ǔＪ窃谝粋€(gè)“沙箱”環(huán)境中開展工作，在這種環(huán)境中數(shù)據(jù)相對(duì)容易獲取，也相對(duì)容易將其合并到分析數(shù)據(jù)集。而生產(chǎn)環(huán)境中可能存在運(yùn)營上或者法律上的約束，這可能會(huì)限制數(shù)據(jù)的使用，或者讓數(shù)據(jù)使用的成本大大增加。從戰(zhàn)略角度來說，如果目的是利用分析來確定什么數(shù)據(jù)對(duì)業(yè)務(wù)有最大的價(jià)值，那么在預(yù)測模型中使用當(dāng)前部署環(huán)境沒有的數(shù)據(jù)，可能會(huì)十分有效。然而在這種情況下，組織應(yīng)該計(jì)劃更長的實(shí)施周期。7.2.5

評(píng)估部署環(huán)境部署環(huán)境也會(huì)影響分析師對(duì)分析方法的選擇。一些方法，如線性回歸或者決策樹，生成的預(yù)測模型格式很容易在基于SQL的系統(tǒng)中實(shí)現(xiàn)。其他一些方法，如支持向量機(jī)或者神經(jīng)網(wǎng)絡(luò)，則很難實(shí)現(xiàn)。一些預(yù)測分析軟件包支持多種格式的模型導(dǎo)出。但是，部署環(huán)境可能不支持分析軟件包的格式，并且分析軟件包可能不支持所有分析工具的模型導(dǎo)出。建立分析數(shù)據(jù)集PART037.37.3建立分析數(shù)據(jù)集為分析預(yù)測工作而準(zhǔn)備數(shù)據(jù)的過程包括數(shù)據(jù)采集、評(píng)估和轉(zhuǎn)化等，建立分析數(shù)據(jù)集是預(yù)測分析的第一步。其中的數(shù)據(jù)處理（準(zhǔn)備）工作需要占據(jù)整個(gè)周期的大部分時(shí)間，它們代表了流程改進(jìn)和上下游協(xié)同的機(jī)會(huì)。

圖7-6建立分析數(shù)據(jù)集7.3.4轉(zhuǎn)化數(shù)據(jù)7.3.1配置數(shù)據(jù)7.3.5執(zhí)行基本表操作7.3.2評(píng)估數(shù)據(jù)7.3.3調(diào)查異常值7.3.6處理丟失數(shù)據(jù)7.3建立分析數(shù)據(jù)集7.3.1

配置數(shù)據(jù)理想狀態(tài)下，分析師是將分析工具連接到一個(gè)高效的企業(yè)信息倉庫中，而現(xiàn)實(shí)生活中的企業(yè)分析與上述理想情況相比，不同點(diǎn)在于：數(shù)據(jù)存在于企業(yè)內(nèi)部和外部的不同資源系統(tǒng)中；數(shù)據(jù)清理、集成和組織處理使數(shù)據(jù)從“混亂”到“干凈、有條理、可記錄”。雖然企業(yè)在數(shù)據(jù)倉庫和主數(shù)據(jù)管理（MDM）方面已經(jīng)取得了長足的進(jìn)步，但只有很少的企業(yè)能跟得上不斷增長的數(shù)據(jù)量和愈加復(fù)雜的數(shù)據(jù)?！爸鲾?shù)據(jù)管理”描述了一組規(guī)程、技術(shù)和解決方案，這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方（如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴）創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。7.3.1

配置數(shù)據(jù)分析師是為那些有即時(shí)業(yè)務(wù)需求的內(nèi)部客戶工作的，所以他們往往會(huì)在IT部門之前開始工作，他們會(huì)花費(fèi)大量的時(shí)間收集和整合數(shù)據(jù)。這些時(shí)間大部分都花在調(diào)查數(shù)據(jù)潛在來源、了解數(shù)據(jù)采集、購買文檔和數(shù)據(jù)使用許可上。實(shí)際操作上，將數(shù)據(jù)導(dǎo)入分析“沙箱”只會(huì)花費(fèi)相對(duì)很少的時(shí)間。7.3.2

評(píng)估數(shù)據(jù)當(dāng)接收到數(shù)據(jù)文件時(shí)，分析師首先要確定數(shù)據(jù)格式是否與分析軟件兼容，分析軟件工具往往只支持有限的幾種格式。如果可以讀取數(shù)據(jù)，那么下一步就是執(zhí)行測試，以驗(yàn)證數(shù)據(jù)是否符合相關(guān)文檔。如果沒有文檔，分析師將花費(fèi)一些時(shí)間來“猜測”數(shù)據(jù)格式和文件的內(nèi)容。7.3.2

評(píng)估數(shù)據(jù)如果數(shù)據(jù)文件是可讀的，分析師會(huì)讀取整個(gè)文件，如果文件很大的話，則讀取一個(gè)樣本文件，并且對(duì)數(shù)據(jù)進(jìn)行一些基本的檢查。例如對(duì)于表格數(shù)據(jù)，這些檢查包括：·確定鍵值是否存在，這對(duì)關(guān)聯(lián)到其他表是很必要的。·確保每個(gè)字段都被填充。字段不需要填充每一個(gè)記錄，但所有行都是空白的字段可以從分析中刪除?！z查字段的變化。每行都填充相同值的字段可以從分析中刪除?！ぴu(píng)估字段的數(shù)據(jù)類型：浮點(diǎn)、整數(shù)、字符、日期或其他數(shù)據(jù)類型，數(shù)據(jù)類型與特定平臺(tái)相關(guān)。·確定在數(shù)據(jù)文件中是否有對(duì)應(yīng)此項(xiàng)目應(yīng)對(duì)措施的數(shù)據(jù)字段。7.3.3

調(diào)查異常值含有極端值或異常值的數(shù)據(jù)集會(huì)對(duì)建模過程產(chǎn)生不必要的影響，極端情況下甚至可能會(huì)使建立準(zhǔn)確模型的工作變得困難。分析師不能簡單地丟棄任何一個(gè)異常值，例如一個(gè)保險(xiǎn)分析師不能簡單地放棄卡特里娜颶風(fēng)所造成的那部分損失。圖7-7異常值7.3.3

調(diào)查異常值分析師應(yīng)該調(diào)查離群值，以確定它們是否是在數(shù)據(jù)采集過程中人為造成的。例如，一位研究超市POS機(jī)數(shù)據(jù)的分析師發(fā)現(xiàn)了一些消費(fèi)金額非常大的賬戶。在調(diào)查中，他發(fā)現(xiàn)這些“極端”的顧客是超市收銀員在刷自己的會(huì)員卡，以使那些沒有會(huì)員卡的顧客獲得折扣。又例如，研究租賃公司數(shù)據(jù)的分析師發(fā)現(xiàn)，在一個(gè)市場中出現(xiàn)了這樣的不尋?，F(xiàn)象，大量進(jìn)行貸款申請(qǐng)的客戶并沒有隨后激活和使用這些貸款。分析師和客戶提出了一些假設(shè)來“解釋”觀察到的這種行為。但是在調(diào)查中分析師發(fā)現(xiàn)，系統(tǒng)管理員在系統(tǒng)中跑了很多測試申請(qǐng)，但是卻沒有將測試申請(qǐng)和真實(shí)客戶申請(qǐng)進(jìn)行區(qū)分。7.3.4

轉(zhuǎn)化數(shù)據(jù)在建模開始前，必要的數(shù)據(jù)轉(zhuǎn)換取決于數(shù)據(jù)的條件和項(xiàng)目的要求。因?yàn)槊總€(gè)項(xiàng)目要求的不同，對(duì)數(shù)據(jù)轉(zhuǎn)換進(jìn)行統(tǒng)一概括是不可能的，但是可以審查數(shù)據(jù)轉(zhuǎn)換的原因以及通用類型的操作。對(duì)研究數(shù)據(jù)進(jìn)行轉(zhuǎn)換的原因有兩個(gè)。第一個(gè)原因是源數(shù)據(jù)與應(yīng)用程序的業(yè)務(wù)規(guī)則不匹配。原則上，組織應(yīng)在數(shù)據(jù)倉庫后端實(shí)施流程，確保數(shù)據(jù)符合業(yè)務(wù)規(guī)則。這使整個(gè)企業(yè)有一致的應(yīng)用程序。但實(shí)際上分析師往往必須在組織數(shù)據(jù)倉庫之前進(jìn)行分析工作，并且所用的數(shù)據(jù)也不是企業(yè)數(shù)據(jù)倉庫的一部分。也有一些特殊情況，分析師會(huì)采用與企業(yè)業(yè)務(wù)規(guī)則不同的業(yè)務(wù)規(guī)則，以滿足內(nèi)部客戶的需要。7.3.4

轉(zhuǎn)化數(shù)據(jù)分析轉(zhuǎn)換數(shù)據(jù)的第二個(gè)原因是為了改善所建立預(yù)測模型的準(zhǔn)確性和精確性。這些轉(zhuǎn)換包括簡單數(shù)學(xué)變換、“分箱”的數(shù)值變量、記錄分類變量以及更復(fù)雜的操作，如缺失值處理或挖掘文本提取特征。一些預(yù)測分析技術(shù)需要數(shù)據(jù)轉(zhuǎn)化，而分析軟件包會(huì)自動(dòng)處理所需的轉(zhuǎn)換。

圖7-8分析的自動(dòng)處理7.3.4

轉(zhuǎn)化數(shù)據(jù)當(dāng)分析師驗(yàn)證模型時(shí)，轉(zhuǎn)換數(shù)據(jù)極大地提高了模型的精確性和準(zhǔn)確性。然而，分析師應(yīng)該問的最重要的問題是，這樣的轉(zhuǎn)換是否能夠在部署環(huán)境中實(shí)現(xiàn)。分析沙箱中“規(guī)范”的數(shù)據(jù)不能改善預(yù)測模型在實(shí)際市場中的預(yù)測效果，除非在部署環(huán)境中的數(shù)據(jù)可以利用相同的轉(zhuǎn)換變成“規(guī)范的”。7.3.5

執(zhí)行基本表操作分析工具軟件一般需要將全部數(shù)據(jù)（應(yīng)對(duì)措施和預(yù)測因子）加載到一個(gè)單獨(dú)表格中。除非所有需要的數(shù)據(jù)已經(jīng)存在于同一張表中，否則分析師必須執(zhí)行基本表操作來建立分析數(shù)據(jù)集。這些操作包括：·連接表 ·添加一列并用計(jì)算字段填充

·附加表 ·刪除列·選擇行 ·分組·刪除行高性能的SQL引擎通常在表操作方面比分析軟件更有效，分析師應(yīng)盡可能地利用這些工具進(jìn)行基本數(shù)據(jù)的準(zhǔn)備。7.3.6

處理丟失數(shù)據(jù)數(shù)據(jù)可能會(huì)因?yàn)槟承┰驈臄?shù)據(jù)集中丟失。數(shù)據(jù)有時(shí)是邏輯上丟失：例如當(dāng)數(shù)據(jù)表包括記錄客戶數(shù)據(jù)服務(wù)使用的字段，但是消費(fèi)者卻沒有訂購該服務(wù)。在其他一些情況下，數(shù)據(jù)丟失是因?yàn)樵聪到y(tǒng)使用一個(gè)隱含的零編碼（零表示為空格）。數(shù)據(jù)丟失也可能是由于數(shù)據(jù)采集過程中人為的因素。例如如果客戶拒絕回答收入問題，該字段可能是空白的。許多統(tǒng)計(jì)軟件包要求每個(gè)數(shù)據(jù)工作表的單元格中都有值，并且將從表格中刪除那些每列不是都有值的行。所以分析師使用一些工具來推斷缺失數(shù)據(jù)的值，所使用的方法包括從簡單的平均替代到復(fù)雜的最近鄰方法。7.3.6

處理丟失數(shù)據(jù)對(duì)丟失數(shù)據(jù)的處理不會(huì)為數(shù)據(jù)增加信息價(jià)值，它們僅僅是為了可以應(yīng)用那些無法處理缺失數(shù)據(jù)的分析技術(shù)。因?yàn)閿?shù)據(jù)丟失很少是由于隨機(jī)現(xiàn)象引起的，所以分析師需要在理解數(shù)據(jù)缺失的原因后，謹(jǐn)慎地使用推斷技術(shù)來補(bǔ)足相關(guān)數(shù)據(jù)。如同其他轉(zhuǎn)換一樣，分析師需要問自己是否能夠在部署環(huán)境中將缺失的數(shù)據(jù)“修復(fù)”，以及“修復(fù)”所需的成本是多少。比起在分析數(shù)據(jù)集中“修復(fù)”數(shù)據(jù)，更好的做法是使用能夠處理缺失數(shù)據(jù)的分析技術(shù)，例如決策樹。降維與特征工程PART047.47.4降維與特征工程解決大數(shù)據(jù)分析問題的一個(gè)重要思路在于減少數(shù)據(jù)量。針對(duì)數(shù)據(jù)規(guī)模大的特征，要對(duì)大數(shù)據(jù)進(jìn)行有效分析，需要對(duì)數(shù)據(jù)進(jìn)行有效的縮減。進(jìn)行數(shù)據(jù)縮減，一方面是通過抽樣技術(shù)讓數(shù)據(jù)的條目數(shù)減少；另一方面，可以通過減少描述數(shù)據(jù)的屬性來達(dá)到目的，也就是降維技術(shù)。我們來學(xué)習(xí)采用有效選擇特征等方法，通過減小描述數(shù)據(jù)的屬性來達(dá)到減小數(shù)據(jù)規(guī)模的目的。7.4.3特征變換7.4.1降維7.4.2特征工程學(xué)習(xí)采用有效選擇特征等方法，通過減小描述數(shù)據(jù)的屬性來達(dá)到減小數(shù)據(jù)規(guī)模的目的。7.4降維與特征工程7.4.1

降維分析師常常將維度、特征和預(yù)測變量這三個(gè)詞混用（視為同義詞）。分析師利用兩類技術(shù)來降低數(shù)據(jù)集中的維度：特征提取和特征選擇。顧名思義，特征提取方法是將多個(gè)原始變量中的信息合成到有限的維度中，從噪聲中提取信號(hào)數(shù)據(jù)。特征選擇方法幫助分析師篩選一系列預(yù)測因子，選出最佳的預(yù)測因子用于模型訓(xùn)練，同時(shí)忽略其他的預(yù)測因子。特征提取比特征選擇更為精致，有著悠久的學(xué)術(shù)使用歷史，特征選擇則是更實(shí)用的工具。許多預(yù)測模型技術(shù)含內(nèi)置的特征選擇功能：這種技術(shù)自動(dòng)地評(píng)估和選擇可獲得的預(yù)測因子。當(dāng)建模技術(shù)中有內(nèi)置的特征選擇功能時(shí)。分析師可以從建模過程中省略特征選擇步驟，這是使用這些方法的一個(gè)重要原因。7.4.2

特征工程特征是大數(shù)據(jù)分析的原材料，對(duì)最終模型有著決定性的影響。數(shù)據(jù)特征會(huì)直接影響使用的預(yù)測模型和實(shí)現(xiàn)的預(yù)測結(jié)果。準(zhǔn)備和選擇的特征越好，則分析的結(jié)果越好。影響分析結(jié)果好壞的因素包括模型的選擇、可用的數(shù)據(jù)、特征的提取。優(yōu)質(zhì)的特征往往描述了數(shù)據(jù)的固有結(jié)構(gòu)。大多數(shù)模型都可以通過數(shù)據(jù)中良好的結(jié)構(gòu)很好地學(xué)習(xí)，即使不是最優(yōu)的模型，優(yōu)質(zhì)的特征也可以得到不錯(cuò)的效果。優(yōu)質(zhì)特征的靈活性可以使用簡單的模型運(yùn)算得更快，更容易理解和維護(hù)。優(yōu)質(zhì)的特征還可以在使用不是最優(yōu)的模型參數(shù)的情況下得到不錯(cuò)的分析結(jié)果，這樣用戶就不必費(fèi)力去選擇最適合的模型和最優(yōu)的參數(shù)了。7.4.2

特征工程特征工程的目的就是獲取優(yōu)質(zhì)特征以有效支持大數(shù)據(jù)分析，其定義是將原始數(shù)據(jù)轉(zhuǎn)化為特征，更好地表示模型處理的實(shí)際問題，提升對(duì)于未知數(shù)據(jù)的準(zhǔn)確性。它使用目標(biāo)問題所在的特定領(lǐng)域知識(shí)或者自動(dòng)化的方法來生成、提取、刪減或者組合變化得到特征。特征工程包含特征提取、特征選擇、特征構(gòu)建和特征學(xué)習(xí)等問題。圖7-9特征工程整體架構(gòu)示例7.4.2

特征工程（1）大數(shù)據(jù)分析中的特征。特征是觀測現(xiàn)象中的一種獨(dú)立、可測量的屬性。選擇信息量大的、有差別性的、獨(dú)立的特征是分類和回歸等問題的關(guān)鍵一步。最初的原始特征數(shù)據(jù)集可能太大，或者信息冗余，因此在分析應(yīng)用中，初始步驟就是選擇特征的子集，或構(gòu)建一套新的特征集，減少功能來促進(jìn)算法的學(xué)習(xí)，提高泛化能力和可解釋性。在結(jié)構(gòu)化高維數(shù)據(jù)中，觀測數(shù)據(jù)或?qū)嵗▽?duì)應(yīng)表格的一行）由不同的變量或者屬性（表格的一列）構(gòu)成，這里屬性其實(shí)就是特征。但是與屬性不同的是，特征是對(duì)于分析和解決問題有用、有意義的屬性。7.4.2

特征工程對(duì)于非結(jié)構(gòu)數(shù)據(jù)，在多媒體圖像分析中，一幅圖像是一個(gè)觀測，但是特征可能是圖中的一條線；在自然語言處理中，一個(gè)文本是一個(gè)觀測，但是其中的段落或者詞頻可能才是一種特征；在語音識(shí)別中，一段語音是一個(gè)觀測，但是一個(gè)詞或者音素才是一種特征。7.4.2

特征工程（2）特征的重要性。這是對(duì)特征進(jìn)行選擇的重要指標(biāo)，特征根據(jù)重要性被分配分?jǐn)?shù)并排序，其中高分的特征被選擇出來放入訓(xùn)練數(shù)據(jù)集。如果與因變量（預(yù)測的事物）高度相關(guān)，則這個(gè)特征可能很重要，其中相關(guān)系數(shù)和獨(dú)立變量方法是常用的方法。在構(gòu)建模型的過程中，一些復(fù)雜的預(yù)測模型會(huì)在算法內(nèi)部進(jìn)行特征重要性的評(píng)價(jià)和選擇，如多元自適應(yīng)回歸樣條法、隨機(jī)森林、梯度提升機(jī)。這些模型在模型準(zhǔn)備階段會(huì)進(jìn)行變量重要性的確定。7.4.2

特征工程（3）特征提取。一些觀測數(shù)據(jù)如果直接建模，其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù)，如果將其看作表格數(shù)據(jù)，那么其中包含了數(shù)以千計(jì)的屬性。特征提取是自動(dòng)地對(duì)原始觀測降維，使其特征集合小到可以進(jìn)行建模的過程。對(duì)于結(jié)構(gòu)化高維數(shù)據(jù)，可以使用主成分分析、聚類等映射方法；對(duì)于非結(jié)構(gòu)的圖像數(shù)據(jù)，可以進(jìn)行線或邊緣的提?。桓鶕?jù)相應(yīng)的領(lǐng)域，圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號(hào)處理的方法對(duì)其進(jìn)行處理。7.4.2

特征工程（4）特征選擇。不同的特征對(duì)模型的準(zhǔn)確度的影響不同，有些特征與要解決的問題不相關(guān)，有些特征是冗余信息，這些特征都應(yīng)該被移除掉。在特征工程中，特征選擇和特征提取同等重要，可以說數(shù)據(jù)和特征決定了大數(shù)據(jù)分析的上限，而模型和算法只是逼近這個(gè)上限而已。因此，特征選擇在大數(shù)據(jù)分析中占有相當(dāng)重要的地位。7.4.2

特征工程通常，特征選擇是自動(dòng)地選擇出對(duì)于問題最重要的那些特征子集的過程。特征選擇算法可以使用評(píng)分的方法來進(jìn)行排序；還有些方法通過反復(fù)試驗(yàn)來搜索出特征子集，自動(dòng)地創(chuàng)建并評(píng)估模型以得到客觀的、預(yù)測效果最好的特征子集；還有一些方法，將特征選擇作為模型的附加功能，像逐步回歸法就是一個(gè)在模型構(gòu)建過程中自動(dòng)進(jìn)行特征選擇的算法。7.4.2

特征工程工程上常用的方法有以下幾種：①計(jì)算每一個(gè)特征與響應(yīng)變量的相關(guān)性；②單個(gè)特征模型排序；③使用正則化方法選擇屬性。求解不適定問題的普遍方法是：用一組與原不適定問題相“鄰近”的適定問題的解去逼近原問題的解，這種方法稱為正則化方法。④應(yīng)用隨機(jī)森林選擇屬性；⑤訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型；⑥通過特征組合后再來選擇特征；⑦基于深度學(xué)習(xí)的特征選擇。7.4.2

特征工程（5）特征構(gòu)建。特征重要性和特征選擇是告訴使用者特征的客觀特性，但這些工作之后，需要人工進(jìn)行特征的構(gòu)建。特征構(gòu)建需要花費(fèi)大量的時(shí)間對(duì)實(shí)際樣本數(shù)據(jù)進(jìn)行處理，思考數(shù)據(jù)的結(jié)構(gòu)和如何將特征數(shù)據(jù)輸入給預(yù)測算法。對(duì)于表格數(shù)據(jù)，特征構(gòu)建意味著將特征進(jìn)行混合或組合以得到新的特征，或通過對(duì)特征進(jìn)行分解或切分來構(gòu)造新的特征；對(duì)于文本數(shù)據(jù)，特征構(gòu)建意味著設(shè)計(jì)出針對(duì)特定問題的文本指標(biāo)；對(duì)于圖像數(shù)據(jù)，這意味著自動(dòng)過濾，得到相關(guān)的結(jié)構(gòu)。7.4.2

特征工程（6）特征學(xué)習(xí)。這是在原始數(shù)據(jù)中自動(dòng)識(shí)別和使用特征。深度學(xué)習(xí)方法在特征學(xué)習(xí)領(lǐng)域有很多成功案例，比如自編碼器和受限玻爾茲曼機(jī)。它們以無監(jiān)督或半監(jiān)督的方式實(shí)現(xiàn)自動(dòng)的學(xué)習(xí)抽象的特征表示（壓縮形式），其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識(shí)別、圖像分類、物體識(shí)別和其他領(lǐng)域的先進(jìn)成果。抽象的特征表達(dá)可以自動(dòng)得到，但是用戶無法理解和利用這些學(xué)習(xí)得到的結(jié)果，只有黑盒的方式才可以使用這些特征。用戶不可能輕易懂得如何創(chuàng)造和那些效果很好的特征相似或相異的特征。這個(gè)技能是很難的，但同時(shí)它也是很有魅力的、很重要的。7.4.3

特征變換特征變換是希望通過變換消除原始特征之間的相關(guān)關(guān)系或減少冗余，從而得到更加便于數(shù)據(jù)分析的新特征。從信號(hào)處理的觀點(diǎn)來看，特征變換是在變換域中進(jìn)行處理并提取信號(hào)的性質(zhì)，通常具有明確的物理意義。從這個(gè)角度來看，特征變換操作包括傅里葉變換、小波變換和卡博爾變換等。圖7-10特征工程示例7.4.3

特征變換從統(tǒng)計(jì)的觀點(diǎn)來看，特征變換就是減少變量之間的相關(guān)性，用少數(shù)新的變量來盡可能反映樣本的信息。從這個(gè)角度來看，特征變換包括主成分分析、因子分析和獨(dú)立成分分析。從幾何的觀點(diǎn)來看，特征變換通過變換到新的表達(dá)空間，使得數(shù)據(jù)可分性更好。從這個(gè)角度來看，特征分析包括線性判別分析和方法。建立預(yù)測模型PART057.57.5建立預(yù)測模型盡管分析師經(jīng)常會(huì)偏愛某一種技術(shù)，但是對(duì)于一個(gè)基于特定數(shù)據(jù)集的問題而言，通常事先不知道用哪種技術(shù)才能建立最好的預(yù)測模型，分析師要通過實(shí)驗(yàn)來確定最佳模型。現(xiàn)代高效的分析平臺(tái)能夠幫助分析師進(jìn)行大量的實(shí)驗(yàn)，并且分析軟件包有時(shí)也會(huì)包括腳本編寫功能，因此分析師可以通過批量方式來指定和執(zhí)行實(shí)驗(yàn)。7.5.3執(zhí)行模型訓(xùn)練計(jì)劃7.5.1制定建模計(jì)劃7.5.4測量模型效果7.5.2細(xì)分?jǐn)?shù)據(jù)集對(duì)于一個(gè)基于特定數(shù)據(jù)集的問題而言，通常分析師要通過實(shí)驗(yàn)來確定最佳模型。7.5.5驗(yàn)證模型7.5建立預(yù)測模型7.5.1

制定建模計(jì)劃盡管事實(shí)上我們可以通過暴力搜索得到最佳模型，但是對(duì)于大多數(shù)問題，實(shí)驗(yàn)的數(shù)量可能會(huì)龐大到令人難以置信。因此，利用建模技術(shù)能夠提供許多不同的變量給分析師，任何一個(gè)變量都可能對(duì)模型效果產(chǎn)生質(zhì)的影響。同時(shí)，加入分析數(shù)據(jù)集的每一個(gè)新預(yù)測變量會(huì)產(chǎn)生許多種確定一個(gè)模型的方法。我們需要考慮新預(yù)測因子產(chǎn)生的主要影響和對(duì)模型的多種數(shù)學(xué)轉(zhuǎn)換，以及新預(yù)測因子和其他已存在因子之間的交互影響。分析師能夠通過一些方法縮小實(shí)驗(yàn)搜索區(qū)間。首先，因變量和自變量的特征可以限定可行分析技術(shù)的范圍（表7-1）。7.5.1

制定建模計(jì)劃表7-1變量特征限定技術(shù)方法7.5.1

制定建模計(jì)劃其次，分析師可以通過計(jì)算每個(gè)預(yù)測變量的信息值刪除那些沒有數(shù)值的變量，從而縮小實(shí)驗(yàn)范圍。通過使用正則化或逐步回歸建模技術(shù)，分析師建立了只包含正向信息值變量的一個(gè)初步模型。許多分析軟件包包含內(nèi)置特征選擇算法，分析師還可以利用開放的特征選擇分析工具。7.5.2

細(xì)分?jǐn)?shù)據(jù)集對(duì)分析數(shù)據(jù)集進(jìn)行分割或者分區(qū)應(yīng)該是實(shí)際模型訓(xùn)練前的最后一步。分析師對(duì)于分割的正確數(shù)量和大小有不同的意見，但是在一些問題上達(dá)成了廣泛的認(rèn)同。首先，分析師應(yīng)該利用隨機(jī)樣本來創(chuàng)建所有的分區(qū)。只要分析師使用一個(gè)隨機(jī)過程，簡單采樣、系統(tǒng)采樣、分層采樣、聚類采樣都可以被接受。其次，分析師應(yīng)該隨機(jī)選擇一個(gè)數(shù)據(jù)集，并在模型訓(xùn)練過程中持續(xù)使用。這個(gè)數(shù)據(jù)集應(yīng)該足夠大，使分析師和客戶可以對(duì)應(yīng)用于生產(chǎn)數(shù)據(jù)的模型性能得出有意義的結(jié)論。7.5.2

細(xì)分?jǐn)?shù)據(jù)集根據(jù)所使用的具體分析方法，分析師可以進(jìn)一步將剩余的記錄數(shù)據(jù)分為訓(xùn)練和剪枝數(shù)據(jù)集。一些方法（如分類和回歸樹）集成了一些原生的功能，可以對(duì)一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練，并且對(duì)另一個(gè)數(shù)據(jù)集進(jìn)行剪枝。在處理非常大量的記錄時(shí)，分析師可以通過將訓(xùn)練數(shù)據(jù)分割為相等的子數(shù)據(jù)集，并對(duì)單個(gè)子數(shù)據(jù)集運(yùn)行一些模型的方法來加速實(shí)驗(yàn)進(jìn)程。在對(duì)第一個(gè)復(fù)制數(shù)據(jù)集運(yùn)行模型后，分析師可以放棄效果不佳的模型方法，然后擴(kuò)展樣本大小。分析師也可以顯式地測量當(dāng)樣本擴(kuò)大時(shí)模型的運(yùn)行效果。7.5.3

執(zhí)行模型訓(xùn)練計(jì)劃在這個(gè)任務(wù)中，分析師運(yùn)行所需要的技術(shù)步驟來執(zhí)行模型訓(xùn)練計(jì)劃。所使用的技術(shù)和該技術(shù)的軟件實(shí)現(xiàn)不同，具體的技術(shù)步驟也不同。然而理想情況下，分析師已經(jīng)使用分析軟件的自動(dòng)化功能，或通過自定義腳本來使這個(gè)任務(wù)自動(dòng)化完成。因?yàn)樵谝粋€(gè)有效模型訓(xùn)練計(jì)劃中運(yùn)行的單個(gè)模型數(shù)量可能會(huì)很大，所以分析師應(yīng)該盡可能避免手工執(zhí)行。7.5.4

測量模型效果當(dāng)運(yùn)行大量模型時(shí)，需要一個(gè)客觀方法來衡量每個(gè)模型的效果，由此可以對(duì)候選模型排名并選擇最好的模型。如果沒有一個(gè)測量模型效果的客觀方法，分析師和客戶就必須依賴手工對(duì)每個(gè)模型進(jìn)行評(píng)價(jià)，這樣會(huì)限制可能的模型試驗(yàn)數(shù)量。7.5.4

測量模型效果測量模型效果有許多方法。例如“酸性測試”就是針對(duì)模型的業(yè)務(wù)影響，但要在建模過程中執(zhí)行有效測量幾乎不可能，所以分析師一般依靠近似測量。對(duì)測量的選擇有四個(gè)一般性標(biāo)準(zhǔn)：（1）測量應(yīng)該對(duì)指定的建模方法和技術(shù)具備通用性；（2）測量應(yīng)該反映獨(dú)立樣本下的模型效果；（3）測量應(yīng)該反映模型在廣泛數(shù)據(jù)下的效果；（4）測量應(yīng)該可以被分析師和客戶雙方理解。7.5.4

測量模型效果一般來說，測量方法可以分為以下三類：（1）適合分類因變量的測量方法（分類）；（2）適合連續(xù)因變量的測量方法（回歸）；（3）既適合分類也適合回歸的測量方法。7.5.4

測量模型效果對(duì)于分類問題，簡單的總體分類準(zhǔn)確性很容易計(jì)算和理解。所提出的列聯(lián)表（“混淆矩陣”）的測量方法很容易理解。表7-2混淆矩陣7.5.4

測量模型效果整體分類準(zhǔn)確率不區(qū)分積極錯(cuò)誤和消極錯(cuò)誤。但是，在實(shí)際情況中，收益矩陣往往是不對(duì)稱的，并且兩類錯(cuò)誤有不同的代價(jià)。一個(gè)預(yù)測模型可能會(huì)呈現(xiàn)出比另一種模型更好的總體準(zhǔn)確率，但是除非你理解積極錯(cuò)誤和消極錯(cuò)誤之間的區(qū)別，否則你可能無法選出最佳的模型。7.5.5

驗(yàn)證模型在分析項(xiàng)目的過程中，一個(gè)分析師可能會(huì)建立幾十上百個(gè)候選模型。模型驗(yàn)證有兩個(gè)目的。首先，它能夠幫助分析師探測過度學(xué)習(xí)，例如在一個(gè)算法的過度學(xué)習(xí)中訓(xùn)練數(shù)據(jù)得到的特征無法推廣到整體中。其次，驗(yàn)證幫助分析師對(duì)模型從最好到最差評(píng)級(jí)，以此來識(shí)別對(duì)業(yè)務(wù)最好的選擇。分析師要區(qū)別不同種類的驗(yàn)證：·n折交叉驗(yàn)證·分割樣本驗(yàn)證·時(shí)間樣本驗(yàn)證7.5.5

驗(yàn)證模型n折交叉驗(yàn)證是一種能夠確保分析師利用小樣本的抽樣數(shù)據(jù)，通過二次采樣現(xiàn)有數(shù)據(jù)，實(shí)現(xiàn)多次重疊復(fù)制，并且對(duì)每次復(fù)制數(shù)據(jù)單獨(dú)進(jìn)行驗(yàn)證模型的方法。當(dāng)數(shù)據(jù)非常昂貴時(shí)（如臨床試驗(yàn)）這是一種可使用的合理方法，但是對(duì)于大數(shù)據(jù)來說就不必要了。在分割樣本驗(yàn)證中，分析師將可用數(shù)據(jù)分割為兩個(gè)樣本，利用其中一個(gè)訓(xùn)練模型，而另一個(gè)用于驗(yàn)證模型。一些分析工具有內(nèi)置的功能來指定訓(xùn)練和驗(yàn)證數(shù)據(jù)集，使分析師可以將以上兩個(gè)步驟結(jié)合起來?？梢岳脮r(shí)間驗(yàn)證樣本對(duì)模型進(jìn)行部署前的二次驗(yàn)證。分析師在用于模型訓(xùn)練和驗(yàn)證的原始樣本之外的不同時(shí)間點(diǎn)另外單獨(dú)抽取樣本。這項(xiàng)檢查用來確保模型準(zhǔn)確性和精確性的估計(jì)是穩(wěn)定的。部署預(yù)測模型PART067.67.6部署預(yù)測模型預(yù)測模型在組織部署之前都是沒有實(shí)際價(jià)值的。在一些組織中，當(dāng)建模結(jié)束時(shí)，部署計(jì)劃就開始了。這經(jīng)常導(dǎo)致非常大的延遲和較長的部署周期。最壞的結(jié)果就是項(xiàng)目的失敗，而這種情況經(jīng)常發(fā)生。在一次調(diào)查中，只有16%的分析師說，他們的組織“總是”執(zhí)行了分析的結(jié)果。部署計(jì)劃應(yīng)該在建模開始前就展開。分析師在開始建模前一定要理解技術(shù)、組織和法律的約束。計(jì)劃開始早期，IT組織可以與模型開發(fā)并行地執(zhí)行一些任務(wù)，以減少總周期時(shí)間。圖7-11價(jià)格指數(shù)與預(yù)測7.6.3評(píng)價(jià)模型效果7.6.1審查和批準(zhǔn)預(yù)測模型7.6.4管理模型資產(chǎn)7.6.2執(zhí)行模型評(píng)分預(yù)測模型在組織部署之前都是沒有實(shí)際價(jià)值的。部署計(jì)劃應(yīng)該在建模開始前就展開。7.6部署預(yù)測模型7.6.1

審查和批準(zhǔn)預(yù)測模型在許多組織中，部署的第一步是對(duì)預(yù)測模型的正式審查和批準(zhǔn)。這個(gè)管理步驟有很多目的：首先，它確保了模型符合相關(guān)的管理個(gè)人信息使用的法律和法規(guī)；其次，它提供一個(gè)機(jī)會(huì)對(duì)模型和建立模型的方法進(jìn)行同行審查。最后，正式批準(zhǔn)模型投入生產(chǎn)環(huán)境所需資源的預(yù)算控制。批準(zhǔn)流程實(shí)際上在分析開始前就展開。如果不能保證部署資源，開展一個(gè)預(yù)測建模項(xiàng)目將是毫無意義的。分析師和客戶應(yīng)該在收集數(shù)據(jù)前，充分了解數(shù)據(jù)使用的相關(guān)法律約束。如果法律和合規(guī)審查要求從一個(gè)模型中移除一個(gè)預(yù)測因子，分析師將不得不重新估計(jì)整個(gè)模型。7.6.1

審查和批準(zhǔn)預(yù)測模型如果分析師和客戶在項(xiàng)目開始階段能夠充分評(píng)測部署環(huán)境，審查步驟中就不應(yīng)該有任何意外。如果模型使用的數(shù)據(jù)目前不在生產(chǎn)環(huán)境中，企業(yè)需要在數(shù)據(jù)源或者采取、轉(zhuǎn)換和導(dǎo)入（ETL）流程環(huán)節(jié)進(jìn)行投入來實(shí)現(xiàn)模型。這將增加項(xiàng)目的周期時(shí)間。7.6.2

執(zhí)行模型評(píng)分組織以批量過程的方式或者單個(gè)事務(wù)的方式來執(zhí)行模型評(píng)分，并且可以在分析平臺(tái)中使用原生預(yù)測或者將模型轉(zhuǎn)化為一個(gè)生產(chǎn)應(yīng)用。在組織和部署時(shí)，模式不同，執(zhí)行的具體步驟也不同。在生產(chǎn)應(yīng)用程序中的模型部署必然導(dǎo)致跨部門或跨業(yè)務(wù)單元的工作。在大多數(shù)業(yè)務(wù)中，IT組織管理生產(chǎn)應(yīng)用。這些應(yīng)用可能涉及其他的業(yè)務(wù)利益相關(guān)者，他們必須在部署前審查并批準(zhǔn)模型。這是分析開始前定義和了解部署環(huán)境非常重要的另一個(gè)原因。7.6.2

執(zhí)行模型評(píng)分在分析應(yīng)用中的模型部署需要較少的組織間協(xié)作，但是并不高效，因?yàn)樗鼘?duì)分析團(tuán)隊(duì)有額外的要求。作為一個(gè)默認(rèn)的規(guī)則，分析軟件供應(yīng)商不設(shè)計(jì)或構(gòu)建用于支持生產(chǎn)水平性能和安全要求的軟件，并且分析團(tuán)隊(duì)很少有支持生產(chǎn)經(jīng)營的流程和紀(jì)律。批量評(píng)分非常適合使用不經(jīng)常更新數(shù)據(jù)的高延遲性分析。當(dāng)所有的預(yù)測因子有著相同的更新周期時(shí)，執(zhí)行評(píng)分過程最有效的方式就是把它嵌入到ETL的過程中，更新存儲(chǔ)分?jǐn)?shù)的資料庫。否則，一個(gè)被預(yù)測因子更新所觸發(fā)的數(shù)據(jù)庫過程將是最有效的。7.6.2

執(zhí)行模型評(píng)分單個(gè)事務(wù)評(píng)分是對(duì)低延遲性分析最好的模型，在低延遲性分析中業(yè)務(wù)需要使用盡可能新的數(shù)據(jù)。當(dāng)預(yù)測模型使用會(huì)話數(shù)據(jù)時(shí)，必須有單個(gè)事務(wù)評(píng)分，例如一個(gè)網(wǎng)站用戶或者呼叫中心代表輸入的數(shù)據(jù)。對(duì)于實(shí)時(shí)的事務(wù)評(píng)分，組織一般使用為低延遲設(shè)計(jì)的專業(yè)應(yīng)用程序。無論什么樣的部署模式，分析師都有責(zé)任保證所產(chǎn)生的評(píng)分模型準(zhǔn)確地再現(xiàn)經(jīng)批準(zhǔn)的預(yù)測模型。在一些情況下，分析師實(shí)際上編寫評(píng)分代碼。更為常見的情況是，分析師編寫一個(gè)規(guī)范，然后參與應(yīng)用程序的驗(yàn)收測試。7.6.2

執(zhí)行模型評(píng)分盡管今天存在一些技術(shù)能夠取代人工編程來建立評(píng)分模型，但是許多組織缺乏使用這些技術(shù)需要的數(shù)據(jù)流和表結(jié)構(gòu)的一致性，由此造成的結(jié)果就是人工編程對(duì)很多組織來說仍然是模型部署過程中的瓶頸問題。7.6.3

評(píng)價(jià)模型效果模型開發(fā)步驟結(jié)束時(shí)進(jìn)行的驗(yàn)證測試為業(yè)務(wù)提供了信心，該模型將在生產(chǎn)部署時(shí)有效地運(yùn)行。驗(yàn)證測試不能證明模型的價(jià)值，只有在部署模型后才能確定該模型的價(jià)值。在理想情況下，預(yù)測模型在生產(chǎn)中會(huì)運(yùn)行得像在驗(yàn)證測試中一樣好。在現(xiàn)實(shí)情況中，模型可能會(huì)因?yàn)橐恍┰蚨憩F(xiàn)得不那么好。最嚴(yán)重的原因是執(zhí)行不力：分析師建立的分析數(shù)據(jù)集不能代表總體，不能對(duì)過度學(xué)習(xí)進(jìn)行控制，或者以不可重現(xiàn)的方式轉(zhuǎn)換數(shù)據(jù)。而且，即使完全正確執(zhí)行的預(yù)測模型仍會(huì)隨著時(shí)間的變化“漂移”，因?yàn)榛A(chǔ)行為發(fā)生變化，消費(fèi)者的態(tài)度和品味將會(huì)改變，一個(gè)預(yù)測購買傾向的模型無法像它首次部署時(shí)表現(xiàn)得那樣好。7.6.3

評(píng)價(jià)模型效果組織必須跟蹤和監(jiān)控已部署模型的運(yùn)行效果。這可以用兩種主要的方式進(jìn)行。最簡單的方法就是捕捉評(píng)分歷史記錄，分析在一個(gè)固定周期的評(píng)分分布，并且將觀測到的分布與原始模型驗(yàn)證時(shí)的評(píng)分分布相比較。如果模型驗(yàn)證評(píng)分服從一個(gè)正態(tài)分布，你應(yīng)該假設(shè)生產(chǎn)評(píng)分也服從正態(tài)分布。如果生產(chǎn)評(píng)分與模型驗(yàn)證評(píng)分不一致，就可能是基礎(chǔ)過程在一些方面發(fā)生了改變，從而影響了模型的效果。在信用評(píng)分應(yīng)用程序中，如果生產(chǎn)評(píng)分呈現(xiàn)一個(gè)趨向更高風(fēng)險(xiǎn)的偏斜，業(yè)務(wù)可能要采用一些導(dǎo)致逆向選擇的措施。7.6.3

評(píng)價(jià)模型效果漂移的評(píng)分分布并不意味著模型不再起作用，但是應(yīng)該對(duì)它做進(jìn)一步調(diào)查。為了評(píng)測模型效果，分析師通過對(duì)比實(shí)際行為和評(píng)分來進(jìn)行驗(yàn)證研究。實(shí)際上，這花費(fèi)的時(shí)間和精力與從頭重新建立模型一樣。當(dāng)現(xiàn)代技術(shù)可以使建模過程自動(dòng)化時(shí)，許多組織會(huì)完全跳過驗(yàn)證研究，而僅僅是定期重建生產(chǎn)模型。7.6.4

管理模型資產(chǎn)預(yù)測模型是組織必須要管理的資產(chǎn)，隨著組織擴(kuò)大對(duì)分析的投資，這項(xiàng)資產(chǎn)管理的難度也在加大。在最基本的層次上，模型管理只是一個(gè)編目操作：在一個(gè)合適的瀏覽和搜索庫中，建立和維護(hù)每個(gè)模型資產(chǎn)的記錄，往小處說，這減少了重復(fù)的工作。一個(gè)業(yè)務(wù)單元要求的項(xiàng)目，其項(xiàng)目需求可能與某一個(gè)現(xiàn)有資產(chǎn)的需求非常相似。理想情況下，一個(gè)目錄包括響應(yīng)和預(yù)測變量以及所需源數(shù)據(jù)的相關(guān)信息。這使組織在刪除服務(wù)數(shù)據(jù)源時(shí)，能夠確定數(shù)據(jù)依賴關(guān)系和所影響的模型。7.6.4

管理模型資產(chǎn)在高層次上，模型管理庫保留模型生命周期的信息。這包括從模型開發(fā)到驗(yàn)證的關(guān)鍵工作，如預(yù)期模型的得分分布，再加上定期從生產(chǎn)環(huán)境更新過來的數(shù)據(jù)。更新模型管理庫是預(yù)測建模工作流中的最后任務(wù)。第8章預(yù)測分析技術(shù)大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理什么是企業(yè)真正的競爭力？日本福山大學(xué)經(jīng)濟(jì)學(xué)教授、日本中小企業(yè)研究專家中澤孝夫以“全球化時(shí)代中小企業(yè)的制勝秘籍”為主題做了一次演講，以下是演講的主要內(nèi)容：在日本，一家企業(yè)經(jīng)營得好不好通常有兩個(gè)認(rèn)定標(biāo)準(zhǔn)：第一、企業(yè)每年平均到每一個(gè)人的利潤狀況。第二、企業(yè)是否能夠持續(xù)經(jīng)營。以一定時(shí)間內(nèi)的營收總額去判斷一個(gè)企業(yè)的好壞，似乎也可以作為一個(gè)標(biāo)準(zhǔn)，但也有做得很大，后來卻倒閉的企業(yè)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”在日本，百年以上的企業(yè)超過3萬家，兩三百年的企業(yè)也很多。為什么日本會(huì)有這么多長壽的中小企業(yè)？其中一定有獨(dú)到之處。那它們的競爭優(yōu)勢，究竟體現(xiàn)在什么地方？這種競爭優(yōu)勢分為兩種：一種是眼睛看得見的表層競爭力，比如產(chǎn)品的外觀設(shè)計(jì)或者某項(xiàng)功能。但這種競爭力很容易被替代，例如只要找到更好的人才，或者花錢把技術(shù)買過來，就可以解決，所以這不是真正的競爭力。真正的競爭力，是眼睛看不見的深層競爭力。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”為什么行業(yè)最突出的企業(yè)反而失敗了？來看一個(gè)例子，明治維新后，纖維紡織業(yè)一直是日本的支柱產(chǎn)業(yè)。當(dāng)時(shí)，有一家非常大的紡織公司叫鐘紡，它出身名門家族，在當(dāng)?shù)睾苡新曂?，上市以后很快就變成行業(yè)第一。同一時(shí)期的公司還有東麗、帝人兩家。鐘紡是最風(fēng)光的一家，但也是最快破產(chǎn)的一家。這三家公司面臨的經(jīng)營環(huán)境都一模一樣，為什么東麗、帝人活下來了，最風(fēng)光的鐘紡反倒破產(chǎn)了？原因在于東麗和帝人能夠根據(jù)市場變化開發(fā)新的纖維材料，例如開發(fā)出碳素纖維、無紡纖維等新產(chǎn)品。二者最大的差別在于產(chǎn)品開發(fā)能力。背后涉及的問題，其實(shí)是內(nèi)部制造技術(shù)如何保證新產(chǎn)品的開發(fā)？通過新工藝實(shí)現(xiàn)新產(chǎn)品的能力就是屬于深層次的能力。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”還有一個(gè)原因是什么呢？鐘紡當(dāng)時(shí)擁有很多土地，而20世紀(jì)80年代中后期日本泡沫經(jīng)濟(jì)的時(shí)候，土地漲價(jià)很厲害，1日元買過來的土地可以賣到2000日元。這樣一來，他們的心思就不在主業(yè)上，整天想的是如何用土地來做擔(dān)保貸款投資，通過這個(gè)方法來做大規(guī)模。反過來，真正在主業(yè)紡織纖維的產(chǎn)品開發(fā)、工藝開發(fā)卻被忽略掉了。鐘紡就是因?yàn)樘绣X了，熱衷搞其他投資，從而忽略了主業(yè)，最后倒閉了。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”豐田、日產(chǎn)發(fā)動(dòng)機(jī)曾經(jīng)一臺(tái)成本要差五萬日元，差距在哪里？另一個(gè)案例，20世紀(jì)60年代，當(dāng)時(shí)的日產(chǎn)規(guī)模是大過豐田的，因?yàn)樗土硗庖患夜竞腺Y，總規(guī)模遠(yuǎn)遠(yuǎn)超過豐田。但是30年之后，日產(chǎn)的營收規(guī)模就只有豐田的1/3了，而這期間豐田和日產(chǎn)的經(jīng)營環(huán)境是一模一樣的。為什么會(huì)有這么大的區(qū)別？主要是看不見的深層競爭力在發(fā)揮著關(guān)鍵作用。比如，日產(chǎn)和豐田曾經(jīng)同時(shí)推出過一款相似的車型，售價(jià)都為120萬日元，但日產(chǎn)的發(fā)動(dòng)機(jī)（見圖8-1）比豐田的發(fā)動(dòng)機(jī)成本要高5萬日元（現(xiàn)在相當(dāng)于3150元人民幣），這樣，日產(chǎn)的利潤率就相對(duì)較低了，為什么會(huì)出現(xiàn)這種情況？圖8-1豐田汽車發(fā)動(dòng)機(jī)第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”這是因?yàn)樨S田在生產(chǎn)流程和制造工藝上竭盡全力、想方設(shè)法降低成本。五萬日元的差異，實(shí)際上是制造能力的差異。而創(chuàng)造這種制造優(yōu)勢的人是企業(yè)現(xiàn)場的員工。豐田是怎么做到的呢？在生產(chǎn)過程中難免會(huì)發(fā)生各種小故障，豐田員工會(huì)去琢磨：為什么會(huì)發(fā)生故障？原因在哪兒？怎么解決？而不是像其他公司那樣，故障出現(xiàn)以后就叫技術(shù)人員過來處理。時(shí)間一久，就沉淀為一種“現(xiàn)場的力量”，同樣的產(chǎn)品，花5個(gè)小時(shí)和10個(gè)小時(shí)生產(chǎn)出來，價(jià)值是不一樣的，豐田的現(xiàn)場是持續(xù)思考的現(xiàn)場。在豐田，也包括在大多數(shù)日本企業(yè)，如果一個(gè)新員工加入工廠5年，就可以去世界各地的兄弟工廠支援。通過調(diào)研發(fā)現(xiàn)：同樣在菲律賓的日本工廠，一個(gè)當(dāng)?shù)氐膯T工要做到15年左右才可以被派出去對(duì)海外進(jìn)行支援，15年太長，其實(shí)是等不及的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”同樣做相機(jī)，為何柯達(dá)敗了，這家企業(yè)卻轉(zhuǎn)型成功？我們做企業(yè)，其實(shí)就是為了提高產(chǎn)品附加值。產(chǎn)品價(jià)值是通過加工過程來實(shí)現(xiàn)的。這又涉及兩方面，第一，在時(shí)間上做文章；第二，怎么做出好東西，這要在工藝、作業(yè)方法上下功夫，想辦法降低不良率、不出不良品。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”在大阪有一家叫東研的公司，開發(fā)出一項(xiàng)新的熱處理工藝，可以做到目前熱處理效果的五倍以上！技術(shù)開發(fā)出來了，沒有生產(chǎn)設(shè)備咋辦？技術(shù)是自己開發(fā)的，設(shè)備外面也沒有，東研只有自己開發(fā)。所以，企業(yè)必須具備這種獨(dú)特的技術(shù)開發(fā)能力，才能在競爭中取勝。東研在泰國的工廠給豐田、電裝做配套。當(dāng)時(shí)在這個(gè)工廠里發(fā)生了一件事情：有一天，有個(gè)員工在對(duì)一批零件做熱處理，已經(jīng)連續(xù)做了3天，當(dāng)天正在緊張地進(jìn)行最后200個(gè)的加工。他越做感覺越不對(duì)勁，總覺得這200個(gè)和之前做出來的顏色不一樣。他感到奇怪，想弄清楚為什么，于是馬上通知客戶?？蛻襞扇苏{(diào)查，結(jié)果發(fā)現(xiàn)最后200個(gè)產(chǎn)品是他們送錯(cuò)了材料。豐田非常感激，幸虧發(fā)現(xiàn)得及時(shí)，不然這200個(gè)零配件混到整車?yán)锩?，這將是多大的麻煩？第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”為什么這個(gè)工人有這樣的現(xiàn)場反應(yīng)？盡管這位員工是泰國當(dāng)?shù)氐膯T工，但他也能像日本人一樣具備敏銳發(fā)現(xiàn)問題的能力，這屬于“工序管理能力”。什么意思呢？通過生產(chǎn)線的管理體制，不論是哪個(gè)國家的人，只要按照這個(gè)方法在生產(chǎn)線上進(jìn)行操作，就很快能具備這種敏銳發(fā)現(xiàn)問題的能力。這是一種現(xiàn)場的提案能力，員工會(huì)邊做邊思考“我能不能做得更好？”，然后反向給領(lǐng)導(dǎo)提建議，從而把工序進(jìn)行不斷的優(yōu)化。這種現(xiàn)場提案能力，慢慢會(huì)積淀出整個(gè)工藝流程、生產(chǎn)現(xiàn)場的力量。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”這就叫看不見的深層競爭力。那么與表層競爭力之間是什么關(guān)系呢？表層競爭力是深層競爭力的外在體現(xiàn)，深層競爭力是表層競爭力的來源。如果一個(gè)企業(yè)具備深層競爭力，它就會(huì)具備轉(zhuǎn)型的能力?？逻_(dá)為什么失敗了，他缺乏轉(zhuǎn)型的能力！反而日本有幾家同類型企業(yè)，轉(zhuǎn)型得很好。日本做傳統(tǒng)相機(jī)的這些企業(yè)后來都轉(zhuǎn)到哪里去了？比如奧林巴斯做相機(jī)，后來轉(zhuǎn)到了化妝品、醫(yī)療器械，包括復(fù)印機(jī)領(lǐng)域。因?yàn)樗莆樟嗽牧系拈_發(fā)能力，化學(xué)能力、成像能力?，F(xiàn)在奧林巴斯是一個(gè)典型的醫(yī)療器械公司，它有一個(gè)產(chǎn)品，能把0.3毫米的設(shè)備伸到人的血管里做微創(chuàng)手術(shù)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”奧林巴斯還有一款CT掃描機(jī)，其技術(shù)來自于它的成像技術(shù)和解析技術(shù)。成像技術(shù)就是怎么看得見，解析技術(shù)就是看見了以后解釋這是什么。通過做相機(jī)，它掌握了相關(guān)核心技術(shù)，順利切換到了其他領(lǐng)域。圖8-2奧林巴斯內(nèi)鏡系統(tǒng)第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”人工智能、新能源汽車、物聯(lián)網(wǎng)在日本都是偽命題從深層競爭力出發(fā)，再去看當(dāng)今社會(huì)流行的一些新概念，就會(huì)發(fā)現(xiàn)其實(shí)有些是偽命題。比如人工智能，其實(shí)是一種達(dá)成目的的手段。通過大數(shù)據(jù)做統(tǒng)計(jì)分析，從而找到最佳解決方案。但是，你想做什么產(chǎn)品、如何做得更好？這兩個(gè)出發(fā)點(diǎn)是由人來決定的，原點(diǎn)還是要依靠人。為了達(dá)到這個(gè)目的，用什么方法去獲取大數(shù)據(jù)？通過音像可以獲取大數(shù)據(jù)，通過感應(yīng)器可以獲取大數(shù)據(jù)，或者通過某種作業(yè)過程可以獲取大數(shù)據(jù)，但前提是必須源于你有一個(gè)正確的目的，人工智能才能有效發(fā)揮作用。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”另外一個(gè)，有人說接下來會(huì)是電動(dòng)汽車的時(shí)代。但這種說法今天看來很難成立。全世界的汽車產(chǎn)量是每年1億800萬臺(tái)。而過去10年積累下電動(dòng)汽車的產(chǎn)能呢？2019年是30萬臺(tái)，2020年可能會(huì)達(dá)到50萬臺(tái)。電動(dòng)汽車的產(chǎn)量占比還是非常低的，為什么？根本原因在于充電電池的生產(chǎn)供應(yīng)能力跟不上，全世界最大的充電電池廠家是松下，電動(dòng)汽車的發(fā)展受制于電池。傳統(tǒng)燃油車一箱油可以跑400、500公里，電動(dòng)汽車充滿也只能跑200、300公里。對(duì)于消費(fèi)者來說，電動(dòng)汽車只是多了一種選擇，并不能完全取代傳統(tǒng)燃油汽車。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”再者，汽車最重要的部分是發(fā)動(dòng)機(jī)！可是你會(huì)發(fā)現(xiàn)，90%的汽車廠家使用的都是自己的發(fā)動(dòng)機(jī)，通用產(chǎn)品很少。豐田曾和電裝聯(lián)合開發(fā)發(fā)動(dòng)機(jī)，其實(shí)他們本身是一家，電裝是從豐田分出來的，所以都是不對(duì)外的?，F(xiàn)在又說什么物聯(lián)網(wǎng)。所謂的物聯(lián)網(wǎng)是什么概念？其實(shí)也是一個(gè)偽命題。因?yàn)槲锱c物之間的連接，企業(yè)只會(huì)通過網(wǎng)絡(luò)傳遞想傳遞的信息，不能對(duì)外、不想對(duì)外傳遞的信息，也就是所謂的商業(yè)秘密，企業(yè)是不會(huì)通過物聯(lián)網(wǎng)對(duì)外發(fā)布的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”中日企業(yè)精密儀器加工能力，深層差距在哪里？再來提一個(gè)概念——公差，指產(chǎn)品允許的尺寸誤差。在日本，一般的公差是20-30微米，也就是說，只要在這個(gè)公差范圍內(nèi)組裝，產(chǎn)品質(zhì)量都是有保證的。技術(shù)人員比較追求完美，說我們能不能把公差控制在5微米以內(nèi)，但那樣的話，成本就會(huì)非常高。有人說，這是一種質(zhì)量過剩。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”再看中國，一般的公差是多少？50-60微米，大家覺得這是一個(gè)比較合適的公差，可關(guān)鍵在于針對(duì)什么領(lǐng)域。對(duì)于一般家電產(chǎn)品，按照這個(gè)公差組裝出來是沒有問題的。但對(duì)于一些精密產(chǎn)業(yè)例如半導(dǎo)體，公差就必須控制在17納米以內(nèi)。這是什么概念？一億分之一毫米的17倍。這樣，中國就很難加工精密儀器。以半導(dǎo)體生產(chǎn)、半導(dǎo)體裝備為例，目前只有荷蘭和德國才能達(dá)到這種精度，所以全世界都只能從這兩個(gè)國家進(jìn)口。當(dāng)然，日常生活所需的產(chǎn)品，中國的加工水平是完全可以滿足的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”另外一個(gè)例子是，韓國和日本正在打貿(mào)易戰(zhàn)，韓國有半導(dǎo)體工業(yè)，半導(dǎo)體工業(yè)最后有一道清洗工序要用到一種專門的清洗液，這種清洗液日本占全球70%的份額。日本不提供了，韓國就開始仿制，但是化學(xué)品和一般家電產(chǎn)品不同，沒有辦法進(jìn)行解體，仿制非常困難，所以這時(shí)候整個(gè)韓國的半導(dǎo)體行業(yè)就運(yùn)轉(zhuǎn)不了。因?yàn)槟壳鞍雽?dǎo)體生產(chǎn)用的高精度加工裝備、核心零部件和特殊材料主要掌握在日本和德國。有意思的是，日本生產(chǎn)特殊材料所用到的大部分原料都來自中國，中國有原料卻加工不出來。為什么會(huì)這樣？因?yàn)檫@種技術(shù)積累和核心開發(fā)能力的建立，怎么都要積累50到70年。因而，當(dāng)前中國正是核心技術(shù)開發(fā)的積累期，此時(shí)非常有必要學(xué)習(xí)日本企業(yè)的深層，而非表層競爭力，才能給未來發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”目錄統(tǒng)計(jì)分析監(jiān)督和無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)12345語義分析6視覺分析統(tǒng)計(jì)分析PART018.18.1統(tǒng)計(jì)分析用于預(yù)測分析的技術(shù)已經(jīng)有了一定的發(fā)展，目前有上百種不同的算法用于訓(xùn)練預(yù)測模型。許多統(tǒng)計(jì)技術(shù)同時(shí)適用于預(yù)測和解釋，而有一些技術(shù)，如混合線性模型，主要用于解釋，也就是分析師想要評(píng)價(jià)一個(gè)或者多個(gè)措施對(duì)于其他措施的影響。8.1統(tǒng)計(jì)分析一些預(yù)測分析的關(guān)鍵技術(shù)（如線性回歸）是成熟的、易理解的、廣泛應(yīng)用的，并且在很多軟件工具中容易獲得。統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)是大數(shù)據(jù)預(yù)測分析的兩個(gè)重要技術(shù)。細(xì)分、社會(huì)網(wǎng)絡(luò)分析和文本分析等無監(jiān)督學(xué)習(xí)技術(shù)有時(shí)也在預(yù)測分析工作流中起著重要的作用。統(tǒng)計(jì)分析就是用以數(shù)學(xué)公式為手段的統(tǒng)計(jì)方法來分析數(shù)據(jù)。統(tǒng)計(jì)方法，例如線性回歸，利用已知的特征來估計(jì)數(shù)學(xué)模型的參數(shù)。分析師試圖檢驗(yàn)設(shè)定的假設(shè)，比如利率符合特定的數(shù)學(xué)模型。這些模型的優(yōu)勢在于它們具有高度的可歸納性。如果你能證明歷史數(shù)據(jù)符合已知的分布，就可以使用這個(gè)信息來預(yù)測新情況下的行為。8.1統(tǒng)計(jì)分析例如，如果知道炮彈的位置、速度和加速度，可以用一個(gè)數(shù)學(xué)模型計(jì)算來預(yù)測它將在哪里落下；如果能證明對(duì)營銷活動(dòng)的反饋?zhàn)裱粋€(gè)已知的統(tǒng)計(jì)分布，可以根據(jù)客戶的過去購買記錄、人口統(tǒng)計(jì)指標(biāo)、促銷的品類等，胸有成竹地預(yù)測營銷活動(dòng)的效果。統(tǒng)計(jì)方法大多是定量的，但也可以是定性的。這種分析通常通過概述來描述數(shù)據(jù)集，比如提供與數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)數(shù)據(jù)的平均值、中位數(shù)或眾數(shù)，也可以被用于推斷數(shù)據(jù)集中的模式和關(guān)系，例如回歸性分析和相關(guān)性分析。統(tǒng)計(jì)方法面臨的問題是，現(xiàn)實(shí)生活中的現(xiàn)象經(jīng)常不會(huì)符合已知的統(tǒng)計(jì)分布。監(jiān)督和無監(jiān)督學(xué)習(xí)PART028.28.2監(jiān)督和無監(jiān)督學(xué)習(xí)在學(xué)習(xí)活動(dòng)中我們經(jīng)常可以“舉一反三”。以高考為例，高考的題目在上考場前我們未必做過，但在高中階段學(xué)習(xí)時(shí)我們做過很多很多題目，掌握了解決這類題目的方法。因此，在考場上面對(duì)陌生題目時(shí)我們也可以算出答案。在高中“題海戰(zhàn)術(shù)”的做題訓(xùn)練中，參考答案是非常重要的，而這里的答案就是所謂的“標(biāo)簽”。假設(shè)兩個(gè)完全相同的人進(jìn)入高中，一個(gè)正常學(xué)習(xí)，另一人做的所有題目都沒有答案，那么想必第一個(gè)人高考會(huì)發(fā)揮較好，第二個(gè)人則可能會(huì)發(fā)瘋。在學(xué)習(xí)中，如果所有練習(xí)都有答案（標(biāo)簽），則為監(jiān)督學(xué)習(xí)（又稱有監(jiān)督學(xué)習(xí)），而如果沒有標(biāo)簽，那就是無監(jiān)督學(xué)習(xí)。此外還有半監(jiān)督學(xué)習(xí)，是指訓(xùn)練集中一部分?jǐn)?shù)據(jù)有特征和標(biāo)簽，另一部分只有特征，綜合兩類數(shù)據(jù)來生成合適的函數(shù)。8.2.3監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別8.2.1監(jiān)督學(xué)習(xí)8.2.2無監(jiān)督學(xué)習(xí)在學(xué)習(xí)中，如果所有練習(xí)都有答案（標(biāo)簽），則為監(jiān)督學(xué)習(xí)（又稱有監(jiān)督學(xué)習(xí)），而如果沒有標(biāo)簽，那就是無監(jiān)督學(xué)習(xí)。8.2監(jiān)督和無監(jiān)督學(xué)習(xí)8.2.1

監(jiān)督學(xué)習(xí)“監(jiān)督學(xué)習(xí)”需要定義好因變量，是從標(biāo)簽化訓(xùn)練數(shù)據(jù)集中推斷出函數(shù)的機(jī)器學(xué)習(xí)。顯然，大數(shù)據(jù)分析師主要使用監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行預(yù)測分析。如果沒有預(yù)先設(shè)定的因變量，分析師會(huì)試圖識(shí)別特征，但不會(huì)試圖預(yù)測或者解釋特定關(guān)系，這些用例就需要運(yùn)用無監(jiān)督學(xué)習(xí)技術(shù)。

圖8-5標(biāo)簽數(shù)據(jù)8.2.1

監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是最常見的分類（區(qū)別于聚類）問題。在監(jiān)督學(xué)習(xí)中，訓(xùn)練數(shù)據(jù)由一組訓(xùn)練實(shí)例組成，每一個(gè)例子都是一對(duì)由一個(gè)輸入對(duì)象（通常是一個(gè)向量）和一個(gè)期望的輸出值（也稱監(jiān)督信號(hào)）。通過監(jiān)督學(xué)習(xí)算法分析訓(xùn)練數(shù)據(jù)并產(chǎn)生一個(gè)推斷，可以用于映射新的例子。也就是說，用已知某些特性的樣本作為訓(xùn)練集，從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)（模型參數(shù)）以建立一個(gè)數(shù)學(xué)模型（如模式識(shí)別中的判別模型，人工神經(jīng)網(wǎng)絡(luò)法中的權(quán)重模型等），當(dāng)新的數(shù)據(jù)到來時(shí)，可以根據(jù)這個(gè)函數(shù)預(yù)測結(jié)果，即用已建立的模型來預(yù)測未知樣本，這種方法是最常見的監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)方法，其目標(biāo)往往是讓計(jì)算機(jī)去學(xué)習(xí)我們已經(jīng)創(chuàng)建好的分類系統(tǒng)（模型）。8.2.1

監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹，這兩種技術(shù)高度依賴事先確定的分類系統(tǒng)所給出的信息。對(duì)于神經(jīng)網(wǎng)絡(luò)，分類系統(tǒng)利用信息判斷網(wǎng)絡(luò)的錯(cuò)誤，然后不斷調(diào)整網(wǎng)絡(luò)參數(shù)。對(duì)于決策樹，分類系統(tǒng)用它來判斷哪些屬性提供了最多的信息。在監(jiān)督學(xué)習(xí)中，訓(xùn)練集的每一個(gè)數(shù)據(jù)已有特征和標(biāo)簽，即有輸入數(shù)據(jù)和輸出數(shù)據(jù)，通過學(xué)習(xí)訓(xùn)練集中輸入數(shù)據(jù)和輸出數(shù)據(jù)的關(guān)系，生成合適的函數(shù)將輸入映射到輸出。比如分類和回歸。常見的監(jiān)督學(xué)習(xí)算法是回歸分析和統(tǒng)計(jì)分類，應(yīng)用最為廣泛的算法是：支持向量機(jī)（SVM）、線性回歸、邏輯回歸、樸素貝葉斯、線性判別分析、決策樹以及k-近鄰（KNN）等。8.2.2

無監(jiān)督學(xué)習(xí)雖然大數(shù)據(jù)分析師主要使用監(jiān)督學(xué)習(xí)進(jìn)行預(yù)測分析，但如果沒有預(yù)先設(shè)定的因變量，分析師會(huì)試圖識(shí)別特征，不會(huì)試圖預(yù)測或者解釋特定的關(guān)系，這些用例就需要用無監(jiān)督學(xué)習(xí)技術(shù)?！盁o監(jiān)督學(xué)習(xí)”是在無標(biāo)簽數(shù)據(jù)或者缺乏定義因變量的數(shù)據(jù)中尋找模式的技術(shù)。也就是說，輸入數(shù)據(jù)沒有被標(biāo)記，也沒有確定的結(jié)果。樣本數(shù)據(jù)類別未知，就需要根據(jù)樣本間的相似性對(duì)樣本集進(jìn)行分類（聚類），試圖使類內(nèi)差距最小化，類間差距最大化。圖8-6無標(biāo)簽數(shù)據(jù)8.2.2

無監(jiān)督學(xué)習(xí)無標(biāo)簽數(shù)據(jù)例如位圖圖片、社交媒體評(píng)論和從多主體中聚集的心理分析數(shù)據(jù)等。其中每一種情況下，通過一個(gè)外部過程把對(duì)象進(jìn)行分類都是可能的。例如，可以要求腫瘤學(xué)家去審查一組乳腺圖像，將它們歸類為可能是惡性的腫瘤（或不是惡性的），但這個(gè)分類并不是原始數(shù)據(jù)源的一部分。無監(jiān)督學(xué)習(xí)技術(shù)幫助分析師識(shí)別數(shù)據(jù)驅(qū)動(dòng)的模式，這些模式可能需要進(jìn)一步調(diào)查。8.2.2

無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的方法分為兩大類：（1）基于概率密度函數(shù)估計(jì)的直接方法：指設(shè)法找到各類別在特征空間的分布參數(shù)，再進(jìn)行分類。（2）基于樣本間相似性度量的簡潔聚類方法：其原理是設(shè)法定出不同類別的核心或初始內(nèi)核，然后依據(jù)樣本與核心之間的相似性度量將樣本聚集成不同的類別。8.2.2

無監(jiān)督學(xué)習(xí)利用聚類結(jié)果，可以提取數(shù)據(jù)集中隱藏信息，對(duì)未來數(shù)據(jù)進(jìn)行分類和預(yù)測。應(yīng)用于數(shù)據(jù)挖掘、模式識(shí)別、圖像處理等。預(yù)測分析的過程中，分析人員可以使用無監(jiān)督學(xué)習(xí)技術(shù)來了解數(shù)據(jù)并加快模型構(gòu)建過程。它往往用在預(yù)測建模過程中，包括異常檢測、圖與網(wǎng)絡(luò)分析、貝葉斯網(wǎng)絡(luò)、文本挖掘、聚類和降維。8.2.3

監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的不同點(diǎn)在于：（1）監(jiān)督學(xué)習(xí)方法必須要有訓(xùn)練集與測試樣本。在訓(xùn)練集中找規(guī)律，而對(duì)測試樣本使用這種規(guī)律。而無監(jiān)督學(xué)習(xí)沒有訓(xùn)練集，只有一組數(shù)據(jù)，在該組數(shù)據(jù)集內(nèi)尋找規(guī)律。（2）監(jiān)督學(xué)習(xí)的方法是識(shí)別事物，識(shí)別的結(jié)果表現(xiàn)在給待識(shí)別數(shù)據(jù)加上了標(biāo)簽，因此訓(xùn)練樣本集必須由帶標(biāo)簽的樣本組成。而無監(jiān)督學(xué)習(xí)方法只有要分析的數(shù)據(jù)集的本身，預(yù)先沒有什么標(biāo)簽。如果發(fā)現(xiàn)數(shù)據(jù)集呈現(xiàn)某種聚集性，則可按自然的聚集性進(jìn)行分類。8.2.3

監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別（3）無監(jiān)督學(xué)習(xí)方法尋找數(shù)據(jù)集中的規(guī)律性，這種規(guī)律性并不一定要達(dá)到劃分?jǐn)?shù)據(jù)集的目的，也就是說不一定要“分類”。這一點(diǎn)要比監(jiān)督學(xué)習(xí)方法的用途更廣。譬如分析一堆數(shù)據(jù)的主分量，或分析數(shù)據(jù)集有什么特點(diǎn)，都可以歸于無監(jiān)督學(xué)習(xí)方法的范疇。機(jī)器學(xué)習(xí)PART038.38.3機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識(shí)或技能，重新組織已有的知識(shí)結(jié)構(gòu)，使之不斷改善自身的性能。機(jī)器學(xué)習(xí)不是從一個(gè)關(guān)于行為的特定假設(shè)出發(fā)，而是試圖學(xué)習(xí)和盡可能密切地描述歷史事實(shí)和目標(biāo)行為之間的關(guān)系，它與統(tǒng)計(jì)技術(shù)有本質(zhì)的區(qū)別。機(jī)器學(xué)習(xí)技術(shù)不受具體統(tǒng)計(jì)分布的限制，所以往往能夠更加精確地建立模型。8.3.3過濾8.3.1機(jī)器學(xué)習(xí)的思路8.3.4貝葉斯網(wǎng)絡(luò)8.3.2異常檢測機(jī)器學(xué)習(xí)專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識(shí)或技能。8.3.5文本挖掘8.3機(jī)器學(xué)習(xí)8.3.1

機(jī)器學(xué)習(xí)的思路機(jī)器學(xué)習(xí)的思路是這樣的：考慮能不能利用一些訓(xùn)練數(shù)據(jù)（例如已經(jīng)做過的題），使機(jī)器能夠利用它們（解題方法）分析未知數(shù)據(jù)（高考的題目）？最簡單也是最普遍的一類機(jī)器學(xué)習(xí)算法就是分類，它輸入的訓(xùn)練數(shù)據(jù)有特征，有標(biāo)簽。所謂學(xué)習(xí)，其本質(zhì)就是找到特征和標(biāo)簽間的關(guān)系。這樣當(dāng)有特征而無標(biāo)簽的未知數(shù)據(jù)輸入時(shí)，就可以通過已有的關(guān)系得到未知數(shù)據(jù)標(biāo)簽。在上述的分類過程中，如果所有訓(xùn)練數(shù)據(jù)都有標(biāo)簽，則為監(jiān)督學(xué)習(xí)。如果數(shù)據(jù)沒有標(biāo)簽，就是無監(jiān)督學(xué)習(xí)，即聚類（見圖8-7）。在實(shí)際應(yīng)用中，標(biāo)簽的獲取常常需要極大的人工工作量，有時(shí)甚至非常困難。8.3.1

機(jī)器學(xué)習(xí)的思路

圖8-7機(jī)器學(xué)習(xí)示意8.3.1

機(jī)器學(xué)習(xí)的思路監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的中間，就是半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)訓(xùn)練數(shù)據(jù)的一部分是有標(biāo)簽的，另一部分沒有標(biāo)簽，而且其中沒標(biāo)簽數(shù)據(jù)的數(shù)量居多（這符合現(xiàn)實(shí)情況）。隱藏在半監(jiān)督學(xué)習(xí)下的基本規(guī)律在于：數(shù)據(jù)的分布必然不是完全隨機(jī)的，通過一些有標(biāo)簽數(shù)據(jù)的局部特征，以及更多沒有標(biāo)簽數(shù)據(jù)的整體分布，得到可以接受甚至是非常好的分類結(jié)果。人類善于發(fā)現(xiàn)數(shù)據(jù)中的模式與關(guān)系，但不能快速處理大量的數(shù)據(jù)。另一方面，機(jī)器非常善于迅速處理大量數(shù)據(jù)，但它們得知道怎么做。如果人類知識(shí)可以和機(jī)器的處理速度相結(jié)合，機(jī)器可以處理大量數(shù)據(jù)而不需要人類干涉——這就是機(jī)器學(xué)習(xí)的基本概念。8.3.1

機(jī)器學(xué)習(xí)的思路機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用，例如數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用等，其中很多都屬于大數(shù)據(jù)分析技術(shù)的應(yīng)用范疇。然而，機(jī)器學(xué)習(xí)技術(shù)會(huì)過度學(xué)習(xí)，這意味著它們?cè)谟?xùn)練數(shù)據(jù)中學(xué)習(xí)到的關(guān)系無法推廣到總體中。因此，大多數(shù)廣泛使用的機(jī)器學(xué)習(xí)技術(shù)都有內(nèi)置的控制過度學(xué)習(xí)的機(jī)制，例如交叉檢驗(yàn)或者用獨(dú)立樣本進(jìn)行修正。隨著統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的不斷融合，它們之間的區(qū)別正逐漸變小。例如，逐步回歸

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理 課件 第7-13章 預(yù)測分析方法-組織分析團(tuán)隊(duì)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理課件第7-13章預(yù)測分析方法-組織分析團(tuán)隊(duì)