版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第7章預(yù)測分析方法大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理我們已經(jīng)知道,地震是由構(gòu)造板塊(即偶爾會(huì)漂移的陸地板塊)相互擠壓造成的,這種板塊擠壓發(fā)生在地球深處,并且各個(gè)板塊的相互運(yùn)動(dòng)極其復(fù)雜。因此,有用的地震數(shù)據(jù)來之不易,而要弄明白是什么地質(zhì)運(yùn)動(dòng)導(dǎo)致了地震,基本上是不現(xiàn)實(shí)的。每年,世界各地約有7000次里氏4.0或更高級(jí)別的地震發(fā)生,每年有成千上萬的人因此喪命,而一次地震帶來的物質(zhì)損失就有千億美元之多。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震雖然地震有預(yù)兆,“但是我們?nèi)匀粺o法通過它們可靠、有效地預(yù)測地震”。相反,我們能做的就是盡可能地為地震做好準(zhǔn)備,包括在設(shè)計(jì)、修建橋梁和其他建筑的時(shí)候就把地震考慮在內(nèi),并且準(zhǔn)備好地震應(yīng)急包等,一旦發(fā)生大地震,這些基礎(chǔ)設(shè)施和群眾都能有更充足的準(zhǔn)備。
圖7-1全球?qū)崟r(shí)地震監(jiān)測第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震如今,科學(xué)家們只能預(yù)報(bào)某個(gè)地方、某個(gè)具體的時(shí)間段內(nèi)發(fā)生某級(jí)地震的可能性。例如,他們只能說未來30年,某個(gè)地區(qū)有80%的可能性會(huì)發(fā)生里氏8.4級(jí)地震,但他們無法完全確定地說出何時(shí)何地會(huì)發(fā)生地震,或者發(fā)生幾級(jí)地震??茖W(xué)家能預(yù)報(bào)地震,但是他們無法預(yù)測地震。歸根結(jié)底,準(zhǔn)確地預(yù)測地震,就要回答何時(shí)、何地、何種震級(jí)這三個(gè)關(guān)鍵問題,需要掌握促使地震發(fā)生的不同自然因素,以及揭示它們之間復(fù)雜的相互運(yùn)動(dòng)的更多、更好的數(shù)據(jù)。預(yù)測不同于預(yù)報(bào)。不過,雖然準(zhǔn)確預(yù)測地震還有很長的路要走,但科學(xué)家已經(jīng)越來越多地為地震受害者爭取到那么幾秒鐘的時(shí)間了。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震例如,斯坦福大學(xué)的“地震捕捉者網(wǎng)絡(luò)”就是一個(gè)會(huì)生成大量數(shù)據(jù)的廉價(jià)監(jiān)測網(wǎng)絡(luò)的典型例子,它由參與分布式地震檢測網(wǎng)絡(luò)的大約200個(gè)志愿者的計(jì)算機(jī)組成。有時(shí)候,這個(gè)監(jiān)測網(wǎng)絡(luò)能提前10秒鐘提醒可能會(huì)受災(zāi)的人群。這10秒鐘,就意味著你可以選擇是搭乘運(yùn)行的電梯還是走樓梯,是走到開闊處去還是躲到桌子下面。技術(shù)的進(jìn)步使得捕捉和存儲(chǔ)如此多數(shù)據(jù)的成本大大降低。能得到更多、更好的數(shù)據(jù)不只為計(jì)算機(jī)實(shí)現(xiàn)更精明的決策提供了更多的可能性,也使人類變得更聰明了。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震從本質(zhì)上來說,準(zhǔn)確預(yù)測地震既是大數(shù)據(jù)的機(jī)遇又是挑戰(zhàn)。單純擁有數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。我們既要掌握足夠多的相關(guān)數(shù)據(jù),又要具備快速分析并處理這些數(shù)據(jù)的能力,只有這樣,我們才能爭取到足夠多的行動(dòng)時(shí)間。越是即將逼近的事情,越需要我們快速地實(shí)現(xiàn)準(zhǔn)確預(yù)測。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測地震目錄預(yù)測分析方法論建立業(yè)務(wù)需求建立分析數(shù)據(jù)集降維與特征工程12345建立預(yù)測模型6部署預(yù)測模型預(yù)測分析方法論P(yáng)ART017.17.1預(yù)測分析方法論預(yù)測分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系,從而預(yù)測未來的事件和行為。因此,預(yù)測分析已經(jīng)在各行各業(yè)得到廣泛應(yīng)用,例如預(yù)測保險(xiǎn)索賠、市場營銷反饋、債務(wù)損失、購買行為、商品用途、客戶流失等。假設(shè)治療數(shù)據(jù)顯示,大多數(shù)患有ABC疾病的病人在用XYZ藥物治療后反映效果很好,盡管其中有個(gè)別人出現(xiàn)了副作用甚至死亡。你可以拒絕給任何人提供XYZ藥物,因?yàn)樗懈弊饔玫娘L(fēng)險(xiǎn),但這樣一來,大多數(shù)病人就會(huì)繼續(xù)受到疾病的折磨;或者你也可以讓病人自己來做決定,通過簽署法律文件來免責(zé)。但是,最好的解決方法是基于患者的其他信息,利用分析來預(yù)測治療的效果。7.1.2預(yù)測分析的流程7.1.1數(shù)據(jù)具有內(nèi)在預(yù)測性預(yù)測分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系,從而預(yù)測未來的事件和行為。7.1預(yù)測分析方法論7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測性現(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)的堆積都不是為了預(yù)測,但預(yù)測分析系統(tǒng)能從這些龐大的數(shù)據(jù)中學(xué)到預(yù)測未來的能力,正如人們可以從自己的經(jīng)歷中汲取經(jīng)驗(yàn)教訓(xùn)那樣。我們敬畏數(shù)據(jù)的龐大數(shù)量,但規(guī)模是相對(duì)的,數(shù)據(jù)最激動(dòng)人心的不是其數(shù)量,而是數(shù)量的增長速度。7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測性世上萬物均有關(guān)聯(lián),這在數(shù)據(jù)中也有反映。例如:?你的購買行為與你的消費(fèi)歷史、在線習(xí)慣、支付方式以及社會(huì)交往人群相關(guān)。數(shù)據(jù)能從這些因素中預(yù)測出消費(fèi)者的行為。?你的身體健康狀況與生命選擇和環(huán)境有關(guān),因此數(shù)據(jù)能通過小區(qū)以及家庭規(guī)模等信息來預(yù)測你的健康狀態(tài)。?你對(duì)工作的滿意程度與你的工資水平、表現(xiàn)評(píng)定以及升職情況相關(guān),而數(shù)據(jù)則能反映這些現(xiàn)實(shí)。?經(jīng)濟(jì)行為與人類情感相關(guān),因此數(shù)據(jù)也將反映這種關(guān)系。7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測性數(shù)據(jù)科學(xué)家通過預(yù)測分析系統(tǒng)不斷地從數(shù)據(jù)集中找到規(guī)律。如果將數(shù)據(jù)整合在一起,盡管你不知道自己將從這些數(shù)據(jù)里發(fā)現(xiàn)什么,但至少能通過觀測解讀數(shù)據(jù)語言來發(fā)現(xiàn)某些內(nèi)在聯(lián)系。預(yù)測常常是從小處入手。預(yù)測分析是從預(yù)測變量開始的,這是對(duì)個(gè)人單一值的評(píng)測。近期性就是一個(gè)常見的變量,表示某人最近一次購物、最近一次犯罪或最近一次發(fā)病到現(xiàn)在的時(shí)間,近期值越接近現(xiàn)在,觀察對(duì)象再次采取行動(dòng)的概率就越高。許多模型的應(yīng)用都是從近期表現(xiàn)最積極的人群開始的,無論是試圖建立聯(lián)系、開展犯罪調(diào)查還是進(jìn)行醫(yī)療診斷。7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測性與此相似,頻率一一描述某人做出相同行為的次數(shù)也是常見且富有成效的指標(biāo)。如果有人此前經(jīng)常做某事,那么他再次做這件事的概率就會(huì)很高。實(shí)際上,預(yù)測就是根據(jù)人的過去行為來預(yù)見其未來行為。因此,預(yù)測分析模型不僅要靠那些枯燥的基本人口數(shù)據(jù),例如住址、性別等,而且也要涵蓋近期性、頻率、購買行為、經(jīng)濟(jì)行為以及電話和上網(wǎng)等產(chǎn)品使用習(xí)慣之類的行為預(yù)測變量。這些行為通常是最有價(jià)值的,因?yàn)槲覀円A(yù)測的就是未來是否還會(huì)出現(xiàn)這些行為,這就是通過行為來預(yù)測行為的過程。預(yù)測分析系統(tǒng)會(huì)綜合考慮數(shù)十項(xiàng)甚至數(shù)百項(xiàng)預(yù)測變量。把個(gè)人的全部已知數(shù)據(jù)都輸入系統(tǒng),然后等著系統(tǒng)運(yùn)轉(zhuǎn)。系統(tǒng)內(nèi)綜合考量這些因素的核心學(xué)習(xí)技術(shù)正是科學(xué)的魔力所在。7.1.2
預(yù)測分析的流程分析方法論應(yīng)該充分利用分析工具所具有的功能。為了使效用最大化,分析師和客戶應(yīng)該全神貫注于項(xiàng)目過程開始和結(jié)論的部分——業(yè)務(wù)定義和部署上。問題定義和部署之間的技術(shù)開發(fā)活動(dòng),如模型訓(xùn)練和驗(yàn)證是很重要的,但是這些步驟中的關(guān)鍵選擇卻取決于如何定義這個(gè)問題。7.1.2
預(yù)測分析的流程預(yù)測分析的目標(biāo)是根據(jù)你所知道的事實(shí)來預(yù)測你所不知道的事情。例如,你可能會(huì)知道一所住房的特征信息——它的地理位置、建筑時(shí)間、建筑面積、房間數(shù)等,但是你不知道它的市場價(jià)值。如果知道了它的市場價(jià)值,你就能為這個(gè)房子制定一個(gè)報(bào)價(jià)。類似的,你可能會(huì)想知道一個(gè)病人是否會(huì)患有某些疾病,一個(gè)手機(jī)用戶每月消費(fèi)的通話時(shí)長,或者借款人是否會(huì)每月還款等等。在每個(gè)例子里,你都要利用那些已經(jīng)知道的數(shù)據(jù)來預(yù)測需要知道的信息。精準(zhǔn)預(yù)測能產(chǎn)生很大的好處,能帶動(dòng)商業(yè)價(jià)值的增加,因?yàn)榭煽康念A(yù)測能夠?qū)е赂玫臎Q策。7.1.2
預(yù)測分析的流程預(yù)測分析的流程包括四個(gè)主要步驟或部分,即業(yè)務(wù)定義、數(shù)據(jù)準(zhǔn)備、模型開發(fā)和模型部署,每一個(gè)部分又包括一系列子任務(wù)。應(yīng)該明確的是,現(xiàn)代企業(yè)中的分析方法不只是一組數(shù)據(jù)的技術(shù)說明。還有一些必要的組織步驟來確保預(yù)測模型能夠完成組織的目標(biāo),同時(shí)不會(huì)給業(yè)務(wù)帶來法律法規(guī)的風(fēng)險(xiǎn)。
圖7-3預(yù)測分析方法論定義業(yè)務(wù)需求PART027.27.2定義業(yè)務(wù)需求一個(gè)分析項(xiàng)目應(yīng)該以結(jié)果為導(dǎo)向,并且其結(jié)果也應(yīng)該對(duì)業(yè)務(wù)產(chǎn)生積極的作用,但這一點(diǎn)常常會(huì)被忽略。例如有的分析師往往不知道或者無法闡明他們所進(jìn)行的分析會(huì)對(duì)項(xiàng)目的業(yè)務(wù)產(chǎn)生怎樣的影響。7.2.3了解誤差成本7.2.1理解業(yè)務(wù)問題7.2.4確定預(yù)測窗口7.2.2定義應(yīng)對(duì)措施一個(gè)分析項(xiàng)目應(yīng)該以結(jié)果為導(dǎo)向,并且其結(jié)果也應(yīng)該對(duì)業(yè)務(wù)產(chǎn)生積極的作用。7.2.5評(píng)估部署環(huán)境7.2定義業(yè)務(wù)需求7.2.1
理解業(yè)務(wù)問題每個(gè)分析項(xiàng)目都應(yīng)該從一個(gè)清晰定義好的業(yè)務(wù)目標(biāo)開始,并且從項(xiàng)目利益相關(guān)者的角度來進(jìn)行闡述。例如:·將市場活動(dòng)ABC的反饋率提高至少x%;·將欺詐交易損失減少y%;·將客戶留存率提高z%。分析師經(jīng)常抱怨組織不用他們的分析結(jié)果。換言之,分析師花費(fèi)了很大精力來收集數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù),運(yùn)用分析構(gòu)建預(yù)測模型,然后,該模型卻被束之高閣,這樣其實(shí)就是失敗了。大多數(shù)的失敗案例都是由于缺少精確定義的業(yè)務(wù)價(jià)值。這跟分析本身不同,實(shí)施預(yù)測模型是一項(xiàng)跨部門的活動(dòng),它需要利益相關(guān)者、分析師和IT等多方合作,并且也有既定的項(xiàng)目實(shí)施成本。7.2.2
定義應(yīng)對(duì)措施應(yīng)對(duì)的措施之一就是獲得想要的預(yù)測內(nèi)容。為了實(shí)現(xiàn)更大的價(jià)值,應(yīng)對(duì)措施應(yīng)該能對(duì)那些產(chǎn)出結(jié)果會(huì)影響組織關(guān)鍵指標(biāo)的決策或者業(yè)務(wù)流程起到作用。例如,一個(gè)針對(duì)性的促銷是否會(huì)對(duì)目標(biāo)客戶有影響,一個(gè)住房最可能的銷售價(jià)格是什么,一個(gè)頁面訪問者最可能的下一次點(diǎn)擊位置,或者一個(gè)足球賽中的進(jìn)球分布。在大多數(shù)分析案例中,應(yīng)對(duì)措施代表了一種未來事件,因此你還不知道這種對(duì)策方法產(chǎn)生的結(jié)果。例如,一個(gè)信用卡發(fā)卡機(jī)構(gòu)可能想要預(yù)測某個(gè)客戶是否會(huì)在明年申請(qǐng)破產(chǎn)。一個(gè)發(fā)生在未來的事件本質(zhì)上是不確定的,如果你的目的是為了避免給破產(chǎn)客戶提供貸款從而減少債務(wù)損失,那么事后才得到的信息就太晚了。7.2.2
定義應(yīng)對(duì)措施在一些情況下,應(yīng)對(duì)措施代表了一個(gè)當(dāng)前或過去的事件。例如,如果因?yàn)橐恍┰驘o法獲得破產(chǎn)記錄,那么可以利用預(yù)測模型在其他客戶信息的基礎(chǔ)上估計(jì)一個(gè)客戶是否之前已經(jīng)申請(qǐng)了破產(chǎn)。應(yīng)對(duì)措施的時(shí)間維度應(yīng)該是明確的。假設(shè)想要預(yù)測一個(gè)潛在借款人是否會(huì)在十年分期貸款里違約,你應(yīng)該定義違約的應(yīng)對(duì)措施是在整個(gè)貸款周期內(nèi)還是在一個(gè)更短的周期內(nèi)?長期應(yīng)對(duì)舉措往往更適合商業(yè)決策,但是需要更多的歷史數(shù)據(jù)去驗(yàn)證。預(yù)測長期行為也比預(yù)測短期行為更加困難,因?yàn)橥獠恳蛩赜懈蟮目赡苄詠碛绊懙侥阆MM的行為。7.2.2
定義應(yīng)對(duì)措施對(duì)于任何商業(yè)應(yīng)用,都有可能需要預(yù)測多種對(duì)策:·稅務(wù)機(jī)關(guān)需要確定應(yīng)該審核哪些納稅申報(bào)表:審計(jì)的成本很高,并且審計(jì)師的數(shù)量有限。為了最大限度地提高每個(gè)審計(jì)師帶來的收益,稅務(wù)機(jī)關(guān)應(yīng)該同時(shí)預(yù)測瞞報(bào)收入的查出概率和稅務(wù)機(jī)關(guān)可能收回的金額?!ひ凰髮W(xué)希望最大限度地提高在校友捐贈(zèng)活動(dòng)中的投資回報(bào)。為了正確制定不同的策略,校方應(yīng)該預(yù)測兩個(gè)概率:每個(gè)校友響應(yīng)的可能性和每位校友可能會(huì)捐贈(zèng)的金額。7.2.2
定義應(yīng)對(duì)措施如果面對(duì)很多商業(yè)問題,你想要預(yù)測的就可能是多個(gè)應(yīng)對(duì)措施。例如,為了最大限度地提高一場捐贈(zèng)活動(dòng)的投資回報(bào)率(ROI),你會(huì)想知道預(yù)測捐贈(zèng)活動(dòng)的潛在目標(biāo)是否會(huì)得到響應(yīng),以及如果響應(yīng)了可能會(huì)捐助多少錢。盡管存在單個(gè)模型對(duì)應(yīng)多種應(yīng)對(duì)措施建模的技術(shù),但大多數(shù)分析師更愿意將問題劃分成幾個(gè)部分,然后針對(duì)每種應(yīng)對(duì)措施分別建立預(yù)測模型。以這種方式分解問題,能夠確保分析師針對(duì)每個(gè)應(yīng)對(duì)措施產(chǎn)生的影響來獨(dú)立優(yōu)化預(yù)測模型,并且可以給業(yè)務(wù)使用者提供更大的靈活性。7.2.2
定義應(yīng)對(duì)措施例如,考慮兩組可能的捐贈(zèng)人:對(duì)活動(dòng)響應(yīng)度較低卻有較高的平均捐贈(zèng)額的人,以及對(duì)活動(dòng)響應(yīng)度較高卻有較低的平均捐贈(zèng)額的人。這兩部分都有著相似的整體預(yù)期值。然而,通過細(xì)分應(yīng)對(duì)行為和分別建模,客戶可以區(qū)分這兩組捐贈(zèng)人并采用不同的策略。大多數(shù)預(yù)測問題可以分成兩類:分類和回歸。在分類中,分析師希望預(yù)測將在未來發(fā)生的一個(gè)可分類的事件,在大多數(shù)案例中這是一個(gè)二值問題。因?yàn)橄M(fèi)者要么對(duì)一個(gè)營銷活動(dòng)做出響應(yīng)要么不響應(yīng),負(fù)債人要么宣布破產(chǎn)要么不破產(chǎn)。在回歸中,分析師希望預(yù)測一個(gè)連續(xù)值,例如消費(fèi)者將會(huì)消費(fèi)的手機(jī)通話時(shí)長,或者購買者將會(huì)在一個(gè)時(shí)期里消費(fèi)的金額。有一些技術(shù)適合分類問題,而另一些適合回歸問題,還有一些則同時(shí)可以用于分類和回歸。分析師一定要了解所預(yù)測的問題,從而選擇正確的技術(shù)。7.2.3
了解誤差成本在理想情況下,人們希望用一個(gè)模型就完美地預(yù)測了未來的事件,但實(shí)際上這樣的可能性不大。但放棄追求建立完美模型的想法,就應(yīng)考慮模型要多精確才算“足夠好”?通常,預(yù)測模型必須能夠提高決策的有效性,從而帶來足夠多的經(jīng)濟(jì)收益,以抵消開發(fā)和部署模型的成本。當(dāng)風(fēng)險(xiǎn)價(jià)值較高時(shí),預(yù)測模型能夠產(chǎn)生很好的經(jīng)濟(jì)效益。如果風(fēng)險(xiǎn)價(jià)值較低,即使一個(gè)非常好的預(yù)測模型也只能提供很少的經(jīng)濟(jì)效益或幾乎沒有經(jīng)濟(jì)效益,因?yàn)樽鲆粋€(gè)錯(cuò)誤決策的損失很小。許多組織不愿意費(fèi)心建立針對(duì)郵件營銷活動(dòng)的預(yù)測模型,就是因?yàn)榘l(fā)一封電子郵件給一個(gè)不會(huì)響應(yīng)的消費(fèi)者的增量成本很低,這也意味著你的郵箱里會(huì)有更多的垃圾郵件。7.2.3
了解誤差成本假設(shè)風(fēng)險(xiǎn)價(jià)值高到需要建立一個(gè)預(yù)測模型,那么這個(gè)模型的效果一定要比現(xiàn)有的針對(duì)性方案的效果好。預(yù)測模型的總體準(zhǔn)確性十分重要,但一定要考慮到誤差的成分。一個(gè)二值分類模型有兩種正確的結(jié)果:它可以精準(zhǔn)地預(yù)測一個(gè)事件是否會(huì)發(fā)生,或者它可以預(yù)測這個(gè)事件是否不會(huì)發(fā)生。同樣它也有兩種錯(cuò)誤的結(jié)果:它可能錯(cuò)誤地預(yù)測一個(gè)事件將會(huì)發(fā)生,或者它錯(cuò)誤地預(yù)測這個(gè)事件不會(huì)發(fā)生。7.2.3
了解誤差成本假設(shè)開發(fā)預(yù)測模型的目標(biāo)是預(yù)測在ICU(重癥監(jiān)護(hù)病房)的患者心臟驟停這個(gè)事件。如果模型預(yù)測結(jié)果是該患者心臟會(huì)驟停,那么ICU的工作人員將會(huì)主動(dòng)采取治療措施,在這種情況下,患者有更大的可能活下來。否則,這些工作人員只會(huì)在患者心臟驟停時(shí)采取措施,到那時(shí)一切都太遲了。
圖7-5ICU監(jiān)測7.2.3
了解誤差成本如果一個(gè)預(yù)測模型錯(cuò)誤地預(yù)測了該患者會(huì)心臟驟停,那么結(jié)果可以稱作積極錯(cuò)誤。如果預(yù)測模型預(yù)測該患者不會(huì)心臟驟停,但是患者實(shí)際上心臟驟停了,那么結(jié)果則被稱作消極錯(cuò)誤。在大多數(shù)實(shí)際的決策中,錯(cuò)誤的代價(jià)是不對(duì)稱的,這意味著積極錯(cuò)誤的代價(jià)和消極錯(cuò)誤的代價(jià)有天壤之別。在這個(gè)案例中,積極錯(cuò)誤的代價(jià)只是不必要的治療,而消極錯(cuò)誤的代價(jià)則是患者死亡概率增加。大多數(shù)醫(yī)療決策中,利益相關(guān)者把重心放在最大限度地減少消極錯(cuò)誤而不是積極錯(cuò)誤上。7.2.4
確定預(yù)測窗口預(yù)測窗口對(duì)分析項(xiàng)目的設(shè)計(jì)有很大影響,它會(huì)影響到分析方法的選擇和數(shù)據(jù)的選擇。所有的預(yù)測都與未來發(fā)生的事件有關(guān),但是不同的商業(yè)應(yīng)用對(duì)預(yù)測提前的時(shí)間有不同的要求。例如,在零售業(yè)商店,排班人員可能只對(duì)明天或接下來幾天的預(yù)期店鋪流量感興趣;采購經(jīng)理可能會(huì)關(guān)注接下來幾個(gè)月的店鋪流量;而商場選址人員可能會(huì)關(guān)注未來幾年的預(yù)測流量。7.2.4
確定預(yù)測窗口一般來說,隨著預(yù)測窗口長度延長,模型預(yù)測的精確性會(huì)下降。換句話說,預(yù)測明天的店鋪流量要比預(yù)測未來三年的店鋪流量簡單得多。這里有兩個(gè)主要原因,一是預(yù)測窗口延長了,突發(fā)事件發(fā)生的概率會(huì)增加。例如,如果一個(gè)突發(fā)事件發(fā)生在你店鋪的附近,那么該店鋪的流量將會(huì)發(fā)生改變。二是隨著時(shí)間的變化,隨機(jī)誤差會(huì)累積增加,并且對(duì)預(yù)測產(chǎn)生很大的影響。7.2.4
確定預(yù)測窗口預(yù)測窗口也會(huì)影響預(yù)測中作為預(yù)測因子使用的數(shù)據(jù)。還是以零售業(yè)為例,假設(shè)你想要提前預(yù)測一天中一個(gè)店鋪的流量,使用建立在動(dòng)態(tài)參數(shù)上的一個(gè)時(shí)間序列分析可能就很好用,比如過去三天中的每日流量。另一方面,如果你想要預(yù)測未來三年的店鋪流量,你可能不得不加入一些基礎(chǔ)要素?cái)?shù)據(jù),如本地住房建設(shè)情況、家庭分布、家庭收入變化以及競爭格局的變化。7.2.5
評(píng)估部署環(huán)境部署是分析過程的重要部分,分析師在開展預(yù)測建模項(xiàng)目工作前一定要了解預(yù)測模型的部署環(huán)境。有兩種方式可以用來部署預(yù)測模型:批量部署或者事務(wù)部署。在批量預(yù)測中,評(píng)分機(jī)制會(huì)針對(duì)一組實(shí)體計(jì)算記錄級(jí)的預(yù)測結(jié)果,并且將結(jié)果存儲(chǔ)在一個(gè)信息倉庫中,需要使用預(yù)測結(jié)果的商業(yè)應(yīng)用可以直接從信息庫中獲取預(yù)測結(jié)果。在事務(wù)部署中,評(píng)分機(jī)制根據(jù)應(yīng)用程序的請(qǐng)求對(duì)每個(gè)記錄計(jì)算預(yù)測結(jié)果,該應(yīng)用程序會(huì)立即使用預(yù)測結(jié)果。事務(wù)型的或者實(shí)時(shí)的評(píng)分對(duì)需要實(shí)時(shí)或很小延遲的應(yīng)用至關(guān)重要,但是它們的成本也會(huì)更高,同時(shí)大多數(shù)應(yīng)用并不一定需要較小的延遲。7.2.5
評(píng)估部署環(huán)境分析師一定要知道一個(gè)應(yīng)用程序可以在部署環(huán)境中獲得哪些數(shù)據(jù)。這個(gè)問題很重要,因?yàn)榉治鰩熗ǔJ窃谝粋€(gè)“沙箱”環(huán)境中開展工作,在這種環(huán)境中數(shù)據(jù)相對(duì)容易獲取,也相對(duì)容易將其合并到分析數(shù)據(jù)集。而生產(chǎn)環(huán)境中可能存在運(yùn)營上或者法律上的約束,這可能會(huì)限制數(shù)據(jù)的使用,或者讓數(shù)據(jù)使用的成本大大增加。從戰(zhàn)略角度來說,如果目的是利用分析來確定什么數(shù)據(jù)對(duì)業(yè)務(wù)有最大的價(jià)值,那么在預(yù)測模型中使用當(dāng)前部署環(huán)境沒有的數(shù)據(jù),可能會(huì)十分有效。然而在這種情況下,組織應(yīng)該計(jì)劃更長的實(shí)施周期。7.2.5
評(píng)估部署環(huán)境部署環(huán)境也會(huì)影響分析師對(duì)分析方法的選擇。一些方法,如線性回歸或者決策樹,生成的預(yù)測模型格式很容易在基于SQL的系統(tǒng)中實(shí)現(xiàn)。其他一些方法,如支持向量機(jī)或者神經(jīng)網(wǎng)絡(luò),則很難實(shí)現(xiàn)。一些預(yù)測分析軟件包支持多種格式的模型導(dǎo)出。但是,部署環(huán)境可能不支持分析軟件包的格式,并且分析軟件包可能不支持所有分析工具的模型導(dǎo)出。建立分析數(shù)據(jù)集PART037.37.3建立分析數(shù)據(jù)集為分析預(yù)測工作而準(zhǔn)備數(shù)據(jù)的過程包括數(shù)據(jù)采集、評(píng)估和轉(zhuǎn)化等,建立分析數(shù)據(jù)集是預(yù)測分析的第一步。其中的數(shù)據(jù)處理(準(zhǔn)備)工作需要占據(jù)整個(gè)周期的大部分時(shí)間,它們代表了流程改進(jìn)和上下游協(xié)同的機(jī)會(huì)。
圖7-6建立分析數(shù)據(jù)集7.3.4轉(zhuǎn)化數(shù)據(jù)7.3.1配置數(shù)據(jù)7.3.5執(zhí)行基本表操作7.3.2評(píng)估數(shù)據(jù)7.3.3調(diào)查異常值7.3.6處理丟失數(shù)據(jù)7.3建立分析數(shù)據(jù)集7.3.1
配置數(shù)據(jù)理想狀態(tài)下,分析師是將分析工具連接到一個(gè)高效的企業(yè)信息倉庫中,而現(xiàn)實(shí)生活中的企業(yè)分析與上述理想情況相比,不同點(diǎn)在于:數(shù)據(jù)存在于企業(yè)內(nèi)部和外部的不同資源系統(tǒng)中;數(shù)據(jù)清理、集成和組織處理使數(shù)據(jù)從“混亂”到“干凈、有條理、可記錄”。雖然企業(yè)在數(shù)據(jù)倉庫和主數(shù)據(jù)管理(MDM)方面已經(jīng)取得了長足的進(jìn)步,但只有很少的企業(yè)能跟得上不斷增長的數(shù)據(jù)量和愈加復(fù)雜的數(shù)據(jù)?!爸鲾?shù)據(jù)管理”描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。7.3.1
配置數(shù)據(jù)分析師是為那些有即時(shí)業(yè)務(wù)需求的內(nèi)部客戶工作的,所以他們往往會(huì)在IT部門之前開始工作,他們會(huì)花費(fèi)大量的時(shí)間收集和整合數(shù)據(jù)。這些時(shí)間大部分都花在調(diào)查數(shù)據(jù)潛在來源、了解數(shù)據(jù)采集、購買文檔和數(shù)據(jù)使用許可上。實(shí)際操作上,將數(shù)據(jù)導(dǎo)入分析“沙箱”只會(huì)花費(fèi)相對(duì)很少的時(shí)間。7.3.2
評(píng)估數(shù)據(jù)當(dāng)接收到數(shù)據(jù)文件時(shí),分析師首先要確定數(shù)據(jù)格式是否與分析軟件兼容,分析軟件工具往往只支持有限的幾種格式。如果可以讀取數(shù)據(jù),那么下一步就是執(zhí)行測試,以驗(yàn)證數(shù)據(jù)是否符合相關(guān)文檔。如果沒有文檔,分析師將花費(fèi)一些時(shí)間來“猜測”數(shù)據(jù)格式和文件的內(nèi)容。7.3.2
評(píng)估數(shù)據(jù)如果數(shù)據(jù)文件是可讀的,分析師會(huì)讀取整個(gè)文件,如果文件很大的話,則讀取一個(gè)樣本文件,并且對(duì)數(shù)據(jù)進(jìn)行一些基本的檢查。例如對(duì)于表格數(shù)據(jù),這些檢查包括:·確定鍵值是否存在,這對(duì)關(guān)聯(lián)到其他表是很必要的。·確保每個(gè)字段都被填充。字段不需要填充每一個(gè)記錄,但所有行都是空白的字段可以從分析中刪除?!z查字段的變化。每行都填充相同值的字段可以從分析中刪除?!ぴu(píng)估字段的數(shù)據(jù)類型:浮點(diǎn)、整數(shù)、字符、日期或其他數(shù)據(jù)類型,數(shù)據(jù)類型與特定平臺(tái)相關(guān)。·確定在數(shù)據(jù)文件中是否有對(duì)應(yīng)此項(xiàng)目應(yīng)對(duì)措施的數(shù)據(jù)字段。7.3.3
調(diào)查異常值含有極端值或異常值的數(shù)據(jù)集會(huì)對(duì)建模過程產(chǎn)生不必要的影響,極端情況下甚至可能會(huì)使建立準(zhǔn)確模型的工作變得困難。分析師不能簡單地丟棄任何一個(gè)異常值,例如一個(gè)保險(xiǎn)分析師不能簡單地放棄卡特里娜颶風(fēng)所造成的那部分損失。圖7-7異常值7.3.3
調(diào)查異常值分析師應(yīng)該調(diào)查離群值,以確定它們是否是在數(shù)據(jù)采集過程中人為造成的。例如,一位研究超市POS機(jī)數(shù)據(jù)的分析師發(fā)現(xiàn)了一些消費(fèi)金額非常大的賬戶。在調(diào)查中,他發(fā)現(xiàn)這些“極端”的顧客是超市收銀員在刷自己的會(huì)員卡,以使那些沒有會(huì)員卡的顧客獲得折扣。又例如,研究租賃公司數(shù)據(jù)的分析師發(fā)現(xiàn),在一個(gè)市場中出現(xiàn)了這樣的不尋?,F(xiàn)象,大量進(jìn)行貸款申請(qǐng)的客戶并沒有隨后激活和使用這些貸款。分析師和客戶提出了一些假設(shè)來“解釋”觀察到的這種行為。但是在調(diào)查中分析師發(fā)現(xiàn),系統(tǒng)管理員在系統(tǒng)中跑了很多測試申請(qǐng),但是卻沒有將測試申請(qǐng)和真實(shí)客戶申請(qǐng)進(jìn)行區(qū)分。7.3.4
轉(zhuǎn)化數(shù)據(jù)在建模開始前,必要的數(shù)據(jù)轉(zhuǎn)換取決于數(shù)據(jù)的條件和項(xiàng)目的要求。因?yàn)槊總€(gè)項(xiàng)目要求的不同,對(duì)數(shù)據(jù)轉(zhuǎn)換進(jìn)行統(tǒng)一概括是不可能的,但是可以審查數(shù)據(jù)轉(zhuǎn)換的原因以及通用類型的操作。對(duì)研究數(shù)據(jù)進(jìn)行轉(zhuǎn)換的原因有兩個(gè)。第一個(gè)原因是源數(shù)據(jù)與應(yīng)用程序的業(yè)務(wù)規(guī)則不匹配。原則上,組織應(yīng)在數(shù)據(jù)倉庫后端實(shí)施流程,確保數(shù)據(jù)符合業(yè)務(wù)規(guī)則。這使整個(gè)企業(yè)有一致的應(yīng)用程序。但實(shí)際上分析師往往必須在組織數(shù)據(jù)倉庫之前進(jìn)行分析工作,并且所用的數(shù)據(jù)也不是企業(yè)數(shù)據(jù)倉庫的一部分。也有一些特殊情況,分析師會(huì)采用與企業(yè)業(yè)務(wù)規(guī)則不同的業(yè)務(wù)規(guī)則,以滿足內(nèi)部客戶的需要。7.3.4
轉(zhuǎn)化數(shù)據(jù)分析轉(zhuǎn)換數(shù)據(jù)的第二個(gè)原因是為了改善所建立預(yù)測模型的準(zhǔn)確性和精確性。這些轉(zhuǎn)換包括簡單數(shù)學(xué)變換、“分箱”的數(shù)值變量、記錄分類變量以及更復(fù)雜的操作,如缺失值處理或挖掘文本提取特征。一些預(yù)測分析技術(shù)需要數(shù)據(jù)轉(zhuǎn)化,而分析軟件包會(huì)自動(dòng)處理所需的轉(zhuǎn)換。
圖7-8分析的自動(dòng)處理7.3.4
轉(zhuǎn)化數(shù)據(jù)當(dāng)分析師驗(yàn)證模型時(shí),轉(zhuǎn)換數(shù)據(jù)極大地提高了模型的精確性和準(zhǔn)確性。然而,分析師應(yīng)該問的最重要的問題是,這樣的轉(zhuǎn)換是否能夠在部署環(huán)境中實(shí)現(xiàn)。分析沙箱中“規(guī)范”的數(shù)據(jù)不能改善預(yù)測模型在實(shí)際市場中的預(yù)測效果,除非在部署環(huán)境中的數(shù)據(jù)可以利用相同的轉(zhuǎn)換變成“規(guī)范的”。7.3.5
執(zhí)行基本表操作分析工具軟件一般需要將全部數(shù)據(jù)(應(yīng)對(duì)措施和預(yù)測因子)加載到一個(gè)單獨(dú)表格中。除非所有需要的數(shù)據(jù)已經(jīng)存在于同一張表中,否則分析師必須執(zhí)行基本表操作來建立分析數(shù)據(jù)集。這些操作包括:·連接表 ·添加一列并用計(jì)算字段填充
·附加表 ·刪除列·選擇行 ·分組·刪除行高性能的SQL引擎通常在表操作方面比分析軟件更有效,分析師應(yīng)盡可能地利用這些工具進(jìn)行基本數(shù)據(jù)的準(zhǔn)備。7.3.6
處理丟失數(shù)據(jù)數(shù)據(jù)可能會(huì)因?yàn)槟承┰驈臄?shù)據(jù)集中丟失。數(shù)據(jù)有時(shí)是邏輯上丟失:例如當(dāng)數(shù)據(jù)表包括記錄客戶數(shù)據(jù)服務(wù)使用的字段,但是消費(fèi)者卻沒有訂購該服務(wù)。在其他一些情況下,數(shù)據(jù)丟失是因?yàn)樵聪到y(tǒng)使用一個(gè)隱含的零編碼(零表示為空格)。數(shù)據(jù)丟失也可能是由于數(shù)據(jù)采集過程中人為的因素。例如如果客戶拒絕回答收入問題,該字段可能是空白的。許多統(tǒng)計(jì)軟件包要求每個(gè)數(shù)據(jù)工作表的單元格中都有值,并且將從表格中刪除那些每列不是都有值的行。所以分析師使用一些工具來推斷缺失數(shù)據(jù)的值,所使用的方法包括從簡單的平均替代到復(fù)雜的最近鄰方法。7.3.6
處理丟失數(shù)據(jù)對(duì)丟失數(shù)據(jù)的處理不會(huì)為數(shù)據(jù)增加信息價(jià)值,它們僅僅是為了可以應(yīng)用那些無法處理缺失數(shù)據(jù)的分析技術(shù)。因?yàn)閿?shù)據(jù)丟失很少是由于隨機(jī)現(xiàn)象引起的,所以分析師需要在理解數(shù)據(jù)缺失的原因后,謹(jǐn)慎地使用推斷技術(shù)來補(bǔ)足相關(guān)數(shù)據(jù)。如同其他轉(zhuǎn)換一樣,分析師需要問自己是否能夠在部署環(huán)境中將缺失的數(shù)據(jù)“修復(fù)”,以及“修復(fù)”所需的成本是多少。比起在分析數(shù)據(jù)集中“修復(fù)”數(shù)據(jù),更好的做法是使用能夠處理缺失數(shù)據(jù)的分析技術(shù),例如決策樹。降維與特征工程PART047.47.4降維與特征工程解決大數(shù)據(jù)分析問題的一個(gè)重要思路在于減少數(shù)據(jù)量。針對(duì)數(shù)據(jù)規(guī)模大的特征,要對(duì)大數(shù)據(jù)進(jìn)行有效分析,需要對(duì)數(shù)據(jù)進(jìn)行有效的縮減。進(jìn)行數(shù)據(jù)縮減,一方面是通過抽樣技術(shù)讓數(shù)據(jù)的條目數(shù)減少;另一方面,可以通過減少描述數(shù)據(jù)的屬性來達(dá)到目的,也就是降維技術(shù)。我們來學(xué)習(xí)采用有效選擇特征等方法,通過減小描述數(shù)據(jù)的屬性來達(dá)到減小數(shù)據(jù)規(guī)模的目的。7.4.3特征變換7.4.1降維7.4.2特征工程學(xué)習(xí)采用有效選擇特征等方法,通過減小描述數(shù)據(jù)的屬性來達(dá)到減小數(shù)據(jù)規(guī)模的目的。7.4降維與特征工程7.4.1
降維分析師常常將維度、特征和預(yù)測變量這三個(gè)詞混用(視為同義詞)。分析師利用兩類技術(shù)來降低數(shù)據(jù)集中的維度:特征提取和特征選擇。顧名思義,特征提取方法是將多個(gè)原始變量中的信息合成到有限的維度中,從噪聲中提取信號(hào)數(shù)據(jù)。特征選擇方法幫助分析師篩選一系列預(yù)測因子,選出最佳的預(yù)測因子用于模型訓(xùn)練,同時(shí)忽略其他的預(yù)測因子。特征提取比特征選擇更為精致,有著悠久的學(xué)術(shù)使用歷史,特征選擇則是更實(shí)用的工具。許多預(yù)測模型技術(shù)含內(nèi)置的特征選擇功能:這種技術(shù)自動(dòng)地評(píng)估和選擇可獲得的預(yù)測因子。當(dāng)建模技術(shù)中有內(nèi)置的特征選擇功能時(shí)。分析師可以從建模過程中省略特征選擇步驟,這是使用這些方法的一個(gè)重要原因。7.4.2
特征工程特征是大數(shù)據(jù)分析的原材料,對(duì)最終模型有著決定性的影響。數(shù)據(jù)特征會(huì)直接影響使用的預(yù)測模型和實(shí)現(xiàn)的預(yù)測結(jié)果。準(zhǔn)備和選擇的特征越好,則分析的結(jié)果越好。影響分析結(jié)果好壞的因素包括模型的選擇、可用的數(shù)據(jù)、特征的提取。優(yōu)質(zhì)的特征往往描述了數(shù)據(jù)的固有結(jié)構(gòu)。大多數(shù)模型都可以通過數(shù)據(jù)中良好的結(jié)構(gòu)很好地學(xué)習(xí),即使不是最優(yōu)的模型,優(yōu)質(zhì)的特征也可以得到不錯(cuò)的效果。優(yōu)質(zhì)特征的靈活性可以使用簡單的模型運(yùn)算得更快,更容易理解和維護(hù)。優(yōu)質(zhì)的特征還可以在使用不是最優(yōu)的模型參數(shù)的情況下得到不錯(cuò)的分析結(jié)果,這樣用戶就不必費(fèi)力去選擇最適合的模型和最優(yōu)的參數(shù)了。7.4.2
特征工程特征工程的目的就是獲取優(yōu)質(zhì)特征以有效支持大數(shù)據(jù)分析,其定義是將原始數(shù)據(jù)轉(zhuǎn)化為特征,更好地表示模型處理的實(shí)際問題,提升對(duì)于未知數(shù)據(jù)的準(zhǔn)確性。它使用目標(biāo)問題所在的特定領(lǐng)域知識(shí)或者自動(dòng)化的方法來生成、提取、刪減或者組合變化得到特征。特征工程包含特征提取、特征選擇、特征構(gòu)建和特征學(xué)習(xí)等問題。圖7-9特征工程整體架構(gòu)示例7.4.2
特征工程(1)大數(shù)據(jù)分析中的特征。特征是觀測現(xiàn)象中的一種獨(dú)立、可測量的屬性。選擇信息量大的、有差別性的、獨(dú)立的特征是分類和回歸等問題的關(guān)鍵一步。最初的原始特征數(shù)據(jù)集可能太大,或者信息冗余,因此在分析應(yīng)用中,初始步驟就是選擇特征的子集,或構(gòu)建一套新的特征集,減少功能來促進(jìn)算法的學(xué)習(xí),提高泛化能力和可解釋性。在結(jié)構(gòu)化高維數(shù)據(jù)中,觀測數(shù)據(jù)或?qū)嵗▽?duì)應(yīng)表格的一行)由不同的變量或者屬性(表格的一列)構(gòu)成,這里屬性其實(shí)就是特征。但是與屬性不同的是,特征是對(duì)于分析和解決問題有用、有意義的屬性。7.4.2
特征工程對(duì)于非結(jié)構(gòu)數(shù)據(jù),在多媒體圖像分析中,一幅圖像是一個(gè)觀測,但是特征可能是圖中的一條線;在自然語言處理中,一個(gè)文本是一個(gè)觀測,但是其中的段落或者詞頻可能才是一種特征;在語音識(shí)別中,一段語音是一個(gè)觀測,但是一個(gè)詞或者音素才是一種特征。7.4.2
特征工程(2)特征的重要性。這是對(duì)特征進(jìn)行選擇的重要指標(biāo),特征根據(jù)重要性被分配分?jǐn)?shù)并排序,其中高分的特征被選擇出來放入訓(xùn)練數(shù)據(jù)集。如果與因變量(預(yù)測的事物)高度相關(guān),則這個(gè)特征可能很重要,其中相關(guān)系數(shù)和獨(dú)立變量方法是常用的方法。在構(gòu)建模型的過程中,一些復(fù)雜的預(yù)測模型會(huì)在算法內(nèi)部進(jìn)行特征重要性的評(píng)價(jià)和選擇,如多元自適應(yīng)回歸樣條法、隨機(jī)森林、梯度提升機(jī)。這些模型在模型準(zhǔn)備階段會(huì)進(jìn)行變量重要性的確定。7.4.2
特征工程(3)特征提取。一些觀測數(shù)據(jù)如果直接建模,其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù),如果將其看作表格數(shù)據(jù),那么其中包含了數(shù)以千計(jì)的屬性。特征提取是自動(dòng)地對(duì)原始觀測降維,使其特征集合小到可以進(jìn)行建模的過程。對(duì)于結(jié)構(gòu)化高維數(shù)據(jù),可以使用主成分分析、聚類等映射方法;對(duì)于非結(jié)構(gòu)的圖像數(shù)據(jù),可以進(jìn)行線或邊緣的提?。桓鶕?jù)相應(yīng)的領(lǐng)域,圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號(hào)處理的方法對(duì)其進(jìn)行處理。7.4.2
特征工程(4)特征選擇。不同的特征對(duì)模型的準(zhǔn)確度的影響不同,有些特征與要解決的問題不相關(guān),有些特征是冗余信息,這些特征都應(yīng)該被移除掉。在特征工程中,特征選擇和特征提取同等重要,可以說數(shù)據(jù)和特征決定了大數(shù)據(jù)分析的上限,而模型和算法只是逼近這個(gè)上限而已。因此,特征選擇在大數(shù)據(jù)分析中占有相當(dāng)重要的地位。7.4.2
特征工程通常,特征選擇是自動(dòng)地選擇出對(duì)于問題最重要的那些特征子集的過程。特征選擇算法可以使用評(píng)分的方法來進(jìn)行排序;還有些方法通過反復(fù)試驗(yàn)來搜索出特征子集,自動(dòng)地創(chuàng)建并評(píng)估模型以得到客觀的、預(yù)測效果最好的特征子集;還有一些方法,將特征選擇作為模型的附加功能,像逐步回歸法就是一個(gè)在模型構(gòu)建過程中自動(dòng)進(jìn)行特征選擇的算法。7.4.2
特征工程工程上常用的方法有以下幾種:①計(jì)算每一個(gè)特征與響應(yīng)變量的相關(guān)性;②單個(gè)特征模型排序;③使用正則化方法選擇屬性。求解不適定問題的普遍方法是:用一組與原不適定問題相“鄰近”的適定問題的解去逼近原問題的解,這種方法稱為正則化方法。④應(yīng)用隨機(jī)森林選擇屬性;⑤訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型;⑥通過特征組合后再來選擇特征;⑦基于深度學(xué)習(xí)的特征選擇。7.4.2
特征工程(5)特征構(gòu)建。特征重要性和特征選擇是告訴使用者特征的客觀特性,但這些工作之后,需要人工進(jìn)行特征的構(gòu)建。特征構(gòu)建需要花費(fèi)大量的時(shí)間對(duì)實(shí)際樣本數(shù)據(jù)進(jìn)行處理,思考數(shù)據(jù)的結(jié)構(gòu)和如何將特征數(shù)據(jù)輸入給預(yù)測算法。對(duì)于表格數(shù)據(jù),特征構(gòu)建意味著將特征進(jìn)行混合或組合以得到新的特征,或通過對(duì)特征進(jìn)行分解或切分來構(gòu)造新的特征;對(duì)于文本數(shù)據(jù),特征構(gòu)建意味著設(shè)計(jì)出針對(duì)特定問題的文本指標(biāo);對(duì)于圖像數(shù)據(jù),這意味著自動(dòng)過濾,得到相關(guān)的結(jié)構(gòu)。7.4.2
特征工程(6)特征學(xué)習(xí)。這是在原始數(shù)據(jù)中自動(dòng)識(shí)別和使用特征。深度學(xué)習(xí)方法在特征學(xué)習(xí)領(lǐng)域有很多成功案例,比如自編碼器和受限玻爾茲曼機(jī)。它們以無監(jiān)督或半監(jiān)督的方式實(shí)現(xiàn)自動(dòng)的學(xué)習(xí)抽象的特征表示(壓縮形式),其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識(shí)別、圖像分類、物體識(shí)別和其他領(lǐng)域的先進(jìn)成果。抽象的特征表達(dá)可以自動(dòng)得到,但是用戶無法理解和利用這些學(xué)習(xí)得到的結(jié)果,只有黑盒的方式才可以使用這些特征。用戶不可能輕易懂得如何創(chuàng)造和那些效果很好的特征相似或相異的特征。這個(gè)技能是很難的,但同時(shí)它也是很有魅力的、很重要的。7.4.3
特征變換特征變換是希望通過變換消除原始特征之間的相關(guān)關(guān)系或減少冗余,從而得到更加便于數(shù)據(jù)分析的新特征。從信號(hào)處理的觀點(diǎn)來看,特征變換是在變換域中進(jìn)行處理并提取信號(hào)的性質(zhì),通常具有明確的物理意義。從這個(gè)角度來看,特征變換操作包括傅里葉變換、小波變換和卡博爾變換等。圖7-10特征工程示例7.4.3
特征變換從統(tǒng)計(jì)的觀點(diǎn)來看,特征變換就是減少變量之間的相關(guān)性,用少數(shù)新的變量來盡可能反映樣本的信息。從這個(gè)角度來看,特征變換包括主成分分析、因子分析和獨(dú)立成分分析。從幾何的觀點(diǎn)來看,特征變換通過變換到新的表達(dá)空間,使得數(shù)據(jù)可分性更好。從這個(gè)角度來看,特征分析包括線性判別分析和方法。建立預(yù)測模型PART057.57.5建立預(yù)測模型盡管分析師經(jīng)常會(huì)偏愛某一種技術(shù),但是對(duì)于一個(gè)基于特定數(shù)據(jù)集的問題而言,通常事先不知道用哪種技術(shù)才能建立最好的預(yù)測模型,分析師要通過實(shí)驗(yàn)來確定最佳模型。現(xiàn)代高效的分析平臺(tái)能夠幫助分析師進(jìn)行大量的實(shí)驗(yàn),并且分析軟件包有時(shí)也會(huì)包括腳本編寫功能,因此分析師可以通過批量方式來指定和執(zhí)行實(shí)驗(yàn)。7.5.3執(zhí)行模型訓(xùn)練計(jì)劃7.5.1制定建模計(jì)劃7.5.4測量模型效果7.5.2細(xì)分?jǐn)?shù)據(jù)集對(duì)于一個(gè)基于特定數(shù)據(jù)集的問題而言,通常分析師要通過實(shí)驗(yàn)來確定最佳模型。7.5.5驗(yàn)證模型7.5建立預(yù)測模型7.5.1
制定建模計(jì)劃盡管事實(shí)上我們可以通過暴力搜索得到最佳模型,但是對(duì)于大多數(shù)問題,實(shí)驗(yàn)的數(shù)量可能會(huì)龐大到令人難以置信。因此,利用建模技術(shù)能夠提供許多不同的變量給分析師,任何一個(gè)變量都可能對(duì)模型效果產(chǎn)生質(zhì)的影響。同時(shí),加入分析數(shù)據(jù)集的每一個(gè)新預(yù)測變量會(huì)產(chǎn)生許多種確定一個(gè)模型的方法。我們需要考慮新預(yù)測因子產(chǎn)生的主要影響和對(duì)模型的多種數(shù)學(xué)轉(zhuǎn)換,以及新預(yù)測因子和其他已存在因子之間的交互影響。分析師能夠通過一些方法縮小實(shí)驗(yàn)搜索區(qū)間。首先,因變量和自變量的特征可以限定可行分析技術(shù)的范圍(表7-1)。7.5.1
制定建模計(jì)劃表7-1變量特征限定技術(shù)方法7.5.1
制定建模計(jì)劃其次,分析師可以通過計(jì)算每個(gè)預(yù)測變量的信息值刪除那些沒有數(shù)值的變量,從而縮小實(shí)驗(yàn)范圍。通過使用正則化或逐步回歸建模技術(shù),分析師建立了只包含正向信息值變量的一個(gè)初步模型。許多分析軟件包包含內(nèi)置特征選擇算法,分析師還可以利用開放的特征選擇分析工具。7.5.2
細(xì)分?jǐn)?shù)據(jù)集對(duì)分析數(shù)據(jù)集進(jìn)行分割或者分區(qū)應(yīng)該是實(shí)際模型訓(xùn)練前的最后一步。分析師對(duì)于分割的正確數(shù)量和大小有不同的意見,但是在一些問題上達(dá)成了廣泛的認(rèn)同。首先,分析師應(yīng)該利用隨機(jī)樣本來創(chuàng)建所有的分區(qū)。只要分析師使用一個(gè)隨機(jī)過程,簡單采樣、系統(tǒng)采樣、分層采樣、聚類采樣都可以被接受。其次,分析師應(yīng)該隨機(jī)選擇一個(gè)數(shù)據(jù)集,并在模型訓(xùn)練過程中持續(xù)使用。這個(gè)數(shù)據(jù)集應(yīng)該足夠大,使分析師和客戶可以對(duì)應(yīng)用于生產(chǎn)數(shù)據(jù)的模型性能得出有意義的結(jié)論。7.5.2
細(xì)分?jǐn)?shù)據(jù)集根據(jù)所使用的具體分析方法,分析師可以進(jìn)一步將剩余的記錄數(shù)據(jù)分為訓(xùn)練和剪枝數(shù)據(jù)集。一些方法(如分類和回歸樹)集成了一些原生的功能,可以對(duì)一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,并且對(duì)另一個(gè)數(shù)據(jù)集進(jìn)行剪枝。在處理非常大量的記錄時(shí),分析師可以通過將訓(xùn)練數(shù)據(jù)分割為相等的子數(shù)據(jù)集,并對(duì)單個(gè)子數(shù)據(jù)集運(yùn)行一些模型的方法來加速實(shí)驗(yàn)進(jìn)程。在對(duì)第一個(gè)復(fù)制數(shù)據(jù)集運(yùn)行模型后,分析師可以放棄效果不佳的模型方法,然后擴(kuò)展樣本大小。分析師也可以顯式地測量當(dāng)樣本擴(kuò)大時(shí)模型的運(yùn)行效果。7.5.3
執(zhí)行模型訓(xùn)練計(jì)劃在這個(gè)任務(wù)中,分析師運(yùn)行所需要的技術(shù)步驟來執(zhí)行模型訓(xùn)練計(jì)劃。所使用的技術(shù)和該技術(shù)的軟件實(shí)現(xiàn)不同,具體的技術(shù)步驟也不同。然而理想情況下,分析師已經(jīng)使用分析軟件的自動(dòng)化功能,或通過自定義腳本來使這個(gè)任務(wù)自動(dòng)化完成。因?yàn)樵谝粋€(gè)有效模型訓(xùn)練計(jì)劃中運(yùn)行的單個(gè)模型數(shù)量可能會(huì)很大,所以分析師應(yīng)該盡可能避免手工執(zhí)行。7.5.4
測量模型效果當(dāng)運(yùn)行大量模型時(shí),需要一個(gè)客觀方法來衡量每個(gè)模型的效果,由此可以對(duì)候選模型排名并選擇最好的模型。如果沒有一個(gè)測量模型效果的客觀方法,分析師和客戶就必須依賴手工對(duì)每個(gè)模型進(jìn)行評(píng)價(jià),這樣會(huì)限制可能的模型試驗(yàn)數(shù)量。7.5.4
測量模型效果測量模型效果有許多方法。例如“酸性測試”就是針對(duì)模型的業(yè)務(wù)影響,但要在建模過程中執(zhí)行有效測量幾乎不可能,所以分析師一般依靠近似測量。對(duì)測量的選擇有四個(gè)一般性標(biāo)準(zhǔn):(1)測量應(yīng)該對(duì)指定的建模方法和技術(shù)具備通用性;(2)測量應(yīng)該反映獨(dú)立樣本下的模型效果;(3)測量應(yīng)該反映模型在廣泛數(shù)據(jù)下的效果;(4)測量應(yīng)該可以被分析師和客戶雙方理解。7.5.4
測量模型效果一般來說,測量方法可以分為以下三類:(1)適合分類因變量的測量方法(分類);(2)適合連續(xù)因變量的測量方法(回歸);(3)既適合分類也適合回歸的測量方法。7.5.4
測量模型效果對(duì)于分類問題,簡單的總體分類準(zhǔn)確性很容易計(jì)算和理解。所提出的列聯(lián)表(“混淆矩陣”)的測量方法很容易理解。表7-2混淆矩陣7.5.4
測量模型效果整體分類準(zhǔn)確率不區(qū)分積極錯(cuò)誤和消極錯(cuò)誤。但是,在實(shí)際情況中,收益矩陣往往是不對(duì)稱的,并且兩類錯(cuò)誤有不同的代價(jià)。一個(gè)預(yù)測模型可能會(huì)呈現(xiàn)出比另一種模型更好的總體準(zhǔn)確率,但是除非你理解積極錯(cuò)誤和消極錯(cuò)誤之間的區(qū)別,否則你可能無法選出最佳的模型。7.5.5
驗(yàn)證模型在分析項(xiàng)目的過程中,一個(gè)分析師可能會(huì)建立幾十上百個(gè)候選模型。模型驗(yàn)證有兩個(gè)目的。首先,它能夠幫助分析師探測過度學(xué)習(xí),例如在一個(gè)算法的過度學(xué)習(xí)中訓(xùn)練數(shù)據(jù)得到的特征無法推廣到整體中。其次,驗(yàn)證幫助分析師對(duì)模型從最好到最差評(píng)級(jí),以此來識(shí)別對(duì)業(yè)務(wù)最好的選擇。分析師要區(qū)別不同種類的驗(yàn)證:·n折交叉驗(yàn)證·分割樣本驗(yàn)證·時(shí)間樣本驗(yàn)證7.5.5
驗(yàn)證模型n折交叉驗(yàn)證是一種能夠確保分析師利用小樣本的抽樣數(shù)據(jù),通過二次采樣現(xiàn)有數(shù)據(jù),實(shí)現(xiàn)多次重疊復(fù)制,并且對(duì)每次復(fù)制數(shù)據(jù)單獨(dú)進(jìn)行驗(yàn)證模型的方法。當(dāng)數(shù)據(jù)非常昂貴時(shí)(如臨床試驗(yàn))這是一種可使用的合理方法,但是對(duì)于大數(shù)據(jù)來說就不必要了。在分割樣本驗(yàn)證中,分析師將可用數(shù)據(jù)分割為兩個(gè)樣本,利用其中一個(gè)訓(xùn)練模型,而另一個(gè)用于驗(yàn)證模型。一些分析工具有內(nèi)置的功能來指定訓(xùn)練和驗(yàn)證數(shù)據(jù)集,使分析師可以將以上兩個(gè)步驟結(jié)合起來??梢岳脮r(shí)間驗(yàn)證樣本對(duì)模型進(jìn)行部署前的二次驗(yàn)證。分析師在用于模型訓(xùn)練和驗(yàn)證的原始樣本之外的不同時(shí)間點(diǎn)另外單獨(dú)抽取樣本。這項(xiàng)檢查用來確保模型準(zhǔn)確性和精確性的估計(jì)是穩(wěn)定的。部署預(yù)測模型PART067.67.6部署預(yù)測模型預(yù)測模型在組織部署之前都是沒有實(shí)際價(jià)值的。在一些組織中,當(dāng)建模結(jié)束時(shí),部署計(jì)劃就開始了。這經(jīng)常導(dǎo)致非常大的延遲和較長的部署周期。最壞的結(jié)果就是項(xiàng)目的失敗,而這種情況經(jīng)常發(fā)生。在一次調(diào)查中,只有16%的分析師說,他們的組織“總是”執(zhí)行了分析的結(jié)果。部署計(jì)劃應(yīng)該在建模開始前就展開。分析師在開始建模前一定要理解技術(shù)、組織和法律的約束。計(jì)劃開始早期,IT組織可以與模型開發(fā)并行地執(zhí)行一些任務(wù),以減少總周期時(shí)間。圖7-11價(jià)格指數(shù)與預(yù)測7.6.3評(píng)價(jià)模型效果7.6.1審查和批準(zhǔn)預(yù)測模型7.6.4管理模型資產(chǎn)7.6.2執(zhí)行模型評(píng)分預(yù)測模型在組織部署之前都是沒有實(shí)際價(jià)值的。部署計(jì)劃應(yīng)該在建模開始前就展開。7.6部署預(yù)測模型7.6.1
審查和批準(zhǔn)預(yù)測模型在許多組織中,部署的第一步是對(duì)預(yù)測模型的正式審查和批準(zhǔn)。這個(gè)管理步驟有很多目的:首先,它確保了模型符合相關(guān)的管理個(gè)人信息使用的法律和法規(guī);其次,它提供一個(gè)機(jī)會(huì)對(duì)模型和建立模型的方法進(jìn)行同行審查。最后,正式批準(zhǔn)模型投入生產(chǎn)環(huán)境所需資源的預(yù)算控制。批準(zhǔn)流程實(shí)際上在分析開始前就展開。如果不能保證部署資源,開展一個(gè)預(yù)測建模項(xiàng)目將是毫無意義的。分析師和客戶應(yīng)該在收集數(shù)據(jù)前,充分了解數(shù)據(jù)使用的相關(guān)法律約束。如果法律和合規(guī)審查要求從一個(gè)模型中移除一個(gè)預(yù)測因子,分析師將不得不重新估計(jì)整個(gè)模型。7.6.1
審查和批準(zhǔn)預(yù)測模型如果分析師和客戶在項(xiàng)目開始階段能夠充分評(píng)測部署環(huán)境,審查步驟中就不應(yīng)該有任何意外。如果模型使用的數(shù)據(jù)目前不在生產(chǎn)環(huán)境中,企業(yè)需要在數(shù)據(jù)源或者采取、轉(zhuǎn)換和導(dǎo)入(ETL)流程環(huán)節(jié)進(jìn)行投入來實(shí)現(xiàn)模型。這將增加項(xiàng)目的周期時(shí)間。7.6.2
執(zhí)行模型評(píng)分組織以批量過程的方式或者單個(gè)事務(wù)的方式來執(zhí)行模型評(píng)分,并且可以在分析平臺(tái)中使用原生預(yù)測或者將模型轉(zhuǎn)化為一個(gè)生產(chǎn)應(yīng)用。在組織和部署時(shí),模式不同,執(zhí)行的具體步驟也不同。在生產(chǎn)應(yīng)用程序中的模型部署必然導(dǎo)致跨部門或跨業(yè)務(wù)單元的工作。在大多數(shù)業(yè)務(wù)中,IT組織管理生產(chǎn)應(yīng)用。這些應(yīng)用可能涉及其他的業(yè)務(wù)利益相關(guān)者,他們必須在部署前審查并批準(zhǔn)模型。這是分析開始前定義和了解部署環(huán)境非常重要的另一個(gè)原因。7.6.2
執(zhí)行模型評(píng)分在分析應(yīng)用中的模型部署需要較少的組織間協(xié)作,但是并不高效,因?yàn)樗鼘?duì)分析團(tuán)隊(duì)有額外的要求。作為一個(gè)默認(rèn)的規(guī)則,分析軟件供應(yīng)商不設(shè)計(jì)或構(gòu)建用于支持生產(chǎn)水平性能和安全要求的軟件,并且分析團(tuán)隊(duì)很少有支持生產(chǎn)經(jīng)營的流程和紀(jì)律。批量評(píng)分非常適合使用不經(jīng)常更新數(shù)據(jù)的高延遲性分析。當(dāng)所有的預(yù)測因子有著相同的更新周期時(shí),執(zhí)行評(píng)分過程最有效的方式就是把它嵌入到ETL的過程中,更新存儲(chǔ)分?jǐn)?shù)的資料庫。否則,一個(gè)被預(yù)測因子更新所觸發(fā)的數(shù)據(jù)庫過程將是最有效的。7.6.2
執(zhí)行模型評(píng)分單個(gè)事務(wù)評(píng)分是對(duì)低延遲性分析最好的模型,在低延遲性分析中業(yè)務(wù)需要使用盡可能新的數(shù)據(jù)。當(dāng)預(yù)測模型使用會(huì)話數(shù)據(jù)時(shí),必須有單個(gè)事務(wù)評(píng)分,例如一個(gè)網(wǎng)站用戶或者呼叫中心代表輸入的數(shù)據(jù)。對(duì)于實(shí)時(shí)的事務(wù)評(píng)分,組織一般使用為低延遲設(shè)計(jì)的專業(yè)應(yīng)用程序。無論什么樣的部署模式,分析師都有責(zé)任保證所產(chǎn)生的評(píng)分模型準(zhǔn)確地再現(xiàn)經(jīng)批準(zhǔn)的預(yù)測模型。在一些情況下,分析師實(shí)際上編寫評(píng)分代碼。更為常見的情況是,分析師編寫一個(gè)規(guī)范,然后參與應(yīng)用程序的驗(yàn)收測試。7.6.2
執(zhí)行模型評(píng)分盡管今天存在一些技術(shù)能夠取代人工編程來建立評(píng)分模型,但是許多組織缺乏使用這些技術(shù)需要的數(shù)據(jù)流和表結(jié)構(gòu)的一致性,由此造成的結(jié)果就是人工編程對(duì)很多組織來說仍然是模型部署過程中的瓶頸問題。7.6.3
評(píng)價(jià)模型效果模型開發(fā)步驟結(jié)束時(shí)進(jìn)行的驗(yàn)證測試為業(yè)務(wù)提供了信心,該模型將在生產(chǎn)部署時(shí)有效地運(yùn)行。驗(yàn)證測試不能證明模型的價(jià)值,只有在部署模型后才能確定該模型的價(jià)值。在理想情況下,預(yù)測模型在生產(chǎn)中會(huì)運(yùn)行得像在驗(yàn)證測試中一樣好。在現(xiàn)實(shí)情況中,模型可能會(huì)因?yàn)橐恍┰蚨憩F(xiàn)得不那么好。最嚴(yán)重的原因是執(zhí)行不力:分析師建立的分析數(shù)據(jù)集不能代表總體,不能對(duì)過度學(xué)習(xí)進(jìn)行控制,或者以不可重現(xiàn)的方式轉(zhuǎn)換數(shù)據(jù)。而且,即使完全正確執(zhí)行的預(yù)測模型仍會(huì)隨著時(shí)間的變化“漂移”,因?yàn)榛A(chǔ)行為發(fā)生變化,消費(fèi)者的態(tài)度和品味將會(huì)改變,一個(gè)預(yù)測購買傾向的模型無法像它首次部署時(shí)表現(xiàn)得那樣好。7.6.3
評(píng)價(jià)模型效果組織必須跟蹤和監(jiān)控已部署模型的運(yùn)行效果。這可以用兩種主要的方式進(jìn)行。最簡單的方法就是捕捉評(píng)分歷史記錄,分析在一個(gè)固定周期的評(píng)分分布,并且將觀測到的分布與原始模型驗(yàn)證時(shí)的評(píng)分分布相比較。如果模型驗(yàn)證評(píng)分服從一個(gè)正態(tài)分布,你應(yīng)該假設(shè)生產(chǎn)評(píng)分也服從正態(tài)分布。如果生產(chǎn)評(píng)分與模型驗(yàn)證評(píng)分不一致,就可能是基礎(chǔ)過程在一些方面發(fā)生了改變,從而影響了模型的效果。在信用評(píng)分應(yīng)用程序中,如果生產(chǎn)評(píng)分呈現(xiàn)一個(gè)趨向更高風(fēng)險(xiǎn)的偏斜,業(yè)務(wù)可能要采用一些導(dǎo)致逆向選擇的措施。7.6.3
評(píng)價(jià)模型效果漂移的評(píng)分分布并不意味著模型不再起作用,但是應(yīng)該對(duì)它做進(jìn)一步調(diào)查。為了評(píng)測模型效果,分析師通過對(duì)比實(shí)際行為和評(píng)分來進(jìn)行驗(yàn)證研究。實(shí)際上,這花費(fèi)的時(shí)間和精力與從頭重新建立模型一樣。當(dāng)現(xiàn)代技術(shù)可以使建模過程自動(dòng)化時(shí),許多組織會(huì)完全跳過驗(yàn)證研究,而僅僅是定期重建生產(chǎn)模型。7.6.4
管理模型資產(chǎn)預(yù)測模型是組織必須要管理的資產(chǎn),隨著組織擴(kuò)大對(duì)分析的投資,這項(xiàng)資產(chǎn)管理的難度也在加大。在最基本的層次上,模型管理只是一個(gè)編目操作:在一個(gè)合適的瀏覽和搜索庫中,建立和維護(hù)每個(gè)模型資產(chǎn)的記錄,往小處說,這減少了重復(fù)的工作。一個(gè)業(yè)務(wù)單元要求的項(xiàng)目,其項(xiàng)目需求可能與某一個(gè)現(xiàn)有資產(chǎn)的需求非常相似。理想情況下,一個(gè)目錄包括響應(yīng)和預(yù)測變量以及所需源數(shù)據(jù)的相關(guān)信息。這使組織在刪除服務(wù)數(shù)據(jù)源時(shí),能夠確定數(shù)據(jù)依賴關(guān)系和所影響的模型。7.6.4
管理模型資產(chǎn)在高層次上,模型管理庫保留模型生命周期的信息。這包括從模型開發(fā)到驗(yàn)證的關(guān)鍵工作,如預(yù)期模型的得分分布,再加上定期從生產(chǎn)環(huán)境更新過來的數(shù)據(jù)。更新模型管理庫是預(yù)測建模工作流中的最后任務(wù)。第8章預(yù)測分析技術(shù)大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理什么是企業(yè)真正的競爭力?日本福山大學(xué)經(jīng)濟(jì)學(xué)教授、日本中小企業(yè)研究專家中澤孝夫以“全球化時(shí)代中小企業(yè)的制勝秘籍”為主題做了一次演講,以下是演講的主要內(nèi)容:在日本,一家企業(yè)經(jīng)營得好不好通常有兩個(gè)認(rèn)定標(biāo)準(zhǔn):第一、企業(yè)每年平均到每一個(gè)人的利潤狀況。第二、企業(yè)是否能夠持續(xù)經(jīng)營。以一定時(shí)間內(nèi)的營收總額去判斷一個(gè)企業(yè)的好壞,似乎也可以作為一個(gè)標(biāo)準(zhǔn),但也有做得很大,后來卻倒閉的企業(yè)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”在日本,百年以上的企業(yè)超過3萬家,兩三百年的企業(yè)也很多。為什么日本會(huì)有這么多長壽的中小企業(yè)?其中一定有獨(dú)到之處。那它們的競爭優(yōu)勢,究竟體現(xiàn)在什么地方?這種競爭優(yōu)勢分為兩種:一種是眼睛看得見的表層競爭力,比如產(chǎn)品的外觀設(shè)計(jì)或者某項(xiàng)功能。但這種競爭力很容易被替代,例如只要找到更好的人才,或者花錢把技術(shù)買過來,就可以解決,所以這不是真正的競爭力。真正的競爭力,是眼睛看不見的深層競爭力。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”為什么行業(yè)最突出的企業(yè)反而失敗了?來看一個(gè)例子,明治維新后,纖維紡織業(yè)一直是日本的支柱產(chǎn)業(yè)。當(dāng)時(shí),有一家非常大的紡織公司叫鐘紡,它出身名門家族,在當(dāng)?shù)睾苡新曂?,上市以后很快就變成行業(yè)第一。同一時(shí)期的公司還有東麗、帝人兩家。鐘紡是最風(fēng)光的一家,但也是最快破產(chǎn)的一家。這三家公司面臨的經(jīng)營環(huán)境都一模一樣,為什么東麗、帝人活下來了,最風(fēng)光的鐘紡反倒破產(chǎn)了?原因在于東麗和帝人能夠根據(jù)市場變化開發(fā)新的纖維材料,例如開發(fā)出碳素纖維、無紡纖維等新產(chǎn)品。二者最大的差別在于產(chǎn)品開發(fā)能力。背后涉及的問題,其實(shí)是內(nèi)部制造技術(shù)如何保證新產(chǎn)品的開發(fā)?通過新工藝實(shí)現(xiàn)新產(chǎn)品的能力就是屬于深層次的能力。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”還有一個(gè)原因是什么呢?鐘紡當(dāng)時(shí)擁有很多土地,而20世紀(jì)80年代中后期日本泡沫經(jīng)濟(jì)的時(shí)候,土地漲價(jià)很厲害,1日元買過來的土地可以賣到2000日元。這樣一來,他們的心思就不在主業(yè)上,整天想的是如何用土地來做擔(dān)保貸款投資,通過這個(gè)方法來做大規(guī)模。反過來,真正在主業(yè)紡織纖維的產(chǎn)品開發(fā)、工藝開發(fā)卻被忽略掉了。鐘紡就是因?yàn)樘绣X了,熱衷搞其他投資,從而忽略了主業(yè),最后倒閉了。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”豐田、日產(chǎn)發(fā)動(dòng)機(jī)曾經(jīng)一臺(tái)成本要差五萬日元,差距在哪里?另一個(gè)案例,20世紀(jì)60年代,當(dāng)時(shí)的日產(chǎn)規(guī)模是大過豐田的,因?yàn)樗土硗庖患夜竞腺Y,總規(guī)模遠(yuǎn)遠(yuǎn)超過豐田。但是30年之后,日產(chǎn)的營收規(guī)模就只有豐田的1/3了,而這期間豐田和日產(chǎn)的經(jīng)營環(huán)境是一模一樣的。為什么會(huì)有這么大的區(qū)別?主要是看不見的深層競爭力在發(fā)揮著關(guān)鍵作用。比如,日產(chǎn)和豐田曾經(jīng)同時(shí)推出過一款相似的車型,售價(jià)都為120萬日元,但日產(chǎn)的發(fā)動(dòng)機(jī)(見圖8-1)比豐田的發(fā)動(dòng)機(jī)成本要高5萬日元(現(xiàn)在相當(dāng)于3150元人民幣),這樣,日產(chǎn)的利潤率就相對(duì)較低了,為什么會(huì)出現(xiàn)這種情況?圖8-1豐田汽車發(fā)動(dòng)機(jī)第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”這是因?yàn)樨S田在生產(chǎn)流程和制造工藝上竭盡全力、想方設(shè)法降低成本。五萬日元的差異,實(shí)際上是制造能力的差異。而創(chuàng)造這種制造優(yōu)勢的人是企業(yè)現(xiàn)場的員工。豐田是怎么做到的呢?在生產(chǎn)過程中難免會(huì)發(fā)生各種小故障,豐田員工會(huì)去琢磨:為什么會(huì)發(fā)生故障?原因在哪兒?怎么解決?而不是像其他公司那樣,故障出現(xiàn)以后就叫技術(shù)人員過來處理。時(shí)間一久,就沉淀為一種“現(xiàn)場的力量”,同樣的產(chǎn)品,花5個(gè)小時(shí)和10個(gè)小時(shí)生產(chǎn)出來,價(jià)值是不一樣的,豐田的現(xiàn)場是持續(xù)思考的現(xiàn)場。在豐田,也包括在大多數(shù)日本企業(yè),如果一個(gè)新員工加入工廠5年,就可以去世界各地的兄弟工廠支援。通過調(diào)研發(fā)現(xiàn):同樣在菲律賓的日本工廠,一個(gè)當(dāng)?shù)氐膯T工要做到15年左右才可以被派出去對(duì)海外進(jìn)行支援,15年太長,其實(shí)是等不及的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”同樣做相機(jī),為何柯達(dá)敗了,這家企業(yè)卻轉(zhuǎn)型成功?我們做企業(yè),其實(shí)就是為了提高產(chǎn)品附加值。產(chǎn)品價(jià)值是通過加工過程來實(shí)現(xiàn)的。這又涉及兩方面,第一,在時(shí)間上做文章;第二,怎么做出好東西,這要在工藝、作業(yè)方法上下功夫,想辦法降低不良率、不出不良品。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”在大阪有一家叫東研的公司,開發(fā)出一項(xiàng)新的熱處理工藝,可以做到目前熱處理效果的五倍以上!技術(shù)開發(fā)出來了,沒有生產(chǎn)設(shè)備咋辦?技術(shù)是自己開發(fā)的,設(shè)備外面也沒有,東研只有自己開發(fā)。所以,企業(yè)必須具備這種獨(dú)特的技術(shù)開發(fā)能力,才能在競爭中取勝。東研在泰國的工廠給豐田、電裝做配套。當(dāng)時(shí)在這個(gè)工廠里發(fā)生了一件事情:有一天,有個(gè)員工在對(duì)一批零件做熱處理,已經(jīng)連續(xù)做了3天,當(dāng)天正在緊張地進(jìn)行最后200個(gè)的加工。他越做感覺越不對(duì)勁,總覺得這200個(gè)和之前做出來的顏色不一樣。他感到奇怪,想弄清楚為什么,于是馬上通知客戶??蛻襞扇苏{(diào)查,結(jié)果發(fā)現(xiàn)最后200個(gè)產(chǎn)品是他們送錯(cuò)了材料。豐田非常感激,幸虧發(fā)現(xiàn)得及時(shí),不然這200個(gè)零配件混到整車?yán)锩?,這將是多大的麻煩?第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”為什么這個(gè)工人有這樣的現(xiàn)場反應(yīng)?盡管這位員工是泰國當(dāng)?shù)氐膯T工,但他也能像日本人一樣具備敏銳發(fā)現(xiàn)問題的能力,這屬于“工序管理能力”。什么意思呢?通過生產(chǎn)線的管理體制,不論是哪個(gè)國家的人,只要按照這個(gè)方法在生產(chǎn)線上進(jìn)行操作,就很快能具備這種敏銳發(fā)現(xiàn)問題的能力。這是一種現(xiàn)場的提案能力,員工會(huì)邊做邊思考“我能不能做得更好?”,然后反向給領(lǐng)導(dǎo)提建議,從而把工序進(jìn)行不斷的優(yōu)化。這種現(xiàn)場提案能力,慢慢會(huì)積淀出整個(gè)工藝流程、生產(chǎn)現(xiàn)場的力量。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”這就叫看不見的深層競爭力。那么與表層競爭力之間是什么關(guān)系呢?表層競爭力是深層競爭力的外在體現(xiàn),深層競爭力是表層競爭力的來源。如果一個(gè)企業(yè)具備深層競爭力,它就會(huì)具備轉(zhuǎn)型的能力??逻_(dá)為什么失敗了,他缺乏轉(zhuǎn)型的能力!反而日本有幾家同類型企業(yè),轉(zhuǎn)型得很好。日本做傳統(tǒng)相機(jī)的這些企業(yè)后來都轉(zhuǎn)到哪里去了?比如奧林巴斯做相機(jī),后來轉(zhuǎn)到了化妝品、醫(yī)療器械,包括復(fù)印機(jī)領(lǐng)域。因?yàn)樗莆樟嗽牧系拈_發(fā)能力,化學(xué)能力、成像能力?,F(xiàn)在奧林巴斯是一個(gè)典型的醫(yī)療器械公司,它有一個(gè)產(chǎn)品,能把0.3毫米的設(shè)備伸到人的血管里做微創(chuàng)手術(shù)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”奧林巴斯還有一款CT掃描機(jī),其技術(shù)來自于它的成像技術(shù)和解析技術(shù)。成像技術(shù)就是怎么看得見,解析技術(shù)就是看見了以后解釋這是什么。通過做相機(jī),它掌握了相關(guān)核心技術(shù),順利切換到了其他領(lǐng)域。圖8-2奧林巴斯內(nèi)鏡系統(tǒng)第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”人工智能、新能源汽車、物聯(lián)網(wǎng)在日本都是偽命題從深層競爭力出發(fā),再去看當(dāng)今社會(huì)流行的一些新概念,就會(huì)發(fā)現(xiàn)其實(shí)有些是偽命題。比如人工智能,其實(shí)是一種達(dá)成目的的手段。通過大數(shù)據(jù)做統(tǒng)計(jì)分析,從而找到最佳解決方案。但是,你想做什么產(chǎn)品、如何做得更好?這兩個(gè)出發(fā)點(diǎn)是由人來決定的,原點(diǎn)還是要依靠人。為了達(dá)到這個(gè)目的,用什么方法去獲取大數(shù)據(jù)?通過音像可以獲取大數(shù)據(jù),通過感應(yīng)器可以獲取大數(shù)據(jù),或者通過某種作業(yè)過程可以獲取大數(shù)據(jù),但前提是必須源于你有一個(gè)正確的目的,人工智能才能有效發(fā)揮作用。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”另外一個(gè),有人說接下來會(huì)是電動(dòng)汽車的時(shí)代。但這種說法今天看來很難成立。全世界的汽車產(chǎn)量是每年1億800萬臺(tái)。而過去10年積累下電動(dòng)汽車的產(chǎn)能呢?2019年是30萬臺(tái),2020年可能會(huì)達(dá)到50萬臺(tái)。電動(dòng)汽車的產(chǎn)量占比還是非常低的,為什么?根本原因在于充電電池的生產(chǎn)供應(yīng)能力跟不上,全世界最大的充電電池廠家是松下,電動(dòng)汽車的發(fā)展受制于電池。傳統(tǒng)燃油車一箱油可以跑400、500公里,電動(dòng)汽車充滿也只能跑200、300公里。對(duì)于消費(fèi)者來說,電動(dòng)汽車只是多了一種選擇,并不能完全取代傳統(tǒng)燃油汽車。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”再者,汽車最重要的部分是發(fā)動(dòng)機(jī)!可是你會(huì)發(fā)現(xiàn),90%的汽車廠家使用的都是自己的發(fā)動(dòng)機(jī),通用產(chǎn)品很少。豐田曾和電裝聯(lián)合開發(fā)發(fā)動(dòng)機(jī),其實(shí)他們本身是一家,電裝是從豐田分出來的,所以都是不對(duì)外的?,F(xiàn)在又說什么物聯(lián)網(wǎng)。所謂的物聯(lián)網(wǎng)是什么概念?其實(shí)也是一個(gè)偽命題。因?yàn)槲锱c物之間的連接,企業(yè)只會(huì)通過網(wǎng)絡(luò)傳遞想傳遞的信息,不能對(duì)外、不想對(duì)外傳遞的信息,也就是所謂的商業(yè)秘密,企業(yè)是不會(huì)通過物聯(lián)網(wǎng)對(duì)外發(fā)布的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”中日企業(yè)精密儀器加工能力,深層差距在哪里?再來提一個(gè)概念——公差,指產(chǎn)品允許的尺寸誤差。在日本,一般的公差是20-30微米,也就是說,只要在這個(gè)公差范圍內(nèi)組裝,產(chǎn)品質(zhì)量都是有保證的。技術(shù)人員比較追求完美,說我們能不能把公差控制在5微米以內(nèi),但那樣的話,成本就會(huì)非常高。有人說,這是一種質(zhì)量過剩。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”再看中國,一般的公差是多少?50-60微米,大家覺得這是一個(gè)比較合適的公差,可關(guān)鍵在于針對(duì)什么領(lǐng)域。對(duì)于一般家電產(chǎn)品,按照這個(gè)公差組裝出來是沒有問題的。但對(duì)于一些精密產(chǎn)業(yè)例如半導(dǎo)體,公差就必須控制在17納米以內(nèi)。這是什么概念?一億分之一毫米的17倍。這樣,中國就很難加工精密儀器。以半導(dǎo)體生產(chǎn)、半導(dǎo)體裝備為例,目前只有荷蘭和德國才能達(dá)到這種精度,所以全世界都只能從這兩個(gè)國家進(jìn)口。當(dāng)然,日常生活所需的產(chǎn)品,中國的加工水平是完全可以滿足的。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”另外一個(gè)例子是,韓國和日本正在打貿(mào)易戰(zhàn),韓國有半導(dǎo)體工業(yè),半導(dǎo)體工業(yè)最后有一道清洗工序要用到一種專門的清洗液,這種清洗液日本占全球70%的份額。日本不提供了,韓國就開始仿制,但是化學(xué)品和一般家電產(chǎn)品不同,沒有辦法進(jìn)行解體,仿制非常困難,所以這時(shí)候整個(gè)韓國的半導(dǎo)體行業(yè)就運(yùn)轉(zhuǎn)不了。因?yàn)槟壳鞍雽?dǎo)體生產(chǎn)用的高精度加工裝備、核心零部件和特殊材料主要掌握在日本和德國。有意思的是,日本生產(chǎn)特殊材料所用到的大部分原料都來自中國,中國有原料卻加工不出來。為什么會(huì)這樣?因?yàn)檫@種技術(shù)積累和核心開發(fā)能力的建立,怎么都要積累50到70年。因而,當(dāng)前中國正是核心技術(shù)開發(fā)的積累期,此時(shí)非常有必要學(xué)習(xí)日本企業(yè)的深層,而非表層競爭力,才能給未來發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。第8章導(dǎo)讀案例中小企業(yè)的“深層競爭力”目錄統(tǒng)計(jì)分析監(jiān)督和無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)12345語義分析6視覺分析統(tǒng)計(jì)分析PART018.18.1統(tǒng)計(jì)分析用于預(yù)測分析的技術(shù)已經(jīng)有了一定的發(fā)展,目前有上百種不同的算法用于訓(xùn)練預(yù)測模型。許多統(tǒng)計(jì)技術(shù)同時(shí)適用于預(yù)測和解釋,而有一些技術(shù),如混合線性模型,主要用于解釋,也就是分析師想要評(píng)價(jià)一個(gè)或者多個(gè)措施對(duì)于其他措施的影響。8.1統(tǒng)計(jì)分析一些預(yù)測分析的關(guān)鍵技術(shù)(如線性回歸)是成熟的、易理解的、廣泛應(yīng)用的,并且在很多軟件工具中容易獲得。統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)是大數(shù)據(jù)預(yù)測分析的兩個(gè)重要技術(shù)。細(xì)分、社會(huì)網(wǎng)絡(luò)分析和文本分析等無監(jiān)督學(xué)習(xí)技術(shù)有時(shí)也在預(yù)測分析工作流中起著重要的作用。統(tǒng)計(jì)分析就是用以數(shù)學(xué)公式為手段的統(tǒng)計(jì)方法來分析數(shù)據(jù)。統(tǒng)計(jì)方法,例如線性回歸,利用已知的特征來估計(jì)數(shù)學(xué)模型的參數(shù)。分析師試圖檢驗(yàn)設(shè)定的假設(shè),比如利率符合特定的數(shù)學(xué)模型。這些模型的優(yōu)勢在于它們具有高度的可歸納性。如果你能證明歷史數(shù)據(jù)符合已知的分布,就可以使用這個(gè)信息來預(yù)測新情況下的行為。8.1統(tǒng)計(jì)分析例如,如果知道炮彈的位置、速度和加速度,可以用一個(gè)數(shù)學(xué)模型計(jì)算來預(yù)測它將在哪里落下;如果能證明對(duì)營銷活動(dòng)的反饋?zhàn)裱粋€(gè)已知的統(tǒng)計(jì)分布,可以根據(jù)客戶的過去購買記錄、人口統(tǒng)計(jì)指標(biāo)、促銷的品類等,胸有成竹地預(yù)測營銷活動(dòng)的效果。統(tǒng)計(jì)方法大多是定量的,但也可以是定性的。這種分析通常通過概述來描述數(shù)據(jù)集,比如提供與數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)數(shù)據(jù)的平均值、中位數(shù)或眾數(shù),也可以被用于推斷數(shù)據(jù)集中的模式和關(guān)系,例如回歸性分析和相關(guān)性分析。統(tǒng)計(jì)方法面臨的問題是,現(xiàn)實(shí)生活中的現(xiàn)象經(jīng)常不會(huì)符合已知的統(tǒng)計(jì)分布。監(jiān)督和無監(jiān)督學(xué)習(xí)PART028.28.2監(jiān)督和無監(jiān)督學(xué)習(xí)在學(xué)習(xí)活動(dòng)中我們經(jīng)常可以“舉一反三”。以高考為例,高考的題目在上考場前我們未必做過,但在高中階段學(xué)習(xí)時(shí)我們做過很多很多題目,掌握了解決這類題目的方法。因此,在考場上面對(duì)陌生題目時(shí)我們也可以算出答案。在高中“題海戰(zhàn)術(shù)”的做題訓(xùn)練中,參考答案是非常重要的,而這里的答案就是所謂的“標(biāo)簽”。假設(shè)兩個(gè)完全相同的人進(jìn)入高中,一個(gè)正常學(xué)習(xí),另一人做的所有題目都沒有答案,那么想必第一個(gè)人高考會(huì)發(fā)揮較好,第二個(gè)人則可能會(huì)發(fā)瘋。在學(xué)習(xí)中,如果所有練習(xí)都有答案(標(biāo)簽),則為監(jiān)督學(xué)習(xí)(又稱有監(jiān)督學(xué)習(xí)),而如果沒有標(biāo)簽,那就是無監(jiān)督學(xué)習(xí)。此外還有半監(jiān)督學(xué)習(xí),是指訓(xùn)練集中一部分?jǐn)?shù)據(jù)有特征和標(biāo)簽,另一部分只有特征,綜合兩類數(shù)據(jù)來生成合適的函數(shù)。8.2.3監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別8.2.1監(jiān)督學(xué)習(xí)8.2.2無監(jiān)督學(xué)習(xí)在學(xué)習(xí)中,如果所有練習(xí)都有答案(標(biāo)簽),則為監(jiān)督學(xué)習(xí)(又稱有監(jiān)督學(xué)習(xí)),而如果沒有標(biāo)簽,那就是無監(jiān)督學(xué)習(xí)。8.2監(jiān)督和無監(jiān)督學(xué)習(xí)8.2.1
監(jiān)督學(xué)習(xí)“監(jiān)督學(xué)習(xí)”需要定義好因變量,是從標(biāo)簽化訓(xùn)練數(shù)據(jù)集中推斷出函數(shù)的機(jī)器學(xué)習(xí)。顯然,大數(shù)據(jù)分析師主要使用監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行預(yù)測分析。如果沒有預(yù)先設(shè)定的因變量,分析師會(huì)試圖識(shí)別特征,但不會(huì)試圖預(yù)測或者解釋特定關(guān)系,這些用例就需要運(yùn)用無監(jiān)督學(xué)習(xí)技術(shù)。
圖8-5標(biāo)簽數(shù)據(jù)8.2.1
監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是最常見的分類(區(qū)別于聚類)問題。在監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)由一組訓(xùn)練實(shí)例組成,每一個(gè)例子都是一對(duì)由一個(gè)輸入對(duì)象(通常是一個(gè)向量)和一個(gè)期望的輸出值(也稱監(jiān)督信號(hào))。通過監(jiān)督學(xué)習(xí)算法分析訓(xùn)練數(shù)據(jù)并產(chǎn)生一個(gè)推斷,可以用于映射新的例子。也就是說,用已知某些特性的樣本作為訓(xùn)練集,從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)(模型參數(shù))以建立一個(gè)數(shù)學(xué)模型(如模式識(shí)別中的判別模型,人工神經(jīng)網(wǎng)絡(luò)法中的權(quán)重模型等),當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測結(jié)果,即用已建立的模型來預(yù)測未知樣本,這種方法是最常見的監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,其目標(biāo)往往是讓計(jì)算機(jī)去學(xué)習(xí)我們已經(jīng)創(chuàng)建好的分類系統(tǒng)(模型)。8.2.1
監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)和決策樹,這兩種技術(shù)高度依賴事先確定的分類系統(tǒng)所給出的信息。對(duì)于神經(jīng)網(wǎng)絡(luò),分類系統(tǒng)利用信息判斷網(wǎng)絡(luò)的錯(cuò)誤,然后不斷調(diào)整網(wǎng)絡(luò)參數(shù)。對(duì)于決策樹,分類系統(tǒng)用它來判斷哪些屬性提供了最多的信息。在監(jiān)督學(xué)習(xí)中,訓(xùn)練集的每一個(gè)數(shù)據(jù)已有特征和標(biāo)簽,即有輸入數(shù)據(jù)和輸出數(shù)據(jù),通過學(xué)習(xí)訓(xùn)練集中輸入數(shù)據(jù)和輸出數(shù)據(jù)的關(guān)系,生成合適的函數(shù)將輸入映射到輸出。比如分類和回歸。常見的監(jiān)督學(xué)習(xí)算法是回歸分析和統(tǒng)計(jì)分類,應(yīng)用最為廣泛的算法是:支持向量機(jī)(SVM)、線性回歸、邏輯回歸、樸素貝葉斯、線性判別分析、決策樹以及k-近鄰(KNN)等。8.2.2
無監(jiān)督學(xué)習(xí)雖然大數(shù)據(jù)分析師主要使用監(jiān)督學(xué)習(xí)進(jìn)行預(yù)測分析,但如果沒有預(yù)先設(shè)定的因變量,分析師會(huì)試圖識(shí)別特征,不會(huì)試圖預(yù)測或者解釋特定的關(guān)系,這些用例就需要用無監(jiān)督學(xué)習(xí)技術(shù)?!盁o監(jiān)督學(xué)習(xí)”是在無標(biāo)簽數(shù)據(jù)或者缺乏定義因變量的數(shù)據(jù)中尋找模式的技術(shù)。也就是說,輸入數(shù)據(jù)沒有被標(biāo)記,也沒有確定的結(jié)果。樣本數(shù)據(jù)類別未知,就需要根據(jù)樣本間的相似性對(duì)樣本集進(jìn)行分類(聚類),試圖使類內(nèi)差距最小化,類間差距最大化。圖8-6無標(biāo)簽數(shù)據(jù)8.2.2
無監(jiān)督學(xué)習(xí)無標(biāo)簽數(shù)據(jù)例如位圖圖片、社交媒體評(píng)論和從多主體中聚集的心理分析數(shù)據(jù)等。其中每一種情況下,通過一個(gè)外部過程把對(duì)象進(jìn)行分類都是可能的。例如,可以要求腫瘤學(xué)家去審查一組乳腺圖像,將它們歸類為可能是惡性的腫瘤(或不是惡性的),但這個(gè)分類并不是原始數(shù)據(jù)源的一部分。無監(jiān)督學(xué)習(xí)技術(shù)幫助分析師識(shí)別數(shù)據(jù)驅(qū)動(dòng)的模式,這些模式可能需要進(jìn)一步調(diào)查。8.2.2
無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)的方法分為兩大類:(1)基于概率密度函數(shù)估計(jì)的直接方法:指設(shè)法找到各類別在特征空間的分布參數(shù),再進(jìn)行分類。(2)基于樣本間相似性度量的簡潔聚類方法:其原理是設(shè)法定出不同類別的核心或初始內(nèi)核,然后依據(jù)樣本與核心之間的相似性度量將樣本聚集成不同的類別。8.2.2
無監(jiān)督學(xué)習(xí)利用聚類結(jié)果,可以提取數(shù)據(jù)集中隱藏信息,對(duì)未來數(shù)據(jù)進(jìn)行分類和預(yù)測。應(yīng)用于數(shù)據(jù)挖掘、模式識(shí)別、圖像處理等。預(yù)測分析的過程中,分析人員可以使用無監(jiān)督學(xué)習(xí)技術(shù)來了解數(shù)據(jù)并加快模型構(gòu)建過程。它往往用在預(yù)測建模過程中,包括異常檢測、圖與網(wǎng)絡(luò)分析、貝葉斯網(wǎng)絡(luò)、文本挖掘、聚類和降維。8.2.3
監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的不同點(diǎn)在于:(1)監(jiān)督學(xué)習(xí)方法必須要有訓(xùn)練集與測試樣本。在訓(xùn)練集中找規(guī)律,而對(duì)測試樣本使用這種規(guī)律。而無監(jiān)督學(xué)習(xí)沒有訓(xùn)練集,只有一組數(shù)據(jù),在該組數(shù)據(jù)集內(nèi)尋找規(guī)律。(2)監(jiān)督學(xué)習(xí)的方法是識(shí)別事物,識(shí)別的結(jié)果表現(xiàn)在給待識(shí)別數(shù)據(jù)加上了標(biāo)簽,因此訓(xùn)練樣本集必須由帶標(biāo)簽的樣本組成。而無監(jiān)督學(xué)習(xí)方法只有要分析的數(shù)據(jù)集的本身,預(yù)先沒有什么標(biāo)簽。如果發(fā)現(xiàn)數(shù)據(jù)集呈現(xiàn)某種聚集性,則可按自然的聚集性進(jìn)行分類。8.2.3
監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別(3)無監(jiān)督學(xué)習(xí)方法尋找數(shù)據(jù)集中的規(guī)律性,這種規(guī)律性并不一定要達(dá)到劃分?jǐn)?shù)據(jù)集的目的,也就是說不一定要“分類”。這一點(diǎn)要比監(jiān)督學(xué)習(xí)方法的用途更廣。譬如分析一堆數(shù)據(jù)的主分量,或分析數(shù)據(jù)集有什么特點(diǎn),都可以歸于無監(jiān)督學(xué)習(xí)方法的范疇。機(jī)器學(xué)習(xí)PART038.38.3機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu),使之不斷改善自身的性能。機(jī)器學(xué)習(xí)不是從一個(gè)關(guān)于行為的特定假設(shè)出發(fā),而是試圖學(xué)習(xí)和盡可能密切地描述歷史事實(shí)和目標(biāo)行為之間的關(guān)系,它與統(tǒng)計(jì)技術(shù)有本質(zhì)的區(qū)別。機(jī)器學(xué)習(xí)技術(shù)不受具體統(tǒng)計(jì)分布的限制,所以往往能夠更加精確地建立模型。8.3.3過濾8.3.1機(jī)器學(xué)習(xí)的思路8.3.4貝葉斯網(wǎng)絡(luò)8.3.2異常檢測機(jī)器學(xué)習(xí)專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能。8.3.5文本挖掘8.3機(jī)器學(xué)習(xí)8.3.1
機(jī)器學(xué)習(xí)的思路機(jī)器學(xué)習(xí)的思路是這樣的:考慮能不能利用一些訓(xùn)練數(shù)據(jù)(例如已經(jīng)做過的題),使機(jī)器能夠利用它們(解題方法)分析未知數(shù)據(jù)(高考的題目)?最簡單也是最普遍的一類機(jī)器學(xué)習(xí)算法就是分類,它輸入的訓(xùn)練數(shù)據(jù)有特征,有標(biāo)簽。所謂學(xué)習(xí),其本質(zhì)就是找到特征和標(biāo)簽間的關(guān)系。這樣當(dāng)有特征而無標(biāo)簽的未知數(shù)據(jù)輸入時(shí),就可以通過已有的關(guān)系得到未知數(shù)據(jù)標(biāo)簽。在上述的分類過程中,如果所有訓(xùn)練數(shù)據(jù)都有標(biāo)簽,則為監(jiān)督學(xué)習(xí)。如果數(shù)據(jù)沒有標(biāo)簽,就是無監(jiān)督學(xué)習(xí),即聚類(見圖8-7)。在實(shí)際應(yīng)用中,標(biāo)簽的獲取常常需要極大的人工工作量,有時(shí)甚至非常困難。8.3.1
機(jī)器學(xué)習(xí)的思路
圖8-7機(jī)器學(xué)習(xí)示意8.3.1
機(jī)器學(xué)習(xí)的思路監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的中間,就是半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)訓(xùn)練數(shù)據(jù)的一部分是有標(biāo)簽的,另一部分沒有標(biāo)簽,而且其中沒標(biāo)簽數(shù)據(jù)的數(shù)量居多(這符合現(xiàn)實(shí)情況)。隱藏在半監(jiān)督學(xué)習(xí)下的基本規(guī)律在于:數(shù)據(jù)的分布必然不是完全隨機(jī)的,通過一些有標(biāo)簽數(shù)據(jù)的局部特征,以及更多沒有標(biāo)簽數(shù)據(jù)的整體分布,得到可以接受甚至是非常好的分類結(jié)果。人類善于發(fā)現(xiàn)數(shù)據(jù)中的模式與關(guān)系,但不能快速處理大量的數(shù)據(jù)。另一方面,機(jī)器非常善于迅速處理大量數(shù)據(jù),但它們得知道怎么做。如果人類知識(shí)可以和機(jī)器的處理速度相結(jié)合,機(jī)器可以處理大量數(shù)據(jù)而不需要人類干涉——這就是機(jī)器學(xué)習(xí)的基本概念。8.3.1
機(jī)器學(xué)習(xí)的思路機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用等,其中很多都屬于大數(shù)據(jù)分析技術(shù)的應(yīng)用范疇。然而,機(jī)器學(xué)習(xí)技術(shù)會(huì)過度學(xué)習(xí),這意味著它們?cè)谟?xùn)練數(shù)據(jù)中學(xué)習(xí)到的關(guān)系無法推廣到總體中。因此,大多數(shù)廣泛使用的機(jī)器學(xué)習(xí)技術(shù)都有內(nèi)置的控制過度學(xué)習(xí)的機(jī)制,例如交叉檢驗(yàn)或者用獨(dú)立樣本進(jìn)行修正。隨著統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的不斷融合,它們之間的區(qū)別正逐漸變小。例如,逐步回歸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東科貿(mào)職業(yè)學(xué)院《管理綜合案例》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東江門中醫(yī)藥職業(yè)學(xué)院《康復(fù)機(jī)能評(píng)定》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東技術(shù)師范大學(xué)《電路與數(shù)字邏輯實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東財(cái)貿(mào)職業(yè)學(xué)院《網(wǎng)絡(luò)爬蟲技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 《水和冰的結(jié)構(gòu)》課件
- 共青科技職業(yè)學(xué)院《高級(jí)商務(wù)英語2》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛州職業(yè)技術(shù)學(xué)院《湘西民間打擊樂1》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南醫(yī)學(xué)院《英語聽力Ⅱ》2023-2024學(xué)年第一學(xué)期期末試卷
- 《課件課例研究》課件
- 防疫安全心理課件
- 實(shí)驗(yàn)九(b)液體表面張力系數(shù)的測定(用毛細(xì)管法)
- 全球機(jī)場三字碼、四字碼
- 2023-2024學(xué)年重慶市兩江新區(qū)四上數(shù)學(xué)期末質(zhì)量檢測試題含答案
- 泌尿外科內(nèi)鏡診療技術(shù)質(zhì)量保障措施及應(yīng)急預(yù)案
- M7.5漿砌塊石擋土墻砌筑施工方法
- 2022年度黑龍江省重點(diǎn)新產(chǎn)品名單
- 2023北京朝陽區(qū)初三上期末考物理試卷及答案
- 挖掘機(jī)司機(jī)安全培訓(xùn)試題和答案
- 腎內(nèi)科學(xué)篇病例分析1
- 工程電力之DCS系統(tǒng)受電及系統(tǒng)復(fù)原調(diào)試措施
- 我國成人血脂異常防治指南解讀
評(píng)論
0/150
提交評(píng)論