![大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理第7章 預(yù)測(cè)分析方法_第1頁](http://file4.renrendoc.com/view10/M02/03/14/wKhkGWXgFpaAJNOIAADfD7YP8BA333.jpg)
![大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理第7章 預(yù)測(cè)分析方法_第2頁](http://file4.renrendoc.com/view10/M02/03/14/wKhkGWXgFpaAJNOIAADfD7YP8BA3332.jpg)
![大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理第7章 預(yù)測(cè)分析方法_第3頁](http://file4.renrendoc.com/view10/M02/03/14/wKhkGWXgFpaAJNOIAADfD7YP8BA3333.jpg)
![大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理第7章 預(yù)測(cè)分析方法_第4頁](http://file4.renrendoc.com/view10/M02/03/14/wKhkGWXgFpaAJNOIAADfD7YP8BA3334.jpg)
![大數(shù)據(jù)分析與實(shí)踐-社會(huì)研究與數(shù)字治理第7章 預(yù)測(cè)分析方法_第5頁](http://file4.renrendoc.com/view10/M02/03/14/wKhkGWXgFpaAJNOIAADfD7YP8BA3335.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章預(yù)測(cè)分析方法QQ:81505050楊武劍周蘇大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理我們已經(jīng)知道,地震是由構(gòu)造板塊(即偶爾會(huì)漂移的陸地板塊)相互擠壓造成的,這種板塊擠壓發(fā)生在地球深處,并且各個(gè)板塊的相互運(yùn)動(dòng)極其復(fù)雜。因此,有用的地震數(shù)據(jù)來之不易,而要弄明白是什么地質(zhì)運(yùn)動(dòng)導(dǎo)致了地震,基本上是不現(xiàn)實(shí)的。每年,世界各地約有7000次里氏4.0或更高級(jí)別的地震發(fā)生,每年有成千上萬的人因此喪命,而一次地震帶來的物質(zhì)損失就有千億美元之多。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測(cè)地震雖然地震有預(yù)兆,“但是我們?nèi)匀粺o法通過它們可靠、有效地預(yù)測(cè)地震”。相反,我們能做的就是盡可能地為地震做好準(zhǔn)備,包括在設(shè)計(jì)、修建橋梁和其他建筑的時(shí)候就把地震考慮在內(nèi),并且準(zhǔn)備好地震應(yīng)急包等,一旦發(fā)生大地震,這些基礎(chǔ)設(shè)施和群眾都能有更充足的準(zhǔn)備。
圖7-1全球?qū)崟r(shí)地震監(jiān)測(cè)第7章導(dǎo)讀案例準(zhǔn)確預(yù)測(cè)地震如今,科學(xué)家們只能預(yù)報(bào)某個(gè)地方、某個(gè)具體的時(shí)間段內(nèi)發(fā)生某級(jí)地震的可能性。例如,他們只能說未來30年,某個(gè)地區(qū)有80%的可能性會(huì)發(fā)生里氏8.4級(jí)地震,但他們無法完全確定地說出何時(shí)何地會(huì)發(fā)生地震,或者發(fā)生幾級(jí)地震。科學(xué)家能預(yù)報(bào)地震,但是他們無法預(yù)測(cè)地震。歸根結(jié)底,準(zhǔn)確地預(yù)測(cè)地震,就要回答何時(shí)、何地、何種震級(jí)這三個(gè)關(guān)鍵問題,需要掌握促使地震發(fā)生的不同自然因素,以及揭示它們之間復(fù)雜的相互運(yùn)動(dòng)的更多、更好的數(shù)據(jù)。預(yù)測(cè)不同于預(yù)報(bào)。不過,雖然準(zhǔn)確預(yù)測(cè)地震還有很長(zhǎng)的路要走,但科學(xué)家已經(jīng)越來越多地為地震受害者爭(zhēng)取到那么幾秒鐘的時(shí)間了。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測(cè)地震例如,斯坦福大學(xué)的“地震捕捉者網(wǎng)絡(luò)”就是一個(gè)會(huì)生成大量數(shù)據(jù)的廉價(jià)監(jiān)測(cè)網(wǎng)絡(luò)的典型例子,它由參與分布式地震檢測(cè)網(wǎng)絡(luò)的大約200個(gè)志愿者的計(jì)算機(jī)組成。有時(shí)候,這個(gè)監(jiān)測(cè)網(wǎng)絡(luò)能提前10秒鐘提醒可能會(huì)受災(zāi)的人群。這10秒鐘,就意味著你可以選擇是搭乘運(yùn)行的電梯還是走樓梯,是走到開闊處去還是躲到桌子下面。技術(shù)的進(jìn)步使得捕捉和存儲(chǔ)如此多數(shù)據(jù)的成本大大降低。能得到更多、更好的數(shù)據(jù)不只為計(jì)算機(jī)實(shí)現(xiàn)更精明的決策提供了更多的可能性,也使人類變得更聰明了。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測(cè)地震從本質(zhì)上來說,準(zhǔn)確預(yù)測(cè)地震既是大數(shù)據(jù)的機(jī)遇又是挑戰(zhàn)。單純擁有數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。我們既要掌握足夠多的相關(guān)數(shù)據(jù),又要具備快速分析并處理這些數(shù)據(jù)的能力,只有這樣,我們才能爭(zhēng)取到足夠多的行動(dòng)時(shí)間。越是即將逼近的事情,越需要我們快速地實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)。第7章導(dǎo)讀案例準(zhǔn)確預(yù)測(cè)地震目錄預(yù)測(cè)分析方法論建立業(yè)務(wù)需求建立分析數(shù)據(jù)集降維與特征工程12345建立預(yù)測(cè)模型6部署預(yù)測(cè)模型預(yù)測(cè)分析方法論P(yáng)ART017.17.1預(yù)測(cè)分析方法論預(yù)測(cè)分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系,從而預(yù)測(cè)未來的事件和行為。因此,預(yù)測(cè)分析已經(jīng)在各行各業(yè)得到廣泛應(yīng)用,例如預(yù)測(cè)保險(xiǎn)索賠、市場(chǎng)營(yíng)銷反饋、債務(wù)損失、購(gòu)買行為、商品用途、客戶流失等。假設(shè)治療數(shù)據(jù)顯示,大多數(shù)患有ABC疾病的病人在用XYZ藥物治療后反映效果很好,盡管其中有個(gè)別人出現(xiàn)了副作用甚至死亡。你可以拒絕給任何人提供XYZ藥物,因?yàn)樗懈弊饔玫娘L(fēng)險(xiǎn),但這樣一來,大多數(shù)病人就會(huì)繼續(xù)受到疾病的折磨;或者你也可以讓病人自己來做決定,通過簽署法律文件來免責(zé)。但是,最好的解決方法是基于患者的其他信息,利用分析來預(yù)測(cè)治療的效果。7.1.2預(yù)測(cè)分析的流程7.1.1數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性預(yù)測(cè)分析使用的技術(shù)可以發(fā)現(xiàn)歷史數(shù)據(jù)之間的關(guān)系,從而預(yù)測(cè)未來的事件和行為。7.1預(yù)測(cè)分析方法論7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性現(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)的堆積都不是為了預(yù)測(cè),但預(yù)測(cè)分析系統(tǒng)能從這些龐大的數(shù)據(jù)中學(xué)到預(yù)測(cè)未來的能力,正如人們可以從自己的經(jīng)歷中汲取經(jīng)驗(yàn)教訓(xùn)那樣。我們敬畏數(shù)據(jù)的龐大數(shù)量,但規(guī)模是相對(duì)的,數(shù)據(jù)最激動(dòng)人心的不是其數(shù)量,而是數(shù)量的增長(zhǎng)速度。7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性世上萬物均有關(guān)聯(lián),這在數(shù)據(jù)中也有反映。例如:?你的購(gòu)買行為與你的消費(fèi)歷史、在線習(xí)慣、支付方式以及社會(huì)交往人群相關(guān)。數(shù)據(jù)能從這些因素中預(yù)測(cè)出消費(fèi)者的行為。?你的身體健康狀況與生命選擇和環(huán)境有關(guān),因此數(shù)據(jù)能通過小區(qū)以及家庭規(guī)模等信息來預(yù)測(cè)你的健康狀態(tài)。?你對(duì)工作的滿意程度與你的工資水平、表現(xiàn)評(píng)定以及升職情況相關(guān),而數(shù)據(jù)則能反映這些現(xiàn)實(shí)。?經(jīng)濟(jì)行為與人類情感相關(guān),因此數(shù)據(jù)也將反映這種關(guān)系。7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性數(shù)據(jù)科學(xué)家通過預(yù)測(cè)分析系統(tǒng)不斷地從數(shù)據(jù)集中找到規(guī)律。如果將數(shù)據(jù)整合在一起,盡管你不知道自己將從這些數(shù)據(jù)里發(fā)現(xiàn)什么,但至少能通過觀測(cè)解讀數(shù)據(jù)語言來發(fā)現(xiàn)某些內(nèi)在聯(lián)系。預(yù)測(cè)常常是從小處入手。預(yù)測(cè)分析是從預(yù)測(cè)變量開始的,這是對(duì)個(gè)人單一值的評(píng)測(cè)。近期性就是一個(gè)常見的變量,表示某人最近一次購(gòu)物、最近一次犯罪或最近一次發(fā)病到現(xiàn)在的時(shí)間,近期值越接近現(xiàn)在,觀察對(duì)象再次采取行動(dòng)的概率就越高。許多模型的應(yīng)用都是從近期表現(xiàn)最積極的人群開始的,無論是試圖建立聯(lián)系、開展犯罪調(diào)查還是進(jìn)行醫(yī)療診斷。7.1.1
數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性與此相似,頻率一一描述某人做出相同行為的次數(shù)也是常見且富有成效的指標(biāo)。如果有人此前經(jīng)常做某事,那么他再次做這件事的概率就會(huì)很高。實(shí)際上,預(yù)測(cè)就是根據(jù)人的過去行為來預(yù)見其未來行為。因此,預(yù)測(cè)分析模型不僅要靠那些枯燥的基本人口數(shù)據(jù),例如住址、性別等,而且也要涵蓋近期性、頻率、購(gòu)買行為、經(jīng)濟(jì)行為以及電話和上網(wǎng)等產(chǎn)品使用習(xí)慣之類的行為預(yù)測(cè)變量。這些行為通常是最有價(jià)值的,因?yàn)槲覀円A(yù)測(cè)的就是未來是否還會(huì)出現(xiàn)這些行為,這就是通過行為來預(yù)測(cè)行為的過程。預(yù)測(cè)分析系統(tǒng)會(huì)綜合考慮數(shù)十項(xiàng)甚至數(shù)百項(xiàng)預(yù)測(cè)變量。把個(gè)人的全部已知數(shù)據(jù)都輸入系統(tǒng),然后等著系統(tǒng)運(yùn)轉(zhuǎn)。系統(tǒng)內(nèi)綜合考量這些因素的核心學(xué)習(xí)技術(shù)正是科學(xué)的魔力所在。7.1.2
預(yù)測(cè)分析的流程分析方法論應(yīng)該充分利用分析工具所具有的功能。為了使效用最大化,分析師和客戶應(yīng)該全神貫注于項(xiàng)目過程開始和結(jié)論的部分——業(yè)務(wù)定義和部署上。問題定義和部署之間的技術(shù)開發(fā)活動(dòng),如模型訓(xùn)練和驗(yàn)證是很重要的,但是這些步驟中的關(guān)鍵選擇卻取決于如何定義這個(gè)問題。7.1.2
預(yù)測(cè)分析的流程預(yù)測(cè)分析的目標(biāo)是根據(jù)你所知道的事實(shí)來預(yù)測(cè)你所不知道的事情。例如,你可能會(huì)知道一所住房的特征信息——它的地理位置、建筑時(shí)間、建筑面積、房間數(shù)等,但是你不知道它的市場(chǎng)價(jià)值。如果知道了它的市場(chǎng)價(jià)值,你就能為這個(gè)房子制定一個(gè)報(bào)價(jià)。類似的,你可能會(huì)想知道一個(gè)病人是否會(huì)患有某些疾病,一個(gè)手機(jī)用戶每月消費(fèi)的通話時(shí)長(zhǎng),或者借款人是否會(huì)每月還款等等。在每個(gè)例子里,你都要利用那些已經(jīng)知道的數(shù)據(jù)來預(yù)測(cè)需要知道的信息。精準(zhǔn)預(yù)測(cè)能產(chǎn)生很大的好處,能帶動(dòng)商業(yè)價(jià)值的增加,因?yàn)榭煽康念A(yù)測(cè)能夠?qū)е赂玫臎Q策。7.1.2
預(yù)測(cè)分析的流程預(yù)測(cè)分析的流程包括四個(gè)主要步驟或部分,即業(yè)務(wù)定義、數(shù)據(jù)準(zhǔn)備、模型開發(fā)和模型部署,每一個(gè)部分又包括一系列子任務(wù)。應(yīng)該明確的是,現(xiàn)代企業(yè)中的分析方法不只是一組數(shù)據(jù)的技術(shù)說明。還有一些必要的組織步驟來確保預(yù)測(cè)模型能夠完成組織的目標(biāo),同時(shí)不會(huì)給業(yè)務(wù)帶來法律法規(guī)的風(fēng)險(xiǎn)。
圖7-3預(yù)測(cè)分析方法論定義業(yè)務(wù)需求PART027.27.2定義業(yè)務(wù)需求一個(gè)分析項(xiàng)目應(yīng)該以結(jié)果為導(dǎo)向,并且其結(jié)果也應(yīng)該對(duì)業(yè)務(wù)產(chǎn)生積極的作用,但這一點(diǎn)常常會(huì)被忽略。例如有的分析師往往不知道或者無法闡明他們所進(jìn)行的分析會(huì)對(duì)項(xiàng)目的業(yè)務(wù)產(chǎn)生怎樣的影響。7.2.3了解誤差成本7.2.1理解業(yè)務(wù)問題7.2.4確定預(yù)測(cè)窗口7.2.2定義應(yīng)對(duì)措施一個(gè)分析項(xiàng)目應(yīng)該以結(jié)果為導(dǎo)向,并且其結(jié)果也應(yīng)該對(duì)業(yè)務(wù)產(chǎn)生積極的作用。7.2.5評(píng)估部署環(huán)境7.2定義業(yè)務(wù)需求7.2.1
理解業(yè)務(wù)問題每個(gè)分析項(xiàng)目都應(yīng)該從一個(gè)清晰定義好的業(yè)務(wù)目標(biāo)開始,并且從項(xiàng)目利益相關(guān)者的角度來進(jìn)行闡述。例如:·將市場(chǎng)活動(dòng)ABC的反饋率提高至少x%;·將欺詐交易損失減少y%;·將客戶留存率提高z%。分析師經(jīng)常抱怨組織不用他們的分析結(jié)果。換言之,分析師花費(fèi)了很大精力來收集數(shù)據(jù)、轉(zhuǎn)化數(shù)據(jù),運(yùn)用分析構(gòu)建預(yù)測(cè)模型,然后,該模型卻被束之高閣,這樣其實(shí)就是失敗了。大多數(shù)的失敗案例都是由于缺少精確定義的業(yè)務(wù)價(jià)值。這跟分析本身不同,實(shí)施預(yù)測(cè)模型是一項(xiàng)跨部門的活動(dòng),它需要利益相關(guān)者、分析師和IT等多方合作,并且也有既定的項(xiàng)目實(shí)施成本。7.2.2
定義應(yīng)對(duì)措施應(yīng)對(duì)的措施之一就是獲得想要的預(yù)測(cè)內(nèi)容。為了實(shí)現(xiàn)更大的價(jià)值,應(yīng)對(duì)措施應(yīng)該能對(duì)那些產(chǎn)出結(jié)果會(huì)影響組織關(guān)鍵指標(biāo)的決策或者業(yè)務(wù)流程起到作用。例如,一個(gè)針對(duì)性的促銷是否會(huì)對(duì)目標(biāo)客戶有影響,一個(gè)住房最可能的銷售價(jià)格是什么,一個(gè)頁面訪問者最可能的下一次點(diǎn)擊位置,或者一個(gè)足球賽中的進(jìn)球分布。在大多數(shù)分析案例中,應(yīng)對(duì)措施代表了一種未來事件,因此你還不知道這種對(duì)策方法產(chǎn)生的結(jié)果。例如,一個(gè)信用卡發(fā)卡機(jī)構(gòu)可能想要預(yù)測(cè)某個(gè)客戶是否會(huì)在明年申請(qǐng)破產(chǎn)。一個(gè)發(fā)生在未來的事件本質(zhì)上是不確定的,如果你的目的是為了避免給破產(chǎn)客戶提供貸款從而減少債務(wù)損失,那么事后才得到的信息就太晚了。7.2.2
定義應(yīng)對(duì)措施在一些情況下,應(yīng)對(duì)措施代表了一個(gè)當(dāng)前或過去的事件。例如,如果因?yàn)橐恍┰驘o法獲得破產(chǎn)記錄,那么可以利用預(yù)測(cè)模型在其他客戶信息的基礎(chǔ)上估計(jì)一個(gè)客戶是否之前已經(jīng)申請(qǐng)了破產(chǎn)。應(yīng)對(duì)措施的時(shí)間維度應(yīng)該是明確的。假設(shè)想要預(yù)測(cè)一個(gè)潛在借款人是否會(huì)在十年分期貸款里違約,你應(yīng)該定義違約的應(yīng)對(duì)措施是在整個(gè)貸款周期內(nèi)還是在一個(gè)更短的周期內(nèi)?長(zhǎng)期應(yīng)對(duì)舉措往往更適合商業(yè)決策,但是需要更多的歷史數(shù)據(jù)去驗(yàn)證。預(yù)測(cè)長(zhǎng)期行為也比預(yù)測(cè)短期行為更加困難,因?yàn)橥獠恳蛩赜懈蟮目赡苄詠碛绊懙侥阆MM的行為。7.2.2
定義應(yīng)對(duì)措施對(duì)于任何商業(yè)應(yīng)用,都有可能需要預(yù)測(cè)多種對(duì)策:·稅務(wù)機(jī)關(guān)需要確定應(yīng)該審核哪些納稅申報(bào)表:審計(jì)的成本很高,并且審計(jì)師的數(shù)量有限。為了最大限度地提高每個(gè)審計(jì)師帶來的收益,稅務(wù)機(jī)關(guān)應(yīng)該同時(shí)預(yù)測(cè)瞞報(bào)收入的查出概率和稅務(wù)機(jī)關(guān)可能收回的金額?!ひ凰髮W(xué)希望最大限度地提高在校友捐贈(zèng)活動(dòng)中的投資回報(bào)。為了正確制定不同的策略,校方應(yīng)該預(yù)測(cè)兩個(gè)概率:每個(gè)校友響應(yīng)的可能性和每位校友可能會(huì)捐贈(zèng)的金額。7.2.2
定義應(yīng)對(duì)措施如果面對(duì)很多商業(yè)問題,你想要預(yù)測(cè)的就可能是多個(gè)應(yīng)對(duì)措施。例如,為了最大限度地提高一場(chǎng)捐贈(zèng)活動(dòng)的投資回報(bào)率(ROI),你會(huì)想知道預(yù)測(cè)捐贈(zèng)活動(dòng)的潛在目標(biāo)是否會(huì)得到響應(yīng),以及如果響應(yīng)了可能會(huì)捐助多少錢。盡管存在單個(gè)模型對(duì)應(yīng)多種應(yīng)對(duì)措施建模的技術(shù),但大多數(shù)分析師更愿意將問題劃分成幾個(gè)部分,然后針對(duì)每種應(yīng)對(duì)措施分別建立預(yù)測(cè)模型。以這種方式分解問題,能夠確保分析師針對(duì)每個(gè)應(yīng)對(duì)措施產(chǎn)生的影響來獨(dú)立優(yōu)化預(yù)測(cè)模型,并且可以給業(yè)務(wù)使用者提供更大的靈活性。7.2.2
定義應(yīng)對(duì)措施例如,考慮兩組可能的捐贈(zèng)人:對(duì)活動(dòng)響應(yīng)度較低卻有較高的平均捐贈(zèng)額的人,以及對(duì)活動(dòng)響應(yīng)度較高卻有較低的平均捐贈(zèng)額的人。這兩部分都有著相似的整體預(yù)期值。然而,通過細(xì)分應(yīng)對(duì)行為和分別建模,客戶可以區(qū)分這兩組捐贈(zèng)人并采用不同的策略。大多數(shù)預(yù)測(cè)問題可以分成兩類:分類和回歸。在分類中,分析師希望預(yù)測(cè)將在未來發(fā)生的一個(gè)可分類的事件,在大多數(shù)案例中這是一個(gè)二值問題。因?yàn)橄M(fèi)者要么對(duì)一個(gè)營(yíng)銷活動(dòng)做出響應(yīng)要么不響應(yīng),負(fù)債人要么宣布破產(chǎn)要么不破產(chǎn)。在回歸中,分析師希望預(yù)測(cè)一個(gè)連續(xù)值,例如消費(fèi)者將會(huì)消費(fèi)的手機(jī)通話時(shí)長(zhǎng),或者購(gòu)買者將會(huì)在一個(gè)時(shí)期里消費(fèi)的金額。有一些技術(shù)適合分類問題,而另一些適合回歸問題,還有一些則同時(shí)可以用于分類和回歸。分析師一定要了解所預(yù)測(cè)的問題,從而選擇正確的技術(shù)。7.2.3
了解誤差成本在理想情況下,人們希望用一個(gè)模型就完美地預(yù)測(cè)了未來的事件,但實(shí)際上這樣的可能性不大。但放棄追求建立完美模型的想法,就應(yīng)考慮模型要多精確才算“足夠好”?通常,預(yù)測(cè)模型必須能夠提高決策的有效性,從而帶來足夠多的經(jīng)濟(jì)收益,以抵消開發(fā)和部署模型的成本。當(dāng)風(fēng)險(xiǎn)價(jià)值較高時(shí),預(yù)測(cè)模型能夠產(chǎn)生很好的經(jīng)濟(jì)效益。如果風(fēng)險(xiǎn)價(jià)值較低,即使一個(gè)非常好的預(yù)測(cè)模型也只能提供很少的經(jīng)濟(jì)效益或幾乎沒有經(jīng)濟(jì)效益,因?yàn)樽鲆粋€(gè)錯(cuò)誤決策的損失很小。許多組織不愿意費(fèi)心建立針對(duì)郵件營(yíng)銷活動(dòng)的預(yù)測(cè)模型,就是因?yàn)榘l(fā)一封電子郵件給一個(gè)不會(huì)響應(yīng)的消費(fèi)者的增量成本很低,這也意味著你的郵箱里會(huì)有更多的垃圾郵件。7.2.3
了解誤差成本假設(shè)風(fēng)險(xiǎn)價(jià)值高到需要建立一個(gè)預(yù)測(cè)模型,那么這個(gè)模型的效果一定要比現(xiàn)有的針對(duì)性方案的效果好。預(yù)測(cè)模型的總體準(zhǔn)確性十分重要,但一定要考慮到誤差的成分。一個(gè)二值分類模型有兩種正確的結(jié)果:它可以精準(zhǔn)地預(yù)測(cè)一個(gè)事件是否會(huì)發(fā)生,或者它可以預(yù)測(cè)這個(gè)事件是否不會(huì)發(fā)生。同樣它也有兩種錯(cuò)誤的結(jié)果:它可能錯(cuò)誤地預(yù)測(cè)一個(gè)事件將會(huì)發(fā)生,或者它錯(cuò)誤地預(yù)測(cè)這個(gè)事件不會(huì)發(fā)生。7.2.3
了解誤差成本假設(shè)開發(fā)預(yù)測(cè)模型的目標(biāo)是預(yù)測(cè)在ICU(重癥監(jiān)護(hù)病房)的患者心臟驟停這個(gè)事件。如果模型預(yù)測(cè)結(jié)果是該患者心臟會(huì)驟停,那么ICU的工作人員將會(huì)主動(dòng)采取治療措施,在這種情況下,患者有更大的可能活下來。否則,這些工作人員只會(huì)在患者心臟驟停時(shí)采取措施,到那時(shí)一切都太遲了。
圖7-5ICU監(jiān)測(cè)7.2.3
了解誤差成本如果一個(gè)預(yù)測(cè)模型錯(cuò)誤地預(yù)測(cè)了該患者會(huì)心臟驟停,那么結(jié)果可以稱作積極錯(cuò)誤。如果預(yù)測(cè)模型預(yù)測(cè)該患者不會(huì)心臟驟停,但是患者實(shí)際上心臟驟停了,那么結(jié)果則被稱作消極錯(cuò)誤。在大多數(shù)實(shí)際的決策中,錯(cuò)誤的代價(jià)是不對(duì)稱的,這意味著積極錯(cuò)誤的代價(jià)和消極錯(cuò)誤的代價(jià)有天壤之別。在這個(gè)案例中,積極錯(cuò)誤的代價(jià)只是不必要的治療,而消極錯(cuò)誤的代價(jià)則是患者死亡概率增加。大多數(shù)醫(yī)療決策中,利益相關(guān)者把重心放在最大限度地減少消極錯(cuò)誤而不是積極錯(cuò)誤上。7.2.4
確定預(yù)測(cè)窗口預(yù)測(cè)窗口對(duì)分析項(xiàng)目的設(shè)計(jì)有很大影響,它會(huì)影響到分析方法的選擇和數(shù)據(jù)的選擇。所有的預(yù)測(cè)都與未來發(fā)生的事件有關(guān),但是不同的商業(yè)應(yīng)用對(duì)預(yù)測(cè)提前的時(shí)間有不同的要求。例如,在零售業(yè)商店,排班人員可能只對(duì)明天或接下來幾天的預(yù)期店鋪流量感興趣;采購(gòu)經(jīng)理可能會(huì)關(guān)注接下來幾個(gè)月的店鋪流量;而商場(chǎng)選址人員可能會(huì)關(guān)注未來幾年的預(yù)測(cè)流量。7.2.4
確定預(yù)測(cè)窗口一般來說,隨著預(yù)測(cè)窗口長(zhǎng)度延長(zhǎng),模型預(yù)測(cè)的精確性會(huì)下降。換句話說,預(yù)測(cè)明天的店鋪流量要比預(yù)測(cè)未來三年的店鋪流量簡(jiǎn)單得多。這里有兩個(gè)主要原因,一是預(yù)測(cè)窗口延長(zhǎng)了,突發(fā)事件發(fā)生的概率會(huì)增加。例如,如果一個(gè)突發(fā)事件發(fā)生在你店鋪的附近,那么該店鋪的流量將會(huì)發(fā)生改變。二是隨著時(shí)間的變化,隨機(jī)誤差會(huì)累積增加,并且對(duì)預(yù)測(cè)產(chǎn)生很大的影響。7.2.4
確定預(yù)測(cè)窗口預(yù)測(cè)窗口也會(huì)影響預(yù)測(cè)中作為預(yù)測(cè)因子使用的數(shù)據(jù)。還是以零售業(yè)為例,假設(shè)你想要提前預(yù)測(cè)一天中一個(gè)店鋪的流量,使用建立在動(dòng)態(tài)參數(shù)上的一個(gè)時(shí)間序列分析可能就很好用,比如過去三天中的每日流量。另一方面,如果你想要預(yù)測(cè)未來三年的店鋪流量,你可能不得不加入一些基礎(chǔ)要素?cái)?shù)據(jù),如本地住房建設(shè)情況、家庭分布、家庭收入變化以及競(jìng)爭(zhēng)格局的變化。7.2.5
評(píng)估部署環(huán)境部署是分析過程的重要部分,分析師在開展預(yù)測(cè)建模項(xiàng)目工作前一定要了解預(yù)測(cè)模型的部署環(huán)境。有兩種方式可以用來部署預(yù)測(cè)模型:批量部署或者事務(wù)部署。在批量預(yù)測(cè)中,評(píng)分機(jī)制會(huì)針對(duì)一組實(shí)體計(jì)算記錄級(jí)的預(yù)測(cè)結(jié)果,并且將結(jié)果存儲(chǔ)在一個(gè)信息倉庫中,需要使用預(yù)測(cè)結(jié)果的商業(yè)應(yīng)用可以直接從信息庫中獲取預(yù)測(cè)結(jié)果。在事務(wù)部署中,評(píng)分機(jī)制根據(jù)應(yīng)用程序的請(qǐng)求對(duì)每個(gè)記錄計(jì)算預(yù)測(cè)結(jié)果,該應(yīng)用程序會(huì)立即使用預(yù)測(cè)結(jié)果。事務(wù)型的或者實(shí)時(shí)的評(píng)分對(duì)需要實(shí)時(shí)或很小延遲的應(yīng)用至關(guān)重要,但是它們的成本也會(huì)更高,同時(shí)大多數(shù)應(yīng)用并不一定需要較小的延遲。7.2.5
評(píng)估部署環(huán)境分析師一定要知道一個(gè)應(yīng)用程序可以在部署環(huán)境中獲得哪些數(shù)據(jù)。這個(gè)問題很重要,因?yàn)榉治鰩熗ǔJ窃谝粋€(gè)“沙箱”環(huán)境中開展工作,在這種環(huán)境中數(shù)據(jù)相對(duì)容易獲取,也相對(duì)容易將其合并到分析數(shù)據(jù)集。而生產(chǎn)環(huán)境中可能存在運(yùn)營(yíng)上或者法律上的約束,這可能會(huì)限制數(shù)據(jù)的使用,或者讓數(shù)據(jù)使用的成本大大增加。從戰(zhàn)略角度來說,如果目的是利用分析來確定什么數(shù)據(jù)對(duì)業(yè)務(wù)有最大的價(jià)值,那么在預(yù)測(cè)模型中使用當(dāng)前部署環(huán)境沒有的數(shù)據(jù),可能會(huì)十分有效。然而在這種情況下,組織應(yīng)該計(jì)劃更長(zhǎng)的實(shí)施周期。7.2.5
評(píng)估部署環(huán)境部署環(huán)境也會(huì)影響分析師對(duì)分析方法的選擇。一些方法,如線性回歸或者決策樹,生成的預(yù)測(cè)模型格式很容易在基于SQL的系統(tǒng)中實(shí)現(xiàn)。其他一些方法,如支持向量機(jī)或者神經(jīng)網(wǎng)絡(luò),則很難實(shí)現(xiàn)。一些預(yù)測(cè)分析軟件包支持多種格式的模型導(dǎo)出。但是,部署環(huán)境可能不支持分析軟件包的格式,并且分析軟件包可能不支持所有分析工具的模型導(dǎo)出。建立分析數(shù)據(jù)集PART037.37.3建立分析數(shù)據(jù)集為分析預(yù)測(cè)工作而準(zhǔn)備數(shù)據(jù)的過程包括數(shù)據(jù)采集、評(píng)估和轉(zhuǎn)化等,建立分析數(shù)據(jù)集是預(yù)測(cè)分析的第一步。其中的數(shù)據(jù)處理(準(zhǔn)備)工作需要占據(jù)整個(gè)周期的大部分時(shí)間,它們代表了流程改進(jìn)和上下游協(xié)同的機(jī)會(huì)。
圖7-6建立分析數(shù)據(jù)集7.3.4轉(zhuǎn)化數(shù)據(jù)7.3.1配置數(shù)據(jù)7.3.5執(zhí)行基本表操作7.3.2評(píng)估數(shù)據(jù)7.3.3調(diào)查異常值7.3.6處理丟失數(shù)據(jù)7.3建立分析數(shù)據(jù)集7.3.1
配置數(shù)據(jù)理想狀態(tài)下,分析師是將分析工具連接到一個(gè)高效的企業(yè)信息倉庫中,而現(xiàn)實(shí)生活中的企業(yè)分析與上述理想情況相比,不同點(diǎn)在于:數(shù)據(jù)存在于企業(yè)內(nèi)部和外部的不同資源系統(tǒng)中;數(shù)據(jù)清理、集成和組織處理使數(shù)據(jù)從“混亂”到“干凈、有條理、可記錄”。雖然企業(yè)在數(shù)據(jù)倉庫和主數(shù)據(jù)管理(MDM)方面已經(jīng)取得了長(zhǎng)足的進(jìn)步,但只有很少的企業(yè)能跟得上不斷增長(zhǎng)的數(shù)據(jù)量和愈加復(fù)雜的數(shù)據(jù)。“主數(shù)據(jù)管理”描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。7.3.1
配置數(shù)據(jù)分析師是為那些有即時(shí)業(yè)務(wù)需求的內(nèi)部客戶工作的,所以他們往往會(huì)在IT部門之前開始工作,他們會(huì)花費(fèi)大量的時(shí)間收集和整合數(shù)據(jù)。這些時(shí)間大部分都花在調(diào)查數(shù)據(jù)潛在來源、了解數(shù)據(jù)采集、購(gòu)買文檔和數(shù)據(jù)使用許可上。實(shí)際操作上,將數(shù)據(jù)導(dǎo)入分析“沙箱”只會(huì)花費(fèi)相對(duì)很少的時(shí)間。7.3.2
評(píng)估數(shù)據(jù)當(dāng)接收到數(shù)據(jù)文件時(shí),分析師首先要確定數(shù)據(jù)格式是否與分析軟件兼容,分析軟件工具往往只支持有限的幾種格式。如果可以讀取數(shù)據(jù),那么下一步就是執(zhí)行測(cè)試,以驗(yàn)證數(shù)據(jù)是否符合相關(guān)文檔。如果沒有文檔,分析師將花費(fèi)一些時(shí)間來“猜測(cè)”數(shù)據(jù)格式和文件的內(nèi)容。7.3.2
評(píng)估數(shù)據(jù)如果數(shù)據(jù)文件是可讀的,分析師會(huì)讀取整個(gè)文件,如果文件很大的話,則讀取一個(gè)樣本文件,并且對(duì)數(shù)據(jù)進(jìn)行一些基本的檢查。例如對(duì)于表格數(shù)據(jù),這些檢查包括:·確定鍵值是否存在,這對(duì)關(guān)聯(lián)到其他表是很必要的?!ご_保每個(gè)字段都被填充。字段不需要填充每一個(gè)記錄,但所有行都是空白的字段可以從分析中刪除?!z查字段的變化。每行都填充相同值的字段可以從分析中刪除?!ぴu(píng)估字段的數(shù)據(jù)類型:浮點(diǎn)、整數(shù)、字符、日期或其他數(shù)據(jù)類型,數(shù)據(jù)類型與特定平臺(tái)相關(guān)?!ご_定在數(shù)據(jù)文件中是否有對(duì)應(yīng)此項(xiàng)目應(yīng)對(duì)措施的數(shù)據(jù)字段。7.3.3
調(diào)查異常值含有極端值或異常值的數(shù)據(jù)集會(huì)對(duì)建模過程產(chǎn)生不必要的影響,極端情況下甚至可能會(huì)使建立準(zhǔn)確模型的工作變得困難。分析師不能簡(jiǎn)單地丟棄任何一個(gè)異常值,例如一個(gè)保險(xiǎn)分析師不能簡(jiǎn)單地放棄卡特里娜颶風(fēng)所造成的那部分損失。圖7-7異常值7.3.3
調(diào)查異常值分析師應(yīng)該調(diào)查離群值,以確定它們是否是在數(shù)據(jù)采集過程中人為造成的。例如,一位研究超市POS機(jī)數(shù)據(jù)的分析師發(fā)現(xiàn)了一些消費(fèi)金額非常大的賬戶。在調(diào)查中,他發(fā)現(xiàn)這些“極端”的顧客是超市收銀員在刷自己的會(huì)員卡,以使那些沒有會(huì)員卡的顧客獲得折扣。又例如,研究租賃公司數(shù)據(jù)的分析師發(fā)現(xiàn),在一個(gè)市場(chǎng)中出現(xiàn)了這樣的不尋常現(xiàn)象,大量進(jìn)行貸款申請(qǐng)的客戶并沒有隨后激活和使用這些貸款。分析師和客戶提出了一些假設(shè)來“解釋”觀察到的這種行為。但是在調(diào)查中分析師發(fā)現(xiàn),系統(tǒng)管理員在系統(tǒng)中跑了很多測(cè)試申請(qǐng),但是卻沒有將測(cè)試申請(qǐng)和真實(shí)客戶申請(qǐng)進(jìn)行區(qū)分。7.3.4
轉(zhuǎn)化數(shù)據(jù)在建模開始前,必要的數(shù)據(jù)轉(zhuǎn)換取決于數(shù)據(jù)的條件和項(xiàng)目的要求。因?yàn)槊總€(gè)項(xiàng)目要求的不同,對(duì)數(shù)據(jù)轉(zhuǎn)換進(jìn)行統(tǒng)一概括是不可能的,但是可以審查數(shù)據(jù)轉(zhuǎn)換的原因以及通用類型的操作。對(duì)研究數(shù)據(jù)進(jìn)行轉(zhuǎn)換的原因有兩個(gè)。第一個(gè)原因是源數(shù)據(jù)與應(yīng)用程序的業(yè)務(wù)規(guī)則不匹配。原則上,組織應(yīng)在數(shù)據(jù)倉庫后端實(shí)施流程,確保數(shù)據(jù)符合業(yè)務(wù)規(guī)則。這使整個(gè)企業(yè)有一致的應(yīng)用程序。但實(shí)際上分析師往往必須在組織數(shù)據(jù)倉庫之前進(jìn)行分析工作,并且所用的數(shù)據(jù)也不是企業(yè)數(shù)據(jù)倉庫的一部分。也有一些特殊情況,分析師會(huì)采用與企業(yè)業(yè)務(wù)規(guī)則不同的業(yè)務(wù)規(guī)則,以滿足內(nèi)部客戶的需要。7.3.4
轉(zhuǎn)化數(shù)據(jù)分析轉(zhuǎn)換數(shù)據(jù)的第二個(gè)原因是為了改善所建立預(yù)測(cè)模型的準(zhǔn)確性和精確性。這些轉(zhuǎn)換包括簡(jiǎn)單數(shù)學(xué)變換、“分箱”的數(shù)值變量、記錄分類變量以及更復(fù)雜的操作,如缺失值處理或挖掘文本提取特征。一些預(yù)測(cè)分析技術(shù)需要數(shù)據(jù)轉(zhuǎn)化,而分析軟件包會(huì)自動(dòng)處理所需的轉(zhuǎn)換。
圖7-8分析的自動(dòng)處理7.3.4
轉(zhuǎn)化數(shù)據(jù)當(dāng)分析師驗(yàn)證模型時(shí),轉(zhuǎn)換數(shù)據(jù)極大地提高了模型的精確性和準(zhǔn)確性。然而,分析師應(yīng)該問的最重要的問題是,這樣的轉(zhuǎn)換是否能夠在部署環(huán)境中實(shí)現(xiàn)。分析沙箱中“規(guī)范”的數(shù)據(jù)不能改善預(yù)測(cè)模型在實(shí)際市場(chǎng)中的預(yù)測(cè)效果,除非在部署環(huán)境中的數(shù)據(jù)可以利用相同的轉(zhuǎn)換變成“規(guī)范的”。7.3.5
執(zhí)行基本表操作分析工具軟件一般需要將全部數(shù)據(jù)(應(yīng)對(duì)措施和預(yù)測(cè)因子)加載到一個(gè)單獨(dú)表格中。除非所有需要的數(shù)據(jù)已經(jīng)存在于同一張表中,否則分析師必須執(zhí)行基本表操作來建立分析數(shù)據(jù)集。這些操作包括:·連接表 ·添加一列并用計(jì)算字段填充
·附加表 ·刪除列·選擇行 ·分組·刪除行高性能的SQL引擎通常在表操作方面比分析軟件更有效,分析師應(yīng)盡可能地利用這些工具進(jìn)行基本數(shù)據(jù)的準(zhǔn)備。7.3.6
處理丟失數(shù)據(jù)數(shù)據(jù)可能會(huì)因?yàn)槟承┰驈臄?shù)據(jù)集中丟失。數(shù)據(jù)有時(shí)是邏輯上丟失:例如當(dāng)數(shù)據(jù)表包括記錄客戶數(shù)據(jù)服務(wù)使用的字段,但是消費(fèi)者卻沒有訂購(gòu)該服務(wù)。在其他一些情況下,數(shù)據(jù)丟失是因?yàn)樵聪到y(tǒng)使用一個(gè)隱含的零編碼(零表示為空格)。數(shù)據(jù)丟失也可能是由于數(shù)據(jù)采集過程中人為的因素。例如如果客戶拒絕回答收入問題,該字段可能是空白的。許多統(tǒng)計(jì)軟件包要求每個(gè)數(shù)據(jù)工作表的單元格中都有值,并且將從表格中刪除那些每列不是都有值的行。所以分析師使用一些工具來推斷缺失數(shù)據(jù)的值,所使用的方法包括從簡(jiǎn)單的平均替代到復(fù)雜的最近鄰方法。7.3.6
處理丟失數(shù)據(jù)對(duì)丟失數(shù)據(jù)的處理不會(huì)為數(shù)據(jù)增加信息價(jià)值,它們僅僅是為了可以應(yīng)用那些無法處理缺失數(shù)據(jù)的分析技術(shù)。因?yàn)閿?shù)據(jù)丟失很少是由于隨機(jī)現(xiàn)象引起的,所以分析師需要在理解數(shù)據(jù)缺失的原因后,謹(jǐn)慎地使用推斷技術(shù)來補(bǔ)足相關(guān)數(shù)據(jù)。如同其他轉(zhuǎn)換一樣,分析師需要問自己是否能夠在部署環(huán)境中將缺失的數(shù)據(jù)“修復(fù)”,以及“修復(fù)”所需的成本是多少。比起在分析數(shù)據(jù)集中“修復(fù)”數(shù)據(jù),更好的做法是使用能夠處理缺失數(shù)據(jù)的分析技術(shù),例如決策樹。降維與特征工程PART047.47.4降維與特征工程解決大數(shù)據(jù)分析問題的一個(gè)重要思路在于減少數(shù)據(jù)量。針對(duì)數(shù)據(jù)規(guī)模大的特征,要對(duì)大數(shù)據(jù)進(jìn)行有效分析,需要對(duì)數(shù)據(jù)進(jìn)行有效的縮減。進(jìn)行數(shù)據(jù)縮減,一方面是通過抽樣技術(shù)讓數(shù)據(jù)的條目數(shù)減少;另一方面,可以通過減少描述數(shù)據(jù)的屬性來達(dá)到目的,也就是降維技術(shù)。我們來學(xué)習(xí)采用有效選擇特征等方法,通過減小描述數(shù)據(jù)的屬性來達(dá)到減小數(shù)據(jù)規(guī)模的目的。7.4.3特征變換7.4.1降維7.4.2特征工程學(xué)習(xí)采用有效選擇特征等方法,通過減小描述數(shù)據(jù)的屬性來達(dá)到減小數(shù)據(jù)規(guī)模的目的。7.4降維與特征工程7.4.1
降維分析師常常將維度、特征和預(yù)測(cè)變量這三個(gè)詞混用(視為同義詞)。分析師利用兩類技術(shù)來降低數(shù)據(jù)集中的維度:特征提取和特征選擇。顧名思義,特征提取方法是將多個(gè)原始變量中的信息合成到有限的維度中,從噪聲中提取信號(hào)數(shù)據(jù)。特征選擇方法幫助分析師篩選一系列預(yù)測(cè)因子,選出最佳的預(yù)測(cè)因子用于模型訓(xùn)練,同時(shí)忽略其他的預(yù)測(cè)因子。特征提取比特征選擇更為精致,有著悠久的學(xué)術(shù)使用歷史,特征選擇則是更實(shí)用的工具。許多預(yù)測(cè)模型技術(shù)含內(nèi)置的特征選擇功能:這種技術(shù)自動(dòng)地評(píng)估和選擇可獲得的預(yù)測(cè)因子。當(dāng)建模技術(shù)中有內(nèi)置的特征選擇功能時(shí)。分析師可以從建模過程中省略特征選擇步驟,這是使用這些方法的一個(gè)重要原因。7.4.2
特征工程特征是大數(shù)據(jù)分析的原材料,對(duì)最終模型有著決定性的影響。數(shù)據(jù)特征會(huì)直接影響使用的預(yù)測(cè)模型和實(shí)現(xiàn)的預(yù)測(cè)結(jié)果。準(zhǔn)備和選擇的特征越好,則分析的結(jié)果越好。影響分析結(jié)果好壞的因素包括模型的選擇、可用的數(shù)據(jù)、特征的提取。優(yōu)質(zhì)的特征往往描述了數(shù)據(jù)的固有結(jié)構(gòu)。大多數(shù)模型都可以通過數(shù)據(jù)中良好的結(jié)構(gòu)很好地學(xué)習(xí),即使不是最優(yōu)的模型,優(yōu)質(zhì)的特征也可以得到不錯(cuò)的效果。優(yōu)質(zhì)特征的靈活性可以使用簡(jiǎn)單的模型運(yùn)算得更快,更容易理解和維護(hù)。優(yōu)質(zhì)的特征還可以在使用不是最優(yōu)的模型參數(shù)的情況下得到不錯(cuò)的分析結(jié)果,這樣用戶就不必費(fèi)力去選擇最適合的模型和最優(yōu)的參數(shù)了。7.4.2
特征工程特征工程的目的就是獲取優(yōu)質(zhì)特征以有效支持大數(shù)據(jù)分析,其定義是將原始數(shù)據(jù)轉(zhuǎn)化為特征,更好地表示模型處理的實(shí)際問題,提升對(duì)于未知數(shù)據(jù)的準(zhǔn)確性。它使用目標(biāo)問題所在的特定領(lǐng)域知識(shí)或者自動(dòng)化的方法來生成、提取、刪減或者組合變化得到特征。特征工程包含特征提取、特征選擇、特征構(gòu)建和特征學(xué)習(xí)等問題。圖7-9特征工程整體架構(gòu)示例7.4.2
特征工程(1)大數(shù)據(jù)分析中的特征。特征是觀測(cè)現(xiàn)象中的一種獨(dú)立、可測(cè)量的屬性。選擇信息量大的、有差別性的、獨(dú)立的特征是分類和回歸等問題的關(guān)鍵一步。最初的原始特征數(shù)據(jù)集可能太大,或者信息冗余,因此在分析應(yīng)用中,初始步驟就是選擇特征的子集,或構(gòu)建一套新的特征集,減少功能來促進(jìn)算法的學(xué)習(xí),提高泛化能力和可解釋性。在結(jié)構(gòu)化高維數(shù)據(jù)中,觀測(cè)數(shù)據(jù)或?qū)嵗▽?duì)應(yīng)表格的一行)由不同的變量或者屬性(表格的一列)構(gòu)成,這里屬性其實(shí)就是特征。但是與屬性不同的是,特征是對(duì)于分析和解決問題有用、有意義的屬性。7.4.2
特征工程對(duì)于非結(jié)構(gòu)數(shù)據(jù),在多媒體圖像分析中,一幅圖像是一個(gè)觀測(cè),但是特征可能是圖中的一條線;在自然語言處理中,一個(gè)文本是一個(gè)觀測(cè),但是其中的段落或者詞頻可能才是一種特征;在語音識(shí)別中,一段語音是一個(gè)觀測(cè),但是一個(gè)詞或者音素才是一種特征。7.4.2
特征工程(2)特征的重要性。這是對(duì)特征進(jìn)行選擇的重要指標(biāo),特征根據(jù)重要性被分配分?jǐn)?shù)并排序,其中高分的特征被選擇出來放入訓(xùn)練數(shù)據(jù)集。如果與因變量(預(yù)測(cè)的事物)高度相關(guān),則這個(gè)特征可能很重要,其中相關(guān)系數(shù)和獨(dú)立變量方法是常用的方法。在構(gòu)建模型的過程中,一些復(fù)雜的預(yù)測(cè)模型會(huì)在算法內(nèi)部進(jìn)行特征重要性的評(píng)價(jià)和選擇,如多元自適應(yīng)回歸樣條法、隨機(jī)森林、梯度提升機(jī)。這些模型在模型準(zhǔn)備階段會(huì)進(jìn)行變量重要性的確定。7.4.2
特征工程(3)特征提取。一些觀測(cè)數(shù)據(jù)如果直接建模,其原始狀態(tài)的數(shù)據(jù)太多。像圖像、音頻和文本數(shù)據(jù),如果將其看作表格數(shù)據(jù),那么其中包含了數(shù)以千計(jì)的屬性。特征提取是自動(dòng)地對(duì)原始觀測(cè)降維,使其特征集合小到可以進(jìn)行建模的過程。對(duì)于結(jié)構(gòu)化高維數(shù)據(jù),可以使用主成分分析、聚類等映射方法;對(duì)于非結(jié)構(gòu)的圖像數(shù)據(jù),可以進(jìn)行線或邊緣的提??;根據(jù)相應(yīng)的領(lǐng)域,圖像、視頻和音頻數(shù)據(jù)可以有很多數(shù)字信號(hào)處理的方法對(duì)其進(jìn)行處理。7.4.2
特征工程(4)特征選擇。不同的特征對(duì)模型的準(zhǔn)確度的影響不同,有些特征與要解決的問題不相關(guān),有些特征是冗余信息,這些特征都應(yīng)該被移除掉。在特征工程中,特征選擇和特征提取同等重要,可以說數(shù)據(jù)和特征決定了大數(shù)據(jù)分析的上限,而模型和算法只是逼近這個(gè)上限而已。因此,特征選擇在大數(shù)據(jù)分析中占有相當(dāng)重要的地位。7.4.2
特征工程通常,特征選擇是自動(dòng)地選擇出對(duì)于問題最重要的那些特征子集的過程。特征選擇算法可以使用評(píng)分的方法來進(jìn)行排序;還有些方法通過反復(fù)試驗(yàn)來搜索出特征子集,自動(dòng)地創(chuàng)建并評(píng)估模型以得到客觀的、預(yù)測(cè)效果最好的特征子集;還有一些方法,將特征選擇作為模型的附加功能,像逐步回歸法就是一個(gè)在模型構(gòu)建過程中自動(dòng)進(jìn)行特征選擇的算法。7.4.2
特征工程工程上常用的方法有以下幾種:①計(jì)算每一個(gè)特征與響應(yīng)變量的相關(guān)性;②單個(gè)特征模型排序;③使用正則化方法選擇屬性。求解不適定問題的普遍方法是:用一組與原不適定問題相“鄰近”的適定問題的解去逼近原問題的解,這種方法稱為正則化方法。④應(yīng)用隨機(jī)森林選擇屬性;⑤訓(xùn)練能夠?qū)μ卣鞔蚍值念A(yù)選模型;⑥通過特征組合后再來選擇特征;⑦基于深度學(xué)習(xí)的特征選擇。7.4.2
特征工程(5)特征構(gòu)建。特征重要性和特征選擇是告訴使用者特征的客觀特性,但這些工作之后,需要人工進(jìn)行特征的構(gòu)建。特征構(gòu)建需要花費(fèi)大量的時(shí)間對(duì)實(shí)際樣本數(shù)據(jù)進(jìn)行處理,思考數(shù)據(jù)的結(jié)構(gòu)和如何將特征數(shù)據(jù)輸入給預(yù)測(cè)算法。對(duì)于表格數(shù)據(jù),特征構(gòu)建意味著將特征進(jìn)行混合或組合以得到新的特征,或通過對(duì)特征進(jìn)行分解或切分來構(gòu)造新的特征;對(duì)于文本數(shù)據(jù),特征構(gòu)建意味著設(shè)計(jì)出針對(duì)特定問題的文本指標(biāo);對(duì)于圖像數(shù)據(jù),這意味著自動(dòng)過濾,得到相關(guān)的結(jié)構(gòu)。7.4.2
特征工程(6)特征學(xué)習(xí)。這是在原始數(shù)據(jù)中自動(dòng)識(shí)別和使用特征。深度學(xué)習(xí)方法在特征學(xué)習(xí)領(lǐng)域有很多成功案例,比如自編碼器和受限玻爾茲曼機(jī)。它們以無監(jiān)督或半監(jiān)督的方式實(shí)現(xiàn)自動(dòng)的學(xué)習(xí)抽象的特征表示(壓縮形式),其結(jié)果用于支撐像大數(shù)據(jù)分析、語音識(shí)別、圖像分類、物體識(shí)別和其他領(lǐng)域的先進(jìn)成果。抽象的特征表達(dá)可以自動(dòng)得到,但是用戶無法理解和利用這些學(xué)習(xí)得到的結(jié)果,只有黑盒的方式才可以使用這些特征。用戶不可能輕易懂得如何創(chuàng)造和那些效果很好的特征相似或相異的特征。這個(gè)技能是很難的,但同時(shí)它也是很有魅力的、很重要的。7.4.3
特征變換特征變換是希望通過變換消除原始特征之間的相關(guān)關(guān)系或減少冗余,從而得到更加便于數(shù)據(jù)分析的新特征。從信號(hào)處理的觀點(diǎn)來看,特征變換是在變換域中進(jìn)行處理并提取信號(hào)的性質(zhì),通常具有明確的物理意義。從這個(gè)角度來看,特征變換操作包括傅里葉變換、小波變換和卡博爾變換等。圖7-10特征工程示例7.4.3
特征變換從統(tǒng)計(jì)的觀點(diǎn)來看,特征變換就是減少變量之間的相關(guān)性,用少數(shù)新的變量來盡可能反映樣本的信息。從這個(gè)角度來看,特征變換包括主成分分析、因子分析和獨(dú)立成分分析。從幾何的觀點(diǎn)來看,特征變換通過變換到新的表達(dá)空間,使得數(shù)據(jù)可分性更好。從這個(gè)角度來看,特征分析包括線性判別分析和方法。建立預(yù)測(cè)模型PART057.57.5建立預(yù)測(cè)模型盡管分析師經(jīng)常會(huì)偏愛某一種技術(shù),但是對(duì)于一個(gè)基于特定數(shù)據(jù)集的問題而言,通常事先不知道用哪種技術(shù)才能建立最好的預(yù)測(cè)模型,分析師要通過實(shí)驗(yàn)來確定最佳模型?,F(xiàn)代高效的分析平臺(tái)能夠幫助分析師進(jìn)行大量的實(shí)驗(yàn),并且分析軟件包有時(shí)也會(huì)包括腳本編寫功能,因此分析師可以通過批量方式來指定和執(zhí)行實(shí)驗(yàn)。7.5.3執(zhí)行模型訓(xùn)練計(jì)劃7.5.1制定建模計(jì)劃7.5.4測(cè)量模型效果7.5.2細(xì)分?jǐn)?shù)據(jù)集對(duì)于一個(gè)基于特定數(shù)據(jù)集的問題而言,通常分析師要通過實(shí)驗(yàn)來確定最佳模型。7.5.5驗(yàn)證模型7.5建立預(yù)測(cè)模型7.5.1
制定建模計(jì)劃盡管事實(shí)上我們可以通過暴力搜索得到最佳模型,但是對(duì)于大多數(shù)問題,實(shí)驗(yàn)的數(shù)量可能會(huì)龐大到令人難以置信。因此,利用建模技術(shù)能夠提供許多不同的變量給分析師,任何一個(gè)變量都可能對(duì)模型效果產(chǎn)生質(zhì)的影響。同時(shí),加入分析數(shù)據(jù)集的每一個(gè)新預(yù)測(cè)變量會(huì)產(chǎn)生許多種確定一個(gè)模型的方法。我們需要考慮新預(yù)測(cè)因子產(chǎn)生的主要影響和對(duì)模型的多種數(shù)學(xué)轉(zhuǎn)換,以及新預(yù)測(cè)因子和其他已存在因子之間的交互影響。分析師能夠通過一些方法縮小實(shí)驗(yàn)搜索區(qū)間。首先,因變量和自變量的特征可以限定可行分析技術(shù)的范圍(表7-1)。7.5.1
制定建模計(jì)劃表7-1變量特征限定技術(shù)方法7.5.1
制定建模計(jì)劃其次,分析師可以通過計(jì)算每個(gè)預(yù)測(cè)變量的信息值刪除那些沒有數(shù)值的變量,從而縮小實(shí)驗(yàn)范圍。通過使用正則化或逐步回歸建模技術(shù),分析師建立了只包含正向信息值變量的一個(gè)初步模型。許多分析軟件包包含內(nèi)置特征選擇算法,分析師還可以利用開放的特征選擇分析工具。7.5.2
細(xì)分?jǐn)?shù)據(jù)集對(duì)分析數(shù)據(jù)集進(jìn)行分割或者分區(qū)應(yīng)該是實(shí)際模型訓(xùn)練前的最后一步。分析師對(duì)于分割的正確數(shù)量和大小有不同的意見,但是在一些問題上達(dá)成了廣泛的認(rèn)同。首先,分析師應(yīng)該利用隨機(jī)樣本來創(chuàng)建所有的分區(qū)。只要分析師使用一個(gè)隨機(jī)過程,簡(jiǎn)單采樣、系統(tǒng)采樣、分層采樣、聚類采樣都可以被接受。其次,分析師應(yīng)該隨機(jī)選擇一個(gè)數(shù)據(jù)集,并在模型訓(xùn)練過程中持續(xù)使用。這個(gè)數(shù)據(jù)集應(yīng)該足夠大,使分析師和客戶可以對(duì)應(yīng)用于生產(chǎn)數(shù)據(jù)的模型性能得出有意義的結(jié)論。7.5.2
細(xì)分?jǐn)?shù)據(jù)集根據(jù)所使用的具體分析方法,分析師可以進(jìn)一步將剩余的記錄數(shù)據(jù)分為訓(xùn)練和剪枝數(shù)據(jù)集。一些方法(如分類和回歸樹)集成了一些原生的功能,可以對(duì)一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,并且對(duì)另一個(gè)數(shù)據(jù)集進(jìn)行剪枝。在處理非常大量的記錄時(shí),分析師可以通過將訓(xùn)練數(shù)據(jù)分割為相等的子數(shù)據(jù)集,并對(duì)單個(gè)子數(shù)據(jù)集運(yùn)行一些模型的方法來加速實(shí)驗(yàn)進(jìn)程。在對(duì)第一個(gè)復(fù)制數(shù)據(jù)集運(yùn)行模型后,分析師可以放棄效果不佳的模型方法,然后擴(kuò)展樣本大小。分析師也可以顯式地測(cè)量當(dāng)樣本擴(kuò)大時(shí)模型的運(yùn)行效果。7.5.3
執(zhí)行模型訓(xùn)練計(jì)劃在這個(gè)任務(wù)中,分析師運(yùn)行所需要的技術(shù)步驟來執(zhí)行模型訓(xùn)練計(jì)劃。所使用的技術(shù)和該技術(shù)的軟件實(shí)現(xiàn)不同,具體的技術(shù)步驟也不同。然而理想情況下,分析師已經(jīng)使用分析軟件的自動(dòng)化功能,或通過自定義腳本來使這個(gè)任務(wù)自動(dòng)化完成。因?yàn)樵谝粋€(gè)有效模型訓(xùn)練計(jì)劃中運(yùn)行的單個(gè)模型數(shù)量可能會(huì)很大,所以分析師應(yīng)該盡可能避免手工執(zhí)行。7.5.4
測(cè)量模型效果當(dāng)運(yùn)行大量模型時(shí),需要一個(gè)客觀方法來衡量每個(gè)模型的效果,由此可以對(duì)候選模型排名并選擇最好的模型。如果沒有一個(gè)測(cè)量模型效果的客觀方法,分析師和客戶就必須依賴手工對(duì)每個(gè)模型進(jìn)行評(píng)價(jià),這樣會(huì)限制可能的模型試驗(yàn)數(shù)量。7.5.4
測(cè)量模型效果測(cè)量模型效果有許多方法。例如“酸性測(cè)試”就是針對(duì)模型的業(yè)務(wù)影響,但要在建模過程中執(zhí)行有效測(cè)量幾乎不可能,所以分析師一般依靠近似測(cè)量。對(duì)測(cè)量的選擇有四個(gè)一般性標(biāo)準(zhǔn):(1)測(cè)量應(yīng)該對(duì)指定的建模方法和技術(shù)具備通用性;(2)測(cè)量應(yīng)該反映獨(dú)立樣本下的模型效果;(3)測(cè)量應(yīng)該反映模型在廣泛數(shù)據(jù)下的效果;(4)測(cè)量應(yīng)該可以被分析師和客戶雙方理解。7.5.4
測(cè)量模型效果一般來說,測(cè)量方法可以分為以下三類:(1)適合分類因變量的測(cè)量方法(分類);(2)適合連續(xù)因變量的測(cè)量方法(回歸);(3)既適合分類也適合回歸的測(cè)量方法。7.5.4
測(cè)量模型效果對(duì)于分類問題,簡(jiǎn)單的總體分類準(zhǔn)確性很容易計(jì)算和理解。所提出的列聯(lián)表(“混淆矩陣”)的測(cè)量方法很容易理解。表7-2混淆矩陣7.5.4
測(cè)量模型效果整體分類準(zhǔn)確率不區(qū)分積極錯(cuò)誤和消極錯(cuò)誤。但是,在實(shí)際情況中,收益矩陣往往是不對(duì)稱的,并且兩類錯(cuò)誤有不同的代價(jià)。一個(gè)預(yù)測(cè)模型可能會(huì)呈現(xiàn)出比另一種模型更好的總體準(zhǔn)確率,但是除非你理解積極錯(cuò)誤和消極錯(cuò)誤之間的區(qū)別,否則你可能無法選出最佳的模型。7.5.5
驗(yàn)證模型在分析項(xiàng)目的過程中,一個(gè)分析師可能會(huì)建立幾十上百個(gè)候選模型。模型驗(yàn)證有兩個(gè)目的。首先,它能夠幫助分析師探測(cè)過度學(xué)習(xí),例如在一個(gè)算法的過度學(xué)習(xí)中訓(xùn)練數(shù)據(jù)得到的特征無法推廣到整體中。其次,驗(yàn)證幫助分析師對(duì)模型從最好到最差評(píng)級(jí),以此來識(shí)別對(duì)業(yè)務(wù)最好的選擇。分析師要區(qū)別不同種類的驗(yàn)證:·n折交叉驗(yàn)證·分割樣本驗(yàn)證·時(shí)間樣本驗(yàn)證7.5.5
驗(yàn)證模型n折交叉驗(yàn)證是一種能夠確保分析師利用小樣本的抽樣數(shù)據(jù),通過二次采樣現(xiàn)有數(shù)據(jù),實(shí)現(xiàn)多次重疊復(fù)制,并且對(duì)每次復(fù)制數(shù)據(jù)單獨(dú)進(jìn)行驗(yàn)證模型的方法。當(dāng)數(shù)據(jù)非常昂貴時(shí)(如臨床試驗(yàn))這是一種可使用的合理方法,但是對(duì)于大數(shù)據(jù)來說就不必要了。在分割樣本驗(yàn)證中,分析師將可用數(shù)據(jù)分割為兩個(gè)樣本,利用其中一個(gè)訓(xùn)練模型,而另一個(gè)用于驗(yàn)證模型。一些分析工具有內(nèi)置的功能來指定訓(xùn)練和驗(yàn)證數(shù)據(jù)集,使分析師可以將以上兩個(gè)步驟結(jié)合起來??梢岳脮r(shí)間驗(yàn)證樣本對(duì)模型進(jìn)行部署前的二次驗(yàn)證。分析師在用于模型訓(xùn)練和驗(yàn)證的原始樣本之外的不同時(shí)間點(diǎn)另外單獨(dú)抽取樣本。這項(xiàng)檢查用來確保模型準(zhǔn)確性和精確性的估計(jì)是穩(wěn)定的。部署預(yù)測(cè)模型PART067.67.6部署預(yù)測(cè)模型預(yù)測(cè)模型在組織部署之前都是沒有實(shí)際價(jià)值的。在一些組織中,當(dāng)建模結(jié)束時(shí),部署計(jì)劃就開始了。這經(jīng)常導(dǎo)致非常大的延遲和較長(zhǎng)的部署周期。最壞的結(jié)果就是項(xiàng)目的失敗,而這種情況經(jīng)常發(fā)生。在一次調(diào)查中,只有16%的分析師說,他們的組織“總是”執(zhí)行了分析的結(jié)果。部署計(jì)劃應(yīng)該在建模開始前就展開。分析師在開始建模前一定要理解技術(shù)、組織和法律的約束。計(jì)劃開始早期,IT組織可以與模型開發(fā)并行地執(zhí)行一些任務(wù),以減少總周期時(shí)間。圖7-11價(jià)格指數(shù)與預(yù)測(cè)7.6.3評(píng)價(jià)模型效果7.6.1審查和批準(zhǔn)預(yù)測(cè)模型7.6.4管理模型資產(chǎn)7.6.2執(zhí)行模型評(píng)分預(yù)測(cè)模型在組織部署之前都是沒有實(shí)際價(jià)值的。部署計(jì)劃應(yīng)該在建模開始前就展開。7.6部署預(yù)測(cè)模型7.6.1
審查和批準(zhǔn)預(yù)測(cè)模型在許多組織中,部署的第一步是對(duì)預(yù)測(cè)模型的正式審查和批準(zhǔn)。這個(gè)管理步驟有很多目的:首先,它確保了模型符合相關(guān)的管理個(gè)人信息使用的法律和法規(guī);其次,它提供一個(gè)機(jī)會(huì)對(duì)模型和建立模型的方法進(jìn)行同行審查。最后,正式批準(zhǔn)模型投入生產(chǎn)環(huán)境所需資源的預(yù)算控制。批準(zhǔn)流程實(shí)際上在分析開始前就展開。如果不能保證部署資源,開展一個(gè)預(yù)測(cè)建模項(xiàng)目將是毫無意義的。分析師和客戶應(yīng)該在收集數(shù)據(jù)前,充分了解數(shù)據(jù)使用的相關(guān)法律約束。如果法律和合規(guī)審查要求從一個(gè)模型中移除一個(gè)預(yù)測(cè)因子,分析師將不得不重新估計(jì)整個(gè)模型。7.6.1
審查和批準(zhǔn)預(yù)測(cè)模型如果分析師和客戶在項(xiàng)目開始階段能夠充分評(píng)測(cè)部署環(huán)境,審查步驟中就不應(yīng)該有任何意外。如果模型使用的數(shù)據(jù)目前不在生產(chǎn)環(huán)境中,企業(yè)需要在數(shù)據(jù)源或者采取、轉(zhuǎn)換和導(dǎo)入(ETL)流程環(huán)節(jié)進(jìn)行投入來實(shí)現(xiàn)模型。這將增加項(xiàng)目的周期時(shí)間。7.6.2
執(zhí)行模型評(píng)分組織以批量過程的方式或者單個(gè)事務(wù)的方式來執(zhí)行模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 部編版道德與法治九年級(jí)下冊(cè)第二單元第三課《與世界緊相連第2框與世界深度互動(dòng)》聽課評(píng)課記錄
- 2022版新課標(biāo)七年級(jí)上冊(cè)道德與法治第五課交友的智慧2課時(shí)聽課評(píng)課記錄
- 人教版數(shù)學(xué)九年級(jí)上冊(cè)《直接開平方法解方程》聽評(píng)課記錄3
- 人教版地理八年級(jí)下冊(cè)7.1《自然特征與農(nóng)業(yè)》聽課評(píng)課記錄
- 環(huán)境評(píng)估服務(wù)合同(2篇)
- 湘教版數(shù)學(xué)八年級(jí)上冊(cè)2.2《命題的證明》聽評(píng)課記錄2
- 北師大版道德與法治九年級(jí)上冊(cè)6.2《弘揚(yáng)法治精神》聽課評(píng)課記錄
- 北京課改版歷史八年級(jí)上冊(cè)第10課《辛亥革命與中華民國(guó)建立》聽課評(píng)課記錄
- 湘教版數(shù)學(xué)七年級(jí)上冊(cè)《2.5整式的加法和減法(1)》聽評(píng)課記錄2
- 部編版八年級(jí)歷史上冊(cè)《第1課 鴉片戰(zhàn)爭(zhēng)》聽課評(píng)課記錄
- 2024年臨床醫(yī)師定期考核試題中醫(yī)知識(shí)題庫及答案(共330題) (二)
- 2025-2030年中國(guó)反滲透膜行業(yè)市場(chǎng)發(fā)展趨勢(shì)展望與投資策略分析報(bào)告
- 湖北省十堰市城區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期末質(zhì)量檢測(cè)道德與法治試題 (含答案)
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 英語試題
- 春節(jié)節(jié)后收心會(huì)
- 《榜樣9》觀后感心得體會(huì)四
- 七年級(jí)下冊(cè)英語單詞表(人教版)-418個(gè)
- 2025年山東省濟(jì)寧高新區(qū)管委會(huì)“優(yōu)才”招聘20人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年中國(guó)社會(huì)科學(xué)評(píng)價(jià)研究院第一批專業(yè)技術(shù)人員招聘2人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 交警安全進(jìn)校園課件
- (2024年高考真題)2024年普通高等學(xué)校招生全國(guó)統(tǒng)一考試數(shù)學(xué)試卷-新課標(biāo)Ⅰ卷(含部分解析)
評(píng)論
0/150
提交評(píng)論