版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘的實(shí)施過(guò)程第1頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月第5章
前面介紹了數(shù)據(jù)挖掘的基本方法。在本章中我們進(jìn)一步說(shuō)明數(shù)據(jù)挖掘的實(shí)施過(guò)程。第2頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A數(shù)據(jù)挖掘是一個(gè)過(guò)程,它是從大量數(shù)據(jù)中抽取出有價(jià)值的信息或知識(shí)以提供決策依據(jù)。由于每一種數(shù)據(jù)挖掘方法(算法及技術(shù)要求)都有其自身的特點(diǎn)且實(shí)現(xiàn)步驟與具體應(yīng)用問(wèn)題有密切相關(guān)性,因此成功應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)的過(guò)程本身就是一件很復(fù)雜的事情。第3頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A一般來(lái)說(shuō),數(shù)據(jù)挖掘項(xiàng)目要經(jīng)歷的過(guò)程包括問(wèn)題的理解、數(shù)據(jù)的理解收集和準(zhǔn)備、建立數(shù)據(jù)挖掘模型、評(píng)價(jià)所建的模型、將建立的模型投入應(yīng)用等一系列任務(wù)。這里,數(shù)據(jù)挖掘過(guò)程的系統(tǒng)化、工程化方法學(xué)和支持系統(tǒng)(軟件或工程)對(duì)解決應(yīng)用問(wèn)題起著至關(guān)重要的作用。第4頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A為了抽象系統(tǒng)化方法,人們提出了一些數(shù)據(jù)挖掘過(guò)程的參考模型或標(biāo)準(zhǔn):
·SPSS提出的5A(Assess、Access、
Analyze、Act、Automate);·SAS提出的SEMMA(采樣Sample,探索
Explore,修正Modify,建模Model,
評(píng)估Assess)
·數(shù)據(jù)挖掘特別興趣小組提出的“數(shù)據(jù)挖掘交叉行業(yè)標(biāo)準(zhǔn)過(guò)程”CRISP-DM
(Cross-IndustryStandardProcessforDataMining)。第5頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A在這些模型中,5A模型強(qiáng)調(diào)的是支持?jǐn)?shù)據(jù)挖掘過(guò)程的工具應(yīng)具備的功能和能力,它是對(duì)支持?jǐn)?shù)據(jù)挖掘工具的定義。
SEMMA強(qiáng)調(diào)的是結(jié)合SAS公司的挖掘工具進(jìn)行應(yīng)用開發(fā)的方法。
CRISP-DM則從進(jìn)行數(shù)據(jù)挖掘方法學(xué)的角度強(qiáng)調(diào)實(shí)施數(shù)據(jù)挖掘項(xiàng)目的方法和步驟,并獨(dú)立于每種具體數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘系統(tǒng)。第6頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A
5A模型認(rèn)為任何數(shù)據(jù)挖掘方法學(xué)都由5個(gè)基本元素組成,即Assess、Access、Analyze、Act、Automate。
·Assess:正確、徹底的評(píng)價(jià)任務(wù)的需求及數(shù)據(jù)。
·Access:方便、快速的存取任務(wù)所涉及的數(shù)據(jù)。
·Analyze:適當(dāng)、完備的分析技術(shù)和工具。
·Act:具有推薦性、有說(shuō)服力的演示。用大量的列表和圖形或者通過(guò)辦公軟件來(lái)演示數(shù)據(jù)挖掘軟件的能力。軟件應(yīng)該具備快速回答用戶提問(wèn)的控制性和靈活性,這樣才便于用戶更好、更快地做決策。
·Automate:為用戶提供最易于使用、最方便的自動(dòng)化軟件。第7頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A針對(duì)著5個(gè)過(guò)程,5A描述了各元素在數(shù)據(jù)挖掘技術(shù)應(yīng)用中所需完成的任務(wù)和應(yīng)該提供的支持功能。(1)AssessAssess是指要正確地理解和設(shè)置數(shù)據(jù),一旦充分了解了數(shù)據(jù)的上下文后,就可以正確地收集它并在其上做需要的決策。實(shí)現(xiàn)Assess的軟件技術(shù)方案可以不同,但問(wèn)題含義相同。a.將技術(shù)與組織的目標(biāo)、策略和步驟結(jié)合起來(lái)。b.擁有世界范圍的咨詢和培訓(xùn),目的是交付高級(jí)分析工具給分析員后,能快速實(shí)現(xiàn)數(shù)據(jù)挖掘及其應(yīng)用。第8頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A(2)AccessAccess是指數(shù)據(jù)集合(DB、DW、DM)應(yīng)該完全符合評(píng)價(jià)的要求和質(zhì)量。若數(shù)據(jù)集合不充分,須補(bǔ)充附加的數(shù)據(jù)。選用的數(shù)據(jù)挖掘軟件必須在所要求的數(shù)據(jù)上靈活地工作,并滿足下列存取準(zhǔn)則。
·易于存取和連接各種數(shù)據(jù)源,包括數(shù)據(jù)表、公司數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其它必要的外部數(shù)據(jù)庫(kù)。
·能直接從ASCII正文、數(shù)據(jù)表、數(shù)據(jù)庫(kù)文件讀入數(shù)據(jù)。
·能處理大量(GB以上)的數(shù)據(jù)文件。第9頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A(3)AnalyzeAnalyze要求分析工具具備兩類分析方法和工具:發(fā)現(xiàn)工具和驗(yàn)證工具。驗(yàn)證工具檢驗(yàn)發(fā)現(xiàn)工具所產(chǎn)生的結(jié)果是否合理。發(fā)現(xiàn)型方法和工具包括基因遺傳算法、規(guī)則推導(dǎo)、模糊邏輯、數(shù)據(jù)可視化、聚類算法、因素分析、神經(jīng)網(wǎng)絡(luò)、決策樹等。驗(yàn)證方法和工具包括回歸、邏輯回歸、判別分析、預(yù)測(cè)建模等。理想的數(shù)據(jù)挖掘軟件應(yīng)該具備這兩類分析方法和工具,同時(shí)應(yīng)該包括下列分析特性。第10頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A
·統(tǒng)計(jì)過(guò)程、范圍和深度較強(qiáng),應(yīng)包括預(yù)測(cè)、分段、分類等。
·集成商業(yè)和統(tǒng)計(jì)圖形功能、具備多種可選的2D/3D圖類,能用數(shù)據(jù)定點(diǎn)模式顯示和跟蹤等。
·輔助分析的模版、過(guò)程導(dǎo)引、示范、在線幫助等,能幫助分析員快速選擇和獲得結(jié)果。
·數(shù)據(jù)、文件、中間結(jié)果管理功能。能合并和分離文件、選擇數(shù)據(jù)子集、處理數(shù)據(jù)缺值、凈化、改善數(shù)據(jù)完整性、支持IF-THEN-ELSE條件操作。
·數(shù)據(jù)轉(zhuǎn)換功能。有一組完備的轉(zhuǎn)換函數(shù)支持變量/特征和條件的計(jì)算,可以重復(fù)計(jì)算、編輯原來(lái)的變量/特征。第11頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A
·可裁減的工作環(huán)境。有腳本/宏語(yǔ)言支持的可重復(fù)任務(wù)的自動(dòng)化、批處理及其菜單按鈕功能,以支持一般用戶快速使用。
·靈活的動(dòng)態(tài)輸出。表結(jié)果可以轉(zhuǎn)動(dòng)和輪換,易于觀察數(shù)據(jù)全貌和用鼠標(biāo)重新組織表數(shù)據(jù),以便于清晰的提交、觀察、探索數(shù)據(jù)結(jié)果并做進(jìn)一步的特殊分析。
·基于線性回歸和ANOVA的預(yù)測(cè)性建模,具有相關(guān)性、分類分析、預(yù)測(cè)等基本分析功能。
·插件/模塊功能。可以提供特殊的功能模塊,以支持特定的分析。第12頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A(4)Act
用大量的列表和圖形或者通過(guò)辦公軟件來(lái)演示數(shù)據(jù)挖掘軟件的能力。軟件應(yīng)該具備快速回答用戶提問(wèn)的控制性和靈活性,這樣才便于用戶更好、更快地做決策。數(shù)據(jù)挖掘軟件應(yīng)該提供下面的演示特性。l完好的集成圖形功能,以提供專業(yè)級(jí)的演示。lOLE支持,以易于嵌入圖表節(jié)省報(bào)告時(shí)間。lINTERNET特性,以易于圖表的網(wǎng)上傳輸和本地察看。l演示模版特性,以節(jié)省編輯時(shí)間。l特殊查詢功能,以利于快速提供附加的分析能力來(lái)響應(yīng)用戶的提問(wèn)。l報(bào)告注解功能,以加入注解到報(bào)告中。第13頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5A(5)AutomateAutomate是指面向用戶的操作盡可能完善和自動(dòng)化軟件的應(yīng)用過(guò)程。吸取專業(yè)分析決策人員及多數(shù)用戶的意見和見解,以最快的方式顯示分析結(jié)果,以標(biāo)準(zhǔn)的接口、按鈕式的功能/菜單、豐富的幫助、可選的附加分析將軟件呈現(xiàn)給用戶。為此,軟件應(yīng)提供以下自動(dòng)化功能:第14頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.1數(shù)據(jù)挖掘過(guò)程模型5AlOLE自動(dòng)化開發(fā)者的機(jī)制,允許用戶在通用代碼級(jí)(VB、EXCEL、ACCESS、PB等)使用軟件。l內(nèi)建編程語(yǔ)言/腳本/宏,使用戶可以方便的創(chuàng)建自己的應(yīng)用。l制作能力,能編寫產(chǎn)生日常報(bào)告的命令行文件。第15頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM
CRISP-DM模型是由幾家相關(guān)開發(fā)和應(yīng)用行業(yè)的跨國(guó)公司和集團(tuán)所支持(并由歐洲委員會(huì)部分支持)的一個(gè)特別興趣小組在1997年7月到1999年4月間研究后提出的。這幾家公司分別是數(shù)據(jù)倉(cāng)庫(kù)提供商N(yùn)CR在丹麥的SEC公司,德國(guó)的汽車、航天航空、電信和咨詢業(yè)公司DAIMLER-BENZAG,英國(guó)的數(shù)據(jù)挖掘系統(tǒng)開發(fā)商ISL(CLEMENTINE的研發(fā)商,1998年其成為SPSS的子公司)以及荷蘭最大的銀行、保險(xiǎn)業(yè)公司OHRA。第16頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM由于其直接動(dòng)機(jī)是將數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)化為商業(yè)應(yīng)用,所提出的過(guò)程模型均在項(xiàng)目中進(jìn)行實(shí)際實(shí)踐和驗(yàn)證,因此具有一定的代表性。
CRISP-DM模型采用分層方法將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生存周期定義為6個(gè)階段(PHASE)和4個(gè)層次(LEVEL)。第17頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM
CRISP-DM模型6個(gè)階段為:BUSINESSUNDERSTANDING、DATAUNDERSTANDING、DATAPREPARATION、MODELING、EVALUATION和DEPLOYMENT
階段間的順序并不嚴(yán)格,比如商業(yè)理解和數(shù)據(jù)理解之間常常需要反復(fù),數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)模型建立也常常需要反復(fù)。階段間有循環(huán),比如在對(duì)模型進(jìn)行評(píng)價(jià)后,如果不滿意,可能需要重新對(duì)商業(yè)問(wèn)題進(jìn)行理解,重新開始建模。一個(gè)階段的任務(wù)完成后,如果需要繼續(xù)擴(kuò)展挖掘的范圍,則需要重新開始循環(huán)。第18頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DMCRISP-DM模型4個(gè)層次是:階段劃分(PHASE)定義通用任務(wù)(GENERICTASK)定義專用任務(wù)(SPECIALIZEDTASK)處理實(shí)例(PROCESSINSTANCE)每個(gè)PHASE由若干GENERICTASK組成,每個(gè)GENERICTASK又需要實(shí)施若干SPECIALIZEDTASK,每個(gè)SPECIALIZEDTASK由若干PROCESSINSTANCE來(lái)完成。第19頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM其中,上兩層獨(dú)立于具體數(shù)據(jù)挖掘方法,即是一般數(shù)據(jù)挖掘項(xiàng)目均需實(shí)施的步驟(這解決了“WHATTODO?”的問(wèn)題)。這兩層的任務(wù)將結(jié)合具體數(shù)據(jù)挖掘項(xiàng)目的“上下文”(CONTEXT)映射到下兩層的具體任務(wù)和過(guò)程。項(xiàng)目的“上下文”是指項(xiàng)目開發(fā)中密切相關(guān)、需要綜合考慮的一些關(guān)鍵問(wèn)題,如應(yīng)用領(lǐng)域、數(shù)據(jù)挖掘問(wèn)題類型、技術(shù)難點(diǎn)、工具及其提供的技術(shù)等。下兩層注重解決如何完成每個(gè)階段所要完成的任務(wù)和任務(wù)的輸出所要求的必要映射活動(dòng)(這用于解決“HOWTODO”的問(wèn)題)。第20頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DMCRISP-DM6個(gè)階段的含義是:(1)BUSINESSUNDERSTANDING
在開始階段,專注于從商業(yè)的角度理解項(xiàng)目目標(biāo)和需求,然后將這種知識(shí)轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問(wèn)題定義,并設(shè)計(jì)出達(dá)到目標(biāo)的一個(gè)初步計(jì)劃。第21頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM(2)DATAUNDERSTANDING
在數(shù)據(jù)理解階段,先收集初步的數(shù)據(jù),然后進(jìn)行熟悉數(shù)據(jù)的各種活動(dòng),包括識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題、找到對(duì)數(shù)據(jù)的基本觀察或假設(shè)隱含的信息來(lái)檢測(cè)出感興趣的數(shù)據(jù)子集。第22頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM(3)DATAPREPARATION
數(shù)據(jù)預(yù)處理階段覆蓋了從數(shù)據(jù)構(gòu)造到最終數(shù)據(jù)集合(將要輸入建模工具的數(shù)據(jù))的所有活動(dòng)。數(shù)據(jù)預(yù)處理任務(wù)很可能要執(zhí)行多次,并且沒有任何規(guī)定的順序。任務(wù)包括表、記錄屬性的選擇以及為了適合建模工具的要求對(duì)數(shù)據(jù)進(jìn)行的轉(zhuǎn)換和凈化。第23頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM(4)
MODELING
在建模階段,可以選擇和應(yīng)用各種建模技術(shù)將其參數(shù)校正到優(yōu)化值。第24頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM(5)EVALUATION
從數(shù)據(jù)分析的觀點(diǎn)看:在開始進(jìn)入這個(gè)階段時(shí)已經(jīng)建立了看上去是高質(zhì)量的模型。但在最終擴(kuò)展模型之前,要更徹底地評(píng)價(jià)模型,對(duì)所建模型再次考察其執(zhí)行的步驟并確信其正確地達(dá)到了商業(yè)目標(biāo)。這里,一個(gè)關(guān)鍵的目的是確定是否有某些重要的商業(yè)問(wèn)題還沒有充分地考慮。在這個(gè)階段的結(jié)尾,應(yīng)該獲得使用數(shù)據(jù)挖掘結(jié)果的判定。第25頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.2數(shù)據(jù)挖掘過(guò)程模型CRISP-DM(6)DEPLOYMENT
創(chuàng)建完模型并不意味著項(xiàng)目結(jié)束。所獲得的知識(shí)要用一種用戶可以使用的方式來(lái)組織和表示。根據(jù)要求,擴(kuò)展階段可以簡(jiǎn)單到只生成一份報(bào)告,或復(fù)雜到實(shí)現(xiàn)一個(gè)可重復(fù)的數(shù)據(jù)挖掘過(guò)程。在許多情況下,這將由客戶而不是分析員來(lái)實(shí)施。所以分析員來(lái)實(shí)施擴(kuò)展將達(dá)不到預(yù)期的擴(kuò)展效果,因此在這之前,客戶理解和利用所建模型所要實(shí)施的動(dòng)作很重要。第26頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3數(shù)據(jù)挖掘過(guò)程中的相關(guān)問(wèn)題
TWOCROWS公司的數(shù)據(jù)挖掘過(guò)程模型同CRISP-DM模型很類似,并且比較簡(jiǎn)潔,其基本數(shù)據(jù)挖掘步驟包括:l
定義商業(yè)問(wèn)題;l
建立數(shù)據(jù)挖掘倉(cāng)庫(kù);l
分析數(shù)據(jù);l
準(zhǔn)備數(shù)據(jù);l
建立模型;l
評(píng)價(jià)模型;l
實(shí)施。下面結(jié)合這個(gè)數(shù)據(jù)挖掘過(guò)程模型說(shuō)明在數(shù)據(jù)挖掘過(guò)程中的相關(guān)問(wèn)題。第27頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.1定義商業(yè)問(wèn)題我們的最終目的是希望從技術(shù)和商業(yè)角度為公司建立一個(gè)能夠理解和實(shí)施數(shù)據(jù)挖掘的工作環(huán)境。數(shù)據(jù)挖掘的成功,并不在于特定工具和算法的選擇,而是一個(gè)合適的環(huán)境。
一個(gè)企業(yè)的執(zhí)行能力越強(qiáng),數(shù)據(jù)挖掘的能力就越大。
第28頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.1定義商業(yè)問(wèn)題企業(yè)所處的商業(yè)環(huán)境往往在戰(zhàn)略上、顧客定位、數(shù)據(jù)倉(cāng)庫(kù)建立、市場(chǎng)定位、生命周期、分析技術(shù)等方面各不相同,成功的基礎(chǔ)必須是基于對(duì)數(shù)據(jù)挖掘與商業(yè)規(guī)律良好結(jié)合的環(huán)境,建立自己的挖掘平臺(tái)。在開始數(shù)據(jù)挖掘之前,最重要的是要了解數(shù)據(jù)和相關(guān)的業(yè)務(wù)問(wèn)題。比如要分析電信領(lǐng)域的客戶呼叫行為,需要了解電信的業(yè)務(wù)構(gòu)成、業(yè)務(wù)運(yùn)營(yíng)以及其它諸多的行業(yè)知識(shí)。第29頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.1定義商業(yè)問(wèn)題要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須對(duì)目標(biāo)有一個(gè)清晰明確的定義,了解數(shù)據(jù)和相關(guān)的業(yè)務(wù)問(wèn)題是決定到底想干什么的前提。數(shù)據(jù)挖掘?qū)ο到y(tǒng)分析/開發(fā)人員提出了更高的要求,它要求分析/開發(fā)人員具有比較寬廣的基礎(chǔ)知識(shí)和行業(yè)背景。第30頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月商業(yè)理解體系的核心——語(yǔ)義層業(yè)務(wù)數(shù)據(jù)庫(kù)最終用戶數(shù)據(jù)結(jié)構(gòu)語(yǔ)義層信息系統(tǒng)人員第31頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月商業(yè)理解體系的核心——語(yǔ)義層數(shù)據(jù)源終端用戶商業(yè)元語(yǔ)查詢面板數(shù)據(jù)源第32頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)建立數(shù)據(jù)挖掘倉(cāng)庫(kù)、分析數(shù)據(jù)、選擇變量構(gòu)成了數(shù)據(jù)預(yù)處理的核心,這三步比其它所有的步驟加在一起所花的時(shí)間和精力還多。數(shù)據(jù)準(zhǔn)備工作大概要花去整個(gè)數(shù)據(jù)挖掘項(xiàng)目的50%~90%的時(shí)間和精力。第33頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)我們應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個(gè)數(shù)據(jù)庫(kù)中(或者存放在數(shù)據(jù)倉(cāng)庫(kù)中,通常是以關(guān)系表得方式存儲(chǔ))。當(dāng)然,這并不是說(shuō)一定要使用一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)。根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,有時(shí)一個(gè)簡(jiǎn)單的平面文件或電子表格就足夠了。第34頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)數(shù)據(jù)挖掘系統(tǒng)可以作為一個(gè)獨(dú)立的系統(tǒng)存在。對(duì)于一個(gè)大型的企業(yè)將數(shù)據(jù)挖掘系統(tǒng)建立在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上是非常合理的想法,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)已經(jīng)為數(shù)據(jù)挖掘累積了大量的歷史數(shù)據(jù),要將這些數(shù)據(jù)充分發(fā)揮作用,就需要一個(gè)良好的數(shù)據(jù)挖掘系統(tǒng)。第35頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)但是,一般我們并不直接在公司的數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘。原因有以下幾點(diǎn):1)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量很大,許多數(shù)據(jù)并不是數(shù)據(jù)挖掘問(wèn)題所關(guān)心的。2)數(shù)據(jù)挖掘需要的信息涉及的方面很廣,這些信息可能存放在數(shù)據(jù)倉(cāng)庫(kù)的許多表中,如果直接在數(shù)據(jù)倉(cāng)庫(kù)中挖掘,將使數(shù)據(jù)的訪問(wèn)性能受到影響。3)數(shù)據(jù)挖掘需要反復(fù)進(jìn)行,不斷地對(duì)模型進(jìn)行優(yōu)化。第36頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)4)在數(shù)據(jù)挖掘過(guò)程中需要對(duì)變量進(jìn)行轉(zhuǎn)化,比如神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型的變量,對(duì)于非數(shù)值型的變量需要轉(zhuǎn)化。而數(shù)據(jù)倉(cāng)庫(kù)不支持更新操作。5)多個(gè)數(shù)據(jù)挖掘的主題可能同步進(jìn)行,如果直接在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行,數(shù)據(jù)倉(cāng)庫(kù)需要增加相應(yīng)地控制機(jī)制。6)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)還有其它工作,比如定期地?cái)?shù)據(jù)刷新、對(duì)OLAP系統(tǒng)的支持等。第37頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)因此有必要從數(shù)據(jù)倉(cāng)庫(kù)中抽取出需要的數(shù)據(jù)單獨(dú)存放在數(shù)據(jù)挖掘庫(kù)中,這樣可以達(dá)到以下目的。l
數(shù)據(jù)量大大地減小了:l
多個(gè)數(shù)據(jù)挖掘主題可以并行地進(jìn)行:l多個(gè)數(shù)據(jù)挖掘主題在物理上分開,對(duì)數(shù)據(jù)的更新互不影響;l數(shù)據(jù)挖掘的結(jié)果可以回寫進(jìn)數(shù)據(jù)倉(cāng)庫(kù),供OLAP工具展現(xiàn)使用。第38頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)如果數(shù)據(jù)倉(cāng)庫(kù)允許建立一個(gè)在邏輯上獨(dú)立的數(shù)據(jù)庫(kù)并且在計(jì)算資源上也足夠,那么在它上面進(jìn)行數(shù)據(jù)挖掘也是可以的。建立數(shù)據(jù)挖掘庫(kù)可以分成下面幾個(gè)部分:l
數(shù)據(jù)收集;l
對(duì)數(shù)據(jù)進(jìn)行描述;l
選擇數(shù)據(jù);l
數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理;l
對(duì)數(shù)據(jù)進(jìn)行合并和整合;l
構(gòu)建元數(shù)據(jù);l
將數(shù)據(jù)加載到數(shù)據(jù)挖掘庫(kù);l
維護(hù)數(shù)據(jù)挖掘庫(kù)。第39頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)這些步驟并不一定要按步驟執(zhí)行,而應(yīng)該按需要進(jìn)行。比如在收集數(shù)據(jù)時(shí)就開始構(gòu)建元數(shù)據(jù),并隨著工作的進(jìn)行不斷的對(duì)其進(jìn)行修改。在數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量評(píng)估過(guò)程中發(fā)現(xiàn)問(wèn)題可能需要修改最初的數(shù)據(jù)選擇。第40頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)1.數(shù)據(jù)收集首先,確定要挖掘的數(shù)據(jù)源。在數(shù)據(jù)倉(cāng)庫(kù)中已經(jīng)提供了豐富的數(shù)據(jù),但是還需要一些外部的數(shù)據(jù),比如人口統(tǒng)計(jì)或天氣數(shù)據(jù)等。對(duì)于一些有償數(shù)據(jù),甚至需要向?qū)iT提供數(shù)據(jù)服務(wù)的公司購(gòu)買。我們可以用一個(gè)數(shù)據(jù)搜集報(bào)告把所需的各種不同的數(shù)據(jù)源的屬性列出來(lái)。此報(bào)告至少應(yīng)包含如下的內(nèi)容:第41頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)l數(shù)據(jù)源;l數(shù)據(jù)的擁有者;l負(fù)責(zé)維護(hù)此數(shù)據(jù)的人/組織;l設(shè)計(jì)該數(shù)據(jù)庫(kù)的DBA;l如果數(shù)據(jù)需要購(gòu)買,則需要說(shuō)明費(fèi)用;l數(shù)據(jù)使用的存儲(chǔ)方式,如ORACLE數(shù)據(jù)庫(kù),平面文件;l數(shù)據(jù)中包含的表,字段,記錄的數(shù)目;l數(shù)據(jù)的大??;l數(shù)據(jù)的物理存儲(chǔ)介質(zhì),如CD-ROM,磁帶,磁盤陣列等;l安全需求;l數(shù)據(jù)在使用上的限制;l數(shù)據(jù)是否涉及用戶的隱私問(wèn)題。第42頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)2.數(shù)據(jù)描述數(shù)據(jù)描述報(bào)告中應(yīng)包含如下內(nèi)容:l
字段/列的數(shù)目;l
字段是空(缺值)的數(shù)目/百分比;l
字段名;第43頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)對(duì)于對(duì)每個(gè)字段,我們通常需要記錄:l
數(shù)據(jù)類型;l
數(shù)據(jù)定義;l
數(shù)據(jù)描述;l
計(jì)量單位;l
所有不同值的個(gè)數(shù);l
值的列表;l
值的范圍;l
空值的百分比;l
收集信息;l
時(shí)間頻度;l
特別時(shí)間數(shù)據(jù);l
主鍵/外鍵關(guān)系。第44頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)3.數(shù)據(jù)選擇接下來(lái)要選擇用于數(shù)據(jù)挖掘的數(shù)據(jù)。這與對(duì)數(shù)據(jù)進(jìn)行采樣和選擇預(yù)測(cè)變量是不同的,這里只是粗略的把冗余或無(wú)關(guān)的數(shù)據(jù)除去或由于資源的限制、費(fèi)用的限制、數(shù)據(jù)使用的限制和質(zhì)量問(wèn)題而必須做出的選擇。第45頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)4.數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理要想得到好的模型必須用好數(shù)據(jù)。數(shù)據(jù)質(zhì)量評(píng)估就是要確定數(shù)據(jù)的哪些性質(zhì)會(huì)最終影響模型的質(zhì)量。我們不僅要保證數(shù)據(jù)值的正確性和一致性,還要保證這些值是按同樣的方法記錄的同一件事情。第46頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)數(shù)據(jù)域中可能包括了不正確的值。比如,身份證號(hào)碼被粗心的數(shù)據(jù)錄入人員錄入了年齡。即使單個(gè)域中包含的數(shù)據(jù)是正確的,但這些域組合起來(lái)時(shí)也可能就出現(xiàn)錯(cuò)誤的記錄,如小學(xué)生的年齡是90。有時(shí)域中的值為空。當(dāng)從多個(gè)不同的源整合數(shù)據(jù)的時(shí)候,一定要注意不同源之間數(shù)據(jù)的一致性。這些工作看起來(lái)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清洗轉(zhuǎn)換工作很相似。第47頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)缺值是一個(gè)非常有害的問(wèn)題,并且在實(shí)際情況中常常出現(xiàn)。比如在網(wǎng)上調(diào)查或者問(wèn)卷調(diào)查中,填寫人會(huì)漏填甚至不填某些選項(xiàng)。如果有一個(gè)數(shù)據(jù)域缺值就把這個(gè)記錄刪除掉,那么最后可能得到一個(gè)很小的數(shù)據(jù)集合。如果可用的數(shù)據(jù)集合太小,則這個(gè)集合就不能代表整體的特征,因此在這樣的數(shù)據(jù)集合上進(jìn)行分析的結(jié)果與實(shí)際情況有較大的出入。第48頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)我們應(yīng)當(dāng)考慮一些合適的方法進(jìn)行彌補(bǔ),可能的方法有:a.據(jù)其它字段來(lái)推測(cè)缺失字段,比如通過(guò)身份證計(jì)算出客戶的性別、年齡信息,從而填補(bǔ)這兩個(gè)字段數(shù)據(jù)的缺失。如果客戶的身份證有誤,這個(gè)方法就失效了。b.用非空值的數(shù)據(jù)通過(guò)計(jì)算后代替空值數(shù)據(jù)。我們通過(guò)計(jì)算收入水平的非空數(shù)據(jù)的平均值來(lái)取代空值數(shù)據(jù)。c.使用非空值的數(shù)據(jù)的統(tǒng)計(jì)特征來(lái)填充空值數(shù)據(jù)。問(wèn)卷中非空字段包含35%男性和65%女性,在為性別字段缺失的記錄添值時(shí),按照這個(gè)比例隨機(jī)進(jìn)行賦值。第49頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)
d.以缺值的字段為預(yù)測(cè)目標(biāo),用數(shù)據(jù)挖掘技術(shù)建立一個(gè)預(yù)測(cè)模型,通過(guò)非空的記錄對(duì)其進(jìn)行訓(xùn)練和評(píng)價(jià),然后按照這個(gè)模型的預(yù)測(cè)結(jié)果添值。這種方法比較好,因?yàn)槭褂脭?shù)據(jù)本身的特征來(lái)填寫數(shù)據(jù),但是,這將花費(fèi)較多的時(shí)間。第50頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)
e.利用以往的經(jīng)驗(yàn),行業(yè)規(guī)則或者挖掘得到的規(guī)則對(duì)空值進(jìn)行填充。比如在宣傳化妝品的過(guò)程中,會(huì)對(duì)問(wèn)卷回應(yīng)的大部分顧客是女性,男性僅占很少的比例,比如10%,我們可以根據(jù)這個(gè)特征對(duì)空值進(jìn)行填充。
第51頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)5.合并和整合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)自于不同的內(nèi)部和外部數(shù)據(jù)源,并且數(shù)據(jù)源之間的數(shù)據(jù)常常存在沖突和不一致。不同的數(shù)據(jù)庫(kù)間在數(shù)據(jù)定義和使用上存在巨大的差距。有些不一致問(wèn)題是容易解決的,然而有些則非常棘手。同一個(gè)名字的字段被用在不同的數(shù)據(jù)項(xiàng)上具有不同的含義,或同一個(gè)數(shù)據(jù)項(xiàng)用了不同的名字。在數(shù)據(jù)計(jì)量上還有單位不統(tǒng)一的問(wèn)題,比如人民幣和港元之間不能做運(yùn)算。關(guān)于數(shù)據(jù)整合和集成的問(wèn)題,我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)中已經(jīng)進(jìn)行了詳細(xì)的說(shuō)明。第52頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)6.構(gòu)建元數(shù)據(jù)元數(shù)據(jù)就是描述數(shù)據(jù)的數(shù)據(jù)。數(shù)據(jù)收集報(bào)告和數(shù)據(jù)描述報(bào)告是建立元數(shù)據(jù)的基礎(chǔ)和重要組成部分。我們需要利用挖掘工具提供的元數(shù)據(jù)管理工具或者自己設(shè)計(jì)一個(gè)元數(shù)據(jù)庫(kù),為分析數(shù)據(jù)以及建立模型提供輔助信息。第53頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)7.加載數(shù)據(jù)大多數(shù)情況下,用于挖掘的數(shù)據(jù)應(yīng)該放到獨(dú)立的挖掘庫(kù)中。如果數(shù)據(jù)量大并且復(fù)雜,那么數(shù)據(jù)挖掘庫(kù)通常是一個(gè)RDBMS。如果數(shù)據(jù)量很少,使用一個(gè)簡(jiǎn)單的平面文件即可。經(jīng)過(guò)前面所有的搜集、整理之后,現(xiàn)在把這些數(shù)據(jù)加載過(guò)來(lái)。第54頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.2建立數(shù)據(jù)挖掘庫(kù)8.維護(hù)數(shù)據(jù)挖掘庫(kù)挖掘庫(kù)一旦建好,就需要對(duì)其進(jìn)行維護(hù)。維護(hù)工作包括:l定期進(jìn)行數(shù)據(jù)備份;l
監(jiān)視挖掘庫(kù)的性能;l
維護(hù)元數(shù)據(jù);l根據(jù)需要不斷的增加存儲(chǔ)空間,提供硬件的性能。對(duì)放在RDBMS內(nèi)的復(fù)雜挖掘庫(kù)來(lái)說(shuō),維護(hù)它需要計(jì)算機(jī)專業(yè)人員來(lái)完成。第55頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量分析數(shù)據(jù)的目的是找到對(duì)預(yù)測(cè)輸出影響最大的字段,并決定是否需要增加導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情。這時(shí),我們需要一個(gè)具有好的界面和功能強(qiáng)大的工具庫(kù)軟件來(lái)協(xié)助完成這些事情。此步驟可劃分成4個(gè)部分:l
選擇變量;l
選擇記錄;l
創(chuàng)建新變量;l
轉(zhuǎn)換變量。第56頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量1選擇變量理想情況下,我們可以選擇全部變量,把它們輸入到數(shù)據(jù)挖掘工具中,讓數(shù)據(jù)挖掘工具來(lái)選擇哪些是最好的預(yù)測(cè)變量。實(shí)際上這樣做并不是很好,一方面隨著變量個(gè)數(shù)的增加,模型的建立時(shí)間也隨之上升;第57頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量1選擇變量另一方面盲目的把所有的變量都加進(jìn)去會(huì)導(dǎo)致建立錯(cuò)誤的模型。比如,建立預(yù)測(cè)模型的一個(gè)常見錯(cuò)誤就是把一個(gè)依賴于目標(biāo)變量的變量作為預(yù)測(cè)變量,像用變量“出生年份”來(lái)“預(yù)測(cè)”目標(biāo)變量年齡,其結(jié)果將導(dǎo)致目標(biāo)變量“年齡”直接同預(yù)測(cè)變量“出生年份”相關(guān),而其它的因素將被排除,這顯然同預(yù)測(cè)的初衷是不符合的。第58頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量我們?cè)诶梅治龉ぞ哌M(jìn)行挖掘前,需要完成以下工作。l去除同目標(biāo)變量具有強(qiáng)相關(guān)性的變量l去除毫無(wú)關(guān)系的變量這樣既可以節(jié)約進(jìn)行數(shù)據(jù)挖掘的時(shí)間,又可以避免降低其它重要變量對(duì)目標(biāo)變量的影響力。第59頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量2選擇記錄選擇記錄有兩重含義:
a.在數(shù)據(jù)量不大的時(shí)候,可以用所有的數(shù)據(jù)行來(lái)建立模型。如果數(shù)據(jù)量非常巨大,使用所有的數(shù)據(jù)行來(lái)建立模型要花費(fèi)很長(zhǎng)時(shí)間,要么買一臺(tái)計(jì)算能力非常強(qiáng)大的機(jī)器。因此,數(shù)據(jù)量特別大就需要進(jìn)行數(shù)據(jù)抽樣。如果數(shù)據(jù)抽樣做得足夠仔細(xì),保證抽樣是按真正的隨機(jī)來(lái)進(jìn)行的,采樣對(duì)大部分商業(yè)問(wèn)題來(lái)說(shuō)都不會(huì)丟失信息。我們可以用所有的數(shù)據(jù)建立一個(gè)模型,還可以根據(jù)不同的采樣方法建立幾個(gè)模型,然后評(píng)價(jià)這幾個(gè)模型并選擇一個(gè)最好的。通常認(rèn)為后種方法得到的模型更準(zhǔn)確。第60頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量
b.在進(jìn)行挖掘前,我們需要?jiǎng)h除明顯的異常數(shù)據(jù)。然而在某些情況下,這些看來(lái)異常的數(shù)據(jù)可能包含了要建立模型的重要信息。因此,對(duì)于數(shù)據(jù)是否異常,必須按照實(shí)際的業(yè)務(wù)邏輯和商業(yè)邏輯來(lái)判斷。第61頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量
3創(chuàng)建新變量很多情況下,我們需要從原始數(shù)據(jù)中衍生一些新的變量作為預(yù)測(cè)變量。創(chuàng)建新變量通常有兩種方法。
a.將變量利用加、減、比率等計(jì)算組合起來(lái)可能會(huì)比這些變量自身影響力更大。比如,用負(fù)債占收入百分比來(lái)預(yù)測(cè)信用風(fēng)險(xiǎn),比直接用負(fù)債值和收入值做預(yù)測(cè)變量更準(zhǔn)確一些,也更容易理解。再如,預(yù)測(cè)一個(gè)客戶是否可能成為大客戶,使用它這幾個(gè)月來(lái)的通話費(fèi)用的增長(zhǎng)額或者增長(zhǎng)率,可能比直接使用這幾個(gè)月的話費(fèi)對(duì)目標(biāo)量影響更大。第62頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量
b.一些變量如果擴(kuò)大它的范圍,可能成為一個(gè)非常好的預(yù)測(cè)變量。比如,預(yù)測(cè)客戶是否為有價(jià)值客戶,可以使用一段時(shí)間內(nèi)話費(fèi)變化情況代替某一個(gè)月的話費(fèi)情況。我們需要?jiǎng)?chuàng)建哪些新變量不是主觀臆想的結(jié)果,而需要研究商業(yè)問(wèn)題,甚至要向該方面的專家請(qǐng)教。是否能夠創(chuàng)建合適的變量,對(duì)于模型的準(zhǔn)確性影響很大。第63頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量
4.轉(zhuǎn)換變量。不同的算法可能對(duì)變量的要求不同,所以在進(jìn)行挖掘之前,我們需要根據(jù)選擇的算法,決定對(duì)數(shù)據(jù)進(jìn)行哪些轉(zhuǎn)換工作。比如神經(jīng)網(wǎng)絡(luò)要求所有的變量都在0~1之間,因此在這些數(shù)據(jù)被提交到算法之前必須先對(duì)不在[0,1]內(nèi)的變量進(jìn)行映射。類似一些決策樹算法不接受數(shù)值型變量作為輸入,在使用它們之前也要把這些數(shù)值映射到“高,中,低”等。使用的轉(zhuǎn)換方式在一定程度上會(huì)影響模型的準(zhǔn)確度。第64頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.3分析數(shù)據(jù)/變量現(xiàn)在的一些比較先進(jìn)的數(shù)據(jù)挖掘工具已經(jīng)能夠自動(dòng)對(duì)變量進(jìn)行必要的轉(zhuǎn)換工作。但是,目標(biāo)變量的轉(zhuǎn)化工作通常還是需要用戶自己來(lái)完成。比如使用神經(jīng)網(wǎng)絡(luò)的方法,需要將目標(biāo)變量映射到0~1之間。第65頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法建立模型是一個(gè)反復(fù)的過(guò)程。我們需要仔細(xì)考察不同的模型來(lái)判斷哪個(gè)模型對(duì)具體的商業(yè)問(wèn)題最有用。我們?cè)趯ふ液媚P偷倪^(guò)程中,可能會(huì)得到新的啟發(fā),在這些啟發(fā)的作用下可能會(huì)修改數(shù)據(jù),甚至改變最初對(duì)問(wèn)題的定義和理解。在數(shù)據(jù)挖掘中不要害怕反復(fù),因?yàn)槊恳淮畏磸?fù)是向更完善的模型又進(jìn)了一步。第66頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法我們首先需要決定預(yù)測(cè)的類型是對(duì)事物進(jìn)行分類,還是對(duì)事物進(jìn)行回歸預(yù)測(cè)。然后對(duì)于預(yù)測(cè)選擇數(shù)學(xué)模型。選擇什么樣的模型,決定了我們需對(duì)數(shù)據(jù)做哪些預(yù)處理工作。如神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對(duì)輸入數(shù)據(jù)的格式有特定的限制等。所有的數(shù)據(jù)準(zhǔn)備好之后才可以開始訓(xùn)練模型。第67頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法為了保證得到的模型具有較好的準(zhǔn)確度和健壯性,需要先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試這個(gè)得到的模型。有時(shí)還需要第3個(gè)數(shù)據(jù)集,稱為驗(yàn)證集。因?yàn)闇y(cè)試集可能受模型特性的影響,還需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。第68頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型至少要把數(shù)據(jù)分成兩個(gè)部分:一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。如果使用相同的訓(xùn)練和測(cè)試集,那么模型的準(zhǔn)確度就很難使人信服。用訓(xùn)練集把模型建立出來(lái)之后,可以先在測(cè)試集數(shù)據(jù)上做實(shí)驗(yàn),此模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確度就是一個(gè)很好的指導(dǎo)數(shù)據(jù),它表示將來(lái)與數(shù)據(jù)集和測(cè)試集類似的數(shù)據(jù)用此模型預(yù)測(cè)時(shí)正確的百分比。但這并不能保證模型的正確性,它只是說(shuō)明在相似的數(shù)據(jù)集合的情況下用此模型會(huì)得出相似的結(jié)果。第69頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法常用的驗(yàn)證方法包括簡(jiǎn)單驗(yàn)證,交叉驗(yàn)證和N維交叉驗(yàn)證。1.簡(jiǎn)單驗(yàn)證簡(jiǎn)單驗(yàn)證是最基本的測(cè)試方法。它從原始數(shù)據(jù)集合中拿出一定百分比的數(shù)據(jù)作為測(cè)試數(shù)據(jù),這個(gè)百分比大概在5%~33%之間。注意:在把數(shù)據(jù)集合分成幾部分時(shí),一定要保證選擇的隨機(jī)性,這樣才能使分開的各部分?jǐn)?shù)據(jù)的性質(zhì)是一致的。第70頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法先用數(shù)據(jù)集合的主體把模型建立起來(lái),然后用此模型來(lái)預(yù)測(cè)測(cè)試集中的數(shù)據(jù)。出現(xiàn)錯(cuò)誤的預(yù)測(cè)與預(yù)測(cè)總數(shù)之間的比稱為錯(cuò)誤率。對(duì)于分類問(wèn)題,我們可以簡(jiǎn)單的下結(jié)論:“對(duì)”與“錯(cuò)”,此時(shí)錯(cuò)誤率很容易計(jì)算。回歸問(wèn)題不能使用簡(jiǎn)單的“對(duì)”或“錯(cuò)”來(lái)衡量,但可以用方差來(lái)描述準(zhǔn)確的程度。比如,用3年內(nèi)預(yù)計(jì)的客戶增長(zhǎng)數(shù)量同3年內(nèi)實(shí)際的數(shù)據(jù)進(jìn)行比較。第71頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法在一次模型的建立過(guò)程中,這種最簡(jiǎn)單的驗(yàn)證通常要執(zhí)行幾十次。例如,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),幾乎每一個(gè)訓(xùn)練周期都要在測(cè)試集上運(yùn)行一次,不斷的訓(xùn)練測(cè)試,直到在測(cè)試集上的準(zhǔn)確率不再提高為止。第72頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法
2
交叉驗(yàn)證簡(jiǎn)單驗(yàn)證適合在挖掘數(shù)據(jù)充沛的時(shí)候使用。如果數(shù)據(jù)不是很多,可能無(wú)法再把一部分?jǐn)?shù)據(jù)放到一邊不用,這樣會(huì)使得數(shù)據(jù)的特征丟失。交叉驗(yàn)證提供了一種使用全部數(shù)據(jù)的方法。首先把原始數(shù)據(jù)隨機(jī)平分成兩份,一部分做訓(xùn)練集,另一部分做測(cè)試集計(jì)算錯(cuò)誤率,再把兩部分?jǐn)?shù)據(jù)交換再計(jì)算一次錯(cuò)誤率。最后再用所有的數(shù)據(jù)建立一個(gè)模型,把上面得到的兩個(gè)錯(cuò)誤率進(jìn)行平均做為最后模型的錯(cuò)誤率。第73頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法
3.N-維交叉驗(yàn)證
N-維交叉驗(yàn)證是更通用的算法。它先把數(shù)據(jù)隨機(jī)份成不相交的N份,比如把數(shù)據(jù)分成10份。先把第一份拿出來(lái)放在一邊用做模型測(cè)試,把其它9份合在一起來(lái)建立模型,然后把這個(gè)用90%的數(shù)據(jù)建立起來(lái)的模型用第一份數(shù)據(jù)做測(cè)試。這個(gè)過(guò)程對(duì)每一份數(shù)據(jù)都重復(fù)進(jìn)行一次,得到10個(gè)不同的錯(cuò)誤率。最后把所有數(shù)據(jù)放在一起建立一個(gè)模型,模型的錯(cuò)誤率為上面10個(gè)錯(cuò)誤率的平均。第74頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法我們可以依據(jù)得到的模型和對(duì)模型的預(yù)期結(jié)果修改參數(shù),再用同樣的算法建立新的模型,甚至可以采用其它的算法建立模型。在數(shù)據(jù)挖掘中,不同的商業(yè)問(wèn)題采用哪種模型效果更好,在沒有行業(yè)經(jīng)驗(yàn)的情況下,最好用不同的方法(參數(shù)或算法)建立幾個(gè)模型,從中選擇最好的。第75頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法圖9-19展示了一個(gè)多種算法結(jié)果的比較。圖的橫坐標(biāo)是指選擇的客戶占客戶群體的比例,縱坐標(biāo)是指選中大客戶的比例(假定大客戶在客戶群體中占10%)。不同的曲線代表不同算法的結(jié)果。從圖中可以看出,選擇10%的客戶時(shí),神經(jīng)網(wǎng)絡(luò)的正確率為90%;回歸算法的正確率是85%;決策樹的正確率是70%;隨機(jī)抽樣的正確率為10%,因此神經(jīng)網(wǎng)絡(luò)算法的效果較好。從圖9-19還可以看出,隨著選擇客戶的比例增大,算法的效果逐漸下降。原因是在選擇客戶的初期,算法已經(jīng)把絕大部分的大客戶選擇出來(lái)了。從本圖可以充分的看出,使用模型進(jìn)行選擇和利用隨機(jī)選擇,其效果相差極大。第76頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.4模型訓(xùn)練方法
90807010%30%50%70%90%%Response神經(jīng)網(wǎng)絡(luò)回歸算法決策樹隨機(jī)選擇圖9-19多種算法的比較圖第77頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法在模型建立好之后必須評(píng)價(jià)其結(jié)果,并解釋模型的含義和價(jià)值,只有這樣才能將模型最終應(yīng)用到商業(yè)環(huán)境中。從測(cè)試集中得到的準(zhǔn)確率只對(duì)建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會(huì)變化。更重要的是準(zhǔn)確度自身并不是選擇最好模型的正確評(píng)價(jià)方法。比如,模型A可能在某些不太重要的問(wèn)題上正確率高于模型B,此時(shí)我們不能簡(jiǎn)單地判斷模型A比模型B好。需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)效益/損失的多少。第78頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(1)無(wú)序矩陣對(duì)分類問(wèn)題來(lái)說(shuō),無(wú)序矩陣是理解結(jié)果非常好的工具。用無(wú)序矩陣將預(yù)測(cè)的客戶類型結(jié)果與實(shí)際的情況進(jìn)行對(duì)比,得到的結(jié)果如表9-1所示。它不僅說(shuō)明了模型預(yù)測(cè)的準(zhǔn)確情況,也展現(xiàn)了模型問(wèn)題的所在。預(yù)測(cè)高價(jià)值客戶預(yù)測(cè)非高價(jià)值客戶實(shí)際高價(jià)值客戶2012實(shí)際非高價(jià)值客戶2028第79頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(1)無(wú)序矩陣表的理解:共有80名客戶,實(shí)際有32個(gè)高價(jià)值客戶,其中20個(gè)被正確預(yù)測(cè),另外12個(gè)高價(jià)值客戶被預(yù)測(cè)成了非高價(jià)值客戶。實(shí)際有48個(gè)非高價(jià)值客戶,其中28個(gè)被正確預(yù)測(cè),另外20個(gè)被錯(cuò)誤預(yù)測(cè)成了高價(jià)值客戶。顯然模型總體準(zhǔn)確度是60%。無(wú)序矩陣比簡(jiǎn)單的說(shuō)總體準(zhǔn)確度是60%體現(xiàn)了更多的信息。預(yù)測(cè)高價(jià)值客戶非高價(jià)值客戶高價(jià)值客戶2012非高價(jià)值客戶2028第80頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(1)無(wú)序矩陣
在實(shí)際應(yīng)用中,如果每種不同的預(yù)測(cè)錯(cuò)誤所需付出的代價(jià)也不同,那么考慮代價(jià)最小的模型(而不一定是錯(cuò)誤率最小的模型)就是所要選擇的模型。如果每個(gè)準(zhǔn)確的預(yù)測(cè)會(huì)帶來(lái)¥10的收益,錯(cuò)誤的預(yù)測(cè)A(非高價(jià)值客戶預(yù)測(cè)成高價(jià)值客戶)要付出¥5的代價(jià),B(高價(jià)值客戶預(yù)測(cè)成非高價(jià)值客戶)要付出¥10的代價(jià),整個(gè)模型的價(jià)值是:
(10*20)-(5*20)+(10*28)-(10*12)=$260預(yù)測(cè)高價(jià)值客戶非高價(jià)值客戶高價(jià)值客戶2012非高價(jià)值客戶2028第81頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(1)無(wú)序矩陣考察下面的無(wú)序矩陣,雖然準(zhǔn)確度降低到57.5%(46/80),但價(jià)值卻升高了。
(10*8)-(5*32)+(10*38)-(10*2)=$280
這就是我們前面提到的正確率最高的模型不一定就是實(shí)際問(wèn)題中最優(yōu)的模型。預(yù)測(cè)高價(jià)值客戶非高價(jià)值客戶高價(jià)值客戶82非高價(jià)值客戶3238第82頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(2)收益表通過(guò)無(wú)序矩陣確定最優(yōu)的模型后還需要確定模型實(shí)施的范圍。隨著模型實(shí)施范圍的變化,其產(chǎn)生的效果也將發(fā)生變化。因?yàn)槟P蛯?shí)施的范圍變大意味著需要更多的投入來(lái)實(shí)施,而其產(chǎn)生的效益隨著范圍的擴(kuò)大可能很緩慢地增長(zhǎng)。我們可以采用收益表來(lái)確定模型的最佳實(shí)施范圍。針對(duì)不同的問(wèn)題,收益表有兩種形式:響應(yīng)率變化曲線和投資回報(bào)率變化曲線。第83頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(2)收益表
圖9-20顯示了通過(guò)郵件推銷商品客戶響應(yīng)率的變化情況。變化的比率稱為lift。例如,隨機(jī)抽取的方法選擇10%的客戶的響應(yīng)率是
10%,而通過(guò)模型選取10%的客戶的響應(yīng)率是
30%,則lift的值為3。我們可以根據(jù)圖中的結(jié)果,確定對(duì)客戶進(jìn)行推銷的比例。比如規(guī)定lift值應(yīng)高于2.5,則推銷客戶占總客戶的比例可以設(shè)為15%。選擇比例10%100%響應(yīng)率隨機(jī)選擇的響應(yīng)率模型選擇的響應(yīng)率10%30%圖9-20客戶響應(yīng)率變化曲線第84頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(2)收益表
收益表的另一種形式是投資回報(bào)率變化曲線(這里定義ROI利潤(rùn)與為此付出開銷的比值)。圖9-21是一個(gè)描述模型投資回報(bào)率的圖表。當(dāng)選取比例超過(guò)80%時(shí),ROI變成了負(fù)數(shù),ROI最高是在橫坐標(biāo)為20%時(shí)。而采用隨機(jī)選擇的方法,將使得ROI始終為負(fù)值。我們可以根據(jù)圖來(lái)確定模型實(shí)施的范圍,選擇ROI指數(shù)最高的位置作為模型實(shí)施的比例,也可以規(guī)定一個(gè)ROI的取值來(lái)確定模型實(shí)施的范圍。
ROI選擇比例10%100%隨機(jī)選擇的響應(yīng)率模型選擇的響應(yīng)率圖9-21投資回報(bào)率變化曲線第85頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(2)收益表我們也可以直接看利潤(rùn)的變化情況(利潤(rùn)為收入與投資的差值)。利潤(rùn)隨選擇比例的變化曲線如圖9-22所示。理想情況下應(yīng)該按照利潤(rùn)表行事,但很多情況下計(jì)算利潤(rùn)表非常復(fù)雜。選擇比例10%100%隨機(jī)選擇的響應(yīng)率模型選擇的響應(yīng)率圖9-22投資回報(bào)率變化曲線利潤(rùn)第86頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法(3)外部驗(yàn)證無(wú)論用模擬的方法計(jì)算出來(lái)的模型的準(zhǔn)確率有多高,都不能保證此模型在面對(duì)現(xiàn)實(shí)世界中真實(shí)的數(shù)據(jù)時(shí)能取得好的效果。經(jīng)驗(yàn)證有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含著各種假設(shè)。第87頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.5數(shù)據(jù)挖掘模型的評(píng)價(jià)方法例如,在建立用戶購(gòu)買模式的模型時(shí),可能沒有考慮通貨膨脹的影響,但實(shí)施模型時(shí)通貨膨脹率突然由3%增加為17%,這顯然會(huì)對(duì)人們的購(gòu)買意向產(chǎn)生重大影響。因此,再用原來(lái)的模型來(lái)預(yù)測(cè)客戶購(gòu)買情況必然會(huì)出現(xiàn)重大失誤。直接在現(xiàn)實(shí)世界中測(cè)試模式很重要。我們可以先在小范圍內(nèi)應(yīng)用模型取得測(cè)試數(shù)據(jù),滿意之后再向大范圍推廣,這是一種謹(jǐn)慎可行的方法。第88頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.6數(shù)據(jù)挖掘的實(shí)施和維護(hù)模型建立并經(jīng)驗(yàn)證之后,有兩種主要的使用方法。第一種是將模型的結(jié)果提供給分析人員作參考,由分析人員通過(guò)觀察和分析這個(gè)模型之后提出行動(dòng)方案建議。另一種使用模型的方法是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來(lái)標(biāo)識(shí)一個(gè)事物的類別,給客戶的價(jià)值、信用度打分等,然后使用OLAP工具做進(jìn)一步的分析。第89頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.6數(shù)據(jù)挖掘的實(shí)施和維護(hù)在應(yīng)用了模型之后,還要不斷監(jiān)控,因?yàn)槭挛镌诓粩喟l(fā)展變化,很可能過(guò)一段時(shí)間之后模型就不再起作用或者效果變差。銷售人員都知道,人們的購(gòu)買方式隨著社會(huì)的發(fā)展而變化。因此隨著使用時(shí)間的增加,要不斷地對(duì)模型做重新測(cè)試,有時(shí)甚至需要重新建立模型。第90頁(yè),課件共100頁(yè),創(chuàng)作于2023年2月5.3.7模型實(shí)例利用SAS數(shù)據(jù)挖掘工具建立模型。這個(gè)模型由若干個(gè)模塊組成。按照箭頭所制的順序,第一模塊是進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)源,也就是準(zhǔn)備好的挖掘數(shù)據(jù)。如果數(shù)據(jù)集合很大,則需要在這個(gè)模塊中設(shè)定數(shù)據(jù)抽樣的方法。模塊“DataPartition”對(duì)挖掘數(shù)據(jù)進(jìn)行劃分,一般SAS使用3:3:4的劃分比例。前30%的數(shù)據(jù)用于確定模型的參數(shù),接著的30%用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度數(shù)據(jù)中心建設(shè)項(xiàng)目承包施工中介協(xié)議3篇
- 二零二五年度廁所革命示范項(xiàng)目合同2篇
- 二零二五年度戶外運(yùn)動(dòng)裝備打蠟保護(hù)協(xié)議3篇
- 2025年度二零二五年度獼猴桃產(chǎn)品電商平臺(tái)開發(fā)合同4篇
- 2025年度床具原材料采購(gòu)與質(zhì)量控制協(xié)議4篇
- 2025年度城市綠化打井與灌溉系統(tǒng)建設(shè)合同4篇
- 數(shù)據(jù)安全治理模型-深度研究
- 二零二五年度城市地下空間開發(fā)承包合同補(bǔ)充協(xié)議4篇
- 2025年農(nóng)業(yè)大棚租賃與蔬菜種植一體化服務(wù)合同3篇
- 2025年度廚房設(shè)備維護(hù)保養(yǎng)及維修服務(wù)協(xié)議4篇
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級(jí)下冊(cè)英語(yǔ):寒假課內(nèi)預(yù)習(xí)重點(diǎn)知識(shí)默寫練習(xí)
- 2024年食品行業(yè)員工勞動(dòng)合同標(biāo)準(zhǔn)文本
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測(cè)試
- GB/T 44423-2024近紅外腦功能康復(fù)評(píng)估設(shè)備通用要求
- 2024-2030年中國(guó)減肥行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資研究報(bào)告
- 運(yùn)動(dòng)技能學(xué)習(xí)
- 2024年中考英語(yǔ)專項(xiàng)復(fù)習(xí):傳統(tǒng)文化的魅力(閱讀理解+完型填空+書面表達(dá))(含答案)
- 音樂培訓(xùn)合同與培訓(xùn)機(jī)構(gòu)的合作
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(yíng)(吳洪貴)任務(wù)四 圖文類內(nèi)容的打造
評(píng)論
0/150
提交評(píng)論