版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘項目實施過程概述二零一一年八月目錄1.業(yè)務(wù)理解41.1確定業(yè)務(wù)目標(biāo)4編寫業(yè)務(wù)背景資料4定義業(yè)務(wù)目標(biāo)6業(yè)務(wù)成功標(biāo)準(zhǔn)61.2評估情況7資源清單7要求、假設(shè)和約束8風(fēng)險和費用9術(shù)語9成本/收益分析101.3確定數(shù)據(jù)挖掘目標(biāo)10數(shù)據(jù)挖掘目標(biāo)11數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)111.4制定工程計劃122.數(shù)據(jù)理解122.1收集初始數(shù)據(jù)122.2描述數(shù)據(jù)14編寫數(shù)據(jù)說明報告142.3探索數(shù)據(jù)15編寫數(shù)據(jù)探索報告152.4驗證數(shù)據(jù)質(zhì)量16編寫數(shù)據(jù)質(zhì)量報告163.數(shù)據(jù)準(zhǔn)備173.1選擇數(shù)據(jù)18包括或排除數(shù)據(jù)183.2清理數(shù)據(jù)19編寫數(shù)據(jù)清理報告193.3構(gòu)建新數(shù)據(jù)203.4集成數(shù)據(jù)20格式化數(shù)據(jù)214.建模214.
2、1選擇建模技術(shù)22選擇正確的建模技術(shù)22建模假設(shè)234.2生成測試設(shè)計23編寫測試設(shè)計24電子商務(wù)零售業(yè)示例 - 測試設(shè)計244.3構(gòu)建模型24參數(shù)設(shè)置25運行模型254.4評估模型26綜合模型評估26跟蹤已修正的參數(shù)275.評估275.1評估結(jié)果285.2審核過程285.3確定后續(xù)步驟296.部署306.1制定部署計劃306.2計劃監(jiān)視和維護316.3生成最終報告32準(zhǔn)備最終演示326.4執(zhí)行最終工程審核331. 業(yè)務(wù)理解在開始工作之前,需要首先探討一下我們期望通過數(shù)據(jù)挖掘獲得什么。盡可能多地一些重要業(yè)務(wù)人員參與此類討論,并將結(jié)果記錄下來。了解進行數(shù)據(jù)挖掘的業(yè)務(wù)原因有助于確保在花費寶貴的資源
3、之前所有人都達(dá)成一致意見。并對期望結(jié)論有一致的認(rèn)識。1.1 確定業(yè)務(wù)目標(biāo)第一個任務(wù)是盡可能多地了解數(shù)據(jù)挖掘的業(yè)務(wù)目標(biāo)。通過詳細(xì)說明問題、目標(biāo)和資源,可以將今后的風(fēng)險降至最低。包括: 開始收集有關(guān)當(dāng)前業(yè)務(wù)情況的背景信息。 記錄下由關(guān)鍵決策者決定的具體業(yè)務(wù)目標(biāo)。 一致同意用于確定從業(yè)務(wù)角度判定數(shù)據(jù)挖掘成功與否的標(biāo)準(zhǔn)。1.1.1 編寫業(yè)務(wù)背景資料理解組織的業(yè)務(wù)情況有助于了解在以下這些方面需要解決什么問題: 可用資源(人力資源和物資) 問題 目標(biāo)將需要對當(dāng)前商業(yè)情況進行一些研究,以便找到對影響數(shù)據(jù)挖掘項目結(jié)果的那些問題的正確答案。 Ø
4、; 確定組織結(jié)構(gòu) 建立組織結(jié)構(gòu)圖來說明企業(yè)分公司、部門和項目團隊的結(jié)構(gòu)。確保包含管理者的名字和職責(zé)。 識別組織中的關(guān)鍵個人。 識別將提供財務(wù)支持和/或領(lǐng)域?qū)iT知識的內(nèi)部負(fù)責(zé)人。 確定是否存在指導(dǎo)委員會并制作一份成員列表。 識別將受到數(shù)據(jù)挖掘項目影響的業(yè)務(wù)單位。Ø 說明存在問題的領(lǐng)域 識別存在問題的領(lǐng)域,例如市場營銷、客戶服務(wù)或業(yè)務(wù)發(fā)展。 使用常規(guī)術(shù)語來描述問題。 闡明項目的先決條件。項目背后的動機。企業(yè)是否已經(jīng)在使用數(shù)據(jù)挖掘。 檢查業(yè)務(wù)團隊內(nèi)數(shù)據(jù)挖掘項目的狀態(tài)。 準(zhǔn)備有關(guān)的組織進行數(shù)據(jù)
5、挖掘的信息演示文稿。Ø 說明當(dāng)前的解決方案 說明當(dāng)前用于解決業(yè)務(wù)問題的所有解決方案。 說明當(dāng)前解決方案的優(yōu)點和缺點。此外,指出這個解決方案在組織內(nèi)的接受程度。1.1.2 定義業(yè)務(wù)目標(biāo)作為的研究和會議的結(jié)果,應(yīng)該擬定一個主要具體目標(biāo),并得到項目負(fù)責(zé)人和受結(jié)果影響的其他業(yè)務(wù)單位的一致同意。這個目標(biāo)將最終從模糊的概念,例如“減少客戶流失”轉(zhuǎn)變?yōu)榭梢灾笇?dǎo)進行分析的具體數(shù)據(jù)挖掘目標(biāo)。 確定以下內(nèi)容: 需要使用數(shù)據(jù)挖掘解決的問題。 準(zhǔn)確地指出所有業(yè)務(wù)問題。 確定其他業(yè)務(wù)要求。 使用業(yè)務(wù)術(shù)語和指標(biāo)指定如“預(yù)期收益率提高”“高價值客戶流失減
6、少 10%”。1.1.3 業(yè)務(wù)成功標(biāo)準(zhǔn)目前的目標(biāo)可能很清晰,但如何衡量是否已經(jīng)達(dá)到該目標(biāo)。在繼續(xù)推進之前,定義數(shù)據(jù)挖掘項目的業(yè)務(wù)成功特征很重要。成功標(biāo)準(zhǔn)分為兩類: 客觀標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)很簡單,如審核準(zhǔn)確度或商定的流失率減少值具體提高了多少。 主觀標(biāo)準(zhǔn)。主觀標(biāo)準(zhǔn)(如“發(fā)現(xiàn)一組有效解決方案”)比較難于確定,但你們可以商定由誰進行最終決策。 盡可能準(zhǔn)確地記錄此項目的成功標(biāo)準(zhǔn)。 確保每個業(yè)務(wù)目標(biāo)都有相關(guān)的成功標(biāo)準(zhǔn)。 調(diào)整決定者的主觀成功衡量標(biāo)準(zhǔn)使其一致。如果可能,記錄下客戶的期望值。1.2 評估情況有了一個明確指定的目標(biāo),下面應(yīng)該評估處當(dāng)前的狀況。這
7、一步驟需要獲得以下信息,例如: 什么類型的數(shù)據(jù)可供分析; 是否具有完成此項目所需的人力資源; 所涉及的最大風(fēng)險因素是什么; 對于這些風(fēng)險,是否具有相應(yīng)的應(yīng)急計劃;1.2.1 資源清單獲取準(zhǔn)確的資源清單是必不可少的步驟。通過實際查看硬件、數(shù)據(jù)源和人力資源問題,可以節(jié)省很多時間以及避免很多問題。 Ø 調(diào)查硬件資源需要哪些硬件資源支持挖掘。Ø 識別數(shù)據(jù)源和知識存儲 哪些數(shù)據(jù)源可用于數(shù)據(jù)挖掘。記錄數(shù)據(jù)類型和數(shù)據(jù)格式。 采用什么方式存儲數(shù)據(jù)。是否可以對數(shù)據(jù)倉庫或操作數(shù)據(jù)庫進行實時訪問。 是否計劃購買外部數(shù)據(jù)。
8、160;是否存在任何讓無法訪問所需數(shù)據(jù)的安全問題。Ø 識別人力資源 是否能找到業(yè)務(wù)和數(shù)據(jù)專家。 是否確定數(shù)據(jù)庫管理員以及可能會需要的其他技術(shù)支持人員。在階段報告中應(yīng)包含一個聯(lián)系人和資源列表。1.2.2 要求、假設(shè)和約束如果真實地評估了項目的負(fù)載情況,獲得回報的可能性就更大。盡可能清楚地闡明這些利害關(guān)系,這將有助于預(yù)防未來出現(xiàn)問題。 Ø 確定要求最基本的要求就是之前討論過的業(yè)務(wù)目標(biāo),但需要考慮下面這些問題: 對于數(shù)據(jù)或項目結(jié)果,是否存在安全或法律方面的限制。 是否所有人都已對項目計劃要求達(dá)成共識。 是否存在任何對結(jié)果部署的要求
9、(例如,發(fā)布到網(wǎng)上或?qū)⒌梅肿x取到數(shù)據(jù)庫中)。Ø 說明假設(shè) 是否存在可能影響項目的經(jīng)濟因素(例如,咨詢費或競爭產(chǎn)品)。 是否存在對數(shù)據(jù)質(zhì)量的假設(shè)。 工程負(fù)責(zé)人/管理團隊期望采用什么方式查看結(jié)果。換句話說,他們是希望了解模型本身,還是只想看到結(jié)果。 Ø 驗證約束 是否具有數(shù)據(jù)訪問所需的所有密碼。 是否驗證過所有對數(shù)據(jù)使用的法律約束。 所有財務(wù)約束是否都在工程的預(yù)算內(nèi)。1.2.3 風(fēng)險和費用考慮工程進行中可能會遇到的風(fēng)險是一種明智的做法。風(fēng)險的類型包括: 計劃(如果工程花費的時間比預(yù)期時間長怎么辦。)
10、;財務(wù)(如果工程負(fù)責(zé)人遇到預(yù)算問題怎么辦。) 數(shù)據(jù)(如果數(shù)據(jù)質(zhì)量較差或者范圍過窄怎么辦。) 結(jié)果(如果初期結(jié)果達(dá)不到預(yù)期怎么辦。)當(dāng)考慮了各種風(fēng)險之后,制定一個應(yīng)急計劃以幫助避免失?。?#160;記錄下每種可能遇到的風(fēng)險。 記錄每種風(fēng)險的相應(yīng)應(yīng)急計劃。1.2.4 術(shù)語為了確保業(yè)務(wù)和數(shù)據(jù)挖掘團隊“說同一種語言”,應(yīng)該考慮為技術(shù)術(shù)語和需要解釋的專門用語編寫一個詞匯表。例如,如果“流失”對于的業(yè)務(wù)具有特殊且獨特的意思,就值得為了整個團隊的利益對其進行明確說明。同樣,團隊還會受益于對收益圖的使用說明。Ø 任務(wù)列表 在表中記錄術(shù)語或團隊成員容易混淆的行話
11、。包括業(yè)務(wù)和數(shù)據(jù)挖掘術(shù)語。 考慮在公司內(nèi)部網(wǎng)或其他工程文檔中發(fā)布此列表。1.2.5 成本/收益分析這一步回答問題,數(shù)據(jù)挖掘的底線是什么。作為最終評估的一部分,將工程成本和潛在的成功收益進行比較非常重要。 將下列估計成本包括在的分析中: 數(shù)據(jù)收集和使用的任何外部數(shù)據(jù) 結(jié)果部署 運營成本然后,考慮下列收益: 要達(dá)到的主要目標(biāo) 其他通過數(shù)據(jù)探索獲得的深入見解 因深刻理解數(shù)據(jù)而可能獲得的收益1.3 確定數(shù)據(jù)挖掘目標(biāo)已經(jīng)明確了業(yè)務(wù)目標(biāo),應(yīng)該將其轉(zhuǎn)換為數(shù)據(jù)挖掘?qū)嶓w。例如,“減少流失”的業(yè)務(wù)目標(biāo)可以轉(zhuǎn)換為包含下列信息的數(shù)據(jù)挖掘目標(biāo):
12、60;基于最近的采購數(shù)據(jù)識別高價值客戶 使用可用的客戶數(shù)據(jù)構(gòu)建一個模型,用于預(yù)測每個客戶的流失可能性 基于流失傾向和客戶價值為每個客戶指定等級 這些數(shù)據(jù)挖掘目標(biāo)可以隨即被企業(yè)用于減少最有價值客戶的流失。業(yè)務(wù)和技術(shù)必須緊密配合才能獲得有效的數(shù)據(jù)挖掘。1.3.1 數(shù)據(jù)挖掘目標(biāo) 描述數(shù)據(jù)挖掘問題的類型,如聚類、預(yù)測或分類。 使用具體的時間單位記錄技術(shù)目標(biāo),例如預(yù)測在三個月內(nèi)有效。 如果可能,為所需結(jié)果提供實際的數(shù)字,例如為 80% 的現(xiàn)有客戶生成流失得分。 1.3.2 數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)必須使用技術(shù)術(shù)語來定義成功,以便隨時了解數(shù)據(jù)挖掘工作的進度。使用
13、之前確定的數(shù)據(jù)挖掘目標(biāo)來明確說明成功的基準(zhǔn)。 描述模型評估(例如,準(zhǔn)確度、性能等)的方法。 定義評估成功的基準(zhǔn)。提供具體的數(shù)字。 盡可能詳細(xì)地定義主觀衡量標(biāo)準(zhǔn),并確定成功的決定者。 考慮成功部署模型結(jié)果是否算是數(shù)據(jù)挖掘成功的一部分。立即開始對部署進行計劃。1.4 制定工程計劃工程計劃是適用于所有數(shù)據(jù)挖掘工作的主要文檔。如果計劃制定得好,它可以為每個工程相關(guān)人員提供各個數(shù)據(jù)挖掘階段的目標(biāo)、資源、風(fēng)險以及計劃等信息??赡芟M诠緝?nèi)部網(wǎng)中發(fā)布此計劃,同時發(fā)布這個階段收集到的所有文檔。創(chuàng)建計劃時,確保已經(jīng)解決了下面這些問題: 是否已經(jīng)和所涉及的每個
14、人討論了工程任務(wù)和提議的計劃。 是否所有階段或任務(wù)都包含估計的時間。 是否包含了部署結(jié)果或業(yè)務(wù)解決方案所需的工作量和資源。 計劃中是否突出顯示了決策點和審核求。 是否已經(jīng)標(biāo)記出通常會發(fā)生多個迭代的階段,例如建模階段。2. 數(shù)據(jù)理解數(shù)據(jù)理解階段包含深入了解可用于挖掘的數(shù)據(jù)。此步驟是在下一個階段(數(shù)據(jù)準(zhǔn)備)中避免意外問題發(fā)生的關(guān)鍵,這個后續(xù)階段通常是工程中耗時最長的部分。 數(shù)據(jù)理解包含使用工具,通過組織的表格和圖形訪問數(shù)據(jù)以及探索數(shù)據(jù)。在這一階段中,可以確定數(shù)據(jù)的質(zhì)量并在工程文檔中描述這些步驟的結(jié)果。2.1 收集初始數(shù)據(jù)此時已作好訪問數(shù)據(jù)的準(zhǔn)備。數(shù)據(jù)來自各
15、種不同的數(shù)據(jù)源,例如: 現(xiàn)有數(shù)據(jù)。這包括大量不同的數(shù)據(jù),例如交易數(shù)據(jù)、調(diào)查數(shù)據(jù)、Web 日志等??紤]現(xiàn)有數(shù)據(jù)是否足以滿足的需要。 購買的數(shù)據(jù)。是否使用補充性數(shù)據(jù),如果沒有,考慮是否需要使用此類數(shù)據(jù)。 其他數(shù)據(jù)。如果上面的數(shù)據(jù)源并不能滿足的需求,可能需要開展調(diào)查或開始進行其他跟蹤以便補充現(xiàn)有的數(shù)據(jù)存儲。Ø 查看數(shù)據(jù)然后考慮以下問題。確保記錄下發(fā)現(xiàn)的問題。 數(shù)據(jù)庫中的哪些屬性(列)看起來最有用。 哪些屬性看起來并不相關(guān),可以排除在外。 要想得出概括的結(jié)論或者做出準(zhǔn)確的預(yù)測,現(xiàn)有數(shù)據(jù)是否足夠。 所選的建模方法是否存在過多
16、屬性。 是否要合并不同的數(shù)據(jù)源。如果要合并,是否存在合并時會引發(fā)問題的區(qū)域。 是否考慮過如何處理各個數(shù)據(jù)源中的缺失值。Ø 編寫數(shù)據(jù)收集報告使用上述步驟中收集的材料,可以開始編寫數(shù)據(jù)收集報告。一旦完成,可將此報告添加到工程 Web 站點或向工程團隊發(fā)布。它也可以與后續(xù)步驟中準(zhǔn)備的報告組合在一起,如數(shù)據(jù)說明、探索和質(zhì)量驗證。這些報告將在整個數(shù)據(jù)準(zhǔn)備階段指導(dǎo)的工作。2.2 描述數(shù)據(jù)可以采用多種方式對數(shù)據(jù)進行描述,但是大多數(shù)描述都將重點放在數(shù)據(jù)的數(shù)量和質(zhì)量上,即可提供多少數(shù)據(jù)以及這些數(shù)據(jù)的具體情況。以下列出了描述數(shù)據(jù)時需要用到的一些關(guān)鍵內(nèi)容。 數(shù)據(jù)的數(shù)量。對于
17、大多數(shù)建模技術(shù),數(shù)據(jù)大小都具有相關(guān)的協(xié)定。大型數(shù)據(jù)集可以生成更準(zhǔn)確的模型,但它們也會增加處理時間??紤]是否可以使用數(shù)據(jù)的一個子集。當(dāng)為最終報告記錄信息時,確保包括所有數(shù)據(jù)集的大小統(tǒng)計數(shù)據(jù)量,并且記住在描述數(shù)據(jù)時考慮記錄和字段(屬性)的數(shù)量。 值類型。數(shù)據(jù)可以采用多種格式,例如數(shù)字、類別(字符串)或布爾值 (true/false)。注意值類型可以防止在后面的建模階段出現(xiàn)問題。 編碼方案。數(shù)據(jù)庫中的值常用于表示特征,如性別或產(chǎn)品類型。例如,一個數(shù)據(jù)集可以使用 M 和 F 來表示男性和女性,此外也可以使用數(shù)字值 1 和 2 表示。注意數(shù)據(jù)報告中的那些沖突的方案。2.2.1 編寫數(shù)
18、據(jù)說明報告要有效地推進的數(shù)據(jù)挖掘工程,考慮使用下列度量標(biāo)準(zhǔn)生成準(zhǔn)確數(shù)據(jù)說明報告的值:Ø 數(shù)據(jù)數(shù)量 數(shù)據(jù)的格式是什么。 指定用于捕獲數(shù)據(jù)的方法,例如,ODBC。 數(shù)據(jù)庫有多大(使用行數(shù)和列數(shù)描述)。Ø 數(shù)據(jù)質(zhì)量 數(shù)據(jù)是否包含與業(yè)務(wù)問題相關(guān)的特征。 所呈現(xiàn)的是什么數(shù)據(jù)類型(符號、數(shù)字等)。 是否為關(guān)鍵屬性計算了基本統(tǒng)計數(shù)據(jù)。這些數(shù)據(jù)為業(yè)務(wù)問題提供了哪些深入的見解。 是否能夠為相關(guān)的屬性設(shè)置優(yōu)先級。如果不能,業(yè)務(wù)分析師是否可以提供進一步的見解。2.3 探索數(shù)據(jù)使用工具中的表格、圖表和其他可視化工具來探索數(shù)據(jù)。此
19、類分析可以幫助解決在業(yè)務(wù)理解階段構(gòu)建的數(shù)據(jù)挖掘目標(biāo)。它們還可以幫助用于設(shè)定假設(shè)以及制定將在數(shù)據(jù)準(zhǔn)備階段進行的數(shù)據(jù)轉(zhuǎn)換任務(wù)。2.3.1 編寫數(shù)據(jù)探索報告當(dāng)創(chuàng)建圖形并對可用數(shù)據(jù)進行統(tǒng)計時,應(yīng)該開始設(shè)定數(shù)據(jù)如何才能解決技術(shù)和業(yè)務(wù)目標(biāo)的假設(shè)。 記錄發(fā)現(xiàn)的問題以便將其包含在數(shù)據(jù)探索報告中。確定以下內(nèi)容: 對數(shù)據(jù)設(shè)定了什么類型的假設(shè)。 哪些屬性看起來對于進一步的分析有用。 探索是否揭示了新的數(shù)據(jù)特征。 這些探索怎樣改變了的初始假設(shè)。 是否能標(biāo)識特定的數(shù)據(jù)子集以供過后使用。 再次查看一下的數(shù)據(jù)挖掘計劃。此次探索是否更改了目標(biāo)。2.4 驗證數(shù)據(jù)質(zhì)量
20、數(shù)據(jù)幾乎沒有完美的。事實上,大多數(shù)數(shù)據(jù)都包含代碼錯誤、缺失值或其他類型的不一致現(xiàn)象。一種可避免可能出現(xiàn)缺陷的方法是在建模前對可用數(shù)據(jù)進行全面的質(zhì)量分析。 缺失數(shù)據(jù)包括空值或編碼為無應(yīng)答的值(例如 $null$、? 或 999)。 數(shù)據(jù)錯誤通常是在輸入數(shù)據(jù)時造成的排字錯誤。 度量標(biāo)準(zhǔn)錯誤包括正確輸入但卻基于不正確的度量方案的數(shù)據(jù)。 編碼不一致通常包含非標(biāo)準(zhǔn)度量單位或不一致的值,例如同時使用 M 和 male 表示性別。 無效的元數(shù)據(jù)包含字段的表面意思和字段名稱或定義中陳述的意思不匹配。確保記錄下此類質(zhì)量問題。2.4.1 編寫數(shù)據(jù)質(zhì)量報告數(shù)據(jù)存在多
21、種類型的數(shù)據(jù)質(zhì)量問題。考慮下列質(zhì)量問題并規(guī)劃解決方案。將所有答復(fù)記錄在數(shù)據(jù)質(zhì)量報告中。 有沒有找到任何缺失屬性和空字段。如果找到了,此類缺失值是否暗含什么意思。 是否存在可能會在后面的合并或轉(zhuǎn)換的過程中導(dǎo)致問題的拼寫前后不一致的情況。 是否探索了偏差值以確定它們是“無效數(shù)據(jù)”還是值得進一步分析的現(xiàn)象。 是否對值執(zhí)行了真實性檢查。記錄下所有明顯的沖突(例如青少年具有高收入)。 是否考慮過將那些對的假設(shè)沒有任何影響的數(shù)據(jù)排除在外。 數(shù)據(jù)是否存儲在平面文件中。如果是,這些文件中的定界符是否一致。每條記錄是否都包含相同數(shù)量的字段。3. 數(shù)據(jù)準(zhǔn)
22、備數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘最重要的階段之一,通常需要花費大量的時間。據(jù)估計,實際的數(shù)據(jù)準(zhǔn)備工作通常占 50-70% 的工程時間和工作量。在前期的業(yè)務(wù)理解和數(shù)據(jù)理解階段投入足夠的精力可以將對這一階段的投入降至最低,但仍需花費大量的精力為挖掘準(zhǔn)備和打包數(shù)據(jù)。取決于的組織及組織目標(biāo),數(shù)據(jù)準(zhǔn)備通常包含以下任務(wù): 合并數(shù)據(jù)集和/或記錄 選擇數(shù)據(jù)子集樣本 匯總記錄 導(dǎo)出新的屬性 排序數(shù)據(jù)以便建模 刪除或替換空值或缺失值 分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集3.1 選擇數(shù)據(jù)基于在前面的階段執(zhí)行的初始數(shù)據(jù)收集,可以開始選擇與的數(shù)據(jù)挖掘目標(biāo)相關(guān)的數(shù)據(jù)。通常,
23、有以下兩種選擇數(shù)據(jù)的方式: 選擇項目(行)包含各種決策的制定,例如要包含哪些帳戶、產(chǎn)品或客戶。 選擇屬性或特征(列)包含有關(guān)使用哪些特征的決策制定,如交易金額或家庭收入。3.1.1 包括或排除數(shù)據(jù)在決定要包括或排除哪些數(shù)據(jù)子集的時候,確保記錄下做出這些決定的根本原因。 某個給定的屬性是否與的數(shù)據(jù)挖掘目標(biāo)相關(guān)。 某個特定數(shù)據(jù)集或?qū)傩缘馁|(zhì)量是否會導(dǎo)致的結(jié)果無效。 是否能對此類數(shù)據(jù)進行數(shù)據(jù)挽救。 對于使用某些特定字段,如性別或種族是否存在任何限制。在此階段所作的決定是否與在數(shù)據(jù)理解階段所作的假設(shè)不同。如果不同,確保在工程報告中記錄下的原因
24、。3.2 清理數(shù)據(jù)清理數(shù)據(jù)包括深入了解選擇包含在分析中的數(shù)據(jù)存在的問題??梢酝ㄟ^記錄和字段操作節(jié)點來清理數(shù)據(jù)。數(shù)據(jù)問題可能的解決方案缺失數(shù)據(jù)排除行或特征?;蛘?,使用估計值填充空值。數(shù)據(jù)錯誤通過邏輯關(guān)系手動發(fā)現(xiàn)錯誤并進行替換?;蛘撸懦卣?。編碼不一致決定使用其中一種編碼方案,然后轉(zhuǎn)換及替換相應(yīng)的值。缺失或無效的元數(shù)據(jù)手動檢測可疑字段并追蹤其正確的意思。在數(shù)據(jù)理解階段準(zhǔn)備的數(shù)據(jù)質(zhì)量報告包含的數(shù)據(jù)的特定問題類型的詳細(xì)信息。 3.2.1 編寫數(shù)據(jù)清理報告報告的數(shù)據(jù)清理成果對于跟蹤數(shù)據(jù)的更改是必不可少的步驟。輕松掌握工作的詳細(xì)信息將有助于將來的數(shù)據(jù)挖掘工程。編寫報告時應(yīng)對以下問題進行考慮:
25、數(shù)據(jù)中產(chǎn)生了哪些類型的無用數(shù)據(jù)。 使用什么方法刪除這些無用數(shù)據(jù)。哪些技術(shù)獲得了成功。 是否存在無法挽救的情況或?qū)傩浴4_保記錄因無用數(shù)據(jù)而排除的數(shù)據(jù)。3.3 構(gòu)建新數(shù)據(jù)經(jīng)常會遇到需要構(gòu)建新數(shù)據(jù)的情況。有以下兩種構(gòu)建新數(shù)據(jù)的方式: 導(dǎo)出屬性(列或特征) 生成記錄(行)3.4 集成數(shù)據(jù)同一組業(yè)務(wù)問題具有多個數(shù)據(jù)源的情況很多見。例如,可以訪問同一組客戶的抵押貸款數(shù)據(jù)以及購買的人口統(tǒng)計數(shù)據(jù)。 合并數(shù)據(jù)的基本方法有以下兩種: 合并數(shù)據(jù),涉及合并兩個具有相似記錄但不同屬性的數(shù)據(jù)集。這些數(shù)據(jù)通過各記錄的相同關(guān)鍵標(biāo)識符(例如客戶 ID)合并。生成的數(shù)據(jù)將會增加一
26、些列或特征。 追加數(shù)據(jù),涉及集成兩個或多個具有相似屬性但不同記錄的數(shù)據(jù)集。數(shù)據(jù)基于相似字段(例如產(chǎn)品名稱或合同時長)集成。 如果沒有花費足夠的時間開發(fā)和理解的數(shù)據(jù),集成數(shù)據(jù)將會變得很復(fù)雜。更多地思考一下那些看上去與數(shù)據(jù)挖掘目標(biāo)關(guān)系最大的項目和屬性,然后開始集成的數(shù)據(jù)。 使用合并或追加,集成那些認(rèn)為對于建模有用的數(shù)據(jù)集。 考慮在建模之前保存生成的輸出。 合并之后,可以通過匯總值簡化數(shù)據(jù)。匯總表示通過總結(jié)多條記錄和/或表中的信息計算出新值。 此外,也可能需要生成一些新記錄(例如多年聯(lián)合退稅的平均減免額)。3.4.1 格式化數(shù)據(jù)作為建模前的最后一個步
27、驟,檢查某些特定技術(shù)是否需要數(shù)據(jù)具有特定格式或順序很有用。例如,某種序列算法要求數(shù)據(jù)在運行模型前預(yù)先排序的情況很常見。即使模型可以執(zhí)行排序操作,但是在建模前使用排序節(jié)點可以節(jié)省處理時間。格式化數(shù)據(jù)時考慮下列問題: 計劃使用哪些模型。 這些模型是否需要特定的數(shù)據(jù)格式或順序。4. 建模這是的努力工作開始有所回報的階段。此時這些結(jié)果開始表現(xiàn)在業(yè)務(wù)理解階段呈現(xiàn)的業(yè)務(wù)問題。 建模時通常會執(zhí)行多次迭代。通常,數(shù)據(jù)挖掘人員會使用默認(rèn)參數(shù)運行多個模型,然后再對這些參數(shù)進行微調(diào)或回到數(shù)據(jù)準(zhǔn)備階段以便執(zhí)行所選模型所需的操作。僅使用一個模型且僅執(zhí)行一次就能圓滿地解答組織的數(shù)據(jù)挖掘問題,這樣的情況
28、幾乎不存在。這就是數(shù)據(jù)挖掘如此有趣的原因,可以使用多種方法來考慮某個已知的問題。4.1 選擇建模技術(shù)盡管可能已經(jīng)知道哪種類型的建模方式最能滿足組織的需要,但現(xiàn)在應(yīng)該做出有關(guān)使用哪些建模方式的正式?jīng)Q定。通常,將會基于下列因素確定最適用的模型: 可用于挖掘的數(shù)據(jù)類型。例如,感興趣的字段是否為分類(符號型)。 數(shù)據(jù)挖掘目標(biāo)。是否只想獲取有關(guān)交易數(shù)據(jù)存儲的深入見解并挖掘出令客戶感興趣的購買模式?;蛘呤欠裥枰梢粋€得分,例如用于表明拖欠學(xué)生貸款的傾向。 具體的建模要求。模型是否要求使用特定的數(shù)據(jù)大小或類型。是否需要一個具有易于演示的結(jié)果的模型。4.1.1 選擇正確的建模技
29、術(shù)通常,數(shù)據(jù)挖掘人員使用多種技術(shù)從多個不同方向處理問題。當(dāng)決定要使用哪種(些)模型之后,考慮以下的問題是否會影響的選擇: 此模型是否需要將數(shù)據(jù)分為測試集和訓(xùn)練集。 是否具有足夠的數(shù)據(jù)為給定的模型生成可靠的結(jié)果。 此模型是否需要特定的數(shù)據(jù)質(zhì)量級別。的當(dāng)前數(shù)據(jù)是否達(dá)到這一級別。 的數(shù)據(jù)是不是適用于此特定模型的恰當(dāng)類型(例如適用于 GRI 的符號輸出字段)。如果不是,是否可以使用數(shù)據(jù)操控類節(jié)點進行必要的轉(zhuǎn)換。 4.1.2 建模假設(shè)當(dāng)開始縮小建模工具的選擇范圍時,記錄下決策制定過程。記錄下所有為了達(dá)到模型的要求而設(shè)定的數(shù)據(jù)假設(shè)以及為此而執(zhí)行的數(shù)據(jù)操作。 例如,L
30、ogistic 回歸和神經(jīng)網(wǎng)絡(luò)節(jié)點都要求其數(shù)據(jù)類型在執(zhí)行前經(jīng)過完全實例化(數(shù)據(jù)類型已知)。這就意味著將需要在流中添加一個類型節(jié)點并執(zhí)行該節(jié)點以便在構(gòu)建和運行模型前全面運行數(shù)據(jù)。與之相似,預(yù)測模型(例如 GRI 或 C5.0)可以受益于在預(yù)測不常發(fā)生事件的規(guī)則時重新平衡數(shù)據(jù)。當(dāng)進行此類預(yù)測時,通過在流中插入一個平衡節(jié)點并在模型中增加平衡性更強的子集通常可以獲得更好的結(jié)果。4.2 生成測試設(shè)計作為實際構(gòu)建模型之前的最后一個步驟,應(yīng)該再次考慮要采用什么方式對模型的結(jié)果進行測試。生成一個全面的測試設(shè)計操作包含兩個部分: 描述模型的“優(yōu)異性”標(biāo)準(zhǔn) 定義將要對其測試這些標(biāo)準(zhǔn)的數(shù)據(jù)模型
31、的優(yōu)異性可以通過多種方法度量。對于監(jiān)督式模型,例如 C5.0、GRI 和 C&RT,優(yōu)異性的度量方法通常是估計特定模型的錯誤率。對于非監(jiān)督式模型,例如 Kohonen 聚類網(wǎng)絡(luò),度量方法可以包括易于解釋、部署或所需處理時間等標(biāo)準(zhǔn)。模型構(gòu)建操作是一個迭代的過程。這意味著通常需要測試多個模型的結(jié)果才能決定使用和部署哪些模型。4.2.1 編寫測試設(shè)計測試設(shè)計就是將用于測試生成的模型的步驟說明。因為建模是一個迭代過程,因此知道何時應(yīng)該停止調(diào)整參數(shù)以及嘗試另一種方法或模型非常重要。 4.2.1.1 任務(wù)列表當(dāng)創(chuàng)建測試設(shè)計時,考慮以下問題: 將使用什么數(shù)據(jù)測試模型。是否已將數(shù)據(jù)分為訓(xùn)練/
32、測試集。(這是在建模時常會使用的方法。) 要怎樣度量監(jiān)督式模型是否成功(例如 C5.0 和 GRI)。 要如何度量非監(jiān)督式模型是否成功(例如 Kohonen 聚類網(wǎng)絡(luò))。 愿意在嘗試另一種模型類型前使用調(diào)整的設(shè)置重新運行多少次模型。4.2.2 電子商務(wù)零售業(yè)示例 - 測試設(shè)計4.3 構(gòu)建模型大多數(shù)數(shù)據(jù)挖掘人員通常都會在部署或集成模型之前構(gòu)建多個模型,然后再比較它們的結(jié)果。為了跟蹤處理多個模型的過程,確保記錄下每個模型所使用的設(shè)置和數(shù)據(jù)。這可以在與其他人討論這些結(jié)果時提供幫助,并且還可以在需要時重新跟蹤的步驟。在模型構(gòu)建過程的最后階段,將獲得三類將在數(shù)據(jù)挖掘決策時
33、使用的信息: 參數(shù)設(shè)置包括記錄的生成最佳結(jié)果的參數(shù)。 生成的實際模型。 模型結(jié)果說明,包括在執(zhí)行模型并探索其結(jié)果時發(fā)生的性能和數(shù)據(jù)問題。4.3.1 參數(shù)設(shè)置大多數(shù)建模技術(shù)都具有大量參數(shù)或設(shè)置,對這些參數(shù)和設(shè)置進行調(diào)整即可控制建模過程。例如,可用通過調(diào)整決策樹的深度、分割和一些其他設(shè)置對它進行控制。通常情況下,大多數(shù)人都會先使用默認(rèn)選項構(gòu)建一個模型,然后再在后續(xù)的會話中改進參數(shù)。一旦確定了可生成最準(zhǔn)確結(jié)果的參數(shù),確保保存流和生成的模型節(jié)點。此外,記錄下最佳設(shè)置也可以在決定使用新數(shù)據(jù)自動構(gòu)建或重新構(gòu)建模型時提供幫助。4.3.2 運行模型運行模型是一項簡單的任務(wù)。只需執(zhí)
34、行模型即可生成可查看的結(jié)果。對于每個模型,記錄以下信息: 是否能從此模型得出有意義的結(jié)論。 此模型是否揭示了新的深入見解或不尋常的模式。 模型是否存在執(zhí)行問題。執(zhí)行時間是否合理。 此模型是否存在數(shù)據(jù)質(zhì)量難題,例如具有大量缺失值。 有沒有應(yīng)該記錄的計算不一致問題。4.4 評估模型既然已經(jīng)具有一組初始模型,深入了解它們以確定哪些模型既準(zhǔn)確又有效,足以成為最終的模型。最終包含多層含義,例如“可以部署”或“展現(xiàn)了用戶感興趣的模式”。參考之前創(chuàng)建的測試計劃有助于從組織的觀點出發(fā)進行評估。4.4.1 綜合模型評估對于每個正在考慮的模型,最好基于測試計劃中
35、生成的標(biāo)準(zhǔn)進行一次系統(tǒng)評估。在這里,可以使用評估圖表分析結(jié)果是否有效。還應(yīng)該考慮結(jié)果從邏輯上看是否合理或者它們是否對于的業(yè)務(wù)目標(biāo)來說太過簡單(例如,所揭示的采購順序為酒 > 酒 > 酒)。一旦進行了評估,基于客觀(模型正確性)和主觀(易于使用或結(jié)果無需解釋)標(biāo)準(zhǔn)對模型進行排序。評估模型結(jié)果。 基于對業(yè)務(wù)問題的理解對結(jié)果進行審核。咨詢對某個特定結(jié)果的相關(guān)性具有深入了解的數(shù)據(jù)分析師或其他專家。 考慮某個模型的結(jié)果是否易于部署。的組織是要求將該結(jié)果部署到 Web 上還是發(fā)送回數(shù)據(jù)倉庫中。 分析結(jié)果對的成功標(biāo)準(zhǔn)的影響。它們是否達(dá)到在業(yè)務(wù)理解階段建立的目標(biāo)。如果
36、能夠成功解決上述問題并相信當(dāng)前模型達(dá)到了的目標(biāo),現(xiàn)在可以開始進一步執(zhí)行更全面的模型評估并進行最終部署。否則,根據(jù)所學(xué)到的知識使用經(jīng)過調(diào)整的參數(shù)設(shè)置重新運行模型。4.4.2 跟蹤已修正的參數(shù)基于在模型評估過程中了解的信息,現(xiàn)在應(yīng)該再次查看一下模型。此時具有兩個選項: 調(diào)整現(xiàn)有模型的參數(shù)。 選擇另一個模型來解決的數(shù)據(jù)挖掘問題。在這兩種情況下,都將返回構(gòu)建模型任務(wù)并重復(fù)執(zhí)行該任務(wù)直至結(jié)果成功。不要擔(dān)心重復(fù)執(zhí)行這一步驟。在找到滿足需要的模型之前,數(shù)據(jù)挖掘人員多次評估和重新運行模型是非常常見的。這是一個在調(diào)整多個模型的參數(shù)之前用于同時構(gòu)建這些模型并比較結(jié)果的實用參數(shù)。5. 評估現(xiàn)在,
37、數(shù)據(jù)挖掘工程已經(jīng)完成了一大半。而且,根據(jù)之前定義的數(shù)據(jù)挖掘成功標(biāo)準(zhǔn),還確定在建模階段構(gòu)建的模型從技術(shù)上說是正確而且有效的。 應(yīng)該使用在工程開始時設(shè)立的業(yè)務(wù)成功標(biāo)準(zhǔn)評估的努力結(jié)果。這是確保的組織可以利用所獲得的結(jié)果的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)挖掘可以生成兩種類型的結(jié)果: 前期階段中選定的最終模型。 從模型本身以及數(shù)據(jù)挖掘過程中得出的任意結(jié)論或推論。這些均稱為發(fā)現(xiàn)的問題。5.1 評估結(jié)果在這個階段,將對工程結(jié)果是否達(dá)到業(yè)務(wù)成功標(biāo)準(zhǔn)的評估進行規(guī)范。此步驟要求對聲明的業(yè)務(wù)目標(biāo)有清晰地了解,因此確保在工程評估時包含關(guān)鍵決策制定者。首先,需要將對數(shù)據(jù)挖掘結(jié)果是否達(dá)到業(yè)務(wù)成功標(biāo)準(zhǔn)的評估記錄在案。在報
38、告中考慮以下問題: 的結(jié)果是否明確聲明并且采用可以輕松展示的格式。 是否存在應(yīng)該突出強調(diào)的特別故事或獨特的發(fā)現(xiàn)問題。 是否能夠按照模型和發(fā)現(xiàn)的問題對于業(yè)務(wù)目標(biāo)的適用順序?qū)λ麄冞M行排序。 總的來說,這些結(jié)果能在多大程度上滿足組織的業(yè)務(wù)目標(biāo)。 結(jié)果是否還引發(fā)了哪些其他問題。將如何使用商業(yè)術(shù)語表述這些問題。評估完結(jié)果后,編輯匯總一個已批準(zhǔn)的模型列表以包含在最終報告中。此列表應(yīng)該包含同時滿足組織的數(shù)據(jù)挖掘目標(biāo)以及業(yè)務(wù)目標(biāo)的那些模型。5.2 審核過程有效的方法通常包含用于反映剛完成的過程的成功之處和不足之處的時間。數(shù)據(jù)挖掘也不例外。 首先,應(yīng)該匯總每個階
39、段的活動和決定,包括數(shù)據(jù)準(zhǔn)備步驟、模型構(gòu)建等。然后對于每個階段,考慮以下問題并提出改進建議: 這一階段是否對最終結(jié)果的值有所貢獻(xiàn)。 有沒有方法可以簡化或改善這一特定階段或操作。 這一階段的失敗之處和失誤分別是什么。下一次應(yīng)該如何避免這些問題。 是否存在死端,例如某些已驗證無效的特殊模型。是否有辦法預(yù)測此類死端,以便可以更有效地開展工作。 這一階段是否存在任何令人驚喜的結(jié)果(不論好或壞)。事后看來,是否有明顯的辦法可以預(yù)測此類事件的發(fā)生。 是否有其他的備選決定或策略可以在某個給定的階段使用。在將來的數(shù)據(jù)挖掘工程中注意此類替代選項。5
40、.3 確定后續(xù)步驟此時具有兩個選擇: 繼續(xù)進入部署階段。下一個階段將幫助將模型結(jié)果并入的業(yè)務(wù)過程中,從而生成最終的報告。即使的數(shù)據(jù)挖掘工作沒有成功,也應(yīng)該部署來創(chuàng)建最終報告以便將其發(fā)送給工程負(fù)責(zé)人。 返回到前面的步驟改進或替換的模型。如果發(fā)現(xiàn)的結(jié)果幾乎可以算是(但并非)最佳結(jié)果,可以考慮另一輪建模??梢詫⒃诖穗A段中了解到的信息用于改進模型并生成更好的結(jié)果。 此時,的決定關(guān)系到建模結(jié)果的準(zhǔn)確度和相關(guān)性。如果結(jié)果實現(xiàn)了的數(shù)據(jù)挖掘目標(biāo)和業(yè)務(wù)目標(biāo),則已經(jīng)可以進入部署階段。不論作出什么決定,都確保記錄下完整的評估過程。6. 部署部署就是使用的新的深入見解在組織內(nèi)部進行改善的過程。這可
41、以表示正式的集成,例如實施一個用于生成隨后要讀入數(shù)據(jù)倉庫中的流失得分的模型。此外,部署還意味著可以使用從數(shù)據(jù)挖掘中獲得的深入見解改善的組織。例如,也許會發(fā)現(xiàn)數(shù)據(jù)中的報警模式指明年齡超過 30 歲的客戶行為會發(fā)生改變。這些結(jié)果可能不會正式集成到的信息系統(tǒng)中,但它們無疑對于計劃和制定營銷決策非常有用。通常,部署階段包含兩種類型的活動: 計劃和監(jiān)視結(jié)果的部署 完成包尾的任務(wù),例如生成最終報告和執(zhí)行工程審核取決于組織的要求,可能需要完成上述步驟之一或全都完成。6.1 制定部署計劃 第一個步驟是匯總的結(jié)果,包含模型和發(fā)現(xiàn)的問題。這個步驟可以幫助確定哪些模型可以集成到的數(shù)據(jù)庫系統(tǒng)中,哪些發(fā)現(xiàn)的問題應(yīng)該向的同事展示。 對于每種可部署的模型,創(chuàng)建一個分步驟執(zhí)行的計劃以便部署和集成到的系統(tǒng)中。注意任何技術(shù)細(xì)節(jié)問題,例如模型輸出的數(shù)據(jù)庫要求。例如,也許系統(tǒng)要求建模輸出使用制表符分隔格式部署。 對于包含的每個發(fā)現(xiàn)問題,創(chuàng)建將此信息傳遞給策略制定者的計劃。 對于兩種值得說明的結(jié)果類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年浙江建筑安全員《A證》考試題庫及答案
- 2025江西省安全員-C證考試(專職安全員)題庫及答案
- 2025陜西省建筑安全員《B證》考試題庫及答案
- 2025浙江省安全員A證考試題庫附答案
- 二十四節(jié)氣之立春課件模板
- 《蛋糕制作》課件
- 工藝管道培訓(xùn)課件
- 《海南??谙母偂氛n件
- 單位管理制度收錄大合集【人員管理篇】
- 有機玻璃操作箱行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 小豆苗產(chǎn)品介紹門診端
- 空調(diào)安裝和維修的培訓(xùn)
- ??祱?zhí)法記錄儀解決方案
- 液化氣供應(yīng)站安全管理制度和營業(yè)制度
- GB/T 21385-2008金屬密封球閥
- GB/T 18994-2003電子工業(yè)用氣體高純氯
- 文言文閱讀訓(xùn)練:《三國志-武帝紀(jì)》(附答案解析與譯文)
- (完整版)招聘面試方案設(shè)計與研究畢業(yè)論文設(shè)計
- 調(diào)休單、加班申請單
- 肉制品生產(chǎn)企業(yè)名錄296家
- 規(guī)劃設(shè)計收費標(biāo)準(zhǔn)
評論
0/150
提交評論