商務(wù)智能復(fù)習(xí)資料(必讀)

上傳人：q*** IP屬地：湖北上傳時(shí)間：2022-07-04 格式：DOC 頁(yè)數(shù)：27 大?。?02KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩22頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、商務(wù)智能復(fù)習(xí)綱要第1章商務(wù)智能概述1.1 商業(yè)決策需要商務(wù)智能一、數(shù)據(jù)、信息和知識(shí)1、數(shù)據(jù)：符號(hào)、事實(shí)和數(shù)字信息：有用的數(shù)據(jù)關(guān)系：信息是經(jīng)過(guò)某種加工處理后的數(shù)據(jù)，是反映客觀(guān)事物規(guī)律的一些數(shù)據(jù)。數(shù)據(jù)是信息的載體, 信息是對(duì)數(shù)據(jù)的解釋。事物運(yùn)動(dòng)數(shù)據(jù)信息記錄解釋知識(shí)：對(duì)信息內(nèi)容進(jìn)行提煉、比較、挖掘、分析、概括、判斷和推論。2、決策離不開(kāi)信息、知識(shí)決策需要信息，更離不開(kāi)知識(shí)；知識(shí)更多地表現(xiàn)為經(jīng)驗(yàn)-學(xué)習(xí)的結(jié)晶；學(xué)習(xí)的過(guò)程是不斷地對(duì)信息加工處理；信息的收集、加工、傳輸與利用貫穿著決策各階段的工作過(guò)程。信息已成為企業(yè)經(jīng)營(yíng)中重要性?xún)H次于人才的第二大要素。決策=信息+經(jīng)驗(yàn)+冒險(xiǎn)商務(wù)智能是對(duì)企業(yè)信息的科學(xué)管理

2、。3、商務(wù)智能支持商業(yè)決策商務(wù)智能如何創(chuàng)造知識(shí)和價(jià)值1.2 商務(wù)智能簡(jiǎn)介商務(wù)智能這一術(shù)語(yǔ)1996年由 Gartner 公司的分析師Howard Dresner首次提出,他提出商務(wù)智能描述了一系列的概念和方法,通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定。一、商務(wù)智能概念商務(wù)智能是整合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體，集成了企業(yè)內(nèi)外的數(shù)據(jù)，進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價(jià)值的信息，面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層，指導(dǎo)企業(yè)經(jīng)營(yíng)決策，提升企業(yè)競(jìng)爭(zhēng)力，涉及企業(yè)戰(zhàn)略、管理思想、業(yè)務(wù)整合和技術(shù)體系等層面，促進(jìn)信息到知識(shí)再到利潤(rùn)的轉(zhuǎn)變，從而實(shí)現(xiàn)更好的績(jī)效。先進(jìn)信息技術(shù)：商務(wù)智能是多項(xiàng)技術(shù)的綜合應(yīng)用

3、；集成了企業(yè)內(nèi)外的數(shù)據(jù)，進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價(jià)值的信息：商務(wù)智能的層次；企業(yè)戰(zhàn)略：商務(wù)智能服務(wù)于企業(yè)戰(zhàn)略；管理層、業(yè)務(wù)層：商務(wù)智能用戶(hù)多樣性；更好的績(jī)效：商務(wù)智能提升企業(yè)績(jī)效。二、商務(wù)智能的價(jià)值1、在商務(wù)智能背后有一些商業(yè)驅(qū)動(dòng)力，如：增加收入，減少費(fèi)用和更有效地競(jìng)爭(zhēng)的需求。管理和模擬當(dāng)前商業(yè)環(huán)境復(fù)雜性的需求。減少I(mǎi)T費(fèi)用和利用已有公司業(yè)務(wù)信息的需求。2、商務(wù)智能的價(jià)值制定合適的市場(chǎng)營(yíng)銷(xiāo)策略；改善顧客智能；經(jīng)營(yíng)成本與收入分析；提高風(fēng)險(xiǎn)管理能力；改善業(yè)務(wù)洞察力；提高市場(chǎng)響應(yīng)能力。1.3商務(wù)智能系統(tǒng)的功能數(shù)據(jù)集成：數(shù)據(jù)是決策分析的基礎(chǔ)；信息呈現(xiàn)：商務(wù)智能的初步功能；經(jīng)營(yíng)分析：運(yùn)營(yíng)指標(biāo)、運(yùn)

4、營(yíng)業(yè)績(jī)和財(cái)務(wù)分析；戰(zhàn)略決策支持：合理的投資組合。1.4 商務(wù)智能應(yīng)用領(lǐng)域銀行：美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9。分析客戶(hù)使用分銷(xiāo)渠道的情況和分銷(xiāo)渠道的容量；建立利潤(rùn)評(píng)測(cè)模型；客戶(hù)關(guān)系優(yōu)化；風(fēng)險(xiǎn)控制等電子商務(wù)：網(wǎng)上商品推薦；個(gè)性化網(wǎng)頁(yè)；自適應(yīng)網(wǎng)站生物制藥、基因研究：DNA序列查詢(xún)和匹配；識(shí)別基因序列的共發(fā)生性電信：欺詐甄別；客戶(hù)流失保險(xiǎn)、零售政府部門(mén)、教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)和公用事業(yè)等。利用商務(wù)智能的企業(yè)現(xiàn)在已越來(lái)越多，遍及各行各業(yè)。第13章商務(wù)智能發(fā)展一、商務(wù)智能的發(fā)展事務(wù)處理系統(tǒng)TPS管理信息系統(tǒng)MIS主管信息系統(tǒng)EIS決策支持系統(tǒng)DS

5、S智能決策支持系統(tǒng)IDSS二、商務(wù)智能應(yīng)用趨勢(shì)更成熟的數(shù)據(jù)分析和展現(xiàn)技術(shù)；從戰(zhàn)略型的BI到操作型或者實(shí)時(shí)型的BI；關(guān)注績(jī)效、關(guān)注價(jià)值、關(guān)注數(shù)據(jù)質(zhì)量。三、商務(wù)智能在中國(guó)的發(fā)展商務(wù)智能在中國(guó)的發(fā)展尚處于起步階段，大部分企業(yè)對(duì)商務(wù)智能仍然缺乏必要的了解。國(guó)、內(nèi)外商務(wù)智能軟件企業(yè)的實(shí)施和應(yīng)用水平有很大的差距，目前國(guó)外有一些企業(yè)已進(jìn)入多維分析和數(shù)據(jù)挖掘階段，而國(guó)內(nèi)商務(wù)智能的發(fā)展只是近幾年的事情，商務(wù)智能應(yīng)用的范圍和程度都與國(guó)外企業(yè)有很大差距。絕大多數(shù)實(shí)施商務(wù)智能的企業(yè)的應(yīng)用水平停留在基本的數(shù)據(jù)整合階段和簡(jiǎn)單的統(tǒng)計(jì)分析階段，真正實(shí)現(xiàn)深度數(shù)據(jù)分析的項(xiàng)目很少。四、中國(guó)商務(wù)智能應(yīng)用存在的問(wèn)題起步較晚：國(guó)內(nèi)管理者

6、想要利用商務(wù)智能解決缺乏有效信息支持決策的管理模式和操作準(zhǔn)則越來(lái)越體現(xiàn)出缺乏理性的缺點(diǎn)。因此國(guó)內(nèi)企業(yè)管理者試圖通過(guò)商務(wù)智能解決上述問(wèn)題，但這種需求比國(guó)外發(fā)達(dá)國(guó)家滯后了。差距拉大：目前國(guó)內(nèi)各行業(yè)商務(wù)智能的發(fā)展水平仍是參差不齊，商務(wù)智能在行業(yè)內(nèi)也存在差距，不同規(guī)模的企業(yè)應(yīng)用商務(wù)智能的差距也在拉大。普及有待時(shí)日：技術(shù)、觀(guān)念和管理水平的相對(duì)落后，商務(wù)智能的普及還需要較長(zhǎng)時(shí)間供應(yīng)商有待成長(zhǎng)五、商務(wù)智能動(dòng)態(tài)商務(wù)智能發(fā)展的特點(diǎn)實(shí)時(shí)；標(biāo)準(zhǔn)化；嵌入式商務(wù)智能；移動(dòng)商務(wù)智能；大眾化趨勢(shì)；供應(yīng)商的動(dòng)向；易用性。第2章商務(wù)智能系統(tǒng)架構(gòu)2.1 商務(wù)智能系統(tǒng)組成1、體系結(jié)構(gòu)(Architecture)：體系結(jié)構(gòu)是指一整

7、套的規(guī)則和結(jié)構(gòu),為一個(gè)系統(tǒng)或產(chǎn)品的整體設(shè)計(jì)提供主框架。2、商務(wù)智能的體系結(jié)構(gòu)一個(gè)商務(wù)智能的體系結(jié)構(gòu)是通過(guò)識(shí)別和理解數(shù)據(jù)在系統(tǒng)中的流動(dòng)過(guò)程和數(shù)據(jù)在企業(yè)中的應(yīng)用過(guò)程來(lái)提供商業(yè)智能系統(tǒng)應(yīng)用的主框架。商務(wù)智能系統(tǒng)構(gòu)架（見(jiàn)書(shū)P27）3、商務(wù)智能系統(tǒng)的組成數(shù)據(jù)源與數(shù)據(jù)提?。粩?shù)據(jù)倉(cāng)庫(kù)；訪(fǎng)問(wèn)工具；決策支持工具；商務(wù)智能應(yīng)用；系統(tǒng)管理；元數(shù)據(jù)管理。2.2 數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上或物理上把不相同來(lái)源、格式、特點(diǎn)的數(shù)據(jù)有機(jī)地整合，從而為企業(yè)提供全面的數(shù)據(jù)共享。目的：運(yùn)用一定的技術(shù)手段把分布在異構(gòu)系統(tǒng)中的數(shù)據(jù)按一定的規(guī)則組織成一個(gè)整體，使用戶(hù)能有效地對(duì)其進(jìn)行共享、分析，因此數(shù)據(jù)集成是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。1、數(shù)據(jù)集

8、成的常用方法數(shù)據(jù)聯(lián)邦；基于中間件模型；數(shù)據(jù)倉(cāng)庫(kù)；主數(shù)據(jù)管理2、主數(shù)據(jù)管理與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系聯(lián)系：二者相輔相成，都是減少數(shù)據(jù)冗余和不一致性的跨部門(mén)集中式系統(tǒng)，都依賴(lài)ETL、元數(shù)據(jù)管理等技術(shù)保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的分析結(jié)果可以輸入到主數(shù)據(jù)管理系統(tǒng)中。區(qū)別：主數(shù)據(jù)管理是為呼叫中心、電子商務(wù)和CRM等業(yè)務(wù)系統(tǒng)提供聯(lián)機(jī)服務(wù)，數(shù)據(jù)倉(cāng)庫(kù)面向分析型的應(yīng)用；主數(shù)據(jù)管理涉及的數(shù)據(jù)量相對(duì)較小，在運(yùn)行中對(duì)主數(shù)據(jù)的集成實(shí)時(shí)性要求比數(shù)據(jù)倉(cāng)庫(kù)高。3、主數(shù)據(jù)管理與ODS的關(guān)系實(shí)時(shí)性要求具有共性，但主數(shù)據(jù)管理系統(tǒng)不儲(chǔ)存ODS系統(tǒng)的交易數(shù)據(jù)。第3章數(shù)據(jù)倉(cāng)庫(kù)3.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1、企業(yè)數(shù)據(jù)處理分為：事務(wù)型處理和分析型處理

9、2、事務(wù)型處理即操作型處理，是指對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作處理OLTP。事務(wù)型處理是用來(lái)協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。它是事件驅(qū)動(dòng)、面向應(yīng)用的，通常是對(duì)一個(gè)或一組記錄的增、刪、改以及簡(jiǎn)單查詢(xún)等（大量、簡(jiǎn)單、重復(fù)和例行性）。在事務(wù)型處理環(huán)境中，數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù)，用戶(hù)對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。3、分析型處理分析型處理：用于管理人員的決策分析，例如DSS、 EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問(wèn)題。分析型處理經(jīng)常要訪(fǎng)問(wèn)大量的歷史數(shù)據(jù)，支持復(fù)雜的查詢(xún)。分析型處理過(guò)程中經(jīng)常用到外部數(shù)據(jù)，這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的，而是來(lái)自于

10、其他外部數(shù)據(jù)源。4、事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別（見(jiàn)書(shū)P36）5、數(shù)據(jù)庫(kù)系統(tǒng)的局限性數(shù)據(jù)庫(kù)適于存儲(chǔ)高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù)。決策分析型數(shù)據(jù)是多維性，分析內(nèi)容復(fù)雜。在決策分析環(huán)境中，如果事務(wù)處理的細(xì)節(jié)數(shù)據(jù)量太大一方面會(huì)嚴(yán)重影響分析效率，另一方面這些細(xì)節(jié)數(shù)據(jù)會(huì)分散決策者的注意力。當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中，事務(wù)型處理對(duì)數(shù)據(jù)的存取操作頻率高，操作處理的時(shí)間短，而分析型處理可能需要連續(xù)運(yùn)行幾個(gè)小時(shí)，從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大，這些數(shù)據(jù)有來(lái)自企業(yè)內(nèi)部的，也有來(lái)自企業(yè)外部的。來(lái)自企業(yè)外部的數(shù)據(jù)又可能來(lái)自不同的數(shù)據(jù)庫(kù)系統(tǒng)，在分析時(shí)如果直接對(duì)這些數(shù)據(jù)

11、操作會(huì)造成分析的混亂。對(duì)于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)庫(kù)系統(tǒng)常常是無(wú)能為力。6、多庫(kù)系統(tǒng)的限制可用性：源站點(diǎn)或通信網(wǎng)絡(luò)故障將導(dǎo)致系統(tǒng)癱瘓, 源站點(diǎn)不能通過(guò)網(wǎng)絡(luò)在線(xiàn)聯(lián)入多庫(kù)系統(tǒng)。響應(yīng)速度：全局查詢(xún)多級(jí)轉(zhuǎn)換和通信傳輸, 延遲和低層效率影響響應(yīng)速度。系統(tǒng)性能：總體性能取決于源站點(diǎn)中性能最低的系統(tǒng), 影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開(kāi)銷(xiāo)：每次查詢(xún)要啟動(dòng)多個(gè)局部系統(tǒng), 通信和運(yùn)行開(kāi)銷(xiāo)大。 3.2 數(shù)據(jù)倉(cāng)庫(kù)1、數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展1981年 NCR公司為Wal Mart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。1988年 IBM公司的研究員Barry Devlin和Paul Murphy創(chuàng)造性的提出了一個(gè)新術(shù)語(yǔ)¡ª

12、;¡ª數(shù)據(jù)倉(cāng)庫(kù)1991年 Bill Inmon正式出版Building the Data 、Warehouse，第一次給出了數(shù)據(jù)倉(cāng)庫(kù)的清晰定義和操作性極強(qiáng)的指導(dǎo)意見(jiàn)1993年拉爾夫.金博爾出版了The Data Warehouse Toolkit，在具體構(gòu)建方法上提出不同意見(jiàn)1996年加拿大的IDC公司調(diào)查了62家實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)的歐美企業(yè)，結(jié)果表明：數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)提供了巨大的收益。2、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)含義：數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù), 并為上層應(yīng)用提供統(tǒng)一用戶(hù)接口，完成數(shù)據(jù)查詢(xún)和分析。支持整個(gè)企業(yè)范圍的主要業(yè)務(wù)來(lái)建立的，

13、主要特點(diǎn)是，包含大量面向整個(gè)企業(yè)的綜合信息及導(dǎo)出信息。Bill Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)所下的定義：數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合，用以支持管理決策的過(guò)程。3、數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求復(fù)雜分析的高性能體現(xiàn)：涉及大量數(shù)據(jù)的聚集、綜合等，在進(jìn)行復(fù)雜查詢(xún)時(shí)經(jīng)常會(huì)使用多表的聯(lián)接、累計(jì)、分類(lèi)、排序等操作。對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成：數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來(lái)的，在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式，所以如何對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。對(duì)進(jìn)行高層決策的最終用戶(hù)的界面支持：提供各種分析應(yīng)用工具。4、數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)3.7 數(shù)據(jù)倉(cāng)庫(kù)模型1、概念

14、模型設(shè)計(jì)概念模型用來(lái)表達(dá)信息世界中的信息結(jié)構(gòu)，通常人們利用概念模型定義實(shí)際的數(shù)據(jù)需求。概念模型最常用的表示方法是實(shí)體關(guān)系法（E-R法），E-R圖將現(xiàn)實(shí)世界表示成信息世界，便于向計(jì)算機(jī)的表示形式進(jìn)行轉(zhuǎn)化。目前的數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是通過(guò)主題分析表示概念模型，每個(gè)主題用若干維和度量表示。維度是人們觀(guān)察世界的特定角度，度量是確定與維度分析有關(guān)的數(shù)值信息。2、邏輯模型設(shè)計(jì)主要工作：a分析主題域進(jìn)行概念模型到邏輯模型的轉(zhuǎn)換；b確定粒度層次劃分；c確定數(shù)據(jù)分割策略；d關(guān)系模式定義；e定義記錄系統(tǒng)。3、數(shù)據(jù)倉(cāng)庫(kù)常用的兩種基本邏輯模型：星型模型：星型模型的核心是事實(shí)表，事實(shí)表把各種不同的維表連接起來(lái)。雪花模型：雪花

15、模型是星型模型的擴(kuò)展，某些維表中的數(shù)據(jù)可以進(jìn)一步分解到附加的表中。4、物理模型設(shè)計(jì)物理模型設(shè)計(jì)因素：a I/O存取時(shí)間；b空間利用率；c維護(hù)的代價(jià)。主要工作：a全面了解所選用的數(shù)據(jù)庫(kù)管理系統(tǒng)，確定一個(gè)最適合應(yīng)用要求的物理結(jié)構(gòu)，特別是存儲(chǔ)結(jié)構(gòu)和存取方法。b了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等。c了解外部存儲(chǔ)設(shè)備的特征。5、確定一個(gè)最適合應(yīng)用要求的物理結(jié)構(gòu)估計(jì)存儲(chǔ)容量；確定數(shù)據(jù)的存儲(chǔ)計(jì)劃；確定索引策略；確定數(shù)據(jù)存放位置；確定存儲(chǔ)分配。3.4 元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的所有數(shù)據(jù)都要通過(guò)元數(shù)據(jù)來(lái)管理和控制。1、元數(shù)據(jù)元數(shù)據(jù)：是用來(lái)描述數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)定義了數(shù)據(jù)倉(cāng)庫(kù)有什么，指明了數(shù)

16、據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的內(nèi)容和位置，刻畫(huà)了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則，存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)主題有關(guān)的各種商業(yè)信息，而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行都是基于元數(shù)據(jù)的。2、元數(shù)據(jù)的分類(lèi)技術(shù)元數(shù)據(jù)：與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù)。（如數(shù)據(jù)源的元數(shù)據(jù)、數(shù)據(jù)模型的源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)映射的源數(shù)據(jù)）業(yè)務(wù)元數(shù)據(jù)：從業(yè)務(wù)角度描述數(shù)據(jù)，為管理及業(yè)務(wù)分析人員服務(wù)。（如數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)）3、元數(shù)據(jù)的存儲(chǔ)方式元數(shù)據(jù)有兩種常見(jiàn)存儲(chǔ)方式：以數(shù)據(jù)集為基礎(chǔ)，每一個(gè)數(shù)據(jù)集有對(duì)應(yīng)的元數(shù)據(jù)文件；以數(shù)據(jù)庫(kù)為基礎(chǔ)的，即元數(shù)據(jù)庫(kù)（推薦）。3.5 數(shù)據(jù)抽取、轉(zhuǎn)換和加載ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié)，也是企業(yè)數(shù)據(jù)管理的核心，對(duì)數(shù)據(jù)倉(cāng)庫(kù)的后續(xù)環(huán)節(jié)影響較大。1、數(shù)據(jù)抽

17、?。‥xtraction）確認(rèn)數(shù)據(jù)源；數(shù)據(jù)抽取技術(shù)2、數(shù)據(jù)轉(zhuǎn)換（ Transform）數(shù)據(jù)轉(zhuǎn)換的的主要任務(wù)是對(duì)數(shù)據(jù)粒度以及不一致的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的形式：格式修正；計(jì)算值和導(dǎo)出值；度量單位的轉(zhuǎn)化化；日期/時(shí)間轉(zhuǎn)化；特征集合轉(zhuǎn)；信息的合并；匯總等3、數(shù)據(jù)清洗（Cleaning）數(shù)據(jù)清洗也稱(chēng)數(shù)據(jù)凈化，主要指對(duì)數(shù)據(jù)字段的有效值檢驗(yàn)。有效值的檢驗(yàn)通常包括：范圍檢驗(yàn)；枚舉字段取值；相關(guān)檢驗(yàn)要求。4、數(shù)據(jù)裝載（ Load）數(shù)據(jù)裝載方式：a基本裝載：按照裝載的目標(biāo)表，將轉(zhuǎn)換過(guò)的數(shù)據(jù)輸入到目標(biāo)表中去。 b追加：如果目標(biāo)表中已經(jīng)存在數(shù)據(jù)，追加過(guò)程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。 c破壞性合并：用新輸入

18、數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 d建設(shè)性合并：保留已有的記錄，增加輸入的記錄，并標(biāo)記為舊記錄的替代。數(shù)據(jù)裝載類(lèi)型：a初始裝載：這是第一次對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行裝載。 b增量裝載：由于源系統(tǒng)的變化，數(shù)據(jù)倉(cāng)庫(kù)需要裝載變化的數(shù)據(jù)。c完全刷新：這種類(lèi)型的數(shù)據(jù)裝載用于周期性重寫(xiě)數(shù)據(jù)倉(cāng)庫(kù)。5、數(shù)據(jù)處理的有關(guān)討論數(shù)據(jù)庫(kù)中的空缺值；不一致的數(shù)據(jù)；樣本空間的大??；與分析無(wú)關(guān)的數(shù)據(jù)不要裝入數(shù)據(jù)倉(cāng)庫(kù)；數(shù)據(jù)離散化；數(shù)據(jù)規(guī)范化3.6 操作數(shù)據(jù)存儲(chǔ)很多情況下，DB-DW的兩層體系結(jié)構(gòu)并不能涵蓋企業(yè)所有的數(shù)據(jù)處理要求。日常管理和控制決策的問(wèn)題并不是聯(lián)機(jī)事務(wù)處理，又算不上高層決策分析，需要企業(yè)全局一致的、細(xì)節(jié)的、當(dāng)前或接近當(dāng)前的數(shù)據(jù)，又

19、需要面向主題、集成的數(shù)據(jù)環(huán)境。因此需要DB-DW之間存在著一個(gè)中間層次，即操作型數(shù)據(jù)存儲(chǔ) ODS（Operational Data Store ）。1、ODS和DW的比較（見(jiàn)書(shū)P44）3.7數(shù)據(jù)集市（Data Mart）1、數(shù)據(jù)集市：數(shù)據(jù)倉(cāng)庫(kù)是一種反映主題的全局性數(shù)據(jù)組織。但是，全局性數(shù)據(jù)倉(cāng)庫(kù)往往太大，在實(shí)際應(yīng)用中將它們按部門(mén)或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織，它們即是數(shù)據(jù)集市。因此，有時(shí)我們也稱(chēng)它為部門(mén)數(shù)據(jù)倉(cāng)庫(kù)。2、數(shù)據(jù)集市類(lèi)型：按照數(shù)據(jù)獲取來(lái)源：獨(dú)立型：直接從操作型環(huán)境獲取數(shù)據(jù)；從屬型：從企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù)。3、數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的關(guān)系類(lèi)似于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)

20、系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來(lái)自數(shù)據(jù)倉(cāng)庫(kù)，它是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一個(gè)部分與局部，是一個(gè)數(shù)據(jù)的再抽取與組織的過(guò)程。注：數(shù)據(jù)集市不是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市并非小的數(shù)據(jù)倉(cāng)庫(kù)多個(gè)數(shù)據(jù)集市集合并不構(gòu)成數(shù)據(jù)倉(cāng)庫(kù)第4章在線(xiàn)分析處理OLAP發(fā)展背景60年代，關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型，促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展 (數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。注：OLTP在線(xiàn)事務(wù)處理通常是一個(gè)或一組記錄的查詢(xún)和修改，用于處理短暫的交易事務(wù)。1993年，E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念，即OLAP。（認(rèn)為OLTP已不能滿(mǎn)足終端用戶(hù)對(duì)數(shù)據(jù)庫(kù)查詢(xún)分析的需要，SQL對(duì)大型數(shù)據(jù)庫(kù)

21、進(jìn)行的簡(jiǎn)單查詢(xún)也不能滿(mǎn)足終端用戶(hù)分析的要求。用戶(hù)的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果，而查詢(xún)的結(jié)果并不能滿(mǎn)足決策者提出的需求） 4.1 OLAP簡(jiǎn)介聯(lián)機(jī)分析處理（OnLine Analysis Processing，OLAP）在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中，聯(lián)機(jī)分析處理是重要的數(shù)據(jù)分析工具。OLAP的基本思想是從多方面和多角度以多維的形式來(lái)觀(guān)察企業(yè)的狀態(tài)和了解企業(yè)的變化。OLAP是獨(dú)立于數(shù)據(jù)倉(cāng)庫(kù)的一種技術(shù)概念。當(dāng)OLAP與數(shù)據(jù)倉(cāng)庫(kù)結(jié)合時(shí)，OLAP的數(shù)據(jù)源為數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)是根據(jù)多維方式組織的。1、OLAP的定義OLAP委員會(huì)的定義：OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)

22、行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶(hù)所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取，從而獲得對(duì)數(shù)據(jù)的更深入了解的一類(lèi)軟件技術(shù)。OLAP的目標(biāo)是滿(mǎn)足決策支持或多維環(huán)境特定的查詢(xún)和報(bào)表需求，它的技術(shù)核心是“維”這個(gè)概念，因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。2、OLAP的基本概念維：是人們觀(guān)察數(shù)據(jù)的特定角度，是考慮問(wèn)題時(shí)的一類(lèi)屬性。維的層次：人們觀(guān)察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面。維的成員：維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。多維數(shù)組：維和變量的組合表示。一個(gè)多維數(shù)組可以表示為： (維1,維2,¡&

23、#173;,維n,變量)數(shù)據(jù)單元(單元格)：多維數(shù)組的取值3、超立方結(jié)構(gòu)(Hypercube)多維數(shù)據(jù)集立方體或超立方結(jié)構(gòu)指用三維或更多的維數(shù)來(lái)描述一個(gè)對(duì)象,每個(gè)維彼此垂直。數(shù)據(jù)的測(cè)量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性(收縮超立方結(jié)構(gòu)，這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維)。 4、OLAP的特點(diǎn)快速性Fast：用戶(hù)對(duì)OLAP的快速反應(yīng)能力有很高的要求。可分析性Analysis：OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。多維性Multidimensional：多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包

24、括對(duì)層次維和多重層次維的完全支持。信息性Information：OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息，并且管理大容量信息。4.2 OLTP VS OLAP（見(jiàn)書(shū)P65）4.3 OLAP操作E.F.Codd從可視化角度提出，主要基于統(tǒng)計(jì)的方法：切片和切塊(Slice and Dice)：切片與切塊的作用是對(duì)分析的數(shù)據(jù)進(jìn)行過(guò)濾，使用戶(hù)專(zhuān)注于局部數(shù)據(jù)。鉆取(Drill)：鉆取能夠幫助用戶(hù)獲得更多的細(xì)節(jié)性數(shù)據(jù)。旋轉(zhuǎn)(Rotate)：旋轉(zhuǎn)(Pivot)通過(guò)旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。輔之于各種圖形展示分析結(jié)果。1、切片、切塊 (Slice and Dice)多維數(shù)據(jù)是由多個(gè)維度組成的，如果在某個(gè)維度上選定一個(gè)

25、取值，則多維數(shù)據(jù)從n維下降成n-1維。切片與切塊在一部分維上選定值后，關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè)，則是切片；如果有兩個(gè)以上，則是切塊。切塊可以看成是在切片的基礎(chǔ)上，確定某一個(gè)維成員的區(qū)間得到的片段，也即由多個(gè)切片疊合起來(lái)。2、鉆取(Drill)鉆取改變維的層次，變換分析的粒度。鉆取有向下鉆?。╠rill down）和向上鉆?。╠rill up）操作。向下鉆取是使用戶(hù)在多層數(shù)據(jù)中能通過(guò)導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),即從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀(guān)察或增加新維。向上鉆取是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù)，或者減少維數(shù)。3、旋轉(zhuǎn)(Rotate)通過(guò)旋轉(zhuǎn)可以

26、得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當(dāng)于平面數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)。例如，旋轉(zhuǎn)可能包含了交換行和列，或是把某一個(gè)行維移到列維中去?；蚴前秧?yè)面顯示中的一個(gè)維和頁(yè)面外的維進(jìn)行交換（令其成為新的行或列中的一個(gè)）。4.4 OLAP分類(lèi)（見(jiàn)書(shū)P69）1、ROLAPROLAP是基于關(guān)系數(shù)據(jù)庫(kù)的OLAP。它是一個(gè)平面結(jié)構(gòu)，用關(guān)系數(shù)據(jù)庫(kù)表示多維數(shù)據(jù)時(shí)，采用星型模型、雪花模型。2、MOLAPMOLAP是基于多維數(shù)據(jù)庫(kù)存儲(chǔ)方式建立的OLAP；表現(xiàn)為“超立方”結(jié)構(gòu)，采用類(lèi)似于多維數(shù)組的結(jié)構(gòu)。3、ROLAP與MOLAP的比較（見(jiàn)書(shū)P71）數(shù)據(jù)存取速度 MOLAP在數(shù)據(jù)存儲(chǔ)速度上性能好數(shù)據(jù)存儲(chǔ)的容量 ROLAP在存儲(chǔ)容量上基本沒(méi)有

27、限制多維計(jì)算的能力 MOLAP能夠支持高性能的決策支持計(jì)算維度變化的適應(yīng)性 ROLAP對(duì)于維表的變更有很好的適應(yīng)性數(shù)據(jù)變化的適應(yīng)性 ROLAP中靈活性較好，對(duì)于數(shù)據(jù)變化的適應(yīng)性高軟硬件平臺(tái)的適應(yīng)性 ROLAP對(duì)軟硬件平臺(tái)的適應(yīng)性很好元數(shù)據(jù)管理 MOLAP和ROLAP都沒(méi)有成形的標(biāo)準(zhǔn)4、HOLAPHOLAP（Hybrid OLAP），即混和型OLAP,介于MOLAP和ROLAP之間。在HOLAP中，對(duì)最常用的維度和維層次，使用多維數(shù)據(jù)表來(lái)存儲(chǔ)，對(duì)于用戶(hù)不常用的維度和數(shù)據(jù)，采用ROLAP星型結(jié)構(gòu)來(lái)存儲(chǔ)。 HOLAP得宜于ROLAP的可伸縮性,和MOLAP的快速計(jì)算。（如MS SQL SERVER)

28、在HOLAP的多維數(shù)據(jù)表中的數(shù)據(jù)維度少于MOLAP中的維度表，數(shù)據(jù)存儲(chǔ)容量也少于MOLAP方式。HOLAP在數(shù)據(jù)存取速度上又低于MOLAP。4.6 OLAP工具目前許多公司已經(jīng)推出了相應(yīng)的OLAP支持工具：ORACLE；IBM；Business Object；SAS；NCR。第5章數(shù)據(jù)挖掘 5.1 數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的由來(lái)：數(shù)據(jù)爆炸但知識(shí)貧乏；網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)；支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)；從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化。注：如何才能不被信息淹沒(méi)，而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí)，提高信息利用效率：要學(xué)會(huì)拋棄信息！2、從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化（見(jiàn)書(shū)P84）3、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘

29、軟件：獨(dú)立的，可以支持少數(shù)幾種數(shù)據(jù)挖掘算法。第二代數(shù)據(jù)挖掘軟件：和數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行了集成，能夠處理在規(guī)模的數(shù)據(jù)，但缺少對(duì)業(yè)務(wù)的預(yù)測(cè)能力。第三代數(shù)據(jù)挖掘軟件：增加了預(yù)測(cè)功能，還可在分布式系統(tǒng)中運(yùn)行，可挖掘網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)。第四代數(shù)據(jù)挖掘軟件：支持移動(dòng)計(jì)算和各種嵌入式系統(tǒng)，擴(kuò)展了應(yīng)用領(lǐng)域。4、數(shù)據(jù)挖掘的定義定義：數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識(shí)并用于決策支持的過(guò)程。目的：不再是單純?yōu)榱搜芯?，更主要的是為商業(yè)決策提供真正有價(jià)值的信息，進(jìn)而獲得利潤(rùn)。5、數(shù)據(jù)挖掘受多學(xué)科影響：數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域，受多個(gè)學(xué)科影響，包括

30、數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。 6、數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法的區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變：數(shù)據(jù)是海量的；數(shù)據(jù)有噪聲；數(shù)據(jù)可能是非結(jié)構(gòu)化的；傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的：一般都是先給出一個(gè)假設(shè)然后通過(guò)數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的：模式都是通過(guò)大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來(lái) 。7、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)8、數(shù)據(jù)挖掘與OLAP完全不同的工具，基于的技術(shù)也大相徑庭OLAP基于用戶(hù)假設(shè)：a what happened查詢(xún)和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么b what next OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣c what if如果我采取這樣

31、的措施又會(huì)怎么樣數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程，不是用于驗(yàn)證某個(gè)假定的模式（模型）的正確性，而是在數(shù)據(jù)庫(kù)中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。9、數(shù)據(jù)挖掘模型及流程數(shù)據(jù)挖掘模型：a為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用，歐洲委員會(huì)聯(lián)合一些數(shù)據(jù)挖掘軟件廠(chǎng)商開(kāi)發(fā)了CRISP-DM。b CRISP-DM（Cross Industry Standard Process for Data Mining）模型，最先在1996年被提出，當(dāng)前的白皮書(shū)版本是1.0。c目的是把數(shù)據(jù)挖掘的過(guò)程標(biāo)準(zhǔn)化，使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更容易管理。10、為保證項(xiàng)目的可靠性和可管理性，CR

32、ISP-DM規(guī)定一個(gè)數(shù)據(jù)挖掘項(xiàng)目應(yīng)該產(chǎn)生11個(gè)報(bào)告：業(yè)務(wù)理解報(bào)告；原始數(shù)據(jù)收集報(bào)告；數(shù)據(jù)描述報(bào)告；數(shù)據(jù)探索報(bào)告；數(shù)據(jù)質(zhì)量報(bào)告；數(shù)據(jù)集描述報(bào)告；模型訓(xùn)練報(bào)告；模型評(píng)估報(bào)告；部署計(jì)劃；監(jiān)控和維護(hù)計(jì)劃；總結(jié)報(bào)告。通過(guò)這些報(bào)告，可以有效地控制數(shù)據(jù)挖掘項(xiàng)目進(jìn)程，減少開(kāi)發(fā)風(fēng)險(xiǎn)。11、數(shù)據(jù)挖掘的過(guò)程（見(jiàn)書(shū)P85圖）數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn)，不同的步驟需要不同的專(zhuān)業(yè)人員參與完成，大體分為三類(lèi)：A業(yè)務(wù)分析人員：要求精通業(yè)務(wù)，能夠解釋業(yè)務(wù)對(duì)象，并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。B數(shù)據(jù)分析人員：精通數(shù)據(jù)分析技術(shù)，并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握，有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇

33、合適的技術(shù)。C數(shù)據(jù)管理人員：精通數(shù)據(jù)管理技術(shù)，并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。數(shù)據(jù)挖掘是一個(gè)多領(lǐng)域?qū)＜液献鞯倪^(guò)程，也是一個(gè)在資金上和技術(shù)上高投入的過(guò)程。注：數(shù)據(jù)挖掘過(guò)程要反復(fù)進(jìn)行，在反復(fù)過(guò)程中，不斷地趨近事物的本質(zhì)，不斷地優(yōu)化問(wèn)題的解決方案。5.2 數(shù)據(jù)挖掘的應(yīng)用及其發(fā)展1、數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的產(chǎn)生本身就有其強(qiáng)烈的應(yīng)用需求背景，它從一開(kāi)始就是面向應(yīng)用的。具體涉及數(shù)據(jù)挖掘的商業(yè)問(wèn)題：數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)（Database Marketing）；客戶(hù)群體劃分（Customer Segmentation & Classification）；背景分析（Profile Analysis）；交叉銷(xiāo)售

34、（Cross-selling）；客戶(hù)流失分析(Churn Analysis)；客戶(hù)信用評(píng)分(Credit Scoring)；欺詐甄別(Fraud Detection)2、數(shù)據(jù)挖掘的未來(lái)發(fā)展趨勢(shì)未來(lái)的熱點(diǎn)應(yīng)用領(lǐng)域：網(wǎng)站的數(shù)據(jù)挖掘（Web site data mining）；生物信息或基因的數(shù)據(jù)挖掘；文本挖掘（Textual mining）；多媒體挖掘。5.3 數(shù)據(jù)預(yù)處理1、數(shù)據(jù)清理數(shù)據(jù)清理的內(nèi)容：修補(bǔ)空缺值，識(shí)別出數(shù)據(jù)中的孤立點(diǎn)、去除噪聲，消除數(shù)據(jù)中的不一致。常用的數(shù)據(jù)清理方法：聚類(lèi)；空值處理；冗余和重復(fù)。2、空值處理有些記錄的值可能空缺，或者某一個(gè)屬性可能會(huì)有大量的空缺值。a對(duì)第一種情況，可以

35、不使用這些記錄；b對(duì)第二種情況，可以丟棄這個(gè)屬性。另一種處理空缺值的方法是歸咎（imputation）?？梢允褂靡恍┫嚓P(guān)技術(shù)（復(fù)雜度逐漸增加）：a從別的記錄中隨機(jī)抽取一個(gè)值添入。b取其他記錄中對(duì)應(yīng)屬性的最頻值，中間數(shù)或平均數(shù)。c對(duì)其他記錄中這個(gè)屬性的值分布做一個(gè)統(tǒng)計(jì)模型，然后根據(jù)分布情況，隨機(jī)選一個(gè)值。d試圖用統(tǒng)計(jì)或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。3、數(shù)據(jù)挖掘算法聚類(lèi)分析；分類(lèi)分析；關(guān)聯(lián)分析；序列模式挖掘；回歸分析；時(shí)間序列分析。5.4 聚類(lèi)分析1、聚類(lèi)分析的概念類(lèi)是指相似對(duì)象的集合。聚類(lèi)是把對(duì)象或樣本的集合分組成為多個(gè)簇（類(lèi)）的過(guò)程，使同一個(gè)組中的對(duì)象具有較高的相似度，而不同類(lèi)型的對(duì)

36、象差別較大。聚類(lèi)是一種無(wú)監(jiān)督分類(lèi)法: 沒(méi)有預(yù)先指定的類(lèi)別； 2、聚類(lèi)問(wèn)題的數(shù)學(xué)描述給定數(shù)據(jù)集合V，根據(jù)數(shù)據(jù)對(duì)象間的相似程度將數(shù)據(jù)集合分成組，并滿(mǎn)足：則該過(guò)程稱(chēng)為聚類(lèi)。Ci稱(chēng)為簇。3、聚類(lèi)分析的統(tǒng)計(jì)量通過(guò)引進(jìn)一些表示樣本間相似程度的度量標(biāo)準(zhǔn)把性質(zhì)相似的對(duì)象歸為一類(lèi)，這些度量標(biāo)準(zhǔn)稱(chēng)為聚類(lèi)統(tǒng)計(jì)量。距離和相似系數(shù)是經(jīng)常采用的聚類(lèi)統(tǒng)計(jì)量。距離：a連續(xù)值數(shù)據(jù)常用的距離度量方法：歐幾里德距離；曼哈坦距離；明考斯基距離；切比雪夫距離。b其他數(shù)據(jù)類(lèi)型的距離度量方法：可分類(lèi)變量、二元變量、標(biāo)稱(chēng)變量、序數(shù)型變量和文本等。a連續(xù)值數(shù)據(jù)常用的距離度量方法：b其它類(lèi)型變量常用距離度量方法：二元變量：變量的取值只有兩個(gè)

37、狀態(tài)，如性別，表示是否吸煙，醫(yī)療檢查正常還是不正常等。 i和j是兩個(gè)變量：q是兩個(gè)變量中都為1的個(gè)數(shù) t是兩個(gè)變量中都為0的個(gè)數(shù) s是i變量中為0，j中為1的個(gè)數(shù) r是i變量中為1，j中為0的個(gè)數(shù)（1）二元變量權(quán)重相同(對(duì)稱(chēng)的，如性別）即：分子為兩者相異的總數(shù)，分母為二元變量總數(shù)（2）二元變量權(quán)重不同(非對(duì)稱(chēng)的）例如，一個(gè)疾病化驗(yàn)結(jié)果正常和不正常，對(duì)一個(gè)群體，正常者總是大多數(shù)，我們用1表現(xiàn)幾率小的情況，0表示另一種情況。評(píng)價(jià)系數(shù)，Jaccard系數(shù)即：兩個(gè)相異的數(shù)量作為分子，相異的數(shù)量加兩個(gè)為1的數(shù)量作為分母。（同對(duì)稱(chēng)二元變量相比，兩個(gè)同為0的數(shù)量不出現(xiàn)在分母中）相似系數(shù)：對(duì)于連續(xù)型數(shù)據(jù)

38、，常用的相似系數(shù)Cij 有夾角余弦和相關(guān)系數(shù)等。4、常用聚類(lèi)算法聚類(lèi)目標(biāo): 將一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫(kù)組織成k個(gè)劃分（k<=n），其中每個(gè)劃分代表一個(gè)簇。常用算法：a基于劃分的聚類(lèi)分析算法：k-means；k-modes；k-prototypesb基于層次的聚類(lèi)分析算法c其它聚類(lèi)分析算法 1）基于劃分的聚類(lèi)分析算法A、k-means算法：k-means算法是常見(jiàn)的基于劃分的聚類(lèi)方法，其中相異度基于對(duì)象與類(lèi)中心（簇中心）的距離計(jì)算，與簇中心距離最近的對(duì)象可以劃為一個(gè)簇。此算法目標(biāo)是每個(gè)對(duì)象與簇中心距離的平方和最小。（1）把n個(gè)對(duì)象分為k個(gè)簇，是簇內(nèi)具有較高的相似度，而簇間的相似度較底。

39、相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的平均值（重心）來(lái)進(jìn)行。（2）流程：首先，隨機(jī)的抽取k個(gè)對(duì)象，每個(gè)對(duì)象初始地代表一個(gè)簇的平均值。對(duì)剩余的每個(gè)對(duì)象，根據(jù)與各個(gè)簇中心的距離，將它賦給最近的簇。然后重新計(jì)算各個(gè)簇的平均值。過(guò)程不斷反復(fù)，直到準(zhǔn)則函數(shù)收斂。一般采用平方誤差準(zhǔn)則：這里，p是空間的點(diǎn)，表示給定的對(duì)象，mi是簇Ci的平均值。B、k-modes算法：k-modes算法把k-means算法擴(kuò)展到可分類(lèi)數(shù)據(jù)，用一個(gè)簡(jiǎn)單的相異度測(cè)量對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)。假設(shè)X，Y是數(shù)據(jù)集中的兩個(gè)對(duì)象，它們用m維屬性描述，則這兩個(gè)對(duì)象之間的相異度為：（1）k-modes算法根據(jù)可分類(lèi)屬性值出現(xiàn)的頻率更新聚類(lèi)中心，聚類(lèi)中出現(xiàn)頻率

40、最高的屬性值被選為聚類(lèi)中心，即modes（類(lèi)模式）。（2）k-modes算法不斷更新modes，使得所有對(duì)象與其最近modes的相異度總和最小：首先計(jì)算每一簇在某一屬性值的對(duì)象所占百分?jǐn)?shù)。然后，取每個(gè)簇中頻率最大的一個(gè)屬性值作為類(lèi)模式Q。分別對(duì)每個(gè)屬性進(jìn)行上述計(jì)算，最后得到類(lèi)模式Q，即初始聚類(lèi)中心。k-modes算法與k-means的步驟類(lèi)似：預(yù)先定義好k類(lèi)，確定各個(gè)類(lèi)的初始類(lèi)模式Q。根據(jù)類(lèi)模式Q把每個(gè)對(duì)象賦給最近鄰的類(lèi)，然后更新類(lèi)模式Q。不斷重復(fù)，直到不再發(fā)生變化為止。C、k-prototypes算法（1）在實(shí)際應(yīng)用中，數(shù)據(jù)可能是數(shù)值型的，同時(shí)也有可分類(lèi)型的。k-prototypes算

41、法綜合了k-means和k-modes算法，采用新的距離度量方法，能夠快速處理混合類(lèi)型數(shù)據(jù)集的聚類(lèi)問(wèn)題。（2）k-prototypes算法的聚類(lèi)中心由數(shù)值型數(shù)據(jù)的聚類(lèi)中心和可分類(lèi)數(shù)據(jù)的聚類(lèi)中心兩部分加權(quán)組成，其中數(shù)值型屬性的聚類(lèi)中心和k-means算法類(lèi)似，通過(guò)計(jì)算數(shù)值型屬性的平均值得到。而可分類(lèi)型屬性的中心采用類(lèi)似k-modes算法聚類(lèi)中心的更新方式，通過(guò)計(jì)算可分類(lèi)屬性值出現(xiàn)的頻率確定。2）基于層次的聚類(lèi)分析算法（1）凝聚的層次聚集：自底向上的策略首先將每個(gè)對(duì)象作為一個(gè)簇，然后合并這些原子簇為越來(lái)越大的簇，直到所有的對(duì)象都在某個(gè)簇中，或者終結(jié)條件滿(mǎn)足。（2）分裂的層次聚類(lèi)：自頂向下，首先將所

42、有對(duì)象置于一個(gè)簇中，然后逐漸細(xì)分為越來(lái)越小的簇，直到每個(gè)對(duì)象自成一個(gè)簇或者達(dá)到了某個(gè)終結(jié)條件。（達(dá)到希望的簇?cái)?shù)或兩個(gè)簇之間的距離超過(guò)了某個(gè)閥值）3）其它聚類(lèi)分析算法：基于密度的方法；基于網(wǎng)格的方法；基于模型的聚類(lèi)。注：每種方法都有各自的優(yōu)缺點(diǎn)，適用范圍也有限。選擇哪種聚類(lèi)方法，需要考慮實(shí)際的應(yīng)用需求、簇的類(lèi)型與特征、數(shù)據(jù)的特性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集的規(guī)模（樣本個(gè)數(shù)、樣本屬性個(gè)數(shù)）等因素。5、聚類(lèi)分析的典型應(yīng)用作為一個(gè)獨(dú)立的分析工具，用于了解數(shù)據(jù)的分布；偏離（異常）檢測(cè)；作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟。5.5 分類(lèi)分析與回歸分析分類(lèi)和回歸都屬于預(yù)測(cè)建模，是兩種數(shù)據(jù)分析形式，可以用于提取描述重要數(shù)

43、據(jù)類(lèi)的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。一般認(rèn)為：a預(yù)測(cè)數(shù)值數(shù)據(jù)歸屬于哪個(gè)類(lèi)稱(chēng)為分類(lèi)；b預(yù)測(cè)連續(xù)屬性取值為回歸。1、分類(lèi)分析分類(lèi)要解決的問(wèn)題是為一個(gè)事件或?qū)ο髿w類(lèi)，即確定一個(gè)特定的對(duì)象屬于哪一類(lèi)。分類(lèi)就是通過(guò)分析訓(xùn)練集（決策表）中的數(shù)據(jù)，為每個(gè)類(lèi)別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類(lèi)規(guī)則，然后用這個(gè)分類(lèi)規(guī)則對(duì)其它數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)。注：訓(xùn)練集:用于建立模型的數(shù)據(jù)稱(chēng)為訓(xùn)練集，通常是已經(jīng)掌握的歷史數(shù)據(jù)。2、數(shù)據(jù)分類(lèi)的步驟數(shù)據(jù)準(zhǔn)備：數(shù)據(jù)清理；相關(guān)性分析；數(shù)據(jù)變換。建立模型：建立模型，描述預(yù)定的數(shù)據(jù)類(lèi)，通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。模型評(píng)估：評(píng)估模型的預(yù)測(cè)正確率。使用模型分類(lèi)。3、數(shù)據(jù)分類(lèi)的方法

44、貝葉斯分類(lèi)器；決策樹(shù)；支持向量機(jī)；BP神經(jīng)網(wǎng)絡(luò)；其它分類(lèi)方法4、決策樹(shù)決策樹(shù)是一個(gè)樹(shù)形的結(jié)構(gòu)，由決策結(jié)點(diǎn)、分枝和葉子結(jié)點(diǎn)組成。a內(nèi)部結(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試b每個(gè)分枝都表示一個(gè)測(cè)試輸出c葉子節(jié)點(diǎn)表示一個(gè)類(lèi)一個(gè)電器銷(xiāo)售商根據(jù)數(shù)據(jù)庫(kù)的數(shù)據(jù)分析概念 “買(mǎi)計(jì)算機(jī)”，構(gòu)造的決策樹(shù)。使用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程決策樹(shù)算法：A、常用算法：a ID3、C4.5 ；b SLIQ、SPRINT等B、基本算法（貪心算法）：a自上而下分而治之的方法；b開(kāi)始時(shí)所有的實(shí)例都在根節(jié)點(diǎn)；c屬性都是分類(lèi)型 (如果是連續(xù)的，將其離散化)；d所有記錄用所選屬性遞歸的進(jìn)行分割。e屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如信息

45、增益)決策樹(shù)的屬性選擇f屬性選取是決策樹(shù)算法中重要的步驟，一般需要最大程度地增加樣本集的純度，而且不要產(chǎn)生樣本數(shù)量太少的分枝。決策樹(shù)的屬性選擇a屬性選取是決策樹(shù)算法中重要的步驟，一般需要最大程度地增加樣本集的純度，而且不要產(chǎn)生樣本數(shù)量太少的分枝。b常見(jiàn)屬性選擇標(biāo)準(zhǔn)：信息增益；基尼指數(shù)；其它A、信息增益（information gain）（1）計(jì)算給定的樣本分類(lèi)的期望信息設(shè)S是有s個(gè)數(shù)據(jù)樣本的集合。假定類(lèi)標(biāo)號(hào)屬性具有m個(gè)不同的值，定義m個(gè)不同類(lèi)Ci(i=1,m)。設(shè)si是類(lèi)Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類(lèi)所需要的期望信息由下式給出：注：其中pi是任意樣本屬于Ci的概率，一般用si/s估計(jì)代替

46、pi（2）計(jì)算由A劃分為子集的熵設(shè)屬性A有v個(gè)不同值a1,a2,av。可以根據(jù)屬性值將S劃分為v個(gè)子集S1,S2,Sv；sij是子集Sj中類(lèi)Ci的樣本數(shù)。由A劃分成子集的熵（期望信息）為：（3）計(jì)算A作為分枝屬性的信息增益注：決策樹(shù)如何分枝？計(jì)算屬性的信息增益，取最大的信息增益分枝。B、基尼指數(shù)（Gini Index）（1）集合T包含n個(gè)類(lèi)別的記錄，那么其Gini指數(shù)是pj 類(lèi)別j出現(xiàn)的頻率（2）如果集合T分成兩部分 N1 and N2 。那么這個(gè)分割的Gini就是（3）提供最小Ginisplit 就被選擇作為分割的標(biāo)準(zhǔn)。決策樹(shù)的過(guò)擬合問(wèn)題注：避免過(guò)擬合；決策樹(shù)泛化。決策樹(shù)的剪枝目的：消除決

47、策樹(shù)的過(guò)擬合問(wèn)題。實(shí)質(zhì)：消除訓(xùn)練集中的異常和噪聲。兩種剪枝方法：先剪枝法；后剪枝法。5、貝葉斯分類(lèi)器統(tǒng)計(jì)學(xué)的方法，可以預(yù)測(cè)類(lèi)成員關(guān)系的可能性，即給定樣本屬于一個(gè)特定類(lèi)的概率。貝葉斯定理假設(shè)X和Y在分類(lèi)中可以分別表示樣本的屬性集和類(lèi)別。X和Y的聯(lián)合概率和條件概率滿(mǎn)足下列關(guān)系：注：P(X,Y)表示X，Y的聯(lián)合概率p(X|Y) 和p(Y|X)表示條件概率p(Y|X)是Y后驗(yàn)概率，表示條件X下Y的概率p(Y)稱(chēng)為Y的先驗(yàn)概率變換后得到6、樸素貝葉斯分類(lèi)器每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X=x1,x2,xn表示，分別描述對(duì)n個(gè)屬性A1,A2,.,An樣本的n個(gè)度量。假定有m個(gè)類(lèi)C1,，Cm,對(duì)于數(shù)據(jù)樣本

48、X，分類(lèi)法將預(yù)測(cè)X屬于類(lèi)Ci,當(dāng)且僅當(dāng)： P(Ci|X)> P(Cj|X),1<=j<=m, j不等于i根據(jù)貝葉斯定理： P(Ci|X)=P(X|Ci)P(Ci)/P(X) 由于P(X)對(duì)于所有類(lèi)都是常數(shù)，只需最大化P(X|Ci)P(Ci) 計(jì)算P(X|Ci),樸素貝葉斯分類(lèi)假設(shè)類(lèi)條件獨(dú)立。即給定樣本屬性值相互條件獨(dú)立。（在一般情況下此假定都能成立）在使用中，p常用頻度代替。7、其它分類(lèi)方法：支持向量機(jī)；神經(jīng)網(wǎng)絡(luò)方法；以及在商品化的數(shù)據(jù)挖掘中用的較少的：k_最鄰近分類(lèi)；遺傳算法；粗糙集合方法；模糊集方法。8、回歸分析回歸分析（regression analysis）是一種基本

49、的統(tǒng)計(jì)分析方法，它已被廣泛地應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。分析一個(gè)變量與其他一個(gè)（或幾個(gè)）變量之間的相關(guān)關(guān)系的統(tǒng)計(jì)方法就稱(chēng)為回歸分析。回歸分析主要內(nèi)容包括確定連續(xù)值變量之間的相關(guān)關(guān)系，建立回歸模型，檢驗(yàn)變量之間的相關(guān)程度，應(yīng)用回歸模型對(duì)變量進(jìn)行預(yù)測(cè)等。回歸分析的分類(lèi)：a按涉及的自變量個(gè)數(shù)：一元回歸分析；多元回歸分析。b按自變量和因變量間的關(guān)系：線(xiàn)性回歸分析；非線(xiàn)性回歸?；貧w分析的步驟：a確定因變量和影響因素（自變量）。b繪制散點(diǎn)圖，觀(guān)察變量的大致關(guān)系。c求回歸系數(shù)，并建立回歸模型。d檢驗(yàn)回歸模型。e進(jìn)行預(yù)測(cè)。 9、回歸預(yù)測(cè)預(yù)測(cè)是回歸模型最重要的應(yīng)用，回歸預(yù)測(cè)包括點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)。回歸點(diǎn)預(yù)測(cè)是指對(duì)于給定

50、的變量值x0，用回歸值作為變量y的預(yù)測(cè)值y0。然而現(xiàn)實(shí)中實(shí)際值與預(yù)測(cè)值總會(huì)產(chǎn)生偏移，因此還需要得到可能偏離的范圍以提高預(yù)測(cè)的可靠程度，這稱(chēng)為區(qū)間預(yù)測(cè)，即以一定的概率預(yù)測(cè)y0附近的變動(dòng)范圍。5.6 關(guān)聯(lián)分析1、關(guān)聯(lián)規(guī)則相關(guān)術(shù)語(yǔ)：a項(xiàng)：集合I=i1，i2，,im為標(biāo)識(shí)符的集合，其中m為正整數(shù)，ik（k=1，2，,m)稱(chēng)為項(xiàng)目。b項(xiàng)集：在數(shù)據(jù)庫(kù)中出現(xiàn)的屬性值的集合。K_項(xiàng)集：包含K個(gè)項(xiàng)的項(xiàng)集。c頻繁項(xiàng)集：滿(mǎn)足最小支持度要求的項(xiàng)集。d關(guān)聯(lián)規(guī)則：關(guān)聯(lián)規(guī)則是形如X->Y的規(guī)則，其中X，Y為項(xiàng)目集且XÇY=Æ。例：(超級(jí)市場(chǎng))在購(gòu)買(mǎi)商品A的客戶(hù)中有部分人會(huì)同時(shí)購(gòu)買(mǎi)商品B，則可用關(guān)聯(lián)

51、規(guī)則表示為：A=>B(support,confidence)關(guān)聯(lián)規(guī)則度量標(biāo)準(zhǔn)：a支持度(Support)：同時(shí)購(gòu)買(mǎi)A和B的客戶(hù)人數(shù)占總客戶(hù)數(shù)的百分比稱(chēng)為規(guī)則的支持度。b置信度(Confidence)：同時(shí)購(gòu)買(mǎi)A和B的客戶(hù)人數(shù)占購(gòu)買(mǎi)A的客戶(hù)人數(shù)的百分比稱(chēng)為規(guī)則的置信度。注：在實(shí)際應(yīng)用中，概率P一般無(wú)法事先給出，所以常以頻度代替有意義的關(guān)聯(lián)規(guī)則：a 為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則，需要給定兩個(gè)閾值：最小支持度和最小置信度。b關(guān)聯(lián)規(guī)則挖掘的實(shí)質(zhì)是在數(shù)據(jù)集合中尋找滿(mǎn)足用戶(hù)給定的最小支持度和最小置信度的規(guī)則。關(guān)聯(lián)規(guī)則挖掘問(wèn)題的分解給定數(shù)據(jù)庫(kù)D，關(guān)聯(lián)規(guī)則的挖掘就是找出所有存在于數(shù)據(jù)庫(kù)D中的強(qiáng)關(guān)聯(lián)規(guī)則。因

52、此整個(gè)關(guān)聯(lián)規(guī)則挖掘過(guò)程可以分解為以下兩個(gè)子問(wèn)題：a找出所有的頻繁項(xiàng)目集；b根據(jù)找到的頻繁項(xiàng)目集導(dǎo)出所有的強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則分類(lèi)：a 根據(jù)規(guī)則中所處理的值類(lèi)型：布爾關(guān)聯(lián)規(guī)則；量化關(guān)聯(lián)規(guī)則。b 根據(jù)規(guī)則中所涉及的數(shù)據(jù)維：?jiǎn)尉S關(guān)聯(lián)規(guī)則；多維關(guān)聯(lián)規(guī)則。根據(jù)規(guī)則中所涉及的抽象層A 一般采用自頂向下策略，由概念的頂層開(kāi)始向下，到較低的更特定的概念層，對(duì)每個(gè)概念層的頻繁集累加計(jì)數(shù)，直到不能再找到頻繁項(xiàng)集。B 對(duì)于所有層使用一致的最小支持度注：因?yàn)檩^低層次抽象的項(xiàng)不大可能像較高層次抽象的項(xiàng)出現(xiàn)得那么頻繁。如果最小支持度閥值設(shè)置的太高，可能丟掉出現(xiàn)在較低抽象層次中有意義的關(guān)聯(lián)規(guī)則。如果閥值設(shè)置太低，可能會(huì)出現(xiàn)

53、在較高抽象層的無(wú)興趣的關(guān)聯(lián)規(guī)則。注：在較低層使用遞減的最小支持度2、Apriori算法（見(jiàn)書(shū)P139） Lk:k項(xiàng)頻繁集的集合； Ck：k項(xiàng)集的候補(bǔ)集合步驟1.連接: 用 Lk-1自連接得到Ck，（k>2) 設(shè)L1,L2是兩個(gè)有k-1個(gè)有序項(xiàng)的項(xiàng)集，Lji代表k-1個(gè)項(xiàng)的第i項(xiàng)(j=1,2; i=1,2,k-1)。L1和L2是可連接的L1XL2，需滿(mǎn)足： L11=L21 ,L12=L22，.，L1k-2=L2k-2， L1k-1 L2k-1，產(chǎn)生的項(xiàng)是： L11L12.L1k-2L1k-1L2k-1(Lji是有序的）例：L1=A,B,C ， L2=A,B,D，L3=A,C,F則：L1 X

54、 L2=A,B,C,D L1 X L3，L2 X L3均為空2.修剪: 一個(gè)k-項(xiàng)集，如果它的一個(gè)k-1項(xiàng)子集不是頻繁的，那它本身也不可能是頻繁的。 Apriori 的性能瓶頸A、Apriori算法的核心：a用頻繁的(k-1)_項(xiàng)集生成候選的頻繁 k_項(xiàng)集b用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度B、Apriori 的瓶頸：候選集生成a巨大的候選集：104 個(gè)頻繁1_項(xiàng)集要生成 107 個(gè)候選 2_項(xiàng)集要找尺寸為100的頻繁模式，如 a1, a2, ¡, a100, 你必須先產(chǎn)生2100 » 1030 個(gè)候選集（1_項(xiàng)集）b多次掃描數(shù)據(jù)庫(kù)：如最長(zhǎng)的模式是n的話(huà)，則需要n次數(shù)據(jù)庫(kù)掃描注：為提高Apriori算法的性能，有許多改進(jìn)的算法。3、其他關(guān)聯(lián)規(guī)則算法FP樹(shù)；約束性關(guān)聯(lián)規(guī)則挖掘算法；增量式關(guān)聯(lián)規(guī)則挖掘算法；多層關(guān)聯(lián)規(guī)則挖掘。5.6 序列模式分析序列模式的發(fā)現(xiàn)是由RAgrawal于1995年首先提出的。序列模式

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

商務(wù)智能復(fù)習(xí)資料(必讀)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

商務(wù)智能復(fù)習(xí)資料(必讀)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔