商務智能復習資料(必讀)_第1頁
商務智能復習資料(必讀)_第2頁
商務智能復習資料(必讀)_第3頁
商務智能復習資料(必讀)_第4頁
商務智能復習資料(必讀)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、商務智能復習綱要第1章 商務智能概述1.1 商業(yè)決策需要商務智能一、數(shù)據(jù)、信息和知識1、數(shù)據(jù):符號、事實和數(shù)字 信息:有用的數(shù)據(jù)關(guān)系:信息是經(jīng)過某種加工處理后的數(shù)據(jù),是反映客觀事物規(guī)律的一些數(shù)據(jù)。數(shù)據(jù)是信息的載體, 信息是對數(shù)據(jù)的解釋。事物運動數(shù)據(jù)信息記錄解釋知識:對信息內(nèi)容進行提煉、比較、挖掘、分析、概括、判斷和推論。2、決策離不開信息、知識決策需要信息,更離不開知識;知識更多地表現(xiàn)為經(jīng)驗-學習的結(jié)晶;學習的過程是不斷地對信息加工處理;信息的收集、加工、傳輸與利用貫穿著決策各階段的工作過程。信息已成為企業(yè)經(jīng)營中重要性僅次于人才的第二大要素。決策=信息+經(jīng)驗+冒險商務智能是對企業(yè)信息的科學管理

2、。3、商務智能支持商業(yè)決策商務智能如何創(chuàng)造知識和價值1.2 商務智能簡介商務智能這一術(shù)語1996年由 Gartner 公司的分析師Howard Dresner首次提出,他提出商務智能描述了一系列的概念和方法,通過應用基于事實的支持系統(tǒng)來輔助商業(yè)決策的制定。一、商務智能概念商務智能是整合了先進信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成了企業(yè)內(nèi)外的數(shù)據(jù),進行加工并從中提取能夠創(chuàng)造商業(yè)價值的信息,面向企業(yè)戰(zhàn)略并服務于管理層、業(yè)務層,指導企業(yè)經(jīng)營決策,提升企業(yè)競爭力,涉及企業(yè)戰(zhàn)略、管理思想、業(yè)務整合和技術(shù)體系等層面,促進信息到知識再到利潤的轉(zhuǎn)變,從而實現(xiàn)更好的績效。先進信息技術(shù):商務智能是多項技術(shù)的綜合應用

3、;集成了企業(yè)內(nèi)外的數(shù)據(jù),進行加工并從中提取能夠創(chuàng)造商業(yè)價值的信息:商務智能的層次;企業(yè)戰(zhàn)略:商務智能服務于企業(yè)戰(zhàn)略;管理層、業(yè)務層:商務智能用戶多樣性;更好的績效:商務智能提升企業(yè)績效。二、商務智能的價值1、在商務智能背后有一些商業(yè)驅(qū)動力,如:增加收入,減少費用和更有效地競爭的需求。管理和模擬當前商業(yè)環(huán)境復雜性的需求。減少IT費用和利用已有公司業(yè)務信息的需求。2、商務智能的價值制定合適的市場營銷策略;改善顧客智能;經(jīng)營成本與收入分析;提高風險管理能力;改善業(yè)務洞察力;提高市場響應能力。1.3商務智能系統(tǒng)的功能 數(shù)據(jù)集成:數(shù)據(jù)是決策分析的基礎(chǔ);信息呈現(xiàn):商務智能的初步功能;經(jīng)營分析:運營指標、運

4、營業(yè)績和財務分析;戰(zhàn)略決策支持:合理的投資組合。1.4 商務智能應用領(lǐng)域銀行:美國銀行家協(xié)會(ABA)預測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應用增長率是14.9。分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤評測模型;客戶關(guān)系優(yōu)化;風險控制等電子商務:網(wǎng)上商品推薦;個性化網(wǎng)頁;自適應網(wǎng)站生物制藥、基因研究:DNA序列查詢和匹配;識別基因序列的共發(fā)生性 電信:欺詐甄別;客戶流失保險、零售政府部門、教育機構(gòu)、醫(yī)療機構(gòu)和公用事業(yè)等。利用商務智能的企業(yè)現(xiàn)在已越來越多,遍及各行各業(yè)。第13章 商務智能發(fā)展一、商務智能的發(fā)展事務處理系統(tǒng)TPS管理信息系統(tǒng)MIS主管信息系統(tǒng)EIS決策支持系統(tǒng)DS

5、S智能決策支持系統(tǒng)IDSS二、商務智能應用趨勢更成熟的數(shù)據(jù)分析和展現(xiàn)技術(shù);從戰(zhàn)略型的BI到操作型或者實時型的BI;關(guān)注績效、關(guān)注價值、關(guān)注數(shù)據(jù)質(zhì)量。三、商務智能在中國的發(fā)展商務智能在中國的發(fā)展尚處于起步階段,大部分企業(yè)對商務智能仍然缺乏必要的了解。國、內(nèi)外商務智能軟件企業(yè)的實施和應用水平有很大的差距,目前國外有一些企業(yè)已進入多維分析和數(shù)據(jù)挖掘階段,而國內(nèi)商務智能的發(fā)展只是近幾年的事情,商務智能應用的范圍和程度都與國外企業(yè)有很大差距。絕大多數(shù)實施商務智能的企業(yè)的應用水平停留在基本的數(shù)據(jù)整合階段和簡單的統(tǒng)計分析階段,真正實現(xiàn)深度數(shù)據(jù)分析的項目很少。四、中國商務智能應用存在的問題起步較晚:國內(nèi)管理者

6、想要利用商務智能解決缺乏有效信息支持決策的管理模式和操作準則越來越體現(xiàn)出缺乏理性的缺點。因此國內(nèi)企業(yè)管理者試圖通過商務智能解決上述問題,但這種需求比國外發(fā)達國家滯后了。差距拉大:目前國內(nèi)各行業(yè)商務智能的發(fā)展水平仍是參差不齊,商務智能在行業(yè)內(nèi)也存在差距,不同規(guī)模的企業(yè)應用商務智能的差距也在拉大。普及有待時日:技術(shù)、觀念和管理水平的相對落后,商務智能的普及還需要較長時間供應商有待成長五、商務智能動態(tài)商務智能發(fā)展的特點實時;標準化;嵌入式商務智能;移動商務智能;大眾化趨勢;供應商的動向;易用性。第2章 商務智能系統(tǒng)架構(gòu)2.1 商務智能系統(tǒng)組成1、體系結(jié)構(gòu)(Architecture):體系結(jié)構(gòu)是指一整

7、套的規(guī)則和結(jié)構(gòu),為一個系統(tǒng)或產(chǎn)品的整體設計提供主框架。2、商務智能的體系結(jié)構(gòu)一個商務智能的體系結(jié)構(gòu)是通過識別和理解數(shù)據(jù)在系統(tǒng)中的流動過程和數(shù)據(jù)在企業(yè)中的應用過程來提供商業(yè)智能系統(tǒng)應用的主框架。商務智能系統(tǒng)構(gòu)架(見書P27)3、商務智能系統(tǒng)的組成數(shù)據(jù)源與數(shù)據(jù)提??;數(shù)據(jù)倉庫;訪問工具;決策支持工具;商務智能應用;系統(tǒng)管理;元數(shù)據(jù)管理。2.2 數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上或物理上把不相同來源、格式、特點的數(shù)據(jù)有機地整合,從而為企業(yè)提供全面的數(shù)據(jù)共享。目的:運用一定的技術(shù)手段把分布在異構(gòu)系統(tǒng)中的數(shù)據(jù)按一定的規(guī)則組織成一個整體,使用戶能有效地對其進行共享、分析,因此數(shù)據(jù)集成是構(gòu)建數(shù)據(jù)倉庫的基礎(chǔ)。1、數(shù)據(jù)集

8、成的常用方法數(shù)據(jù)聯(lián)邦;基于中間件模型;數(shù)據(jù)倉庫;主數(shù)據(jù)管理2、主數(shù)據(jù)管理與數(shù)據(jù)倉庫的關(guān)系聯(lián)系:二者相輔相成,都是減少數(shù)據(jù)冗余和不一致性的跨部門集中式系統(tǒng),都依賴ETL、元數(shù)據(jù)管理等技術(shù)保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉庫系統(tǒng)的分析結(jié)果可以輸入到主數(shù)據(jù)管理系統(tǒng)中。區(qū)別:主數(shù)據(jù)管理是為呼叫中心、電子商務和CRM等業(yè)務系統(tǒng)提供聯(lián)機服務,數(shù)據(jù)倉庫面向分析型的應用;主數(shù)據(jù)管理涉及的數(shù)據(jù)量相對較小,在運行中對主數(shù)據(jù)的集成實時性要求比數(shù)據(jù)倉庫高。3、主數(shù)據(jù)管理與ODS的關(guān)系實時性要求具有共性,但主數(shù)據(jù)管理系統(tǒng)不儲存ODS系統(tǒng)的交易數(shù)據(jù)。第3章 數(shù)據(jù)倉庫3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1、企業(yè)數(shù)據(jù)處理分為:事務型處理和分析型處理

9、2、事務型處理即操作型處理,是指對數(shù)據(jù)庫的聯(lián)機操作處理OLTP。事務型處理是用來協(xié)助企業(yè)對響應事件或事務的日常商務活動進行處理。它是事件驅(qū)動、面向應用的,通常是對一個或一組記錄的增、刪、改以及簡單查詢等(大量、簡單、重復和例行性)。在事務型處理環(huán)境中,數(shù)據(jù)庫要求能支持日常事務中的大量事務,用戶對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短。3、分析型處理分析型處理:用于管理人員的決策分析,例如DSS、 EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復雜的查詢。分析型處理過程中經(jīng)常用到外部數(shù)據(jù),這部分數(shù)據(jù)不是由事務型處理系統(tǒng)產(chǎn)生的,而是來自于

10、其他外部數(shù)據(jù)源。4、事務型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別(見書P36)5、數(shù)據(jù)庫系統(tǒng)的局限性數(shù)據(jù)庫適于存儲高度結(jié)構(gòu)化的日常事務細節(jié)數(shù)據(jù)。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復雜。在決策分析環(huán)境中,如果事務處理的細節(jié)數(shù)據(jù)量太大一方面會嚴重影響分析效率,另一方面這些細節(jié)數(shù)據(jù)會分散決策者的注意力。當事務型處理環(huán)境和分析型處理環(huán)境在同一個數(shù)據(jù)庫系統(tǒng)中,事務型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續(xù)運行幾個小時,從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時如果直接對這些數(shù)據(jù)

11、操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力。6、多庫系統(tǒng)的限制可用性:源站點或通信網(wǎng)絡故障將導致系統(tǒng)癱瘓, 源站點不能通過網(wǎng)絡在線聯(lián)入多庫系統(tǒng)。響應速度:全局查詢多級轉(zhuǎn)換和通信傳輸, 延遲和低層效率影響響應速度。系統(tǒng)性能:總體性能取決于源站點中性能最低的系統(tǒng), 影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開銷:每次查詢要啟動多個局部系統(tǒng), 通信和運行開銷大。 3.2 數(shù)據(jù)倉庫1、數(shù)據(jù)倉庫的發(fā)展1981年 NCR公司為Wal Mart建立了第一個數(shù)據(jù)倉庫。1988年 IBM公司的研究員Barry Devlin和Paul Murphy創(chuàng)造性的提出了一個新術(shù)語¡ª

12、;¡ª數(shù)據(jù)倉庫1991年 Bill Inmon正式出版Building the Data 、Warehouse,第一次給出了數(shù)據(jù)倉庫的清晰定義和操作性極強的指導意見1993年 拉爾夫.金博爾出版了The Data Warehouse Toolkit,在具體構(gòu)建方法上提出不同意見1996年 加拿大的IDC公司調(diào)查了62家實現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。2、數(shù)據(jù)倉庫(Data Warehouse)含義:數(shù)據(jù)倉庫用來保存從多個數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù), 并為上層應用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。支持整個企業(yè)范圍的主要業(yè)務來建立的,

13、主要特點是,包含大量面向整個企業(yè)的綜合信息及導出信息。Bill Inmon對數(shù)據(jù)倉庫所下的定義:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。3、數(shù)據(jù)倉庫的技術(shù)要求復雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進行復雜查詢時經(jīng)常會使用多表的聯(lián)接、累計、分類、排序等操作。對提取出來的數(shù)據(jù)進行集成:數(shù)據(jù)倉庫中的數(shù)據(jù)是從多個應用領(lǐng)域中提取出來的,在不同的應用領(lǐng)域和不同的數(shù)據(jù)庫系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對數(shù)據(jù)進行集成也是構(gòu)建數(shù)據(jù)倉庫的一個重要方面。對進行高層決策的最終用戶的界面支持:提供各種分析應用工具。4、數(shù)據(jù)倉庫結(jié)構(gòu)3.7 數(shù)據(jù)倉庫模型1、概念

14、模型設計概念模型用來表達信息世界中的信息結(jié)構(gòu),通常人們利用概念模型定義實際的數(shù)據(jù)需求。概念模型最常用的表示方法是實體關(guān)系法(E-R法),E-R圖將現(xiàn)實世界表示成信息世界,便于向計算機的表示形式進行轉(zhuǎn)化。目前的數(shù)據(jù)倉庫實際上是通過主題分析表示概念模型,每個主題用若干維和度量表示。維度是人們觀察世界的特定角度,度量是確定與維度分析有關(guān)的數(shù)值信息。2、邏輯模型設計主要工作:a分析主題域進行概念模型到邏輯模型的轉(zhuǎn)換;b確定粒度層次劃分;c確定數(shù)據(jù)分割策略;d關(guān)系模式定義;e定義記錄系統(tǒng)。3、數(shù)據(jù)倉庫常用的兩種基本邏輯模型:星型模型:星型模型的核心是事實表,事實表把各種不同的維表連接起來。雪花模型:雪花

15、模型是星型模型的擴展,某些維表中的數(shù)據(jù)可以進一步分解到附加的表中。4、物理模型設計物理模型設計因素:a I/O存取時間;b空間利用率;c維護的代價。主要工作:a全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),確定一個最適合應用要求的物理結(jié)構(gòu),特別是存儲結(jié)構(gòu)和存取方法。b了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應時間要求等。c了解外部存儲設備的特征。5、確定一個最適合應用要求的物理結(jié)構(gòu)估計存儲容量;確定數(shù)據(jù)的存儲計劃;確定索引策略;確定數(shù)據(jù)存放位置;確定存儲分配。3.4 元數(shù)據(jù)數(shù)據(jù)倉庫的所有數(shù)據(jù)都要通過元數(shù)據(jù)來管理和控制。1、元數(shù)據(jù)元數(shù)據(jù):是用來描述數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)定義了數(shù)據(jù)倉庫有什么,指明了數(shù)

16、據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而且整個數(shù)據(jù)倉庫的運行都是基于元數(shù)據(jù)的。2、元數(shù)據(jù)的分類技術(shù)元數(shù)據(jù):與數(shù)據(jù)倉庫開發(fā)、管理和維護相關(guān)的數(shù)據(jù)。(如數(shù)據(jù)源的元數(shù)據(jù)、數(shù)據(jù)模型的源數(shù)據(jù)、數(shù)據(jù)倉庫映射的源數(shù)據(jù))業(yè)務元數(shù)據(jù):從業(yè)務角度描述數(shù)據(jù),為管理及業(yè)務分析人員服務。(如數(shù)據(jù)倉庫使用的元數(shù)據(jù))3、元數(shù)據(jù)的存儲方式元數(shù)據(jù)有兩種常見存儲方式:以數(shù)據(jù)集為基礎(chǔ),每一個數(shù)據(jù)集有對應的元數(shù)據(jù)文件;以數(shù)據(jù)庫為基礎(chǔ)的,即元數(shù)據(jù)庫(推薦)。3.5 數(shù)據(jù)抽取、轉(zhuǎn)換和加載ETL是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié),也是企業(yè)數(shù)據(jù)管理的核心,對數(shù)據(jù)倉庫的后續(xù)環(huán)節(jié)影響較大。1、數(shù)據(jù)抽

17、取(Extraction)確認數(shù)據(jù)源;數(shù)據(jù)抽取技術(shù)2、數(shù)據(jù)轉(zhuǎn)換( Transform)數(shù)據(jù)轉(zhuǎn)換的的主要任務是對數(shù)據(jù)粒度以及不一致的數(shù)據(jù)進行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的形式:格式修正;計算值和導出值;度量單位的轉(zhuǎn)化化;日期/時間轉(zhuǎn)化;特征集合轉(zhuǎn);信息的合并;匯總等3、數(shù)據(jù)清洗(Cleaning)數(shù)據(jù)清洗也稱數(shù)據(jù)凈化,主要指對數(shù)據(jù)字段的有效值檢驗。有效值的檢驗通常包括:范圍檢驗;枚舉字段取值;相關(guān)檢驗要求。4、數(shù)據(jù)裝載( Load)數(shù)據(jù)裝載方式:a基本裝載:按照裝載的目標表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標表中去。 b追加:如果目標表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。 c破壞性合并:用新輸入

18、數(shù)據(jù)更新目標記錄數(shù)據(jù)。 d建設性合并:保留已有的記錄,增加輸入的記錄,并標記為舊記錄的替代。數(shù)據(jù)裝載類型:a初始裝載:這是第一次對整個數(shù)據(jù)倉庫進行裝載。 b增量裝載:由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。c完全刷新:這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。5、數(shù)據(jù)處理的有關(guān)討論數(shù)據(jù)庫中的空缺值;不一致的數(shù)據(jù);樣本空間的大小;與分析無關(guān)的數(shù)據(jù)不要裝入數(shù)據(jù)倉庫;數(shù)據(jù)離散化;數(shù)據(jù)規(guī)范化3.6 操作數(shù)據(jù)存儲很多情況下,DB-DW的兩層體系結(jié)構(gòu)并不能涵蓋企業(yè)所有的數(shù)據(jù)處理要求。日常管理和控制決策的問題并不是聯(lián)機事務處理,又算不上高層決策分析,需要企業(yè)全局一致的、細節(jié)的、當前或接近當前的數(shù)據(jù),又

19、需要面向主題、集成的數(shù)據(jù)環(huán)境。因此需要DB-DW之間存在著一個中間層次,即操作型數(shù)據(jù)存儲 ODS(Operational Data Store )。1、ODS和DW的比較(見書P44)3.7數(shù)據(jù)集市(Data Mart)1、數(shù)據(jù)集市:數(shù)據(jù)倉庫是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉庫往往太大,在實際應用中將它們按部門或個人分別建立反映各個子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時我們也稱它為部門數(shù)據(jù)倉庫。2、數(shù)據(jù)集市類型:按照數(shù)據(jù)獲取來源:獨立型:直接從操作型環(huán)境獲取數(shù)據(jù);從屬型:從企業(yè)級數(shù)據(jù)倉庫獲取數(shù)據(jù)。3、數(shù)據(jù)倉庫VS數(shù)據(jù)集市數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫

20、系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來自數(shù)據(jù)倉庫,它是數(shù)據(jù)倉庫中數(shù)據(jù)的一個部分與局部,是一個數(shù)據(jù)的再抽取與組織的過程。注:數(shù)據(jù)集市不是數(shù)據(jù)倉庫數(shù)據(jù)集市并非小的數(shù)據(jù)倉庫多個數(shù)據(jù)集市集合并不構(gòu)成數(shù)據(jù)倉庫第4章 在線分析處理OLAP發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進了聯(lián)機事務處理(OLTP)的發(fā)展 (數(shù)據(jù)以表格的形式而非文件方式存儲)。注:OLTP在線事務處理通常是一個或一組記錄的查詢和修改,用于處理短暫的交易事務。1993年,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。(認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫

21、進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求) 4.1 OLAP簡介聯(lián)機分析處理(OnLine Analysis Processing,OLAP)在數(shù)據(jù)倉庫系統(tǒng)中,聯(lián)機分析處理是重要的數(shù)據(jù)分析工具。OLAP的基本思想是從多方面和多角度以多維的形式來觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。OLAP是獨立于數(shù)據(jù)倉庫的一種技術(shù)概念。當OLAP與數(shù)據(jù)倉庫結(jié)合時,OLAP的數(shù)據(jù)源為數(shù)據(jù)倉庫,數(shù)據(jù)倉庫的大量數(shù)據(jù)是根據(jù)多維方式組織的。1、OLAP的定義OLAP委員會的定義:OLAP(聯(lián)機分析處理)是使分析人員、管理人員或執(zhí)

22、行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。2、OLAP的基本概念維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性。維的層次:人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面。維的成員:維的一個取值。是數(shù)據(jù)項在某維中位置的描述。多維數(shù)組:維和變量的組合表示。一個多維數(shù)組可以表示為: (維1,維2,¡&

23、#173;,維n,變量)數(shù)據(jù)單元(單元格):多維數(shù)組的取值3、超立方結(jié)構(gòu)(Hypercube)多維數(shù)據(jù)集立方體或超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性(收縮超立方結(jié)構(gòu),這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維)。  4、OLAP的特點快速性Fast:用戶對OLAP的快速反應能力有很高的要求??煞治鲂訟nalysis:OLAP系統(tǒng)應能處理與應用有關(guān)的任何邏輯分析和統(tǒng)計分析。多維性Multidimensional:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包

24、括對層次維和多重層次維的完全支持。信息性Information:OLAP系統(tǒng)應能及時獲得信息,并且管理大容量信息。4.2 OLTP VS OLAP(見書P65)4.3 OLAP操作E.F.Codd從可視化角度提出,主要基于統(tǒng)計的方法:切片和切塊(Slice and Dice):切片與切塊的作用是對分析的數(shù)據(jù)進行過濾,使用戶專注于局部數(shù)據(jù)。鉆取(Drill):鉆取能夠幫助用戶獲得更多的細節(jié)性數(shù)據(jù)。 旋轉(zhuǎn)(Rotate):旋轉(zhuǎn)(Pivot)通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。輔之于各種圖形展示分析結(jié)果。1、切片、切塊 (Slice and Dice)多維數(shù)據(jù)是由多個維度組成的,如果在某個維度上選定一個

25、取值,則多維數(shù)據(jù)從n維下降成n-1維。切片與切塊在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有兩個以上,則是切塊。切塊可以看成是在切片的基礎(chǔ)上,確定某一個維成員的區(qū)間得到的片段,也即由多個切片疊合起來。2、鉆取(Drill)鉆取改變維的層次,變換分析的粒度。鉆取有向下鉆取(drill down)和向上鉆?。╠rill up)操作。向下鉆取是使用戶在多層數(shù)據(jù)中能通過導航信息而獲得更多的細節(jié)性數(shù)據(jù),即從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。向上鉆取是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù)。3、旋轉(zhuǎn)(Rotate)通過旋轉(zhuǎn)可以

26、得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當于平面數(shù)據(jù)將坐標軸旋轉(zhuǎn)。例如,旋轉(zhuǎn)可能包含了交換行和列,或是把某一個行維移到列維中去?;蚴前秧撁骘@示中的一個維和頁面外的維進行交換(令其成為新的行或列中的一個)。4.4 OLAP分類(見書P69)1、ROLAPROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP。它是一個平面結(jié)構(gòu),用關(guān)系數(shù)據(jù)庫表示多維數(shù)據(jù)時,采用星型模型、雪花模型。2、MOLAPMOLAP是基于多維數(shù)據(jù)庫存儲方式建立的OLAP;表現(xiàn)為“超立方”結(jié)構(gòu),采用類似于多維數(shù)組的結(jié)構(gòu)。3、ROLAP與MOLAP的比較(見書P71)數(shù)據(jù)存取速度 MOLAP在數(shù)據(jù)存儲速度上性能好數(shù)據(jù)存儲的容量 ROLAP在存儲容量上基本沒有

27、限制多維計算的能力 MOLAP能夠支持高性能的決策支持計算維度變化的適應性 ROLAP對于維表的變更有很好的適應性數(shù)據(jù)變化的適應性 ROLAP中靈活性較好,對于數(shù)據(jù)變化的適應性高軟硬件平臺的適應性 ROLAP對軟硬件平臺的適應性很好元數(shù)據(jù)管理 MOLAP和ROLAP都沒有成形的標準4、HOLAPHOLAP(Hybrid OLAP),即混和型OLAP,介于MOLAP和ROLAP之間。在HOLAP中,對最常用的維度和維層次,使用多維數(shù)據(jù)表來存儲,對于用戶不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來存儲。 HOLAP得宜于ROLAP的可伸縮性,和MOLAP的快速計算。(如MS SQL SERVER)

28、在HOLAP的多維數(shù)據(jù)表中的數(shù)據(jù)維度少于MOLAP中的維度表,數(shù)據(jù)存儲容量也少于MOLAP方式。HOLAP在數(shù)據(jù)存取速度上又低于MOLAP。4.6 OLAP工具目前許多公司已經(jīng)推出了相應的OLAP支持工具:ORACLE;IBM;Business Object;SAS;NCR。第5章 數(shù)據(jù)挖掘 5.1 數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的由來:數(shù)據(jù)爆炸但知識貧乏;網(wǎng)絡之后的下一個技術(shù)熱點;支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ);從商業(yè)數(shù)據(jù)到商業(yè)信息的進化。注:如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識,提高信息利用效率:要學會拋棄信息!2、從商業(yè)數(shù)據(jù)到商業(yè)信息的進化(見書P84)3、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘

29、軟件:獨立的,可以支持少數(shù)幾種數(shù)據(jù)挖掘算法。第二代數(shù)據(jù)挖掘軟件:和數(shù)據(jù)庫系統(tǒng)進行了集成,能夠處理在規(guī)模的數(shù)據(jù),但缺少對業(yè)務的預測能力。第三代數(shù)據(jù)挖掘軟件:增加了預測功能,還可在分布式系統(tǒng)中運行,可挖掘網(wǎng)絡環(huán)境下的數(shù)據(jù)。第四代數(shù)據(jù)挖掘軟件:支持移動計算和各種嵌入式系統(tǒng),擴展了應用領(lǐng)域。4、數(shù)據(jù)挖掘的定義定義:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識并用于決策支持的過程。目的:不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價值的信息,進而獲得利潤。5、數(shù)據(jù)挖掘受多學科影響:數(shù)據(jù)挖掘是一個交叉科學領(lǐng)域,受多個學科影響,包括

30、數(shù)據(jù)庫系統(tǒng)、統(tǒng)計、機器學習、可視化和信息科學。 6、數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法的區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變:數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的; 傳統(tǒng)的數(shù)據(jù)分析方法基于假設驅(qū)動的:一般都是先給出一個假設然后通過數(shù)據(jù)驗證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來 。7、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫8、數(shù)據(jù)挖掘與OLAP完全不同的工具,基于的技術(shù)也大相徑庭OLAP基于用戶假設:a what happened查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么b what next OLAP更進一步告訴你下一步會怎么樣c what if如果我采取這樣

31、的措施又會怎么樣數(shù)據(jù)挖掘本質(zhì)上是一個歸納的過程,不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補性。9、數(shù)據(jù)挖掘模型及流程數(shù)據(jù)挖掘模型:a為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應用,歐洲委員會聯(lián)合一些數(shù)據(jù)挖掘軟件廠商開發(fā)了CRISP-DM。b CRISP-DM(Cross Industry Standard Process for Data Mining)模型,最先在1996年被提出,當前的白皮書版本是1.0。c目的是把數(shù)據(jù)挖掘的過程標準化,使數(shù)據(jù)挖掘項目的實施速度更快、成本更低、更可靠并且更容易管理。10、為保證項目的可靠性和可管理性,CR

32、ISP-DM規(guī)定一個數(shù)據(jù)挖掘項目應該產(chǎn)生11個報告:業(yè)務理解報告;原始數(shù)據(jù)收集報告;數(shù)據(jù)描述報告;數(shù)據(jù)探索報告;數(shù)據(jù)質(zhì)量報告;數(shù)據(jù)集描述報告;模型訓練報告;模型評估報告;部署計劃;監(jiān)控和維護計劃;總結(jié)報告。通過這些報告,可以有效地控制數(shù)據(jù)挖掘項目進程,減少開發(fā)風險。11、數(shù)據(jù)挖掘的過程(見書P85圖)數(shù)據(jù)挖掘過程的分步實現(xiàn),不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:A業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求。B數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇

33、合適的技術(shù)。C數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。數(shù)據(jù)挖掘是一個多領(lǐng)域?qū)<液献鞯倪^程,也是一個在資金上和技術(shù)上高投入的過程。注:數(shù)據(jù)挖掘過程要反復進行,在反復過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)化問題的解決方案。5.2 數(shù)據(jù)挖掘的應用及其發(fā)展1、數(shù)據(jù)挖掘的應用數(shù)據(jù)挖掘技術(shù)的產(chǎn)生本身就有其強烈的應用需求背景,它從一開始就是面向應用的。具體涉及數(shù)據(jù)挖掘的商業(yè)問題:數(shù)據(jù)庫營銷(Database Marketing);客戶群體劃分(Customer Segmentation & Classification);背景分析(Profile Analysis);交叉銷售

34、(Cross-selling);客戶流失分析(Churn Analysis);客戶信用評分(Credit Scoring);欺詐甄別(Fraud Detection)2、數(shù)據(jù)挖掘的未來發(fā)展趨勢未來的熱點應用領(lǐng)域:網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining);生物信息或基因的數(shù)據(jù)挖掘;文本挖掘(Textual mining);多媒體挖掘。5.3 數(shù)據(jù)預處理1、數(shù)據(jù)清理數(shù)據(jù)清理的內(nèi)容:修補空缺值,識別出數(shù)據(jù)中的孤立點、去除噪聲,消除數(shù)據(jù)中的不一致。常用的數(shù)據(jù)清理方法:聚類;空值處理;冗余和重復。2、空值處理有些記錄的值可能空缺,或者某一個屬性可能會有大量的空缺值。a對第一種情況,可以

35、不使用這些記錄;b對第二種情況,可以丟棄這個屬性。 另一種處理空缺值的方法是歸咎(imputation)。可以使用一些相關(guān)技術(shù)(復雜度逐漸增加):a從別的記錄中隨機抽取一個值添入。b取其他記錄中對應屬性的最頻值,中間數(shù)或平均數(shù)。c對其他記錄中這個屬性的值分布做一個統(tǒng)計模型,然后根據(jù)分布情況,隨機選一個值。d試圖用統(tǒng)計或挖掘技術(shù)從相似記錄的值中預估空缺值。3、數(shù)據(jù)挖掘算法聚類分析;分類分析;關(guān)聯(lián)分析;序列模式挖掘;回歸分析;時間序列分析。5.4 聚類分析1、聚類分析的概念類是指相似對象的集合。 聚類是把對象或樣本的集合分組成為多個簇(類)的過程,使同一個組中的對象具有較高的相似度,而不同類型的對

36、象差別較大。聚類是一種無監(jiān)督分類法: 沒有預先指定的類別; 2、聚類問題的數(shù)學描述給定數(shù)據(jù)集合V,根據(jù)數(shù)據(jù)對象間的相似程度將數(shù)據(jù)集合分成組,并滿足: 則該過程稱為聚類。Ci稱為簇。3、聚類分析的統(tǒng)計量通過引進一些表示樣本間相似程度的度量標準把性質(zhì)相似的對象歸為一類,這些度量標準稱為聚類統(tǒng)計量。距離和相似系數(shù)是經(jīng)常采用的聚類統(tǒng)計量。 距離:a連續(xù)值數(shù)據(jù)常用的距離度量方法:歐幾里德距離;曼哈坦距離;明考斯基距離;切比雪夫距離。b其他數(shù)據(jù)類型的距離度量方法:可分類變量、二元變量、標稱變量、序數(shù)型變量和文本等。a連續(xù)值數(shù)據(jù)常用的距離度量方法:b其它類型變量常用距離度量方法:二元變量:變量的取值只有兩個

37、狀態(tài),如性別,表示是否吸煙,醫(yī)療檢查正常還是不正常等。 i和j是兩個變量:q是兩個變量中都為1的個數(shù) t是兩個變量中都為0的個數(shù) s是i變量中為0,j中為1的個數(shù) r是i變量中為1,j中為0的個數(shù)(1)二元變量權(quán)重相同(對稱的,如性別)即:分子為兩者相異的總數(shù),分母為二元變量總數(shù)(2)二元變量權(quán)重不同(非對稱的) 例如,一個疾病化驗結(jié)果正常和不正常,對一個群體,正常者總是大多數(shù),我們用1表現(xiàn)幾率小的 情況,0表示另一種情況。 評價系數(shù),Jaccard系數(shù)即:兩個相異的數(shù)量作為分子,相異的數(shù)量加兩個為1的數(shù)量作為分母。(同對稱二元變量相比,兩個同為0的數(shù)量不出現(xiàn)在分母中)相似系數(shù):對于連續(xù)型數(shù)據(jù)

38、,常用的相似系數(shù)Cij 有夾角余弦和相關(guān)系數(shù)等。4、常用聚類算法聚類目標: 將一個包含n個數(shù)據(jù)對象的數(shù)據(jù)庫組織成k個劃分(k<=n),其中每個劃分代表一個簇。常用算法:a基于劃分的聚類分析算法:k-means;k-modes;k-prototypesb基于層次的聚類分析算法c其它聚類分析算法 1)基于劃分的聚類分析算法A、k-means算法:k-means算法是常見的基于劃分的聚類方法,其中相異度基于對象與類中心(簇中心)的距離計算,與簇中心距離最近的對象可以劃為一個簇。此算法目標是每個對象與簇中心距離的平方和最小。(1)把n個對象分為k個簇,是簇內(nèi)具有較高的相似度,而簇間的相似度較底。

39、相似度的計算根據(jù)一個簇中對象的平均值(重心)來進行。(2)流程:首先,隨機的抽取k個對象,每個對象初始地代表一個簇的平均值。對剩余的每個對象,根據(jù)與各個簇中心的距離,將它賦給最近的簇。然后重新計算各個簇的平均值。過程不斷反復,直到準則函數(shù)收斂。一般采用平方誤差準則:這里,p是空間的點,表示給定的對象,mi是簇Ci的平均值。B、k-modes算法:k-modes算法把k-means算法擴展到可分類數(shù)據(jù),用一個簡單的相異度測量對數(shù)據(jù)進行聚類。假設X,Y是數(shù)據(jù)集中的兩個對象,它們用m維屬性描述,則這兩個對象之間的相異度為:(1)k-modes算法根據(jù)可分類屬性值出現(xiàn)的頻率更新聚類中心,聚類中出現(xiàn)頻率

40、最高的屬性值被選為聚類中心,即modes(類模式)。(2)k-modes算法不斷更新modes,使得所有對象與其最近modes的相異度總和最小:首先計算每一簇在某一屬性值的對象所占百分數(shù)。然后,取每個簇中頻率最大的一個屬性值作為類模式Q。分別對每個屬性進行上述計算,最后得到類模式Q,即初始聚類中心。k-modes算法與k-means的步驟類似: 預先定義好k類,確定各個類的初始類模式Q。 根據(jù)類模式Q把每個對象賦給最近鄰的類,然后更新類模式Q。 不斷重復,直到不再發(fā)生變化為止。C、k-prototypes算法(1)在實際應用中,數(shù)據(jù)可能是數(shù)值型的,同時也有可分類型的。k-prototypes算

41、法綜合了k-means和k-modes算法,采用新的距離度量方法,能夠快速處理混合類型數(shù)據(jù)集的聚類問題。(2)k-prototypes算法的聚類中心由數(shù)值型數(shù)據(jù)的聚類中心和可分類數(shù)據(jù)的聚類中心兩部分加權(quán)組成,其中數(shù)值型屬性的聚類中心和k-means算法類似,通過計算數(shù)值型屬性的平均值得到。而可分類型屬性的中心采用類似k-modes算法聚類中心的更新方式,通過計算可分類屬性值出現(xiàn)的頻率確定。2)基于層次的聚類分析算法(1)凝聚的層次聚集:自底向上的策略首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在某個簇中,或者終結(jié)條件滿足。(2)分裂的層次聚類:自頂向下,首先將所

42、有對象置于一個簇中,然后逐漸細分為越來越小的簇,直到每個對象自成一個簇或者達到了某個終結(jié)條件。(達到希望的簇數(shù)或兩個簇之間的距離超過了某個閥值)3)其它聚類分析算法:基于密度的方法;基于網(wǎng)格的方法;基于模型的聚類。注:每種方法都有各自的優(yōu)缺點,適用范圍也有限。選擇哪種聚類方法,需要考慮實際的應用需求、簇的類型與特征、數(shù)據(jù)的特性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集的規(guī)模(樣本個數(shù)、樣本屬性個數(shù))等因素。5、 聚類分析的典型應用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布;偏離(異常)檢測;作為其它算法的一個數(shù)據(jù)預處理步驟。5.5 分類分析與回歸分析分類和回歸都屬于預測建模,是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)

43、據(jù)類的模型或預測未來的數(shù)據(jù)趨勢。一般認為:a預測數(shù)值數(shù)據(jù)歸屬于哪個類稱為分類;b預測連續(xù)屬性取值為回歸。1、分類分析分類要解決的問題是為一個事件或?qū)ο髿w類,即確定一個特定的對象屬于哪一類。分類就是通過分析訓練集(決策表)中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)對象進行分類。注:訓練集:用于建立模型的數(shù)據(jù)稱為訓練集,通常是已經(jīng)掌握的歷史數(shù)據(jù)。2、數(shù)據(jù)分類的步驟數(shù)據(jù)準備:數(shù)據(jù)清理;相關(guān)性分析;數(shù)據(jù)變換。建立模型:建立模型,描述預定的數(shù)據(jù)類,通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。模型評估:評估模型的預測正確率。使用模型分類。3、數(shù)據(jù)分類的方法

44、貝葉斯分類器;決策樹;支持向量機;BP神經(jīng)網(wǎng)絡;其它分類方法4、決策樹決策樹是一個樹形的結(jié)構(gòu),由決策結(jié)點、分枝和葉子結(jié)點組成。a內(nèi)部結(jié)點表示一個屬性上的測試b每個分枝都表示一個測試輸出c葉子節(jié)點表示一個類一個電器銷售商根據(jù)數(shù)據(jù)庫的數(shù)據(jù)分析概念 “買計算機”,構(gòu)造的決策樹。使用決策樹進行分類的過程決策樹算法:A、常用算法:a ID3、C4.5 ;b SLIQ、SPRINT等B、基本算法(貪心算法):a自上而下分而治之的方法;b開始時所有的實例都在根節(jié)點;c屬性都是分類型 (如果是連續(xù)的,將其離散化);d所有記錄用所選屬性遞歸的進行分割。e屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計的度量 (如信息

45、增益)決策樹的屬性選擇f屬性選取是決策樹算法中重要的步驟,一般需要最大程度地增加樣本集的純度,而且不要產(chǎn)生樣本數(shù)量太少的分枝。決策樹的屬性選擇a屬性選取是決策樹算法中重要的步驟,一般需要最大程度地增加樣本集的純度,而且不要產(chǎn)生樣本數(shù)量太少的分枝。b常見屬性選擇標準:信息增益;基尼指數(shù);其它A、信息增益(information gain)(1)計算給定的樣本分類的期望信息設S是有s個數(shù)據(jù)樣本的集合。假定類標號屬性具有m個不同的值,定義m個不同類Ci(i=1,m)。設si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需要的期望信息由下式給出:注:其中pi是任意樣本屬于Ci的概率,一般用si/s估計代替

46、pi(2)計算由A劃分為子集的熵 設屬性A有v個不同值a1,a2,av??梢愿鶕?jù)屬性值將S劃分為v個子集S1,S2,Sv;sij是子集Sj中類Ci的樣本數(shù)。由A劃分成子集的熵(期望信息)為:(3)計算A作為分枝屬性的信息增益注:決策樹如何分枝?計算屬性的信息增益,取最大的信息增益分枝。B、基尼指數(shù)(Gini Index)(1)集合T包含n個類別的記錄,那么其Gini指數(shù)是pj 類別j出現(xiàn)的頻率(2)如果集合T分成兩部分 N1 and N2 。那么這個分割的Gini就是(3)提供最小Ginisplit 就被選擇作為分割的標準。決策樹的過擬合問題注:避免過擬合;決策樹泛化。決策樹的剪枝目的:消除決

47、策樹的過擬合問題。實質(zhì):消除訓練集中的異常和噪聲。兩種剪枝方法:先剪枝法;后剪枝法。5、貝葉斯分類器統(tǒng)計學的方法,可以預測類成員關(guān)系的可能性,即給定樣本屬于一個特定類的概率。貝葉斯定理假設X和Y在分類中可以分別表示樣本的屬性集和類別。X和Y的聯(lián)合概率和條件概率滿足下列關(guān)系:注:P(X,Y)表示X,Y的聯(lián)合概率p(X|Y) 和p(Y|X)表示條件概率p(Y|X)是Y后驗概率,表示條件X下Y的概率p(Y)稱為Y的先驗概率變換后得到6、樸素貝葉斯分類器每個數(shù)據(jù)樣本用一個n維特征向量X=x1,x2,xn表示,分別描述對n個屬性A1,A2,.,An樣本的n個度量。 假定有m個類C1,,Cm,對于數(shù)據(jù)樣本

48、X,分類法將預測X屬于類Ci,當且僅當: P(Ci|X)> P(Cj|X),1<=j<=m, j不等于i根據(jù)貝葉斯定理: P(Ci|X)=P(X|Ci)P(Ci)/P(X) 由于P(X)對于所有類都是常數(shù),只需最大化P(X|Ci)P(Ci) 計算P(X|Ci),樸素貝葉斯分類假設類條件獨立。即給定樣本屬性值相互條件獨立。(在一般情況下此假定都能成立)在使用中,p常用頻度代替。7、其它分類方法:支持向量機;神經(jīng)網(wǎng)絡方法;以及在商品化的數(shù)據(jù)挖掘中用的較少的:k_最鄰近分類;遺傳算法;粗糙集合方法;模糊集方法。8、回歸分析回歸分析(regression analysis)是一種基本

49、的統(tǒng)計分析方法,它已被廣泛地應用于數(shù)據(jù)挖掘領(lǐng)域。分析一個變量與其他一個(或幾個)變量之間的相關(guān)關(guān)系的統(tǒng)計方法就稱為回歸分析?;貧w分析主要內(nèi)容包括確定連續(xù)值變量之間的相關(guān)關(guān)系,建立回歸模型,檢驗變量之間的相關(guān)程度,應用回歸模型對變量進行預測等。 回歸分析的分類:a按涉及的自變量個數(shù):一元回歸分析;多元回歸分析。b按自變量和因變量間的關(guān)系:線性回歸分析;非線性回歸?;貧w分析的步驟:a確定因變量和影響因素(自變量)。b繪制散點圖,觀察變量的大致關(guān)系。c求回歸系數(shù),并建立回歸模型。d檢驗回歸模型。e進行預測。 9、回歸預測預測是回歸模型最重要的應用,回歸預測包括點預測和區(qū)間預測?;貧w點預測是指對于給定

50、的變量值x0,用回歸值作為變量y的預測值y0。然而現(xiàn)實中實際值與預測值總會產(chǎn)生偏移,因此還需要得到可能偏離的范圍以提高預測的可靠程度,這稱為區(qū)間預測,即以一定的概率預測y0附近的變動范圍。5.6 關(guān)聯(lián)分析1、關(guān)聯(lián)規(guī)則相關(guān)術(shù)語:a項:集合I=i1,i2,,im為標識符的集合,其中m為正整數(shù),ik(k=1,2,,m)稱為項目。b項集:在數(shù)據(jù)庫中出現(xiàn)的屬性值的集合。K_項集:包含K個項的項集。c頻繁項集:滿足最小支持度要求的項集。d關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是形如X->Y的規(guī)則,其中X,Y為項目集且XÇY=Æ。例:(超級市場)在購買商品A的客戶中有部分人會同時購買商品B,則可用關(guān)聯(lián)

51、規(guī)則表示為:A=>B(support,confidence)關(guān)聯(lián)規(guī)則度量標準:a支持度(Support):同時購買A和B的客戶人數(shù)占總客戶數(shù)的百分比稱為規(guī)則的支持度。b置信度(Confidence):同時購買A和B的客戶人數(shù)占購買A的客戶人數(shù)的百分比稱為規(guī)則的置信度。注:在實際應用中,概率P一般無法事先給出,所以常以頻度代替有意義的關(guān)聯(lián)規(guī)則:a 為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個閾值:最小支持度和最小置信度。b關(guān)聯(lián)規(guī)則挖掘的實質(zhì)是在數(shù)據(jù)集合中尋找滿足用戶給定的最小支持度和最小置信度的規(guī)則。關(guān)聯(lián)規(guī)則挖掘問題的分解給定數(shù)據(jù)庫D,關(guān)聯(lián)規(guī)則的挖掘就是找出所有存在于數(shù)據(jù)庫D中的強關(guān)聯(lián)規(guī)則。因

52、此整個關(guān)聯(lián)規(guī)則挖掘過程可以分解為以下兩個子問題:a找出所有的頻繁項目集;b根據(jù)找到的頻繁項目集導出所有的強關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則分類:a 根據(jù)規(guī)則中所處理的值類型:布爾關(guān)聯(lián)規(guī)則;量化關(guān)聯(lián)規(guī)則。b 根據(jù)規(guī)則中所涉及的數(shù)據(jù)維:單維關(guān)聯(lián)規(guī)則;多維關(guān)聯(lián)規(guī)則。根據(jù)規(guī)則中所涉及的抽象層A 一般采用自頂向下策略,由概念的頂層開始向下,到較低的更特定的概念層,對每個概念層的頻繁集累加計數(shù),直到不能再找到頻繁項集。B 對于所有層使用一致的最小支持度注:因為較低層次抽象的項不大可能像較高層次抽象的項出現(xiàn)得那么頻繁。如果最小支持度閥值設置的太高,可能丟掉出現(xiàn)在較低抽象層次中有意義的關(guān)聯(lián)規(guī)則。如果閥值設置太低,可能會出現(xiàn)

53、在較高抽象層的無興趣的關(guān)聯(lián)規(guī)則。注:在較低層使用遞減的最小支持度2、Apriori算法(見書P139) Lk:k項頻繁集的集合; Ck:k項集的候補集合步驟1.連接: 用 Lk-1自連接得到Ck,(k>2) 設L1,L2是兩個有k-1個有序項的項集,Lji代表k-1個項的第i項(j=1,2; i=1,2,k-1)。L1和L2是可連接的L1XL2,需滿足: L11=L21 ,L12=L22,.,L1k-2=L2k-2, L1k-1 L2k-1,產(chǎn)生的項是: L11L12.L1k-2L1k-1L2k-1(Lji是有序的)例:L1=A,B,C , L2=A,B,D,L3=A,C,F則:L1 X

54、 L2=A,B,C,D L1 X L3,L2 X L3均為空2.修剪: 一個k-項集,如果它的一個k-1項子集不是頻繁的,那它本身也不可能是頻繁的。 Apriori 的性能瓶頸A、Apriori算法的核心:a用頻繁的(k-1)_項集生成候選的頻繁 k_項集b用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度B、Apriori 的瓶頸:候選集生成a巨大的候選集:104 個頻繁1_項集要生成 107 個候選 2_項集要找尺寸為100的頻繁模式,如 a1, a2, ¡­, a100, 你必須先產(chǎn)生2100 » 1030 個候選集(1_項集)b多次掃描數(shù)據(jù)庫:如最長的模式是n的話,則需要n次數(shù)據(jù)庫掃描注:為提高Apriori算法的性能,有許多改進的算法。3、其他關(guān)聯(lián)規(guī)則算法FP樹;約束性關(guān)聯(lián)規(guī)則挖掘算法;增量式關(guān)聯(lián)規(guī)則挖掘算法;多層關(guān)聯(lián)規(guī)則挖掘。5.6 序列模式分析序列模式的發(fā)現(xiàn)是由RAgrawal于1995年首先提出的。序列模式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論