版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
【專題】商務(wù)智能
1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?
對企業(yè)本身而言,商務(wù)智能是指一種能力,即通過智能地使用企業(yè)的數(shù)據(jù)財產(chǎn)(知本)來制定更好的商務(wù)決策。從本質(zhì)上講,商務(wù)智能是幫助企業(yè)提高決策能力和運營能力的方法、過程以及軟件的集合,其主要目標是將企業(yè)所掌握的信息轉(zhuǎn)換成競爭優(yōu)勢,提高企業(yè)決策能力、決策效率、決策準確性。商務(wù)智能幫助識別、理解公司的運營數(shù)據(jù),將其轉(zhuǎn)化成為高價值的可以獲取的信息(或者知識),并且在恰當?shù)臅r候、通過恰當?shù)姆绞?、把恰當?shù)男畔?、傳遞給恰當?shù)娜恕?.1“商務(wù)智能”的本質(zhì)
商務(wù)智能(BusinessIntelligence,BI)已經(jīng)成為企業(yè)創(chuàng)造更多盈利的關(guān)鍵。商務(wù)智能能夠讓企業(yè)從現(xiàn)有的“知本”中提煉更多的有價值的知識。BI已經(jīng)緊緊地與“知本”和“知識”結(jié)合在一起,牢不可分。
生產(chǎn)“商務(wù)智能”的”原材料”和”產(chǎn)品”1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?
簡單的報告和查詢在線分析處理(OLAP)經(jīng)理信息系統(tǒng)(EIS)
數(shù)據(jù)挖掘外網(wǎng)1.2商務(wù)智能應(yīng)用層次去年我們X產(chǎn)品的銷售量是多少?我們擁有多少客戶?用戶向系統(tǒng)提出的問題是:“告訴我發(fā)生了什么”。我們的產(chǎn)品在哪個國家獲得了最大的成功?哪部分客戶購買了我們的絕大部分產(chǎn)品?用戶在簡單報告的基礎(chǔ)上,進一步提出更多問題。預(yù)測哪種客戶最有可能購買我們的新產(chǎn)品。市場營銷戰(zhàn)略更為有針對性,成本降低。用戶的問題是:“告訴我未來會發(fā)生什么”。1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?中國大多數(shù)企業(yè)進行商務(wù)智能項目試驗時,也是從部署部門戰(zhàn)略開始的。試驗期大約6~12個月。西方企業(yè)大約10年前開始部署部門商務(wù)智能部門商務(wù)智能現(xiàn)已涵蓋了企業(yè)的某一業(yè)務(wù)領(lǐng)域,如生產(chǎn)、人力資源或財務(wù)西方企業(yè)用了大約5年時間建立了企業(yè)級的商務(wù)智能系統(tǒng)及其外網(wǎng)1.3商務(wù)智能應(yīng)用發(fā)展1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?這些問題的答案都在業(yè)務(wù)流程和數(shù)據(jù)中。業(yè)務(wù)運行離不開數(shù)據(jù),業(yè)務(wù)和數(shù)據(jù)的聯(lián)系形成信息,而信息造就智能。1.4“商務(wù)智能”從何而來?(1)“商務(wù)智能”從業(yè)務(wù)及其數(shù)據(jù)得來企業(yè)如何才能獲得所要求的智能?企業(yè)如何利用智能來培養(yǎng)客戶的忠誠度并使企業(yè)盈利?企業(yè)怎樣才能在競爭中勝出?例如,美國阿肯色州小石城的一位消費者花14.95美元在網(wǎng)站上購買了一張埃爾頓·約翰(EltonJohn)的CD唱片,它導(dǎo)致交易數(shù)據(jù)庫中的一項記錄(數(shù)據(jù))。1.4“商務(wù)智能”從何而來?
數(shù)據(jù)——未經(jīng)加工和修飾的原料(2)數(shù)據(jù)、信息和智能例如,從小石城那位消費者購買CD唱片的數(shù)據(jù),可聯(lián)合其它數(shù)據(jù)得到顧客性別、收入對埃爾頓·約翰CD唱片的購買情況(信息),它是業(yè)務(wù)人員對采集來的原始數(shù)據(jù)進行提煉、分選、聯(lián)合得來的。這些信息可以用來分析產(chǎn)品的盈利性、未來購買趨勢等。(2)數(shù)據(jù)、信息和智能1.4“商務(wù)智能”從何而來?信息——含有一定商務(wù)價值和意義的數(shù)據(jù)例如,唱片公司的一些營銷人員在分析了一個月的購買記錄后,發(fā)現(xiàn)新版埃爾頓·約翰唱片最受歐洲“嬰兒潮”中出生的人群所歡迎(智能)。公司便采取措施直接針對這類消費群體進行市場促銷(智能應(yīng)用),從而將倉庫中積壓的埃爾頓·約翰的舊作推銷一空。1.4“商務(wù)智能”從何而來?(2)數(shù)據(jù)、信息和智能智能——對信息、過去的行為以及未來預(yù)測進行完整評價的基礎(chǔ)上發(fā)現(xiàn)的業(yè)務(wù)規(guī)律,及其指導(dǎo)業(yè)務(wù)實踐的活動。1.4“商務(wù)智能”從何而來?從數(shù)據(jù)產(chǎn)生智能的過程-小案例菲亞特公司一直從兩個供應(yīng)商A和B手中購買凸型螺帽,并把關(guān)于從兩處購買的螺帽的數(shù)量和價格的“數(shù)據(jù)”分別存放在兩個數(shù)據(jù)庫中。當兩個數(shù)據(jù)庫結(jié)合在一起時,數(shù)據(jù)就成了“信息”。信息表明供應(yīng)商A比供應(yīng)商B提供的螺帽單價多了0.1美元。采購人員了解了這一情況,便產(chǎn)生了集體“智能”,調(diào)整采購策略,從而為公司節(jié)省了巨大的開支。①商務(wù)智能技術(shù)應(yīng)用面臨的問題②有用信息(知識)的表達方法—智能的根本:商務(wù)規(guī)律③分析器的兩種形式—獲取知識的工具1.4“商務(wù)智能”從何而來?(3)商務(wù)智能應(yīng)用的關(guān)鍵6.2數(shù)據(jù)挖掘應(yīng)用技術(shù)■對企業(yè)決策者來說,什么是潛在有用的信息?■有用信息如何表達?更進一步說如何規(guī)范化表達?■有用信息如何獲得?1.4“商務(wù)智能”從何而來?①商務(wù)智能技術(shù)面臨的問題有用信息的自然描述-事實(Fact)對一個企業(yè)決策者來說,“有用信息”實際上是從“行數(shù)據(jù)”中總結(jié)出來的一些“事實”。1.4“商務(wù)智能”從何而來?②有用信息(知識)表達的方法(事實與規(guī)則)“…我公司1997年全年的鋼材產(chǎn)量完全達到了國家的計劃要求。從總的銷售情況來看,基本上完成了全年的銷售計劃,全年實現(xiàn)銷售利稅500億元。當然,個別品種我們尚未打開市場,如造船板。在取得成績的同時,我們也應(yīng)看到如下事實,即我們的產(chǎn)品幾乎都銷往東北地區(qū),其它地區(qū)的市場占有率幾乎全部喪失,個別地區(qū),如廣東、海南地區(qū)甚至不足1%。…”1.4“商務(wù)智能”從何而來?有用信息的自然描述例在這段報告中我們注意到如下“有用信息”的表達方式:■1997年全年鋼材產(chǎn)量完全達到了國家計劃要求。■銷售基本上完成了上一年的銷售計劃?!霎a(chǎn)品幾乎都銷往東北地區(qū)?!鰝€別地區(qū),如廣東、海南地區(qū)市場占有率甚至不足1%。1.4“商務(wù)智能”從何而來?有用信息的自然描述(事實)例(續(xù))觀察下面的產(chǎn)品按地區(qū)的銷售情況表:我們得出以下結(jié)論(事實):1998年2月大部分銷售都集中在東北地區(qū)1.4“商務(wù)智能”從何而來?有用信息的規(guī)范化描述—規(guī)則總結(jié)有用信息的表達方式,我們得到下面的有用信息(知識)的規(guī)范化表達方式為:IF條件THEN結(jié)論(確信度,支持行數(shù))■確信度(Confidence):所關(guān)注列具有相同值的結(jié)論行值占所查詢行值總計的百分比。■支持行數(shù):滿足此模式條件的行數(shù)。
1.4“商務(wù)智能”從何而來?“規(guī)則”的一般形式■固定格式的分析器■事實發(fā)現(xiàn)器(規(guī)則發(fā)現(xiàn)器)數(shù)據(jù)固定格式分析器事實發(fā)現(xiàn)器用戶1.4“商務(wù)智能”從何而來?③從“數(shù)據(jù)”得到“知識”的分析器有兩種形式
事實發(fā)現(xiàn)器有時稱為“事實搜索引擎”,它是從數(shù)據(jù)中搜索商業(yè)事實(規(guī)則)的搜索工具。
1.4“商務(wù)智能”從何而來?“事實發(fā)現(xiàn)器”是商務(wù)智能的核心!1.1“商務(wù)智能”的本質(zhì)1.2商務(wù)智能應(yīng)用層次1.3商務(wù)智能應(yīng)用發(fā)展1.4“商務(wù)智能”從何而來?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能1什么是商務(wù)智能?BI市場分析員銷售經(jīng)理采購經(jīng)理他們在日常商務(wù)工作中會提出哪些問題?他們?nèi)绾卫蒙虅?wù)智能工具有效解決這些問題?1.5案例:三類典型業(yè)務(wù)管理中的商務(wù)智能(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
離本財務(wù)季度完結(jié)還剩下4周的時間,按照慣例,全美銷售部門副總經(jīng)理羅伯特需要向其上司——全美銷售部門總經(jīng)理進行工作匯報,他關(guān)心的首要話題總是:本財務(wù)季度的銷售狀況如何?為了準備這次匯報,羅伯特借助商務(wù)智能工具,做了如下工作:全美地區(qū)銷售數(shù)據(jù)第幾周123456789101112銷售指標250預(yù)計收入130135140145152160170185202訂貨額515305080120130150175預(yù)計收入/銷售指標52%54%56%58%61%64%68%74%81%訂貨額/銷售指標4%11%21%34%53%75%76%81%87%
(1)瀏覽定時自動更新的全美銷售周報表,查看銷售預(yù)測、銷售指標和訂貨額等指標的狀態(tài)。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(周)153.519920%21%運營預(yù)算支出成本計劃運營利潤實際運營利潤(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
從銷售報表中可以清楚看到:銷售預(yù)測數(shù)據(jù)低于本財務(wù)季度的銷售指標執(zhí)行花費低于本財務(wù)季度的預(yù)算訂貨情況與銷售預(yù)測相吻合(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
東部地區(qū)銷售數(shù)據(jù)第幾周123456789101112銷售指標80預(yù)計收入242529323638414345訂貨額136101626323842預(yù)計收入/銷售指標30%31%36%40%45%48%51%54%56%訂貨額/銷售指標4%12%21%31%44%68%78%88%93%(2)羅伯特進一步了解了全美各地區(qū)(東部、中部和西部)的銷售細節(jié)。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
年份:2000季度:第一季度地區(qū):東部單位:100萬美元376419%18%東部運營預(yù)算東部支出成本預(yù)計運營利潤實際運營利潤從宏觀到微觀的分析轉(zhuǎn)換——“下鉆”(Drilldown)反之,從微觀到宏觀的轉(zhuǎn)換——“上鉆”(Drillup)(周)(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
觀察數(shù)據(jù)中的某一層面——切片(Takingaslice)(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(3)羅伯特決定根據(jù)銷售渠道(直接銷售和間接銷售)了解各地區(qū)的主要表現(xiàn)指標(包括訂貨情況、預(yù)計收入、銷售指標、項目執(zhí)行支出等)。銷售信息立方體
銷售地區(qū)東部中部西部銷售渠道間接直接財政季度第4季度第3季度第2季度第1季度切片分析表明:預(yù)測銷售的下降起源于銷售渠道中的直接銷售方面。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
根據(jù)某一特定季節(jié)進行的切片分析根據(jù)某一特定銷售地區(qū)進行的切片分析
銷售地區(qū)銷售渠道
財政季度
銷售地區(qū)銷售渠道
財政季度決策者不但要了解主要的業(yè)務(wù)指標,還要按照地區(qū)、銷售渠道和時間范圍等不同視角去了解業(yè)務(wù)各指標的情況——多維分析(Multidimensionalanalysis)切片分析表明:東部地區(qū)的銷售預(yù)測比較低。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(4)羅伯特通過進一步“鉆取”,查看了東部地區(qū)每一位銷售代表的訂貨情況和銷售預(yù)測。但是這一項工作對他并沒有什么幫助。每一位銷售代表的業(yè)績都達到或接近他們的銷售指標,這樣并不能解釋為什么銷售預(yù)測比較低。東部地區(qū)個人直銷數(shù)據(jù)銷售代表銷售指標預(yù)計收入訂貨額預(yù)計收入/銷售指標訂貨額/銷售指標Sarah3.53.73.5106%100%Andrew1.52.02.9133%193%Alex2.52.62.5104%100%Michelle1.01.11.0110%100%Chole4.55.04.9111%109%Taphael1.01.51.4150%140%Max4.04.14.0103%100%Ryan2.02.12.0105%100%Keeton1.01.51.3150%130%Stephanie5.05.15.0102%100%Jenniter2.02.12.0105%100%Abigail1.01.01.0100%100%Isabel6.05.64.893%80%Theodore1.00.80.680%60%(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(5)羅伯特發(fā)現(xiàn)東部地區(qū)的執(zhí)行花費維持在一個比較低的水平。由于銷售地區(qū)的銷售費很大程度上取決于推銷隊伍的工資。因此,他懷疑可能是雇傭的推銷人員不足導(dǎo)致了銷售費用和預(yù)計利潤的低下。于是,他建立了一個能夠按月顯示東部地區(qū)最近兩個財務(wù)季度的預(yù)計人員和實際人員的對照表。東部地區(qū)預(yù)算人員和實際人員的對照圖(單位:人)分析得到:東部雇傭銷售人員費用的下降以及雇傭地銷售人員人數(shù)的不足導(dǎo)致了銷售預(yù)測的下降。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(6)羅伯特利用鉆取的方法按州查看同樣的指標,報告顯示其他三個州也同樣存在銷售人員短缺的問題。他與東部地區(qū)的銷售經(jīng)理通了電話后,這個分析結(jié)果得到了肯定。(一)某玩具公司管理中的商務(wù)智能-銷售經(jīng)理
(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
露茜是一家銀行信用卡部門的市場分析員,她的工作是確定市場促銷的目標及其前景。由于爭取新客戶的費用遠遠大于穩(wěn)定現(xiàn)有顧客的成本,因此露茜必須確定此次促銷活動最理想的客戶群體。她關(guān)心的第一個問題是:常客們是否是銀行的受益顧客?為了回答這個問題,露茜做了以下工作。(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
(1)制定標準,劃定對象范圍。??椭傅氖敲吭轮辽偈褂靡淮涡庞每ǖ念櫩?。受益顧客是指為銀行帶來最好回報的顧客,特別是那些有透支行為,但通常在30~60天之內(nèi)就支付透支額的顧客。受益顧客他們既為銀行帶來了利息收入又帶來了滯納金。(2)利用商務(wù)智能工具,建立一個能夠顯示那些既是???,又是受益顧客的用戶清單報告,即收益顧客與??偷慕患糠?。受益顧客與??偷臄?shù)量比較報告72051760825124??褪芤骖櫩皖櫩头诸愵櫩腿藬?shù)常客76082受益顧客72051(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
報告表明,銀行所喜歡的顧客,一般來講并不是那些使用信用卡的???。因此露茜制定的促銷策略為:針對受益顧客進行促銷,努力提高他們的信用卡使用頻率,使其成為常客。(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
(3)受益顧客的數(shù)量超過72000位,但露茜的促銷預(yù)算只允許達到36000位顧客(她想送給每一位目標客戶一個價值1.25美元的促銷袋)。因此,露茜迎來了第二個問題:促銷應(yīng)針對哪一部分受益顧客?露茜利用商務(wù)智能工具得到了顧客特征的精確描述,同時也確定了辨別受益顧客的重要因素。數(shù)據(jù)挖掘報告——決策樹401709個記錄帳戶平衡:24378960.7%延遲60天:8586921.4%延遲30天:7205117.9%婚姻狀況=寡居36519個記錄帳戶平衡:789621.6%延遲60天:1677945.9%延遲30天:1188432.4%婚姻狀況=獨身65142個記錄帳戶平衡:1974030.3%延遲60天:987015.2%延遲30天:3553254.5%婚姻狀況=已婚300048個記錄帳戶平衡:21615372.0%延遲60天:5922019.7%延遲30天:246758.2%居住情況=租房42441個記錄帳戶平衡:9872.3%延遲60天:592214.0%延遲30天:3553283.7%居住情況=自有房屋22701個記錄帳戶平衡:1875382.6%延遲60天:394817.4%月可支配收入938美元6909個記錄帳戶平衡:98714.3%延遲60天:592285.7%月可支配收入938美元35532個記錄延遲30天:35532100%帳戶平衡延遲60天延遲30天(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
這里所應(yīng)用的決策樹技術(shù)是“數(shù)據(jù)挖掘”中的一種自動數(shù)據(jù)分析算法。數(shù)據(jù)分析算法可以在人們不可見、不可估測的情況下,通過一些復(fù)雜的算法,對專門組織的歷史數(shù)據(jù)進行挖掘分析,得到有價值的信息。同時,數(shù)據(jù)挖掘還提供“描述”技術(shù),從而提高分析者對信息的理解程度。(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
(二)一家銀行信用卡部門的商務(wù)智能-市場分析員
(4)由數(shù)據(jù)挖掘報告分析得到,那些租房居住、單身的顧客通常擁有較多的可自由支配收入,他們屬于受益顧客類型。露茜將促銷目標確定為35532個顧客,這些顧客具有單身、租房居住、具有較高可自由支配收入等特征。利用商務(wù)智能工具精確確定促銷目標,而不是向隨機產(chǎn)生的客戶群進行促銷,這場促銷戰(zhàn)役以巨大的成功宣告結(jié)束。(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
吉姆是一家汽車公司的采購經(jīng)理,他的工作就是在全國范圍內(nèi)為公司進行各種合同談判,并對公司的供應(yīng)商進行評估。他所關(guān)心的問題是:我怎么做才能為公司減少采購成本?公司成本包括直接成本和間接成本,在成本最小化問題上,公司歷來都把直接成本作為主要焦點,而忽略了間接成本。很少有幾家公司肯為采購辦公室用的鉛筆討價還價。吉姆就是要針對這些間接成本進行調(diào)查,因特網(wǎng)時代的到來給他提供了絕好的條件。(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
借助商務(wù)智能工具,吉姆做了如下工作:(1)吉姆查看了匯總的電話賬單,這些賬單是電信服務(wù)商通過一個商務(wù)智能外網(wǎng)上的在線賬單業(yè)務(wù)提供的。電信服務(wù)商的匯總報告每個月向客戶分發(fā)或廣播(Broadcast)一次。通過查看10月份的賬單,吉姆感覺相關(guān)移動電話費用所占的份額高于往常月。10月匯總電話賬單70%17%70%12%辦公室電話電話卡移動電話服務(wù)類型月費用(美元)電話卡9400移動電話6580辦公室電話38025月服務(wù)費用540054(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(2)吉姆建立了一個有關(guān)電話費的統(tǒng)計報告,包括全公司四個生產(chǎn)基地——新罕布什爾州的Nashua,俄亥俄州的Toledo,德克薩斯州的Austin,內(nèi)華達州的Reno。該報告顯示,2000年(從1月到10月)的電話費用持續(xù)增長,人均電話費也呈增長態(tài)勢。尤其是新罕布什爾州的Nashua基地,幾個月來的電話費用增長顯著。按月按基地顯示的電話費用數(shù)據(jù)基地1月2月3月4月5月6月7月8月9月10月Nashua10000110041082412436144061438816225167401656016605Toledo14210147351460014330142701426014630149601509014960Austin8526884187608598856285568778897690548976Remo12789132621314012897128431283413167134641358113464總電話費45525478424732448261500815003852800541405428554005(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
按月按基地顯示的電話費用年份:2000(截至報告月)設(shè)備:全部服務(wù):全部單位:美元1月2月3月4月5月6月7月8月9月10月300290280270260250220200180160140120100人均電話費支出員工總支出(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(3)吉姆對Nashua基地的數(shù)據(jù)進行了“下鉆”,查看了各種服務(wù)種類的電話賬單細節(jié)。他很快發(fā)現(xiàn),相關(guān)的綜合服務(wù)費用超過了往年,其中移動電話的費用在全部增長中占據(jù)了很大份額。吉姆突然記起,為了提高員工工作效率,Nashua基地為全體管理人員配發(fā)了移動電話,報告中所顯示出來的一場恰恰就是新的移動電話使用政策造成的。按月按服務(wù)類型顯示的Nashua生產(chǎn)基地電話賬單類型1月2月3月4月5月6月7月8月9月10月辦公室話費8000840082008200810080008200840085008450電話卡費用2000210020502000195019001950190018501900手機話費05045742236435644886075644062106255總電話費10000110041082412436144061438816225167401656016605(三)一家汽車公司的商務(wù)智能-采購經(jīng)理按月按服務(wù)類型顯示的Nashua生產(chǎn)基地電話賬單年份:2000(截至報告月)設(shè)備:全部服務(wù):全部單位:美元人均電話費支出員工人數(shù)1月2月3月4月5月6月7月8月9月10月42038034030026022052504846444240(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(4)吉姆對Nashua基地移動電話賬單數(shù)據(jù)進行了“下鉆”,發(fā)現(xiàn)國際長途電話在增長幅度較大,特別是打到英國的長途電話費最為引人注目。吉姆與該地區(qū)的經(jīng)理通了電話,原來他們正在與英國的幾個主要供應(yīng)商建立一個聯(lián)盟,供貨和配送需求不斷更新,需要隨時聯(lián)系。Nashua生產(chǎn)基地移動電話賬單(三)一家汽車公司的商務(wù)智能-采購經(jīng)理手機話費類型1月2月3月4月5月6月7月8月9月10月市話2362923441319226525582734289827952877國內(nèi)長途156202218872196017501944206119252127國際-英國000044901276135213661126國際-其他81012448688120128124125Nashua生產(chǎn)基地移動電話賬單年份:2000(截至報告月)設(shè)備:全部服務(wù):全部單位:美元1月2月3月4月5月6月7月8月9月10月16012080400人均電話費支出行業(yè)內(nèi)人均手機費用支出(三)一家汽車公司的商務(wù)智能-采購經(jīng)理(三)一家汽車公司的商務(wù)智能-采購經(jīng)理
(5)吉姆得到了這個重要信息后,馬上與其電信服務(wù)商聯(lián)系,簽訂了一份特殊的協(xié)議——對與英國方面的通信業(yè)務(wù)給予優(yōu)惠。該項協(xié)議的簽署,意味著吉姆將為他的公司每年節(jié)省數(shù)百萬美元的經(jīng)費。吉姆通過因特網(wǎng)獲得了電信公司提供的相關(guān)數(shù)據(jù),利用商務(wù)智能工具對其企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)加以綜合分析和利用,采取合理的措施,從而為企業(yè)節(jié)省了大量成本。1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能2.1為什么要“業(yè)務(wù)流程的可視化”?2.2“業(yè)務(wù)流程可視化”的形式2.3業(yè)務(wù)流程的可視化的基礎(chǔ)2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化組織的效率取決于它的業(yè)務(wù)流程的有效運行。但如何知道業(yè)務(wù)流程在正常運行?(也就是說如何知道業(yè)務(wù)在正常進行?)
不知道業(yè)務(wù)是否正常進行,當然業(yè)務(wù)(商務(wù))管理也就無從談起,“商務(wù)智能”就更無從談起了!要知道業(yè)務(wù)流程是否正常運行,需要對流程運行進行監(jiān)視,這就要求“業(yè)務(wù)流程的可視化”!2.1為什么要“業(yè)務(wù)流程的可視化”? 過去,我看到的是各方面報來的結(jié)果,我說不清數(shù)據(jù)的可靠性。 現(xiàn)在(流程可視化后),我看到的是產(chǎn)生結(jié)果的過程,我可以判斷其真實性! 北一大偎公司項目經(jīng)理趙紅霞: 2.1為什么要“業(yè)務(wù)流程的可視化”?2.2“業(yè)務(wù)流程可視化”的形式2.3業(yè)務(wù)流程的可視化的基礎(chǔ)2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化2.2“業(yè)務(wù)流程可視化”的形式(1)模型可視化使用可視化的建模工具,利用圖形化的方式描述組織內(nèi)角色、活動、流程的狀態(tài)及其相互關(guān)系,建立企業(yè)業(yè)務(wù)流程模型。流程圖建模在可視化建模中運用得非常廣泛,它是指將一些符號放在呈現(xiàn)界面上來描述系統(tǒng)邏輯關(guān)系,并利用模塊圖和網(wǎng)絡(luò)圖來建立系統(tǒng)仿真模型的一種技術(shù)。
(2)信息可視化信息可視化通常被定義為通過使用由計算機支持的、交互式的且可視的抽象數(shù)據(jù)呈現(xiàn)方式來加強認知的過程。在信息可視化系統(tǒng)中一般使用工作流管理技術(shù)將企業(yè)運行過程中產(chǎn)生的數(shù)據(jù)以及結(jié)果“推向”用戶,使用戶及時感知業(yè)務(wù)的狀態(tài)。2.1為什么要“業(yè)務(wù)流程的可視化”?2.2“業(yè)務(wù)流程可視化”的形式2.3業(yè)務(wù)流程的可視化的基礎(chǔ)2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化(1)信息集成指企業(yè)系統(tǒng)中各業(yè)務(wù)子系統(tǒng)和用戶的信息采用統(tǒng)一的標準,規(guī)范和編碼,實現(xiàn)全系統(tǒng)信息共享,進而可實現(xiàn)相關(guān)用戶軟件間的交互和有序工作。
(2)信息共享指不同層次、不同部門信息系統(tǒng)間,信息和信息產(chǎn)品的交流與共用。2.3業(yè)務(wù)流程的可視化的基礎(chǔ)1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能3.1什么是數(shù)據(jù)倉庫?3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的本質(zhì)數(shù)據(jù)倉庫是為了企業(yè)管理決策需要進行的業(yè)務(wù)觀察、企業(yè)運行分析等數(shù)據(jù)分析工作專門建立的數(shù)據(jù)存儲。數(shù)據(jù)倉庫是面向主題的、集成的、具有時間特征的、穩(wěn)定的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。3.1什么是數(shù)據(jù)倉庫?在現(xiàn)有業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)上,不方便直接進行分析型數(shù)據(jù)操作。如果直接在現(xiàn)有業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)上進行分析型數(shù)據(jù)操作,由于數(shù)據(jù)運算量巨大,可能導(dǎo)致拖垮現(xiàn)有業(yè)務(wù)系統(tǒng)。上述問題,要求我們必須為分析型系統(tǒng)建立專門的數(shù)據(jù)存儲,這就是數(shù)據(jù)倉庫。決策分析為什么不能直接針對業(yè)務(wù)數(shù)據(jù)?數(shù)據(jù)四大特征1面向主題2集成性3增量變化4相對穩(wěn)定(2)數(shù)據(jù)倉庫的特征操作型數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)目的支持日常操作支持管理需求、獲取信息使用人員辦事員、DBA、數(shù)據(jù)庫專家經(jīng)理、管理人員、分析專家數(shù)據(jù)內(nèi)容當前數(shù)據(jù)歷史數(shù)據(jù)、派生數(shù)據(jù)數(shù)據(jù)特點細節(jié)的綜合的,或提煉的數(shù)據(jù)組織面向應(yīng)用面向主題存取類型增加、更改、查詢、刪除查詢、聚集數(shù)據(jù)穩(wěn)定性動態(tài)的相對穩(wěn)定操作需求特點操作需求事先可知道操作需求事先不知道操作特點一個時刻操作一單元一個時刻操作一集合數(shù)據(jù)庫設(shè)計基于E-R圖基于星型模式、雪花模式一次操作數(shù)據(jù)量一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大存取頻率比較高相對較低響應(yīng)時間小于1秒-3秒幾秒幾分鐘(3)操作型數(shù)據(jù)庫與數(shù)據(jù)倉庫的比較(4)數(shù)據(jù)倉庫應(yīng)用體系的基本結(jié)構(gòu)OLAP數(shù)據(jù)挖掘數(shù)據(jù)倉庫可視化應(yīng)用工具數(shù)據(jù)存儲數(shù)據(jù)源外部數(shù)據(jù)內(nèi)部業(yè)務(wù)數(shù)據(jù)抽取清理轉(zhuǎn)換業(yè)務(wù)系統(tǒng)分析型系統(tǒng)“十五”期間:業(yè)務(wù)系統(tǒng)分析型系統(tǒng)“十一五”期間:以業(yè)務(wù)系統(tǒng)(數(shù)據(jù))為基礎(chǔ),建立能對管理決策提供支持的運營分析與控制系統(tǒng)。分析型信息系統(tǒng)建設(shè)的目的“十五”期間:業(yè)務(wù)系統(tǒng)分析型系統(tǒng)“十一五”期間:業(yè)務(wù)數(shù)據(jù)1業(yè)務(wù)數(shù)據(jù)n…分析用數(shù)據(jù)數(shù)據(jù)中心(數(shù)據(jù)倉庫)從已有的業(yè)務(wù)系統(tǒng),建立分析型系統(tǒng)的基礎(chǔ)是:對業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進行再組織得到分析用的數(shù)據(jù),建立分析用“數(shù)據(jù)中心”(或數(shù)據(jù)倉庫)。分析型信息系統(tǒng)的關(guān)鍵(1/3)
—數(shù)據(jù)倉庫業(yè)務(wù)系統(tǒng)分析型系統(tǒng)業(yè)務(wù)數(shù)據(jù)1業(yè)務(wù)數(shù)據(jù)n…分析用數(shù)據(jù)數(shù)據(jù)倉庫分析結(jié)果數(shù)據(jù)挖掘OLAP分析型信息系統(tǒng)的關(guān)鍵(2/3,3/3)
—OLAP+數(shù)據(jù)挖掘①基于分析型數(shù)據(jù)進行人工數(shù)據(jù)分析操作就是OLAP!
②基于分析型數(shù)據(jù)開展自動(或半自動)數(shù)據(jù)分析工作就是數(shù)據(jù)挖掘!3.1什么是數(shù)據(jù)倉庫?3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫數(shù)據(jù)組織數(shù)據(jù)的來源數(shù)據(jù)的結(jié)構(gòu)3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織(1)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫的原始數(shù)據(jù)來源,是數(shù)據(jù)倉庫系統(tǒng)開發(fā)與應(yīng)用的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)源非常廣泛。從總體內(nèi)容上講,可以分為企業(yè)內(nèi)部數(shù)據(jù)源和企業(yè)外部數(shù)據(jù)源兩大類。
3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織1)企業(yè)內(nèi)部數(shù)據(jù)源企業(yè)內(nèi)部數(shù)據(jù)指的是企業(yè)多年來的數(shù)據(jù)沉淀(主要是業(yè)務(wù)數(shù)據(jù))。由于各企業(yè)的歷史背景與應(yīng)用環(huán)境不同,企業(yè)內(nèi)部數(shù)據(jù)源有很大的差異,表現(xiàn)在數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和存儲類型等許多方面。在數(shù)據(jù)倉庫系統(tǒng)的建設(shè)中,應(yīng)該針對商務(wù)需求對內(nèi)部數(shù)據(jù)源進行充分的分析,適當?shù)膶Ρ龋瑸檎_高效地獲取基礎(chǔ)數(shù)據(jù)做準備。3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織2)企業(yè)外部數(shù)據(jù)源企業(yè)外部數(shù)據(jù)源的內(nèi)容更為廣泛,數(shù)據(jù)的存儲類型也更為多樣化,比較常見的為目標市場信息、競爭對手信息、行業(yè)統(tǒng)計信息等。外部數(shù)據(jù)源的獲取往往存在著一定的難度,可能采用的幾種主要方式為:從行業(yè)相關(guān)部門獲取資料;向信息咨詢公司購買數(shù)據(jù);企業(yè)內(nèi)部組建相應(yīng)機構(gòu)進行專門的調(diào)查研究;從行業(yè)期刊或網(wǎng)絡(luò)中分析摘錄相關(guān)信息等。數(shù)據(jù)倉庫的總線主題粒度維度數(shù)據(jù)立方體數(shù)據(jù)集市星形模式相關(guān)基本概念一致性保障機制數(shù)據(jù)組織方式3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織(2)數(shù)據(jù)倉庫中的數(shù)據(jù)結(jié)構(gòu)3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織(3)數(shù)據(jù)倉庫中數(shù)據(jù)結(jié)構(gòu)相關(guān)概念1)主題主題是一個在較高層次上將數(shù)據(jù)歸類的標準,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。面向主題的數(shù)據(jù)組織方式是根據(jù)分析要求將數(shù)據(jù)組織成一個個完備的分析領(lǐng)域,稱為主題域。主題域應(yīng)該具有獨立性和完備性。操作型環(huán)境數(shù)據(jù)倉庫應(yīng)用主題顧客保險單索賠3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織業(yè)務(wù)(應(yīng)用)與主題例如對一個保險公司來說,應(yīng)用問題可能是汽車保險、健康保險和意外傷亡保險等;而公司的主要主題域卻可能是顧客、保險單、索賠等。3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織2)粒度粒度是指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細程度和級別。數(shù)據(jù)越詳細,粒度越小級別就越低;數(shù)據(jù)綜合度越高,粒度越大級別就越高。在傳統(tǒng)的操作型數(shù)據(jù)庫系統(tǒng)中,對數(shù)據(jù)處理和操作都是在最低級的粒度上進行的。但是在數(shù)據(jù)倉庫環(huán)境中應(yīng)用的主要是分析型處理,一般需要將數(shù)據(jù)劃分為:詳細數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級或更多級粒度。高細節(jié)——低粒度級例如:一個顧客一個月內(nèi)所有電話的通話細節(jié)。低細節(jié)——高粒度級例如:一個顧客一個月內(nèi)通話總額。3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)粒度與對象信息的詳細程度低粒度級能回答細節(jié)問題數(shù)據(jù)量大高粒度級能進行綜合性查詢數(shù)據(jù)量小權(quán)衡選擇粒度的高低是非常重要的,它關(guān)系到能否滿足企業(yè)決策信息支持的需要,以及能否滿足查詢速度的要求。3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織粒度與數(shù)據(jù)量3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織3)維度維度是指人們觀察事物的特定的角度,例如:時間維、地區(qū)維。人們從某個維的角度觀察數(shù)據(jù),還可以根據(jù)細節(jié)程度的不同形成多個描述層次,該多個描述層次就稱為維層次。中國西北地區(qū)東北地區(qū)華北地區(qū)簡單層次關(guān)系的維層次3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織中國西北地區(qū)東北地區(qū)華北地區(qū)黑龍江省遼寧省吉林省沈陽市鞍山市…………復(fù)雜層次關(guān)系的維層次3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織(4)數(shù)據(jù)倉庫中數(shù)據(jù)的組織方式1)數(shù)據(jù)立方體數(shù)據(jù)立方體是指由兩個或更多個維來描述或分類的數(shù)據(jù)。在三維的情況下以圖形來表示,該類數(shù)據(jù)具有立方體結(jié)構(gòu),一般稱為數(shù)據(jù)立方體。雖然通常從幾何意義的角度將立方體理解為三維,但是在數(shù)據(jù)倉庫中數(shù)據(jù)立方體是一個n維的概念。銷售收入地區(qū)維時間維產(chǎn)品維產(chǎn)品維時間維地區(qū)維銷售收入3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)立方體(圖示)與分析問題問題:“某產(chǎn)品在某個月份在某個地區(qū)的銷售收入是多少?”半年季度月份地區(qū)大類具體地區(qū)碼CAMCVCRTR-75UX-11TR-78EC-1XVG上半年1季度一月北部5316059001290450809上半年1季度一月北部539899788564780655上半年1季度一月南部652900680602780680上半年1季度一月南部6835901020608800407上半年1季度一月南部8671300780398745576上半年1季度二月北部5311098980479576879上半年1季度二月北部5391350680609889809……………………………………………………數(shù)據(jù)立方體(數(shù)據(jù))例:某錄像機生產(chǎn)商某年的部分銷售數(shù)據(jù)3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織產(chǎn)品維層次錄像機產(chǎn)品CAMCVCRTR-78TR-75UX-11XVGEC-1全部地區(qū)北部地區(qū)南部地區(qū)652531539867683地區(qū)維層次3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織從前數(shù)據(jù)立方體數(shù)據(jù)中可以獲得銷售分析維度的信息。時間維層次上半年全年下半年一季度二季度4月2月3月6月5月1月三季度四季度10月8月9月12月11月7月3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織注:紅色部分代表了1月份531地區(qū)所有產(chǎn)品的銷售收入
TR-75UX-11TR-78EC-1XVG5315396526838675月4月3月2月1月全部南方北方第1季第2季1年產(chǎn)品地區(qū)27時間錄像機CACMVCR3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織“銷售分析”數(shù)據(jù)立方體-便于觀察數(shù)據(jù)!3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織2)數(shù)據(jù)集市數(shù)據(jù)集市是完整的數(shù)據(jù)倉庫的一個邏輯子集,而數(shù)據(jù)倉庫正是由其所有的數(shù)據(jù)集市有機組合而成的。數(shù)據(jù)集市一般在某一個業(yè)務(wù)部門建設(shè),滿足其分析決策的需要,可以將其理解為“部門級數(shù)據(jù)倉庫”。各數(shù)據(jù)集市都應(yīng)該是數(shù)據(jù)倉庫的有機組成部分,且各數(shù)據(jù)集市間應(yīng)協(xié)調(diào)一致,滿足整個企業(yè)分析決策的需要。銷售子系統(tǒng)數(shù)據(jù)抽取與集成數(shù)據(jù)抽取銷售子系統(tǒng)銷售子系統(tǒng)數(shù)據(jù)抽取數(shù)據(jù)抽取.........數(shù)據(jù)集市數(shù)據(jù)倉庫業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)集市(DataMart)—部門級數(shù)據(jù)倉庫
時間碼產(chǎn)品碼地區(qū)碼銷售量銷售額銷售成本產(chǎn)品碼產(chǎn)品大類產(chǎn)品細類產(chǎn)品名稱地區(qū)碼國家地區(qū)城市時間碼日期月份季度年度時間維表事實表產(chǎn)品維表地區(qū)維表3)星形模式為了數(shù)據(jù)分析方便,在數(shù)據(jù)倉庫中,由兩種類型的表(事實表和維表)保存數(shù)據(jù)。事實表和維表間通過星形方式連接而成,故稱為星形模式。3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織事實表與維表事實表包含的是業(yè)務(wù)數(shù)據(jù)信息,數(shù)據(jù)取值通常是可度量的、連續(xù)型的,且具有可加性,數(shù)據(jù)量可達到幾百萬甚至上億條記錄。維表包含的是相應(yīng)維度的描述型信息,這些信息用作查詢的約束條件,一般是離散的、描述性的,不具有可加性。3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織(5)數(shù)據(jù)倉庫中數(shù)據(jù)的一致性保障機制:數(shù)據(jù)總線
一個數(shù)據(jù)倉庫內(nèi)所有的數(shù)據(jù)集市必須具有統(tǒng)一一致的維定義和統(tǒng)一一致的業(yè)務(wù)事實。統(tǒng)一的維和統(tǒng)一的事實就是數(shù)據(jù)倉庫的“總線”??偩€型結(jié)構(gòu)的目的在于避免各數(shù)據(jù)集市不能有機地組合在一起,不能從全企業(yè)的角度查看數(shù)據(jù)信息。應(yīng)收帳款事實銷售量事實銷售額事實…分銷渠道維時間維…客戶維產(chǎn)品維統(tǒng)一的事實統(tǒng)一的維財務(wù)數(shù)據(jù)集市銷售數(shù)據(jù)集市3.2數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的總線型結(jié)構(gòu)1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能基于數(shù)據(jù)倉庫進行數(shù)據(jù)分析的兩種方式在線分析處理數(shù)據(jù)挖掘在線分析處理是基于數(shù)據(jù)倉庫進行數(shù)據(jù)分析的兩種方式之一4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應(yīng)用實例4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)4.1什么是在線分析處理(OLAP)?(1)OLAP的產(chǎn)生60年代末,E.F.Codd提出了關(guān)系數(shù)據(jù)模型,其促進了關(guān)系數(shù)據(jù)庫及聯(lián)機事物處理(OLTP)的發(fā)展。后來,聯(lián)機事務(wù)處理已不能滿足終端用戶對數(shù)據(jù)庫查詢分析越來越復(fù)雜的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢不能滿足用戶分析的需求。聯(lián)機分析處理(OnlineAnalysisProcessing)就是針對用戶決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到所需要的結(jié)果的數(shù)據(jù)分析需求發(fā)展而來的技術(shù)。4.1什么是在線分析處理(OLAP)?(2)OLAP的本質(zhì)OLAP是數(shù)據(jù)處理的一種技術(shù)概念,其基本目的是使企業(yè)的決策者應(yīng)能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數(shù)據(jù)中存在的規(guī)律,實現(xiàn)對數(shù)據(jù)的歸納、分析和處理,幫助組織完成相關(guān)的決策??焖傩钥煞治鲂远嗑S性信息性用戶對OLAP的快速反應(yīng)能力有很高的要求
OLAP系統(tǒng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析
OLAP系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析OLAP系統(tǒng)應(yīng)能及時獲得信息并且管理大容量信息
4.1什么是在線分析處理(OLAP)?(3)OLAP的特征
觀察在某一時間點或時間段上各個產(chǎn)品在各個地區(qū)的銷售情況產(chǎn)品地區(qū)時間觀察某地區(qū)各個產(chǎn)品在各個時期的銷售情況產(chǎn)品地區(qū)時間觀察某種產(chǎn)品在各個時期和各個地區(qū)中的銷售情況產(chǎn)品地區(qū)時間觀察某種產(chǎn)品在某時間點或時間段上在某地區(qū)的銷售情況產(chǎn)品地區(qū)時間4.1什么是在線分析處理(OLAP)?(4)OLAP多維數(shù)據(jù)視圖
4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應(yīng)用實例4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)對于訂貨分析的訂貨立方體,選定訂貨立方體中的客戶維與產(chǎn)品維,在時間維中選取一個屬性成員(如“2008年1月”),就得到了訂貨立方體在產(chǎn)品和客戶兩維上的一個切片。該切片表示2008年1月各客戶、各產(chǎn)品的訂購情況。
(1)切片
切片就是在某個或某些維上選定一個屬性成員,而在某兩個維上取一定區(qū)間的屬性成員或全部屬性成員。4.2OLAP的基本操作產(chǎn)品維客戶維產(chǎn)品維客戶維時間維產(chǎn)品訂購情況2008年1月產(chǎn)品訂購情況選定時間維的維成員“2008年1月”選定兩個維,產(chǎn)品維和客戶維數(shù)據(jù)切片4.2OLAP的基本操作切片操作例接前例,若將時間維上的取值設(shè)定為一個區(qū)間(例如取“2008年1月至2008年10月”),而非單一的屬性成員時,就得到一個數(shù)據(jù)切塊,它可以看成由2008年1月至2008年10月10個切片疊合而成。(2)切塊
切塊是在立方體中的三個維上取一定區(qū)間的屬性成員或全部屬性成員。從另一個角度講,切塊可以看成是由多個切片疊合起來。
4.2OLAP的基本操作產(chǎn)品維客戶維時間維數(shù)據(jù)切塊產(chǎn)品維客戶維時間維4.2OLAP的基本操作切塊操作例實現(xiàn)所有客戶對某產(chǎn)品季度訂購額與月份訂購額之間的鉆取。比如2008年第一季度。(3)上鉆和下鉆
鉆取包括上鉆和下鉆兩種操作。從高級別數(shù)據(jù)到明細數(shù)據(jù)視圖稱為下鉆;從明細級向上到高級來觀察數(shù)據(jù),稱為上鉆。數(shù)據(jù)庫的設(shè)計以及數(shù)據(jù)的粒度級別將決定下鉆或上鉆的能力。
4.2OLAP的基本操作(3)上鉆和下鉆
上鉆下鉆銷售額(單位:萬元)第一季度產(chǎn)品145產(chǎn)品253……4.2OLAP的基本操作銷售額(單位:萬元)第一季度1月2月3月產(chǎn)品125515產(chǎn)品2201518……將一個橫向為時間、縱向為產(chǎn)品的報表,變成一個橫向仍為時間和縱向旋轉(zhuǎn)為客戶的報表。
(4)旋轉(zhuǎn)旋轉(zhuǎn)即是改變一個報告或頁面顯示的維方向。通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。
4.2OLAP的基本操作(4)旋轉(zhuǎn)旋轉(zhuǎn)以改變頁面顯示時間維客戶維產(chǎn)品維時間維產(chǎn)品維客戶維4.2OLAP的基本操作3.1什么是在線分析處理(OLAP)?3.2OLAP的基本操作4.3OLAP應(yīng)用實例4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)(1)問題背景描述以某鋼鐵集團銷售公司為背景,給出數(shù)據(jù)倉庫的星型建模方案及OLAP分析例。該鋼鐵集團銷售公司是一個較早應(yīng)用MIS的企業(yè),經(jīng)過多年的發(fā)展,公司積累的數(shù)據(jù)越來越多,大量的數(shù)據(jù)背后隱藏著許多重要的信息。為了充分利用這些數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中所隱含的知識,公司迫切要求建立數(shù)據(jù)倉庫,實現(xiàn)OLAP分析。使用工具為SQLServer。4.3OLAP應(yīng)用實例(2)確定分析主題
建立數(shù)據(jù)倉庫的第一步是確定商業(yè)需求,根據(jù)需求確定分析主題。本例主要討論該鋼鐵集團銷售公司的訂貨分析主題。訂貨主題主要從時間、客戶、產(chǎn)品等維度來分析產(chǎn)品訂購情況。
發(fā)現(xiàn)優(yōu)勢產(chǎn)品,判別產(chǎn)品潛在的銷售能力,選擇合適的分銷渠道識別客戶群,預(yù)測客戶的訂貨趨勢,采取靈活的促銷策略降低庫存量,減少交貨失誤,改善訂貨業(yè)務(wù)通過訂貨分析實現(xiàn)4.3OLAP應(yīng)用實例(3)分析數(shù)據(jù)源
在確定主題之后,需要分析數(shù)據(jù)源,并進行相關(guān)數(shù)據(jù)的抽取。本例的數(shù)據(jù)源來自該鋼鐵集團銷售公司。我們需要的數(shù)據(jù)有:時間信息(包括年、月)、客戶信息(包括客戶編號、客戶名稱、客戶分部)、產(chǎn)品信息(包括品種編號、品種名稱、產(chǎn)品長度、厚度、寬度),以及事實表中的事實度量值訂貨量。4.3OLAP應(yīng)用實例分析數(shù)據(jù)源
4.3OLAP應(yīng)用實例(4)建立訂貨分析的星形模式
時間碼產(chǎn)品碼客戶碼訂貨量產(chǎn)品碼品種編號品種名稱產(chǎn)品厚度產(chǎn)品寬度產(chǎn)品長度客戶碼客戶編號客戶名稱客戶分部時間碼月份年度時間維表訂貨事實表產(chǎn)品維表客戶維表4.3OLAP應(yīng)用實例時間維的結(jié)構(gòu)
4.3OLAP應(yīng)用實例產(chǎn)品維的結(jié)構(gòu)
4.3OLAP應(yīng)用實例客戶維的結(jié)構(gòu)
4.3OLAP應(yīng)用實例訂貨事實的結(jié)構(gòu)
4.3OLAP應(yīng)用實例建立訂貨事實表與各維表的關(guān)系
4.3OLAP應(yīng)用實例(5)訂貨分析的DTS包SQLServer中的數(shù)據(jù)轉(zhuǎn)換服務(wù)DTS(DataTransformationServices)主要作用是把不同的數(shù)據(jù)來源中的數(shù)據(jù)結(jié)合起來,并利用自身的數(shù)據(jù)轉(zhuǎn)換功能把這些結(jié)合后的數(shù)據(jù)放入數(shù)據(jù)倉庫之中。4.3OLAP應(yīng)用實例訂貨分析的數(shù)據(jù)轉(zhuǎn)換的實現(xiàn)過程圖
創(chuàng)建連接數(shù)據(jù)轉(zhuǎn)換執(zhí)行并保存DTS包確定流程順序執(zhí)行SQL任務(wù)建立數(shù)據(jù)導(dǎo)入的工作流4.3OLAP應(yīng)用實例(6)訂貨分析的OLAP實踐SQLServer分析服務(wù)提供了從數(shù)據(jù)倉庫中設(shè)計、構(gòu)建及管理多維數(shù)據(jù)集的能力,以及讓客戶端可以取得OLAP數(shù)據(jù)。多維數(shù)據(jù)集構(gòu)建完成后必須能夠讓用戶直接進行操作,SQLServer提供了數(shù)據(jù)透視表服務(wù)(PivotTableServices),可以用Excel通過數(shù)據(jù)透視表服務(wù)連接到分析服務(wù)器,將多維數(shù)據(jù)集中的數(shù)據(jù)取來做分析。
4.3OLAP應(yīng)用實例
訂貨分析的OLAP實踐的流程
分析服務(wù)器端客戶端分析多維數(shù)據(jù)設(shè)定數(shù)據(jù)來源創(chuàng)建多維數(shù)據(jù)集分析多維數(shù)據(jù)數(shù)據(jù)透視表服務(wù)4.3OLAP應(yīng)用實例從產(chǎn)品維與時間維觀察數(shù)據(jù)4.3OLAP應(yīng)用實例數(shù)據(jù)透視4.3OLAP應(yīng)用實例碳素鎮(zhèn)板、碳素鎮(zhèn)卷、液化氣瓶卷的訂貨趨勢分析4.3OLAP應(yīng)用實例1什么是商務(wù)智能?2業(yè)務(wù)層面的商務(wù)智能-業(yè)務(wù)流程可視化3數(shù)據(jù)觀察和數(shù)據(jù)分析的基礎(chǔ)-數(shù)據(jù)倉庫4數(shù)據(jù)觀察層面的商務(wù)智能-在線分析處理(OLAP)5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘商務(wù)智能基于數(shù)據(jù)倉庫進行數(shù)據(jù)分析的兩種方式在線分析處理數(shù)據(jù)挖掘數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫進行數(shù)據(jù)分析的兩種方式之一5.1什么是數(shù)據(jù)挖掘?5.2數(shù)據(jù)挖掘能做什么事?—數(shù)據(jù)挖掘的任務(wù)!5數(shù)據(jù)分析層面的商務(wù)智能-數(shù)據(jù)挖掘(1)啤酒與尿布的故事(小案例)某大型超市發(fā)現(xiàn)每到周末,啤酒與尿布的銷量就會同時大增,這是什么原因呢?購物籃5.1什么是數(shù)據(jù)挖掘?(1)啤酒與尿布的故事(小案例)-續(xù)這是沃爾瑪利用NCR自動數(shù)據(jù)挖掘工具(模式識別軟件)對一年多詳細的原始交易數(shù)據(jù)進行分析和挖掘后的一個意外發(fā)現(xiàn):跟尿布一起購買最多的商品竟是啤酒!沃爾瑪因此就在其商店里將它們并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長。經(jīng)過研究人員分析發(fā)現(xiàn),原來家里的太太們讓丈夫們?nèi)コ薪o孩子買尿布,而丈夫們在買尿布的時候往往順便買上幾瓶啤酒回去喝。這樣就產(chǎn)生了這個比較奇怪的現(xiàn)象。數(shù)據(jù)挖掘?qū)?shù)據(jù)挖掘結(jié)果的解釋分析5.1什么是數(shù)據(jù)挖掘?(2)KDD與數(shù)據(jù)挖掘數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)一詞的第一次出現(xiàn)是在1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上。
數(shù)據(jù)庫知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解模式的非平凡處理過程。5.1什么是數(shù)據(jù)挖掘?KDD是一個交互式、循環(huán)反復(fù)的整體過程,除了包括數(shù)據(jù)挖掘外,還包括數(shù)據(jù)的預(yù)處理和對所發(fā)現(xiàn)的結(jié)果進行解釋評估等諸多環(huán)節(jié)。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)中專門負責(zé)發(fā)現(xiàn)知識的核心環(huán)節(jié)。數(shù)據(jù)挖掘KDD5.1什么是數(shù)據(jù)挖掘?KDD的過程可視化數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估數(shù)據(jù)庫待挖掘數(shù)據(jù)抽取的信息有用的知識5.1什么是數(shù)據(jù)挖掘?(3)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更廣闊的空間。數(shù)據(jù)倉庫完成了數(shù)據(jù)的收集、集成、存儲、管理等工作,數(shù)據(jù)挖掘面對的是經(jīng)過初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能更專注于知識的發(fā)現(xiàn)。另一方面,由于數(shù)據(jù)倉庫所具有的新的特點,又對數(shù)據(jù)挖掘技術(shù)提出了更高的要求。數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉庫技術(shù)結(jié)合起來,能夠更充分地發(fā)揮潛力。
5.1什么是數(shù)據(jù)挖掘?
數(shù)據(jù)倉庫中集成和存儲著來自若干異構(gòu)數(shù)據(jù)源的信息,這就要求其數(shù)據(jù)挖掘的算法必須更有效、更快速。數(shù)據(jù)倉庫對數(shù)據(jù)挖掘技術(shù)提出的更高要求
數(shù)據(jù)倉庫中的長時間歷史數(shù)據(jù)在時間軸上的特征,在一定程度上增加了數(shù)據(jù)挖掘的難度。數(shù)據(jù)倉庫的發(fā)展對數(shù)據(jù)挖掘提出了更高的要求5.1什么是數(shù)據(jù)挖掘?聚類分析分類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)序列模式發(fā)現(xiàn)……數(shù)據(jù)挖掘的任務(wù)5.2數(shù)據(jù)挖掘能做什么事?—數(shù)據(jù)挖掘的任務(wù)?。?)聚類分析1)聚類分析的內(nèi)涵
聚類任務(wù)用于發(fā)現(xiàn)在數(shù)據(jù)庫中未知的對象類。這種對象類劃分的依據(jù)是“物以類聚”,即考察個體或數(shù)據(jù)對象間的相似性,滿足相似性條件的個體或數(shù)據(jù)對象劃分在一組內(nèi),不滿足相似性條件的個體或數(shù)據(jù)對象劃分在不同的組。在聚類之前,對象類劃分的數(shù)量與類型均是未知的,因此在數(shù)據(jù)挖掘后一般需要對數(shù)據(jù)挖掘結(jié)果進行合理的分析與解釋。5.2
數(shù)據(jù)挖掘的任務(wù)——聚類分析例如:聚類分析能幫助市場分析人員從客戶的基本庫中發(fā)現(xiàn)不同的客戶群;可以根據(jù)房子的類型、價值和地理位置對一個城市中的房屋進行分組;還能對Web上的文檔進行分類等等。2)聚類分析的一般應(yīng)用模式識別空間數(shù)據(jù)分析圖像處理經(jīng)濟科學(xué)網(wǎng)絡(luò)
5.2
數(shù)據(jù)挖掘的任務(wù)——聚類分析3)數(shù)據(jù)挖掘應(yīng)用對聚類分析算法的要求處理不同類型屬性的能力發(fā)現(xiàn)任意形狀的聚類用于決定輸入?yún)?shù)的領(lǐng)域知識最小化處理噪聲數(shù)據(jù)的能力對于輸入數(shù)據(jù)的順序不敏感處理高維屬性數(shù)據(jù)的能力結(jié)合用戶特定的約束結(jié)果可解釋性和可用性5.2
數(shù)據(jù)挖掘的任務(wù)——聚類分析4)什么是好的聚類方法?好的聚類方法將產(chǎn)生高質(zhì)量的類,即在類的內(nèi)部具有高的相似度,而類間具有低的相似度。聚類方法的質(zhì)量依賴于所選用的相似度計算方法和該方法的實現(xiàn)情況質(zhì)量聚類方法的質(zhì)量也取決于它發(fā)現(xiàn)隱藏模式的能力5.2
數(shù)據(jù)挖掘的任務(wù)——聚類分析5)聚類分析方法的分類分割聚類方法
1層次聚類方法2基于網(wǎng)格的聚類方法4基于密度的聚類方法35.2
數(shù)據(jù)挖掘的任務(wù)——聚類分析算法步驟:首先隨機地選擇k個對象,每個對象作為一個類的“中心”,分別代表將分成的k個類;根據(jù)距離“中心”最近的原則,尋找與各對象最為相似的類,將其他對象分配到各個相應(yīng)的類中;在完成對象的分配之后,針對每個類,計算其所有對象的平均值,作為該類新的“中心”;根據(jù)距離“中心”最近的原則,重新進行所有對象到各個相應(yīng)類的分配;返回步驟3,直到?jīng)]有變化為止。
聚類算法例——k-平均算法
k-平均算法屬于分割聚類方法。5.2
數(shù)據(jù)挖掘的任務(wù)——聚類分析有10個對象xi,,描述每一個對象的屬性為xi1,xi2,取值如下表。設(shè)定聚類個數(shù)為k=2。這里我們采用歐幾里德距離進行距離的計算。k-平均聚類算法數(shù)值例子x1x2x3x4x5x6x7x8x9x10xi2466584382301234567812345678x8x9x10x1x3x5x2x4x6x7xi1xi2k-平均聚類算法數(shù)值例子聚類問題的擴展—數(shù)據(jù)對聚類問題“數(shù)據(jù)(對象)對”聚類問題的實際背景
—電信客戶聚類分析問題電信客戶聚類分析問題說明,在實際情況中存在這樣一種數(shù)據(jù)情況:實際業(yè)務(wù)數(shù)據(jù)中,每條記錄標明了兩個的對象,這兩個對象具有關(guān)聯(lián)關(guān)系(以下稱為“數(shù)據(jù)對”),實際問題要求我們在兩個關(guān)聯(lián)對象的基礎(chǔ)上,尋找更多具有關(guān)聯(lián)關(guān)系的對象群體。聚類問題的擴展—數(shù)據(jù)對聚類問題“數(shù)據(jù)(對象)對”聚類問題的本質(zhì)—類和對象間的關(guān)系不同-傳統(tǒng)聚類問題的聚類對象是獨立對象!-“數(shù)據(jù)對”聚類問題的聚類對象是相互關(guān)聯(lián)的“對象對”!-傳統(tǒng)聚類得到的“類”中:每個對象只能屬于一個類!-“數(shù)據(jù)對”聚類得到的“類”中:一個對象可能屬于多個類(由“對象對”構(gòu)成的“類”)!數(shù)據(jù)對聚類與傳統(tǒng)聚類問題的差異
—聚類對象不同聚類問題的擴展—數(shù)據(jù)對聚類問題聚類問題的擴展—社會網(wǎng)絡(luò)分析在社會網(wǎng)絡(luò)中,聚類對象包含更多基本對象(如每個家庭),聚類結(jié)果是一個個“社團”。社會網(wǎng)絡(luò)分析的研究應(yīng)用,將導(dǎo)致對傳統(tǒng)系統(tǒng)論的革命性發(fā)展?。?)分類發(fā)現(xiàn)1)分類發(fā)現(xiàn)的目的分類發(fā)現(xiàn)的目的是構(gòu)造一個分類函數(shù)或分類模型(也稱作分類器),通過分類函數(shù),把數(shù)據(jù)庫中的元組映射到給定類別中的某一個,即要發(fā)現(xiàn)一些指定的商品或事件是否屬于某一特定數(shù)據(jù)子集的規(guī)則。5.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)2)分類發(fā)現(xiàn)的處理過程第一階段第二階段分類模型的建立該階段也稱監(jiān)督學(xué)習(xí),數(shù)據(jù)類別是事先已知的,需要做的工作是通過分析訓(xùn)練樣本數(shù)據(jù)總結(jié)出一般性的分類規(guī)則,建立分類模型。分類模型的應(yīng)用應(yīng)用分類模型前,需要對建立的模型進行評估,在確保分類模型的準確性及精確度的情況下,才能運用該分類模型對未知其類別的數(shù)據(jù)樣本進行分類處理。5.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)分類發(fā)現(xiàn)的處理過程——第一階段訓(xùn)練集分析分類器建立的模型矩形是黃色圓形是紅色三角是綠色2)分類發(fā)現(xiàn)的處理過程分類發(fā)現(xiàn)的處理過程——第二階段數(shù)據(jù)庫紅色圖形黃色圖形綠色圖形分類器已建立的模型沒有分辨顏色的圖形2)分類發(fā)現(xiàn)的處理過程3)分類模型的評估標準預(yù)測準確性描述的簡潔性計算復(fù)雜性模型強健性處理規(guī)模性
5.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)4)分類發(fā)現(xiàn)的主要方法
基于決策樹模型的數(shù)據(jù)分類——ID3算法1基于統(tǒng)計模型的數(shù)據(jù)分類——貝葉斯分類2基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類35.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)5)分類發(fā)現(xiàn)規(guī)則提取的實例利用決策樹模型對某鋼鐵公司的歷史銷售數(shù)據(jù)進行分析。注:*代表對應(yīng)的屬性為決策屬性注:行數(shù)代表滿足各行要求的記錄個數(shù)銷售時間銷售地區(qū)*銷售產(chǎn)品客戶行業(yè)*銷售渠道*利潤行數(shù)2000年華中薄板冶金直銷高2002000年華東管材冶金直銷高5102000年華中圓鋼機電分銷中3002000年華南線材電力直銷低502000年華東線材電力分銷低600…………………2000年華中薄板電力直銷中802000年華中薄板電力直銷高3205.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)應(yīng)用ID3算法得到的決策樹直銷分銷華中華東冶金電力銷售地區(qū)華中低中高高銷售地區(qū)客戶行業(yè)銷售渠道5.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)利用決策樹提取分類規(guī)則(用“IF-THEN”的形式表示)直銷分銷華中華東冶金電力銷售地區(qū)華中低中高高銷售地區(qū)客戶行業(yè)銷售渠道規(guī)則1:IF銷售渠道=“直銷”and客戶行業(yè)=“冶金”THEN銷售業(yè)務(wù)屬于“高”利潤規(guī)則2:IF銷售渠道=“直銷”and客戶行業(yè)=“電力”and銷售地區(qū)=“華中”THEN銷售業(yè)務(wù)屬于“高”利潤規(guī)則3:IF銷售渠道=“分銷”and銷售地區(qū)=“華中”THEN銷售業(yè)務(wù)屬于“中”利潤規(guī)則4:IF銷售渠道=“分銷”and銷售地區(qū)=“華東”THEN銷售業(yè)務(wù)屬于“低”利潤5.2
數(shù)據(jù)挖掘的任務(wù)——分類發(fā)現(xiàn)(3)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)1)關(guān)聯(lián)規(guī)則的含義關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項集之間有趣(價值)的關(guān)聯(lián)或相關(guān)聯(lián)系。前面提到的“啤酒與尿布”的故事就是關(guān)聯(lián)規(guī)則的一個典型例子。這也成為零售商的貨籃分析,其通過發(fā)現(xiàn)顧客放入其貨籃中不同商品、即不同項之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,分析得到商品之間的關(guān)聯(lián),這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。
5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)2)描述關(guān)聯(lián)規(guī)則的參數(shù)關(guān)鍵參數(shù)作用度期望可信度支持度可信度5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)描述關(guān)聯(lián)規(guī)則的參數(shù)-支持度商場10個顧客同時購買錘子和釘子顧客購買錘子
顧客購買釘子的關(guān)聯(lián)規(guī)則的支持度為10%100個顧客去商場購買東西5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)商場20個顧客購買了錘子顧客購買錘子
顧客購買釘子的關(guān)聯(lián)規(guī)則的可信度為50%100個顧客去商場購買東西其中10個顧客又購買了釘子描述關(guān)聯(lián)規(guī)則的參數(shù)-可信度5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)商場20個顧客購買了釘子顧客購買錘子
顧客購買釘子的關(guān)聯(lián)規(guī)則的期望可信度為20%100個顧客去商場購買東西描述關(guān)聯(lián)規(guī)則的參數(shù)-期望可信度5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)作用度是可信度和期望可信度之間的比值。描述關(guān)聯(lián)規(guī)則的參數(shù)-作用度名稱描述(利用前面的例子)公式支持度顧客購買錘子(X)和購買釘子(Y)同時出現(xiàn)的概率P(X∪Y)可信度顧客在購買錘子(X)的前提下,又購買釘子(Y)的概率P(Y|X)期望可信度顧客購買釘子(Y)的概率P(Y)作用度可信度與期望可信度的比值P(Y|X)/P(Y)5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)支持度是對關(guān)聯(lián)規(guī)則重要性的衡量可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量作用度描述了一個事件對另一事件的影響力大小,有用關(guān)聯(lián)規(guī)則的作用度都應(yīng)該大于1四個參數(shù)的意義期望可信度描述了在沒有別的事件作用下,某一事件本身的支持度5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)單層關(guān)聯(lián)規(guī)則:規(guī)則條件中僅涉及同一層次上的屬性。多層關(guān)聯(lián)規(guī)則:規(guī)則條件中涉及不同層次上的屬性。單維關(guān)聯(lián)規(guī)則:處理單個屬性中的一些關(guān)系。啤酒
尿布(一個屬性:顧客購買的東西)多維關(guān)聯(lián)規(guī)則:處理各個屬性之間的某些關(guān)系。性別=“女”且職業(yè)=“秘書”
漂亮(多個屬性:性別、職業(yè))3)關(guān)聯(lián)規(guī)則的類型5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)4)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的步驟進行數(shù)據(jù)清理、集成、轉(zhuǎn)換、聚集等數(shù)據(jù)準備;根據(jù)實際情況,確定最小支持度和最小可信度;利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、解釋、評估關(guān)聯(lián)規(guī)則。5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)例:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法“概念樹算法”挖掘多層關(guān)聯(lián)規(guī)則食品飲料水果肉類可樂蘋果礦泉水香蕉豬肉可口可樂百事可樂紅富士
從下到上的概括或抽象反之則為從上到下的具體化5.2
數(shù)據(jù)挖掘的任務(wù)——關(guān)聯(lián)規(guī)則發(fā)現(xiàn)食品飲料水果肉類可樂蘋果礦泉水香蕉豬肉可口可樂百事可樂紅富士
購買(可口可樂)
購買(蘋果)涉及不同的抽象層關(guān)聯(lián)規(guī)則稱為多層關(guān)聯(lián)規(guī)則。例:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法“概念樹算法”挖掘多層關(guān)聯(lián)規(guī)則5.2
數(shù)據(jù)挖掘的任務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水電維修保養(yǎng)合同范例
- 合同范例 附件
- 舞蹈機構(gòu)入伙合同范例
- 拆遷中標合同范例
- 企業(yè)超市合同范例
- 出售首層廠房合同范例
- 項目追加合同范例
- 戶外家具合同范例
- 轉(zhuǎn)手買賣合同范例
- 監(jiān)控材料采購安裝合同范例
- 2024年黑龍江高中學(xué)業(yè)水平合格性考試數(shù)學(xué)試卷試題(含答案詳解)
- 《登高作業(yè)安全培訓(xùn)》課件
- 2023-2024學(xué)年二年級數(shù)學(xué)上冊期末樂考非紙筆測試題(一)蘇教版
- 語法-ed-分詞-課件
- 學(xué)生信息技術(shù)應(yīng)用實踐
- Android移動應(yīng)用開發(fā)基礎(chǔ)教程-教案
- 人工智能技術(shù)在中小學(xué)教育中的應(yīng)用案例分享
- 派出所治安業(yè)務(wù)培訓(xùn)
- 創(chuàng)新創(chuàng)業(yè)與鄉(xiāng)村振興的協(xié)同發(fā)展策略與實踐
- 湖北省武漢市洪山區(qū)2022-2023學(xué)年五年級上學(xué)期期末考試科學(xué)試題
- 以學(xué)增智-提升推進高質(zhì)量發(fā)展的本領(lǐng)研討發(fā)言稿
評論
0/150
提交評論