BI相關(guān)知識介紹課件_第1頁
BI相關(guān)知識介紹課件_第2頁
BI相關(guān)知識介紹課件_第3頁
BI相關(guān)知識介紹課件_第4頁
BI相關(guān)知識介紹課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。

你的公司很先進(jìn),已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。

這時如果我問你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費(fèi)存儲成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤就能容納新數(shù)據(jù),如何?”

你會從容的接受我這個建議嗎?

我們的直覺告訴我們:這些數(shù)據(jù)有用!

但這僅僅是一種直覺,到底該怎樣把這些占據(jù)大量存儲空間的數(shù)據(jù)的價值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進(jìn)者?大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。

1BI閃亮登場沒錯,選擇BI來實(shí)現(xiàn).BI(BusinessIntelligence)是一種運(yùn)用了數(shù)據(jù)倉庫、在線分析和數(shù)據(jù)挖掘等技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。BI應(yīng)用的兩大類別是信息類應(yīng)用DW(數(shù)據(jù)倉庫)和知識類應(yīng)用KDD(數(shù)據(jù)挖掘)。BI是種技術(shù),或者說是解決方案.而不是某種工具。

BI閃亮登場沒錯,選擇BI來實(shí)現(xiàn).2BI應(yīng)用行業(yè)行業(yè)分布銀行、通信、證券、保險、能源、煙草工廠、礦場、醫(yī)療衛(wèi)生零售、快消品電子商務(wù)、電子政務(wù)使用特點(diǎn)目前大部分用戶主要集中在信息類應(yīng)用,即數(shù)據(jù)查詢+報表展示+OLAP分析的合理,其主要目的即減輕手工報表制作的壓力,提高工作效率.少量用戶(金融,通信,能源)集中在數(shù)據(jù)挖掘.BI應(yīng)用行業(yè)行業(yè)分布3BI國內(nèi)應(yīng)用難點(diǎn)BI工具在中國遇到的難題:*復(fù)雜表樣:中國的表樣設(shè)計(jì)思想與西方不同,西方報表傾向于僅用一張報表說明一個問題,而中國的報表傾向于將盡可能多的問題集中在一張報表中,這種思路直接導(dǎo)致了中國報表的復(fù)雜格式和詭異風(fēng)格,同時導(dǎo)致在國外大受歡迎的水晶報表水土不服。*大數(shù)據(jù)量:中國是世界上人口最多的國家。以中國移動公司為例,僅我國一個省的用戶數(shù)量,就相當(dāng)于歐洲一個中等國家的人口,是真正的海量數(shù)據(jù)!國外數(shù)據(jù)庫、數(shù)據(jù)倉庫和BI應(yīng)用軟件,都在中國經(jīng)受著大數(shù)據(jù)量承載能力的考驗(yàn)。*數(shù)據(jù)回寫:中國是世界上對BI系統(tǒng)要求最奇特的國家。本來BI系統(tǒng)是以忠實(shí)再現(xiàn)源數(shù)據(jù)為原則,但這個原則在中國遇到了難題,許多領(lǐng)導(dǎo)都提出了數(shù)據(jù)修改需求。筆者曾經(jīng)經(jīng)歷,挨罵頗多。BI國內(nèi)應(yīng)用難點(diǎn)BI工具在中國遇到的難題:4BI應(yīng)用分類

信息類BI應(yīng)用(數(shù)據(jù)倉庫)知識類BI應(yīng)用(數(shù)據(jù)挖掘)報表&圖表&地圖&中國式報表數(shù)據(jù)挖掘—探察數(shù)據(jù)規(guī)律自助樣式報表數(shù)據(jù)挖掘—數(shù)據(jù)建模&預(yù)測多維聯(lián)機(jī)分析(OLAP)BI應(yīng)用分類信息類BI應(yīng)用(數(shù)據(jù)倉庫)知識類BI應(yīng)用(數(shù)據(jù)5BI實(shí)現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索Portal建設(shè)ODS建設(shè)模型與報表開發(fā)DW(數(shù)據(jù)倉庫)OLAP分析(CUBE建設(shè))DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實(shí)現(xiàn)過程=前端+后端=源數(shù)據(jù)+ODS+DW+DM+OLAP+Report+

DMBI實(shí)現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索P6BI實(shí)施開發(fā)常用工具實(shí)施過程

工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI數(shù)據(jù)同步(源->ODS)Informatica(PWX),GoldenGateODS&DW&DM(關(guān)系型)MSSQL,Oracle,DB2

其他(MYSQL,Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報表開發(fā)工具SAPBO,COGNOS,水晶報表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI

,OpenI

OLAP開發(fā)工具Cognos(Powerplay)、Hyperion(Essbase)、微軟(AnalysisService)以及MicroStrategy報表開發(fā)組件FusionCharts,JFreeChart,MsChartPortal開發(fā)語言(平臺)JAVA,.NET,PHP…數(shù)據(jù)挖掘工具SAS,SPSSClementine,MATLAB…BI實(shí)施開發(fā)常用工具實(shí)施過程工具源數(shù)據(jù)分析與探索SQL腳本7BI架構(gòu)圖-1

-無ODSBI架構(gòu)圖-1

-無ODS8BI架構(gòu)圖-2元數(shù)據(jù)組成(Metadata)業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉庫

數(shù)據(jù)倉庫

數(shù)據(jù)展現(xiàn)工具ETL

TargetDatabaseFront-EndToolETL人事銷售庫存財務(wù)RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉庫數(shù)據(jù)集市企業(yè)經(jīng)營分析客戶關(guān)系管理業(yè)務(wù)流程分析財務(wù)分析Metadata外部系統(tǒng)StatisticsClusteringNeuralNetsArtificialIntelligence業(yè)務(wù)股東管理OLAPBI架構(gòu)圖-29支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOLFILESAPORACLEEBS相關(guān)概念:OLTP,OLAP2.透明網(wǎng)關(guān)(異構(gòu)源與目標(biāo)的ETL)3.元數(shù)據(jù)(業(yè)務(wù)元數(shù)據(jù),技術(shù)元數(shù)據(jù))支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫ACCESS、S10ODSODS(OperationalDataStore)特征:ODS只是存放當(dāng)前或接近當(dāng)前的數(shù)據(jù)1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離層;減輕ETL對源系統(tǒng)壓力,相當(dāng)于緩沖區(qū).2)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)明細(xì)查詢的功能3)外部數(shù)據(jù)/文件的臨時存放4)出報表,例如

客戶保單今天如果到期則發(fā)送預(yù)警報表.ODSODS(OperationalDataStore)11DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse)特征:面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.實(shí)際上.DW是多個表的集合,由多個維表與事實(shí)表組成.維度:

事物的某個方面,如時間、區(qū)域、供應(yīng)商2.

度量/指標(biāo):需要分析的量,如銷量、庫存、價格、積分3.粒度:數(shù)據(jù)表中數(shù)據(jù)細(xì)化的程度,如到月、周、天等4.事實(shí)表、維度表5.代理鍵、退化維6.緩慢維度變化DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse1213維度:是一個與業(yè)務(wù)相關(guān)的觀察角度依賴于數(shù)據(jù)的有效性和表達(dá)業(yè)務(wù)成效的關(guān)鍵性能指標(biāo)能夠回答類似下列問題:業(yè)務(wù)的每個方面可構(gòu)造成一個維度,例如:時間維度由年、季度、月、周和天構(gòu)成。所有的維度在一起提供了業(yè)務(wù)的多維視圖。這個多維視圖的數(shù)據(jù)被存為一個立方體。一個維度是管理員從數(shù)據(jù)倉庫提取的有效信息,并在同一個前題下以層的方式構(gòu)造形成。例如:地區(qū)維度下有地域、國家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維度?13維度:WhoWhatWhereWhen什么是維度?企業(yè)收集和存儲的將用于評價業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤庫存量交易數(shù)在企業(yè)活動中通常是通過如銷售額、費(fèi)用、業(yè)務(wù)指標(biāo)、庫存量和定額一類的關(guān)鍵性能指標(biāo)------度量來監(jiān)測業(yè)務(wù)的成效。不同的度量能夠反映出不同的業(yè)務(wù)性質(zhì)。例如:假設(shè)針對企業(yè)的關(guān)鍵成功因素是客戶的滿意度。那么,對于產(chǎn)品制造商來說,可能要通過及時運(yùn)輸貨物來衡量它;而客戶服務(wù)部門可能要用電話支持回應(yīng)時間來衡量它。Howmuch什么是度量?1.度量在日常業(yè)務(wù)中相當(dāng)于指標(biāo),

如KPI指標(biāo)2.指標(biāo)分為基礎(chǔ)指標(biāo)和計(jì)算指標(biāo),如銷量同金額3.計(jì)算指標(biāo)請注意afterrollup與beforrollup企業(yè)收集和存儲的將用于評價業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)Howmuc14DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)

是企業(yè)級數(shù)據(jù)倉庫的一個子集,它主要面向部門級業(yè)務(wù),并且只面向某個特定的主題.不同行業(yè)數(shù)據(jù)集市的規(guī)模不同,如移動行業(yè)數(shù)據(jù)集市比很多企業(yè)的數(shù)據(jù)倉庫規(guī)模還要大.數(shù)據(jù)集市特征面向部門/機(jī)構(gòu),如財務(wù)部,人力資源部,市場部星型結(jié)構(gòu)或雪花結(jié)構(gòu)匯總數(shù)據(jù)(粒度較低)數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)數(shù)據(jù)集15DM數(shù)據(jù)結(jié)構(gòu)-星型

星型架構(gòu):

是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個維度都直接與事實(shí)表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,但效率較高.優(yōu)點(diǎn):查詢效率較高DM數(shù)據(jù)結(jié)構(gòu)-星型星型架構(gòu):16DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型雪花模型是對星型模型的擴(kuò)展。它對星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的"層次"區(qū)域,這些被分解的表都連接到主維度表而不是事實(shí)表。優(yōu)點(diǎn):通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型17OLAPOLAP(

On-LineAnalyticalProcessing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的基本多維分析操作有鉆取(rollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drillacross、drillthrough等。OLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAPOLAP(On-LineAnalyticalP18OLAP應(yīng)用圖示使用向下鉆取(DrillDown)、切片和旋轉(zhuǎn)(SliceandDice)以及改變顯示方式來探察數(shù)據(jù)大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域

切片和旋轉(zhuǎn)ChangeDisplays

改變顯示相關(guān)概念:切塊,切片,旋轉(zhuǎn),上鉆,下鉆2.CUBE3.層級OLAP應(yīng)用圖示大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域切片和19數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)

數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中20數(shù)據(jù)挖掘技術(shù)①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。②回歸。回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項(xiàng)映射到一個實(shí)值預(yù)測變量的函數(shù),等。它可以應(yīng)用到市場營銷的各個方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系。④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險評估和詐騙預(yù)測等決策支持提供參考依據(jù)。⑦Web頁挖掘。隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息.數(shù)據(jù)挖掘技術(shù)①分類。分類是找出數(shù)據(jù)庫中一組數(shù)21案例-相關(guān)/回歸分析廣告支付和銷售量的相關(guān)性分析線性方程:銷售量(因)

=6.584+1.071*廣告費(fèi)用(自)二次曲線方程:

銷售量=3.903+2.854*廣告費(fèi)用—0.245*廣告費(fèi)用2

案例-相關(guān)/回歸分析廣告支付和銷售量的相關(guān)性分析22算法與案例二次曲線擬合今后某一年汽車價格馬爾可夫鏈預(yù)測股票或期貨價格決策樹在銀行風(fēng)險預(yù)警中的應(yīng)用算法與案例二次曲線擬合今后某一年汽車價格23BI項(xiàng)目如何實(shí)施

--不含數(shù)據(jù)挖掘8.測試2.項(xiàng)目立項(xiàng)3.需求分析4.數(shù)據(jù)分析-質(zhì)量檢測5.概要設(shè)計(jì)-系統(tǒng)架構(gòu)6.詳細(xì)設(shè)計(jì)7.開發(fā)/實(shí)施1.售前-項(xiàng)目調(diào)研9.試運(yùn)行/驗(yàn)收10.售后-維護(hù)概念模型邏輯模型物理模型BI項(xiàng)目如何實(shí)施

--不含數(shù)據(jù)挖掘8.測試2.項(xiàng)目立項(xiàng)3.24BI項(xiàng)目實(shí)施示意圖我想看到的報表是什么樣的用戶需求

DW設(shè)計(jì)報表規(guī)范ETL設(shè)計(jì)測試/試運(yùn)行ETL開發(fā)/前端開發(fā)需求/建模&架構(gòu)BI項(xiàng)目實(shí)施示意圖我想看到的報表用戶需求DW設(shè)計(jì)報表規(guī)范25BI項(xiàng)目工作量百分比BI項(xiàng)目工作量百分比26項(xiàng)目資源配備

--乙方項(xiàng)目管理項(xiàng)目經(jīng)理(項(xiàng)目總監(jiān)&項(xiàng)目經(jīng)理)項(xiàng)目助理需求調(diào)研(分析)需求分析師/業(yè)務(wù)顧問(開發(fā)工程師)ETL數(shù)據(jù)倉庫架構(gòu)師/建模工程師ETL設(shè)計(jì)工程師/ETL開發(fā)工程師DBA(可由甲方人員擔(dān)任)報表開發(fā)建模工程師前端(報表)開發(fā)工程師Portal開發(fā)系統(tǒng)架構(gòu)師軟件開發(fā)工程師測試軟件測試工程師項(xiàng)目資源配備

--乙方項(xiàng)目管理項(xiàng)目經(jīng)理(項(xiàng)目總監(jiān)&項(xiàng)目經(jīng)理)27階段性產(chǎn)出文檔--不含PORTAL開發(fā)

項(xiàng)目立項(xiàng)階段項(xiàng)目立項(xiàng)說明書項(xiàng)目組資源配置說明書項(xiàng)目計(jì)劃書需求調(diào)研階段需求分析說明書接口與環(huán)境說明書(針對第三方)系統(tǒng)體系架構(gòu)設(shè)計(jì)說明書開發(fā)階段ETL設(shè)計(jì)說明書(概要設(shè)計(jì))ETL&數(shù)據(jù)倉庫命名與開發(fā)規(guī)范ETL詳細(xì)設(shè)計(jì)說明書(映射,轉(zhuǎn)換,調(diào)度等)ETL應(yīng)用調(diào)度與維護(hù)說明書報表命名與開發(fā)規(guī)范報表詳細(xì)設(shè)計(jì)說明書測試與運(yùn)維環(huán)境與配置文檔軟件安裝文檔系統(tǒng)使用說明書階段性產(chǎn)出文檔項(xiàng)目立項(xiàng)階段項(xiàng)目立項(xiàng)說明書項(xiàng)目組資源配置說明書28項(xiàng)目計(jì)劃與風(fēng)控

--以項(xiàng)目周期為6個月為例項(xiàng)目計(jì)劃與風(fēng)控

--以項(xiàng)目周期為6個月為例29項(xiàng)目捷徑找到合適中間人

資質(zhì):采取合適開發(fā)模式,如迭代開發(fā)

甲方人員利于公關(guān)有權(quán)威性熟悉業(yè)務(wù)善于溝通項(xiàng)目捷徑找到合適中間人甲方人員利于公關(guān)有權(quán)威性熟悉業(yè)務(wù)善于溝30THANKYOU!THANKYOU!31大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。

你的公司很先進(jìn),已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。

這時如果我問你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費(fèi)存儲成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤就能容納新數(shù)據(jù),如何?”

你會從容的接受我這個建議嗎?

我們的直覺告訴我們:這些數(shù)據(jù)有用!

但這僅僅是一種直覺,到底該怎樣把這些占據(jù)大量存儲空間的數(shù)據(jù)的價值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進(jìn)者?大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。

32BI閃亮登場沒錯,選擇BI來實(shí)現(xiàn).BI(BusinessIntelligence)是一種運(yùn)用了數(shù)據(jù)倉庫、在線分析和數(shù)據(jù)挖掘等技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。BI應(yīng)用的兩大類別是信息類應(yīng)用DW(數(shù)據(jù)倉庫)和知識類應(yīng)用KDD(數(shù)據(jù)挖掘)。BI是種技術(shù),或者說是解決方案.而不是某種工具。

BI閃亮登場沒錯,選擇BI來實(shí)現(xiàn).33BI應(yīng)用行業(yè)行業(yè)分布銀行、通信、證券、保險、能源、煙草工廠、礦場、醫(yī)療衛(wèi)生零售、快消品電子商務(wù)、電子政務(wù)使用特點(diǎn)目前大部分用戶主要集中在信息類應(yīng)用,即數(shù)據(jù)查詢+報表展示+OLAP分析的合理,其主要目的即減輕手工報表制作的壓力,提高工作效率.少量用戶(金融,通信,能源)集中在數(shù)據(jù)挖掘.BI應(yīng)用行業(yè)行業(yè)分布34BI國內(nèi)應(yīng)用難點(diǎn)BI工具在中國遇到的難題:*復(fù)雜表樣:中國的表樣設(shè)計(jì)思想與西方不同,西方報表傾向于僅用一張報表說明一個問題,而中國的報表傾向于將盡可能多的問題集中在一張報表中,這種思路直接導(dǎo)致了中國報表的復(fù)雜格式和詭異風(fēng)格,同時導(dǎo)致在國外大受歡迎的水晶報表水土不服。*大數(shù)據(jù)量:中國是世界上人口最多的國家。以中國移動公司為例,僅我國一個省的用戶數(shù)量,就相當(dāng)于歐洲一個中等國家的人口,是真正的海量數(shù)據(jù)!國外數(shù)據(jù)庫、數(shù)據(jù)倉庫和BI應(yīng)用軟件,都在中國經(jīng)受著大數(shù)據(jù)量承載能力的考驗(yàn)。*數(shù)據(jù)回寫:中國是世界上對BI系統(tǒng)要求最奇特的國家。本來BI系統(tǒng)是以忠實(shí)再現(xiàn)源數(shù)據(jù)為原則,但這個原則在中國遇到了難題,許多領(lǐng)導(dǎo)都提出了數(shù)據(jù)修改需求。筆者曾經(jīng)經(jīng)歷,挨罵頗多。BI國內(nèi)應(yīng)用難點(diǎn)BI工具在中國遇到的難題:35BI應(yīng)用分類

信息類BI應(yīng)用(數(shù)據(jù)倉庫)知識類BI應(yīng)用(數(shù)據(jù)挖掘)報表&圖表&地圖&中國式報表數(shù)據(jù)挖掘—探察數(shù)據(jù)規(guī)律自助樣式報表數(shù)據(jù)挖掘—數(shù)據(jù)建模&預(yù)測多維聯(lián)機(jī)分析(OLAP)BI應(yīng)用分類信息類BI應(yīng)用(數(shù)據(jù)倉庫)知識類BI應(yīng)用(數(shù)據(jù)36BI實(shí)現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索Portal建設(shè)ODS建設(shè)模型與報表開發(fā)DW(數(shù)據(jù)倉庫)OLAP分析(CUBE建設(shè))DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實(shí)現(xiàn)過程=前端+后端=源數(shù)據(jù)+ODS+DW+DM+OLAP+Report+

DMBI實(shí)現(xiàn)過程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索P37BI實(shí)施開發(fā)常用工具實(shí)施過程

工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI數(shù)據(jù)同步(源->ODS)Informatica(PWX),GoldenGateODS&DW&DM(關(guān)系型)MSSQL,Oracle,DB2

其他(MYSQL,Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報表開發(fā)工具SAPBO,COGNOS,水晶報表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI

,OpenI

OLAP開發(fā)工具Cognos(Powerplay)、Hyperion(Essbase)、微軟(AnalysisService)以及MicroStrategy報表開發(fā)組件FusionCharts,JFreeChart,MsChartPortal開發(fā)語言(平臺)JAVA,.NET,PHP…數(shù)據(jù)挖掘工具SAS,SPSSClementine,MATLAB…BI實(shí)施開發(fā)常用工具實(shí)施過程工具源數(shù)據(jù)分析與探索SQL腳本38BI架構(gòu)圖-1

-無ODSBI架構(gòu)圖-1

-無ODS39BI架構(gòu)圖-2元數(shù)據(jù)組成(Metadata)業(yè)務(wù)系統(tǒng)到數(shù)據(jù)倉庫

數(shù)據(jù)倉庫

數(shù)據(jù)展現(xiàn)工具ETL

TargetDatabaseFront-EndToolETL人事銷售庫存財務(wù)RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉庫數(shù)據(jù)集市企業(yè)經(jīng)營分析客戶關(guān)系管理業(yè)務(wù)流程分析財務(wù)分析Metadata外部系統(tǒng)StatisticsClusteringNeuralNetsArtificialIntelligence業(yè)務(wù)股東管理OLAPBI架構(gòu)圖-240支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOLFILESAPORACLEEBS相關(guān)概念:OLTP,OLAP2.透明網(wǎng)關(guān)(異構(gòu)源與目標(biāo)的ETL)3.元數(shù)據(jù)(業(yè)務(wù)元數(shù)據(jù),技術(shù)元數(shù)據(jù))支持源系統(tǒng)類型常見源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫ACCESS、S41ODSODS(OperationalDataStore)特征:ODS只是存放當(dāng)前或接近當(dāng)前的數(shù)據(jù)1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離層;減輕ETL對源系統(tǒng)壓力,相當(dāng)于緩沖區(qū).2)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)明細(xì)查詢的功能3)外部數(shù)據(jù)/文件的臨時存放4)出報表,例如

客戶保單今天如果到期則發(fā)送預(yù)警報表.ODSODS(OperationalDataStore)42DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse)特征:面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.實(shí)際上.DW是多個表的集合,由多個維表與事實(shí)表組成.維度:

事物的某個方面,如時間、區(qū)域、供應(yīng)商2.

度量/指標(biāo):需要分析的量,如銷量、庫存、價格、積分3.粒度:數(shù)據(jù)表中數(shù)據(jù)細(xì)化的程度,如到月、周、天等4.事實(shí)表、維度表5.代理鍵、退化維6.緩慢維度變化DW-數(shù)據(jù)倉庫DW,即數(shù)據(jù)倉庫(DataWarehouse4344維度:是一個與業(yè)務(wù)相關(guān)的觀察角度依賴于數(shù)據(jù)的有效性和表達(dá)業(yè)務(wù)成效的關(guān)鍵性能指標(biāo)能夠回答類似下列問題:業(yè)務(wù)的每個方面可構(gòu)造成一個維度,例如:時間維度由年、季度、月、周和天構(gòu)成。所有的維度在一起提供了業(yè)務(wù)的多維視圖。這個多維視圖的數(shù)據(jù)被存為一個立方體。一個維度是管理員從數(shù)據(jù)倉庫提取的有效信息,并在同一個前題下以層的方式構(gòu)造形成。例如:地區(qū)維度下有地域、國家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維度?13維度:WhoWhatWhereWhen什么是維度?企業(yè)收集和存儲的將用于評價業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤庫存量交易數(shù)在企業(yè)活動中通常是通過如銷售額、費(fèi)用、業(yè)務(wù)指標(biāo)、庫存量和定額一類的關(guān)鍵性能指標(biāo)------度量來監(jiān)測業(yè)務(wù)的成效。不同的度量能夠反映出不同的業(yè)務(wù)性質(zhì)。例如:假設(shè)針對企業(yè)的關(guān)鍵成功因素是客戶的滿意度。那么,對于產(chǎn)品制造商來說,可能要通過及時運(yùn)輸貨物來衡量它;而客戶服務(wù)部門可能要用電話支持回應(yīng)時間來衡量它。Howmuch什么是度量?1.度量在日常業(yè)務(wù)中相當(dāng)于指標(biāo),

如KPI指標(biāo)2.指標(biāo)分為基礎(chǔ)指標(biāo)和計(jì)算指標(biāo),如銷量同金額3.計(jì)算指標(biāo)請注意afterrollup與beforrollup企業(yè)收集和存儲的將用于評價業(yè)務(wù)狀況的數(shù)值性數(shù)據(jù)Howmuc45DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)

是企業(yè)級數(shù)據(jù)倉庫的一個子集,它主要面向部門級業(yè)務(wù),并且只面向某個特定的主題.不同行業(yè)數(shù)據(jù)集市的規(guī)模不同,如移動行業(yè)數(shù)據(jù)集市比很多企業(yè)的數(shù)據(jù)倉庫規(guī)模還要大.數(shù)據(jù)集市特征面向部門/機(jī)構(gòu),如財務(wù)部,人力資源部,市場部星型結(jié)構(gòu)或雪花結(jié)構(gòu)匯總數(shù)據(jù)(粒度較低)數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市DM-數(shù)據(jù)集市DM,即數(shù)據(jù)集市(DataMart)數(shù)據(jù)集46DM數(shù)據(jù)結(jié)構(gòu)-星型

星型架構(gòu):

是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個維度都直接與事實(shí)表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,但效率較高.優(yōu)點(diǎn):查詢效率較高DM數(shù)據(jù)結(jié)構(gòu)-星型星型架構(gòu):47DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型雪花模型是對星型模型的擴(kuò)展。它對星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的"層次"區(qū)域,這些被分解的表都連接到主維度表而不是事實(shí)表。優(yōu)點(diǎn):通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。DM數(shù)據(jù)結(jié)構(gòu)-雪花雪花模型48OLAPOLAP(

On-LineAnalyticalProcessing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的基本多維分析操作有鉆?。╮ollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drillacross、drillthrough等。OLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAPOLAP(On-LineAnalyticalP49OLAP應(yīng)用圖示使用向下鉆取(DrillDown)、切片和旋轉(zhuǎn)(SliceandDice)以及改變顯示方式來探察數(shù)據(jù)大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域

切片和旋轉(zhuǎn)ChangeDisplays

改變顯示相關(guān)概念:切塊,切片,旋轉(zhuǎn),上鉆,下鉆2.CUBE3.層級OLAP應(yīng)用圖示大區(qū)省份城市向下鉆取產(chǎn)品區(qū)域切片和50數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)

數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)又稱數(shù)據(jù)庫中51數(shù)據(jù)挖掘技術(shù)①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。②回歸?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項(xiàng)映射到一個實(shí)值預(yù)測變量的函數(shù),等。它可以應(yīng)用到市場營銷的各個方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系。④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險評估和詐騙預(yù)測等決策支持提供參考依據(jù)。⑦Web頁挖掘。隨著

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論