版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù),您如何選擇?假如你是一個商品零售公司的老板。 你的公司很先進,已經(jīng)實現(xiàn)了業(yè)務(wù)信息化,每一筆銷售單據(jù)都保存在數(shù)據(jù)庫中,日積月累,已經(jīng)保存了十余年的銷售數(shù)據(jù),上億條銷售記錄。 這時如果我問你:“反正三年前的數(shù)據(jù)留著也白白占地方,耗費存儲成本,索性把它們?nèi)珓h掉吧,這樣不用買硬盤就能容納新數(shù)據(jù),如何?” 你會從容的接受我這個建議嗎? 我們的直覺告訴我們:這些數(shù)據(jù)有用! 但這僅僅是一種直覺,到底該怎樣把這些占據(jù)大量存儲空間的數(shù)據(jù)的價值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤的促進者?BI閃亮登場場沒錯,選擇BI來實現(xiàn).BI(BusinessIntelligence)是一種運運用了數(shù)數(shù)據(jù)倉庫庫、
2、在線線分析和和數(shù)據(jù)挖挖掘等技技術(shù)來處處理和分分析數(shù)據(jù)據(jù)的嶄新新技術(shù),目的是是為企業(yè)業(yè)決策者者提供決決策支持持。BI應(yīng)用的兩兩大類別別是信息類應(yīng)應(yīng)用DW(數(shù)據(jù)倉庫庫)和知識類應(yīng)應(yīng)用KDD(數(shù)據(jù)挖掘掘)。BI是種技術(shù)術(shù),或者說是是解決方方案.而不是某某種工具具。BI應(yīng)用行業(yè)業(yè)行業(yè)分布布銀行、通通信、證證券、保保險、能能源、煙煙草工廠、礦礦場、醫(yī)醫(yī)療衛(wèi)生生零售、快快消品電子商務(wù)務(wù)、電子子政務(wù)使用特點點目前大部部分用戶戶主要集集中在信信息類應(yīng)應(yīng)用,即數(shù)據(jù)查詢詢+報表展示示+OLAP分析的合合理,其主要目目的即減減輕手工報報表制作作的壓力力,提高工作作效率.少量用戶戶(金融,通信,能源)集中在數(shù)數(shù)據(jù)挖掘
3、掘.BI國內(nèi)應(yīng)用用難點BI工具在中中國遇到到的難題題:*復雜表樣樣:中國的表表樣設(shè)計計思想與與西方不不同,西西方報表表傾向于于僅用一一張報表表說明一一個問題題,而中中國的報報表傾向向于將盡盡可能多多的問題題集中在在一張報報表中,這種思思路直接接導致了了中國報報表的復復雜格式式和詭異異風格,同時導致致在國外外大受歡歡迎的水水晶報表表水土不不服。*大數(shù)據(jù)量量:中國是世世界上人人口最多多的國家家。以中中國移動動公司為為例,僅僅我國一一個省的的用戶數(shù)數(shù)量,就就相當于于歐洲一一個中等等國家的的人口,是真正正的海量量數(shù)據(jù)!國外數(shù)數(shù)據(jù)庫、數(shù)據(jù)倉倉庫和BI應(yīng)用軟件件,都在在中國經(jīng)經(jīng)受著大大數(shù)據(jù)量量承載能能力的
4、考考驗。*數(shù)據(jù)回寫寫:中國是世世界上對對BI系統(tǒng)要求求最奇特特的國家家。本來來BI系統(tǒng)是以以忠實再再現(xiàn)源數(shù)數(shù)據(jù)為原原則,但但這個原原則在中中國遇到到了難題題,許多多領(lǐng)導都都提出了了數(shù)據(jù)修修改需求求。筆者者曾經(jīng)經(jīng)經(jīng)歷,挨罵頗多多。BI應(yīng)用分類類 信息類BI應(yīng)用(數(shù)據(jù)倉庫)知識類BI應(yīng)用(數(shù)據(jù)挖掘)報表&圖表&地圖&中國式報表數(shù)據(jù)挖掘探察數(shù)據(jù)規(guī)律自助樣式報表數(shù)據(jù)挖掘數(shù)據(jù)建模&預(yù)測多維聯(lián)機分析(OLAP)BI實現(xiàn)過程程后端(ETL)前端(報表開發(fā))源數(shù)據(jù)分析與探索Portal建設(shè)ODS建設(shè)模型與報表開發(fā)DW(數(shù)據(jù)倉庫)OLAP分析(CUBE建設(shè))DM(數(shù)據(jù)集市)DM(數(shù)據(jù)挖掘)BI實現(xiàn)過程=前端+后
5、端=源數(shù)據(jù) + ODS + DW + DM + OLAP + Report + DMBI實施開發(fā)發(fā)常用工工具實施過程 工具源數(shù)據(jù)分析與探索SQL腳本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle, Beeload,ODI數(shù)據(jù)同步(源-ODS)Informatica(PWX), GoldenGateODS&DW&DM(關(guān)系型)MS SQL, Oracle,DB2 其他(MYSQL, Teradata)數(shù)據(jù)質(zhì)量管理Informatica(IDQ)報表開發(fā)工具SAP BO,COGNOS,水晶報表/易表,OBIEE,Brio, QlikView,SASSma
6、rtbi, POWER-BI, FinereportSpagoBI, OpenIOLAP開發(fā)工具Cognos(Powerplay)、Hyperion (Essbase)、微軟(Analysis Service)以及MicroStrategy報表開發(fā)組件FusionCharts,JFreeChart, MsChartPortal開發(fā)語言(平臺)JAVA, .NET, PHP數(shù)據(jù)挖掘工具SAS, SPSS Clementine, MATLABBI架構(gòu)圖-1-無ODSBI架構(gòu)圖-2元數(shù)據(jù)組組成(Meta data)業(yè)務(wù)系統(tǒng)統(tǒng)到數(shù)據(jù)據(jù)倉庫數(shù)據(jù)倉庫庫數(shù)據(jù)展現(xiàn)現(xiàn)工具ETLTargetDatabaseFro
7、nt-EndTool ETL人事銷售庫存財務(wù)RDBMSODS/StagingAreaRDBMS數(shù)據(jù)倉庫庫數(shù)據(jù)集市市企業(yè)經(jīng)營營分析客戶關(guān)系系管理業(yè)務(wù)流程程分析財務(wù)分析析Metadata外部系統(tǒng)統(tǒng)StatisticsClusteringNeural NetsArtificialIntelligence業(yè)務(wù)股東管理OLAP支持源系統(tǒng)類類型常見源系統(tǒng)數(shù)據(jù)類型關(guān)系型數(shù)據(jù)庫ACCESS、SQL SERVER、ORACLE、DB2TERADATA、GREEN PLUM、MY SQL平面文件(Flat file)EXCEL、TXTXML、HTML其他數(shù)據(jù)COBOL FILESAPORACLE EBS相關(guān)概念:
8、OLTP,OLAP2. 透明網(wǎng)關(guān)(異構(gòu)源與目標的ETL)3. 元數(shù)據(jù)(業(yè)務(wù)元數(shù)據(jù),技術(shù)元數(shù)據(jù))ODSODS(OperationalDataStore)特征:ODS只是存放放當前或或接近當當前的數(shù)數(shù)據(jù)1) 在業(yè)業(yè)務(wù)系統(tǒng)統(tǒng)和數(shù)據(jù)據(jù)倉庫之之間形成成一個隔隔離層;減輕ETL對源系統(tǒng)統(tǒng)壓力,相當于緩緩沖區(qū).2) 轉(zhuǎn)移移一部分分業(yè)務(wù)系統(tǒng)明細細查詢的功能3)外部數(shù)數(shù)據(jù)/文件的臨臨時存放放4)出報表表,例如客戶保單單今天如如果到期期則發(fā)送送預(yù)警報報表.DW-數(shù)據(jù)倉庫庫DW,即數(shù)據(jù)據(jù)倉庫(Data Warehouse)特征:面向主題題的、集集成的、相對穩(wěn)穩(wěn)定的、反映歷歷史變化化的數(shù)據(jù)據(jù)集合.實際上. DW是多個
9、表表的集合合,由多個維維表與事事實表組組成.維度: 事物的某個方面,如時間、區(qū)域、供應(yīng)商2. 度量/指標: 需要分析的量,如銷量、庫存、價格、積分3. 粒度:數(shù)據(jù)表中數(shù)據(jù)細化的程度,如到月、周、天等4. 事實表、維度表5. 代理鍵、退化維6. 緩慢維度變化13維度:是一個與與業(yè)務(wù)相相關(guān)的觀觀察角度度依賴于數(shù)數(shù)據(jù)的有有效性和和表達業(yè)業(yè)務(wù)成效效的關(guān)鍵鍵性能指指標能夠回答答類似下下列問題題:業(yè)務(wù)的每個方面可構(gòu)構(gòu)造成一個維度,例如:時間維維度由年年、季度度、月、周和天天構(gòu)成。所有的的維度在在一起提提供了業(yè)業(yè)務(wù)的多多維視圖圖。這個個多維視視圖的數(shù)數(shù)據(jù)被存存為一個個立方體體。一個維度度是管理員從從數(shù)據(jù)倉倉
10、庫提取取的有效效信息,并在同同一個前前題下以以層的方式構(gòu)構(gòu)造形成成。例如如:地區(qū)維度下有有地域、國家、辦事處、銷售員4層。WhoWhatWhereWhen什么是維維度?企業(yè)收集集和存儲儲的將用用于評價價業(yè)務(wù)狀狀況的數(shù)值性數(shù)據(jù)例如:銷售額成本利潤庫存量交易數(shù)在企業(yè)活活動中通通常是通通過如銷銷售額、費用、業(yè)務(wù)指指標、庫庫存量和和定額一一類的關(guān)關(guān)鍵性能能指標-度量來監(jiān)測業(yè)業(yè)務(wù)的成成效。不同的度度量能夠夠反映出出不同的的業(yè)務(wù)性性質(zhì)。例如:假假設(shè)針對對企業(yè)的的關(guān)鍵成成功因素素是客戶戶的滿意意度。那那么,對對于產(chǎn)品品制造商商來說,可能要要通過及時運輸輸貨物來來衡量它它;而客戶戶服務(wù)部部門可能能要用電話支持
11、持回應(yīng)時時間來衡衡量它。Howmuch什么是度量?1. 度量在日常業(yè)務(wù)中相當于指標, 如KPI指標2. 指標分為基礎(chǔ)指標和計算指標,如銷量同金額3. 計算指標請注意after roll up 與 befor roll upDM-數(shù)據(jù)集市市DM,即數(shù)據(jù)集集市(Data Mart)是企業(yè)級級數(shù)據(jù)倉庫庫的一個子子集,它它主要面面向部門門級業(yè)務(wù)務(wù),并且且只面向向某個特特定的主主題.不同行業(yè)業(yè)數(shù)據(jù)集集市的規(guī)規(guī)模不同同,如移動行行業(yè)數(shù)據(jù)據(jù)集市比比很多企企業(yè)的數(shù)數(shù)據(jù)倉庫庫規(guī)模還還要大.數(shù)據(jù)集市特征面向部門/機構(gòu),如財務(wù)部,人力資源部,市場部星型結(jié)構(gòu)或雪花結(jié)構(gòu)匯總數(shù)據(jù)(粒度較低)數(shù)據(jù) 倉庫數(shù)據(jù)集市數(shù)據(jù)集市DM
12、數(shù)據(jù)結(jié)構(gòu)構(gòu)-星型星型架構(gòu)構(gòu):是一種非非正規(guī)化化的結(jié)構(gòu)構(gòu),多維維數(shù)據(jù)集集的每一一個維度度都直接接與事實實表相連連接,不不存在漸漸變維度度,所以以數(shù)據(jù)有有一定的的冗余,但效率較較高.優(yōu)點:查詢效率率較高DM數(shù)據(jù)結(jié)構(gòu)構(gòu)-雪花雪花模型型雪花模型型是對星星型模型型的擴展展。它對對星型模模型的維維表進一一步層次次化,原原有的各各維表可可能被擴擴展為小小的事實實表,形形成一些些局部的的層次區(qū)域,這這些被分分解的表表都連接接到主維維度表而而不是事事實表。優(yōu)點:通過最大大限度地地減少數(shù)數(shù)據(jù)存儲儲量以及及聯(lián)合較較小的維維表來改改善查詢詢性能。OLAPOLAP(On-Line AnalyticalProcessin
13、g)OLAP是使分析析人員、管理人人員或執(zhí)執(zhí)行人員員能夠從從多角度度對信息息進行快快速、一一致、交交互地存存取,從而獲得得對數(shù)據(jù)據(jù)的更深深入了解解的一類類軟件技技術(shù)。OLAP的基本多多維分析析操作有有鉆取(roll up和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)轉(zhuǎn)(pivot)、drillacross、drill through等。OLAP有多種實實現(xiàn)方法法,根據(jù)據(jù)存儲數(shù)數(shù)據(jù)的方方式不同同可以分分為ROLAP、MOLAP、HOLAP。常用OLAP工具:有HyperionEssbase,MicrosoftSQL ServerOLAP Services,CognosTS
14、,MicroStrategyOLAP應(yīng)用圖示示使用向下下鉆取(DrillDown)、切片和旋旋轉(zhuǎn)(SliceandDice)以及改變變顯示方方式來探探察數(shù)據(jù)據(jù)大區(qū)省份城市 向下鉆取產(chǎn)品區(qū)域切片和旋轉(zhuǎn)Change Displays 改變顯示相關(guān)概念:切塊,切片,旋轉(zhuǎn),上鉆,下鉆2. CUBE3. 層級數(shù)據(jù)挖掘掘數(shù)據(jù)挖掘掘(Data Mining,DM)又稱數(shù)數(shù)據(jù)庫中中的知識識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)數(shù)據(jù)挖掘掘是一種種決策支支持過程程,它主主要基于于人工智智能、機機器學習習、模式式識別、統(tǒng)計學學、數(shù)據(jù)據(jù)庫、可可視化技技術(shù)等,高度自自動化地地分析企企業(yè)的
15、數(shù)數(shù)據(jù),做做出歸納納性的推推理,從從中挖掘掘出潛在在的模式式,幫助助決策者者調(diào)整市市場策略略,減少少風險,做出正正確的決決策。數(shù)據(jù)挖掘掘就是從從大量的的、不完完全的、有噪聲聲的、模模糊的、隨機的的實際應(yīng)應(yīng)用數(shù)據(jù)據(jù)中,提提取隱含含在其中中的、人人們事先先不知道道的、但但又是潛潛在有用用的信息息和知識識的過程程。數(shù)據(jù)挖掘掘技術(shù)分類。分類是找找出數(shù)據(jù)據(jù)庫中一一組數(shù)據(jù)據(jù)對象的的共同特特點并按按照分類類模式將將其劃分分為不同同的類,如一個個汽車零售商將客戶按按照對汽汽車的喜喜好劃分分成不同同的類,這樣營營銷人員員就可以以將新型型汽車的的廣告手手冊直接郵寄寄到有這種種喜好的的客戶手手中,從從而大大大增加了
16、了商業(yè)機機會。回歸?;貧w分析析方法反反映的是是事務(wù)數(shù)數(shù)據(jù)庫中中屬性值值在時間間上的特特征,產(chǎn)產(chǎn)生一個個將數(shù)據(jù)據(jù)項映射射到一個個實值預(yù)預(yù)測變量量的函數(shù)數(shù),等。它可以以應(yīng)用到到市場營銷銷的各個方方面,如如客戶尋尋求、保保持和預(yù)預(yù)防客戶戶流失活活動、產(chǎn)品生命命周期分析、銷銷售趨勢勢預(yù)測及及有針對對性的促銷活動等。聚類。聚類分析析是把一一組數(shù)據(jù)據(jù)按照相相似性和和差異性性分為幾幾個類別別。它可可以應(yīng)用用到客戶戶群體的的分類、客戶背背景分析析、客戶戶購買趨趨勢預(yù)測測、市場場的細分分等發(fā)現(xiàn)現(xiàn)變量或或?qū)傩蚤g間的依賴賴關(guān)系,其主要要研究問問題包括括數(shù)據(jù)序序列的趨趨勢特征征、數(shù)據(jù)據(jù)序列的的預(yù)測以以及數(shù)據(jù)據(jù)間的相相
17、關(guān)關(guān)系系。關(guān)聯(lián)規(guī)則則。關(guān)聯(lián)規(guī)則則是描述述數(shù)據(jù)庫庫中數(shù)據(jù)據(jù)項之間間所存在在的關(guān)系系的規(guī)則則,即根根據(jù)一個個事務(wù)中中某些項項的出現(xiàn)現(xiàn)可導出出另一些些項在同同一事務(wù)務(wù)中也出出現(xiàn),即即隱藏在在數(shù)據(jù)間間的關(guān)聯(lián)聯(lián)或相互互關(guān)系。在客戶關(guān)系系管理中,通過過對企業(yè)業(yè)的客戶數(shù)據(jù)據(jù)庫里的大量量數(shù)據(jù)進進行挖掘掘,可以以從大量量的記錄錄中發(fā)現(xiàn)現(xiàn)有趣的的關(guān)聯(lián)關(guān)關(guān)系,找找出影響響市場營營銷效果果的關(guān)鍵鍵因素,為產(chǎn)品品定位、定價與與定制客客戶群,客戶尋尋求、細細分與保保持,市市場營銷銷與推銷銷,營銷風險險評估和詐詐騙預(yù)測測等決策策支持提提供參考考依據(jù)。Web頁挖掘。隨著Internet的迅速發(fā)發(fā)展及Web的全球普普及,使使得
18、Web上的信息量無比豐富富,通過過對Web的挖掘,可以利利用Web的海量數(shù)數(shù)據(jù)進行行分析,收集政政治、經(jīng)濟、政策、科技、金融、各種市市場、競爭對手手、供求信信息、客客戶等有有關(guān)的信信息,集集中精力力分析和和處理那那些對企企業(yè)有重重大或潛潛在重大大影響的的外部環(huán)環(huán)境信息息和內(nèi)部部經(jīng)營信信息.案例-相關(guān)/回歸分析析廣告支付付和銷售售量的相關(guān)性性分析線性方程程:銷售量量(因)= 6.584 +1.071*廣告費用用(自)二次曲線線方程:銷銷售量= 3.903 +2.854*廣告費用用 0.245 *廣告費用用算法與案案例二次曲線線擬合今后某一一年汽車車價格馬爾可夫夫鏈預(yù)測股票票或期貨貨價格決策樹在銀行風風險預(yù)警警中的應(yīng)應(yīng)用BI項目如何何實施-不含數(shù)據(jù)據(jù)挖掘8.測試2.項目立項
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版指標房屋銷售協(xié)議條款版
- 二手房交易中介協(xié)議合同范本(2024版)
- 2025年度銷售業(yè)務(wù)員兼職崗位員工激勵與績效改進合同2篇
- 二零二五年度別墅景觀綠化養(yǎng)護合同3篇
- 二零二五版國際會展中心物業(yè)全面服務(wù)與管理協(xié)議3篇
- 專業(yè)廣告代理服務(wù)協(xié)議(2024版)版A版
- 2024項目合作中間人傭金協(xié)議書
- 二零二五年度雞苗運輸時間優(yōu)化及效率提升合同3篇
- 二零二五版?zhèn)€人汽車銷售代理合同模板3篇
- 二零二五年度二手汽車租賃與環(huán)保節(jié)能服務(wù)合同3篇
- 人教版八年級物理-第二章:聲現(xiàn)象復習完整課件
- 直播代運營服務(wù)合同范本版
- 2024年江蘇蘇州中考數(shù)學試卷及答案
- 2024年山東省高中自主招生數(shù)學模擬試卷試題(含答案)
- 算術(shù)平方根2課件
- 【人教版】九年級化學上冊期末試卷及答案【【人教版】】
- 四年級數(shù)學上冊期末試卷及答案【可打印】
- 人教版四年級數(shù)學下冊課時作業(yè)本(含答案)
- 中小學人工智能教育方案
- 高三完形填空專項訓練單選(部分答案)
- 護理查房高鉀血癥
評論
0/150
提交評論