




已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)倉庫實踐系列課程 第一課昨夜西風凋碧樹 獨上高樓 望盡天涯路 王國維在 人間詞話 說 古今之成大事業(yè) 大學問者 必經(jīng)過三種之境界 昨夜西風凋碧樹 獨上高樓 望盡天涯路 此第一境也 衣帶漸寬終不悔 為伊消得人憔悴 此第二境也 眾里尋他千百度 驀然回首 那人卻在 燈火闌珊處 此第三境也 王國維認為治學第一境界 昨夜西風凋碧樹 獨上高樓 望盡天涯路 這詞句出晏殊的 蝶戀花 原意是說 我 上高樓眺望所見的更為蕭颯的秋景 西風黃葉 山闊水長 案書何達 在王國維此句中解成 做學問成大事業(yè)者 首先要有執(zhí)著的追求 登高望遠 瞰察路徑 明確目標與方向 了解事物的概貌 王的治學第二境界是說 衣帶漸寬終不悔 為伊消得人憔悴 這引用的是北宋柳永 蝶戀花 最后兩句詞 原詞是表現(xiàn)作者對愛的艱辛和愛的無悔 若把 伊 字理解為詞人所追求的理想和畢生從事的事業(yè) 亦無不可 王國維以此兩句來比喻成大事業(yè) 大學問者 不是輕而易舉 隨便可得的 必須堅定不移 經(jīng)過一番辛勤勞動 廢寢忘食 孜孜以求 直至人瘦帶寬也不后悔 王的治學第三境界是說 眾里尋他千百度 驀然回首 那人卻在 燈火闌珊處 是引用南宋辛棄疾 青玉案 詞中的最后四句 王國維以此詞最后的四句為 境界 之第三 即最終最高境界 要達到第三境界 必須有專注的精神 反復追尋 研究 下足功夫 自然會豁然貫通 課程安排 一 總學時 15學時 其中12學時理論 3學時聯(lián)系 課后作業(yè)估計有5學時 二 考核方法 平時考勤 30分理論答題 30分隨堂練習 20分課后作業(yè) 20分 三 教材 數(shù)據(jù)倉庫生命周期工具箱 kimball等著 清華大學出版社 數(shù)據(jù)倉庫工具箱 維度建模權威指南 kimball等著 清華大學出版社 四 教學方法講師講解課程 布置家庭作業(yè) 利用網(wǎng)絡資源完成講師制定任務 隨堂作業(yè) 現(xiàn)場完成作業(yè)結業(yè)考試 檢查教學成果綜合練習 提升學習成果 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個解決方案 數(shù)據(jù)倉庫幾種常見架構 數(shù)據(jù)倉庫類項目中人員配置 個人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財富挖掘潛力無限 錄 初識數(shù)據(jù)倉庫 基本概念 1 Kimball生命周期導圖 小明的大學生活 你們認識小明嗎 小明 男 南京人 父母在職 數(shù)學系五班 大二 輔導員李華 小明 喜歡吃混沌 口味便辣 每周必有三次吃拉面 每半月吃3一次魚 幾乎每個2天吃一次肉類食物 體重75KG 身高170 偏胖 需要改善食物結構 小明 每周二 四 六 日 22點后回校 在外承接的家教任務 家境條件困難 申請貧困獎學金 小明 學習成績良 離散數(shù)學成績不好 統(tǒng)籌學成績最佳 有3們課程優(yōu)秀 1門課程掛科 體育成績一般 小明 身體健康狀況正常 頸椎僵硬 小明 多在晚上7點30分進入圖書館自習 雖然是數(shù)學系 但喜歡歷史和物理 本學期借閱歷史書籍32次 物理數(shù)據(jù)28次 小明 積極參加課外活動 涉及足球 演講比賽 圍棋 曾獲得班級級別獎勵5次 其一等獎1次 二等獎2層i 院系級獎勵1次 小明參加工作5年后的求職簡歷 知識導引 什么是數(shù)據(jù)倉庫 什么是DSS 什么是經(jīng)營分析 什么是EIS 什么是OLTP OLAP 什么是BI BO COGNOS 安訊 BRIO Teradata SAS SPSS 數(shù)據(jù)倉庫系統(tǒng) BI 90年代提出 90年代中形成潮流 BI描述了一系列的概念和方法 通過應用基于事實的支持系統(tǒng)來輔助商業(yè)決策的制定 GartnerGroup1996商業(yè)智能領域 DSS OLAP 數(shù)據(jù)倉庫 ETL 數(shù)據(jù)集市 數(shù)據(jù)挖掘 商業(yè)建模 為提高企業(yè)運營性能而采用的一系列方法 技術和軟件的總和 70年代 70年代提出 80年代得到發(fā)展 數(shù)據(jù)倉庫產(chǎn)生背景 需求的變化業(yè)務系統(tǒng)的建設逐漸完善分析類需求不斷增加不斷增加的信息孤島導致數(shù)據(jù)集成問題不斷增加技術發(fā)展狀況關系數(shù)據(jù)庫技術日趨成熟報表和復雜查詢處理起來非常困難各個系統(tǒng)之間數(shù)據(jù)不一 OLTP系統(tǒng) 生產(chǎn)系統(tǒng) 面向應用事務驅動的實時性高數(shù)據(jù)檢索量相對少只存當前數(shù)據(jù)數(shù)據(jù)倉庫系統(tǒng) 決策系統(tǒng) 面向主題分析和決策實時性要求不是特別高數(shù)據(jù)檢索量大存儲大量的歷史數(shù)據(jù)和當前數(shù)據(jù) 數(shù)據(jù)倉庫為用戶提供多樣的功能需求 數(shù)據(jù)倉庫理論的形成 數(shù)據(jù)倉庫的定義 數(shù)據(jù)倉庫 DataWarehouse 是一個面向主題的 SubjectOriented 集成的 Integrated 相對穩(wěn)定的 Non Volatile 反映歷史變化 TimeVariant 的數(shù)據(jù)集合 用于支持管理決策 DecisionMakingSupport BillInmon 什么是數(shù)據(jù)倉庫 相關概念 以DataWarehouse技術為基礎 以OLAP和DataMining工具為手段實施的一套解決方案 DSS DecisionSupportSystem 相關概念 EIS 主管信息系統(tǒng) ExecutiveInformationSystem 指為了滿足無法專注于計算機技術的領導人員的信息查詢需求 而特意制定的以簡單的圖形界面訪問數(shù)據(jù)倉庫的一種應用 ETL 數(shù)據(jù)抽取 Extract 轉換 Transform 裝載 Load 的過程 它是構建數(shù)據(jù)倉庫的重要環(huán)節(jié) DataMart為了特定的應用目的或應用范圍 而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù) 也可稱為部門數(shù)據(jù)或主題數(shù) subjectarea 經(jīng)營分析系統(tǒng) BusinessAnalysisSupportSystem 元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù) 可將其按用途的不同分為技術元數(shù)據(jù) 業(yè)務元數(shù)據(jù)和管理元數(shù)據(jù) 數(shù)據(jù)質量 數(shù)據(jù)質量管理平臺能夠使得數(shù)據(jù)質量管理流程自動化 集中化 智能化ROLAP 關系型在線分析處理 MOLAP 多維在線分析處理 HOLAP 混合型線上分析處理 數(shù)據(jù)倉庫的特點 分布式 數(shù)據(jù)集市 集中式 數(shù)據(jù)倉庫 垂直 水平 數(shù)據(jù)倉庫與數(shù)據(jù)集市的業(yè)務分析能力 DW DM的流派之爭 BillInmon與RalphKimball 雙方的觀點 圍繞主題來組織數(shù)據(jù)倉庫中的數(shù)據(jù) 每個主題區(qū)域僅僅包含該主題相關的信息 數(shù)據(jù)倉庫應該一次增加一個主題 并且當需要容易地訪問多個主題時 創(chuàng)建以數(shù)據(jù)倉庫為來源的數(shù)據(jù)集市 數(shù)據(jù)倉庫是數(shù)據(jù)集市的聯(lián)合 通過一系列相同維度定義的數(shù)據(jù)集市遞增地構建數(shù)據(jù)倉庫 而每個數(shù)據(jù)集市通過聯(lián)合多個數(shù)據(jù)源來滿足特定的業(yè)務需求 自上而下 自下而上和自上而下的結合 雙方的觀點 使用數(shù)據(jù)集市聯(lián)合的方式 開始會帶來極高的用戶體驗 但隨著數(shù)據(jù)集市的增多 會形成網(wǎng)狀結構 建設重復 數(shù)據(jù)質量變差 使用數(shù)據(jù)總線的結構來控制數(shù)據(jù)集市點建設 所有的數(shù)據(jù)集市在一套總線環(huán)境中 有相同的維度定義 故既可以迅速部署 滿足業(yè)務需求 也可以規(guī)范的形成數(shù)據(jù)倉庫 Inmon Kimball 維度 對數(shù)據(jù)進行分類的一種結構 用于從特定的角度觀察數(shù)據(jù) 例如 時間 地區(qū) 產(chǎn)品 維度的兩個用途選擇針對期望詳細程度的層次的數(shù)據(jù) 分組對細節(jié)數(shù)據(jù)綜合 聚集 到相應的詳細程度的數(shù)據(jù)層次 維的組織方式 維層次路徑 HIERARCHY 維層次路徑由代表不同詳細程度的維層次 Level 組成 維的層次 特定角度的不同細節(jié)程度 基本概念 維度 度量 指標 數(shù)據(jù)的實際意義 一般是一個數(shù)值度量指標例如 銷售量 銷售額 一個度量的兩個組件數(shù)字型指標聚集函數(shù) CUBE 一個多維模型構成的多維數(shù)據(jù)空間我們將其稱做數(shù)據(jù)立方體 Cube 其邏輯上相當于一個多維數(shù)組 基本概念 度量 cube 這個方格代表在某個時間 某個地區(qū)通過某個銷售渠道所銷售的產(chǎn)品的銷售額 基本概念 多維數(shù)據(jù)模型 多維模型通常用Cube來表示 多維模型可以更加直觀的表示現(xiàn)實中的復雜關系多維模型的基本組成 維 度量 舉例 計算每一個商場 每個產(chǎn)品的銷售額維 Dimension 維層次路徑 維層次 維成員 維實例 維層次屬性度量 Measure 數(shù)據(jù)立方體 Cube 切片Slice 基本概念 多維分析基本動作 切片 切塊 切塊Dice 旋轉Rotate 基本概念 多維分析基本動作 旋轉 鉆取 鉆取Rollup Drilldown 基本概念 多維數(shù)據(jù)模型的實現(xiàn)技術 RelationalOLAP ROLAP 利用關系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù)和聚合數(shù)據(jù) 并利用一些中間件來支持缺失數(shù)據(jù)的處理具有良好的可擴展性MultidimensionalOLAP MOLAP 利用多維數(shù)據(jù)庫來存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù) 其中需要對稀疏矩陣處理技術對預綜合的數(shù)據(jù)進行快速索引HybridOLAP HOLAP 利用關系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù) 利用多維數(shù)據(jù)庫來存儲和管理聚合數(shù)據(jù) 基本概念 OLTP與OLAP 針對特定問題的聯(lián)機數(shù)據(jù)訪問和數(shù)據(jù)分析技術滿足對數(shù)據(jù)進行多角度 快速 一致 交互 深入觀察使用預定義的多維數(shù)據(jù)視圖對數(shù)據(jù)進行分析處理 支持對數(shù)據(jù)的切片 切塊 鉆取 多維數(shù)據(jù)庫是一種以多維數(shù)據(jù)存儲形式來組織數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng) 在使用時需要將數(shù)據(jù)從關系數(shù)據(jù)庫中轉載到多維數(shù)據(jù)庫中方可訪問 也稱為面向交易的處理系統(tǒng) 其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理 并在很短的時間內給出處理結果 這樣做的最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù) 及時地回答 也稱為實時系統(tǒng) RealtimeSystem 衡量聯(lián)機事務處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能 具體體現(xiàn)為實時響應時間 ResponseTime 即用戶在終端上送入數(shù)據(jù)之后 到計算機對這個請求給出答復所需要的時間 OLTP數(shù)據(jù)庫旨在使事務應用程序僅寫入所需的數(shù)據(jù) 以便盡快處理單個事務 On LineAnalyticalProcessing On LineTransactionProcessing MOLAP表示基于多維數(shù)據(jù)組織的OLAP實現(xiàn) MultidimensionalOLAP ROLAP表示基于關系數(shù)據(jù)庫的OLAP實現(xiàn) RelationalOLAP ROLAPvsMOLAP 基本概念 星型模式 StarSchema 星形模式是一種多維的數(shù)據(jù)關系 它由一個事實表 FactTable 和一組維表 DimensionTable 組成 每個維表都有一個維作為主鍵 所有這些維的主鍵組合成事實表的主鍵 事實表的非主鍵屬性稱為事實 Fact 它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù) 而維大都是文字 時間等類型的數(shù)據(jù) 按這種方式組織好數(shù)據(jù)我們就可以按照不同的維 事實表主鍵的部分或全部 來對這些事實數(shù)據(jù)進行求和 summary 求平均 average 計數(shù) count 百分比 percent 的聚集計算 甚至可以做20 80分析 這樣就可以從不同的角度數(shù)字來分析業(yè)務主題的情況 基本概念 雪花模式 SnowFlakeSchema 雪花模型 當有一個或多個維表沒有直接連接到事實表上 而是通過其他維表連接到事實表上時 其圖解就像多個雪花連接在一起 故稱雪花模型 雪花模型是對星型模型的擴展 它對星型模型的維表進一步層次化 原有的各維表可能被擴展為小的事實表 形成一些局部的 層次 區(qū)域 這些被分解的表都連接到主維度表而不是事實表 相比星型模型 雪花模型的特點是貼近業(yè)務 數(shù)據(jù)冗余較少 但由于表連接的增加 導致了效率相對星星模型來的要低一些 基本概念 事實星座形 事實星座形 一種常見的數(shù)據(jù)倉庫的概念模型 這種模型往往應用于數(shù)據(jù)關系比星型模型和雪花模型更復雜的場合 事實星座模型需要多個事實表共享維度表 因而可以視為星形模型的集合 故亦被稱為星系模型 基本概念 數(shù)據(jù)架構 數(shù)據(jù)架構包含內容有 1 數(shù)據(jù)流架構 設計數(shù)據(jù)流層次及每個層次間的關系2 數(shù)據(jù)管理架構 需要依據(jù)數(shù)據(jù)使用頻率和價值考慮歷史存儲方式 存儲粒度 數(shù)據(jù)集市的粒度與事實表的冗余 3 業(yè)務數(shù)據(jù)架構 設計模型時 需要考慮表的拆分與合并 字段的派生與去冗 關注業(yè)務過程 4 數(shù)據(jù)安全架構 一般安全管理分為操作系統(tǒng)級 數(shù)據(jù)庫級 Schema級 表 視圖級 數(shù)據(jù)級 行數(shù)據(jù) 以及BI界面控制級別 CUBE控制等多個層次 這里主要說的是數(shù)據(jù)行級 基本概念 元數(shù)據(jù) 基本概念 元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù) 其內容主要包括數(shù)據(jù)的格式 結構 約束 加工過程 部署情況等 元數(shù)據(jù)管理包括元數(shù)據(jù)采集與關聯(lián) 元數(shù)據(jù)信息維護 標準代碼及術語信息維護等內容 對元數(shù)據(jù)的分析包括血緣分析 影響分析等 元數(shù)據(jù) 業(yè)務元數(shù)據(jù) 業(yè)務屬性 業(yè)務實體 數(shù)據(jù)質量業(yè)務規(guī)則 技術元數(shù)據(jù) 列 字段 表 視圖 文件 數(shù)據(jù)庫 文件服務器 數(shù)據(jù)質量控制規(guī)則 數(shù)據(jù)映射邏輯 業(yè)務指標 企業(yè)級數(shù)據(jù)模型 數(shù)據(jù)規(guī)范定義 數(shù)據(jù)質量 貸款余額的定義 貸款合同的定義 還款日期 貸款日期 CAPMCURBAL CAPM db2 sybase oracle Len 身份證 15或18 ETL過程 不良貸款率的口徑 指標體系 報表體系 數(shù)據(jù)質量 包含子項 示例 關聯(lián)工作 數(shù)據(jù)架構 DataWarehouse ArtificialIntelligence DataMart OLAP DecisionSupportSystem DataMining OperationDatabase BusinessIntelligentSystem DatabaseSystem 各種概念之間的關系 作業(yè)一 搜集右圖中涉及的概念含義 提交 數(shù)據(jù)倉庫相關重要術語定義 作業(yè)二 企業(yè)什么樣要建立數(shù)據(jù)倉庫 提交一頁紙內容進行說明 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個解決方案 數(shù)據(jù)倉庫幾種常見架構 數(shù)據(jù)倉庫類項目中人員配置 個人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財富挖掘潛力無限 錄 初始數(shù)據(jù)倉庫 基本概念 1 Kimball生命周期導圖 數(shù)據(jù)倉庫是一個建設過程 不是一個產(chǎn)品 是一個持續(xù)的過程 35 數(shù)據(jù)倉庫是一個解決方案 多層結構體現(xiàn)可擴展架構 DataWarehouse OLAP引擎 AnalysisQueryReportsDatamining Monitor Integrator Metadata 數(shù)據(jù)源 前端工具 Serve DataMarts 數(shù)據(jù)存儲 OLAPServer 數(shù)據(jù)倉庫解決方案 群雄逐鹿1 數(shù)據(jù)倉庫解決方案 群雄逐鹿2 數(shù)據(jù)倉庫解決方案 群雄逐鹿3 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 商業(yè)工具篇 建模工具 Powerdesigner ErwinETL工具 用于數(shù)據(jù)的集成和處理Datastage Infomatic Automation數(shù)據(jù)質量工具 一般集成在ETL工具中分析工具 報表工具 BO COGNOS 安訊 潤乾 BRIOOLAP工具 COGNOS BOBI分析門戶 一般集成在分析工具中數(shù)據(jù)挖掘工具 SAS SPSS元數(shù)據(jù)管理工具 metacenter 石竹 CA Infomatic 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 報表工具 EclipseBIRTEclipse下面的一個企業(yè)智能和報表工具 能為J2EE的WEB應用程序創(chuàng)建漂亮醒目的PDF或者HTML格式的報表 它提供了核心的報表功能JasperReportsJava報表工具 始于2001 現(xiàn)在JasperSoft公司持續(xù)開發(fā)和支持該工具 該工具類似于商業(yè)軟件CrystalReport 支持PDF HTML XLS CSV和XML文件輸出格式 現(xiàn)在是Java開發(fā)者最常用的報表工具 JFreeReport現(xiàn)在是Pentaho的一部分 它是一個優(yōu)秀的用來生成報表的Java類庫 它為Java應用程序提供一個靈活的打印功能并支持輸出到打印機和PDF Excel HTML和XHTML PlainText XML和CSV文件中 Mondrian是Pentaho的一部分 為一個用Java開發(fā)的OLAP服務器 實現(xiàn)了MDX語言 XML解析和JOLAP規(guī)范 可以不寫SQL就能分析存儲于SQL數(shù)據(jù)庫的龐大數(shù)據(jù)集 可以封裝JDBC數(shù)據(jù)源并把數(shù)據(jù)以多維的方式展現(xiàn)出來JPivot一個JSP自定制的標簽庫 可以繪制一個OLAP表格和圖表 用戶可以執(zhí)行典型的OLAP導航 如下鉆 切片和方塊 它使用Mondrian作為其OLAP服務器 它使用WCF WebComponentFramework 基于XML XSLT來渲染W(wǎng)ebUI組件 KETL由具有IBM和KPMG背景的KineticNetworks公司開發(fā) 現(xiàn)在已經(jīng)有三年多的產(chǎn)品應用歷史 成功應用于一些產(chǎn)品中 在點擊流 ClickStream 分析應用中表現(xiàn)出色 KETL采用Plug in的架構 使用Java開發(fā)KETTLE一個元數(shù)據(jù)驅動的ETL工具 已經(jīng)加入Pentaho CloverETL一個基于Java的ETLFramework 可以用來開發(fā)自己的ETL應用EnhydraOctopus一個基于Java的ETL工具 使用JDBC來連接各種數(shù)據(jù)源 易于使用和部署 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 ETL工具 Pentaho一個以工作流為核心的 強調面向解決方案而非工具組件的BI套件 整合了多個開源項目工作流引擎 SharkandJaWE數(shù)據(jù)庫 FirebirdRDBMS集成管理和開發(fā)環(huán)境 Eclipse報表工具 EclipseBIRTETL工具 Enhydra KettleOLAPServer MondrianOLAP展示 JPivot數(shù)據(jù)挖掘組件 Weka應用服務器和Portal服務器 JBoss單點登陸服務及LDap認證 JOSSO自定義腳本支持 MozillaRhinoJavascript腳本處理器 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 BI工具 SpagoBI集成了Mondrain和JProvit 能夠通過OpenLaszlo產(chǎn)生實時報表 SpagoBI使用java開發(fā) 不依賴于具體的操作系統(tǒng) 有很強的擴展能力報表工具 JasperReports EclipseBIRT iReportOLAPServer MondrianOLAP展示 JPivot數(shù)據(jù)挖掘組件 WekaMap引擎 GeoETL BIE搜索引擎 LuceneDashboard OpenLaszloPortalServer JBoss Tomcat JOnAS 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 BI工具 項目實施 數(shù)據(jù)倉庫項目組織步驟 人員角色 建設放方案等一系列方法的集合 指導方針 數(shù)據(jù)模型的建模方法 統(tǒng)一的概念模型 邏輯模型 數(shù)據(jù)庫中對應的組織 物理化 ETL功能組件 前端門戶組件 模版 元數(shù)據(jù)管理 用戶與組織 權限組織 面向業(yè)務的分析 面向問題的專題 固定報表 即席查詢分析 KPI 分析 互動流程 數(shù)據(jù)的加載 清洗 組織規(guī)劃的過程 用戶本地的需求整理與實現(xiàn) 與開發(fā)者的經(jīng)驗 技能相關 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 關注項目實施過程 礦工 勘探員 農(nóng)夫 操作員 旅行者 老總 經(jīng)理KPI 儀表盤 簡單的綜合信息報表 營銷人員當前周期的數(shù)據(jù) 明細數(shù)據(jù) 直接獲取下載 用來做業(yè)務 分析員有一定的分析能力 對預定義的報表 查詢感興趣 偶爾使用靈活的動態(tài)報表組合自己需要的在綜合信息 熟練的分析員精通分析技術 對數(shù)據(jù)敏感 除使用固定報表 查詢外 會針對特定的業(yè)務問題 數(shù)據(jù)質量問題進行分析 常使用靈活的動態(tài)可配置的應用 必要時會進入數(shù)據(jù)倉庫直接探索 專業(yè)分析員對業(yè)務發(fā)展的趨勢的假設作出求證 或者通過挖掘等技術找出改善業(yè)務的途徑 特定用戶進行細分等 一般直接使用數(shù)據(jù)倉庫 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 重點關注業(yè)務需求 用戶 簡單圖表展現(xiàn) 固定報表 動態(tài)的可配報表 圖表互動分析 可切片旋轉的OLAP KPI指示器 可層級篩選的明細查詢 對以上進行組合的復雜應用 帶有分析流程的應用 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 重點關注業(yè)務需求 需求類型 規(guī)范功能 個性需求 新需求提出 統(tǒng)一的應用框架下管理和開發(fā) 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 重點關注業(yè)務需求 應用框架 作業(yè)三 申請百度文庫用戶 搜集數(shù)據(jù)倉庫類項目解決方案一個 提交 解決方案閱讀筆記 要求4 5頁 參考 閱讀筆記中要求能夠回答如下問題 數(shù)據(jù)源有哪些 源系統(tǒng)的數(shù)據(jù)是怎么捕獲加載到數(shù)據(jù)倉庫就中 數(shù)據(jù)倉庫內部邏輯層次是如何劃分的 方案解決用戶什么樣的問題 用戶群體是哪些 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個解決方案 數(shù)據(jù)倉庫幾種常見架構 數(shù)據(jù)倉庫類項目中人員配置 個人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財富挖掘潛力無限 錄 初始數(shù)據(jù)倉庫 基本概念 1 Kimball生命周期導圖 數(shù)據(jù)倉庫領域的兩位大師 BillInmon數(shù)據(jù)倉庫之父 數(shù)據(jù)倉庫概念的創(chuàng)始人理論 CorporateInformationFactory CIF 主要著作 數(shù)據(jù)倉庫 企業(yè)信息工廠 主要著作 數(shù)據(jù)倉庫工具箱 維度建模的完全指南 數(shù)據(jù)倉庫生命周期工具箱 設計 開發(fā)和部署數(shù)據(jù)倉庫的專家方法 RalphKimball數(shù)據(jù)倉庫方面的知名學者理論 MutildimensionalArchitecture MD BillInmon企業(yè)信息工廠 Kimball企業(yè)數(shù)據(jù)總線 兩種架構方案對比分析 混合架構方案 融合 趨勢 利用EDW 存儲各源系統(tǒng)明細粒度數(shù)據(jù) 解決源系統(tǒng)變化對數(shù)據(jù)倉庫系統(tǒng)的沖擊 解決代碼標準化的問題 利用企業(yè)數(shù)據(jù)總線結構 解決應用一致性的問題 可以快速見效 實現(xiàn)投入產(chǎn)出比 敏捷架構設計方案 企業(yè)數(shù)據(jù)總線 1 基于企業(yè)數(shù)據(jù)總線方案進行模型設計2 維度模型包含明細粒度數(shù)據(jù)和匯總數(shù)據(jù)3 維度模型是企業(yè)級 維度的設計圍繞業(yè)務過程而不是按照某個部門進行設計4 維度模型也是支持擴展的5 維度模型設計不應該僅僅關注報表或分析 應該以度量過程為中心6 一致性維度作為集中的 持久的主數(shù)據(jù)建立在ETL系統(tǒng)中7 關注業(yè)務度量過程 而不是僅僅是報表或分析8 數(shù)據(jù)管理和治理首先應該關注維度數(shù)據(jù)9 維度建模的考慮應該早于設計星型模型或OLAP多維數(shù)據(jù)庫10 開發(fā)小組與業(yè)務相關方的值合作11 以迭代 增量方式處理開發(fā)過程12 避免陷入憑空使用敏捷技術建立分析或報表方案的陷進中 敏捷架構設計方案 企業(yè)數(shù)據(jù)總線矩陣示例 數(shù)據(jù)倉庫實施方法概論 方法論主要描述了項目實施的步驟 系統(tǒng)建設的內容以及過程管理中的一系列方法 實施過程中的具體內容 采用的軟件工程方法 項目管理的內容 實施的目標管理 風險管理 重點 螺旋式上升式的建設模式 對于應用分析建模 數(shù)據(jù)建模乃至整個系統(tǒng)的建設 都是適用的 例子 某項目 分析 建設 培訓 使用 反饋 分析 改進 國外常見的項目過程 ETL工具 展現(xiàn)分析工具 數(shù)據(jù)庫 元數(shù)據(jù)管理工具 數(shù)據(jù)庫建模工具 COGNOS BO BRIO ORACLE DB2 SYSBASE CA MetaManager PowerDesigner ERWIN Infomatic DataStage Infomatic 解決方案 方法論 行業(yè)模型 典型分析 項目控制 項目建設 物理模型 數(shù)據(jù)加載 應用開發(fā) 上線加載 產(chǎn)品選購 方案選擇 項目工作 1 功能組件高度抽象與產(chǎn)品化 ETL 展現(xiàn)分析 建模 元數(shù)據(jù)等 2 項目以解決方案的實施為主 公司一般具有相關行業(yè)的通用解決方案 3 建設 實施過程以本地化 個性化為目的 完成用戶的分析目標 技術方面比重較少 生命周期法的建設模式 業(yè)務維度建模的生命周期法 Kimball 業(yè)務需求定義 技術軌跡 技術結構設計 產(chǎn)品選擇與安裝數(shù)據(jù)軌跡 維度建模 物理設計 DataStagingArea設計與開發(fā)應用軌跡 最終用戶應用規(guī)范 最終用戶應用開發(fā)部署維護與增長 技術平臺 數(shù)據(jù)平臺 產(chǎn)品平臺 吉貝克數(shù)據(jù)倉庫實施方案 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個解決方案 數(shù)據(jù)倉庫幾種常見架構 數(shù)據(jù)倉庫類項目中人員配置 個人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財富挖掘潛力無限 錄 初始數(shù)據(jù)倉庫 不是數(shù)據(jù)庫 1 Kimball生命周期導圖 Kimball生命周期導圖 程序 項目規(guī)劃與管理 評估準備 范圍及論證 人員配備 規(guī)劃的開發(fā)及維護 1 強有力的執(zhí)行主管 有相關經(jīng)驗 能夠協(xié)調內部資源 能夠說服上層領導支持項目推進 2 解決DW BI活動的引人注目的動機3 準備可行性 技術 資源 數(shù)據(jù)三要素 1 確定項目范圍 對業(yè)務有意義 對IT可管理2 避免太原則 即時間太短 源系統(tǒng)太多 源系統(tǒng)分布不能太廣 用戶群體太多 3 項目啟動利益與成本 關注后期成本4 業(yè)務團體確定預期財務收益 1 業(yè)務發(fā)起人 推動者 領導者 用戶2 實施方提供項目經(jīng)理 架構師 模型師 業(yè)務分析師 BI設計與開發(fā)人員 ETL架構師設與開發(fā)人員 數(shù)據(jù)庫管理員3 實施方上層領導 銷售人員 協(xié)調內部資源 與外部溝通 1 劃分項目階段 建立里程碑2 項目經(jīng)理組建隊伍 制定計劃3 項目經(jīng)理需要非常了解用戶需求 應對項目變化 sayNO 增加范圍與預算 更換項目內容 業(yè)務需求定義 1 2 3 需求預規(guī)劃1 選擇討論話題 希望做什么 為什么要做 如何知道決策等2 確定及籌備需求小組 確定懂業(yè)務的分析師 準備調查問卷 3 選擇 調度和準備業(yè)務代表 與業(yè)務人員溝通 與業(yè)務管理層溝通 關注戰(zhàn)略方向 不宜過多關注戰(zhàn)術 約談客戶1小時 1 5小時為宜 收集業(yè)務需求1 初啟 主持人點出訪談重點 以業(yè)務為中心2 訪談流程3 形成最終文檔 提交會議紀要 整理收集資料 指導以數(shù)據(jù)為中心的訪談 數(shù)據(jù)探查小組 模型師參與訪談 了解需求可行性 文檔管理 編寫需求規(guī)格說明書 需求優(yōu)先級管理和需求范圍管理 目標 明白他們做什么和為什么要做了解訪談者對數(shù)據(jù)的數(shù)據(jù)經(jīng)驗分析類型 了解業(yè)務人員對bi的理解了解潛在的其他需求和管理層的規(guī)劃 業(yè)務需求定義 關鍵任務 用戶訪談 針對不同的用戶角色 采用不同的訪談方式 提問內容 技術架構設計 46 22 19 數(shù)據(jù)轉換標準 BI架構占據(jù)比例雖然沒有ETL環(huán)節(jié)高 但影響了業(yè)務人員對系統(tǒng)的認可度 他們關注需求是否準確實現(xiàn) 關注數(shù)據(jù)模型的設計思路 etl加工的便捷性 數(shù)據(jù)是否支持等 ETL環(huán)節(jié)驗證占據(jù)比例最高 成功關鍵環(huán)節(jié) 系統(tǒng)是否好用 是否可管控 影響用戶對系統(tǒng)的最終評價 數(shù)據(jù)管控 及元數(shù)據(jù)與數(shù)據(jù)質量 7 6 描繪DW BI環(huán)境的技術服務與基礎設施藍圖 建立架構組 包含ETL BI 甲方技術負責人 架構設計成果應用 收集與架構相關需求架構需求文檔化 列出影響架構的需求3建立架構模型 架構需求劃分為主要組件 如ETL BI 元數(shù)據(jù) 數(shù)據(jù)質量 數(shù)據(jù)標準等確定架構實現(xiàn)階段 重新審視架構需求設計并定義子系統(tǒng) 部分需求商業(yè)產(chǎn)品無法提供 需要構建這些產(chǎn)品建立架構規(guī)劃 編寫架構設計文檔 初步架構設計 評審及確定技術架構 與項目小組內部 甲方項目經(jīng)理與技術負責人討論架構藍圖確定架構設計中待驗證的技術問題3準備驗證方案和可接受的驗證結果與標準修訂架構設計藍圖再次評審6評審通過的架構設計藍圖在項目組內培訓 形成共識 架構設計評審 產(chǎn)品選擇與安裝 3 進行市場調研 2 建立產(chǎn)品評價矩陣 4 評價選項列表不要太多 5 構建原型系統(tǒng) 6 選擇產(chǎn)品 安裝試驗及談判 1 了解公司采購流程 了解公司內部硬件與軟件采購流程 了解市場上流行的商業(yè)工具和開源工具 羅列核心的重要的評價選項 應該駕馭評估過程 而不是被供應商驅動 確定評價準則矩陣及指示重要性的權衡因素 廠商提供機器 進行POC試驗 實現(xiàn)某個場景 通知期望的某個廠商 產(chǎn)品試用 開始培訓 保留談判的能力 維度建模 確定參與人 特別是業(yè)務代表 業(yè)務需求評審 將需求轉為維度模型 支持更廣泛的分析而不是特定報表利用建模工具 支持將設計成果同步到數(shù)據(jù)庫中 利用數(shù)據(jù)分析工具 編寫sql 探查源表結構 字段 關系 獲取規(guī)則等內容利用或建立命名規(guī)則 包含主詞 限定詞 類詞日期與設施的協(xié)調 制定計劃 準備會議室或溝通用設施 如白板 投影儀 統(tǒng)一對高層氣泡圖的理解 利用氣泡圖 將事實表和與之關聯(lián)的維度表之間的關系清晰的展現(xiàn)給非技術人員 粒度需要建模小組考慮業(yè)務需求需要什么以及物理數(shù)據(jù)源能夠提供什么數(shù)據(jù)總線矩陣一行可能對應多個氣泡圖 每個氣泡圖對應特定粒度的特定事實表氣泡圖保證在陷入細節(jié)前 每個人能夠具有共同的理解 也有助于與利益相關方交流時介紹項目時使用 確定維度及其屬性 確定事實 確定緩慢變化維度技術 建立詳細的表設計文檔 模型問題跟蹤 維護總線矩陣 IT評審 由IT部門組織同行進行評審 挑戰(zhàn) 不熟悉維度建模 需要提供必要的培訓 核心用戶評審廣泛的業(yè)務用戶評審 實質上是教育與培訓 啟迪 而不是強迫他們接受 先評審氣泡圖 在評審總線矩陣 在到維度 再到事實表 在到如何應用 項目簡短描述 高級數(shù)據(jù)模型圖詳細的針對每個事實和維度表的維度設計工作單開發(fā)的問題 客戶 InsuranceAgency代理機構 Geography位置 Demography人口統(tǒng)計特征 BehaviorScores行為 FinancialScores財務 Product產(chǎn)品 Psychographics購買特征 消費行為 SinceDate相關行為開始日期 BeginDate初始日期 EndDate結束日期 Assets資產(chǎn) Policy保單 PolicyRating相關費率 PolicyLifeCyclestatus保單狀態(tài) ApplicationDate申請 PaymentCat支付 InsuredParticipant 保單 MaturityDate到期 滿期日期 DeterminationDate其他重要日期 Currency貨幣 高級維度模型 氣泡圖 企業(yè)總線矩陣 維度詳細工單設計 維度建模小結 2 3 4 5 維度建模是一個迭代的過程 需要不同技能的人員通力合作 包含業(yè)務專家 設計工作從總線矩陣中抽取的實體級別的初始圖形模型開始 詳細建模過程要深入到定義 資源 關系 數(shù)據(jù)質量問題以及每張表的需求轉換 確定列和表名的工作始終與設計過程交織開展 提供給BI工具的列名必須是業(yè)務團體能夠理解的 最終結果是維度模型通過業(yè)務與數(shù)據(jù)兩方面驗證 經(jīng)驗 要將甲方的業(yè)務專家 核心技術人員納入到建模小組中 切記切記 經(jīng)驗 依據(jù)企業(yè)價值鏈將核心過程畫出氣泡圖 經(jīng)驗 通過維度的一致性來講業(yè)務過程串起來 通過擴展維度或者擴展事實表的方式將多個源表數(shù)據(jù)納入進來 經(jīng)驗 有限級別 參考核心系統(tǒng)的名稱規(guī)則 參考已有BI系統(tǒng)的命名規(guī)則 參考專業(yè)術語翻譯規(guī)則 自定義規(guī)則 經(jīng)驗 維度的加工規(guī)則整理出來 數(shù)據(jù)質量問題和緩慢變化維的問題考慮進來 1 物理設計 物理設計與物理模型的設計緊密相關 表和列名是用戶體驗的關鍵因素 用于數(shù)據(jù)模型和BI應用的導航 因此它們對業(yè)務來說應該是有意義的 空值 異常值處理規(guī)則 增加硬件資源 更多的cpu和內存利用聚集表 縮減維度 提高查詢性能獲取用戶的訪問模式 通過評價數(shù)據(jù)統(tǒng)計分布尋找劃算的聚集點 包含塊 文件 磁盤 分區(qū) 表空間以及數(shù)據(jù)庫的具體存儲細節(jié) 索引和聚集表 提供優(yōu)秀的查詢性能 設計聚合 包含OLAP數(shù)據(jù)庫 確定物理存儲細節(jié) 數(shù)據(jù)庫規(guī)劃 如數(shù)據(jù)庫名 表空間 網(wǎng)絡端口 用戶 索引規(guī)劃 主鍵唯一索引 位圖索引 過濾和分組 B樹索引事實表中日期宜建立位圖索引 主鍵建立B樹索引或聚集索引 開發(fā)命名及數(shù)據(jù)庫標準 開發(fā)數(shù)據(jù)庫規(guī)劃 BI應用規(guī)范 BI應用規(guī)范 不是Bi開發(fā)規(guī)范 是需求實現(xiàn)結果呈現(xiàn)方式的一種描述 在需求明確后著手的一項工作 創(chuàng)建應用程序標準和模板 包含報表名 標題 報表主題 頁眉頁腳 報表文件名 創(chuàng)建儀表板和分析性應用程序模板確定初始應用程序集 需要將報表進行合并與拆分 確定優(yōu)先級制定詳細的應用程序規(guī)范 關注實體模型 用戶交互 數(shù)據(jù)集 計算規(guī)則 與其他報表交互設計導航框架和門戶 制定一種策略來幫助用戶迅速找到他們所需的東西審查以及確認應用程序和模型 結合模型設計成果和需求對比 審視如何sql編寫 olap如何查詢 發(fā)現(xiàn)問題與業(yè)務人士一同審查 BI應用規(guī)范 BI應用規(guī)范示例 BI應用規(guī)范 實體模型 BI應用規(guī)范 應用程序詳細定義 BI應用規(guī)范 應用導航框架 BI應用程序開發(fā) 準備應用程序開發(fā) 構建應用程序 應用程序和數(shù)據(jù)測試驗證 完成文檔 部署計劃 BI開發(fā)與與ETL開發(fā)同步進行 優(yōu)先準備好維度數(shù)據(jù) 部署 測試環(huán)境 Descriptionofthecontents 生產(chǎn)環(huán)境 程序功能測試 數(shù)據(jù)集測試 部署過程測試 程序部署 數(shù)據(jù)初始化加載 上線成果驗證 Descriptionofthecontents 運維與發(fā)展 數(shù)據(jù)倉庫是一個長期的過程 需要不斷的維護和升級 系統(tǒng)程序執(zhí)行狀況 日常監(jiān)控 性能調優(yōu)基礎數(shù)據(jù)維護日志跟蹤與清理監(jiān)控后臺資源利用率管理磁盤空間備份與恢復 管理磁盤空間 數(shù)據(jù)庫空間文件存儲空間應用端文件存儲空間BI離線報表和cube存儲空間 備份與回復 關系數(shù)據(jù)庫配置文件上傳數(shù)據(jù)文件離線數(shù)據(jù)文件日志文件元數(shù)據(jù)資料庫備份策略有增量備份 全量備份 新增需求 新增需求 體現(xiàn)在基于現(xiàn)有數(shù)據(jù) 新增分析粒度和指標新增源系統(tǒng)數(shù)據(jù)入庫 增加分析應用系統(tǒng)對外供數(shù) 開發(fā)接口 需求變更 源系統(tǒng)業(yè)務規(guī)則變化導致需求變化業(yè)務用戶提出修訂現(xiàn)有應用整合企業(yè)多個應用 數(shù)據(jù)源切換外部接口調整 應用下線 依據(jù)應用訪問情況統(tǒng)計 無人使用或者使用率極低的報表下線處理 數(shù)據(jù)上傳 計劃值導入系統(tǒng)外部數(shù)據(jù)文件準備與導入 系統(tǒng)融合 與多個應用系統(tǒng)進行融合 培訓 持續(xù)不斷的為DW BI系統(tǒng)提供教育培訓 包含入門培訓 進修課程 高低級培訓鼓勵思想交流 1 2 3 4 管理前臺 管理后臺 新增需求或需求變更 其他 應對避免的常見錯誤 10 過于迷戀技術和數(shù)據(jù) 而沒有將重點放在業(yè)務需求和目標上 9 沒有一個強有力的項目發(fā)起人 8 將項目處理為持續(xù)性項目 而不是追求更容易管理的 有挑戰(zhàn)性的迭代開發(fā)工作 7 過于耗費精力關注數(shù)據(jù)結構和數(shù)據(jù)模型 用盡所有預算 6 過于關注后臺數(shù)據(jù)處理過程和易于開發(fā) 沒有重點考慮前端查詢性能和易用性 5 展現(xiàn)區(qū)數(shù)據(jù)結構復雜 花費大量時間支持業(yè)務用戶 4 維度模型被放入單一基礎之上 不考慮使用可共享的 一致性維度通過數(shù)據(jù)結構將這些模型聯(lián)系在一起 3 只將匯總數(shù)據(jù)加載到展示區(qū)的維度結構中 2 臆想業(yè)務 業(yè)務需求及分析 其涉及的數(shù)據(jù)及支持技術都是靜態(tài)的 1 忽略數(shù)據(jù)DW BI系統(tǒng)的成功直接來源于業(yè)務的認可 10 應對關注業(yè)務需求和目標 技術是實現(xiàn)業(yè)務需求的一種手段而已 9 在立項或者項目啟動階段 尋找一個有影響力 平易近人的高級管理人員作為項目發(fā)起人 8 需要明確項目可實現(xiàn)的目標 迭代開發(fā) 7 經(jīng)常review項目計劃 數(shù)據(jù)模型建設規(guī)劃適度為止 關注項目工期和實際投入 6 后臺與前臺需要均衡考慮 提供一個較優(yōu)的方案 5 基于需求調整明確展現(xiàn)區(qū)數(shù)據(jù)結構 部分工作轉入后臺預處理 4 部分維度信息被納入到事實表或者維度表的屬性中 應用提煉出可共享的 一致性的維度 3 展現(xiàn)區(qū)的數(shù)據(jù)需要保護較細粒度的指標數(shù)據(jù) 甚至明細基礎數(shù)據(jù) 一切依據(jù)需求來設計1 如果用戶未將DW BI系統(tǒng)當成他們決策的基礎 那么您的工作就是徒勞無益的 因此需求的實現(xiàn)程度 易用性及其關鍵 需要在實施過程中重點關注 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個解決方案 數(shù)據(jù)倉庫幾種常見架構 數(shù)據(jù)倉庫類項目中人員配置 個人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財富挖掘潛力無限
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程審批制度改革培訓
- 家長普通話培訓材料
- 2024-2025學年山西省大同市平城區(qū)多校聯(lián)考七年級上學期期中生物試卷
- 2024-2025學年山東省煙臺市經(jīng)濟技術開發(fā)區(qū)(五四制)八年級上學期期中生物試卷
- 內科護理年度總結報告
- 2025年食品安全法培訓
- 多重耐藥菌感染的相關知識培訓
- 2024-2025學年下學期初中語文統(tǒng)編版七年級期末必刷??碱}之字音字形
- 護理工作基本制度
- 河南農(nóng)業(yè)職業(yè)學院《景觀設計1(住宅區(qū))》2023-2024學年第一學期期末試卷
- 2025年陜西省中考數(shù)學真題試卷及答案解析
- 呼吸機的維護與保養(yǎng)標準流程
- 2025年北方華創(chuàng)招聘筆試參考題庫含答案解析
- 期末綜合試題 2024-2025學年下期初中英語人教版七年級下冊(新教材)
- 2025年全國新高考I卷高考全國一卷真題英語試卷(真題+答案)
- 高中生物學業(yè)水平合格性考試:人教版必修1+必修2必背考點
- 安全生產(chǎn)應急演練方案(合集)
- 2025江蘇揚州寶應縣“鄉(xiāng)村振興青年人才”招聘67人筆試模擬試題含答案詳解
- 2025年甘肅高考真題化學試題(解析版)
- 中國政法大學《中國政治制度史》2023-2024學年第二學期期末試卷
- 超高玻璃吊裝方案(3篇)
評論
0/150
提交評論