




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、,Sybase/Business Intelligence,SYBASE 數(shù)據(jù)倉庫/商務智能解決方案,魏健 商務智能咨詢顧問 SYBASE 軟件(中國)有限公司,議程,數(shù)據(jù)倉庫解決方案概述 數(shù)據(jù)倉庫設計工具 數(shù)據(jù)倉庫引擎 Sybase Adaptive Server IQ Multiplex,“數(shù)據(jù)倉庫是在企業(yè)管理和決策中 面向主題的,集成的, 與時間相關的 和不可修改的數(shù)據(jù)集合”,Bill Inmon,數(shù)據(jù)倉庫定義,OLTP系統(tǒng),數(shù)據(jù)倉庫是完全不同的數(shù)據(jù)庫系統(tǒng),RDBMS Sybase,SAP/ERP,VSAM,EXCEL,操作(業(yè)務)系統(tǒng)特性,事務處理性能是第一位的 支持日常的業(yè)務 事務驅(qū)
2、動 面向應用 數(shù)據(jù)是當前的并在不斷變化 存儲詳細數(shù)據(jù) (每一個事件或事務) 針對快速預定義的事務優(yōu)化設計 可預見的使用模式 支持辦事人員或行政人員,數(shù)據(jù)倉庫應用系統(tǒng)特點,支持長遠的業(yè)務戰(zhàn)略決策 分析驅(qū)動 面向主題 數(shù)據(jù)是歷史的 數(shù)據(jù)反映某個時間點或一段時間 數(shù)據(jù)是靜態(tài)的,除數(shù)據(jù)刷新外 數(shù)據(jù)是匯總的 優(yōu)化是針對查詢而不是更新 支持管理人員和執(zhí)行主管人員,數(shù)據(jù)倉庫解決方案解決從數(shù)據(jù)庫中獲取信息的問題。,什么是數(shù)據(jù)倉庫解決方案?,應用價值,時間,1. 日常報表 2. 即席查詢 3. 分析 4. 數(shù)據(jù)挖掘,專題應用,1 2 3 4,數(shù)據(jù)倉庫應用類型,數(shù)據(jù)倉庫應用,數(shù)據(jù)倉庫系統(tǒng)體系架構,Relation
3、al,Package,Legacy,External source,Data Clean Tool,Source Data,Data Staging,WareHouse Admin. Tools,Enterprise Data Warehouse,Data Extraction, Transformation and load,Datamart,Datamart,Enterprise/ Central Data Warehouse,RDBMS ROLAP,RDBMS,Dimension Modeling Conformed dimension&fact Including atomic&agg
4、regate,Architected Datamarts,Central Metadata,Local Metadata,Local Metadata,數(shù)據(jù)倉庫/商務智能應用成功的關鍵, 做什么,怎么做? 數(shù)據(jù)倉庫性能,Sybase & Partner 專業(yè)服務 數(shù)據(jù)倉庫顧問咨詢,Sybase IWS 方法學,ER Design Tool Impact Analysis Metadata Management,Sybase Industry Warehouse Studio打包的數(shù)據(jù)倉庫基礎平臺概述,業(yè)務 模型,物理 模式,元數(shù)據(jù),ETL 工具,例子 報表 算法,ETL Tool Metada
5、ta Exchange Smart ETL Maps (Future),SQL Templates Cognos Business Objects MicroStrategy,Business Models focused on Key Industry Events,Enterprise-wide, Star Schema-based design,IWS產(chǎn)品介紹,Implementation Protocol,SQL Sample Reports,Sybase Industry Warehouse Studio 分析型應用框架,Time,資源,搜集需求 理解業(yè)務線 設計模式 ETL 模板
6、構造分析需求 實施 測試,用戶反饋 精練 測試,第二代倉庫,典型的數(shù)據(jù)倉庫 項目從這里開始,Sybase IWS 提供的時間上的價值 快速啟動數(shù)據(jù)倉庫項目,搜集需求 理解業(yè)務線 設計模式 ETL 模板 構造分析查詢 實施 測試,第一代倉庫,IWS 節(jié)省 3 到 6 個月,更多的價值 = 更快地訪問信息,Sybase Industry Warehouse StudioValue Proposition 回顧,預先建立的業(yè)務和物理模型優(yōu)化了項目進度的安排和加快了對數(shù)據(jù)的訪問 基于經(jīng)過驗證的實施經(jīng)驗和行業(yè)經(jīng)驗 設計和方法論是可擴展/可定制的,安全,企業(yè)范圍 數(shù)據(jù)庫獨立 面向行業(yè) 集成的模型和基礎平臺
7、,靈巧,節(jié)省資源 一半的投入 節(jié)省時間 更快的實施 節(jié)省資金 降低成本,節(jié)省,數(shù)據(jù)倉庫系統(tǒng)體系架構,Relational,Package,Legacy,External source,Data Clean Tool,Source Data,Data Staging,WareHouse Admin. Tools,Enterprise Data Warehouse,Data Extraction, Transformation and load,Datamart,Datamart,Enterprise/ Central Data Warehouse,RDBMS ROLAP,RDBMS,Dimens
8、ion Modeling Conformed dimension&fact Including atomic&aggregate,Architected Datamarts,Central Metadata,Local Metadata,Local Metadata,Adaptive Server IQ Multiplex是專門為滿足數(shù)據(jù)倉庫和商務智能設計的高性能的關系數(shù)據(jù)庫系統(tǒng)。IQ Multiplex的主要特點是: 高可擴展性 支持數(shù)以千計的并發(fā)用戶存取TB級的數(shù)據(jù)。 突破性的速度 閃電般的查詢速度,比傳統(tǒng)RDBMS快10 100倍以上。 無限的靈活性 支持任意類型的即席查詢。 最低的擁有
9、總成本 高效的數(shù)據(jù)壓縮存儲,達到30% 60%;簡單的維護和管理。,集成的主要產(chǎn)品,Design Warehouse Architect,Manage Sybase ASIQM,Visualize Bo、Brio Cognos SPSS,Sybase數(shù)據(jù)倉庫相關產(chǎn)品集的構成,Relational,Package,Legacy,External source,Data Clean Tool,Source Data,Data Staging,WareHouse Admin. Tools,Enterprise Data Warehouse,Data Extraction, Transformatio
10、n and load,Datamart,Datamart,Enterprise/ Central Data Warehouse,RDBMS ROLAP,RDBMS,RDBMS, Star Schema,Architected Datamarts,Central Metadata,Local Metadata,Local Metadata,PowerCenter PowerMart,Sybase IQM,Sybase IQM,Brio/BO,PowerMart,Warehouse Architect,WCC,Cognos,設計: 成功的關鍵,數(shù)據(jù)庫的設計對數(shù)據(jù)倉庫系統(tǒng)的整體性能、裝載和 建立索引
11、的時間以及數(shù)據(jù)量的增長等的影響超過 任何其它方面。,數(shù)據(jù)倉庫設計,在支持分析和決策的查詢環(huán)境中,使業(yè)務用戶可以 訪問,理解和利用數(shù)據(jù) 以業(yè)務用戶理解和運用信息的方式組織數(shù)據(jù) 可預見的查詢方式 基于時間的 匯總的數(shù)據(jù) 向下/上的鉆取(Drill-down / drill-up),多維模型設計,傳統(tǒng)的數(shù)據(jù)建模方法(如ER模型)可能非常復雜且不易理解 按照最終用戶的想法定義信息 (以查詢?yōu)橹行慕? Star(星型), Snowflake(雪花型),Constellation(星座型),Snowstorm(雪暴型) Facts(事實): 可度量數(shù)據(jù),如 數(shù)量、價格 Dimensions(維):用于分
12、類Fact的詳細數(shù)據(jù),Grocery Transaction,Store Number,Transaction Date,Customer,Product,Quantity,Amount,Customer,Customer,From Date,To Date,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Time,Transaction Date,Store,Store Number,Store Name,City,State,Country,Telephone,Product
13、,Product,Description,Category,Fact Table,Dimension Tables,Dimension Tables,多維模型: 星型模式,Grocery Transaction,Store Number,Transaction Date,Customer,Product,Quantity,Amount,Customer,Customer,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Customer Category,Time,Transact
14、ion Date,Store,Store Number,Store Name,City,State,Country,Telephone,Region,Product,Product,Description,Category,Product Category,Product Category,Description,Region,Region,Description,Sales Period,Period Identifier,Sales Period,From Date,To Date,Customer Category,Category,Customer Category,為了避免數(shù)據(jù)冗余,
15、 用多張表來描述一個復雜維 在星型模式的基礎上, 構造維表的多層結構,多維模型: 雪花模式,Grocery Transaction,Store Number,Transaction Date,Customer,Product,Purchase Quantity,Amount,Customer,Customer,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Customer Category,Time,Transaction Date,Store,Store Number,Sto
16、re Name,City,State,Country,Telephone,Region,Product,Product,Description,Category,Product Line,Sales Period,Period Identifier,Sales Period,From Date,To Date,Customer Category,Category,Customer Category,Product Purchases,Product,Purchase Date,Supplying Vendor,Purchase Order,Unit Quantity,Purchase Cost
17、,Vendor,Vendor,Vendor Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Product Inventory,Product,Warehouse Location,Quantity On Hand,Quantity Back Ordered,Warehouse,Warehouse,Address 1,Address 2,Address 3,City,State,Country,Postal Code,具有多個事實表,多維模型: 星座模式,Grocery Transaction,Store Nu
18、mber,Transaction Date,Customer,Product,Purchase Quantity,Amount,Customer,Customer,First Name,Last Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Customer Category,Time,Transaction Date,Store,Store Number,Store Name,City,State,Country,Telephone,Region,Product,Product,Description,Ca
19、tegory,Product Line,Product Category,Product Category,Description,Region,Region,Description,Sales Period,Period Identifier,Sales Period,From Date,To Date,Customer Category,Category,Customer Category,Promotion Period,Promotion Id,Promotion,From Date,To Date,Product Line,Product Line ID,Description,Pr
20、oduct Purchases,Product,Purchase Date,Supplying Vendor,Purchase Order,Unit Quantity,Purchase Cost,Vendor,Vendor,Vendor Name,Address 1,Address 2,Address 3,City,State,Country,Postal Code,Product Inventory,Product,Warehouse Location,Quantity On Hand,Quantity Back Ordered,Warehouse,Warehouse,Address 1,A
21、ddress 2,Address 3,City,State,Country,Postal Code,具有多個事實表與多層維表,多維模型: 雪暴模式,數(shù)據(jù)模型中的事實和維度,事實和維的概念對應于: 數(shù)據(jù)倉庫數(shù)據(jù)庫中的數(shù)據(jù)模型對象 星型模式(Star schema) DSS / OLAP 系統(tǒng)中的數(shù)據(jù)模型對象 多維模型(Multidimensional model),星型模式-Star Schema,多維模型-Multidimensional Model,數(shù)據(jù)倉庫設計工具WarehouseArchitect,為數(shù)據(jù)倉庫的設計提供三大功能: 多維建模 度量、維、屬性 事實表,維表 維層次表,事實層次
22、表 設計向?qū)?聚合(Aggregation Wizard) 分片(Partitioning Wizard) 逆向工程數(shù)據(jù)源 優(yōu)化代碼生成 目標數(shù)據(jù)倉庫引擎(IQM,RDBMS) OLAP分析環(huán)境,WarehouseArchitect,WarehouseArchitect的支持范圍,數(shù)據(jù)倉庫設計-小結,WarehouseArchitect對數(shù)據(jù)倉庫設計過程的每一步都提供支持: 數(shù)據(jù)源中的元數(shù)據(jù)導入。 設計和優(yōu)化數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模式/多維模型)。 與抽取、轉換工具對接,實施數(shù)據(jù)移動。 基于數(shù)據(jù)倉庫模型,為前端DSS/OLAP工具生成所需的數(shù)據(jù)立方體。 為設計過程的每一步生成文檔和報告。,數(shù)
23、據(jù)存儲、管理,挑戰(zhàn) 數(shù)據(jù)規(guī)模 查詢性能 裝載速度 易于管理 存取訪問,成功的關鍵 快速,高效數(shù)據(jù)存儲技術 出色的查詢性能 - 特殊的索引 技術,并行查詢 可伸縮性 - GB 到 TB 級 易于管理 - 方便,靈活,GUI 存取訪問 - 數(shù)據(jù)隨時可用,數(shù)據(jù)管理,解決的方案 通用的關系數(shù)據(jù)庫系統(tǒng) 專門的數(shù)據(jù)倉庫服務器 Sybase IQM 專門為數(shù)據(jù)倉庫/數(shù)據(jù)集市設計的關系型數(shù)據(jù)庫 專門針對OLAP/DSS而優(yōu)化的索引和查詢處理技術,Adaptive Server IQM,數(shù)據(jù)存儲: Adaptive Server IQM,垂直存儲技術(Vertical Partitioning) 無處不索引(I
24、ndex EVERYWHERE) 專利的Bit Wise索引技術跨越Bitmap的限制 多種索引類型:FP,LF,HNG,HG,CMP,WD 低級數(shù)的限制從100擴充到1000 數(shù)據(jù)壓縮(通常達到原始數(shù)據(jù)的 70 - 75%) 預連接的索引提供額外的顯著提高性能手段(Join Index) 支持任意設計模式 星型、雪花、雪暴、星座模式 普通關系模式 支持任意加載方式 文件、內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)庫直接加載 開放的接口,傳統(tǒng)RDBMS,Relational Table,Typical RDBMS 數(shù)據(jù)按行存儲 數(shù)據(jù)與索引分開存放 很少的索引類型 - B-樹 普通關系數(shù)據(jù)庫為 OLTP系統(tǒng)進行優(yōu)化,計
25、算“NY”州 A類商店的 平均銷售額,當表的記錄數(shù)從幾萬條變?yōu)榍f和上億條時, 傳統(tǒng)RDBMS技術面對的問題: 表掃描的性能極端低下 冗余設計代價高昂、查詢讀取的無效字段過多 低級數(shù)類型數(shù)據(jù)上索引的失效 普通索引加載和空間代價,造成不能任意建造 即席查詢的SQL順序?qū)π阅苡酗@著影響 數(shù)值型比較和運算,無恰當手段加速處理,傳統(tǒng)RDBMS不適合數(shù)據(jù)倉庫,IQM的特殊存儲方式-垂直存儲(按列存儲),Sybase IQM: 數(shù)據(jù)是按列存儲的,而不是按行存儲,好處: 只存取查詢所需的數(shù)據(jù) 數(shù)據(jù)類型是一致的,因而可以很容易被壓縮 數(shù)據(jù)庫易于修改和管理,Sybase IQM: 只讀完成查詢所 涉及到的列,計
26、算在紐約的“A”類商店 的平均銷售額,IQM的特殊存儲方式-垂直存儲(按列存儲),“How many MALES are NOT INSURED in CALIFORNIA?,Gender M M F M M -,800 Bytes/Row,10M ROWS,State NYCACTMA CA -,RDBMS,Insured YYN Y N,10M Bits x 3 col / 8 16K Page,= 235 I/Os,800 Bytes x 10M 16K Page,= 500,000 I/Os,基本上只能使用表掃描 查詢過程讀取了太多的無效數(shù)據(jù),IQM,Example: I/O 的明顯減
27、少,IQM的索引特點,索引即是數(shù)據(jù) 沒有索引和數(shù)據(jù)的分別 任何一列可以建立多個索引 系統(tǒng)保證至少會存在一個索引(FP) 索引的選擇和設計主要基于: 數(shù)據(jù)的級數(shù)(離散值的個數(shù)) 在查詢中的使用方式 和SQL語句的順序無關,索引的種類,Fast Projection(FP) 數(shù)據(jù)壓縮存儲 根據(jù)數(shù)據(jù)的特點會自動使用三種方式中的一種 Low Fast (LF) Bit map 索引 High Non Group (HNG) Bit-wise 索引 High Group (HG) G-Array (包括一個改進的B-tree) Compare(CMP) 列比較 Word(WD) 字符串查找,FP索引有三
28、種內(nèi)部形態(tài),根據(jù)數(shù)據(jù)級數(shù)特征,IQ自動選擇 FP中最合適的一種表現(xiàn)形式 If 級數(shù) 65536 FP index If 級數(shù) 256 FFP Index (Fast-Fast Projection) If 級數(shù)Between 256 and 65536 FFFP Index ( Fast-Fast-Fast Projection),FP形式1:FP Index,該列的級數(shù)超過65536 原始數(shù)據(jù)在磁盤上壓縮存儲,FP形式2:FFP Index,列級數(shù)256 內(nèi)部生成一個單字節(jié)的lookup表 不僅擁有較好查詢效率,同時得到高效壓縮,FP形式3:FFFP Index,列的級數(shù)界于256和6553
29、6之間 系統(tǒng)內(nèi)建一個雙字節(jié)的lookup表,Color,Red,Blue,Green,Lookup Table,Data,LF索引的形態(tài),每個省份的取值有固定的bitmap 行和取值的個數(shù)都可以自由增加 只需處理相應的位,對查詢的性能提高: select count(*) from customers where state =AL,示意:省份的LF存儲,row-id,北京,上海,天津,河北,山東,安徽,江蘇,浙江,1,0,0,0,1,0,0,0,0,2,0,0,0,0,0,0,0,1,3,0,1,0,0,0,0,0,0,4,1,0,0,0,0,0,0,0,5,0,1,0,0,0,0,0,0,.,高基數(shù)Bit-Wise索引:HNG,Bit-Wise Index 數(shù)據(jù)按照二進制存儲 垂直分布和處理 Sybase的專利技術 使用最佳范圍 高基數(shù)數(shù)據(jù)的范圍查找(,between,.) 數(shù)學或函數(shù)運算 (sum and average functions),級數(shù)任意,數(shù)據(jù)以二進制形式存在 數(shù)據(jù)垂直分割-任何一位都可以獨立進行內(nèi)部操作 由于大量的0和1同時出現(xiàn),因此數(shù)據(jù)的壓縮比較容易實現(xiàn) Query Example:Select * where Sales7,高級數(shù)Bit-Wise索引:HNG,Sales in binary form,8 bit,4 bit,2 bit,1 bit,0,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《數(shù)理統(tǒng)計》第8章 正態(tài)總體均值的假設檢驗
- 異地采集指紋辦理流程
- 中醫(yī)診斷學培訓課件
- 維修電工高級試題含答案(附解析)
- 計算機基礎模擬考試題與參考答案解析
- 為老年人提供必要的醫(yī)療和健康服務確保他們得到及時治療和關懷
- 2024年5月配電線路工專業(yè)試題+參考答案解析
- 5月1+x無損檢測模擬試題與答案(附解析)
- 種子種苗遺傳改良方法考核試卷
- 如何培養(yǎng)自律的孩子家庭教育
- 2023年上海市浦東新區(qū)中考語文二模試卷
- OECD -二十國集團 經(jīng)合組織公司治理原則2023
- 中輻放射性藥物貯存及銷售項目環(huán)評資料環(huán)境影響
- DB1503∕T 01-2018 礦山排土場連片治理規(guī)范
- 新疆公共建筑節(jié)能設計標準
- 2024年餐廳服務員(高級)職業(yè)鑒定理論考試題庫(含答案)
- 金屬非金屬礦山尾礦庫安全生產(chǎn)標準化定級評分標準2023版
- GB/T 10433-2024緊固件電弧螺柱焊用螺柱和瓷環(huán)
- 2《歸去來兮辭并序》公開課一等獎創(chuàng)新教案統(tǒng)編版高中語文選擇性必修下冊
- 道路交通設施紅綠燈運維投標方案(技術方案)
- 數(shù)獨題目高級50題(后附答案)
評論
0/150
提交評論