版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫解決方案深圳太極云軟技術(shù)股份有限公司2016年1月目錄 TOC o 1-3 h z u HYPERLINK l _Toc439977491 (一)概述 PAGEREF _Toc439977491 h 2 HYPERLINK l _Toc439977492 一.國內(nèi)信息化的現(xiàn)狀 PAGEREF _Toc439977492 h 2 HYPERLINK l _Toc439977493 二.以應(yīng)用驅(qū)動(dòng),數(shù)據(jù)倉庫建設(shè)應(yīng)由后向前規(guī)劃 PAGEREF _Toc439977493 h 3 HYPERLINK l _Toc439977494 三.“想大做小”(整體設(shè)計(jì)、分布實(shí)施) PAGEREF _To
2、c439977494 h 4 HYPERLINK l _Toc439977495 (二)系統(tǒng)架構(gòu) PAGEREF _Toc439977495 h 5 HYPERLINK l _Toc439977496 數(shù)據(jù)倉庫架構(gòu) PAGEREF _Toc439977496 h 6 HYPERLINK l _Toc439977497 系統(tǒng)功能架構(gòu) PAGEREF _Toc439977497 h 7 HYPERLINK l _Toc439977498 (三)數(shù)據(jù)倉庫建設(shè)方法 PAGEREF _Toc439977498 h 8 HYPERLINK l _Toc439977499 數(shù)據(jù)倉庫建設(shè)8大步驟 PAGERE
3、F _Toc439977499 h 9 HYPERLINK l _Toc439977500 1.系統(tǒng)分析,確定主題 PAGEREF _Toc439977500 h 9 HYPERLINK l _Toc439977501 2.選擇滿足數(shù)據(jù)倉庫系統(tǒng)要求的軟件平臺(tái) PAGEREF _Toc439977501 h 10 HYPERLINK l _Toc439977502 3.建立數(shù)據(jù)倉庫的邏輯模型 PAGEREF _Toc439977502 h 10 HYPERLINK l _Toc439977503 4.邏輯數(shù)據(jù)模型轉(zhuǎn)化為數(shù)據(jù)倉庫數(shù)據(jù)模型 PAGEREF _Toc439977503 h 11 HYP
4、ERLINK l _Toc439977504 5.數(shù)據(jù)倉庫數(shù)據(jù)模型優(yōu)化 PAGEREF _Toc439977504 h 12 HYPERLINK l _Toc439977505 6.數(shù)據(jù)清洗轉(zhuǎn)換和傳輸 PAGEREF _Toc439977505 h 13 HYPERLINK l _Toc439977506 7.開發(fā)數(shù)據(jù)倉庫的分析應(yīng)用 PAGEREF _Toc439977506 h 14 HYPERLINK l _Toc439977507 8.數(shù)據(jù)倉庫的管理 PAGEREF _Toc439977507 h 15 HYPERLINK l _Toc439977508 (四)系統(tǒng)功能詳細(xì)介紹 PAGE
5、REF _Toc439977508 h 16 HYPERLINK l _Toc439977509 企業(yè)數(shù)據(jù)門戶 PAGEREF _Toc439977509 h 16 HYPERLINK l _Toc439977510 主題分析 PAGEREF _Toc439977510 h 17 HYPERLINK l _Toc439977511 即席查詢 PAGEREF _Toc439977511 h 18 HYPERLINK l _Toc439977512 多維分析工具 PAGEREF _Toc439977512 h 19 HYPERLINK l _Toc439977513 ETL工具 PAGEREF _
6、Toc439977513 h 19 HYPERLINK l _Toc439977514 報(bào)表工具 PAGEREF _Toc439977514 h 21概述國內(nèi)信息化的現(xiàn)狀信息化建設(shè)的發(fā)展歷史:在國內(nèi)信息化建設(shè)過程中,基本上是按照當(dāng)時(shí)業(yè)務(wù)系統(tǒng)的需求進(jìn)行建設(shè),過一段時(shí)間,如果有新的業(yè)務(wù)推出,就再建設(shè)一個(gè)新的系統(tǒng),或在原系統(tǒng)的基礎(chǔ)上增加新的業(yè)務(wù)處理。這樣的結(jié)果使每個(gè)系統(tǒng)和系統(tǒng)之間缺少真正的信息溝通和信息交換。為何要建立數(shù)據(jù)倉庫:根據(jù)現(xiàn)狀業(yè)務(wù)系統(tǒng)各自為政,相互獨(dú)立。當(dāng)很多業(yè)務(wù)系統(tǒng)建立后,由于領(lǐng)導(dǎo)的要求和決策的需求,需要一些指標(biāo)的分析,在相應(yīng)的業(yè)務(wù)系統(tǒng)基礎(chǔ)上再增加分析和相應(yīng)的報(bào)表功能,這樣每個(gè)系統(tǒng)就增加
7、了報(bào)表和分析功能。但是,由于數(shù)據(jù)源不統(tǒng)一導(dǎo)致了對(duì)同一個(gè)指標(biāo)分析的結(jié)果不相同。為了解決該問題,為了分析和決策的需要,將相互分離的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源整合在一起,可以為領(lǐng)導(dǎo)和決策層提供分析和輔助決策。以應(yīng)用驅(qū)動(dòng),數(shù)據(jù)倉庫建設(shè)應(yīng)由后向前規(guī)劃數(shù)據(jù)倉庫到底應(yīng)該怎么建設(shè)?我一貫的主張是應(yīng)用驅(qū)動(dòng)。什么樣的應(yīng)用呢?應(yīng)用是應(yīng)考慮政府管理的現(xiàn)狀和決策層最關(guān)心的問題入手。分利用現(xiàn)有信息系統(tǒng)資源,進(jìn)一步細(xì)化、量化權(quán)力清單,固化權(quán)力運(yùn)行流程和辦理環(huán)節(jié),達(dá)到規(guī)范業(yè)務(wù)流程、監(jiān)督個(gè)體行為、記錄執(zhí)法誠信、科學(xué)考核評(píng)價(jià)和提升管理精度,最終使群眾的合法權(quán)益得到保護(hù),實(shí)現(xiàn)權(quán)力有效監(jiān)督和提升政府效能。通過分析經(jīng)濟(jì)發(fā)展、衛(wèi)生健康、教育科技、
8、道路交通、機(jī)構(gòu)團(tuán)體、生活服務(wù)、文體娛樂、安全避險(xiǎn)、資源環(huán)境、社保就業(yè)、財(cái)稅金融、法律服務(wù)等這些主題的分析是否可行,應(yīng)該先進(jìn)行評(píng)估。這樣從應(yīng)用主題入手,就可以知道需要什么樣的數(shù)據(jù),來自那些業(yè)務(wù)系統(tǒng)和數(shù)據(jù)源,這些數(shù)據(jù)的全體進(jìn)行一定的整合,按照分析的要求存儲(chǔ)就組成了一個(gè)個(gè)數(shù)據(jù)集市(Data Mart)。 “想大做小”(整體設(shè)計(jì)、分布實(shí)施)為了避免原有業(yè)務(wù)系統(tǒng)相對(duì)獨(dú)立而形成的一個(gè)個(gè)信息孤島,以應(yīng)用驅(qū)動(dòng)建設(shè)數(shù)據(jù)倉庫,往往會(huì)造成新的信息孤島。這是因?yàn)閼?yīng)用往往是部門級(jí)的或者是某一方面的應(yīng)用,不能完全覆蓋企業(yè)級(jí)的所有應(yīng)用。當(dāng)然我們這里不提倡一次建設(shè)的應(yīng)用。如何避免這個(gè)問題,是我這里著重要要強(qiáng)調(diào)的。這里分兩種情
9、形進(jìn)行設(shè)計(jì),系統(tǒng)作用1. 整合業(yè)務(wù)數(shù)據(jù) 在各業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)不流通,形成信息孤島,商業(yè)智能解決方案建立統(tǒng)一數(shù)據(jù)倉庫,整合業(yè)務(wù)數(shù)據(jù),給管理者提供統(tǒng)一視圖,統(tǒng)一決策界面。 2. 支撐決策 從數(shù)據(jù)中分析企業(yè)發(fā)展趨勢(shì),挖掘新的機(jī)會(huì)方法,根據(jù)數(shù)據(jù)決策,提高決策的及時(shí)性及準(zhǔn)確率。 3. 提供管理效能,量化辦事效率 基于系統(tǒng)分析內(nèi)容,管理者能了解細(xì)化、量化權(quán)力清單,固化權(quán)力運(yùn)行流程和辦理環(huán)節(jié),達(dá)到規(guī)范業(yè)務(wù)流程、監(jiān)督個(gè)體行為、記錄執(zhí)法誠信、科學(xué)考核評(píng)價(jià)和提升管理精度,最終使群眾的合法權(quán)益得到保護(hù),實(shí)現(xiàn)權(quán)力有效監(jiān)督和提升政府效能。系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)圖在建立數(shù)據(jù)倉庫,數(shù)據(jù)倉庫按主題域存儲(chǔ)各業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)來源主要是政
10、府管理結(jié)構(gòu)的不同業(yè)務(wù)管理系統(tǒng)。通過數(shù)據(jù)交換平臺(tái)定期采集各管理機(jī)構(gòu)的業(yè)務(wù)數(shù)據(jù),后臺(tái)數(shù)據(jù)處理工具ETL抽取、清洗數(shù)據(jù),并加載入數(shù)據(jù)倉庫中。架構(gòu)于數(shù)據(jù)倉庫上的系統(tǒng)功能主要包括大數(shù)據(jù)門戶、專題主題分析、即系查詢、多維分析、自助報(bào)表的功能模塊,通過這些功能模塊為管理者獲取數(shù)據(jù)和分析數(shù)據(jù)提供簡單易用、功能強(qiáng)大的方法,為管理者決策及提升管理精度,最終實(shí)現(xiàn)權(quán)力有效監(jiān)督和提升政府效能。數(shù)據(jù)倉庫架構(gòu)數(shù)據(jù)倉庫是一個(gè)建設(shè)過程,而不是產(chǎn)品。數(shù)據(jù)倉庫是通過對(duì)來自不同的數(shù)據(jù)源進(jìn)行統(tǒng)一的處理及管理,通過靈活的展示方法來幫助決策支持。數(shù)據(jù)獲取層實(shí)現(xiàn)如何從所有源系統(tǒng)中獲得原始的業(yè)務(wù)數(shù)據(jù),并對(duì)其進(jìn)行一定的數(shù)據(jù)處理,按主題進(jìn)行數(shù)據(jù)重
11、組和格式轉(zhuǎn)換,然后傳送并裝載到數(shù)據(jù)倉庫系統(tǒng)中。數(shù)據(jù)倉庫系統(tǒng)需要從多個(gè)源數(shù)據(jù)系統(tǒng)中抽取和匯總各個(gè)業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)源系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)來源。把上述數(shù)據(jù)源系統(tǒng)中的數(shù)據(jù)按照主題進(jìn)行劃分和組織,然后抽取并裝載到數(shù)據(jù)倉庫系統(tǒng)中。數(shù)據(jù)需要經(jīng)過三個(gè)過程:數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載。這三個(gè)過程是在保證各個(gè)數(shù)據(jù)源系統(tǒng)與數(shù)據(jù)倉庫系統(tǒng)能夠成功連接(包括網(wǎng)絡(luò)協(xié)議標(biāo)準(zhǔn)的轉(zhuǎn)換、不同平臺(tái)之間的接口)的前提下實(shí)現(xiàn)的。保證把來自不同的源數(shù)據(jù)系統(tǒng)的同類數(shù)據(jù)的一致性和完整性,轉(zhuǎn)換完成的數(shù)據(jù)裝載到數(shù)據(jù)倉庫系統(tǒng)中。數(shù)據(jù)管理層 把數(shù)據(jù)存儲(chǔ)到企業(yè)級(jí)數(shù)據(jù)倉庫系統(tǒng)中進(jìn)行集中管理。在數(shù)據(jù)存儲(chǔ)層,數(shù)據(jù)是存放在兩類數(shù)據(jù)庫中:關(guān)系型數(shù)據(jù)庫和多
12、維數(shù)據(jù)庫。數(shù)據(jù)存儲(chǔ)是數(shù)據(jù)倉庫系統(tǒng)的中心。取自多個(gè)數(shù)據(jù)源系統(tǒng)的明細(xì)數(shù)據(jù),以及用于分析的集成匯總數(shù)據(jù)都存儲(chǔ)在這個(gè)中心。它在邏輯上是一個(gè)完整的庫。數(shù)據(jù)使用層 把數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)和分析結(jié)果提供給最終用戶。按照用戶的分析需求、使用報(bào)表、隨即查詢、多維度分析和數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)展現(xiàn)。數(shù)據(jù)輸出層的功能是使最終用戶通過報(bào)表、圖形和其他分析工具的方式簡便、快捷地訪問數(shù)據(jù)倉庫系統(tǒng)中的各種數(shù)據(jù),得到分析結(jié)果。 提供多種數(shù)據(jù)分析方法,包括標(biāo)準(zhǔn)報(bào)表、即席查詢報(bào)表、動(dòng)態(tài)分析報(bào)表、多維分析、趨勢(shì)預(yù)測、假設(shè)分析和數(shù)據(jù)挖掘等。系統(tǒng)功能架構(gòu)多維分析OLDP多角度、立體化、靈活動(dòng)態(tài)的分析業(yè)務(wù)數(shù)據(jù)。產(chǎn)品簡單易用,無需編寫任何的代碼
13、,用戶只需要通過語義層的定義就可以輕松搭建自己的多維數(shù)據(jù)模型。即席查詢統(tǒng)計(jì)報(bào)表、指標(biāo)的快速檢索,幫助業(yè)務(wù)分析人員快速獲得所需要的數(shù)據(jù)和統(tǒng)計(jì)信息。數(shù)據(jù)門戶Data Portal進(jìn)行統(tǒng)一展現(xiàn),展現(xiàn)方式包括儀表盤、表格、報(bào)表、日歷等內(nèi)容,并支持用戶個(gè)性化定制內(nèi)容、指標(biāo)等功能,實(shí)現(xiàn)真正的個(gè)性化服務(wù)。數(shù)據(jù)門戶中展現(xiàn)的內(nèi)容是管理者及業(yè)務(wù)人員最關(guān)注的指標(biāo),通過門戶為他們獲取數(shù)據(jù)提供最簡單容易的方式。主題分析根據(jù)資源的組織,支持?jǐn)?shù)據(jù)的深入挖掘和分析應(yīng)用,跟蹤、監(jiān)控政策的執(zhí)行情況及實(shí)施效果,讓管理層了解細(xì)化、量化權(quán)力清單,固化權(quán)力運(yùn)行流程和辦理環(huán)節(jié),達(dá)到規(guī)范業(yè)務(wù)流程、監(jiān)督個(gè)體行為、記錄執(zhí)法誠信、科學(xué)考核評(píng)價(jià)和提
14、升管理精度,最終使群眾的合法權(quán)益得到保護(hù),實(shí)現(xiàn)權(quán)力有效監(jiān)督和提升政府效能。報(bào)表業(yè)商業(yè)智能系統(tǒng)建設(shè)的重要組成部分,主要對(duì)企業(yè)數(shù)據(jù)倉庫中整合的各主題域業(yè)務(wù)數(shù)據(jù),按照監(jiān)督管理要求,面向各級(jí)部門,快速提供準(zhǔn)確、全面、靈活的體現(xiàn)政府管理效能等方面實(shí)際的數(shù)據(jù)信息,為決策支持、業(yè)務(wù)管理提供有效的數(shù)據(jù)信息支撐。ETL工具:ETL是數(shù)據(jù)倉庫最核心的后臺(tái)組件,通過對(duì)及匯總來的不同來源數(shù)據(jù)的抽取、清洗、加載實(shí)現(xiàn)數(shù)據(jù)倉庫中數(shù)據(jù)的更新及流轉(zhuǎn)。ETL工具(橋接器),實(shí)現(xiàn)了圖形化及自動(dòng)化的方式來配置ETL流程,極大的減輕了數(shù)據(jù)加工的工作量,提高了數(shù)據(jù)準(zhǔn)確性及處理效率。數(shù)據(jù)倉庫建設(shè)方法數(shù)據(jù)倉庫決策分析的業(yè)務(wù)處理流程主要分為四
15、個(gè)階段。數(shù)據(jù)集中:各級(jí)政府部門業(yè)務(wù)數(shù)據(jù)統(tǒng)一匯總數(shù)據(jù)中心臨時(shí)數(shù)據(jù)存儲(chǔ);數(shù)據(jù)整理和轉(zhuǎn)換:匯總后的業(yè)務(wù)數(shù)據(jù)經(jīng)過ETL抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫中;數(shù)據(jù)存儲(chǔ)和管理:對(duì)數(shù)據(jù)倉庫數(shù)據(jù)進(jìn)行集中存儲(chǔ)和管理、備份和維護(hù);數(shù)據(jù)挖掘和展現(xiàn):用戶通過前端的展現(xiàn)工具對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)進(jìn)行挖掘、鉆取和分析,在數(shù)據(jù)門戶展現(xiàn);各委辦局業(yè)務(wù)系統(tǒng)人社公安民政交換平臺(tái)政府?dāng)?shù)據(jù)中心臨時(shí)存儲(chǔ)數(shù)據(jù)抽取轉(zhuǎn)換加載數(shù)據(jù)倉庫數(shù)據(jù)集市決策趨勢(shì)數(shù)據(jù)門戶 HYPERLINK /HondaHsu/p/4312549.html 數(shù)據(jù)倉庫建設(shè)8大步驟1.系統(tǒng)分析,確定主題確定一下幾個(gè)因素:操作出現(xiàn)的頻率,即業(yè)務(wù)部門每隔多長時(shí)間做一次查詢分析。在系統(tǒng)中需要保存
16、多久的數(shù)據(jù),是一年、兩年還是五年、十年。用戶查詢數(shù)據(jù)的主要方式,如在時(shí)間維度上是按照自然年,還是財(cái)政年。用戶所能接受的響應(yīng)時(shí)間是多長、是幾秒鐘,還是幾小時(shí)。2.選擇滿足數(shù)據(jù)倉庫系統(tǒng)要求的軟件平臺(tái)選擇合適的軟件平臺(tái),包括數(shù)據(jù)庫、建模工具、分析工具等。有許多因素要考慮,如系統(tǒng)對(duì)數(shù)據(jù)量、響應(yīng)時(shí)間、分析功能的要求等,以下是一些公認(rèn)的選擇標(biāo)準(zhǔn):廠商的背景和支持能力,能否提供全方位的技術(shù)支持和咨詢服務(wù)。數(shù)據(jù)庫對(duì)大數(shù)據(jù)量(TB級(jí))的支持能力。數(shù)據(jù)庫是否支持并行操作。能否提供數(shù)據(jù)倉庫的建模工具,是否支持對(duì)元數(shù)據(jù)的管理。能否提供支持大數(shù)據(jù)量的數(shù)據(jù)加載、轉(zhuǎn)換、傳輸工具(ETT)。能否提供完整的決策支持工具集,滿足
17、數(shù)據(jù)倉庫中各類用戶的需要。3.建立數(shù)據(jù)倉庫的邏輯模型具體步驟如下:(1)確定建立數(shù)據(jù)倉庫邏輯模型的基本方法。(2)基于主題視圖,把主題視圖中的數(shù)據(jù)定義轉(zhuǎn)到邏輯數(shù)據(jù)模型中。(3)識(shí)別主題之間的關(guān)系。(4)分解多對(duì)多的關(guān)系。(5)用范式理論檢驗(yàn)邏輯數(shù)據(jù)模型。(6)由用戶審核邏輯數(shù)據(jù)模型。4.邏輯數(shù)據(jù)模型轉(zhuǎn)化為數(shù)據(jù)倉庫數(shù)據(jù)模型具體步驟如下:(1)刪除非戰(zhàn)略性數(shù)據(jù): HYPERLINK /bi/sjck/ t _blank 數(shù)據(jù)倉庫模型中不需要包含邏輯數(shù)據(jù)模型中的全部數(shù)據(jù)項(xiàng),某些用于操作處理的數(shù)據(jù)項(xiàng)要?jiǎng)h除。(2)增加時(shí)間主鍵:數(shù)據(jù)倉庫中的數(shù)據(jù)一定是時(shí)間的快照,因此必須增加時(shí)間主鍵。(3)增加派生數(shù)據(jù):
18、對(duì)于用戶經(jīng)常需要分析的數(shù)據(jù),或者為了提高性能,可以增加派生數(shù)據(jù)。(4)加入不同級(jí)別粒度的匯總數(shù)據(jù):數(shù)據(jù)粒度代表數(shù)據(jù)細(xì)化程度,粒度越大,數(shù)據(jù)的匯總程度越高。粒度是數(shù)據(jù)倉庫設(shè)計(jì)的一個(gè)重要因素,它直接影響到駐留在數(shù)據(jù)倉庫中的數(shù)據(jù)量和可以執(zhí)行的查詢類型。顯然,粒度級(jí)別越低,則支持的查詢?cè)蕉?;反之,能支持的查詢就有限?.數(shù)據(jù)倉庫數(shù)據(jù)模型優(yōu)化數(shù)據(jù)倉庫設(shè)計(jì)時(shí),性能是一項(xiàng)主要考慮因素。在數(shù)據(jù)倉庫建成后,也需要經(jīng)常對(duì)其性能進(jìn)行監(jiān)控,并隨著需求和數(shù)據(jù)量的變更進(jìn)行調(diào)整。優(yōu)化數(shù)據(jù)倉庫設(shè)計(jì)的主要方法是:合并不同的數(shù)據(jù)表。通過增加匯總表避免數(shù)據(jù)的動(dòng)態(tài)匯總。通過冗余字段減少表連接的數(shù)量,不要超過35個(gè)。用ID代碼而不是描
19、述信息作為鍵值。對(duì)數(shù)據(jù)表做分區(qū)。6.數(shù)據(jù)清洗轉(zhuǎn)換和傳輸由于業(yè)務(wù)系統(tǒng)所使用的軟硬件平臺(tái)不同,編碼方法不同,業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)在加載到 HYPERLINK /bi/sjck/ t _blank 數(shù)據(jù)倉庫之前,必須進(jìn)行數(shù)據(jù)的清洗和轉(zhuǎn)換,保證數(shù)據(jù)倉庫中數(shù)據(jù)的一致性。在設(shè)計(jì)數(shù)據(jù)倉庫的數(shù)據(jù)加載方案時(shí),必須考慮以下幾項(xiàng)要求:加載方案必須能夠支持訪問不同的數(shù)據(jù)庫和文件系統(tǒng)。數(shù)據(jù)的清洗、轉(zhuǎn)換和傳輸必須滿足時(shí)間要求,能夠在規(guī)定的時(shí)間范圍內(nèi)完成。支持各種轉(zhuǎn)換方法,各種轉(zhuǎn)換方法可以構(gòu)成一個(gè)工作流。支持增量加載,只把自上一次加載以來變化的數(shù)據(jù)加載到數(shù)據(jù)倉庫。7.開發(fā)數(shù)據(jù)倉庫的分析應(yīng)用建立數(shù)據(jù)倉庫的最終目的是為業(yè)務(wù)部門提供
20、決策支持能力,必須為業(yè)務(wù)部門選擇合適的工具實(shí)現(xiàn)其對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析的要求。信息部門所選擇的開發(fā)工具必須能夠:滿足用戶的全部分析功能要求。數(shù)據(jù)倉庫中的用戶包括了企業(yè)中各個(gè)業(yè)務(wù)部門,他們的業(yè)務(wù)不同,要求的分析功能也不同。如有的用戶只是簡單的分析報(bào)表,有些用戶則要求做預(yù)測和趨勢(shì)分析。提供靈活的表現(xiàn)方式。分析的結(jié)果必須能夠以直觀、靈活的方式表現(xiàn),支持復(fù)雜的圖表。使用方式上,可以是客戶機(jī)/服務(wù)器方式,也可以是瀏覽器方式。事實(shí)上,沒有一種工具能夠滿足數(shù)據(jù)倉庫的全部分析功能需求,一個(gè)完整的數(shù)據(jù)倉庫系統(tǒng)的功能可能是由多種工具來實(shí)現(xiàn),因此必須考慮多個(gè)工具之間的接口和集成性問題,對(duì)于用戶來說,希望看到的是
21、一致的界面。8.數(shù)據(jù)倉庫的管理只重視數(shù)據(jù)倉庫的建立,而忽視數(shù)據(jù)倉庫的管理必然導(dǎo)致數(shù)據(jù)倉庫項(xiàng)目的失敗。數(shù)據(jù)倉庫管理主要包括數(shù)據(jù)庫管理和元數(shù)據(jù)管理。數(shù)據(jù)庫管理需要考以下幾個(gè)方面:安全性管理。數(shù)據(jù)倉庫中的用戶只能訪問到他的授權(quán)范圍內(nèi)的數(shù)據(jù),數(shù)據(jù)在傳輸過程中的加密策略。數(shù)據(jù)倉庫的備份和恢復(fù)。數(shù)據(jù)倉庫的大小和備份的頻率直接影響到備份策略。如何保證數(shù)據(jù)倉庫系統(tǒng)的可用性,硬件還是軟件方法。數(shù)據(jù)老化。設(shè)計(jì)數(shù)據(jù)倉庫中數(shù)據(jù)的存放時(shí)間周期和對(duì)過期數(shù)據(jù)的老化方法,如歷史數(shù)據(jù)只保存匯總數(shù)據(jù),當(dāng)年數(shù)據(jù)保存詳細(xì)記錄。然而,元數(shù)據(jù)管理貫穿于整個(gè)系統(tǒng)的建設(shè)過程中,元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)采集階段,元數(shù)據(jù)主要包括下列信息:
22、源數(shù)據(jù)的描述定義:類型、位置、結(jié)構(gòu)。數(shù)據(jù)轉(zhuǎn)換規(guī)則:編碼規(guī)則、行業(yè)標(biāo)準(zhǔn)。目標(biāo)數(shù)據(jù)倉庫的模型描述:星型/雪花模型定義,維/事實(shí)結(jié)構(gòu)定義。源數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉庫的映射關(guān)系:函數(shù)/表達(dá)式定義。代碼:生成轉(zhuǎn)換程序、自動(dòng)加載程序等。在數(shù)據(jù)管理階段,元數(shù)據(jù)主要包括下列信息:匯總數(shù)據(jù)的描述:匯總/聚合層次、物化視圖結(jié)構(gòu)定義。歷史數(shù)據(jù)存儲(chǔ)規(guī)則:位置、存儲(chǔ)粒度。多維數(shù)據(jù)結(jié)構(gòu)描述:立方體定義、維結(jié)構(gòu)、度量值、鉆取層次定義等。在數(shù)據(jù)展現(xiàn)階段,元數(shù)據(jù)主要包括以下信息:報(bào)表的描述:報(bào)表結(jié)構(gòu)的定義。統(tǒng)計(jì)函數(shù)的描述:各類統(tǒng)計(jì)分析函數(shù)的定義。結(jié)果輸出的描述:圖、表輸出的定義。元數(shù)據(jù)不但是獨(dú)立存放,而且對(duì)用戶是透明的,標(biāo)準(zhǔn) HYP
23、ERLINK /bi/sjck/ t _blank 元數(shù)據(jù)之間可以互相轉(zhuǎn)換系統(tǒng)功能詳細(xì)介紹企業(yè)數(shù)據(jù)門戶企業(yè)實(shí)施商業(yè)智能、數(shù)據(jù)倉庫的目的之一為整合各系統(tǒng)的業(yè)務(wù)數(shù)據(jù),統(tǒng)一指標(biāo)口徑,實(shí)現(xiàn)統(tǒng)一視圖、統(tǒng)一決策界面。企業(yè)數(shù)據(jù)門戶功能主要對(duì)整合的業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一展現(xiàn),展現(xiàn)方式包括儀表盤、表格、日歷等內(nèi)容。數(shù)據(jù)門戶中展現(xiàn)的內(nèi)容是管理者及業(yè)務(wù)人員最關(guān)注的指標(biāo),通過門戶為他們獲取數(shù)據(jù)提供最簡單容易的方式。 數(shù)據(jù)門戶中展現(xiàn)的內(nèi)容根據(jù)用戶角色不同而有所差異,每個(gè)用戶都可以定制自己關(guān)注的內(nèi)容,實(shí)現(xiàn)真正的個(gè)性化服務(wù)。系統(tǒng)截圖:主題分析數(shù)據(jù)倉庫中的業(yè)務(wù)數(shù)據(jù)通常是面向主題進(jìn)行組織的。主題分析是在較高層次上將企業(yè)信息系統(tǒng)的數(shù)據(jù)
24、進(jìn)行歸并、抽象,形成對(duì)分析對(duì)象的一個(gè)完整的描述,體現(xiàn)分析數(shù)據(jù)之間的相互關(guān)系,揭示數(shù)據(jù)規(guī)律和問題。主題分析模塊從主題域的角度入手,支撐數(shù)據(jù)資源的組織,支持?jǐn)?shù)據(jù)的深入挖掘和分析應(yīng)用,跟蹤、監(jiān)控政策的執(zhí)行情況及實(shí)施效果,倒逼行政權(quán)力部門認(rèn)真履職、規(guī)范執(zhí)法、優(yōu)化服務(wù),努力提高政府效能。考慮到國情特點(diǎn)和現(xiàn)狀,主題分析涵蓋了經(jīng)濟(jì)發(fā)展、衛(wèi)生健康、教育科技、道路交通、機(jī)構(gòu)團(tuán)體、生活服務(wù)、文體娛樂、安全避險(xiǎn)、資源環(huán)境、社保就業(yè)、財(cái)稅金融、法律服務(wù)量等八個(gè)主題域相關(guān)的主題分析功能。即席查詢 即席查詢針對(duì)數(shù)據(jù)倉庫內(nèi)的各主題數(shù)據(jù)、統(tǒng)計(jì)報(bào)表、指標(biāo)的快速檢索,幫助分析人員快速獲得所需要的數(shù)據(jù)和統(tǒng)計(jì)信息。即席查詢工具通過提
25、供各種向?qū)浇缑妗D形查詢生成器、聯(lián)機(jī)幫助等功能,為系統(tǒng)使用人員提供細(xì)粒度數(shù)據(jù)。 即席查詢是分析人員的重要的輔助工具,它是在數(shù)據(jù)倉庫的信息組織基礎(chǔ)上,盡可能多的在后臺(tái)按照分析人員關(guān)心的分析角度沉淀業(yè)務(wù)知識(shí),在前端功能上屏蔽后臺(tái)查詢技術(shù)細(xì)節(jié),為分析人員提供靈活的業(yè)務(wù)分析查詢角度定制和結(jié)果定制功能,使分析人員在分析匯總數(shù)據(jù)的同時(shí)能夠通過即席查詢進(jìn)一步深入到自己感興趣的細(xì)節(jié)數(shù)據(jù)中,以便更全面地反映情況,做出正確決策。多維分析工具多維分析是商業(yè)智能的核心技術(shù),可以幫助用戶進(jìn)行多角度、立體化、靈活動(dòng)態(tài)的分析。多維分析報(bào)表由“維”(影響因素)和 “指標(biāo)”(衡量因素)組成,能夠真正為用戶所理解、并真實(shí)的反映
26、國情特性信息。 BI-多維分析工具簡單易用,無需編寫任何的代碼,用戶只需要通過語義層的定義就可以輕松搭建自己的多維數(shù)據(jù)模型。同時(shí)具有靈活的分析功能、直觀的數(shù)據(jù)操作和分析結(jié)果可視化表示等突出優(yōu)點(diǎn),從而使用戶對(duì)基于大量復(fù)雜數(shù)據(jù)的分析變得輕松而高效,以利于迅速做出正確判斷。它可用于證實(shí)人們提出的復(fù)雜的假設(shè),以圖形或者表格的形式來表示的對(duì)信息的總結(jié)。多維分析工具專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解對(duì)象的需求,制
27、定正確的方案。ETL工具ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán),它是承前啟后的必要的一步。ETL工具純java編寫,可以在Window、Linux、Unix上運(yùn)行,綠色無需安裝,數(shù)據(jù)抽取高效穩(wěn)定。功能強(qiáng)大、靈活,使用簡單。 (ETL平臺(tái)架構(gòu))數(shù)據(jù)抽取就是從數(shù)據(jù)源抽取出所需的數(shù)據(jù)的過程。數(shù)據(jù)抽取后,再經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。數(shù)據(jù)轉(zhuǎn)換主要用于解決數(shù)據(jù)不一致性問題,數(shù)據(jù)加載就是將從
28、數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中。ETL流程管理調(diào)度是ETL過程中的統(tǒng)一調(diào)度者和指揮者,它把復(fù)雜的數(shù)據(jù)處理過程中各個(gè)步驟整合成一個(gè)整體。異常數(shù)據(jù)處理機(jī)制指源數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)本身出錯(cuò)并發(fā)生變更后,對(duì)于正在抽取、已經(jīng)抽取、已經(jīng)處理、已經(jīng)匯總等各個(gè)環(huán)節(jié),如何進(jìn)行回退處理的一套機(jī)制。系統(tǒng)截圖:(ETL界面切圖)產(chǎn)品特色:(1) 支持MYSQL/ORACLE/MSSQLSERVER/DB2/ACCESS/達(dá)夢(mèng)等多種數(shù)據(jù)庫; (2) 支持Windows/Linux/Solaris/AIX等多種操作系統(tǒng); (3) 支持txt/csv/xls/xml等多種輸入輸出格式;(4) 圖形化ETL操
29、作配置,ETL數(shù)據(jù)加工過程一目了然; (5) 工具性能強(qiáng)大,處理速度大概可以達(dá)到8000行每秒; (6) 具有完整的日志管理功能、完善的數(shù)據(jù)審計(jì)功能,并且有相關(guān)的監(jiān)控預(yù)警機(jī)制,保證ETL過程正常進(jìn)行,不影響數(shù)據(jù)源系統(tǒng)的正常工作; (7)支持并行加載等高效的優(yōu)化策略;報(bào)表工具報(bào)表工具作為企業(yè)商業(yè)智能系統(tǒng)建設(shè)的重要組成部分,主要對(duì)企業(yè)數(shù)據(jù)倉庫中整合的各主題域業(yè)務(wù)數(shù)據(jù),按照業(yè)務(wù)管理要求,面向各級(jí)部門,快速提供準(zhǔn)確、全面、靈活的體現(xiàn)政府效能管理等方面實(shí)際的數(shù)據(jù)信息,為決策支持、行政管理提供有效的數(shù)據(jù)信息支撐。用戶只需使用IE、firefox等瀏覽器就能設(shè)計(jì)、瀏覽、打印報(bào)表。功能強(qiáng)大、靈活,使用簡單。報(bào)
30、表主要由兩部分組成:一是報(bào)表設(shè)計(jì),主要用來構(gòu)建報(bào)表;二是可以加到你應(yīng)用服務(wù)的運(yùn)行期組件。報(bào)表同時(shí)也提供一個(gè)圖形報(bào)表制作引擎。擁有和Dream weaver一般的操作界面,可以像畫table一樣畫報(bào)表,也可以生成圖片。 報(bào)表設(shè)計(jì)器包含標(biāo)簽、文本、圖片、分析圖、表格、交叉表等多種展現(xiàn)組件,對(duì)于不同的業(yè)務(wù)需求按不同的形式展現(xiàn)數(shù)據(jù),提高了數(shù)據(jù)可視化程度,能幫助管理人員快速做出決策。報(bào)表運(yùn)行時(shí)組件具有導(dǎo)出、打印、鑒權(quán)等功能,提升了系統(tǒng)的可用性和數(shù)據(jù)的安全性。功能特色:1.支持自定義報(bào)表,支持用戶個(gè)性化報(bào)表制定、保存及相關(guān)管理功能,選擇界面靈活、友好,支持臨時(shí)性選擇信息保存,支持報(bào)表格式的個(gè)性調(diào)整,包括:
31、指標(biāo)維度的靈活調(diào)整和表格轉(zhuǎn)置;2.支持固定報(bào)表,依據(jù)指標(biāo)字典模塊中基礎(chǔ)指標(biāo)、分析指標(biāo)及綜合指標(biāo)的架構(gòu)、口徑,實(shí)現(xiàn)報(bào)表模板上傳,報(bào)表展現(xiàn)時(shí)按模板展現(xiàn)數(shù)據(jù);3.支持交叉報(bào)表,即報(bào)表維度可以橫向和縱向同時(shí)多維度展現(xiàn)數(shù)據(jù);4.支持分析型報(bào)表,采用OLAP分析引擎,支持報(bào)表數(shù)據(jù)上鉆、下鉆、切片、旋轉(zhuǎn)等功能;5.展現(xiàn)方式支持多種圖表類型,包括列表、交叉表,以及柱狀圖、折線圖、餅圖、雷達(dá)圖等多種圖表類型;附錄資料:不需要的可以自行刪除如何構(gòu)建銀行數(shù)據(jù)倉庫數(shù)據(jù)倉庫技術(shù)作為一項(xiàng)數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對(duì)聯(lián)機(jī)分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念
32、指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,也沒有具體的分析規(guī)范和實(shí)現(xiàn)方法,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標(biāo)準(zhǔn)。在以往關(guān)系數(shù)據(jù)庫的設(shè)計(jì)和實(shí)現(xiàn)中,不僅有詳細(xì)的理論推導(dǎo),還有無數(shù)的設(shè)計(jì)實(shí)例,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品、開發(fā)工具,只要按照規(guī)范做,那么實(shí)現(xiàn)同一業(yè)務(wù)需求的方案都會(huì)很相似。而現(xiàn)有數(shù)據(jù)倉庫的實(shí)現(xiàn)中,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具、表現(xiàn)工具,而設(shè)計(jì)人員的個(gè)人經(jīng)驗(yàn)和素質(zhì)也會(huì)在其中扮演很重要的角色。 數(shù)據(jù)倉庫技術(shù)的實(shí)現(xiàn)方式 目前在數(shù)據(jù)倉庫技術(shù)的實(shí)際應(yīng)用中主要包括如下幾種具體實(shí)現(xiàn)方式。 1、在關(guān)系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(RO
33、LAP) 2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(MOLAP) MOLAP方案是以多維方式來組織數(shù)據(jù),以多維方式來存儲(chǔ)數(shù)據(jù);ROLAP方案則以二維關(guān)系表為核心表達(dá)多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實(shí)表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲(chǔ)。在多維數(shù)據(jù)模型的表達(dá)方面,多維矩陣比關(guān)系表更清晰且占用的存儲(chǔ)更少,而通過關(guān)系表間的連接來查詢數(shù)據(jù)的ROLAP系統(tǒng),系統(tǒng)性能成為最大問題。MOLAP方案比ROLAP方案要簡明,索引及數(shù)據(jù)聚合可以自動(dòng)進(jìn)行并自動(dòng)管理,但同時(shí)喪失了一定的靈活性。ROLAP方案的實(shí)現(xiàn)較為復(fù)雜,但靈活性較好,用戶可以動(dòng)態(tài)定義統(tǒng)計(jì)和計(jì)算方式,另外能保護(hù)在已有關(guān)系數(shù)據(jù)庫上的投資
34、。 由于兩種方案各有優(yōu)劣,因此在實(shí)際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫存儲(chǔ)歷史數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢(shì),減少花費(fèi),而在多維數(shù)據(jù)庫中存儲(chǔ)當(dāng)前數(shù)據(jù)和常用統(tǒng)計(jì)數(shù)據(jù),以提高操作性能。 3、在原有關(guān)系庫上建立邏輯上的數(shù)據(jù)倉庫 由于目前正在運(yùn)行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉庫固然能從功能、性能各方面給出一個(gè)完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉庫的建設(shè)和分析數(shù)據(jù)的積累需要一段時(shí)間,無法及時(shí)滿足用戶對(duì)信息分析的迫切需要。因此在籌建數(shù)據(jù)倉庫的前期
35、,可以采用一些合適的表現(xiàn)工具,在原有OLTP系統(tǒng)上建立起一個(gè)邏輯的數(shù)據(jù)倉庫系統(tǒng)。盡管由于原有OLTP系統(tǒng)設(shè)計(jì)上的局限性,這樣的系統(tǒng)可能無法實(shí)現(xiàn)很多分析功能,但這樣一個(gè)系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對(duì)穩(wěn)定成熟,因此數(shù)據(jù)倉庫的建模、實(shí)現(xiàn)過程會(huì)相對(duì)容易、便捷;同時(shí),這樣的系統(tǒng)也會(huì)成為將來真正數(shù)據(jù)倉庫建設(shè)的原型。 信息系統(tǒng)與數(shù)據(jù)倉庫的關(guān)系 由于數(shù)據(jù)量大、數(shù)據(jù)來源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時(shí),不可避免地會(huì)遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問題;而數(shù)據(jù)倉庫的最大優(yōu)點(diǎn)在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲(chǔ)在一個(gè)單一的集成的數(shù)據(jù)庫中,并提供各種手段對(duì)數(shù)
36、據(jù)進(jìn)行統(tǒng)計(jì)、分析。因此可以說,在銀行使用數(shù)據(jù)倉庫構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,難以割舍的。 數(shù)據(jù)倉庫在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析、客戶市場分析、相關(guān)金融業(yè)分析決策(證券、外匯買賣)、風(fēng)險(xiǎn)預(yù)測、效益分析等。 在銀行信息系統(tǒng)構(gòu)建時(shí),由于歷史情況和現(xiàn)實(shí)需求的不同,存在兩種途徑: 1、建設(shè)新系統(tǒng) 由于目前國內(nèi)商業(yè)銀行對(duì)銀行內(nèi)部運(yùn)營的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機(jī)制,因此可以在構(gòu)建管理信息系統(tǒng)時(shí),分?jǐn)?shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問題,同時(shí)考慮到搜集過程中可能存在多個(gè)數(shù)據(jù)來源,因此可以在系統(tǒng)建設(shè)的同時(shí)構(gòu)建數(shù)據(jù)
37、倉庫,將搜集來的各種數(shù)據(jù)通過數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫中。 2、完善原有系統(tǒng) 而對(duì)于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉庫,即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個(gè)虛擬的多維模型。當(dāng)系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉庫,這樣既節(jié)省投資,又縮短開發(fā)工期。 實(shí)現(xiàn)中需要注意的問題 一、模型設(shè)計(jì)中的問題 模型設(shè)計(jì)(包括邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì))是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,在實(shí)際操作中,視實(shí)現(xiàn)技術(shù)的不同應(yīng)分別對(duì)下列問題引起注意。 1、直接構(gòu)建數(shù)據(jù)倉庫 直接構(gòu)建數(shù)據(jù)倉庫時(shí),必須按業(yè)務(wù)分析的要求重組OLTP系統(tǒng)中的數(shù)據(jù),并要按不同側(cè)重點(diǎn)分別組織,使之便于使用。 *
38、主題的確定 主題是一個(gè)邏輯概念,它應(yīng)該能夠完整、統(tǒng)一地刻畫出分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)以及相互聯(lián)系。劃分主題的根據(jù)主要來源于兩方面:對(duì)原有固定報(bào)表的分析和對(duì)業(yè)務(wù)人員的訪談。原有固定報(bào)表能較好地反映出以往工作對(duì)數(shù)據(jù)分析的需求,而且數(shù)據(jù)含義和格式相對(duì)成熟、穩(wěn)定,在模型設(shè)計(jì)中需要大量借鑒。但僅僅滿足于替代目前的手工報(bào)表還遠(yuǎn)遠(yuǎn)不應(yīng)是構(gòu)建管理信息系統(tǒng)的目標(biāo),還應(yīng)該通過業(yè)務(wù)訪談,進(jìn)一步挖掘出日常工作中潛在的更廣、更深的分析需求。只有這樣,才能真正了解構(gòu)建數(shù)據(jù)倉庫模型所需的主題劃分。 *分析內(nèi)容的細(xì)化 主題的劃分實(shí)際上是與分析內(nèi)容的范圍直接相關(guān)的,一旦主題劃分清楚了,下一步就是細(xì)化分析的具體內(nèi)容以及根據(jù)分析內(nèi)
39、容的性質(zhì)確定它在數(shù)據(jù)倉庫中的位置。通常維元素對(duì)應(yīng)的是分析角度,而度量對(duì)應(yīng)的是分析關(guān)心的具體指標(biāo)。一個(gè)指標(biāo)究竟是作為維元素、度量還是維屬性,取決于具體的業(yè)務(wù)需求,但從實(shí)際操作中可以總結(jié)出如下的概念性經(jīng)驗(yàn):作為維元素或維屬性的通常是離散型的數(shù)據(jù),只允許有限的取值;作為度量的是連續(xù)型數(shù)據(jù),取值無限。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,則必須對(duì)其按取值進(jìn)行分段,以分段值作為實(shí)際的維元素。判斷分析指標(biāo)是作為維元素還是維屬性時(shí),則需要綜合考慮這個(gè)指標(biāo)占用的存儲(chǔ)空間與相關(guān)查詢的使用頻度。 需要特別強(qiáng)調(diào)的是,在細(xì)化分析內(nèi)容的過程中,務(wù)必解決指標(biāo)的歧義問題。在不同報(bào)表中以及在業(yè)務(wù)訪談中同一名稱的指標(biāo),是否是在同樣
40、條件限定下,通過同樣方法提取或計(jì)算得到的,它們之間的相互關(guān)系是什么,這些問題都必須從熟悉業(yè)務(wù)的分析人員那里得到準(zhǔn)確、清晰的答案,否則將會(huì)影響到模型設(shè)計(jì)、數(shù)據(jù)提取、數(shù)據(jù)展現(xiàn)等多個(gè)方面。 *粒度的設(shè)計(jì) 數(shù)據(jù)倉庫模型中所存儲(chǔ)的數(shù)據(jù)的粒度將對(duì)信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作為最細(xì)粒度,將決定存儲(chǔ)的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時(shí)間。 如果同一個(gè)信息系統(tǒng)要在大范圍、多層次上同時(shí)運(yùn)行,如部門級(jí)和企業(yè)級(jí),還應(yīng)考慮不同層次的數(shù)據(jù)倉庫采用不同的粒度。 *模型設(shè)計(jì)中的技巧 復(fù)合指標(biāo)尤其是比率類指標(biāo)的定義,必須注意累加時(shí)是先加減后
41、乘除,還是反之。戶數(shù)、筆數(shù)的計(jì)算,這類指標(biāo)在分析或報(bào)表中經(jīng)常出現(xiàn),但不需要作為單獨(dú)的指標(biāo)物理存在于數(shù)據(jù)庫中,但定義分析模型時(shí)一定應(yīng)該準(zhǔn)備。度量的時(shí)間特性,針對(duì)分析指標(biāo)在時(shí)間維上的不同表現(xiàn),可分為可累加指標(biāo)、半可累加指標(biāo)和不可累加指標(biāo)。 2、在原有數(shù)據(jù)基礎(chǔ)上構(gòu)建邏輯數(shù)據(jù)倉庫 如果直接使用OLTP系統(tǒng)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理,會(huì)遇到許多麻煩,有時(shí)甚至是不可能實(shí)現(xiàn)的。這并不是說關(guān)系數(shù)據(jù)庫不好,而是因?yàn)槠湓O(shè)計(jì)思路不適應(yīng)較大規(guī)模數(shù)據(jù)分析。因此在使用這種方法時(shí),需要注意下列問題的處理: *不同的時(shí)間單位 這是實(shí)現(xiàn)過程中最常遇到的問題,也往往是最難解決的問題。OLTP系統(tǒng)中存儲(chǔ)的時(shí)間往往采用與實(shí)際業(yè)務(wù)發(fā)生相
42、同的時(shí)間單位,如帳務(wù)數(shù)據(jù)單位為日期,財(cái)務(wù)報(bào)表單位為月或半年。而面向分析時(shí),往往要將不同時(shí)間單位的數(shù)據(jù)統(tǒng)一到同一個(gè)結(jié)果中,這樣就必須存在適當(dāng)?shù)霓D(zhuǎn)換機(jī)制才能實(shí)現(xiàn)。 *冗余信息 所謂冗余信息,就是指不同關(guān)系表中存在的同一含義的字段,而同一含義不僅指這些字段的取得或計(jì)算方式一樣,還指它們成立的條件一樣,例如截止某一時(shí)間同一地區(qū)的同一貸種的貸款余額。在OLTP系統(tǒng)中,這樣的字段往往是基于性能考慮而設(shè)計(jì)的,而在面向分析設(shè)計(jì)模型時(shí),為了保證結(jié)果的唯一性和準(zhǔn)確性,就必須用且只用其中之一的數(shù)據(jù)產(chǎn)生分析結(jié)果。 *表間連接 由于OLTP系統(tǒng)中表的設(shè)計(jì)面向業(yè)務(wù)處理,既要保證數(shù)據(jù)的完整性、一致性,又要考慮響應(yīng)時(shí)間,因此表與表之間既
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教新起點(diǎn)選修1歷史上冊(cè)月考試卷含答案
- 2025年蘇人新版七年級(jí)生物上冊(cè)月考試卷含答案
- 2025年北師大版八年級(jí)生物下冊(cè)月考試卷含答案
- 二零二五年度木門及木飾面定制化生產(chǎn)與安裝服務(wù)合同4篇
- 二零二五版親子閱讀活動(dòng)組織服務(wù)合同4篇
- 2025年航空航天產(chǎn)業(yè)投資入股分紅合同4篇
- 二零二五年度智能家居安裝服務(wù)分包工程勞務(wù)合同4篇
- 2025版木作裝飾清包施工合同示范文本8篇
- 2024版公司車輛租賃合同
- 二零二五年度路演展示廳綠色環(huán)保設(shè)施租賃合同4篇
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級(jí)下冊(cè)英語:寒假課內(nèi)預(yù)習(xí)重點(diǎn)知識(shí)默寫練習(xí)
- 2024年食品行業(yè)員工勞動(dòng)合同標(biāo)準(zhǔn)文本
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測試
- GB/T 44423-2024近紅外腦功能康復(fù)評(píng)估設(shè)備通用要求
- 2024-2030年中國減肥行業(yè)市場發(fā)展分析及發(fā)展趨勢(shì)與投資研究報(bào)告
- 運(yùn)動(dòng)技能學(xué)習(xí)
- 2024年中考英語專項(xiàng)復(fù)習(xí):傳統(tǒng)文化的魅力(閱讀理解+完型填空+書面表達(dá))(含答案)
- 音樂培訓(xùn)合同與培訓(xùn)機(jī)構(gòu)的合作
評(píng)論
0/150
提交評(píng)論