




已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀
碩士論文-OLAP技術研究及其在移動通信運營中的應用.pdf.pdf 免費下載
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
長春工業(yè)大學 碩士學位論文 OLAP技術研究及其在移動通信運營中的應用 姓名 李哲琦 申請學位級別 碩士 專業(yè) 計算機應用技術 指導教師 逄煥利 20070301 長春工業(yè)大學碩士學位論文 摘要 目前 數(shù)據(jù)倉庫技術正處于快速發(fā)展時期 基于數(shù)據(jù)倉庫的聯(lián)機分析處理系統(tǒng)也 正在成為I T 行業(yè)新的增長點 數(shù)據(jù)倉庫技術起源于對大量數(shù)據(jù)迸行處理的需要 是 隨著業(yè)務應用的需要而產(chǎn)生的 與傳統(tǒng)的數(shù)據(jù)庫技術相比 數(shù)據(jù)倉庫為決策分析提供 了更好的支持 超出了傳統(tǒng)聯(lián)機事務處理的范疇 因此近幾年來 數(shù)據(jù)倉庫技術發(fā)展 很快 并在各個行業(yè)都得到了很多的應用 相對于國外大中型企業(yè) 我國企業(yè)的數(shù)據(jù) 倉庫建設目前還處于起步和探索階段 在電信企業(yè)這樣大型的信息化產(chǎn)業(yè)內部建設數(shù) 據(jù)倉庫應用 對技術更是提出了更高的要求 現(xiàn)在介紹數(shù)據(jù)倉庫和O L A P 技術的書籍和資料在概念和結構方面討論較多 本文 希望通過討論在設計和具體實現(xiàn)數(shù)據(jù)倉庫 以及基于數(shù)據(jù)倉庫的O L A P 的過程中遇到 的一些比較實用和細節(jié)的問題 達到從實際出發(fā) 突出實用性和集成性的特點 本文首先闡述了數(shù)據(jù)倉庫的和聯(lián)機分析處理的概念和發(fā)展歷史 以及當前我國電 信行業(yè)對傳統(tǒng)數(shù)據(jù)庫豹應用情況 接下來從理論上分折了數(shù)據(jù)倉庫和多維分析與傳統(tǒng) 數(shù)據(jù)庫應用的不同之處 重點闡述了對數(shù)據(jù)進行多維分析的概念和方法 在應用分析 部分 針對數(shù)據(jù)倉庫建設的各個重點環(huán)節(jié)進行分析和討論 結合理論知識和實際經(jīng)驗 得出最適合當前電信行業(yè)應用的處理方案或建議 并討論了當前可應用數(shù)據(jù)倉庫和聯(lián) 機分析處理技術的領域 最后給出了一個數(shù)據(jù)倉庫的應用實例一電信話單分析系統(tǒng) 通過該系統(tǒng)的從建模到數(shù)據(jù)抽取 到多維分析應用 展示了如何從現(xiàn)有業(yè)務系統(tǒng)上建 立數(shù)據(jù)倉庫應用和多維分析方法 建設數(shù)據(jù)倉庫系統(tǒng)能夠極大地提高國內電信企業(yè)的業(yè)務支撐能力 豐富企業(yè)的業(yè) 務應用內容 提高企業(yè)的市場競爭力 縮短與國際電信企業(yè)在運營管理能力方面的差 距 為迎接將來更開放的 競爭更激烈的電信市場做好技術準備 關鍵詞 數(shù)據(jù)倉庫 多維分析 聯(lián)機分析處理 決策支持系統(tǒng) 關系數(shù)據(jù)庫 長春工業(yè)大學碩士學位論文 A b s t r a c t A tp r e s e n t t h ed a t aw a r e h o u s et e c h n o l o g yi sb e i n gi nt h ef a s td e v e l o p m e n tt i m e a n d o n l i n ea n a l y s i sp r o c e s s i n gs y s t e mb a s e do nt h ed a t aw a r e h o u s et e c h n o l o g yi sb e c o m i n ga f l e wg r o w i n gp o i n to ft h eI Tp r o f e s s i o n T h ed a t aw a r e h o u s et e c h n o l o g yo r i g i n si nc a r r i e s o np r o c e s s i n gt ot h en l a s sd a t a i ti sa l o n gw i t ht h es e r v i c ea p p l i c a t i o nn e e d C o m p a r e sw i t l l t h et r a d i t i o n a ld a t a b a s et e c h n o l o g y t h ed a t aw a r e h o u s eh a sp r o v i d e dab e t t e rs u p p o r tf o r t h ed e c i s i o na n a l y s i sa n d j u m p e do u tt h ec a t e g o r i e si nt r a d i t i o n a lo n l i n eb u s i n e s sp r o c e s s e s T h e r e f o r e d a t aw a r e h o u s e st e c h n o l o g i e a ld e v e l o p m e n ti sv e r yq u i c ki nt h el a s tf e wy e a r s a n dp e o p l e sh a v ed e v e l o p e dm a n ya p p l i c a t i o n si ne a c hp r o f e s s i o n C o m p a r et ot h e o v e r s e a sm i d d l eo r l a r g es c a l ee n t e r p r i s e so u rc o u n t r ye n t e r p r i s e Sd a t aw a r e h o u s e c o n s t r u c t i o ni ss t i l li nt h ee x p l o r a t i o ns t a g ea tp r e s e n t I nl a r g e s c a l ea n di n f o r m a t i o nb a s e d e n t e r p r i s e sl i k et h et e l e c o m m u n i c a t i o nc o m p a n i e si nC h i n a b u i l d i n gd a t aw a r e h o u s e a p p l i c a t i o ni sah i g h l e v e lr e q u e s tt o t h et e c h n o l o g yn s e r s N o w b o o k sa n dt h ea r t i c l e sw h i c hi n t r o d u c e dt h ed a t aw a r e h o u s ea n dt h eO L A P t e c h n o l o g yd i s c u s sm a n yi nt h ec o n c e p ta n dt h es t r u c t u r ea s p e c t t h i sa r t i c l eh o p e dt h r o u g h t h ed i s c u s s i o ni nt h ed e s i g na n dt h es p e c i f i ci m p l e m e n t a t i o nd a t aw a r e h o u s e a n dO L A P b a s e do nd a t aw a r e h o u s ei np r a c t i c a la n dd e t a i lw a y a c h i e v e de m b a r k s p r o m i n e n tu s a b l e f r o mt h er e a l i t ya n dt h ei n t e g r a t i o nc h a r a c t e r i s t i c T h i sa r t i c l ef i r s te l a b o r a t e dt h ed a t a w a r e h o u s ea n dt h eo n l i n ea n a l y s i sp r o c e s s i n gc o n c e p ta n dt h e i rd e v e l o p m e n th i s t o r i e s a n d t h e nD e s c r i b e dt h es i t u a t i o no ft h et r a d i t i o n a ld a t a b a s ea p p l i c a t i o ni no u rc u r r e n tc o u n t r y t e l e c o m m u n i c a t i o n p r o f e s s i o n M e td o w n t h i sa r t i c l et h e o r e t i c a l l ya n a l y z e dt h ed e f e r e n c e b e t w e e nt h ed a t aw a r e h o u s ea n dt h em u l t i d i m e n s i o n a l a n a l y s i st e c h n o l o g yt o t h e t r a d i t i o n a ld a t a b a s ea p p l i c a t i o n s a n de l a b o r a t e dw i t he m p h a s i st h ec o n c e p ta n dt h em e t h o d o f t h em u l t i d i m e n s i o n a la n a l y s i st ot h ed a t a I nt h ea p p l i c a t i o na n a l y s i sp a r t c a r r i e do nt h e a n a l y s i sa n dt h ed i s c u s s i o ni nv i e wo fd a t aw a r e h o u s ec o n s t r u c t i o ni ne a c hk e yp o i n t t r yt o o b t a i n st h ew a yw h i c hm o s ts u i t st h ec u r r e n tt e l e c o m m u n i c a t i o np r o f e s s i o na p p l i c a t i o n w i t ht h e o r y k n o w l e d g ea n dt h ep r a c t i c a le x p e r i e n c e t h e nd i s c u s s e ds e v e r a lp o s s i b l e d o m a i nw h i c ht h ed a t aw a r e h o u s ea n dt h eo n l i n ea n a l y t i c a lp r o c e s s i n gt e c h n o l o g yC a nb e u s e d F i n a l l yi n t h i s a r t i c l eh a sp r o d u c e dad a t aw a r e h o u s ea p p l i c a t i o ne x a m p l e t e l e c o m m u n i c a t i o nt e l e p h o n er e c o r d sa n a l y s i ss y s t e m t h r o u g ht h eM o d e l i n gp r o c e s s d a t a e x t r a c t t ot h em u l t i d i m e n s i o n a la n a l y s i sa p p l i c a t i o n h a dd e m o n s t r a t e dh o w t oe s t a b l i s ha d a t aw a r e h o u s ea p p l i c a t i o na n dt h em u l t i d i m e n s i o n a la n a l y s i sb a s e do nt h ee x i s t i n g 一蘭量三些查蘭堡主蘭壁笙蘭 b u s i n e s sp r o c e s s i n gs y s t e m s B u i l dd a t aw a r e h o u s es y s t e mC a l le n o r m o u s l ye n h a n c et h es e r v i c ea b i l i t yo fd o m e s t i c t e l e c o m m u n i c a t i o ne n t e r p r i s ea n de n r i c he n t e r p r i s e ss e r v i c ea p p l i c a t i o nc o n t e n t i ta l s oc a l l e n h a n c e st h ec o m p e t i t i v ep o w e ri n m a r k e t r e d u c e st h ed i s t a n c ew i t hi n t e r n a t i o n a l t e l e c o m m u n i c a t i o ne n t e r p r i s e U s i n gd a t aw a r e h o u s ef o rt 1 1 em a r k e tw h i c hm o r eo p e n i n g a n dt h ec o m p e t i t i o n sw h i c hm o r ei n t e n s i o n si nt h ef u t u r e K e y w o r d s D a t aW a r e h o u s e M u l t i d i m e n s i o n a lA n a l y s i s O n l i n eA n a l y s i sP r o c e s s i n g D e c i s i o nS u p p o r tS y s t e m R e l a t i o n a lD a t a b a s e 長春工業(yè)大學碩士學位論文 原創(chuàng)性聲明 本人鄭重聲明 所呈交的碩士學位論文 是本人在指導教師的指導下 獨立進行 研究工作所取得的成果 除文中已經(jīng)注明引用的內容外 本論文不包含任何其他個人 或集體已經(jīng)發(fā)表或撰寫過的作品成果 對本文的研究做出重要貢獻的個人和集體 均 已在文中以明確方式標明 本人完全意識到本聲明的法律結果由本人承擔 學位論文作者簽名 移墻 V J 5 2 日期 d 一7年弓月 1 1 研究背景 第一章緒論 1 1 1 數(shù)據(jù)倉庫和O L A P 技術的發(fā)展 隨著以服務為中心的第三產(chǎn)業(yè)在現(xiàn)代社會經(jīng)濟中所占比重的日益增大 傳統(tǒng)的面 向工業(yè)制造業(yè)的管理模式已不再適合人們的需要 管理學家P e t e r D R u c k e r 提出了 知識管理的革命概念 指出企業(yè)成功的關鍵在于能否有效地獲取和管理知識 企業(yè)從 本質上說是利用知識為用戶解決問題的機構 有用的知識存在于大量的原始數(shù)據(jù)中 計算機的使用使得數(shù)據(jù)得以有效的保存和組織 計算機系統(tǒng)的功能從數(shù)值計算擴展到 數(shù)據(jù)管理距今已有三十多年 最初的數(shù)據(jù)管理形式主要是文件系統(tǒng) 少量的以數(shù)據(jù)片 段之間增加 些關聯(lián)和語義而構成層次型或網(wǎng)狀數(shù)據(jù)庫 但數(shù)據(jù)的訪問必須依賴于特 定的程序 數(shù)據(jù)的存取方式是固定的 死板的 到了1 9 6 9 年 E F C o d d 博士發(fā)表了他著名的關系數(shù)據(jù)模型的論文 此后 關系 數(shù)據(jù)庫的出現(xiàn)開創(chuàng)了數(shù)據(jù)管理的一個新時代 近二十多年 大量新技術 新思路涌現(xiàn) 出來并被用于關系數(shù)據(jù)庫系統(tǒng)的開發(fā)和實現(xiàn) 客戶 服務器體系結構 存儲過程 多 線索并發(fā)內核 異步I 0 和代價優(yōu)化 等等 這使得關系數(shù)據(jù)庫系統(tǒng)的處理能力毫不 遜色于傳統(tǒng)封閉的數(shù)據(jù)庫系統(tǒng) 而關系數(shù)據(jù)庫在訪問邏輯和應用上所帶來的好處則遠 遠不止這些 數(shù)據(jù)庫查詢語言 S Q L 的使用己成為一個不可阻擋的潮流 加上近些年 來計算機硬件的處理能力呈數(shù)量級的遞增 關系數(shù)據(jù)庫最終成為聯(lián)機事務處理系統(tǒng)的 主宰 整個8 0 年代自到9 0 年代初 聯(lián)機事務處理 O L T P 一直是數(shù)據(jù)庫應用的主流 然而 應用在不斷地進步 當聯(lián)機事務處理系統(tǒng)應用到一定階段的時候 企業(yè)家們便 發(fā)現(xiàn)單靠擁有聯(lián)機事務處理系統(tǒng)己經(jīng)不足以獲得市場競爭的優(yōu)勢 他們需要對其自身 業(yè)務的運作以及整個市場相關行業(yè)的態(tài)勢進行分析 而做出有利的決策 這種決策需 要對大量的業(yè)務數(shù)據(jù)包括歷史業(yè)務數(shù)據(jù)進行分析才能得到 2 1 世紀后 隨著計算機上 數(shù)據(jù)庫技術的成熟和廣泛應用 類似電信 銀行和保險等公共服務企業(yè)內部積累了大 量的數(shù)據(jù) 這些數(shù)據(jù)包括以往的業(yè)務歷史記錄以及用戶資料等 長期以來 在主要進 行聯(lián)機事務處理 O L T P 的操作型數(shù)據(jù)庫環(huán)境下 上述數(shù)據(jù)僅用于業(yè)務流程的支持和歷 史數(shù)據(jù)的保存 無疑是對資源的一種浪費 著名的數(shù)據(jù)倉庫專家R a l p hK i m b a l l 寫道 我們花了二十多年的時間將數(shù)據(jù)放入數(shù)據(jù)庫 如今是該將它們拿出來使用的時候 了 長春工業(yè)大學碩士學位論文 事實上 將大量的業(yè)務數(shù)據(jù)應用于分析和統(tǒng)計原本是一個非常簡單和自然的想 法a 但在實際的操作中 人們卻發(fā)現(xiàn)要獲得有用的信息并非如想象的那么容易 第一 所有聯(lián)機事務處理強調的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性 并不關心數(shù)據(jù) 查詢的方便與快捷 聯(lián)機分析和事務處理對系統(tǒng)的要求不同 同一個數(shù)據(jù)庫在理論上 都難以做到兩全 第二 業(yè)務數(shù)據(jù)往往被存放于分散的異構環(huán)境中 不易統(tǒng)一查詢訪 問 而且還有大量的歷史數(shù)據(jù)處于脫機狀態(tài) 形同虛設 第三 業(yè)務數(shù)據(jù)的模式針對 事務處理系統(tǒng)而設計 數(shù)據(jù)的格式和描述方式并不適合非計算機專業(yè)人員進行業(yè)務上 的分析和統(tǒng)計 因此有人感嘆 2 0 年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了 而今天查詢 不到數(shù)據(jù)是因為數(shù)據(jù)太多了 針對這一問題 人們設想專門為業(yè)務的統(tǒng)計分析建立一 個數(shù)據(jù)中心 它的數(shù)據(jù)從聯(lián)機的事務處理系統(tǒng)中來 從異構的外部數(shù)據(jù)源來 從脫機 的歷史業(yè)務數(shù)據(jù)中來 這個數(shù)據(jù)中心是一個聯(lián)機的系統(tǒng) 它是專門為分析統(tǒng)計和決 策支持應用服務的 通過它滿足決策支持和聯(lián)機分析應用所要求的一切 這個數(shù)據(jù)中 心就叫做數(shù)據(jù)倉庫 D a t aW a r e h o u s e 這個概念在9 0 年代初被提出來 并在信息領 域迅速興起 對于數(shù)據(jù)倉庫的具體定義 目前還存在較大爭議 數(shù)據(jù)倉庫之父w H I n m o n 指出 數(shù)據(jù)倉庫是支持企業(yè)或組織的決策分析處理的 面向主題的 集成的 不可更新的 隨時間不斷變化的數(shù)據(jù)集合 1 在實際應用中 也存在另一種更加明 晰的闡述了數(shù)據(jù)倉庫和事務處理型數(shù)據(jù)庫之間的關系的定義 數(shù)據(jù)倉庫是為了查詢 Q u e r y i n g 和報告 R e p o r t i n g 而專門構造的事務處理型數(shù)據(jù)的副本 數(shù)據(jù)倉庫定義 的核心就是要支持面向主題的決策分析 數(shù)據(jù)倉庫所要研究和解決的問題就是如何從 數(shù)據(jù)庫中獲取更多 更有用的信息 聯(lián)機分析處理 O L A P 是專門設計用于對儲存在數(shù)據(jù)倉庫中的數(shù)據(jù)進行復雜操作 的技術 它是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析 通過對信息的多個角度 維 進行 快速 一致 穩(wěn)定地交互訪問 使決策分析人員可以深入地進行觀察 聯(lián)機分析處理 O L A P 的概念最早是由關系數(shù)據(jù)庫之父E F C o d d 于1 9 9 3 年提出的 他同時提出了 關于O L A P 的1 2 條準則 O L A P 的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查 詢和報表需求 它的技術核心是 維 這個概念 維是人們觀察客觀世界的角度 是 一種高層次的類型劃分 維 一般包含著層次關系 這種層次關系有時會相當復雜 通過把一個實體的多項重要的屬性定義為多個維 d i m e n s i o n 使用戶能對不同維上 的數(shù)據(jù)進行比較 因此O L A P 也可以說是多維數(shù)據(jù)分析工具的集合 1 1 2 國內電信行業(yè)的背景情況 從上世紀八十年代開始 我國電信企業(yè)開始進行大規(guī)模的信息化建設 在近二十 年的時間中 電信企業(yè)已全面實現(xiàn)了生產(chǎn)及服務過程信息化 隨著業(yè)務不斷趨于多樣 2 長春工業(yè)大學碩士學位論文 化 各電信企業(yè)都針對不同業(yè)務建立了多個生產(chǎn)管理系統(tǒng) 如中國電信建設的生產(chǎn)系 統(tǒng)就包括了進行業(yè)務受理 配線配號系統(tǒng) 進行計費 賬務及欠費處理的計費系統(tǒng) 1 1 4 1 1 2 1 8 0 1 8 9 等專業(yè)系統(tǒng) 2 0 1 I C 等卡類管理系統(tǒng) 基于互聯(lián)網(wǎng)信息管理的 數(shù)據(jù)業(yè)務管理系統(tǒng)以及交換 傳輸 網(wǎng)管系統(tǒng)等 中國移動也建設了綜合業(yè)務支撐 R O S S 系統(tǒng) 用于夢網(wǎng)短信接入的短信網(wǎng)關 彩信網(wǎng)關 G P R S 網(wǎng)關等各專業(yè)管理系統(tǒng) 刪 目前 電信企業(yè)建設的項目仍然以生產(chǎn)支撐系統(tǒng)為主 通過這些支撐系統(tǒng)的建設 規(guī)范了電信企業(yè)內部管理流程 大大提高了電信企業(yè)的上作效率 增強了業(yè)務水平 提高了企業(yè)的競爭力 但是在進入2 1 世紀以后 面l 臨迅速膨脹的業(yè)務量 電信行業(yè)在信息管理方面面 臨新的挑戰(zhàn) 一方面 業(yè)務支撐系統(tǒng)日益復雜化 并且不斷地劃分為各個生產(chǎn)子系統(tǒng) 使得業(yè)務分析人員獲取有效數(shù)據(jù)的難度加大 另一方面 由于業(yè)務量的迅速發(fā)展 支 撐系統(tǒng)的各生產(chǎn)子系統(tǒng)處理負擔日益加重 而統(tǒng)計日益復雜 仍以傳統(tǒng)的方式 在生 產(chǎn)系統(tǒng)中進行統(tǒng)計分析 向市場營銷人員及時提供充足 準確的經(jīng)營信息而又不影響 生產(chǎn)系統(tǒng)的處理效率己不現(xiàn)實 此外 由于硬件設施的差距在縮小 競爭將最終體現(xiàn) 在對客戶的價值取向和消費心理為導向 經(jīng)營模式和服務體系也從 以業(yè)務為中心 轉變?yōu)?以客戶為中心 叫 基于以上幾點 有必要實現(xiàn)操作數(shù)據(jù)與經(jīng)營數(shù)據(jù)的分離 形成統(tǒng)一的經(jīng)營信息數(shù)據(jù)源 在服務支撐系統(tǒng)中為統(tǒng)計分析等經(jīng)營信息服務建設專門 的處理子系統(tǒng) 生產(chǎn)予系統(tǒng)視本身情況 周期地備份并清理歷史數(shù)據(jù) 而經(jīng)營信息服 務子系統(tǒng)所需的大量歷史數(shù)據(jù)不能自接依賴于生產(chǎn)子系統(tǒng) 必須周期性地從生產(chǎn)子系 統(tǒng)中抽取 獨立積累 獨立存儲 獨立管理 隨著市場競爭的不斷加劇 對客戶資源 的爭奪也進入了白熱化的階段 如何發(fā)展新用戶 擴大自己的用戶群 如何設計出更 適合用戶需要的業(yè)務 將用戶綁定在自己的網(wǎng)絡上 如何合理地設定資費在用戶可以 接受的水平 一個個新問題擺在了電信運營商的面前 在激烈的市場競爭面前 要想科學的決策 離不開數(shù)據(jù)的支持 從企業(yè)對于數(shù)據(jù) 分析的應用己經(jīng)從簡單的營業(yè)報表走向了經(jīng)營分析系統(tǒng)并進一步提出了對決策支持 系統(tǒng) D S S 經(jīng)理信息系統(tǒng) E I S 的需求 從簡單的客戶資料統(tǒng)計走向了客戶關系管 理 C R M 這些新一代的分析決策系統(tǒng)都需要一個穩(wěn)定可靠的 獨立于生產(chǎn)系統(tǒng)數(shù)據(jù) 的信息平臺 基于以上需求 電信行業(yè)建立基于數(shù)據(jù)倉庫的分析平臺己是勢在必行 1 2 研究的目的和意義 基于上述研究背景 本文的研究目的主要是以下幾點 1 對數(shù)據(jù)倉庫和O L A P 技術在理論上同傳統(tǒng)數(shù)據(jù)庫技術的不同之處和技術難點 進行探討和分析 3 長春工業(yè)大學碩士學位論文 2 對于多維查詢的概念和方法進行深入分析 對技術難點提出理論解決方案 3 對電信企業(yè)如何實施數(shù)據(jù)倉庫和運用O L A P 技術進行分析的方法要素進行闡 述和分析 并提出建議 4 對數(shù)據(jù)倉庫和O L A P 應用系統(tǒng)的實現(xiàn)過程和應用方式進行實踐 1 3 研究工作及論文結構 1 3 1 構建數(shù)據(jù)倉庫 數(shù)據(jù)倉庫構建的具體步驟如下 1 確定數(shù)據(jù)倉庫分析主題 目標 維度和維層次 2 定義元數(shù)據(jù)并設計數(shù)據(jù)倉庫的總體結構 確定存儲方式 3 數(shù)據(jù)的抽取 凈化和驗證 1 3 2O L A P 前端展現(xiàn)工具的開發(fā) 前端展現(xiàn)工具的開發(fā)具體步驟如下 1 把已有數(shù)據(jù)倉庫架構映射到多維模型 2 設計用戶圖形界面 提供向導功能 以方便決策者操作 3 根據(jù)決策者提出的分析目標 提供的相關數(shù)據(jù)及約束條件自動處理分析請求 并將處理的最終結果顯示在用戶界面 以供決策者參考 1 B B 論文結構 本文共分六章 其中第四 五兩章是核心部分 第一章 緒論 在緒論中 介紹了數(shù)據(jù)倉庫和O L A P 技術發(fā)展的背景 電信行業(yè) 的應用情況及本文的研究目的和內容 第二章 數(shù)據(jù)倉庫理論及應用 介紹了數(shù)據(jù)倉庫的相關概念 分析了數(shù)據(jù)倉庫的 數(shù)據(jù)組織結構和體系結構 并指出了數(shù)據(jù)倉庫的技術要求 第三章 基于數(shù)據(jù)倉庫的聯(lián)機分析技術 重點介紹了O L A P 相關技術 包括基本 概念 與O L T P 的關系以及O L A P 的數(shù)據(jù)組織和多維分析結構 第四章 電信話單分析系統(tǒng)設計 以電信運營中話單業(yè)務為實現(xiàn)背景 構建適合 通信業(yè)數(shù)據(jù)倉庫模型和體系架構 第五章 電信話單分析系統(tǒng)實現(xiàn) 介紹了事實表與維度表的生成 及基于O p e n S o u r c e 開源引擎構建符合J 2 E E 規(guī)范的O L A P 分析實現(xiàn)系統(tǒng) 4 長春工業(yè)大學碩士學位論文 第六章 論文總結 總結了研究進展 并指出有待改進和優(yōu)化之處 5 長春工業(yè)大學碩士學位論文 第二章數(shù)據(jù)倉庫理論及應用 2 1 數(shù)據(jù)倉庫的定義及用戶 2 1 1 數(shù)據(jù)倉庫的定義 提到數(shù)據(jù)倉庫 D a t aW a r e h o u s e 常常有人將其與數(shù)據(jù)庫混為一談 或者將它當 作一個可以從 貨架 上買到的產(chǎn)品 其實 數(shù)據(jù)倉庫既非數(shù)據(jù)庫 也不是一個實實 在在的產(chǎn)品 數(shù)據(jù)倉庫技術是近年來出現(xiàn)的 發(fā)展迅速的一種技術 它通過把企業(yè)大量的歷史 數(shù)據(jù)整理集中到一個中央倉庫中 將數(shù)據(jù)加以分析并呈現(xiàn)給用戶來支持管理者的決 策 數(shù)據(jù)倉庫是一個整合式的 面向主題的 歷史性的以及只讀性的數(shù)據(jù)集合 這一 定義清楚地揭示了數(shù)據(jù)倉庫和傳統(tǒng)關系數(shù)據(jù)庫的不同應用目標 傳統(tǒng)的關系型數(shù)據(jù)庫 技術主要為O L T P 提供支持 如訂票系統(tǒng) 儲蓄系統(tǒng)等 而數(shù)據(jù)倉庫技術應決策支持 需求而生 數(shù)據(jù)倉庫整合來自企業(yè)各個業(yè)務系統(tǒng)的各種類型和格式的數(shù)據(jù) 進行系統(tǒng)加工 匯總和整理 形成一個完整而一致的企業(yè)全局信息庫 數(shù)據(jù)倉庫的數(shù)據(jù)按照有利于決 策過程的主題進行組織 其中包含了數(shù)據(jù)的信息涵義 如銷售情況 利潤狀況及信貸 風險程度等 這樣的數(shù)據(jù)集合便于信息分析和信息挖掘 除此之外 數(shù)據(jù)倉庫系統(tǒng)中 存儲的數(shù)據(jù)記錄了企業(yè)從過去某一時點 如開始應用數(shù)據(jù)倉庫的時點 到目前的各個 階段的信息 數(shù)據(jù)倉庫之父B i l lI n m o n 對數(shù)據(jù)倉庫所下的定義是 數(shù)據(jù)倉庫是面向主題的 集成的 穩(wěn)定的 隨時間變化的數(shù)據(jù)集合 用以支持管理決策的過程 著名的D B S 和 M I S 專家R o bM a t t i s i o n e l 在1 9 9 6 年出版的 D a t aW a r e h o u s e 一書中也做如下的定 義 數(shù)據(jù)倉庫是一種新型的數(shù)據(jù)庫 數(shù)據(jù)倉庫被組織用作一個中性存儲區(qū) 被D a t a M i n i n g 和其它應用程序所使用 使用這些數(shù)據(jù)將滿足一組預定義的商業(yè)評判 由此可 見 數(shù)據(jù)倉庫是一個綜合的解決方案 一個數(shù)據(jù)倉庫通常是一個分散的數(shù)據(jù)存儲 在其中信息是存為這樣的一種形式 它適合于業(yè)務智能化和決策支持系統(tǒng) 數(shù)據(jù)可能是以不同形式存儲的 它并不影響 O L T P 系統(tǒng)的運作 數(shù)據(jù)倉庫的建立是用一種循環(huán)的逐步完善的過程而不是一步完善 的 數(shù)據(jù)倉庫通常是與解決企業(yè)不斷改變的組織問題的全過程有關 6 長春工業(yè)大學碩士學位論文 數(shù)據(jù)倉庫通常是圍繞主題建立的 主題就是企業(yè)感興趣的論題 比如部門 活動 和操作結果 數(shù)據(jù)倉庫的結構是由數(shù)據(jù)倉庫應滿足的應用決定的 快速提交信息是成 功實施數(shù)據(jù)倉庫的關鍵 由于這一點 就引入了數(shù)據(jù)集市和信息集市這些概念 數(shù)據(jù) 集市是數(shù)據(jù)倉庫的一個子集 它通常更為概括 以滿足對關心數(shù)據(jù)的查詢有比數(shù)據(jù)倉 庫本身更快的速度 信息集市存儲可用視窗器 v i e w e r 顯示的預處理的信息 2 1 2 數(shù)據(jù)倉庫的用戶 數(shù)據(jù)倉庫的用戶可以分為信息人員和信息使用人員 信息人員在創(chuàng)建分析的時候并不知道需求 在創(chuàng)建數(shù)據(jù)倉庫的過程中 信息人員 要完成四種類型的工作 概況分析 抽取 建模和分類 信息人員要從當前成功運行 的關系型數(shù)據(jù)庫中查看大量的數(shù)據(jù) 要考慮數(shù)據(jù)之間的關系 關聯(lián)和數(shù)據(jù)模型 信息使用人員是數(shù)據(jù)倉庫的大量用戶 他們在使用數(shù)據(jù)倉庫的時候 知道自己所 需求 用一種可以預測的 重復性的方式來使用數(shù)據(jù)倉庫平臺 信息使用人員實際上 是從戰(zhàn)術上監(jiān)控決策的效果 例如 醫(yī)院系統(tǒng)中藥費收入的比例問題 根據(jù)信息使用 人員的報告 在一段時期內 醫(yī)院的藥費收入在醫(yī)院的總收入中的比例過高 此時 信息人員應開始調查為什么在這段時期內 藥費的收入比例會增大 得出結論后將信 息提交給領導 以便領導采取相應的管理措施 2 2 數(shù)據(jù)倉庫的特征及其作用 2 2 1 數(shù)據(jù)倉庫的特征 1 面向主題的 數(shù)據(jù)庫是面向應用設計的 它的數(shù)據(jù)只是為處理具體應用而組織在一起的 反映 了一個單位數(shù)據(jù)的動態(tài)特征 即各個部門間的數(shù)據(jù)處理流程 這種數(shù)據(jù)組織方式具有 較強的操作性 但它對于數(shù)據(jù)內容的劃分不適用于分析 主題是一個在較高層次將信 息系統(tǒng)中的數(shù)據(jù)綜合 歸類并進行分析利用的抽象 每一個主題基本對應某一宏觀分 析領域所涉及的分析對象 即主題是一個在較高層次將數(shù)據(jù)歸類的標準 每一個主題 基本對應一個宏觀的領域 每個領域有自己的邏輯內涵互不交叉 面向主題的數(shù)據(jù)組 織方式 就是在較高層次上對分析對象的數(shù)據(jù)的一個完整性 一致性的描述 能完整 統(tǒng)一地刻畫各個分析對象所設計的各項數(shù)據(jù) 以及數(shù)據(jù)之間的聯(lián)系 數(shù)據(jù)進入數(shù)據(jù)倉 庫之前 必然要經(jīng)過加工與集成 將原始的數(shù)據(jù)結構做一個從面向應用到面向主題的 轉變 7 長春工業(yè)大學碩士學位論文 2 集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個外專業(yè)應用系統(tǒng) 但并不是對這些數(shù)據(jù)的簡單歸類與 拷貝 它應該是對源數(shù)據(jù)的增值和統(tǒng)一 經(jīng)必要的變換以最適合使用的方式存儲起來 支持聯(lián)機分析處理 3 非易失的 相對穩(wěn)定的 數(shù)據(jù)倉庫主要是為信息分析提供綜合的 集成的 面向主題的數(shù)據(jù) 這些數(shù)據(jù)原 則上不允許信息分析人員直接對數(shù)據(jù)執(zhí)行修改或刪除操作 進入數(shù)據(jù)倉庫的數(shù)據(jù)則是 相對穩(wěn)定的 4 反映歷史變化的 操作型數(shù)據(jù)庫主要關心當前某一個時間段內的數(shù)據(jù) 而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包 含歷史信息 系統(tǒng)記錄了企業(yè)從過去某一時點 如開始應用數(shù)據(jù)倉庫的時點 到目前的 各個階段的信息 通過這些信息 可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和 預測 企業(yè)數(shù)據(jù)倉庫的建設 是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數(shù)據(jù)的積累為基礎 數(shù) 據(jù)倉庫不是靜態(tài)的概念 只有把信息及時交給需要這些信息的使用者 供他們做出改 善其業(yè)務經(jīng)營的決策 信息才能發(fā)揮作用和意義 而把信息加以整理歸納和重組 并 及時提供給相應的管理決策人員 就是數(shù)據(jù)倉庫的根本任務 因此 從產(chǎn)業(yè)界的角度 看 數(shù)據(jù)倉庫建設是一個工程 2 2 2 數(shù)據(jù)倉庫的作用 數(shù)據(jù)倉庫主要有以下幾方面的作用 1 首先 數(shù)據(jù)倉庫支持多維分析 多維分析是通過把一個實體的多項重要的屬性定 義為多個維度 使得用戶能方便地匯總數(shù)據(jù)集 簡化了數(shù)據(jù)的分析處理邏輯 并能對 不同維度的值的數(shù)據(jù)進行比較 而維度則表示了對信息 的不同理解角度 應用多維 分析可以在一個查詢中對不同階段的數(shù)據(jù)進行縱向或橫向比較 這在決策過程中非常 有用 其次 數(shù)據(jù)倉庫是數(shù)據(jù)挖掘技術的關鍵基礎 數(shù)據(jù)挖掘技術要在己有數(shù)據(jù)中識別 數(shù)據(jù)的模式 以幫助用戶理解現(xiàn)有的信息 并在己有信息的基礎上 對未來的狀況做 出預測 在數(shù)據(jù)倉庫的基礎上進行數(shù)據(jù)挖掘 就可以針對整個企業(yè)的狀況和未來發(fā)展 做出較完整 合理 準確的分析和預測 8 長春工業(yè)大學碩士學位論文 2 3 數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫分析 傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)由于主要用于企業(yè)的商務日常事務處理工作 主要執(zhí)行的是聯(lián) 機事務和查詢處理 是為企業(yè)的特定的應用需求而服務的 用戶關心的是響應時間 數(shù)據(jù)安全性和完整性 1 存放在數(shù)據(jù)庫中的數(shù)據(jù)也就遵循了操作型數(shù)據(jù)的特點 而為 適應數(shù)據(jù)分析處理需求而產(chǎn)生的數(shù)據(jù)倉庫中所存放的數(shù)據(jù)就應該是分析型的數(shù)據(jù) 具 體差異比較如下 表2 1 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別 0 L T P 系統(tǒng)數(shù)據(jù)模型與數(shù)據(jù)倉庫0 1 A P 數(shù)據(jù)模型的特點比較 O L T P 系統(tǒng)數(shù)據(jù)倉庫O L A P 系統(tǒng) 規(guī)范化的非規(guī)范化的 無派生數(shù)據(jù)有派生數(shù)據(jù) 使用許多不易理解的代碼 有完整的數(shù)據(jù)描述 記錄中不一定有時間字段一定要有作為關鍵字的時間字段 以保證 歷史數(shù)據(jù)的唯一性 秒級以下的響應時間秒級到分鐘級的查詢響應時間 業(yè)務數(shù)據(jù)沒有 純 業(yè)務數(shù)據(jù) 2 3 1 基本任務差異 數(shù)據(jù)倉庫的基本任務與傳統(tǒng)的數(shù)據(jù)庫基本任務有很大的區(qū)別 由于數(shù)據(jù)倉庫的數(shù) 據(jù)源可以來自于不同的D B M S 的數(shù)據(jù)庫 內部數(shù)據(jù)源 也可以來自于不同格式的文件 中 外部數(shù)據(jù)源 這些數(shù)據(jù)源可以看作數(shù)據(jù)倉庫中輸送數(shù)據(jù)的管道 在輸送數(shù)據(jù)的過 程中 數(shù)據(jù)倉庫的設計者必須考慮如下任務 1 將這些數(shù)據(jù)源的模型轉換成通用的描述形式 2 將同義的數(shù)據(jù)元素的名稱 數(shù)據(jù)類型 尺寸進行統(tǒng)一的規(guī)范一一即凈化數(shù)據(jù) 元素 3 必須從各數(shù)據(jù)源中抽取子集 為形成數(shù)據(jù)倉庫的整體模型奠定基礎 4 把相似的數(shù)據(jù)源集成為統(tǒng)一的資源模型 5 通過增加時間戳 來源戳 分割 衍生元素 提供擴展的模型用于存儲聚集 概括值 從而獲得數(shù)據(jù)倉庫模型 9 長春工業(yè)大學碩士學位論文 2 3 2 數(shù)據(jù)主要特征差異 數(shù)據(jù)倉庫和操作型數(shù)據(jù)庫在數(shù)據(jù)來源 數(shù)據(jù)內容 數(shù)據(jù)模式 服務對象 訪問方 式 事務管理和模型構建等方面都有不同的特點和要求 不管是在性能上 還是在功 能上都存在較大的區(qū)別 事務處理通常只是針對當前和短期存儲的數(shù)據(jù) 且不同數(shù)據(jù) 的保存期限也不盡相同 即使有一些歷史數(shù)據(jù)保存下來了 也很難得到充分利用 但 對于決策分析而言 歷史數(shù)據(jù)是相當重要的 許多分析方法必須以大量的歷史數(shù)據(jù)為 依托 沒有歷史數(shù)據(jù)的詳細分析 難以把握未來發(fā)展趨勢 數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫 的數(shù)據(jù)特征的比較如下 1 面向主題的結構設計 數(shù)據(jù)倉庫是以最終用戶的觀點組織和管理數(shù)據(jù) 數(shù)據(jù) 庫是為了提高應用程序查詢數(shù)據(jù)的效率 因而是以應用的觀點設計數(shù)據(jù)庫結 構 2 管理大量的信息 由于數(shù)據(jù)倉庫的設計目標是在眾多的數(shù)據(jù)庫中獲得決策信 息 因而它含有大量的歷史數(shù)據(jù) 而傳統(tǒng)的數(shù)據(jù)庫為了提高系統(tǒng)的運行效率 通常會對歷史數(shù)據(jù)進行必要的備份后 將其從運行庫中清除 例如 在醫(yī)院管理信息系統(tǒng)中 當一個病人住院 聯(lián)機業(yè)務處理系統(tǒng)就要產(chǎn) 生關于這個病人的記錄 隨著對病人治療的不斷進行 記錄不斷的被加工 當這個病人治愈出院完成手續(xù)后 病人的信息將從運行庫中清除并轉移到歷 史庫中去 不能再修改 3 異質的數(shù)據(jù)源 由于數(shù)據(jù)倉庫的數(shù)據(jù)源來自于不同種類的文件 數(shù)據(jù)存儲的 介質和格式會有很大的不同 因而數(shù)據(jù)倉庫不僅要處理不同數(shù)據(jù)庫中的信息 還必須處理不同格式的數(shù)據(jù)文件 4 高度概括的信息 傳統(tǒng)的數(shù)據(jù)庫存儲的信息具體而且詳細 但不利于用戶理 解 數(shù)據(jù)倉庫必須從大量具體的數(shù)據(jù)中進行高度概括 并從中挖掘出準確的 信息 2 3 3 數(shù)據(jù)操作方式差異 1 數(shù)據(jù)庫支持用戶對大量數(shù)據(jù)進行更新操作 由很多的短小的事務處理組成 注重于事務速率 而數(shù)據(jù)倉庫中則主要是查詢操作 與數(shù)據(jù)庫相比 數(shù)據(jù)倉 庫中的數(shù)據(jù)更加穩(wěn)定 2 數(shù)據(jù)庫為用戶和開發(fā)者提供的是非常龐大和復雜的結果 但是數(shù)據(jù)倉庫中提 供的是用于分析決策 易于理解的結果 3 數(shù)據(jù)庫主要保存的是當前的數(shù)據(jù) 歷史的數(shù)據(jù)被及時的歸檔后立即刪除 以 1 0 長春工業(yè)大學碩士學位論文 提高系統(tǒng)的運行效率 數(shù)據(jù)倉庫中則存儲了大量的衍生數(shù)據(jù) 目的是為了節(jié) 省工作量和提高系統(tǒng)的運行效率 由于以上種種的原因 傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫的建模方法有很大的區(qū)別 2 3 4 數(shù)據(jù)模型與構建方法 1 傳統(tǒng)的數(shù)據(jù)庫模型有三種 層次型 網(wǎng)絡型和關系型 目前主要流行使用的 數(shù)據(jù)庫產(chǎn)品是關系型數(shù)據(jù)庫 2 數(shù)據(jù)倉庫的模型也有三種 星型模型 雪花模型和混合模型 2 4 數(shù)據(jù)倉庫的基本組成 2 4 1 數(shù)據(jù)倉庫的基本結構 一個完整的數(shù)據(jù)倉庫系統(tǒng)應當具備建立 管理和使用等功能 w H I n m o n 認為 數(shù)據(jù)倉庫系統(tǒng)可以分為三個組成部分川 1 數(shù)據(jù)源 提供源數(shù)據(jù) 2 數(shù)據(jù)的存儲與管理 包括來自數(shù)據(jù)源數(shù)據(jù)的接收 析取 匯總 變換和儲 存 3 前端服務 面向用戶的數(shù)據(jù)需求 完成數(shù)據(jù)提取和計算分析等功能 1 1 長春工業(yè)大學碩士學位論文 凈 渤 盯L 擻務鬻 圖2 1 數(shù)據(jù)倉庫構建體系結構圖 如圖2 1 所示 數(shù)據(jù)倉庫應具有多種工具 從多個操作型數(shù)據(jù)庫和外部數(shù)據(jù)源中 抽取數(shù)據(jù)的工具 清洗 轉化和整合數(shù)據(jù)的工具 將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中的工具 定期刷新數(shù)據(jù)倉庫以反映數(shù)據(jù)源中的更新和從數(shù)據(jù)倉庫中清除數(shù)據(jù)的工具 除了主數(shù) 據(jù)倉庫外 還有存在很多部門性的數(shù)據(jù)集市 數(shù)據(jù)集市實際上就是為了滿足企業(yè)內各 部門的分析需求而建立的微型數(shù)據(jù)倉庫 數(shù)據(jù)倉庫和數(shù)據(jù)集市中的數(shù)據(jù)由一個或幾個 數(shù)據(jù)倉庫服務器存儲和管理 數(shù)據(jù)倉庫服務器通過前端工具將這些數(shù)據(jù)從多維角度展 現(xiàn)出來 前端的工具包括 查詢工具 報表生成器 分析工具和數(shù)據(jù)挖掘工具 最后 還有一個存儲和管理元數(shù)據(jù)的元數(shù)據(jù)庫以及監(jiān)視和管理數(shù)據(jù)倉庫系統(tǒng)的工具 為了裝載的平衡 較好的可測量性和較高的獲取能力 數(shù)據(jù)倉庫可以是分布式的 在分布式結構中 元數(shù)據(jù)庫通常和數(shù)據(jù)倉庫的各個片段重復并且整個數(shù)據(jù)倉庫是集中 1 2 長春工業(yè)大學碩士學位論文 管理的 如果花費太大而不能創(chuàng)建一個單一的邏輯性的整合的企業(yè)級數(shù)據(jù)倉庫 為了 方便的實現(xiàn)可以構建聯(lián)合的數(shù)據(jù)倉庫或者數(shù)據(jù)集市 這些數(shù)據(jù)倉庫和數(shù)據(jù)集市都有自 己的倉庫結構和各自分散化的管理 設計和實現(xiàn)一個數(shù)據(jù)倉庫是個復雜的過程 通常包括以下幾個步驟 1 定義結構 選擇存儲的服務器 數(shù)據(jù)庫和O L A P 服務器以及工具 2 設計數(shù)據(jù)倉庫體系結構和視圖 3 定義數(shù)據(jù)倉庫的物理組織 數(shù)據(jù)的放置 劃分和獲取方法 4 利用網(wǎng)關 O D B C 驅動等連接數(shù)據(jù)源 5 設計和實現(xiàn)數(shù)據(jù)抽取 清洗 轉化 裝載和刷新的程序腳本 6 利用計劃和視圖的定義 腳本以及其他元數(shù)據(jù)控制數(shù)據(jù)倉庫 7 設計和實現(xiàn)用戶端的應用程序 8 整理展現(xiàn)數(shù)據(jù)倉庫和所有應用 2 4 2 數(shù)據(jù)集市的概念 數(shù)據(jù)倉庫系統(tǒng)中另一個重要的組件是數(shù)據(jù)集市 原始數(shù)據(jù)從數(shù)據(jù)倉庫流入到不同 的部門中以支持這些部門的定制化使用 這些部門級別的數(shù)據(jù)庫就稱為數(shù)據(jù)集市 數(shù)據(jù)集市中包含部門決策支持處理所需要的任何數(shù)據(jù) 在數(shù)據(jù)集市中包含有多種 多樣的數(shù)據(jù) 即包含很多動態(tài)的概括數(shù)據(jù)也包含很多準備好的詳細數(shù)據(jù) 這兩類數(shù)據(jù) 構成了數(shù)據(jù)集市環(huán)境中的大部分數(shù)據(jù) 數(shù)據(jù)集市提供了一種企業(yè)視圖 因為它貼近特定的財務和營銷部門的重要用戶 數(shù)據(jù)集市可以通過用戶群來組織 物理上位于用戶部門 或者按主題域來組織即以邏 輯形式組織存在數(shù)據(jù)倉庫內的另外空間 數(shù)據(jù)復制和傳播會在數(shù)據(jù)倉庫和從屬型數(shù)據(jù) 集市之間實現(xiàn)數(shù)據(jù)同步 數(shù)據(jù)集市是數(shù)據(jù)倉庫有效的和自然的補充 數(shù)據(jù)集市延伸決策支持到部門級環(huán)境 中 數(shù)據(jù)倉庫提供粒狀數(shù)據(jù)并且不同數(shù)據(jù)集市應用不同的方法來解釋和構造這種粒狀 數(shù)據(jù)以滿足部門決策的需要 對數(shù)據(jù)集市來說最適當?shù)臄?shù)據(jù)源是數(shù)據(jù)倉庫 業(yè)務數(shù)據(jù) 庫不是數(shù)據(jù)集市的合適的數(shù)據(jù)源 數(shù)據(jù)集市還可以包括外部數(shù)據(jù) 除了數(shù)據(jù)庫之外 數(shù)據(jù)集市所使用的軟件還有 訪問和分析工具 自動接口生成 系統(tǒng)管理 凈化 歸檔 元數(shù)據(jù)管理等 1 3 長春工業(yè)大學碩士學位論文 2 5 數(shù)據(jù)倉庫的建模技術 2 5 1 數(shù)據(jù)倉庫建模的原則 模型是對現(xiàn)實事物的反映和抽象 它可以幫助我們更加清晰的了解客觀世界 數(shù) 據(jù)倉庫建模是數(shù)據(jù)倉庫構造工作正式開始的第一步 正確而完備的數(shù)據(jù)模型是用戶業(yè) 務需求的體現(xiàn) 是數(shù)據(jù)倉庫項目成功與否最重要的技術因素 大型企業(yè)的信息系統(tǒng)一 般具有業(yè)務復雜 機構復雜 數(shù)據(jù)龐大的特點 數(shù)據(jù)倉庫建模必須注意以下幾個方面 1 滿足不同用戶的需要 大型企業(yè)的業(yè)務流程十分復雜 數(shù)據(jù)倉庫系統(tǒng)涉及的業(yè)務用戶眾多 在進行數(shù)據(jù) 模型設計的時候必須兼顧不同業(yè)務產(chǎn)品 不同業(yè)務部門 不同層次 不同級別用戶的 信息需求 2 兼顧效率與數(shù)據(jù)粒度的需要 數(shù)據(jù)粒度和查詢效率從來都是矛盾的 細小的數(shù)據(jù)粒度可以保證信息訪問的靈活 性 但同時卻降低了查詢的效率并占用大量的存儲空間 數(shù)據(jù)模型的設計必須在這矛 盾的兩者中取得平衡 優(yōu)秀的數(shù)據(jù)模型設計既可以提供足夠詳細的數(shù)據(jù)支持又能夠保 證查詢的效率 3 支持需求的變化 用戶的信息需求隨著市場的變化而變化 所以需求的變化只有在市場競爭停頓的 時候才會停止 而且隨著競爭的激化 需求變化會越來越頻繁 數(shù)據(jù)模型的設計必須 考慮如何適應和滿足需求的變化 4 避免對業(yè)務運營系統(tǒng)造成影響 大型企業(yè)的數(shù)據(jù)倉庫是一個每天都在成長的龐然大物 它的運行很容易占用很多 的資源 比如網(wǎng)絡資源 系統(tǒng)資源 在進行數(shù)據(jù)模型設計的時候也需要考慮如何減少 對業(yè)務系統(tǒng)性能的影響 5 考慮未來的可擴展性 數(shù)據(jù)倉庫系統(tǒng)是一個與企業(yè)同步發(fā)展的有機體 數(shù)據(jù)模型作為數(shù)據(jù)倉庫的靈魂必 須提供可擴展的能力 在進行數(shù)據(jù)模型設計時必須考慮未來的發(fā)展 更多的非核心業(yè) 務數(shù)據(jù)必須可以方便的加入到數(shù)據(jù)倉庫 而不需要對數(shù)據(jù)倉庫中原有的系統(tǒng)進行大規(guī) 模的修改 2 5 2 數(shù)據(jù)倉庫的數(shù)據(jù)模型層次 在創(chuàng)建數(shù)據(jù)倉庫時 需要使用各種數(shù)據(jù)模型對數(shù)據(jù)倉庫進行描述 數(shù)據(jù)倉庫的開 1 4 長春T 業(yè)丈學碩上學位論文 發(fā)人員依據(jù)這些數(shù)據(jù)模型 才能開發(fā)一個滿足用戶需求的數(shù)據(jù)倉庫 數(shù)據(jù)倉庫的各種 數(shù)據(jù)模型在數(shù)據(jù)倉庫的開發(fā)中作用十分明顯 主要體現(xiàn)在模型中只含有與設計有關的 屬性 這樣就排除了無關的信息 突出與任務相關的重要信息 使開發(fā)人員能夠將注 意力集中在數(shù)據(jù)倉庫開發(fā)的主要部分 模型有更好的適應性 更易于修改 當用戶的 需求改變時 僅對模型做出相應的變化就能反映這個改變 數(shù)據(jù)模型是對現(xiàn)實世界進行抽象的工具 在信息管理中需要將現(xiàn)實世界的事物及 其有關特征轉換為信息世界的數(shù)據(jù) 才能對信息進行處理與管理 這就需要依靠數(shù)據(jù) 模型作為轉換的橋梁 這種轉換經(jīng)歷了從現(xiàn)實到概念模型 從概念模型到邏輯模型 從邏輯模型到物理模型的轉換 在數(shù)據(jù)倉庫建模的過程中同樣也要經(jīng)歷概念模型 邏 輯模型與物理模型的三級模型開發(fā) 因此 數(shù)據(jù)建??梢苑譃槿齻€層次 高層建模 實 體關系層 概念模型 中間層建模 數(shù)據(jù)項集 邏輯模型 底層建模 物理模型 概念世界是現(xiàn)實情況在人們頭腦中的反映 人們需要利用一種模式將現(xiàn)實世界在 自己的頭腦中表達出來 邏輯世界是人們?yōu)閷⒋嬖谟谧约侯^腦中的概念模型轉換到計算機中的實際物理 存儲過程中的一個計算機邏輯表示模式 通過這個模式 人們可以容易地將概念模型 轉換成計算機世界的物理模型 物理世界是指現(xiàn)實世界中的事物在計算機系統(tǒng)中的實際存儲模式 只有依靠這個 物理存儲模式 人們才能實現(xiàn)利用計算機對現(xiàn)實世界的信息管理 2 5 3 維度建模理論及方法 圖2 2 數(shù)據(jù)模型層次 維度建模是一種邏輯設計技術 該技術試圖采用某種直觀的標準框架結構來表現(xiàn) 數(shù)據(jù) 并且允許進行高性能存取 它必然會遵循維度方面的規(guī)范 并且堅持帶有某些 重要限制條件的關系模型模范 維度模型由事實和維度表構成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 回顧高中師生情誼的優(yōu)美語句摘抄
- 數(shù)字化時代下文化遺產(chǎn)展示與傳播在文化遺產(chǎn)地文化產(chǎn)業(yè)發(fā)展中的應用報告
- 工業(yè)互聯(lián)網(wǎng)平臺AR交互技術在工業(yè)設備狀態(tài)監(jiān)測與預警中的應用研究報告001
- 2025年元宇宙社交平臺社交電商模式創(chuàng)新與挑戰(zhàn)報告
- 咨詢工程師宏觀課件下載
- 咨詢工程師培訓視頻課件
- 咨詢工程師串講課件
- 2025年醫(yī)藥企業(yè)研發(fā)外包(CRO)模式藥物研發(fā)生物技術產(chǎn)品研發(fā)報告
- 2025年醫(yī)藥企業(yè)研發(fā)外包(CRO)技術轉移與人才培養(yǎng)報告
- 2025年醫(yī)藥流通企業(yè)供應鏈優(yōu)化與成本控制智能供應鏈管理供應鏈管理政策法規(guī)影響報告
- GB/T 16262.2-2025信息技術抽象語法記法一(ASN.1)第2部分:信息客體規(guī)范
- 項目管理中期答辯
- 《熱力公司各崗位工作流程及工作職責》
- 中藥飲片處方書寫規(guī)范
- 運維保障方案
- 【浙江大學(姚暢)】2025年AI大模型如何破局傳統(tǒng)醫(yī)療報告
- TCRHA 088-2024 病理免疫組織化學檢測質控品要求
- TCPSS 1011-2024 直流散熱風扇運行壽命測試方法
- 2025年廣西初中學業(yè)水平模擬測試(一)數(shù)學(原卷版+解析版)
- 人防門二次澆筑施工方案
- 第九章 西半球的國家 單元教學設計-2023-2024學年七年級地理下學期人教版
評論
0/150
提交評論