版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)庫原理與應用教程(第3版)國家“十一五”規(guī)劃教材第16章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
16.1數(shù)據(jù)倉庫技術16.2聯(lián)機分析處理
16.3數(shù)據(jù)挖掘16.1數(shù)據(jù)倉庫技術16.1.1數(shù)據(jù)倉庫的概念及特點
16.1.2數(shù)據(jù)倉庫體系結構
16.1.3數(shù)據(jù)倉庫的分類
16.1.4數(shù)據(jù)倉庫的開發(fā)
數(shù)據(jù)倉庫技術數(shù)據(jù)倉庫是進行聯(lián)機分析處理和數(shù)據(jù)挖掘的基礎,它從數(shù)據(jù)分析的角度將聯(lián)機事務中的數(shù)據(jù)經過清理、轉換并加載到數(shù)據(jù)倉庫中,這些數(shù)據(jù)在數(shù)據(jù)倉庫中被合理的組織和維護,以滿足聯(lián)機分析處理和數(shù)據(jù)挖掘的要求。
16.1.1數(shù)據(jù)倉庫的概念及特點面向主題
集成的數(shù)據(jù)
數(shù)據(jù)不可更新
數(shù)據(jù)隨時間不斷變化
使用數(shù)據(jù)倉庫是為了更好的支持制定決策
面向主題主題是一種抽象,它是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用,是對企業(yè)中某一宏觀分析領域所涉及的分析對象,是針對某一決策問題而設置的。面向主題的數(shù)據(jù)組織方式就是完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。在關系數(shù)據(jù)庫中,每個主題由一組相關的關系表或邏輯視圖來具體實現(xiàn)。主題中的所有表都通過一個公共鍵聯(lián)系起來,數(shù)據(jù)可以存儲在不同的介質上,而且相同的數(shù)據(jù)可以既有綜合級又有細節(jié)級。
集成的數(shù)據(jù)數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是從原來分散的各個子系統(tǒng)中提取出來的,但并不是原有數(shù)據(jù)的簡單拷貝,而是經過統(tǒng)一、綜合這樣的過程。原因:源數(shù)據(jù)不適合分析處理,在進入數(shù)據(jù)倉庫之前必須經過綜合、清理等過程,拋棄分析處理不需要的數(shù)據(jù)項,增加一些可能涉及的外部數(shù)據(jù)。數(shù)據(jù)倉庫每個主題所對應的源數(shù)據(jù)在原分散數(shù)據(jù)庫中有許多重復或不一致的地方,因而必須對數(shù)據(jù)進行統(tǒng)一,消除不一致和錯誤的地方,以保證數(shù)據(jù)的質量。數(shù)據(jù)不可更新從數(shù)據(jù)的使用方式上看,數(shù)據(jù)倉庫的數(shù)據(jù)不可更新是指當數(shù)據(jù)被存放到數(shù)據(jù)倉庫之后,最終用戶只能進行查詢、分析操作,而不能修改其中存儲的數(shù)據(jù)。
數(shù)據(jù)隨時間不斷變化數(shù)據(jù)倉庫的數(shù)據(jù)不可更新,但并不是說,數(shù)據(jù)從進入數(shù)據(jù)倉庫以后就永遠不變。從數(shù)據(jù)的內容上看,數(shù)據(jù)倉庫存儲的是企業(yè)當前的和歷史的數(shù)據(jù)。因而每隔一段固定的時間間隔后,操作型數(shù)據(jù)庫系統(tǒng)產生的數(shù)據(jù)需要經過抽取、轉換過程以后集成到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫中的數(shù)據(jù)隨時間變化而定期地更新。數(shù)據(jù)倉庫體系結構
操作型數(shù)據(jù)與分析型數(shù)據(jù)的區(qū)別
原始數(shù)據(jù)/操作型數(shù)據(jù)導出數(shù)據(jù)/DSS數(shù)據(jù)面向應用,支持日常操作面向主題,支持管理需求數(shù)據(jù)詳細,處理細節(jié)問題綜合性強,或經過提煉存取的瞬間是準確值代表過去的數(shù)據(jù)可更新不可更新重復運行啟發(fā)式運行事務處理驅動分析處理驅動非冗余性時常有冗余處理需求事先可知,系統(tǒng)可按預計的工作量進行優(yōu)化處理需求事先不知道對性能要求高對性能要求寬松用戶不必理解數(shù)據(jù)庫,只是輸入數(shù)據(jù)即可用戶需要理解數(shù)據(jù)庫,以從數(shù)據(jù)中得出有意義的結論數(shù)據(jù)倉庫的分類按照數(shù)據(jù)倉庫的規(guī)模與應用層面來區(qū)分,數(shù)據(jù)倉庫大致可分為下列幾種:標準數(shù)據(jù)倉庫。數(shù)據(jù)集市。多層數(shù)據(jù)倉庫。聯(lián)合式數(shù)據(jù)倉庫。
標準數(shù)據(jù)倉庫是企業(yè)最常使用的數(shù)據(jù)倉庫,它依據(jù)管理決策的需求而將數(shù)據(jù)加以整理分析,再將其轉換到數(shù)據(jù)倉庫之中。這類數(shù)據(jù)倉庫是以整個企業(yè)為著眼點而建構出來的,其數(shù)據(jù)都與整個企業(yè)的數(shù)據(jù)有關,用戶可以從中得到整個組織運作的統(tǒng)計分析信息。數(shù)據(jù)集市針對某一主題或是某個部門而構建的數(shù)據(jù)倉庫,規(guī)模會比標準數(shù)據(jù)倉庫小,且只存儲與部門或主題相關的數(shù)據(jù),是數(shù)據(jù)體系結構中的部門級數(shù)據(jù)倉庫。通常用于為單位的職能部門提供信息。例如,為是銷售部門、庫存和發(fā)貨部門、財務部門、高級管理部門等提供有用信息。還可用于將數(shù)據(jù)倉庫數(shù)據(jù)分段以反映按地理劃分的業(yè)務,其中每個地區(qū)都是相對自治的。
多層數(shù)據(jù)倉庫是標準數(shù)據(jù)倉庫與數(shù)據(jù)集市的組合應用方式在整個架構之中,有一個最上層的數(shù)據(jù)倉庫提供者,它將數(shù)據(jù)提供給下層的數(shù)據(jù)集市。
數(shù)據(jù)倉庫銷售數(shù)據(jù)集市市場數(shù)據(jù)集市商店數(shù)據(jù)集市用戶用戶用戶數(shù)據(jù)倉庫的開發(fā)
自頂向下,即從全面設計整個企業(yè)的數(shù)據(jù)倉庫模型開始。這是一種系統(tǒng)的解決方法,并能最大限度的減少集成問題,但費用高,開發(fā)時間長,且缺乏靈活性,因為使整個企業(yè)的數(shù)據(jù)倉庫模型要達到一致是很困難的。自底向上,從設計和實現(xiàn)各個獨立的數(shù)據(jù)集市開始。這種方法費用低,靈活性高,并能快速的回報投資。
推薦的數(shù)據(jù)倉庫開發(fā)方法數(shù)據(jù)倉庫的數(shù)據(jù)模式
典型的數(shù)據(jù)倉庫具有為數(shù)據(jù)分析而設計的模式,供OLAP工具進行聯(lián)機分析處理。數(shù)據(jù)通常是多維的,包括維屬性和度量屬性,維屬性是分析數(shù)據(jù)的角度,度量屬性是要分析的數(shù)據(jù),一般是數(shù)值型的。包含統(tǒng)計分析數(shù)據(jù)的表稱為事實數(shù)據(jù)表,通常比較大。
數(shù)據(jù)倉庫的架構星型架構雪花型架構星型架構
維度表只與事實表關聯(lián),維度表彼此之間沒有任何聯(lián)系。每個維度表都有一個且只有一個列作為主碼,該主碼連接到事實數(shù)據(jù)表中的一個列上。雪花型架構將一個維度表分解為多個表,每個表都連接到主維度表。16.2聯(lián)機分析處理聯(lián)機分析處理(OLAP)是專門為支持復雜的分析操作而設計的,側重于決策人員和高層管理人員的決策支持可以快速、靈活地進行大數(shù)據(jù)量的復雜查詢以一種直觀易懂的形式將查詢結果提供給決策人員。以數(shù)據(jù)庫或數(shù)據(jù)倉庫為基礎,其最終的數(shù)據(jù)來源來自底層的數(shù)據(jù)庫系統(tǒng)。OLAP與OLTP的區(qū)別OLTP面向的是操作人員和底層管理人員,OLAP面向的是決策人員和高層管理人員;OLTP是對基本數(shù)據(jù)的查詢和增、刪、改操作處理,它以數(shù)據(jù)庫為基礎,OLAP更適合以數(shù)據(jù)倉庫為基礎的數(shù)據(jù)分析處理。OLAP所依賴的歷史的、導出的及經綜合提煉的數(shù)據(jù)均來自OLTP所依賴的底層數(shù)據(jù)庫。OLAP數(shù)據(jù)較之OLTP數(shù)據(jù)要多一步數(shù)據(jù)多維化或綜合處理的操作。OLAP的基本概念度量屬性:是決策者所關心的具有實際意義的數(shù)量。例如,銷售量、庫存量等。維度(或簡稱為維):是人們觀察數(shù)據(jù)的角度。
維的層次:人們觀察數(shù)據(jù)的角度(即某個維)還可以存在細節(jié)程度不同的多個描述方面,稱這多個描述方面為維的層次。維度成員:維度的一個取值稱為該維的一個維度成員
多維數(shù)組:一個多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。
數(shù)據(jù)單元(單元格):多維數(shù)組的取值稱為數(shù)據(jù)單元
多維度數(shù)據(jù)分析示例聯(lián)機分析處理的基本分析功能
上卷:在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維層次中上升或消除某個或某些維來觀察更概況的數(shù)據(jù)
下鉆:通過在維層次中下降或引入某個或某些維來更細致的觀察數(shù)據(jù)。
切片:在給定的數(shù)據(jù)立方體的一個維上進行的選擇操作,結果是得到了一個二維的平面數(shù)據(jù)。
切塊:在給定的數(shù)據(jù)立方體的兩個或多個維上進行的選擇操作,結果得到了一個子立方體。轉軸:改變維的方向,將一個三維立方體轉變?yōu)橐幌盗卸S平面。
上卷操作示意圖城市上升到地區(qū)
下鉆操作示意圖季度下降到月
切片操作示意圖時間=1季度切塊操作示意圖(地區(qū)=“江蘇”
or“浙江”)And(時間=“第一季度”
or“第二季度”)And(商品類型=“家電”
or“食品”)
轉軸操作示意圖轉軸16.3數(shù)據(jù)挖掘如何從大量的數(shù)據(jù)中及時有效地提取有用的信息,是所有經營管理者所面臨的一個共同的難題。為了解決這一難題,有關人員逐步研究開發(fā)了一系列的技術和方法,即數(shù)據(jù)庫知識發(fā)現(xiàn)和數(shù)據(jù)庫挖掘技術,其目標就是要智能化和自動化地把數(shù)據(jù)轉換為有用的信息和知識。數(shù)據(jù)庫中的知識發(fā)現(xiàn)是識別數(shù)據(jù)庫中以前未知的、新穎的、潛在有用的和最終可被理解的模式的非平凡過程,而數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)過程的一個步驟。
數(shù)據(jù)挖掘過程1.數(shù)據(jù)準備數(shù)據(jù)選擇:搜索所有與業(yè)務對象有關的內部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù)。
數(shù)據(jù)預處理:研究數(shù)據(jù)的質量,為進一步的數(shù)據(jù)分析作準備,并確定將要進行的挖掘操作的類型。
數(shù)據(jù)轉換:將數(shù)據(jù)轉換成一個分析模型,這個分析模型是針對數(shù)據(jù)挖掘算法建立的。其他過程2.數(shù)據(jù)挖掘
對所得到的經過轉換的數(shù)據(jù)進行挖掘,除了選擇合適的挖掘算法外,其余一切工作都能自動地完成。3.結果分析
解釋并評估結果。其使用的分析方法一般應視數(shù)據(jù)挖掘操作而定,通常會用到可視化技術。4.知識的同化
將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去。16.3.2數(shù)據(jù)挖掘知識發(fā)現(xiàn)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究的三根技術支柱:數(shù)據(jù)庫人工智能數(shù)理統(tǒng)計目前DMKD(數(shù)據(jù)挖掘與知識發(fā)現(xiàn))的主要研究內容包括基礎理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術、定性定量互換模型、知識表示方法、發(fā)現(xiàn)知識的維護和再利用、半結構化和非結構化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網上數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘知識的分類廣義知識關聯(lián)知識分類知識預測型知識偏差型知識廣義知識廣義知識(Generalization)是指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數(shù)據(jù)的概括、精煉和抽象。關聯(lián)知識關聯(lián)知識(Association)是反映一個事件和其他事件之間依賴或關聯(lián)的知識。如果兩項或多項屬性之間存在關聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬性值進行預測。關聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低于用戶設定的最低值的規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計算量最大的部分。分類知識分類知識(Classification&Clustering)是反映同類事物共同性質的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類方法。它是從實例集中構造決策樹,是一種有指導的學習方法。預測型知識預測型知識(Prediction)是根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認為是以時間為關鍵屬性的關聯(lián)知識。
目前,時間序列預測方法有經典的統(tǒng)計方法、神經網絡和機器學習等。偏差型知識偏差型知識(Deviation)是對差異和極端特例的描述,揭示事物偏離常規(guī)的異常現(xiàn)象,如標準類外的特例,數(shù)據(jù)聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。16.3.3數(shù)據(jù)挖掘的常用技術和目標1.常用技術
人工神經網絡:仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識別。
決策樹:代表決策集的樹形結構。
遺傳算法:基于進化理論,并采用遺傳結合、遺傳變異以及自然選擇等設計方法的優(yōu)化技術。
近鄰算法:將數(shù)據(jù)集合中每一個記錄進行分類的方法。
規(guī)則推導:從統(tǒng)計意義上對數(shù)據(jù)中的“IF-Then”規(guī)則進行尋找和推導。目標數(shù)據(jù)挖掘用于實現(xiàn)特定的目標,這些目標可以分為以下幾個主要類別:預測:數(shù)據(jù)挖掘預測數(shù)據(jù)特定屬性的未來行為。如基于對顧客購買行為的分析,什么市場和銷售策略能產生更多利潤等。識別:數(shù)據(jù)挖掘可以基于數(shù)據(jù)模型識別一個事件、項目或活動的存在。如識別一個人或一組人訪問數(shù)據(jù)庫某一部分的權限,基于DNA序列中的某個特征序列識別基因的存在,等等。目標(續(xù))分類:數(shù)據(jù)挖掘可以劃分數(shù)據(jù),從而根據(jù)參數(shù)組合識別不同的分類和類別。如超級市場的顧客可以被分類為:尋找折扣的顧客,忠誠并且常來的顧客,只買特定品牌商品的顧客,不經常來的顧客,等等。優(yōu)化:數(shù)據(jù)挖掘可以優(yōu)化對有限資源的使用,如時間、空間、資金或材料,在給定的約束條件內最大化產出值,如銷售量或利潤。16.3.4數(shù)據(jù)挖掘工具有各種不同類型的數(shù)據(jù)挖掘工具和方法來實現(xiàn)知識提取。多數(shù)數(shù)據(jù)挖掘工具使用ODBC。多數(shù)工具可在Microsoft的Windows環(huán)境中運行,一些工具還可在UNIX操作系統(tǒng)下運行。工具(續(xù))挖掘工具可以基于一些標準劃分為不同類型,下列是其中的一些標準:產品類型。產品特征。目的或目標。基于產品類型的挖掘的工具查詢管理者和報表作者。電子表格。多維數(shù)據(jù)庫。統(tǒng)計分析工具。人工智能工具。高級分析工具。圖像顯示工具?;诋a品特征的挖掘工具數(shù)據(jù)識別能力。多種形式的輸出,如打印輸出、屏幕輸出、標準圖形輸出、增強的圖形輸出等等。格式化能力,如行數(shù)據(jù)格式、列表、電子表格形式、多維數(shù)據(jù)庫、可視化等等。計算工具,如柱狀操作、交叉表能力、電子表格、多維電子表格等等。規(guī)范管理,允許最終用戶編寫并管理他們自己的規(guī)范。施行管理?;谀繕说耐诰蚬ぞ咚袘瞄_發(fā)程序和數(shù)據(jù)挖掘工具都可以歸入以下三個操作類別:數(shù)據(jù)收集和檢索。操作監(jiān)測。探測和發(fā)現(xiàn)。16.3.5數(shù)據(jù)挖掘應用數(shù)據(jù)挖掘技術可以應
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第5單元 走向近代(高頻選擇題50題)(原卷版)
- 八年級下冊期末考試模擬卷01(答案及解析)
- 2024年婚姻年度總結
- 《家庭裝修銷售》課件
- 班級動態(tài)管理與調整策略計劃
- 話務員旅游服務行業(yè)客服
- 深度探索莎翁人性
- 大學生產實習報告四篇
- 安全防范工程師的職責和任務描述
- 銷售提成方案范文集錦7篇
- 鐵路工程-軌道工程施工工藝及方案
- 福建省福州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細及行政區(qū)劃代碼
- 《高中語文文言斷句》一等獎優(yōu)秀課件
- 上海市中小學生學籍信息管理系統(tǒng)
- (完整版)自動感應門施工方案
- [QC成果]提高剪力墻施工質量一次合格率
- 8站小車呼叫的plc控制
- _ 基本粒子與宏觀物體內在聯(lián)系
- 象棋比賽積分編排表
- 小學贛美版六年級美術上冊第二十課向往和平課件(16張)ppt課件
- DPP4抑制劑比較篇PPT課件
評論
0/150
提交評論