版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫 與與 數(shù)據(jù)數(shù)據(jù)挖掘挖掘轉(zhuǎn)自-同濟(jì)大學(xué)同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院經(jīng)濟(jì)與管理學(xué)院 黃立平黃立平 教授教授目錄 一、一、 數(shù)據(jù)庫相關(guān)數(shù)據(jù)庫相關(guān) 1.1 數(shù)據(jù)庫數(shù)據(jù)庫技術(shù)的技術(shù)的發(fā)展發(fā)展 1.2 數(shù)據(jù)庫數(shù)據(jù)庫應(yīng)用中存在的應(yīng)用中存在的問題問題 1.3 海量海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析工具工具 二、數(shù)據(jù)倉庫二、數(shù)據(jù)倉庫 2.1 什么什么是數(shù)據(jù)倉庫是數(shù)據(jù)倉庫DW ( data warehouse )? 2.2 數(shù)據(jù)數(shù)據(jù)倉庫的主要倉庫的主要特征特征 2.3 DW概念總結(jié)概念總結(jié) 2.4 操作型操作型數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別 2.5 數(shù)據(jù)數(shù)據(jù)倉
2、庫的數(shù)據(jù)模型倉庫的數(shù)據(jù)模型 2.6 OLTP和和OLAP的主要的主要區(qū)別區(qū)別目錄 2.7數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是分離的數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是分離的? 2.8 多維多維數(shù)據(jù)模型數(shù)據(jù)模型 三、數(shù)據(jù)挖掘三、數(shù)據(jù)挖掘 3.1 什么什么是數(shù)據(jù)挖掘?是數(shù)據(jù)挖掘? 3.2 數(shù)據(jù)數(shù)據(jù)挖掘的特點(diǎn)挖掘的特點(diǎn) 3.3 數(shù)據(jù)數(shù)據(jù)挖掘的分類挖掘的分類 3.5 數(shù)據(jù)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的挖掘和知識發(fā)現(xiàn)的聯(lián)系聯(lián)系 3.6 數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘?qū)嵗弧⒁弧?數(shù)據(jù)庫數(shù)據(jù)庫相關(guān)相關(guān)1.1 數(shù)據(jù)庫技術(shù)的發(fā)展數(shù)據(jù)庫技術(shù)的發(fā)展 收集收集和數(shù)據(jù)庫創(chuàng)建和數(shù)據(jù)庫創(chuàng)建 ( 20世紀(jì)世紀(jì)60年代和更早年代和更早 ) -原始文件處理 數(shù)據(jù)
3、庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(20世紀(jì)世紀(jì)70年代年代) -層次、網(wǎng)狀、關(guān)系數(shù)據(jù)庫系統(tǒng) -數(shù)據(jù)建模工具:實(shí)體-聯(lián)系(ER)模型等 -索引和數(shù)據(jù)組織技術(shù) -查詢語言:SQL 、用戶界面:表單、報(bào)告等 -查詢處理和查詢優(yōu)化、事務(wù)并發(fā)控制等 -聯(lián)機(jī)事務(wù)處理(OLTP)1.1 數(shù)據(jù)庫技術(shù)的發(fā)展數(shù)據(jù)庫技術(shù)的發(fā)展 高級數(shù)據(jù)庫系統(tǒng)高級數(shù)據(jù)庫系統(tǒng) ( 80年代中期年代中期現(xiàn)在現(xiàn)在 ) -高級數(shù)據(jù)模型: 擴(kuò)充關(guān)系、面向?qū)ο?、對?關(guān)系 -面向應(yīng)用:空間的、時(shí)間的、多媒體的、主動的、科學(xué)的、知識庫 (80年代后期年代后期現(xiàn)在現(xiàn)在) -數(shù)據(jù)倉庫和OLAP技術(shù) -數(shù)據(jù)挖掘和知識發(fā)現(xiàn) 基于基于Web的數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)庫系統(tǒng)
4、 (90年代年代現(xiàn)在現(xiàn)在) -基于XML的數(shù)據(jù)庫系統(tǒng) -Web 挖掘1.2 數(shù)據(jù)庫應(yīng)用中存在的問題數(shù)據(jù)庫應(yīng)用中存在的問題 “”。存儲了大量數(shù)據(jù)的存儲了大量數(shù)據(jù)的數(shù)據(jù)庫變成了數(shù)據(jù)庫變成了“數(shù)據(jù)墳?zāi)箶?shù)據(jù)墳?zāi)埂彪y以再訪問的數(shù)據(jù)檔案; 在大型數(shù)據(jù)庫中快速增長著海量數(shù)據(jù),;往往,因?yàn)?;若在?dāng)前運(yùn)行的操作數(shù)據(jù)庫中獲取信息,則影響數(shù)據(jù)庫的使用和性能1.3 海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析工具工具依賴用戶或某領(lǐng)域的專家人工地將知識輸入知識庫人工地將知識輸入知識庫;這一過程常常有偏差和錯(cuò)誤有偏差和錯(cuò)誤,并且耗時(shí)耗時(shí)、費(fèi)用高;費(fèi)用高; 使用數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析;可以,對商務(wù)決策、知識庫
5、、科學(xué)和醫(yī)學(xué)研究作出了巨大貢獻(xiàn); 數(shù)據(jù)和信息之間的差距,要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,。二、數(shù)據(jù)二、數(shù)據(jù)倉庫倉庫2.1 什么是數(shù)據(jù)倉庫什么是數(shù)據(jù)倉庫DW ( data warehouse )? 數(shù)據(jù)倉庫數(shù)據(jù)倉庫可以看作是一種特殊的關(guān)系數(shù)據(jù)關(guān)系數(shù)據(jù)庫庫。 DW是一個(gè)的、的、的、的數(shù)據(jù)集合,用于支持管理部支持管理部門的門的決策過程決策過程。允許在一起為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺,對信息處理、決策提供支持。2.2 數(shù)據(jù)倉庫的主要特征數(shù)據(jù)倉庫的主要特征面向面向主題的主題的 ( subject oriented ) :(1) 所謂(宏觀領(lǐng)域),如顧客、供應(yīng)商、產(chǎn)品和銷售組織;是在高層次上將企業(yè)IS中
6、的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,為按決策的過程提供信息。 (2) DW關(guān)注決策者的,而傳統(tǒng)數(shù)據(jù)庫是面向應(yīng)用的,集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。(3) DW排除對于決策無用的數(shù)據(jù),。 2.2 數(shù)據(jù)倉庫的主要特征數(shù)據(jù)倉庫的主要特征 (4) 傳統(tǒng)數(shù)據(jù)庫使用,進(jìn)行數(shù)據(jù)組織時(shí)考慮記錄每一筆業(yè)務(wù)的情況; 數(shù)據(jù)倉庫使用,進(jìn)行數(shù)據(jù)分析處理,以主題為單位組織數(shù)據(jù),例如:供應(yīng)商、商品、顧客等。 (5) 面向主題面向主題的數(shù)據(jù)組織方式要求,各主題域之間有明確的界限(獨(dú)立性),在某一主題內(nèi)的數(shù)據(jù)應(yīng)該包括分析處理所要求的一切數(shù)據(jù)(完備性)。2.2 數(shù)據(jù)倉庫的主要特征數(shù)
7、據(jù)倉庫的主要特征 集成的集成的(integrated): (1) 構(gòu)造數(shù)據(jù)倉庫構(gòu)造數(shù)據(jù)倉庫是將,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄,在一起。 (2) 將多個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算和整理,保證的數(shù)據(jù)是、的、的。 使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性等的數(shù)據(jù)結(jié)構(gòu)。 保證各數(shù)據(jù)源中的。2.2 數(shù)據(jù)倉庫的主要特征數(shù)據(jù)倉庫的主要特征 不更新的不更新的 (nonvolatile): (1)訪問數(shù)據(jù)倉庫主要是兩種方式:。修改和刪除操作很少 。 (2) DW的與操作環(huán)境下的應(yīng)用數(shù)據(jù)。因此,數(shù)據(jù)倉庫不需要在操作環(huán)境下事務(wù)處理、恢復(fù)和并發(fā)控制等機(jī)制。2.2 數(shù)據(jù)倉庫的主
8、要特征數(shù)據(jù)倉庫的主要特征 隨時(shí)間變化的隨時(shí)間變化的(time-variant):(1)記錄了從,通過這些信息,可以表明發(fā)展歷程并對未來的趨勢作出定量分析和預(yù)測。 (2) DW的數(shù)據(jù)結(jié)構(gòu),隱式或顯式地包含時(shí)間元素;其包含的大量綜合數(shù)據(jù)也與時(shí)間相關(guān),例如:月產(chǎn)量。(3) DW;(例如:510年)。2.3 DW概念總結(jié)概念總結(jié)DW概念總結(jié):概念總結(jié): 數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲體系結(jié)構(gòu); DW是決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息; DW通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起構(gòu)造而成; 完成各種數(shù)據(jù)查詢、信息分析報(bào)告和決策支持。 2.4 操作型數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的操作型數(shù)據(jù)庫
9、系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別區(qū)別 操作型數(shù)據(jù)庫系統(tǒng)操作型數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是,稱為聯(lián)機(jī)事務(wù)處理 () 系統(tǒng)。它涵蓋了一個(gè)組織的大部分日常操作,如采購、制造、庫存、銷售、財(cái)務(wù)、銀行等事務(wù)。在數(shù)據(jù)分析和決策方面為決策者提供服務(wù)??梢杂貌煌母袷饺ソM織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為()系統(tǒng)。 2.5 數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型 數(shù)據(jù)倉庫和OLAP通常是基于。 該模型將數(shù)據(jù)看作(data cube)形式。 數(shù)據(jù)立方體由維和事實(shí)來定義;。 是關(guān)于一個(gè)組織想要記錄的透視或?qū)嶓w。 是面向某一主題的數(shù)據(jù)度量,它表示了多個(gè) 分析維之間的分析結(jié)果。 通常有和兩種形式。 2.5 數(shù)據(jù)倉
10、庫的數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型 1. 維是人們觀察數(shù)據(jù)的特定角度。例如:時(shí)間維是商品銷售隨時(shí)間推移發(fā)生的變化;地理維是商品在不同地區(qū)的銷售分布情況。2. 某個(gè)維以下存在的對細(xì)節(jié)的多個(gè)描述方面,例如:時(shí)間維有年、季度、月、日等不同層次。3. 維的一個(gè)取值是該維的一個(gè)成員。2.5 數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型 4. 一個(gè)多維數(shù)組可以表示為(維1,維2,維3,維n, 變量);例如:(地區(qū)、時(shí)間、銷售渠道、銷售額)5. 多維數(shù)組的取值是數(shù)據(jù)單元。例如:(上海,2002年2月,批發(fā),2188)2.6 OLTP和和OLAP的主要的主要區(qū)別區(qū)別: OLTP是的,用于辦事員、客戶和信息技術(shù)專業(yè)人員的事
11、務(wù)和查詢處理。 OLAP是的,用于經(jīng)理、主管和信息分析人員的數(shù)據(jù)分析。:OLTP系統(tǒng)管理。這種數(shù)據(jù)太瑣碎,難以用于決策。 OLAP系統(tǒng)管理大量,提供匯總和聚集機(jī)制,并在不同的粒度級別上存儲和管理信息。數(shù)據(jù)易于用作中、高層的決策過程。2.6 OLTP和和OLAP的主要區(qū)別的主要區(qū)別 數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫設(shè)計(jì): OLTP系統(tǒng)采用E-R(Entity Relationship Diagram)實(shí)體-聯(lián)系模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)。 OLAP系統(tǒng)采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì) 視圖視圖: OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。 OLAP系統(tǒng)由于組織的
12、變化常??缭綌?shù)據(jù)庫模式的多個(gè)版本。 OLAP系統(tǒng)也處理來自不同組織的信息,由多個(gè)數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)也存放在多個(gè)存儲介質(zhì)上。2.6 OLTP和和OLAP的主要區(qū)別的主要區(qū)別: 對OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制。 對OLAP系統(tǒng)的訪問大部分是只讀只讀操作(由于大部分?jǐn)?shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。 OLTP和和OLAP的的: 包括數(shù)據(jù)庫大小、操作的頻繁程度、性能度量等。 OLTP系統(tǒng)和OLAP系統(tǒng)的比較表 特特 性性 OLTP OLAP特征特征 操作處理 信息處理面向面向 事務(wù) 分析用戶用戶
13、辦事員、客戶、數(shù)據(jù)庫專業(yè)人員 經(jīng)理、主管、分析員功能功能 日常操作 長期信息需求,決策支持DB設(shè)計(jì)設(shè)計(jì) 基于E-R,面向應(yīng)用 星型/雪花,面向主題數(shù)據(jù)數(shù)據(jù) 當(dāng)前的,確保最新 歷史的,跨時(shí)間維護(hù)匯總匯總 原始的,高度詳細(xì) 匯總的,統(tǒng)一的視圖視圖 詳細(xì),一般關(guān)系 匯總的,多維的工作單位工作單位 短的,簡單事務(wù) 復(fù)雜查詢存取存取 讀/寫 大多為讀關(guān)注關(guān)注 數(shù)據(jù)輸入、存儲 信息輸出操作操作 主關(guān)鍵字上索引/散列 大量掃描訪問記錄數(shù)量訪問記錄數(shù)量 數(shù)十個(gè) 數(shù)百萬用戶數(shù)用戶數(shù) 數(shù)千 數(shù)百DB規(guī)模規(guī)模 100MB到GB 100GB到TB優(yōu)先優(yōu)先 高性能,高可用性 高靈活性,端點(diǎn)用戶自治度量度量 事務(wù)吞吐量
14、查詢吞吐量,響應(yīng)時(shí)間 2.7數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是分離的分離的? 操作型數(shù)據(jù)庫存放了大量數(shù)據(jù),為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造一個(gè)與之分離的數(shù)據(jù)倉庫?是提高兩個(gè)系統(tǒng)的性能。 是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,如使用主關(guān)鍵字索引,檢索特定的記錄和優(yōu)化查詢; 的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級的計(jì)算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實(shí)現(xiàn)方法。2.7數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是是分離的分離的?支持多事務(wù)的并行處理,需要加鎖和日志等并行控制和恢復(fù)機(jī)制,以確保數(shù)據(jù)的一致性和完整性。對數(shù)據(jù)記
15、錄進(jìn)行只讀訪問,以進(jìn)行匯總和聚集。 如果OLTP和OLAP都在操作型數(shù)據(jù)庫上運(yùn)行,會大大降低數(shù)據(jù)庫系統(tǒng)的吞吐量。 總之,數(shù)據(jù)倉庫與操作數(shù)據(jù)庫分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。 兩種系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、內(nèi)容和用法兩種系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、內(nèi)容和用法都不相同都不相同 一般不維護(hù)歷史數(shù)據(jù),其數(shù)據(jù)很多,但對于決策是遠(yuǎn)遠(yuǎn)不夠的。用于決策支持需要?dú)v史數(shù)據(jù),將不同來源的數(shù)據(jù)統(tǒng)一(如聚集和匯總),產(chǎn)生高質(zhì)量、一致和集成的數(shù)據(jù)。只維護(hù)詳細(xì)的原始數(shù)據(jù)(如事務(wù)),這些數(shù)據(jù)在進(jìn)行分析之前需要統(tǒng)一。 由于兩個(gè)系統(tǒng)提供很不相同的,需要不同類型的,因此需要維護(hù)的數(shù)據(jù)庫。2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 據(jù)倉庫和O
16、LAP基于。該模型將數(shù)據(jù)看作數(shù)據(jù)立方體數(shù)據(jù)立方體(data cube)形式。 數(shù)允許以多維對數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。是關(guān)于一個(gè)組織想要記錄的視圖或?qū)嶓w。 例如,商店可能創(chuàng)建一個(gè)數(shù)據(jù)倉庫sales,記錄商店的銷售,涉及維 time,item(商品類),branch(分店)和 location(地點(diǎn))。這些維使得商店能夠記錄商品的月銷售,銷售商品的分店和地點(diǎn)。2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 : 多維數(shù)據(jù)模型圍繞中心主題(例如sales)組織。 主題主題用事實(shí)表事實(shí)表表示。是用數(shù)值度量的。根據(jù)它們分析維之間的關(guān)系。例如,sales銷售數(shù)據(jù)倉庫的事實(shí)包括dollars_sold(銷售的款項(xiàng)
17、),units_sold(銷售量)和amount_budgeted(預(yù)銷量)。包括事實(shí)的名稱,以及每個(gè)相關(guān)維包括事實(shí)的名稱,以及每個(gè)相關(guān)維表的關(guān)鍵字表的關(guān)鍵字。2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 例例:某連鎖商店的銷售數(shù)據(jù)按照:某連鎖商店的銷售數(shù)據(jù)按照time季度季度, item商品商品類的類的2-D視圖視圖(其中銷售數(shù)據(jù)是取自其中銷售數(shù)據(jù)是取自Location=“Vancouver”的所有分店,銷售金額單位是的所有分店,銷售金額單位是1000美元美元)。 item(商品類商品類) _ 季度季度 家庭娛樂 計(jì)算機(jī) 電 話 安全設(shè)備 Q1 605 825 14 400 Q2 680 952 31
18、512 Q3 812 1023 30 501 Q4 927 1038 38 580 2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 以三維角度三維角度觀察該連鎖商店的銷售數(shù)據(jù)。例如,根據(jù)time,item和location城市城市觀察數(shù)據(jù)。 location是Chicago, New York,Toronto和Vancouver。 location“Chicago” ;location“New York” . (該市上述二維表 略) (該市上述二維表 略)2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 多維數(shù)據(jù)庫模型:多維數(shù)據(jù)庫模型: 星型、雪花星型、雪花型型廣泛使用。數(shù)據(jù)庫模式由實(shí)體的集合和它們之間的聯(lián)系組成。這種數(shù)據(jù)
19、模型適用于聯(lián)機(jī)事務(wù)處理。 數(shù)據(jù)倉庫需要簡明的、,便于聯(lián)機(jī)數(shù)據(jù)分析。 數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型。這種模型有、等。2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 是數(shù)據(jù)倉庫最常見的數(shù)據(jù)模型,其中包括: (1)包含大批數(shù)據(jù)和不含冗余的中心表; (2)一組小的附屬表( 維表 ),每一維一個(gè)。維表圍繞中心表顯示在連線上。 例:某連鎖商店的星型模式如下圖所示。sales有四個(gè)維,分別是time,item,branch(分店)和location。該模式包含一個(gè)中心事實(shí)表sales,它包含四個(gè)維的關(guān)鍵字和兩個(gè)度量dollars_sold銷售的款項(xiàng)和units_sold銷售量。2.8 多維
20、數(shù)據(jù)模型多維數(shù)據(jù)模型 在星型模式中,每一維只用一個(gè)表表示,每個(gè)表包含一組屬性。例如,location維表包含屬性集location_key, street, city, province_or_state, country。 2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 sales 數(shù)據(jù)倉庫的星型模式數(shù)據(jù)倉庫的星型模式 time item 維表維表 維表維表 time_key - time_key item_name day item_key - item_key day_of_the_week units_sold brand month dollars_sold type quarter locati
21、on_key supplier_type year branch_key | | | branch維表維表 location維表維表 branch_key location_key branch_name street branch_type city province_or_state country 2.8 多維多維數(shù)據(jù)模型數(shù)據(jù)模型雪花模型雪花模型(snowflake schema) 雪花模型是星型模式的變種,其中某些維表是規(guī)范規(guī)范化的化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。結(jié)果,模型圖形成類似于雪花的形狀。 雪花模型和星型模型的雪花模型和星型模型的在于,雪花模型的維表可能是規(guī)范化形式,以
22、便減少冗余。 這種表,并,因?yàn)楫?dāng)維結(jié)構(gòu)作為列包含在內(nèi)時(shí),大維表可能非常大。 由于執(zhí)行查詢需要更多的連接操作連接操作,雪花模型可能降低瀏覽的性能降低瀏覽的性能。數(shù)據(jù)倉庫系統(tǒng)的性能可能受到影響。在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模式使用廣泛。 2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 雪花模型雪花模型(snowflake schema) 該連鎖商店sales的雪花模型在下圖給出。這里,sales事實(shí)表與上面的星型模型相同。兩個(gè)模式的主要不同是維表。 星型模型中的item的單個(gè)維表在雪花模型中被規(guī)范化,導(dǎo)致新的item表和supplier供應(yīng)商供應(yīng)商表。例如,現(xiàn)在item維表包含屬性item_key, it
23、em_name, brand ,type和supplier_key,supplier_key連接到supplier維表。而supplier維表包含信息supplier_key和supplier_type。 類似地,星型模型中l(wèi)ocation的單個(gè)維表被規(guī)范化成兩個(gè)表:新的新的location和和city。新的location表中的location_key現(xiàn)在連接到city維。根據(jù)需要雪花模型還可以進(jìn)一步規(guī)范化。 2.8 多維數(shù)據(jù)模型多維數(shù)據(jù)模型 sales數(shù)據(jù)倉庫的雪花模式數(shù)據(jù)倉庫的雪花模式timeitem維表維表維表維表time_key - time_key item_nameday ite
24、m_key -item_keyday_of_the_week units_sold brandmonth dollars_sold type supplier 維表維表quarter location_key supplier_type - supplier_keyyear branch_key | (規(guī)范化)規(guī)范化)supplier_type | | branch維表維表 location維表維表 (規(guī)范化)規(guī)范化) branch_key location_key branch_name street city維表維表 branch_type city - city_key province
25、_or_state country 三、數(shù)據(jù)挖掘三、數(shù)據(jù)挖掘3.1 什么是數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?是。這些規(guī)則蘊(yùn)含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,為經(jīng)營決策、市場策劃、金融預(yù)測等提供依據(jù)。 通過數(shù)據(jù)挖掘,有價(jià)值的知識、規(guī)則或高層次的信息能就從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫作為一個(gè)豐富可靠的資源為知識管理服務(wù)。3.1 什么是數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?在一些文獻(xiàn)中也有其他名稱,如數(shù)據(jù)開采、知識挖掘、知識抽取、知識考察等。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)KDD的一個(gè),它包括特定的數(shù)據(jù)挖掘算法,具有可接受的計(jì)算效率,生成特殊的模式。 KDD是利用數(shù)據(jù)挖掘
26、算法,按指定方式和閾值抽取有價(jià)值的知識,包括數(shù)據(jù)挖掘前對數(shù)據(jù)的預(yù)處理、抽樣及轉(zhuǎn)換和數(shù)據(jù)挖掘后對知識的評價(jià)解釋過程。 3.2 數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘的特點(diǎn) 所處理的數(shù)據(jù)規(guī)模十分巨大所處理的數(shù)據(jù)規(guī)模十分巨大。尋找決策所需的信息尋找決策所需的信息。數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則。維護(hù)規(guī)則。數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)主要基于大樣本的數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)主要基于大樣本的統(tǒng)計(jì)規(guī)律統(tǒng)計(jì)規(guī)律,發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),當(dāng)達(dá)到某一時(shí)便可認(rèn)為有此規(guī)律。3.3 數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的分類 根據(jù)所開采的數(shù)據(jù)庫類型、發(fā)現(xiàn)的知識類型、采用的技術(shù)類型,數(shù)據(jù)挖掘有不同的分類方
27、法。 (1) 按數(shù)據(jù)庫類型分類按數(shù)據(jù)庫類型分類 從關(guān)系數(shù)據(jù)庫中發(fā)現(xiàn)知識; 從面向?qū)ο髷?shù)據(jù)庫中發(fā)現(xiàn)知識; 從多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、歷史數(shù)據(jù)庫、Web數(shù)據(jù)庫中發(fā)現(xiàn)知識。 3.3 數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的分類 (2) 按挖掘的知識類型分類按挖掘的知識類型分類 可分為關(guān)聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時(shí)序規(guī)則等。 可分為歸納知識、原始級知識、多層次知識。一個(gè)靈活的規(guī)則挖掘系統(tǒng)能夠在多個(gè)層次上發(fā)現(xiàn)知識。3.3 數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的分類(3) 按利用的技術(shù)類型分類按利用的技術(shù)類型分類分為自發(fā)知識開采、數(shù)據(jù)驅(qū)動開采、查詢驅(qū)動開采和交互式數(shù)據(jù)開采。分為基于歸納的開采、基于模
28、式的開采、基于統(tǒng)計(jì)和數(shù)學(xué)理論的開采及集成開采等。3.3 數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的分類(4) 按挖掘的深度分類按挖掘的深度分類 在上,利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢/檢索及報(bào)表功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行 OLAP,從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)。 在上,從數(shù)據(jù)庫中發(fā)現(xiàn)前所未知的、隱含的知識。的出現(xiàn)早于數(shù)據(jù)挖掘,兩者都是從數(shù)據(jù)庫中抽取有用信息的方法,就決策支持的需要而言兩者可以起到相輔相承的作用。OLAP可以作為一種廣義的數(shù)據(jù)挖掘方法,它旨在簡化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的目的是使這一過程盡可能自動化。 :(1)/。用數(shù)據(jù)庫的若干已知字段預(yù)測或驗(yàn)證其他未知字段值; (2)指找到描
29、述數(shù)據(jù)的可理解模式。3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系 是指識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的、最終可理解的、模式的、非平凡過程。 的整個(gè)過程包括在指定的數(shù)據(jù)庫中用數(shù)據(jù)挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的計(jì)算步驟。盡管數(shù)據(jù)挖掘是整個(gè)過程的中心,但它通常只占整個(gè)過程15%25%的工作量。是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而則是此全過程的一個(gè)特定的關(guān)鍵步驟 3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系 KDD的步驟:的步驟:1 熟悉應(yīng)用領(lǐng)域、背景知識及用戶的KDD任務(wù)性質(zhì);2 數(shù)據(jù)的選擇:確定與發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)集合;3
30、 數(shù)據(jù)清理和預(yù)處理,包括除去錯(cuò)誤和冗余數(shù)據(jù)、處理丟失數(shù)據(jù)、更新數(shù)據(jù)和時(shí)序信息并將其準(zhǔn)備成數(shù)據(jù)挖掘工具所需的表達(dá)式;4 數(shù)據(jù)縮減和投影,尋找依賴于發(fā)現(xiàn)目標(biāo)的、表達(dá)數(shù)據(jù)的有用特征,通過降低維數(shù)和數(shù)據(jù)轉(zhuǎn)換以縮減數(shù)據(jù)規(guī)模;降低數(shù)據(jù)復(fù)雜性;5 確定KDD目標(biāo),選擇合適的算法如聚集、分類、線性回歸等;3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系6 選擇數(shù)據(jù)挖掘算法,選擇適當(dāng)?shù)哪P秃蛥?shù);7 執(zhí)行數(shù)據(jù)挖掘過程,發(fā)現(xiàn)模式并表達(dá)成易理解的 形式如分類規(guī)則等;8 評價(jià)和解釋發(fā)現(xiàn)的模式,必要時(shí)反復(fù)執(zhí)行步驟 1到到7;9 將模式提交給用戶或應(yīng)用到系統(tǒng)中。 KDD整個(gè)過程是一個(gè)以知識工作者為中心、人整個(gè)過程是一個(gè)以知識工作者為中心、人機(jī)交互的探索過程機(jī)交互的探索過程。3.6 數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘?qū)嵗祟愑屑s10萬個(gè)基因。一個(gè)基因通常由成百個(gè)核苷按一定次序組織而成。核苷按不同的次序和序列可以形成不同的基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北地質(zhì)大學(xué)《外匯交易實(shí)務(wù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 動車組列車長作業(yè)標(biāo)準(zhǔn)樣本
- 河北地質(zhì)大學(xué)《紀(jì)錄片創(chuàng)作》2023-2024學(xué)年第一學(xué)期期末試卷
- 起重設(shè)備的生產(chǎn)之路-挑戰(zhàn)、成果與未來的規(guī)劃
- 針灸儀市場發(fā)展前景分析及供需格局研究預(yù)測報(bào)告
- 掌控網(wǎng)絡(luò)安全之匙-全面防護(hù)策略與實(shí)踐指南
- 馬桶刷架細(xì)分市場深度研究報(bào)告
- 藥枕市場分析及投資價(jià)值研究報(bào)告
- 飛鏢市場分析及投資價(jià)值研究報(bào)告
- 2024–2025學(xué)年呂梁市高三階段性測試(期中考試) 語文試題(含答案)
- 最新國家電網(wǎng)公司安全設(shè)施相關(guān)標(biāo)準(zhǔn)
- 印刷行業(yè)五制度
- 《6.用線畫房子課件》小學(xué)美術(shù)冀美版三年級上冊2034.ppt
- 瘋牛病檢測規(guī)范與防控
- 小學(xué)生寫字教學(xué)經(jīng)驗(yàn)交流
- 玻璃、易碎品管理規(guī)程
- 公務(wù)員考核量化測評標(biāo)準(zhǔn)
- 五大領(lǐng)域認(rèn)知發(fā)展
- PMS顏色對照表
- 河沙開采工藝流程
- 機(jī)井通電標(biāo)準(zhǔn)化設(shè)計(jì)(200kVA
評論
0/150
提交評論