新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉庫課件_第1頁
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉庫課件_第2頁
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉庫課件_第3頁
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉庫課件_第4頁
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉庫課件_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

新圓計(jì)算機(jī)系統(tǒng)公司

---------------------數(shù)據(jù)倉庫

新圓計(jì)算機(jī)系統(tǒng)公司

--------------------1議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來2數(shù)據(jù)庫的定義傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源為中心,同時(shí)進(jìn)行從事務(wù)處理,批處理到?jīng)Q策分析的各類處理;特別是OLTP主要是為自動(dòng)化,精簡工作任務(wù)和高速數(shù)據(jù)采集服務(wù)的。它的運(yùn)行是事務(wù)驅(qū)動(dòng),面向應(yīng)用的,數(shù)據(jù)庫的根本任務(wù)是完成數(shù)據(jù)操作,即及時(shí)安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來。

數(shù)據(jù)庫的定義3數(shù)據(jù)倉庫的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不滿足與簡單的數(shù)據(jù)操作,用于進(jìn)行商務(wù)運(yùn)轉(zhuǎn)的大量數(shù)據(jù)可能是人們不大在意未加充分利用的東西。近而產(chǎn)生了使用現(xiàn)有的和自己長期積累生成的數(shù)據(jù)進(jìn)行分析和推理,為決策提供依據(jù)的需求,從而導(dǎo)致了DSS和OLAP的產(chǎn)生。人們逐漸認(rèn)識(shí)到計(jì)算機(jī)系統(tǒng)中存在著兩類不同的處理:操作型處理(事務(wù)處理):主要是對(duì)一個(gè)或一組記錄的查詢和修改,這時(shí)候人們關(guān)心的是響應(yīng)時(shí)間數(shù)據(jù)的安全性和完整性。和分析型處理(信息型處理):用于管理人員的決策分析,如DDS(decisionsupportsystem)、EIS、多維分析等。數(shù)據(jù)倉庫的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不4數(shù)據(jù)倉庫的產(chǎn)生和定義隨著時(shí)間的推移,人們開始對(duì)DB中的原始數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境以支持決策的產(chǎn)生;數(shù)據(jù)庫由操作性環(huán)境發(fā)展成一種新的環(huán)境:t體系化環(huán)境,數(shù)據(jù)倉庫則是體系化環(huán)境的核心。面向主題的、集成的、穩(wěn)定的、用以支持經(jīng)營管理中的決策制定過程的不同時(shí)間的數(shù)據(jù)集合。數(shù)據(jù)倉庫的產(chǎn)生和定義隨著時(shí)間的推移,人們開始對(duì)DB中的原始數(shù)5用于OLTP的數(shù)據(jù)庫無法滿足分析的需求缺乏組織性:無統(tǒng)一的時(shí)間標(biāo)準(zhǔn),抽取算法和抽取級(jí)別又不相同,參考的外部數(shù)據(jù)的不同效率低下:操作數(shù)據(jù)難以轉(zhuǎn)化成有用的信息。1。各公司個(gè)階段都要積累大量的數(shù)據(jù),但他們僅是一種處于原始狀態(tài)的資源2為了提高性能,數(shù)據(jù)常被分散在各個(gè)子系統(tǒng)中,而各個(gè)子系統(tǒng)的應(yīng)用又是千差萬別、零散瑣碎。3同時(shí)主題內(nèi)容可能分散在多個(gè)應(yīng)用中,同一應(yīng)用在不同字段中可能存在著同名異義,異名同義、單位不同和字段不同等矛盾。用于OLTP的數(shù)據(jù)庫無法滿足分析的需求缺乏組織性:無統(tǒng)一的6用于OLTP的數(shù)據(jù)庫無法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)庫的DDS問題。如DDS分析需要較長時(shí)間,而OLTP則要求盡快作出響應(yīng);進(jìn)行一次大規(guī)模的分析,對(duì)OLTP的影響是難以忍受的。DDS常常需通過一端歷史時(shí)期的數(shù)據(jù)來進(jìn)行分析趨勢,而數(shù)據(jù)庫一般只存儲(chǔ)短期數(shù)據(jù),且各個(gè)領(lǐng)域的保存期限也千差萬別,分析難以滿足DDS的需要。用于OLTP的數(shù)據(jù)庫無法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)7數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography財(cái)經(jīng)的Financial經(jīng)濟(jì)的Economic政府Government銷售分?jǐn)?shù)Point-of-Sale人口統(tǒng)計(jì)學(xué)Demographic生活方式Lifestyle痛苦:太多數(shù)據(jù),無法作出正確判斷!為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPa8面向應(yīng)用ApplicationOriented有限的集成LimitedIntegration經(jīng)常的更新ConstantlyUpdated只有當(dāng)前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性數(shù)據(jù)OperationalData信息性數(shù)據(jù)InformationalData操作性數(shù)據(jù)和信息性數(shù)據(jù)是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay財(cái)務(wù)記帳AccountHistory建立數(shù)據(jù)倉庫從而獲取正確信息面向應(yīng)用ApplicationOriented操9分析發(fā)現(xiàn)Display,Analyze,Discover管理和自動(dòng)操作ManageandAutomate轉(zhuǎn)換TransformTemplates分發(fā)DistributeDATADATADATA倉庫Store摘取Extract尋找并理解FindandUnderstandLogMetadata選取數(shù)據(jù)....獲取信息....作出決定設(shè)計(jì)數(shù)據(jù)庫的建立--------步向成功之路分析發(fā)現(xiàn)Display,Analyze,Discover10議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來11數(shù)據(jù)庫的特征數(shù)據(jù)倉庫是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀的分析領(lǐng)域如政策、市場分析、價(jià)格趨勢等數(shù)據(jù)倉庫是集成的。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然經(jīng)過加工和集成,以統(tǒng)一原始數(shù)據(jù)中的所有矛盾,實(shí)現(xiàn)將原始數(shù)據(jù)從面向應(yīng)用到面向主題的轉(zhuǎn)變。數(shù)據(jù)倉庫是穩(wěn)定的。數(shù)據(jù)倉庫反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù)。古數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉庫是極少或不更新的。數(shù)據(jù)倉庫是時(shí)變的。它存儲(chǔ)有大量的歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)等,它處于永遠(yuǎn)的發(fā)展變化中。引起變化的因素有:新主題的引入、歷史數(shù)據(jù)的不斷積累、細(xì)節(jié)數(shù)據(jù)的綜合存儲(chǔ)及無用數(shù)據(jù)的清除。數(shù)據(jù)庫的特征數(shù)據(jù)倉庫是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀12議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來13

數(shù)據(jù)倉庫的建立和開發(fā)

數(shù)據(jù)倉庫并不等同于數(shù)據(jù)庫,數(shù)據(jù)倉庫也有其自身開發(fā)的特點(diǎn)。創(chuàng)建一個(gè)數(shù)據(jù)倉庫會(huì)有以下五方面的工作:1任務(wù)和環(huán)境的評(píng)估2需求的收集和分析3構(gòu)造數(shù)據(jù)倉庫4數(shù)據(jù)倉庫技術(shù)的培訓(xùn)5回顧、總結(jié)及再發(fā)展

數(shù)據(jù)倉庫的建立和開發(fā)

數(shù)據(jù)倉庫并不等同于數(shù)據(jù)庫,數(shù)據(jù)141.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉庫是建立在原有運(yùn)行系統(tǒng)之上的。因此要結(jié)合用戶的現(xiàn)狀,來明確數(shù)據(jù)倉庫的目標(biāo)任務(wù)。除了業(yè)務(wù)現(xiàn)狀外,特別要搞清任務(wù)所面對(duì)的數(shù)據(jù)源所在系統(tǒng)和其中的數(shù)據(jù)的狀況。通過對(duì)這些情況的評(píng)估,看建立數(shù)據(jù)倉庫這個(gè)任務(wù)是否可行;所能建立的數(shù)據(jù)倉庫是不是用戶所期望的;在此有沒有不可逾越的障礙。最好能確定評(píng)定將來數(shù)據(jù)倉庫系統(tǒng)成功與否的基本原則。開展評(píng)估工作一定要有高層負(fù)責(zé)人參加,最好他就是將來使用數(shù)據(jù)倉庫部門的負(fù)責(zé)人。這樣從他這里就可以了解到全部的業(yè)務(wù)工作狀況。他也最清楚今后的工作目標(biāo)及對(duì)任務(wù)的期望,以及和競爭對(duì)手比較的差距。在評(píng)估工作開展過程中,他應(yīng)當(dāng)及時(shí)的提出問題,并檢查、回顧工作的進(jìn)展。在他的領(lǐng)導(dǎo)下要組成一個(gè)項(xiàng)目組,并有以下人員參加:項(xiàng)目總負(fù)責(zé)人,與數(shù)據(jù)倉庫相關(guān)的所有業(yè)務(wù)單位的負(fù)責(zé)人,計(jì)算機(jī)軟/硬件負(fù)責(zé)人,向數(shù)據(jù)倉庫提供數(shù)據(jù)的數(shù)據(jù)庫管理員以及網(wǎng)絡(luò)方面的人員。項(xiàng)目組要進(jìn)行項(xiàng)目定義,并首先按要求達(dá)到的目標(biāo)初步確定數(shù)據(jù)倉庫的主題。進(jìn)一步說明這個(gè)主題的層次結(jié)構(gòu),及所涉及的相關(guān)業(yè)務(wù)處理。最好還能設(shè)立幾個(gè)可量化的工作指標(biāo)。除了業(yè)務(wù)工作外,還要對(duì)相關(guān)的信息技術(shù)狀況進(jìn)行評(píng)估:數(shù)據(jù)源的數(shù)據(jù)庫類型,工作平臺(tái),數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量等;將要建立數(shù)據(jù)倉庫的環(huán)境狀況,以及所利用的網(wǎng)絡(luò)技術(shù)狀況。全部評(píng)估工作應(yīng)有正規(guī)的文檔記載,并交數(shù)據(jù)倉庫負(fù)責(zé)人審定。

1.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉庫是建立在原有運(yùn)行系統(tǒng)之上的。15數(shù)據(jù)倉庫是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需求,即現(xiàn)在最重要的工作目標(biāo)是什么;怎樣衡量這個(gè)目標(biāo)的達(dá)到與否;現(xiàn)在是怎樣獲得決策支持信息的;和競爭對(duì)手比差距是什么。領(lǐng)導(dǎo)的決策總是由一批具體工作人員支持的,所以還應(yīng)從他們這里收集具體的需求,并加以分析:對(duì)應(yīng)前面所定的主題,現(xiàn)在利用什么信息或報(bào)表(最好有實(shí)例);這報(bào)表中還缺什么信息;這報(bào)表是如何制作出來的;有沒有緊急、突發(fā)的決策信息要求,其內(nèi)容是什么;還希望數(shù)據(jù)倉庫為他們完成什么等。在此基礎(chǔ)上確認(rèn):當(dāng)前共同的業(yè)務(wù)問題是什么;希望開發(fā)怎樣的功能來解決這些問題;由此定義好業(yè)務(wù)處理的規(guī)則;初步估計(jì)功能的規(guī)模和數(shù)據(jù)量;與此同時(shí)還要定義、理清業(yè)務(wù)和編程所需的代碼?;谏鲜鰳I(yè)務(wù)需求和分析即可開始制定系統(tǒng)的邏輯模型。此外,還要對(duì)在實(shí)現(xiàn)這些業(yè)務(wù)需求時(shí),對(duì)信息技術(shù)的需求加以分析:每一個(gè)數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量如何;確認(rèn)硬件、網(wǎng)絡(luò)和軟件的限制條件;數(shù)據(jù)裝載與更新的策略和問題;數(shù)據(jù)量和占用空間的估計(jì);從信息技術(shù)看數(shù)據(jù)的質(zhì)量有何問題等。最后,還有文檔制作,其內(nèi)容應(yīng)包括:項(xiàng)目概述、差距分析、系統(tǒng)基本架構(gòu)圖示、邏輯模型、物理模型、數(shù)據(jù)倉庫初始裝載和更新的策略、數(shù)據(jù)倉庫的運(yùn)行計(jì)劃、決策信息展現(xiàn)的希望和需求、數(shù)據(jù)倉庫建成的時(shí)限。

2.需求的收集和分析數(shù)據(jù)倉庫是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需163.構(gòu)造數(shù)據(jù)倉庫構(gòu)造數(shù)據(jù)倉庫包括了數(shù)據(jù)倉庫的管理,數(shù)據(jù)倉庫的組織和決策支持信息的展現(xiàn)三部分。

數(shù)據(jù)倉庫的管理通過建立以下諸項(xiàng)內(nèi)容實(shí)現(xiàn)之:設(shè)置和編寫取用數(shù)據(jù)的程序;設(shè)置和編寫數(shù)據(jù)轉(zhuǎn)換程序;設(shè)置和編寫數(shù)據(jù)更新程序;設(shè)置和編寫運(yùn)行的接口程序;建立這一階段的所有管理用數(shù)據(jù)——Metadata;此階段所有程序統(tǒng)一標(biāo)準(zhǔn)命名和建檔。

數(shù)據(jù)倉庫的組織包括了:規(guī)劃數(shù)據(jù)倉庫的初始裝載;在數(shù)據(jù)倉庫中建立所需的索引;除了數(shù)據(jù)表外,建立數(shù)據(jù)視窗(View);進(jìn)行數(shù)據(jù)倉庫及工作平臺(tái)的安全檢查;裝入數(shù)據(jù)和應(yīng)用功能;建立這一階段的所有管理用數(shù)據(jù)——Metadata。3.構(gòu)造數(shù)據(jù)倉庫174數(shù)據(jù)倉庫技術(shù)的培訓(xùn)

數(shù)據(jù)倉庫是支持其使用者進(jìn)行決策的,建成數(shù)據(jù)倉庫后要認(rèn)真進(jìn)行最終用戶的培訓(xùn)。首先要向用戶介紹數(shù)據(jù)倉庫的全部情況,數(shù)據(jù)是向用戶介紹的重點(diǎn),數(shù)據(jù)內(nèi)容,系統(tǒng)如何保障數(shù)據(jù)的質(zhì)量、完整性和可靠性。假如數(shù)據(jù)倉庫的管理員不是系統(tǒng)的開發(fā)者,那末該員亦屬培訓(xùn)范圍。培訓(xùn)內(nèi)容是:數(shù)據(jù)倉庫的邏輯和物理模型;從OLTP系統(tǒng)到數(shù)據(jù)倉庫的數(shù)據(jù)流;全部的數(shù)據(jù)轉(zhuǎn)換操作;所有Metadata的所在和內(nèi)容,管理員對(duì)Metadata要有相當(dāng)?shù)氖煜こ潭炔拍軇偃喂ぷ?數(shù)據(jù)裝載和更新的策略;所有安全性問題及其測度;所有程序文檔資料的管理等。4數(shù)據(jù)倉庫技術(shù)的培訓(xùn)

數(shù)據(jù)倉庫是支持其使用者進(jìn)行決策的,185.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉庫開發(fā)過程中要不斷總結(jié)回顧哪些地方可以做得更好;業(yè)務(wù)部門對(duì)開發(fā)的支持是否到位;雙方如何合作得更好。主題的范圍選擇是否恰當(dāng);有什么階段成果;發(fā)布這些成果的反映如何;業(yè)務(wù)和開發(fā)部門分別有什么反映;公司層的領(lǐng)導(dǎo)是否看到了初步成果;、公司的其它部門是否可以利用數(shù)據(jù)倉庫獲得效益;有沒有得到未曾期望過的效益。數(shù)據(jù)倉庫的開發(fā)往往是從一個(gè)簡明的急需主題開始,從中積累經(jīng)驗(yàn),并由此也可能會(huì)激發(fā)用戶的新需求,然后不斷擴(kuò)大數(shù)據(jù)倉庫的內(nèi)容和規(guī)模。5.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉庫開發(fā)過程中要不斷總結(jié)回顧哪19議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來20數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)

據(jù)

掘(DataMining),

數(shù)

據(jù)

識(shí)

發(fā)

現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),

數(shù)

據(jù)

信、

穎、

級(jí)

程。

數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining21知

識(shí)

發(fā)

現(xiàn)

個(gè)

程,

問題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。

數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。

數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。

數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。

知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過程,22議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來23數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。分類其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。

聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。

----關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。還有時(shí)間或序列上的規(guī)律。數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目24前

數(shù)

據(jù)

術(shù)KDD在

應(yīng)

發(fā)

速,

業(yè)

領(lǐng)

應(yīng)

發(fā)

快。

行、

險(xiǎn)

司、

業(yè)。

IBM和

應(yīng)

進(jìn)

作,

外,

關(guān)

內(nèi)

售,

如Platinum、BO以

及IBM。

數(shù)

據(jù)

應(yīng)

用在國內(nèi)也受

學(xué)

術(shù)

實(shí)

業(yè)

視。前途光明的數(shù)據(jù)挖掘技術(shù)KDD在研究25議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來26數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有27特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。

----特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的28通用的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型,一般提供六種模式。例如,IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。

通用的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘29

下面簡單介紹幾種數(shù)據(jù)挖掘工具:

下面簡單介紹幾種數(shù)據(jù)挖掘工具:301.QUESTQUEST是IBM公司Almaden研究中心開發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開發(fā)提供高效的數(shù)據(jù)開采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn):

提供了專門在大型數(shù)據(jù)庫上進(jìn)行各種開采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹分類、遞增式主動(dòng)開采等。各種開采算法具有近似線性(O(n))計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫。算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。1.QUESTQUEST312.MineSetMineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。

有如下特點(diǎn):

MineSet2.6中使用了6種可視化工具來表現(xiàn)數(shù)據(jù)和知識(shí)。對(duì)同一個(gè)挖掘結(jié)果可以用不同的可視化工具以各種形式表示,用戶也可以按照個(gè)人的喜好調(diào)整最終效果,以便更好地理解。提供多種數(shù)據(jù)挖掘模式。包括分類器、回歸模式、關(guān)聯(lián)規(guī)則、聚類歸、判斷列重要度。支持多種關(guān)系數(shù)據(jù)庫??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過SQL命令執(zhí)行查詢。多種數(shù)據(jù)轉(zhuǎn)換功能。操作簡單。支持國際字符??梢灾苯影l(fā)布到Web。2.MineSetMi32數(shù)據(jù)挖掘工具的選擇

評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來考慮:1.可產(chǎn)生的模式種類的多少2.解決復(fù)雜問題的能力3.易操作性4.?dāng)?shù)據(jù)存取能力

5.與其他產(chǎn)品的接口數(shù)據(jù)挖掘工具的選擇

評(píng)價(jià)一個(gè)數(shù)據(jù)33議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來34Brio產(chǎn)品介紹

cognus產(chǎn)品介紹點(diǎn)擊進(jìn)入BRIOOne介紹

和BrioReports點(diǎn)擊進(jìn)入CognusBrio產(chǎn)品介紹

cognus產(chǎn)品介紹點(diǎn)擊進(jìn)入BRIO35新圓計(jì)算機(jī)系統(tǒng)公司

---------------------數(shù)據(jù)倉庫

新圓計(jì)算機(jī)系統(tǒng)公司

--------------------36議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來37數(shù)據(jù)庫的定義傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源為中心,同時(shí)進(jìn)行從事務(wù)處理,批處理到?jīng)Q策分析的各類處理;特別是OLTP主要是為自動(dòng)化,精簡工作任務(wù)和高速數(shù)據(jù)采集服務(wù)的。它的運(yùn)行是事務(wù)驅(qū)動(dòng),面向應(yīng)用的,數(shù)據(jù)庫的根本任務(wù)是完成數(shù)據(jù)操作,即及時(shí)安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來。

數(shù)據(jù)庫的定義38數(shù)據(jù)倉庫的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不滿足與簡單的數(shù)據(jù)操作,用于進(jìn)行商務(wù)運(yùn)轉(zhuǎn)的大量數(shù)據(jù)可能是人們不大在意未加充分利用的東西。近而產(chǎn)生了使用現(xiàn)有的和自己長期積累生成的數(shù)據(jù)進(jìn)行分析和推理,為決策提供依據(jù)的需求,從而導(dǎo)致了DSS和OLAP的產(chǎn)生。人們逐漸認(rèn)識(shí)到計(jì)算機(jī)系統(tǒng)中存在著兩類不同的處理:操作型處理(事務(wù)處理):主要是對(duì)一個(gè)或一組記錄的查詢和修改,這時(shí)候人們關(guān)心的是響應(yīng)時(shí)間數(shù)據(jù)的安全性和完整性。和分析型處理(信息型處理):用于管理人員的決策分析,如DDS(decisionsupportsystem)、EIS、多維分析等。數(shù)據(jù)倉庫的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不39數(shù)據(jù)倉庫的產(chǎn)生和定義隨著時(shí)間的推移,人們開始對(duì)DB中的原始數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境以支持決策的產(chǎn)生;數(shù)據(jù)庫由操作性環(huán)境發(fā)展成一種新的環(huán)境:t體系化環(huán)境,數(shù)據(jù)倉庫則是體系化環(huán)境的核心。面向主題的、集成的、穩(wěn)定的、用以支持經(jīng)營管理中的決策制定過程的不同時(shí)間的數(shù)據(jù)集合。數(shù)據(jù)倉庫的產(chǎn)生和定義隨著時(shí)間的推移,人們開始對(duì)DB中的原始數(shù)40用于OLTP的數(shù)據(jù)庫無法滿足分析的需求缺乏組織性:無統(tǒng)一的時(shí)間標(biāo)準(zhǔn),抽取算法和抽取級(jí)別又不相同,參考的外部數(shù)據(jù)的不同效率低下:操作數(shù)據(jù)難以轉(zhuǎn)化成有用的信息。1。各公司個(gè)階段都要積累大量的數(shù)據(jù),但他們僅是一種處于原始狀態(tài)的資源2為了提高性能,數(shù)據(jù)常被分散在各個(gè)子系統(tǒng)中,而各個(gè)子系統(tǒng)的應(yīng)用又是千差萬別、零散瑣碎。3同時(shí)主題內(nèi)容可能分散在多個(gè)應(yīng)用中,同一應(yīng)用在不同字段中可能存在著同名異義,異名同義、單位不同和字段不同等矛盾。用于OLTP的數(shù)據(jù)庫無法滿足分析的需求缺乏組織性:無統(tǒng)一的41用于OLTP的數(shù)據(jù)庫無法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)庫的DDS問題。如DDS分析需要較長時(shí)間,而OLTP則要求盡快作出響應(yīng);進(jìn)行一次大規(guī)模的分析,對(duì)OLTP的影響是難以忍受的。DDS常常需通過一端歷史時(shí)期的數(shù)據(jù)來進(jìn)行分析趨勢,而數(shù)據(jù)庫一般只存儲(chǔ)短期數(shù)據(jù),且各個(gè)領(lǐng)域的保存期限也千差萬別,分析難以滿足DDS的需要。用于OLTP的數(shù)據(jù)庫無法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)42數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography財(cái)經(jīng)的Financial經(jīng)濟(jì)的Economic政府Government銷售分?jǐn)?shù)Point-of-Sale人口統(tǒng)計(jì)學(xué)Demographic生活方式Lifestyle痛苦:太多數(shù)據(jù),無法作出正確判斷!為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPa43面向應(yīng)用ApplicationOriented有限的集成LimitedIntegration經(jīng)常的更新ConstantlyUpdated只有當(dāng)前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性數(shù)據(jù)OperationalData信息性數(shù)據(jù)InformationalData操作性數(shù)據(jù)和信息性數(shù)據(jù)是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay財(cái)務(wù)記帳AccountHistory建立數(shù)據(jù)倉庫從而獲取正確信息面向應(yīng)用ApplicationOriented操44分析發(fā)現(xiàn)Display,Analyze,Discover管理和自動(dòng)操作ManageandAutomate轉(zhuǎn)換TransformTemplates分發(fā)DistributeDATADATADATA倉庫Store摘取Extract尋找并理解FindandUnderstandLogMetadata選取數(shù)據(jù)....獲取信息....作出決定設(shè)計(jì)數(shù)據(jù)庫的建立--------步向成功之路分析發(fā)現(xiàn)Display,Analyze,Discover45議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來46數(shù)據(jù)庫的特征數(shù)據(jù)倉庫是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀的分析領(lǐng)域如政策、市場分析、價(jià)格趨勢等數(shù)據(jù)倉庫是集成的。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然經(jīng)過加工和集成,以統(tǒng)一原始數(shù)據(jù)中的所有矛盾,實(shí)現(xiàn)將原始數(shù)據(jù)從面向應(yīng)用到面向主題的轉(zhuǎn)變。數(shù)據(jù)倉庫是穩(wěn)定的。數(shù)據(jù)倉庫反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù)。古數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉庫是極少或不更新的。數(shù)據(jù)倉庫是時(shí)變的。它存儲(chǔ)有大量的歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)等,它處于永遠(yuǎn)的發(fā)展變化中。引起變化的因素有:新主題的引入、歷史數(shù)據(jù)的不斷積累、細(xì)節(jié)數(shù)據(jù)的綜合存儲(chǔ)及無用數(shù)據(jù)的清除。數(shù)據(jù)庫的特征數(shù)據(jù)倉庫是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀47議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來48

數(shù)據(jù)倉庫的建立和開發(fā)

數(shù)據(jù)倉庫并不等同于數(shù)據(jù)庫,數(shù)據(jù)倉庫也有其自身開發(fā)的特點(diǎn)。創(chuàng)建一個(gè)數(shù)據(jù)倉庫會(huì)有以下五方面的工作:1任務(wù)和環(huán)境的評(píng)估2需求的收集和分析3構(gòu)造數(shù)據(jù)倉庫4數(shù)據(jù)倉庫技術(shù)的培訓(xùn)5回顧、總結(jié)及再發(fā)展

數(shù)據(jù)倉庫的建立和開發(fā)

數(shù)據(jù)倉庫并不等同于數(shù)據(jù)庫,數(shù)據(jù)491.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉庫是建立在原有運(yùn)行系統(tǒng)之上的。因此要結(jié)合用戶的現(xiàn)狀,來明確數(shù)據(jù)倉庫的目標(biāo)任務(wù)。除了業(yè)務(wù)現(xiàn)狀外,特別要搞清任務(wù)所面對(duì)的數(shù)據(jù)源所在系統(tǒng)和其中的數(shù)據(jù)的狀況。通過對(duì)這些情況的評(píng)估,看建立數(shù)據(jù)倉庫這個(gè)任務(wù)是否可行;所能建立的數(shù)據(jù)倉庫是不是用戶所期望的;在此有沒有不可逾越的障礙。最好能確定評(píng)定將來數(shù)據(jù)倉庫系統(tǒng)成功與否的基本原則。開展評(píng)估工作一定要有高層負(fù)責(zé)人參加,最好他就是將來使用數(shù)據(jù)倉庫部門的負(fù)責(zé)人。這樣從他這里就可以了解到全部的業(yè)務(wù)工作狀況。他也最清楚今后的工作目標(biāo)及對(duì)任務(wù)的期望,以及和競爭對(duì)手比較的差距。在評(píng)估工作開展過程中,他應(yīng)當(dāng)及時(shí)的提出問題,并檢查、回顧工作的進(jìn)展。在他的領(lǐng)導(dǎo)下要組成一個(gè)項(xiàng)目組,并有以下人員參加:項(xiàng)目總負(fù)責(zé)人,與數(shù)據(jù)倉庫相關(guān)的所有業(yè)務(wù)單位的負(fù)責(zé)人,計(jì)算機(jī)軟/硬件負(fù)責(zé)人,向數(shù)據(jù)倉庫提供數(shù)據(jù)的數(shù)據(jù)庫管理員以及網(wǎng)絡(luò)方面的人員。項(xiàng)目組要進(jìn)行項(xiàng)目定義,并首先按要求達(dá)到的目標(biāo)初步確定數(shù)據(jù)倉庫的主題。進(jìn)一步說明這個(gè)主題的層次結(jié)構(gòu),及所涉及的相關(guān)業(yè)務(wù)處理。最好還能設(shè)立幾個(gè)可量化的工作指標(biāo)。除了業(yè)務(wù)工作外,還要對(duì)相關(guān)的信息技術(shù)狀況進(jìn)行評(píng)估:數(shù)據(jù)源的數(shù)據(jù)庫類型,工作平臺(tái),數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量等;將要建立數(shù)據(jù)倉庫的環(huán)境狀況,以及所利用的網(wǎng)絡(luò)技術(shù)狀況。全部評(píng)估工作應(yīng)有正規(guī)的文檔記載,并交數(shù)據(jù)倉庫負(fù)責(zé)人審定。

1.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉庫是建立在原有運(yùn)行系統(tǒng)之上的。50數(shù)據(jù)倉庫是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需求,即現(xiàn)在最重要的工作目標(biāo)是什么;怎樣衡量這個(gè)目標(biāo)的達(dá)到與否;現(xiàn)在是怎樣獲得決策支持信息的;和競爭對(duì)手比差距是什么。領(lǐng)導(dǎo)的決策總是由一批具體工作人員支持的,所以還應(yīng)從他們這里收集具體的需求,并加以分析:對(duì)應(yīng)前面所定的主題,現(xiàn)在利用什么信息或報(bào)表(最好有實(shí)例);這報(bào)表中還缺什么信息;這報(bào)表是如何制作出來的;有沒有緊急、突發(fā)的決策信息要求,其內(nèi)容是什么;還希望數(shù)據(jù)倉庫為他們完成什么等。在此基礎(chǔ)上確認(rèn):當(dāng)前共同的業(yè)務(wù)問題是什么;希望開發(fā)怎樣的功能來解決這些問題;由此定義好業(yè)務(wù)處理的規(guī)則;初步估計(jì)功能的規(guī)模和數(shù)據(jù)量;與此同時(shí)還要定義、理清業(yè)務(wù)和編程所需的代碼?;谏鲜鰳I(yè)務(wù)需求和分析即可開始制定系統(tǒng)的邏輯模型。此外,還要對(duì)在實(shí)現(xiàn)這些業(yè)務(wù)需求時(shí),對(duì)信息技術(shù)的需求加以分析:每一個(gè)數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量如何;確認(rèn)硬件、網(wǎng)絡(luò)和軟件的限制條件;數(shù)據(jù)裝載與更新的策略和問題;數(shù)據(jù)量和占用空間的估計(jì);從信息技術(shù)看數(shù)據(jù)的質(zhì)量有何問題等。最后,還有文檔制作,其內(nèi)容應(yīng)包括:項(xiàng)目概述、差距分析、系統(tǒng)基本架構(gòu)圖示、邏輯模型、物理模型、數(shù)據(jù)倉庫初始裝載和更新的策略、數(shù)據(jù)倉庫的運(yùn)行計(jì)劃、決策信息展現(xiàn)的希望和需求、數(shù)據(jù)倉庫建成的時(shí)限。

2.需求的收集和分析數(shù)據(jù)倉庫是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需513.構(gòu)造數(shù)據(jù)倉庫構(gòu)造數(shù)據(jù)倉庫包括了數(shù)據(jù)倉庫的管理,數(shù)據(jù)倉庫的組織和決策支持信息的展現(xiàn)三部分。

數(shù)據(jù)倉庫的管理通過建立以下諸項(xiàng)內(nèi)容實(shí)現(xiàn)之:設(shè)置和編寫取用數(shù)據(jù)的程序;設(shè)置和編寫數(shù)據(jù)轉(zhuǎn)換程序;設(shè)置和編寫數(shù)據(jù)更新程序;設(shè)置和編寫運(yùn)行的接口程序;建立這一階段的所有管理用數(shù)據(jù)——Metadata;此階段所有程序統(tǒng)一標(biāo)準(zhǔn)命名和建檔。

數(shù)據(jù)倉庫的組織包括了:規(guī)劃數(shù)據(jù)倉庫的初始裝載;在數(shù)據(jù)倉庫中建立所需的索引;除了數(shù)據(jù)表外,建立數(shù)據(jù)視窗(View);進(jìn)行數(shù)據(jù)倉庫及工作平臺(tái)的安全檢查;裝入數(shù)據(jù)和應(yīng)用功能;建立這一階段的所有管理用數(shù)據(jù)——Metadata。3.構(gòu)造數(shù)據(jù)倉庫524數(shù)據(jù)倉庫技術(shù)的培訓(xùn)

數(shù)據(jù)倉庫是支持其使用者進(jìn)行決策的,建成數(shù)據(jù)倉庫后要認(rèn)真進(jìn)行最終用戶的培訓(xùn)。首先要向用戶介紹數(shù)據(jù)倉庫的全部情況,數(shù)據(jù)是向用戶介紹的重點(diǎn),數(shù)據(jù)內(nèi)容,系統(tǒng)如何保障數(shù)據(jù)的質(zhì)量、完整性和可靠性。假如數(shù)據(jù)倉庫的管理員不是系統(tǒng)的開發(fā)者,那末該員亦屬培訓(xùn)范圍。培訓(xùn)內(nèi)容是:數(shù)據(jù)倉庫的邏輯和物理模型;從OLTP系統(tǒng)到數(shù)據(jù)倉庫的數(shù)據(jù)流;全部的數(shù)據(jù)轉(zhuǎn)換操作;所有Metadata的所在和內(nèi)容,管理員對(duì)Metadata要有相當(dāng)?shù)氖煜こ潭炔拍軇偃喂ぷ?數(shù)據(jù)裝載和更新的策略;所有安全性問題及其測度;所有程序文檔資料的管理等。4數(shù)據(jù)倉庫技術(shù)的培訓(xùn)

數(shù)據(jù)倉庫是支持其使用者進(jìn)行決策的,535.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉庫開發(fā)過程中要不斷總結(jié)回顧哪些地方可以做得更好;業(yè)務(wù)部門對(duì)開發(fā)的支持是否到位;雙方如何合作得更好。主題的范圍選擇是否恰當(dāng);有什么階段成果;發(fā)布這些成果的反映如何;業(yè)務(wù)和開發(fā)部門分別有什么反映;公司層的領(lǐng)導(dǎo)是否看到了初步成果;、公司的其它部門是否可以利用數(shù)據(jù)倉庫獲得效益;有沒有得到未曾期望過的效益。數(shù)據(jù)倉庫的開發(fā)往往是從一個(gè)簡明的急需主題開始,從中積累經(jīng)驗(yàn),并由此也可能會(huì)激發(fā)用戶的新需求,然后不斷擴(kuò)大數(shù)據(jù)倉庫的內(nèi)容和規(guī)模。5.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉庫開發(fā)過程中要不斷總結(jié)回顧哪54議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來55數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)

據(jù)

掘(DataMining),

數(shù)

據(jù)

識(shí)

發(fā)

現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),

數(shù)

據(jù)

信、

穎、

級(jí)

程。

數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining56知

識(shí)

發(fā)

現(xiàn)

個(gè)

程,

問題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。

數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。

數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。

數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。

知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過程,57議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來58數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。分類其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。

聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。

----關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。還有時(shí)間或序列上的規(guī)律。數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目59前

數(shù)

據(jù)

術(shù)KDD在

應(yīng)

發(fā)

速,

業(yè)

領(lǐng)

應(yīng)

發(fā)

快。

行、

險(xiǎn)

司、

業(yè)。

IBM和

應(yīng)

進(jìn)

作,

外,

關(guān)

內(nèi)

售,

如Platinum、BO以

及IBM。

數(shù)

據(jù)

應(yīng)

用在國內(nèi)也受

學(xué)

術(shù)

實(shí)

業(yè)

視。前途光明的數(shù)據(jù)挖掘技術(shù)KDD在研究60議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的建立服務(wù)器的整合與數(shù)據(jù)倉庫數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉庫數(shù)據(jù)庫的應(yīng)用分類和數(shù)據(jù)倉庫的由來61數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有62特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。

----特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論