資料倉(cāng)儲(chǔ)與資料采掘概述課件_第1頁(yè)
資料倉(cāng)儲(chǔ)與資料采掘概述課件_第2頁(yè)
資料倉(cāng)儲(chǔ)與資料采掘概述課件_第3頁(yè)
資料倉(cāng)儲(chǔ)與資料采掘概述課件_第4頁(yè)
資料倉(cāng)儲(chǔ)與資料采掘概述課件_第5頁(yè)
已閱讀5頁(yè),還剩105頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

資料倉(cāng)儲(chǔ)技術(shù)篇

第1章資料倉(cāng)儲(chǔ)與資料採(cǎi)掘概述

1.1資料倉(cāng)儲(chǔ)的發(fā)展與展望(zhǎnwàng)

1.2資料倉(cāng)儲(chǔ)的架構(gòu)

1.3資料倉(cāng)儲(chǔ)的參照結(jié)構(gòu)

1.4資料採(cǎi)掘技術(shù)

1.5資料採(cǎi)掘技術(shù)與工具

1.6資料倉(cāng)儲(chǔ)與資料採(cǎi)掘的應(yīng)用

1.7資料倉(cāng)儲(chǔ)應(yīng)用

1.8資料倉(cāng)儲(chǔ)導(dǎo)向的決策支援系統(tǒng)

1.9資料倉(cāng)儲(chǔ)的商業(yè)應(yīng)用

1.10資料倉(cāng)儲(chǔ)與資料採(cǎi)掘的應(yīng)用

習(xí)題

第一頁(yè),共一百一十頁(yè)。隨著資訊技術(shù)的不斷推廣和應(yīng)用,許多企業(yè)都已經(jīng)在使用管理資訊系統(tǒng)(MIS)處理管理交易(jiāoyì)和日常業(yè)務(wù)。這些管理資訊系統(tǒng)為企業(yè)累積了大量的資訊因此,在資訊處理中,產(chǎn)生了與傳統(tǒng)資料庫(kù)有很大差異的資料環(huán)境要求,和從這些巨量資料中獲取特殊知識(shí)的工具的需要。

第二頁(yè),共一百一十頁(yè)。1.1資料倉(cāng)儲(chǔ)的發(fā)展與展望(zhǎnwàng)傳統(tǒng)資料庫(kù)只保存了當(dāng)前的業(yè)務(wù)處理資訊,缺乏決策分析所需要(xūyào)的大量歷史資訊。為滿足管理人員的決策分析需求,就需要在資料庫(kù)的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的資料環(huán)境─資料倉(cāng)儲(chǔ)(DW,DataWarehouse)。第三頁(yè),共一百一十頁(yè)。1.1.1從傳統(tǒng)資料庫(kù)到資料倉(cāng)儲(chǔ)決策處理的系統(tǒng)回應(yīng)問(wèn)題在傳統(tǒng)的業(yè)務(wù)處理系統(tǒng)中,客戶對(duì)系統(tǒng)和資料庫(kù)的要求是資料存取頻率要高,操作(cāozuò)時(shí)間要快。在決策分析處理中,客戶對(duì)系統(tǒng)和資料的要求則發(fā)生了很大的變化。這些操作必然要消耗大量的系統(tǒng)資源,這是對(duì)業(yè)務(wù)處理即時(shí)反應(yīng)的交易處理系統(tǒng)所無(wú)法忍受的。

第四頁(yè),共一百一十頁(yè)。決策資料需求的問(wèn)題在進(jìn)行決策分析時(shí),需要有整體、正確的整合式資料,這些整合式資料不僅包含企業(yè)內(nèi)部各部門(mén)的有關(guān)資料,而且還包含企業(yè)外部的,甚至(shènzhì)競(jìng)爭(zhēng)對(duì)手的相關(guān)資料。但是在傳統(tǒng)資料庫(kù)中,只儲(chǔ)存了本部門(mén)的交易處理資料,而沒(méi)有與決策問(wèn)題有關(guān)的整合式資料,更沒(méi)有企業(yè)外部的資料。

第五頁(yè),共一百一十頁(yè)。在決策資料的整合中還需要解決資料混亂問(wèn)題。例如,企業(yè)進(jìn)行併購(gòu)活動(dòng)之後,被併購(gòu)企業(yè)的資訊系統(tǒng)與併購(gòu)企業(yè)的系統(tǒng)不相容,資料無(wú)法共享。例如(lìrú),在系統(tǒng)開(kāi)發(fā)中,由於資金的缺乏,只考慮了一些關(guān)鍵系統(tǒng)的開(kāi)發(fā),而對(duì)其他系統(tǒng)不予考慮,使決策資料無(wú)法整合。

第六頁(yè),共一百一十頁(yè)。例如,員工的性別在人力資訊系統(tǒng)中可能(kěnéng)用邏輯值“M〞和“F〞表示,在財(cái)務(wù)系統(tǒng)中可能用數(shù)字“0〞和“I〞表示。例如,名稱為“GH〞的欄位名稱在人事系統(tǒng)中表示為員工的“員工號(hào)碼〞,但是在銷售管理系統(tǒng)中卻表示為“購(gòu)貨號(hào)碼〞。這樣在使用這些資料作出決策之前,必須對(duì)這些資料作分析,確認(rèn)其真實(shí)含義。第七頁(yè),共一百一十頁(yè)。在決策分析中,系統(tǒng)常常(chángcháng)需要從資料庫(kù)中萃取資料、搜尋有用的資料,然後將這些資料導(dǎo)入其他文件或資料庫(kù)中,供客戶使用。這些被萃取出來(lái)的資料,有可能被其他客戶再次萃萃取。由於這種不加限制的資料連續(xù)萃取,使企業(yè)的資料空間構(gòu)成了一個(gè)錯(cuò)綜複雜的資料“蜘蛛網(wǎng)〞(Spider’sWeb),即形成了自然演化架構(gòu)第八頁(yè),共一百一十頁(yè)。資料的整合(zhěnɡhé)還涉及到外部資料與非結(jié)構(gòu)化資料的應(yīng)用問(wèn)題。例如行業(yè)的統(tǒng)計(jì)報(bào)告、顧問(wèn)公司的市場(chǎng)調(diào)查分析資料。這些資料必須經(jīng)過(guò)格式、類型的轉(zhuǎn)換,才能被決策系統(tǒng)應(yīng)用。為完成交易處理的需求,傳統(tǒng)資料庫(kù)中的資料一般只保存當(dāng)前的資料。但是對(duì)於決策分析而言,歷史的、長(zhǎng)期的資料卻具有重要的意義。第九頁(yè),共一百一十頁(yè)。在決策分析程序中,決策人員往往需要的並不是(bùshi)非常詳細(xì)的資料,而是一些經(jīng)過(guò)匯總、彙總的資料。第十頁(yè),共一百一十頁(yè)。決策資料操作的問(wèn)題決策分析(fēnxī)人員則往往希望以專業(yè)客戶的身份而不是參數(shù)客戶的身份對(duì)資料進(jìn)行操作,他們往往希望能夠用各種工具對(duì)資料進(jìn)行多種形式的操作,希望資料操作的結(jié)果能以商業(yè)智慧(BusinessIntelligence,BI)的形式呈現(xiàn)出來(lái)。第十一頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)與傳統(tǒng)資料庫(kù)的對(duì)比資料倉(cāng)儲(chǔ)雖然是從資料庫(kù)發(fā)展而來(lái)的,但是(dànshì)兩者在許多方面都存在著相當(dāng)大的差異,如表1-1所示。第十二頁(yè),共一百一十頁(yè)。資料庫(kù)只存放當(dāng)前之值,而資料倉(cāng)儲(chǔ)則存放歷史值資料庫(kù)中資料的目標(biāo)是面對(duì)業(yè)務(wù)操作(cāozuò)人員資料倉(cāng)儲(chǔ)則是面對(duì)中高層主管資料庫(kù)內(nèi)的資料是動(dòng)態(tài)變化的,資料倉(cāng)儲(chǔ)則是靜態(tài)的歷史性資料資料庫(kù)中的資料結(jié)構(gòu)比較複雜,資料倉(cāng)儲(chǔ)中的資料結(jié)構(gòu)則較為簡(jiǎn)單。

第十三頁(yè),共一百一十頁(yè)。資料庫(kù)中資料的存取頻率較高,但是(dànshì)存取資料的數(shù)量較少;資料倉(cāng)儲(chǔ)的存取頻率較低,但是(dànshì)資料存取量要遠(yuǎn)高於資料庫(kù)。資料庫(kù)在存取資料時(shí)要求回應(yīng)速度很快,資料倉(cāng)儲(chǔ)的反應(yīng)時(shí)間則可能長(zhǎng)達(dá)數(shù)小時(shí)。

第十四頁(yè),共一百一十頁(yè)。1.1.2資料倉(cāng)儲(chǔ)的定義與根本(gēnběn)特色WilliamH.Inmon在1993年所寫(xiě)的論著?BuildingtheDataWarehouse?則首先系統(tǒng)地闡述了關(guān)於資料倉(cāng)儲(chǔ)的理論,為資料倉(cāng)儲(chǔ)的發(fā)展奠定了里程碑。在內(nèi)文中,他將資料倉(cāng)儲(chǔ)定義為:“一個(gè)主題是導(dǎo)向的、整合式、隨時(shí)間變化的、不易(bùyì)失漏性資料的集合,用於支援管理層的決策程序〞。第十五頁(yè),共一百一十頁(yè)。主題式導(dǎo)向(Subjectoriented)資料倉(cāng)儲(chǔ)的創(chuàng)建、使用都是焦距於主題執(zhí)行的。因此,我們必須了解(liǎojiě)如何按照決策分析來(lái)萃取主題;所萃取出的主題應(yīng)該包含哪些資料內(nèi)容;這些資料內(nèi)容應(yīng)該如何組織。

第十六頁(yè),共一百一十頁(yè)。在確定主題之後,需要確定主題所應(yīng)該包含的資 料。此時(shí),應(yīng)該注意不能將鎖定主題的資料與交易處理系統(tǒng)中的資料相混淆。

在主題的資料組織中應(yīng)該注意,不同的主題之間可能會(huì)出現(xiàn)相互重疊的資訊。主題在資料倉(cāng)儲(chǔ)中可以(kěyǐ)用多維資料庫(kù)方式進(jìn)行儲(chǔ)存。

第十七頁(yè),共一百一十頁(yè)。整合式資料(IntegratedData)資料倉(cāng)儲(chǔ)的整合性是指根據(jù)決策分析的需求,將分散於各處的原始(yuánshǐ)資料進(jìn)行萃取、篩選、淨(jìng)化、整合等工作,使資料倉(cāng)儲(chǔ)中的資料具有整合性。

第十八頁(yè),共一百一十頁(yè)。資料的時(shí)變性(Time-Variant)資料倉(cāng)儲(chǔ)的時(shí)變性,就是資料應(yīng)該隨著時(shí)間的推移而不斷發(fā)生變化。資料倉(cāng)儲(chǔ)資料的時(shí)變性,不僅反映在資料的追加方面(fāngmiàn),而且還反映在資料的刪除上。資料倉(cāng)儲(chǔ)中資料的時(shí)變性還表現(xiàn)在彙總資料的變化上。

第十九頁(yè),共一百一十頁(yè)。資料的不易失漏性(Nonvolatile)資料的不易失漏性可以支援不同的客戶在不同的時(shí)間查詢、分析相同(xiānɡtónɡ)的問(wèn)題時(shí),獲得同一結(jié)果。

第二十頁(yè),共一百一十頁(yè)。資料的聚合性(Aggregate)

資料倉(cāng)儲(chǔ)所採(cǎi)用的資料聚合方式,主要是以多維資料庫(kù)方式進(jìn)行儲(chǔ)存的多維模式(móshì)、以關(guān)聯(lián)式資料庫(kù)方式進(jìn)行儲(chǔ)存的關(guān)聯(lián)式模式或以兩者相整合的方式進(jìn)行儲(chǔ)存的混合模式。

第二十一頁(yè),共一百一十頁(yè)。支援管理中的決策制定程序企業(yè)各級(jí)主管可以利用資料倉(cāng)儲(chǔ)進(jìn)行各種管理決策的分析,利用自己獨(dú)特而敏銳的商業(yè)透視力和業(yè)務(wù)知識(shí),從貌似(màosì)平淡的資料中發(fā)現(xiàn)潛在的商機(jī)。

第二十二頁(yè),共一百一十頁(yè)。1.1.3資料倉(cāng)儲(chǔ)的未來(lái)趨勢(shì)

關(guān)聯(lián)式物件資料庫(kù)的資料倉(cāng)儲(chǔ)關(guān)聯(lián)式物件資料庫(kù)的出現(xiàn)使得資料倉(cāng)儲(chǔ)設(shè)計(jì)人員可以將物件引入到資料倉(cāng)儲(chǔ)環(huán)境中。物件導(dǎo)向技術(shù)引入資料倉(cāng)儲(chǔ)之後,客戶可以定義適合某種資料類型的最正確操作。關(guān)聯(lián)式物件資料庫(kù)作為資料倉(cāng)儲(chǔ)平臺(tái)不僅為複雜資料類提供了可延伸功能(gōngnéng),而且還為資料倉(cāng)庫(kù)平臺(tái)提供了對(duì)資料處理的功能(gōngnéng)延伸。第二十三頁(yè),共一百一十頁(yè)。網(wǎng)路的影響未來(lái)的資料倉(cāng)儲(chǔ)將越來(lái)越依賴於網(wǎng)路作資料的傳輸、資料的使用(shǐyòng)申請(qǐng)?zhí)幚?。客戶可以藉助於?nèi)部網(wǎng)路或外部網(wǎng)路使用資料倉(cāng)儲(chǔ),這就需要資料倉(cāng)儲(chǔ)具有網(wǎng)路使用方面的能力。第二十四頁(yè),共一百一十頁(yè)。操作(cāozuò)型資料倉(cāng)儲(chǔ)“操作型資料倉(cāng)儲(chǔ)〞就能夠以一種可以接受的標(biāo)準(zhǔn)對(duì)資料倉(cāng)儲(chǔ)進(jìn)行操作。這些標(biāo)準(zhǔn)包括可預(yù)測(cè)性、可利用性和可存取性。第二十五頁(yè),共一百一十頁(yè)。Web應(yīng)用中的代理技術(shù)資料倉(cāng)儲(chǔ)的Web應(yīng)用主要是指客戶利用(lìyòng)合作夥伴(partner)的資料倉(cāng)儲(chǔ)或Intranet(企業(yè)內(nèi)部網(wǎng)路)系統(tǒng)中的多維資料集合進(jìn)行決策分析活動(dòng)。第二十六頁(yè),共一百一十頁(yè)。1.2資料倉(cāng)儲(chǔ)的架構(gòu)

1.2.1資料倉(cāng)儲(chǔ)的概念(gàiniàn)架構(gòu)第二十七頁(yè),共一百一十頁(yè)。1.2.2虛擬資料倉(cāng)儲(chǔ)結(jié)構(gòu)

第二十八頁(yè),共一百一十頁(yè)。1.2.3資料市集(shìjí)架構(gòu)第二十九頁(yè),共一百一十頁(yè)。1.2.4單一資料倉(cāng)儲(chǔ)結(jié)構(gòu)

第三十頁(yè),共一百一十頁(yè)。1.2.5分散式資料倉(cāng)儲(chǔ)結(jié)構(gòu)

第三十一頁(yè),共一百一十頁(yè)。1.3資料倉(cāng)儲(chǔ)的參照結(jié)構(gòu)資料倉(cāng)儲(chǔ)的根本功能包括:資料萃取(cuìqǔ)、資料篩選和淨(jìng)化、清理之後的資料載入、建構(gòu)資料市集、完成資料倉(cāng)儲(chǔ)的查詢、決策分析和知識(shí)採(cǎi)掘等。第三十二頁(yè),共一百一十頁(yè)。1.3.1資料倉(cāng)儲(chǔ)根本(gēnběn)功能層資料倉(cāng)儲(chǔ)的根本功能部份包含了資料來(lái)源、資料準(zhǔn)備區(qū)、資料倉(cāng)儲(chǔ)架構(gòu)、資料市集或知識(shí)採(cǎi)掘庫(kù)以及(yǐjí)資料的存取與使用功能局部,如圖1.7所示。第三十三頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)的資料來(lái)源第三十四頁(yè),共一百一十頁(yè)。業(yè)務(wù)資料業(yè)務(wù)資料是指那些從組織目前正在(zhèngzài)執(zhí)行的業(yè)務(wù)處理系統(tǒng)那裡收集到並保儲(chǔ)存在業(yè)務(wù)處理系統(tǒng)資料儲(chǔ)存中的資料。歷史性資料指組織在長(zhǎng)期的資訊處理程序中所累積下來(lái)的資料,這些資料一般進(jìn)行了離線處理。

第三十五頁(yè),共一百一十頁(yè)。辦公資料主要(zhǔyào)是指組織內(nèi)部的辦公系統(tǒng)資料,這些資料分為電子資料和非電子資料兩種。Web資料Web資料是企業(yè)透過(guò)網(wǎng)際網(wǎng)路所獲取的資料,這些資料可以透過(guò)企業(yè)的電子商務(wù)系統(tǒng)獲取,也可以透過(guò)網(wǎng)路調(diào)查獲取。

第三十六頁(yè),共一百一十頁(yè)。外部資料外部資料是指那些不為企業(yè)所操作、所擁有、所控制的資料,這些資料有的是電子形式的。資料來(lái)源超資料資料來(lái)源資料屬於超資料管理層範(fàn)圍,在資料倉(cāng)儲(chǔ)中的所有資料都需要(xūyào)透過(guò)超資料管理層來(lái)進(jìn)行管理、控制。

第三十七頁(yè),共一百一十頁(yè)。資料準(zhǔn)備區(qū)的功能(gōngnéng)結(jié)構(gòu)第三十八頁(yè),共一百一十頁(yè)。資料的標(biāo)準(zhǔn)化處理資料準(zhǔn)備區(qū)的標(biāo)準(zhǔn)化處理主要是將同名(tóngmíng)不同內(nèi)容的、同內(nèi)容不同名的、同名同內(nèi)容但不同結(jié)構(gòu)的資料進(jìn)行統(tǒng)一處理。資料的過(guò)濾與適配

資料的過(guò)濾與適配主要是對(duì)進(jìn)入資料倉(cāng)儲(chǔ)的資料按照客戶的需要進(jìn)行篩選。

第三十九頁(yè),共一百一十頁(yè)。資料的淨(jìng)化處理資料的淨(jìng)化處理主要是對(duì)準(zhǔn)備載入到資料倉(cāng)儲(chǔ)中的資料進(jìn)行正確性判斷。加蓋資料的時(shí)間戳由於在資料倉(cāng)儲(chǔ)中要進(jìn)行資料的彙總,以分析(fēnxī)交易的發(fā)展趨勢(shì)。

第四十頁(yè),共一百一十頁(yè)。確認(rèn)資料品質(zhì)資料倉(cāng)儲(chǔ)中資料品量的上下是資料倉(cāng)儲(chǔ)能否成功的關(guān)鍵因素之一。超資料萃取與創(chuàng)建資料的持續(xù)改善程序(chéngxù)中,還需要從資料來(lái)源中確定這些源資料的超資料內(nèi)容。第四十一頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)功的能結(jié)構(gòu)第四十二頁(yè),共一百一十頁(yè)。資料重整資料重整是為使資料倉(cāng)儲(chǔ)能夠更好地為客戶服務(wù)所進(jìn)行的一系列預(yù)先操作。資料的整合與分解(fēnjiě)對(duì)來(lái)自不同系統(tǒng)的資料進(jìn)行整合,創(chuàng)建新的資料。資料的彙總與聚集資料的概括聚集處理就是根據(jù)某一屬性將資料進(jìn)行匯總。

第四十三頁(yè),共一百一十頁(yè)。資料的預(yù)算與推導(dǎo)預(yù)算與推導(dǎo)的結(jié)果都是事先(shìxiān)進(jìn)行的計(jì)算,並作為資料倉(cāng)儲(chǔ)的欄位儲(chǔ)存在資料倉(cāng)儲(chǔ)中。資料的編譯與格式化對(duì)來(lái)自不同資料來(lái)源的資料進(jìn)行編譯和格式化處理,便於今後的統(tǒng)一處理。

第四十四頁(yè),共一百一十頁(yè)。資料的轉(zhuǎn)換與映射對(duì)己經(jīng)儲(chǔ)存好的資料進(jìn)行轉(zhuǎn)移或再映像到資料來(lái)源中,有利於對(duì)新生成或發(fā)生變化的資料添加更新。資料倉(cāng)儲(chǔ)創(chuàng)建資料倉(cāng)儲(chǔ)創(chuàng)建作為資料倉(cāng)儲(chǔ)的核心功能應(yīng)該完成(wánchéng)資料倉(cāng)儲(chǔ)的建模、資料的一般性、資料的整合、資料的調(diào)整與確認(rèn)、建構(gòu)結(jié)構(gòu)化查詢。

第四十五頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)的建模從己經(jīng)創(chuàng)建的資料模型中導(dǎo)出資料倉(cāng)儲(chǔ)的資料模型(星狀模型或雪花模型)。資料的彙總根據(jù)客戶的需要(xūyào),從初步的一般性資料中創(chuàng)建客戶所需的高度彙總資料。

第四十六頁(yè),共一百一十頁(yè)。資料的聚集(jùjí)從擁有大批量資料的資料倉(cāng)儲(chǔ)中進(jìn)行查詢分析是一個(gè)非常費(fèi)時(shí)的操作。資料的調(diào)整與確認(rèn)在資料完成彙總與聚集之後,需要對(duì)彙總與聚集後的資料進(jìn)行確認(rèn)。

第四十七頁(yè),共一百一十頁(yè)。建構(gòu)結(jié)構(gòu)化查詢?yōu)樘岣咭恍┙Y(jié)構(gòu)化查詢,可以預(yù)定義這些查詢,並將這些結(jié)構(gòu)化查詢作為超資料儲(chǔ)存在超資料庫(kù)中。超資料管理(guǎnlǐ)超資料管理功能主要包含超資料瀏覽與導(dǎo)覽、超資料的萃取與創(chuàng)建、創(chuàng)建字彙表。

第四十八頁(yè),共一百一十頁(yè)。超資料瀏覽與導(dǎo)覽資料倉(cāng)儲(chǔ)的建構(gòu)者在資料倉(cāng)儲(chǔ)的建設(shè)和維護(hù)程序中需要利用資料倉(cāng)儲(chǔ)的超資料瀏覽和導(dǎo)覽功能。超資料的萃取(cuìqǔ)與創(chuàng)建在資料重整程序中需要從整合資料、彙總資料和衍生資料中捕獲超資料。

第四十九頁(yè),共一百一十頁(yè)。創(chuàng)建詞彙表在創(chuàng)建資料倉(cāng)儲(chǔ)的程序(chéngxù)中,需要根據(jù)所捕獲的超資料建構(gòu)超資料的詞彙表。第五十頁(yè),共一百一十頁(yè)。資料市集(shìjí)

/知識(shí)採(cǎi)掘庫(kù)結(jié)構(gòu)第五十一頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)的資料存取與使用(shǐyòng)結(jié)構(gòu)第五十二頁(yè),共一百一十頁(yè)。1.3.2資料倉(cāng)儲(chǔ)的管理(guǎnlǐ)層第五十三頁(yè),共一百一十頁(yè)。1.3.3資料倉(cāng)儲(chǔ)的超資料管理(guǎnlǐ)層

第五十四頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)、資料市集和超資料詞彙表管理(guǎnlǐ)超資料管理層利用超資料詞彙表來(lái)管理資料倉(cāng)儲(chǔ)和資料市集中的邏輯資料模型、實(shí)體資料模型以及與技術(shù)和業(yè)務(wù)相關(guān)的資料說(shuō)明。

第五十五頁(yè),共一百一十頁(yè)。超資料萃取、創(chuàng)建、儲(chǔ)存和更新(gēngxīn)管理超資料在資料倉(cāng)儲(chǔ)對(duì)資料來(lái)源進(jìn)行資料萃取、清理、載入等操作程序中需要對(duì)所涉及到的超資料進(jìn)行萃取、創(chuàng)建、儲(chǔ)存和更新處理。

第五十六頁(yè),共一百一十頁(yè)。預(yù)訂定義的查詢、報(bào)表和索引管理(guǎnlǐ)在超資料管理中還需要對(duì)設(shè)計(jì)人員為資料倉(cāng)儲(chǔ)客戶預(yù)訂定義的查詢和報(bào)表進(jìn)行管理,將預(yù)定義的查詢和報(bào)表的處理方式甚至處理結(jié)果置於超資料庫(kù)中。

第五十七頁(yè),共一百一十頁(yè)。更新、複製、恢復(fù)、登錄、歸檔與淨(jìng)化管理資料倉(cāng)儲(chǔ)所連接的資料源發(fā)生了變化時(shí),資料倉(cāng)儲(chǔ)的內(nèi)容也要定期(dìngqī)更新。這些更新工作的進(jìn)行需要依靠超資料庫(kù)中所包含約有關(guān)說(shuō)明。

第五十八頁(yè),共一百一十頁(yè)。1.3.4資料倉(cāng)儲(chǔ)的環(huán)境支援(zhīyuán)層

資料倉(cāng)儲(chǔ)的資料傳輸層第五十九頁(yè),共一百一十頁(yè)。資料傳輸層的架構(gòu)資料傳輸層中的資料傳輸和傳送網(wǎng)路包括網(wǎng)路協(xié)定、網(wǎng)路管理框架、網(wǎng)路操作系統(tǒng)和網(wǎng)路??蛻舳?伺服器與中間元件(yuánjiàn)客戶端/伺服器代理和中間元件局部包括資料庫(kù)網(wǎng)路、資料倉(cāng)儲(chǔ)的中間元件、傳輸層的資料倉(cāng)儲(chǔ)資料發(fā)佈和複製系統(tǒng)等。

第六十頁(yè),共一百一十頁(yè)。資料複製系統(tǒng)在傳輸層的複製系統(tǒng)中有發(fā)布與複製系統(tǒng)、資料庫(kù)閘道內(nèi)所定義的複製工具(gōngjù)、專用的資料倉(cāng)儲(chǔ)產(chǎn)品等。

第六十一頁(yè),共一百一十頁(yè)。資料倉(cāng)儲(chǔ)的基礎(chǔ)層資料倉(cāng)儲(chǔ)的基礎(chǔ)層中包括(bāokuò)系統(tǒng)管理、工作流程管理、儲(chǔ)存系統(tǒng)、處理系統(tǒng)等局部,如圖1.16所示。第六十二頁(yè),共一百一十頁(yè)。1.4資料採(cǎi)掘技術(shù)1989年8月,在第11屆國(guó)際人工智慧聯(lián)合會(huì)議的專題研討會(huì)上首次提出(tíchū)了資料庫(kù)導(dǎo)向的知識(shí)發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)技術(shù)。

該技術(shù)涉及到機(jī)器學(xué)習(xí),模式識(shí)別、統(tǒng)計(jì)學(xué)、智慧型資料庫(kù)、知識(shí)獲取、專家系統(tǒng)、資料視覺(jué)化、高性能計(jì)算等領(lǐng)域。

第六十三頁(yè),共一百一十頁(yè)。1.4.1資料採(cǎi)掘的發(fā)展超大型資料庫(kù)的出現(xiàn)依靠(yīkào)電腦自動(dòng)收集的各種業(yè)務(wù)處理資料使許多大規(guī)模資料庫(kù)或資料倉(cāng)儲(chǔ)擁有了大量的業(yè)務(wù)處理資料、市場(chǎng)變化資料。先進(jìn)的電腦技術(shù)先進(jìn)的電腦技術(shù)水準(zhǔn)已成為促進(jìn)資料採(cǎi)掘技術(shù)發(fā)展的第二個(gè)重要因素。

第六十四頁(yè),共一百一十頁(yè)。管理的需求企業(yè)所面臨的市場(chǎng)競(jìng)爭(zhēng)壓力日趨嚴(yán)重,企業(yè)經(jīng)營(yíng)管理者希望(xīwàng)能夠從企業(yè)累積的大量歷史資料中,找到應(yīng)對(duì)日趨嚴(yán)重競(jìng)爭(zhēng)壓力的良方,希望能夠從這些資料中找到管理中發(fā)生問(wèn)題的根本原因。

第六十五頁(yè),共一百一十頁(yè)。對(duì)資料採(cǎi)掘的精深計(jì)算能力大規(guī)模資料的採(cǎi)掘需要複雜的、精深的計(jì)算能力,這些精深的計(jì)算能力主要(zhǔyào)以統(tǒng)計(jì)學(xué)、集合論、資訊論、認(rèn)識(shí)論和人工智慧等各種學(xué)科理論為基礎(chǔ)。

第六十六頁(yè),共一百一十頁(yè)。1.4.2資料採(cǎi)掘的定義資料採(cǎi)掘的定義現(xiàn)在很多,在不同的教科書(shū)上有不同的定義。呈現(xiàn)方式(fāngshì)雖然不同,但本質(zhì)都是一樣的。這裡主要從技術(shù)角度和商業(yè)角度給出資料採(cǎi)掘的定義。第六十七頁(yè),共一百一十頁(yè)。資料採(cǎi)掘的技術(shù)定義從技術(shù)角度看,資料採(cǎi)掘是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的實(shí)際資料中提取隱含在其中的、人們所不知道(zhīdào)的但又是潛在有用的資訊和知識(shí)的程序。

第六十八頁(yè),共一百一十頁(yè)。資料採(cǎi)掘的商業(yè)定義商業(yè)應(yīng)用角度來(lái)看,資料採(cǎi)掘是一種嶄新的商業(yè)資訊處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)資料庫(kù)中的大量業(yè)務(wù)資料進(jìn)行萃取(cuìqǔ)、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識(shí),即從一個(gè)資料庫(kù)中自動(dòng)發(fā)現(xiàn)相關(guān)商業(yè)模式。

第六十九頁(yè),共一百一十頁(yè)。第七十頁(yè),共一百一十頁(yè)。1.5資料採(cǎi)掘技術(shù)與工具(gōngjù)

1.5.1常用的資料採(cǎi)掘技術(shù)資料採(cǎi)掘的發(fā)展受到資料庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、視覺(jué)化技術(shù)、資訊技術(shù)以及其他學(xué)科的影響,例如(lìrú)類神經(jīng)網(wǎng)路、模糊/粗糙集理論、知識(shí)表示、歸納技術(shù)、高性能計(jì)算等。第七十一頁(yè),共一百一十頁(yè)。如果(rúguǒ)從常用的資料採(cǎi)掘技術(shù)來(lái)看可以分成三大類:傳統(tǒng)分析類傳統(tǒng)的統(tǒng)計(jì)分析(或稱資料分析)技術(shù)中使用的資料採(cǎi)掘模型有線性分析、非線性分析、迴歸分析、邏輯迴歸分析、單變數(shù)分析、多變數(shù)分析、時(shí)間序列分析、最近近鄰演算法、群集分析等。

第七十二頁(yè),共一百一十頁(yè)。知識(shí)發(fā)現(xiàn)類知識(shí)發(fā)現(xiàn)類資料採(cǎi)掘技術(shù)包括類神經(jīng)網(wǎng)路、決策樹(shù)、基因演算法、粗糙集、規(guī)則發(fā)現(xiàn)、關(guān)聯(lián)順序等。類神經(jīng)網(wǎng)路是模擬人腦神經(jīng)元結(jié)構(gòu)決策樹(shù)是一個(gè)類似於流程圖的樹(shù)結(jié)構(gòu)基因演算法是近幾年發(fā)展起來(lái)的一種嶄新的整體最正確(zhèngquè)化演算法粗糙集能夠在缺少關(guān)於資料先驗(yàn)知識(shí)的情況下第七十三頁(yè),共一百一十頁(yè)。資料採(cǎi)掘技術(shù)的發(fā)展在資料採(cǎi)掘技術(shù)的最新發(fā)展中包括(bāokuò)了文字資料採(cǎi)掘、Web資料採(cǎi)掘、視覺(jué)化系統(tǒng)、空間資料採(cǎi)掘和分散式資料採(cǎi)掘技術(shù)等。

第七十四頁(yè),共一百一十頁(yè)。文字資料採(cǎi)掘和Web資料採(cǎi)掘是近幾年新發(fā)展起來(lái)的嶄新資料採(cǎi)掘技術(shù)可視覺(jué)化系統(tǒng)是為了便資料採(cǎi)掘能夠以圖形或影像(yǐnɡxiànɡ)的方式在螢?zāi)簧巷@示出來(lái)空間資料採(cǎi)掘是地理資訊系統(tǒng)導(dǎo)向的資料採(cǎi)掘技術(shù)。分散式資料採(cǎi)掘是分散式資料庫(kù)導(dǎo)向並利用分散式演算法從分散式資料庫(kù)中採(cǎi)掘知識(shí)的技術(shù)。

第七十五頁(yè),共一百一十頁(yè)。1.5.2常用(chánɡyònɡ)資料採(cǎi)掘工具按使用方式分類的資料採(cǎi)掘工具決策方案生成工具往往是針對(duì)某個(gè)特定行業(yè)或特定問(wèn)題而開(kāi)發(fā)的一類資料採(cǎi)掘工具。商業(yè)分析工具有兩種類型。一種是只為客戶提供一個(gè)黑箱,另一種資料採(cǎi)掘工具則向客戶展示(zhǎnshì)資料採(cǎi)掘模型第七十六頁(yè),共一百一十頁(yè)。按資料採(cǎi)掘技術(shù)分類的資料採(cǎi)掘工具按照資料採(cǎi)掘的技術(shù)可以(kěyǐ)分成:類神經(jīng)網(wǎng)路導(dǎo)向的工具規(guī)則和決策樹(shù)導(dǎo)向的工具模糊邏輯導(dǎo)向的工具整合性資料採(cǎi)掘工具等

第七十七頁(yè),共一百一十頁(yè)。按應(yīng)用範(fàn)圍分類的資料採(cǎi)掘工具(gōngjù)專用型資料採(cǎi)掘工具專用型資料採(cǎi)掘工具主要用於某一特定領(lǐng)域。通用型資料採(cǎi)掘工具通用型資料採(cǎi)掘工具一般不考慮所採(cǎi)掘物件的實(shí)際含義,只提供各種通用採(cǎi)掘演算法。

第七十八頁(yè),共一百一十頁(yè)。通用型資料採(cǎi)掘工具:IBM公司(ɡōnɡsī)的IM智慧型採(cǎi)掘器,這是一套包括了Explorer、Diamond和Quest在內(nèi)的軟體產(chǎn)品。SPSS公司統(tǒng)計(jì)套裝軟體SPSS在統(tǒng)計(jì)領(lǐng)域處?kù)额I(lǐng)先的地位RedBrick公司的RedBrick資料採(cǎi)掘工具是第一個(gè)將資料採(cǎi)掘解決方案與資料庫(kù)整合在一起的資料採(cǎi)掘元件。

第七十九頁(yè),共一百一十頁(yè)。1.5.3資料採(cǎi)掘工具(gōngjù)的評(píng)估標(biāo)準(zhǔn)如何選擇滿足需要的資料採(cǎi)掘工具(gōngjù)就成了資料採(cǎi)掘應(yīng)用中首先要解決的問(wèn)題。在選擇資料採(cǎi)掘工具時(shí),一般可以參照以下評(píng)價(jià)標(biāo)準(zhǔn)。

第八十頁(yè),共一百一十頁(yè)。模式種類的數(shù)量資料採(cǎi)掘工具(gōngjù)能夠提供的模式越多,它的知識(shí)發(fā)現(xiàn)能力越強(qiáng),而且多種類型模式的整合應(yīng)用,有助於降低問(wèn)題的複雜性。第八十一頁(yè),共一百一十頁(yè)。解決複雜問(wèn)題的能力為了解資料採(cǎi)掘工具(gōngjù)解決複雜問(wèn)題的能力,可以從採(cǎi)掘工具(gōngjù)的模式應(yīng)用、資料選擇和轉(zhuǎn)換能力、視覺(jué)化程度和延伸性等方面審視。資料採(cǎi)掘工具的延伸性也是提高採(cǎi)掘工具解決複雜問(wèn)題能力的一個(gè)重要因素。第八十二頁(yè),共一百一十頁(yè)。操作性能操作性能的好壞是一個(gè)影響採(cǎi)掘工具性能的重要因素。資料獲取能力(nénglì)

沒(méi)有一種工具可以支援所有類型的資料庫(kù)或資料倉(cāng)儲(chǔ),但應(yīng)該可以通過(guò)通用接口連接大多數(shù)流行的資料庫(kù)或資料倉(cāng)儲(chǔ),這有利於提高資料採(cǎi)掘工具的使用範(fàn)圍。

第八十三頁(yè),共一百一十頁(yè)。採(cǎi)掘結(jié)果的輸出資料採(cǎi)掘工具不僅能夠?qū)?cǎi)掘結(jié)果以多種方式輸出,而且要求輸出的結(jié)果便於客戶的瞭解與應(yīng)用。噪音資料的處理及採(cǎi)掘工具的穩(wěn)健性噪音資料的處理從另一個(gè)角度說(shuō)明採(cǎi)掘工具需要具有一定的穩(wěn)定性,從資料採(cǎi)掘工具的目標(biāo)來(lái)看,是希望(xīwàng)能夠?qū)ξ粗奈锛龀稣_的判斷。

第八十四頁(yè),共一百一十頁(yè)。1.5.4常用(chánɡyònɡ)資料採(cǎi)掘工具的選擇 由於資料採(cǎi)掘工具種類繁多,客戶在選擇採(cǎi)掘工具時(shí),需要(xūyào)從工具的實(shí)用性和技術(shù)性方面進(jìn)行研究。

從技術(shù)性方面審視資料採(cǎi)掘工具時(shí),需要根據(jù)資料採(cǎi)掘工具評(píng)估標(biāo)準(zhǔn),選擇那些技術(shù)性能指標(biāo)良好的資料採(cǎi)掘工具。

第八十五頁(yè),共一百一十頁(yè)。1.6資料倉(cāng)儲(chǔ)與資料採(cǎi)掘的應(yīng)用

1.6.1資料採(cǎi)掘與資料倉(cāng)儲(chǔ) 根據(jù)資料採(cǎi)掘的定義,我們可以看出,資料採(cǎi)掘包含了一系列旨在從資料集合中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果(rúguǒ)將其與資料倉(cāng)儲(chǔ)緊密聯(lián)結(jié)在一起,將獲得意外的成功。 傳統(tǒng)的觀點(diǎn)認(rèn)為資料採(cǎi)掘技術(shù)紮根於電腦科學(xué)和數(shù)學(xué),不需要也不會(huì)得益於資料倉(cāng)儲(chǔ)。這種觀點(diǎn)是不正確的

第八十六頁(yè),共一百一十頁(yè)。 當(dāng)然從資料採(cǎi)掘與資料倉(cāng)儲(chǔ)的整合情況來(lái)看,資料採(cǎi)掘技術(shù)己經(jīng)成為資料倉(cāng)儲(chǔ)應(yīng)用的強(qiáng)大支柱。資料採(cǎi)掘技術(shù)在資料倉(cāng)儲(chǔ)中的應(yīng)用,正好(zhènghǎo)彌補(bǔ)了資料倉(cāng)儲(chǔ)只能提供大量資料,而無(wú)法進(jìn)行深度資訊分析的缺陷。第八十七頁(yè),共一百一十頁(yè)。1.6.2資料採(cǎi)掘程序(chéngxù)第八十八頁(yè),共一百一十頁(yè)。確定採(cǎi)掘物件定義清晰的採(cǎi)掘物件,認(rèn)清資料採(cǎi)掘的目標(biāo)是資料採(cǎi)掘的第一步。在資料採(cǎi)掘的第一步中,有時(shí)還需要客戶提供一些先驗(yàn)知識(shí),例如概念樹(shù)等。準(zhǔn)備資料資料的選擇在確定資料採(cǎi)掘的業(yè)務(wù)物件之後,就需要搜尋所有(suǒyǒu)與業(yè)務(wù)物件有關(guān)的內(nèi)部資料和外部資料,從中選擇出適合於資料採(cǎi)掘應(yīng)用的資料。

第八十九頁(yè),共一百一十頁(yè)。資料的預(yù)先處理

在選擇好資料之後,還需要(xūyào)對(duì)資料進(jìn)行預(yù)先處理,對(duì)資料進(jìn)行淨(jìng)化,解決資料中的遺漏值、冗餘、資料值的不一致、資料定義的不一致、過(guò)時(shí)的資料等問(wèn)題。

第九十頁(yè),共一百一十頁(yè)。採(cǎi)掘模型的建構(gòu)這個(gè)分析模型是鎖定採(cǎi)掘演算法而建構(gòu)的。建構(gòu)一個(gè)真正適合採(cǎi)掘演算法的分析模型是資料採(cǎi)掘成功的關(guān)鍵。模型的建構(gòu)必須從資料的分析開(kāi)始。接著,從原始資料中建構(gòu)新的預(yù)示值。下一步(yībù),就需要從資料中選取一個(gè)子集或樣本來(lái)建構(gòu)模型。最後,需要轉(zhuǎn)換變數(shù),使之和選定用來(lái)建構(gòu)模型的演算法一致。

第九十一頁(yè),共一百一十頁(yè)。資料採(cǎi)掘?qū)λ玫降慕?jīng)過(guò)轉(zhuǎn)化的資料採(cǎi)掘,除了完善與選擇合適的演算法需要人工干預(yù)之外,資料採(cǎi)掘工作(gōngzuò)主要由採(cǎi)掘工具自動(dòng)完成。

第九十二頁(yè),共一百一十頁(yè)。結(jié)果分析當(dāng)資料採(cǎi)掘出現(xiàn)結(jié)果之後,需要對(duì)採(cǎi)掘結(jié)果作解讀與評(píng)估。具體的解讀與評(píng)估方法一般應(yīng)根據(jù)資料採(cǎi)掘操作結(jié)果所制定的決策成敗來(lái)決定。知識(shí)的應(yīng)用資料採(cǎi)掘結(jié)果要能夠在實(shí)際中得到(dédào)應(yīng)用,需要將分析所得到的知識(shí)整合到組織機(jī)構(gòu)中去使這些知識(shí)在實(shí)際的管理決策分析中得到應(yīng)用。

第九十三頁(yè),共一百一十頁(yè)。1.6.3資料採(cǎi)掘的客戶

如果從資料採(cǎi)掘的程序看,不同(bùtónɡ)的資料採(cǎi)掘程序需要不同專長(zhǎng)的人員,大致為:業(yè)務(wù)分析人員、資料分析人員和資料管理人員。業(yè)務(wù)分析人員或稱其為企業(yè)管理顧問(wèn)。資料分析人員。要求這些人員精通資料採(cǎi)掘分析技術(shù)。資料管理人員。這些人員需要精通資料管理技術(shù)。

第九十四頁(yè),共一百一十頁(yè)。1.7資料倉(cāng)儲(chǔ)應(yīng)用

1.7.1資料倉(cāng)儲(chǔ)與資料採(cǎi)掘

資訊處理、分析處理和資料採(cǎi)掘是三種主要的資料倉(cāng)儲(chǔ)應(yīng)用。資訊處理支援(zhīyuán)查詢和根本的統(tǒng)計(jì)分析,並使用交叉分析表、列表、圖表或圖形報(bào)告結(jié)果。第九十五頁(yè),共一百一十頁(yè)。線上分析處理支援根本的OLAP操作,包括切片(qiēpiàn)、切塊、下鑽、上捲和轉(zhuǎn)軸。資料採(cǎi)掘支援知識(shí)發(fā)現(xiàn),找出隱藏的模式和關(guān)聯(lián),建構(gòu)分析模型,進(jìn)行分類和預(yù)測(cè),並用視覺(jué)化工具提供採(cǎi)掘結(jié)果。第九十六頁(yè),共一百一十頁(yè)。1.7.2資料採(cǎi)掘和資料倉(cāng)儲(chǔ)的關(guān)係

第九十七頁(yè),共一百一十頁(yè)。資料採(cǎi)掘庫(kù)是資料倉(cāng)儲(chǔ)的一個(gè)邏輯上的子集(zǐjí),而不一定是實(shí)體上單獨(dú)的資料庫(kù)。

資料採(cǎi)掘是一個(gè)相對(duì)獨(dú)立的系統(tǒng),可以獨(dú)立於資料倉(cāng)儲(chǔ)存在。資料倉(cāng)儲(chǔ)為資料採(cǎi)掘打下了良好的基礎(chǔ),包括資料萃取、資料淨(jìng)化整理、資料一致性處理等。

第九十八頁(yè),共一百一十頁(yè)。1.8資料倉(cāng)儲(chǔ)導(dǎo)向的決策支援(zhīyuán)系統(tǒng)第九十九頁(yè),共一百一十頁(yè)。線上分析處理工具(gōngjù)(OLAP)和資料採(cǎi)掘(DM)在整個(gè)DSS整體解決方案中,發(fā)揮了關(guān)鍵性的功能。OLAP的功能結(jié)構(gòu)是3層客戶伺服器結(jié)構(gòu),此結(jié)構(gòu)由3個(gè)伺服器組件組成:資料倉(cāng)儲(chǔ)伺服器、OLAP伺服器及客戶描述伺服器。

第一百頁(yè),共一百一十頁(yè)。多維資料庫(kù)的MOLAP以多維度資料庫(kù)為重點(diǎn),它使用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論