數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘論文 題目:淺析基于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的指導(dǎo)老師:_班級:_學(xué)號:姓名:專業(yè):20RR年11月2日摘要通過對數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的學(xué)習(xí)和大致的了解 ,主要提出了一種基 于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)的決策支持系統(tǒng)的框架。該文章把數(shù)據(jù)倉庫、數(shù)據(jù)挖掘工具和知識庫結(jié)合在一起,提高了數(shù)據(jù)挖掘的效率。增 加了挖掘數(shù)據(jù)的效率和價值實用性!亠、概述今天,越來越多的企業(yè)認(rèn)識到要從以往的事務(wù)處理和決策中總結(jié)經(jīng) 驗,利用現(xiàn)有的數(shù)據(jù)進(jìn)行分析和推理,建立企業(yè)的決策支持系統(tǒng)(DSS 以提高決策的質(zhì)量。企業(yè)如果不能快速精確的收集和分析信息,將無法進(jìn)行科學(xué)而有效的決策。建立數(shù)據(jù)倉庫(Datawarehouse

2、)將能很的 解決這一問題,使企業(yè)從大量的業(yè)務(wù)信息中篩選出所需的信息,并做出正確的決策。數(shù)據(jù)倉庫不是單一的產(chǎn)品,而是綜合了多種信息技術(shù) 的計算環(huán)境。它將全企業(yè)的運行數(shù)據(jù)匯集到一個精心設(shè)計的關(guān)系數(shù)據(jù) 庫中,并將它們轉(zhuǎn)換成面向主題(Subject-oriented)的形式,使最終用戶很容易的從歷史的角度對這些數(shù)據(jù)進(jìn)行訪問和分析。以銀行為 例,通常,銀行的應(yīng)用系統(tǒng)是按業(yè)務(wù)分類的,如儲蓄、信貸、信用卡 等,一個客戶的信息分布在不同的業(yè)務(wù)系統(tǒng)中,要想得到一個客戶的全面信息非常困難。銀行通過建立數(shù)據(jù)倉庫,可以將分離在各個業(yè)務(wù) 系統(tǒng)中的數(shù)據(jù)合并成一個統(tǒng)一的圖表,這樣就可以看到客戶在各個系統(tǒng)中的全貌,而且可以從

3、歷史的角度對客戶檔案進(jìn)行分析,以便做出為每一個客戶進(jìn)一步服務(wù)的決策。1、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、隨時間而變 的、持久的數(shù)據(jù)集合。數(shù)據(jù)倉庫系統(tǒng)負(fù)責(zé)從操作型數(shù)據(jù)庫中抽取數(shù)據(jù), 實現(xiàn)對集成和綜合后的數(shù)據(jù)的管理,并把數(shù)據(jù)呈現(xiàn)給一組數(shù)據(jù)倉庫前 端工具,以滿足用戶的各種分析和決策的需求。數(shù)據(jù)倉庫系統(tǒng)的前端 工具以O(shè)LA工具和數(shù)據(jù)挖掘工具為代表,是用戶賴以從數(shù)據(jù)倉庫中提 取、分析數(shù)據(jù),以及實施決策的必經(jīng)途徑。數(shù)據(jù)挖掘DM(DataMining), 是指從數(shù)據(jù)中識別出潛在有用的、 先前未知的、最終可理解的模式的 非平凡過程。研究基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)結(jié)

4、構(gòu)框架是很有意義 的。三、數(shù)據(jù)倉庫的結(jié)構(gòu)、功能1、數(shù)據(jù)倉庫的基本結(jié)構(gòu)數(shù)據(jù)倉庫中的信息存儲,根據(jù)對數(shù)據(jù)的不同深度的分析處理而區(qū)分為 不同的層次,其基本結(jié)構(gòu)分為以下幾個部分:(1)歷史性詳細(xì)數(shù)據(jù)層:它存儲歷史數(shù)據(jù),用于數(shù)據(jù)對比、回歸、 匯總等供分析、建模預(yù)測之用。歷史數(shù)據(jù)一般為 5至10年或更久的數(shù) 據(jù),它縱向只對數(shù)據(jù)/信息進(jìn)行分類存儲。(2)當(dāng)前詳細(xì)數(shù)據(jù)層:存儲當(dāng)前最新詳細(xì)數(shù)據(jù),重點用于了解當(dāng)前 情況,是進(jìn)一步分析數(shù)據(jù)的基礎(chǔ)。在一定時刻,這些數(shù)據(jù)會轉(zhuǎn)移到歷 史數(shù)據(jù)層去。(3)不同程序的歸納總結(jié)信息層:可包含多個層次,根據(jù)所需分類 和歸納的不同深度而定。如按周、月、年統(tǒng)計的數(shù)據(jù)。這些信息只是 一些

5、簡單的匯總,尚不能形成高級的決策信息。(4)專業(yè)信息分析層:進(jìn)一步專業(yè)分析的結(jié)果,如統(tǒng)計分析、運籌 分析、時間序列分析以及表面數(shù)據(jù)的內(nèi)在規(guī)律分析等。(5)倉庫結(jié)構(gòu)信息:數(shù)據(jù)倉庫的內(nèi)部結(jié)構(gòu)信息,反映各種信息在數(shù)據(jù)倉庫中的位置分布和處理方式等, 以便檢索查詢之用。組織數(shù)據(jù)倉 庫的數(shù)據(jù)時,應(yīng)根據(jù)數(shù)據(jù)訪問概率把數(shù)據(jù)分為經(jīng)常被訪問但較少被修 改的數(shù)據(jù)和經(jīng)常被修改但較少被訪問的數(shù)據(jù)。 對于前者可以做較多的 索引(一般可做8至12個)來提高訪問的效率;對于后者就必須少建 索引,否則,由于它經(jīng)常被修改,重索引的概率就很大,反而會降低 系統(tǒng)的效率。2、數(shù)據(jù)倉庫的功能特點數(shù)據(jù)倉庫的主要功能是提供企業(yè)決策支持系統(tǒng)或

6、執(zhí)行信息系統(tǒng)(EIS)所需要的信息,它把企業(yè)日常運行中分散不一致的數(shù)據(jù)經(jīng)歸納整理后 轉(zhuǎn)換為集中統(tǒng)一的、可隨時取用的深層信息,這種信息雖然也是按關(guān) 系數(shù)據(jù)庫的存儲結(jié)構(gòu)存儲的,單與面向逐條記錄的聯(lián)機(jī)時務(wù)處理(OLTP不同,在數(shù)據(jù)倉庫中的一條記錄,有可能是基礎(chǔ)數(shù)據(jù)中若干 個表、若干條記錄的歸納和匯總。數(shù)據(jù)倉庫的基本特點是:(1)面向?qū)ο笮?。?shù)據(jù)倉庫中存儲的信息是面向主題來組織的。它 根據(jù)所需要的信息,分不同類、不同角度等主題把數(shù)據(jù)加工、整理之 后存儲起來(按橫向?qū)?shù)據(jù)進(jìn)行分類存儲)。(2)數(shù)據(jù)歷史性。數(shù)據(jù)倉庫中可以專門存儲5至10年或更久的歷史數(shù) 據(jù),數(shù)據(jù)具有時間標(biāo)示,以滿足信息比較、分析預(yù)測等的數(shù)

7、據(jù)需求(按 縱向?qū)?shù)據(jù)進(jìn)行分類存儲)。(3)數(shù)據(jù)集成性。無論數(shù)據(jù)來源于何處,進(jìn)入數(shù)據(jù)倉庫后都具有統(tǒng) 一的數(shù)據(jù)結(jié)構(gòu)和編碼規(guī)則,數(shù)據(jù)倉庫中的數(shù)據(jù)具有一致性的特點。(4)數(shù)據(jù)只讀性。數(shù)據(jù)倉庫是一個信息源,它只是為在其上開發(fā)的 DSSg EIS等提供信息服務(wù),因此它應(yīng)是只讀數(shù)據(jù)庫,一般不能輕易改 動,只能定期刷新。(5)操作集合性。數(shù)據(jù)倉庫可通過快照機(jī)制,成批的更新來自不同 資源的數(shù)據(jù),將其載入數(shù)據(jù)倉庫;也可以成批的訪問數(shù)據(jù)。(6)應(yīng)用C/S (客戶機(jī)/服務(wù)器)性。數(shù)據(jù)倉庫通過定義信息(元信 息)把整個數(shù)據(jù)組織起來。在元信息中有一類記錄系統(tǒng)信息,定義了 數(shù)據(jù)存儲、修改權(quán)限等,記錄系統(tǒng)將原始數(shù)據(jù)轉(zhuǎn)換成適

8、合于數(shù)據(jù)倉庫 應(yīng)用的數(shù)據(jù),所以這實際上是C/S應(yīng)用模式。四、數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是一種大型數(shù)據(jù)庫(如數(shù)據(jù)倉庫)中提取隱藏的預(yù)測性信息 的新技術(shù)。數(shù)據(jù)挖掘是一種展望和預(yù)測性的信息分析工具, 它能挖掘數(shù)據(jù)間潛在的關(guān)系模式,發(fā)現(xiàn)用戶可能忽略的信息,為企業(yè)管理者提 供前攝的(Proactive )、基于知識的決策。數(shù)據(jù)挖掘技術(shù)使DSS勺應(yīng) 用向效益型賣出了重要的一步。傳統(tǒng)的 DSS通常是在某個假設(shè)的前提 下通過數(shù)據(jù)查詢和分析來驗證或否定這個假設(shè),而數(shù)據(jù)挖掘技術(shù)則能 夠自動分析數(shù)據(jù),進(jìn)行歸納性推理,從中發(fā)掘出潛在模式或產(chǎn)生聯(lián)想, 建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場策略,做出正確的決策。五、一種基于DW

9、的DMS結(jié)構(gòu)框架根據(jù)數(shù)據(jù)倉庫系統(tǒng)的特點,提出一種基于數(shù)據(jù)倉庫的通用數(shù)據(jù)挖掘系 統(tǒng)的結(jié)構(gòu)框架,如圖1。該結(jié)構(gòu)框架的概念模型包括如下組成部分:(1) 用戶查詢接口它可分為查詢分類、查詢解釋及規(guī)格化兩部分。其作用是將數(shù)據(jù)挖掘請求解釋成規(guī)格化的查詢語言,并交由查詢協(xié)同機(jī)處理。(2) 查詢協(xié)同機(jī)它的工作是協(xié)同數(shù)據(jù)倉庫管理系統(tǒng)、數(shù)據(jù)挖掘工具管理系統(tǒng)和知識庫管理系統(tǒng),共同對查詢接口提交的查詢請求進(jìn)行處 理。資詢解釋段規(guī)搐化u杏旳*冋機(jī)二t,1嶽據(jù)倉侔怦理系統(tǒng) 1 1敢據(jù)挖掘丄貝皆理系統(tǒng);知唄庫告那系統(tǒng)脊詢分類I知識咋散塀挖輛預(yù)處理數(shù)據(jù)挖同工具集知識評價按戦念層掙化圖1一種基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)框架

10、知識評價散塀挖輛預(yù)處理(3)數(shù)據(jù)倉庫管理系統(tǒng)它直接負(fù)責(zé)對數(shù)據(jù)倉庫進(jìn)行管理,并完成對 各種異構(gòu)分布數(shù)據(jù)源中數(shù)據(jù)的提取工作, 以最大限度屏蔽各異構(gòu)數(shù)據(jù) 源對系統(tǒng)的影響。(4)知識庫管理系統(tǒng)它對知識庫進(jìn)行管理和控制, 包括知識的增加、 刪除、更新和查詢等。一方面,處理由查詢協(xié)同機(jī)處理后產(chǎn)生的知識 庫查詢請求,并將結(jié)果提交給數(shù)據(jù)挖掘模塊;另一方面,接受通過知 識評價的知識模式,并存入知識庫。(5)數(shù)據(jù)挖掘工具的管理系統(tǒng)它的作用是對數(shù)據(jù)挖掘工具進(jìn)行管理。(6)數(shù)據(jù)挖掘預(yù)處理模塊它的任務(wù)是在數(shù)據(jù)倉庫管理系統(tǒng)的協(xié)同下, 根據(jù)元數(shù)據(jù)和維表,對整個數(shù)據(jù)倉庫中儲存的數(shù)據(jù)進(jìn)行處理, 生成符 合用戶查詢需要的,并能滿

11、足數(shù)據(jù)挖掘工具集要求的待處理數(shù)據(jù)子集。(7)知識評價模塊數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式需要經(jīng)過知識評價 模塊的評估。如果存在冗余或無關(guān)的模式,貝用其剔除了;如果模式 不能滿足用戶要求,則需要重新選取數(shù)據(jù),設(shè)定新的數(shù)據(jù)挖掘參數(shù)值, 甚至更換數(shù)據(jù)挖掘算法重新進(jìn)行數(shù)據(jù)挖掘。(8)結(jié)論表達(dá)模塊它將得到的結(jié)論按語義層次結(jié)構(gòu)進(jìn)行普化,得出 各語義層上的結(jié)論,并對其進(jìn)行解釋,將發(fā)現(xiàn)的模式以可視化或自然 語言的形式呈現(xiàn)給用戶。六、基于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的DSS創(chuàng)建數(shù)據(jù)倉庫的目的是為企業(yè)的DS和 EIS提供科學(xué)的決策依據(jù)。數(shù)據(jù) 倉庫用于大量數(shù)據(jù)存儲和組織;數(shù)據(jù)挖掘用于從大量的數(shù)據(jù)中發(fā)現(xiàn)知 識,為用戶進(jìn)行預(yù)測決策

12、。數(shù)據(jù)挖掘以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫為基礎(chǔ), 通過OLA和多維分析工具自動發(fā)現(xiàn)數(shù)據(jù)中的潛在模式, 并以這些模式 為基礎(chǔ)自動做出預(yù)測。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的結(jié)合為企業(yè)DSSEIS的建立提供了新的、更有效的解決方案。圖2表明了這種方案的一 種結(jié)構(gòu)。-E具OLAP方肚和jl具t數(shù)抿挖掘集咸常換 f綜合 t f tS據(jù)尼4135-批作一通過對數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程的學(xué)習(xí),我了解了數(shù)據(jù)倉庫對相關(guān)數(shù) 據(jù)進(jìn)行分析的方法,以及用相關(guān)軟件預(yù)測的步驟。并且懂得了企業(yè)未 來的成功,很大程度上取決于準(zhǔn)確的數(shù)據(jù)挖掘能力,許多領(lǐng)域都需要對潛在的數(shù)據(jù)進(jìn)行深層次的分析,困難主要有對數(shù)據(jù)的一些概念和方 法方法不太熟悉,導(dǎo)致思想比較懵懂,會時不時出現(xiàn)差錯,導(dǎo)致出現(xiàn) 的結(jié)果與預(yù)期的不一致。但總體來說還是有很多收獲的,通過這次學(xué) 習(xí),我鞏固了所學(xué)的理論知識,進(jìn)一步理解了相關(guān)的概念和方法。也 明白了一些深刻的道理,即在遇到困難時不要放棄,要有持之以恒的 精神,遇到不懂的問題時要及時請教老師和同學(xué),要在實際動手操作時進(jìn)一步完善自己的所學(xué)的知識,要善于思考,善于總結(jié),這樣才能 有所學(xué)有所想,學(xué)有所得。八、參考文獻(xiàn):1、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論