數(shù)據(jù)挖掘系統(tǒng)研究報告_第1頁
數(shù)據(jù)挖掘系統(tǒng)研究報告_第2頁
數(shù)據(jù)挖掘系統(tǒng)研究報告_第3頁
數(shù)據(jù)挖掘系統(tǒng)研究報告_第4頁
數(shù)據(jù)挖掘系統(tǒng)研究報告_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘系統(tǒng)研究報告報告人:朱建秋2001年10月08日提綱數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘文化數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)的發(fā)展趨勢實驗室研究方向數(shù)據(jù)挖掘概述本文觀點來自RobertGrossman

關(guān)于作者:thePresidentofMagnify,Inc.(Chicago,Ill.)andtheDirectoroftheNationalCenterforDataMiningattheUniversityofIllinoisatChicago.Hehasbeenaleaderinthedevelopmentofhigh-performanceandwideareadataminingsystemsforover10years.

數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)

數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)言模型

數(shù)據(jù)挖掘文化知識發(fā)現(xiàn)文化(KD)輸出的是規(guī)則

預(yù)言模型文化(PM)輸出的是預(yù)言模型

共同點兩種文化輸入的都是學(xué)習(xí)集(learningsets)

目的都是盡可能多的自動化數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化

數(shù)據(jù)挖掘文化舉例說明假設(shè)移動電話用戶根據(jù)其轉(zhuǎn)換到其他通信公司的風(fēng)險,被分成低、中、高三組一個數(shù)據(jù)挖掘系統(tǒng)可能抽取出一條規(guī)則,比如:“一天至少接到兩個電話的用戶有低的更換率”。繼續(xù)這個例子,一個預(yù)言模型可能給每個用戶分配兩個分?jǐn)?shù):一個分?jǐn)?shù)在0和1之間,表示用戶可能更換通信公司的概率,另一個暗示該用戶在下一年可能會給公司帶來的利潤。

數(shù)據(jù)挖掘過程步驟步驟名稱

描述

1數(shù)據(jù)倉庫DataWarehouse數(shù)據(jù)倉庫管理用于決策支持的數(shù)據(jù)。在該步驟內(nèi),數(shù)據(jù)從操作型系統(tǒng)以及第三方的數(shù)據(jù)源聚集、清洗、以及轉(zhuǎn)換到數(shù)據(jù)倉庫中,供決策分析使用。

2數(shù)據(jù)挖掘DataMining在這個步驟中,數(shù)據(jù)從數(shù)據(jù)倉庫抽取出來,用來產(chǎn)生預(yù)言模型或者規(guī)則集。該步驟可以自動化。

3預(yù)言模型PredictiveModeling在該步驟內(nèi),為了產(chǎn)生一個優(yōu)化的模型,一個或多個預(yù)言模型被選擇或者聯(lián)合。這些預(yù)言模型可能從數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生,也可能從統(tǒng)計模型中產(chǎn)生,或者通過第三方購買

。4預(yù)言記分PredictiveScoring在這個步驟中,選擇的預(yù)言模型對操作型數(shù)據(jù)或者交易數(shù)據(jù)進(jìn)行記分(score)

。

數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應(yīng)用支持一個或者多個算法獨立的系統(tǒng)單個機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域的計算機(jī)群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)

支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設(shè)計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)

目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。

數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)

第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對建立在異質(zhì)系統(tǒng)上的多個預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級別(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論