版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘系統(tǒng)研究報告報告人:朱建秋2001年10月08日提綱數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘文化數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)的發(fā)展趨勢實驗室研究方向數(shù)據(jù)挖掘概述本文觀點來自RobertGrossman
關(guān)于作者:thePresidentofMagnify,Inc.(Chicago,Ill.)andtheDirectoroftheNationalCenterforDataMiningattheUniversityofIllinoisatChicago.Hehasbeenaleaderinthedevelopmentofhigh-performanceandwideareadataminingsystemsforover10years.
數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)
數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)言模型
數(shù)據(jù)挖掘文化知識發(fā)現(xiàn)文化(KD)輸出的是規(guī)則
預(yù)言模型文化(PM)輸出的是預(yù)言模型
共同點兩種文化輸入的都是學(xué)習(xí)集(learningsets)
目的都是盡可能多的自動化數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化
數(shù)據(jù)挖掘文化舉例說明假設(shè)移動電話用戶根據(jù)其轉(zhuǎn)換到其他通信公司的風(fēng)險,被分成低、中、高三組一個數(shù)據(jù)挖掘系統(tǒng)可能抽取出一條規(guī)則,比如:“一天至少接到兩個電話的用戶有低的更換率”。繼續(xù)這個例子,一個預(yù)言模型可能給每個用戶分配兩個分?jǐn)?shù):一個分?jǐn)?shù)在0和1之間,表示用戶可能更換通信公司的概率,另一個暗示該用戶在下一年可能會給公司帶來的利潤。
數(shù)據(jù)挖掘過程步驟步驟名稱
描述
1數(shù)據(jù)倉庫DataWarehouse數(shù)據(jù)倉庫管理用于決策支持的數(shù)據(jù)。在該步驟內(nèi),數(shù)據(jù)從操作型系統(tǒng)以及第三方的數(shù)據(jù)源聚集、清洗、以及轉(zhuǎn)換到數(shù)據(jù)倉庫中,供決策分析使用。
2數(shù)據(jù)挖掘DataMining在這個步驟中,數(shù)據(jù)從數(shù)據(jù)倉庫抽取出來,用來產(chǎn)生預(yù)言模型或者規(guī)則集。該步驟可以自動化。
3預(yù)言模型PredictiveModeling在該步驟內(nèi),為了產(chǎn)生一個優(yōu)化的模型,一個或多個預(yù)言模型被選擇或者聯(lián)合。這些預(yù)言模型可能從數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生,也可能從統(tǒng)計模型中產(chǎn)生,或者通過第三方購買
。4預(yù)言記分PredictiveScoring在這個步驟中,選擇的預(yù)言模型對操作型數(shù)據(jù)或者交易數(shù)據(jù)進(jìn)行記分(score)
。
數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個獨立的應(yīng)用支持一個或者多個算法獨立的系統(tǒng)單個機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)/局部區(qū)域的計算機(jī)群集有些系統(tǒng)支持對象、文本、和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng)
支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設(shè)計用來挖掘向量數(shù)據(jù)(vector-valueddata),這些數(shù)據(jù)模型在挖掘時候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng)
目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。
數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng)
第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對建立在異質(zhì)系統(tǒng)上的多個預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級別(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年水產(chǎn)品買賣合同范本2篇
- 軋機(jī)課程設(shè)計總結(jié)
- 2024年心理咨詢師題庫附完整答案【奪冠】
- 2024年股權(quán)轉(zhuǎn)讓補(bǔ)充協(xié)議版
- 2025年物流公司危險品貨物運輸安全協(xié)議3篇
- 課程設(shè)計英文翻譯版
- 2025年度智能停車場管理系統(tǒng)建設(shè)與運營協(xié)議3篇
- 二零二五版苗木種植項目資金支持與技術(shù)服務(wù)協(xié)議4篇
- 2025年石油化工專用儲油罐銷售合同4篇
- 2025年度智能交通系統(tǒng)個人工程居間合同范本下載4篇
- 帶狀皰疹護(hù)理查房課件整理
- 年月江西省南昌市某綜合樓工程造價指標(biāo)及
- 奧氏體型不銹鋼-敏化處理
- 作物栽培學(xué)課件棉花
- 交通信號控制系統(tǒng)檢驗批質(zhì)量驗收記錄表
- 弱電施工驗收表模板
- 絕對成交課件
- 探究基坑PC工法組合鋼管樁關(guān)鍵施工技術(shù)
- 國名、語言、人民、首都英文-及各地區(qū)國家英文名
- API SPEC 5DP-2020鉆桿規(guī)范
- 組合式塔吊基礎(chǔ)施工專項方案(117頁)
評論
0/150
提交評論