




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章 緒論,2/45,商務(wù)智能與數(shù)據(jù)挖掘,動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘-商務(wù)智能 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,3/45,動(dòng)機(jī):需要是發(fā)明之母,數(shù)據(jù)爆炸問題 自動(dòng)的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其它信息存儲(chǔ)器中 我們正被數(shù)據(jù)淹沒,但卻缺乏知識(shí) 解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理(OLAP) 從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(shí)(規(guī)則,規(guī)律性,模式,限制等),4/45,什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘 (數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)) 從大型數(shù)據(jù)庫中提取有趣的 (非平凡的、蘊(yùn)涵的、先前未知的且是潛在有用的) 信息或
2、模式 其它名稱 數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(挖掘) (Knowledge discovery in databases, KDD), 知識(shí)提?。╧nowledge extraction), 數(shù)據(jù)/模式分析(data/pattern analysis), 數(shù)據(jù)考古(data archeology), 數(shù)據(jù)捕撈(data dredging), 信息收獲(information harvesting), 商務(wù)智能(business intelligence) 等,什么是商務(wù)智能,Business Intelligence (BI) 企業(yè)利用信息科技以企業(yè)內(nèi)部及外部既有的數(shù)據(jù)庫數(shù)據(jù)為基礎(chǔ),根據(jù)所需解決的問題進(jìn)行
3、數(shù)據(jù)匯總,整合成數(shù)據(jù)倉庫后,利用適當(dāng)?shù)墓ぞ哌M(jìn)行數(shù)據(jù)處理,利用聯(lián)機(jī)分析及數(shù)據(jù)挖掘等技術(shù)分析數(shù)據(jù),將所發(fā)現(xiàn)的潛在特性或是建立的預(yù)測(cè)模型傳遞給決策者,以提供協(xié)助其進(jìn)行決策,并達(dá)到企業(yè)目標(biāo)。,6/45,數(shù)據(jù)挖掘可能的應(yīng)用,數(shù)據(jù)庫分析和決策支持 市場(chǎng)分析和管理:針對(duì)銷售(target marketing), 顧客關(guān)系管理,購物籃分析,交叉銷售(cross selling),市場(chǎng)分割(market segmentation) 風(fēng)險(xiǎn)分析與管理:預(yù)測(cè),顧客關(guān)系,改進(jìn)保險(xiǎn),質(zhì)量控制,競(jìng)爭(zhēng)能力分析 欺騙檢測(cè)與管理,7/45,數(shù)據(jù)挖掘可能的應(yīng)用,其它應(yīng)用 文本挖掘(新聞組、email、文檔資料) 流數(shù)據(jù)挖掘(Str
4、eam data mining) Web挖掘 DNA 數(shù)據(jù)分析,8/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,9/45,數(shù)據(jù)挖掘的過程,數(shù)據(jù)挖掘:KDD的核心,10/45,數(shù)據(jù)挖掘的過程,數(shù)據(jù)挖掘:KDD的核心,11/45,KDD的步驟,學(xué)習(xí)應(yīng)用領(lǐng)域 相關(guān)的先驗(yàn)知識(shí)和應(yīng)用的目標(biāo) 創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇 數(shù)據(jù)清理和預(yù)處理(可能占全部工作的 60%!) 數(shù)據(jù)歸約與變換 發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示 選擇數(shù)據(jù)挖掘函數(shù) 匯總,分類,回歸,關(guān)聯(lián),聚類,12/45,KDD的步驟,選擇挖掘算法 數(shù)據(jù)挖
5、掘:搜索有趣的模式 模式評(píng)估和知識(shí)表示 可視化,變換,刪除冗余模式,等 發(fā)現(xiàn)知識(shí)的使用,13/45,典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),知識(shí)庫,14/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,15/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,平面文件 關(guān)系數(shù)據(jù)庫 包括面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫 事務(wù)(交易)數(shù)據(jù)庫 異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫,16/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,數(shù)據(jù)倉庫,17/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,數(shù)據(jù)倉庫,網(wǎng)頁,18/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,數(shù)據(jù)倉庫,Top tier: 前端工具,Middle
6、 tier: OLAP server,Bottom tier: 數(shù)據(jù)倉庫 server,數(shù)據(jù),19/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,多媒體數(shù)據(jù)庫,空間數(shù)據(jù)庫,20/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,時(shí)間序列數(shù)據(jù)庫,21/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行,文本數(shù)據(jù)庫,WWW,22/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進(jìn)行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,23/45,數(shù)據(jù)挖掘的功能,概念描述:特征和區(qū)分 概化,匯總,比較數(shù)據(jù)特征,如干燥和潮濕的地區(qū) 關(guān)聯(lián) (相關(guān)和因果關(guān)系) 多維和單維關(guān)聯(lián) age(X, “20.29”) income(X,
7、“20.29K”) buys(X, “PC”) support = 2%, confidence = 60% contains(T, “computer”) contains(T, “software”)support = 1%, confidence = 75%,24/45,數(shù)據(jù)挖掘的功能,分類和預(yù)測(cè) 找出描述和識(shí)別類或概念的模型(函數(shù)),用于將來的預(yù)測(cè) 例如根據(jù)氣候?qū)曳诸?,或根?jù)單位里程的耗油量對(duì)汽車分類 表示:決策樹(decision-tree), 分類規(guī)則,神經(jīng)元網(wǎng)絡(luò) 預(yù)測(cè):預(yù)測(cè)某些未知或遺漏的數(shù)值,25/45,數(shù)據(jù)挖掘的功能,聚類分析 類標(biāo)號(hào)(Class label)未知:對(duì)數(shù)據(jù)
8、分組, 形成新的類。例如,對(duì)房屋分類,找出分布模式 聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性,26/45,數(shù)據(jù)挖掘的功能,孤立點(diǎn)(Outlier)分析 孤立點(diǎn):一個(gè)數(shù)據(jù)對(duì)象,與數(shù)據(jù)的一般行為不一致 孤立點(diǎn)可以被視為例外,但對(duì)于欺騙檢測(cè)和罕見事件分析,它是相當(dāng)有用的 趨勢(shì)和演變分析 趨勢(shì)和偏離:回歸分析 序列模式挖掘,周期性分析 基于相似的分析 其它基于模式或統(tǒng)計(jì)的分析,27/45,數(shù)據(jù)挖掘:多學(xué)科交叉,Data Mining,28/45,數(shù)據(jù)挖掘的分類,一般功能 描述式數(shù)據(jù)挖掘 預(yù)測(cè)式數(shù)據(jù)挖掘 不同的角度、不同的分類 待挖掘的數(shù)據(jù)庫類型 待發(fā)現(xiàn)的知識(shí)類型 所用的技術(shù)類型 所適合的應(yīng)用類
9、型,29/45,數(shù)據(jù)挖掘從不同角度的分類,待挖掘的數(shù)據(jù)庫 關(guān)系的、事務(wù)的、面向?qū)ο蟮?、?duì)象-關(guān)系的、主動(dòng)的、空間的、時(shí)間序列的、文本的、多媒體的、異種的、遺產(chǎn)的、WWW 等 所挖掘的知識(shí) 特征、區(qū)分、關(guān)聯(lián)、分類、聚類、趨勢(shì)、偏離和孤立點(diǎn)分析等 多/集成的功能和多層次上的挖掘,30/45,數(shù)據(jù)挖掘從不同角度的分類,所用技術(shù) 面向數(shù)據(jù)庫的、數(shù)據(jù)倉庫(OLAP)、 機(jī)器學(xué)習(xí)、 統(tǒng)計(jì)學(xué)、可視化、神經(jīng)網(wǎng)絡(luò)等 適合的應(yīng)用 零售、電訊、銀行、欺騙分析、DNA 挖掘、股票市場(chǎng)分析、 Web 挖掘、Web日志分析等,31/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動(dòng)機(jī):為什么要進(jìn)行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上
10、進(jìn)行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,32/45,Web挖掘,Web Mining,Web Usage Mining,Agent Based Approach,Database Approach,智能查詢 信息過濾/分類 個(gè)性化Web,多層次數(shù)據(jù)庫 Web查詢系統(tǒng),預(yù)處理 事務(wù)標(biāo)識(shí) 模式發(fā)現(xiàn) 模式分析,Web Structure Mining,Web Content Mining,33/45,Web 使用挖掘,Web Usage Mining是在Web數(shù)據(jù)存儲(chǔ)地中應(yīng)用數(shù)據(jù)挖掘技術(shù)抽取使用模式的方法 數(shù)據(jù)預(yù)處理 用戶使用頁面關(guān)聯(lián)、用戶分類、用戶聚類、 應(yīng)用 個(gè)性化 站點(diǎn)改進(jìn) ,34/45,
11、文本挖掘,文本挖掘=數(shù)據(jù)挖掘(應(yīng)用于文本存儲(chǔ)地)+基本語言學(xué) 文本預(yù)處理(無結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化) 詞法/語義分析 特征生成 Bag of Words 特征選擇 頻度、TFIDF、共現(xiàn)等 數(shù)據(jù)挖掘 文本分類、聚類等 分析結(jié)果,35/45,觀點(diǎn)、情感挖掘,觀點(diǎn)挖掘(Opinion Mining)是一種從論壇、討論組、新聞組、博客等用戶產(chǎn)生的內(nèi)容中挖掘其表達(dá)觀點(diǎn)的技術(shù)。 文本挖掘與觀點(diǎn)挖掘(事實(shí)與觀點(diǎn)) 文本挖掘關(guān)注事實(shí),觀點(diǎn)挖掘關(guān)注用戶對(duì)事實(shí)所持的觀點(diǎn); 事實(shí)是客觀的,觀點(diǎn)是主觀的; 事實(shí)只有一個(gè),觀點(diǎn)卻各不相同。 應(yīng)用 商務(wù)、網(wǎng)絡(luò)輿情、,36/45,數(shù)據(jù)流挖掘,性質(zhì) 連續(xù)性:數(shù)據(jù)流是連續(xù)到達(dá)的 無序性:系統(tǒng)無法控制數(shù)據(jù)到達(dá)的順序 無界性:數(shù)據(jù)流原則上是無限大的 實(shí)時(shí)性:要求算法能夠?qū)崟r(shí)地反映模式變化,37/45,數(shù)據(jù)流挖掘,性質(zhì) 傳統(tǒng)的數(shù)據(jù)挖掘,38/45,數(shù)據(jù)流挖掘,性質(zhì) 傳統(tǒng)的數(shù)據(jù)挖掘,39/45,數(shù)據(jù)流挖掘,性質(zhì) 傳統(tǒng)的數(shù)據(jù)挖掘,40/45,數(shù)據(jù)流挖掘,性質(zhì) 數(shù)據(jù)流挖掘,?,41/45,RFID事件流挖掘,Radio Frequency Identification (RFID),Tag,Reader,42/45,圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國非開挖設(shè)備市場(chǎng)運(yùn)行狀況及發(fā)展趨勢(shì)分析報(bào)告
- 2025-2030年中國銣礦市場(chǎng)運(yùn)營狀況及發(fā)展前景分析報(bào)告
- 2025-2030年中國針織類服裝行業(yè)運(yùn)行動(dòng)態(tài)及發(fā)展前景分析報(bào)告
- 2025-2030年中國金屬波紋補(bǔ)償器市場(chǎng)發(fā)展現(xiàn)狀及前景趨勢(shì)分析報(bào)告
- 2025-2030年中國觸摸屏機(jī)柜行業(yè)市場(chǎng)競(jìng)爭(zhēng)狀況及發(fā)展趨勢(shì)分析報(bào)告
- 2025-2030年中國血漿代用品行業(yè)發(fā)展現(xiàn)狀規(guī)劃研究報(bào)告
- 2025-2030年中國蟻醛行業(yè)運(yùn)營現(xiàn)狀與發(fā)展趨勢(shì)分析報(bào)告
- 2025-2030年中國艾灸行業(yè)運(yùn)營狀況與發(fā)展?jié)摿Ψ治鰣?bào)告
- 2025-2030年中國硅碳棒行業(yè)運(yùn)行動(dòng)態(tài)與營銷策略研究報(bào)告
- 2025-2030年中國石墨礦市場(chǎng)運(yùn)行狀況及發(fā)展趨勢(shì)分析報(bào)告
- 付款申請(qǐng)英文模板
- 大同大學(xué)綜測(cè)細(xì)則
- 生活會(huì)前談心談話提綱
- 比較思想政治教育(第二版)第十二章課件
- 普通外科常見疾病臨床路徑
- 人教版九年級(jí)下冊(cè)初中英語全冊(cè)作業(yè)設(shè)計(jì)一課一練(課時(shí)練)
- 2021新版GJB9001C-2017體系文件內(nèi)審檢查表
- 風(fēng)篩式清選機(jī)的使用與維護(hù)
- 《計(jì)算流體力學(xué)CFD》
- 馬克思主義宗教觀課件
- 語文版九年級(jí)下冊(cè)課外閱讀練習(xí)
評(píng)論
0/150
提交評(píng)論