




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第一章 緒論,2/45,商務智能與數(shù)據(jù)挖掘,動機:為什么要進行數(shù)據(jù)挖掘-商務智能 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,3/45,動機:需要是發(fā)明之母,數(shù)據(jù)爆炸問題 自動的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導致大量數(shù)據(jù)存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其它信息存儲器中 我們正被數(shù)據(jù)淹沒,但卻缺乏知識 解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)倉庫與聯(lián)機分析處理(OLAP) 從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(規(guī)則,規(guī)律性,模式,限制等),4/45,什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘 (數(shù)據(jù)庫中知識發(fā)現(xiàn)) 從大型數(shù)據(jù)庫中提取有趣的 (非平凡的、蘊涵的、先前未知的且是潛在有用的) 信息或
2、模式 其它名稱 數(shù)據(jù)庫中知識發(fā)現(xiàn)(挖掘) (Knowledge discovery in databases, KDD), 知識提?。╧nowledge extraction), 數(shù)據(jù)/模式分析(data/pattern analysis), 數(shù)據(jù)考古(data archeology), 數(shù)據(jù)捕撈(data dredging), 信息收獲(information harvesting), 商務智能(business intelligence) 等,什么是商務智能,Business Intelligence (BI) 企業(yè)利用信息科技以企業(yè)內(nèi)部及外部既有的數(shù)據(jù)庫數(shù)據(jù)為基礎,根據(jù)所需解決的問題進行
3、數(shù)據(jù)匯總,整合成數(shù)據(jù)倉庫后,利用適當?shù)墓ぞ哌M行數(shù)據(jù)處理,利用聯(lián)機分析及數(shù)據(jù)挖掘等技術(shù)分析數(shù)據(jù),將所發(fā)現(xiàn)的潛在特性或是建立的預測模型傳遞給決策者,以提供協(xié)助其進行決策,并達到企業(yè)目標。,6/45,數(shù)據(jù)挖掘可能的應用,數(shù)據(jù)庫分析和決策支持 市場分析和管理:針對銷售(target marketing), 顧客關系管理,購物籃分析,交叉銷售(cross selling),市場分割(market segmentation) 風險分析與管理:預測,顧客關系,改進保險,質(zhì)量控制,競爭能力分析 欺騙檢測與管理,7/45,數(shù)據(jù)挖掘可能的應用,其它應用 文本挖掘(新聞組、email、文檔資料) 流數(shù)據(jù)挖掘(Str
4、eam data mining) Web挖掘 DNA 數(shù)據(jù)分析,8/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動機:為什么要進行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,9/45,數(shù)據(jù)挖掘的過程,數(shù)據(jù)挖掘:KDD的核心,10/45,數(shù)據(jù)挖掘的過程,數(shù)據(jù)挖掘:KDD的核心,11/45,KDD的步驟,學習應用領域 相關的先驗知識和應用的目標 創(chuàng)建目標數(shù)據(jù)集:數(shù)據(jù)選擇 數(shù)據(jù)清理和預處理(可能占全部工作的 60%!) 數(shù)據(jù)歸約與變換 發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示 選擇數(shù)據(jù)挖掘函數(shù) 匯總,分類,回歸,關聯(lián),聚類,12/45,KDD的步驟,選擇挖掘算法 數(shù)據(jù)挖
5、掘:搜索有趣的模式 模式評估和知識表示 可視化,變換,刪除冗余模式,等 發(fā)現(xiàn)知識的使用,13/45,典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),知識庫,14/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動機:為什么要進行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,15/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,平面文件 關系數(shù)據(jù)庫 包括面向?qū)ο蠛蛯ο?關系數(shù)據(jù)庫 事務(交易)數(shù)據(jù)庫 異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫,16/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,數(shù)據(jù)倉庫,17/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,數(shù)據(jù)倉庫,網(wǎng)頁,18/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,數(shù)據(jù)倉庫,Top tier: 前端工具,Middle
6、 tier: OLAP server,Bottom tier: 數(shù)據(jù)倉庫 server,數(shù)據(jù),19/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,多媒體數(shù)據(jù)庫,空間數(shù)據(jù)庫,20/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,時間序列數(shù)據(jù)庫,21/45,數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行,文本數(shù)據(jù)庫,WWW,22/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動機:為什么要進行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上進行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,23/45,數(shù)據(jù)挖掘的功能,概念描述:特征和區(qū)分 概化,匯總,比較數(shù)據(jù)特征,如干燥和潮濕的地區(qū) 關聯(lián) (相關和因果關系) 多維和單維關聯(lián) age(X, “20.29”) income(X,
7、“20.29K”) buys(X, “PC”) support = 2%, confidence = 60% contains(T, “computer”) contains(T, “software”)support = 1%, confidence = 75%,24/45,數(shù)據(jù)挖掘的功能,分類和預測 找出描述和識別類或概念的模型(函數(shù)),用于將來的預測 例如根據(jù)氣候?qū)曳诸?,或根?jù)單位里程的耗油量對汽車分類 表示:決策樹(decision-tree), 分類規(guī)則,神經(jīng)元網(wǎng)絡 預測:預測某些未知或遺漏的數(shù)值,25/45,數(shù)據(jù)挖掘的功能,聚類分析 類標號(Class label)未知:對數(shù)據(jù)
8、分組, 形成新的類。例如,對房屋分類,找出分布模式 聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性,26/45,數(shù)據(jù)挖掘的功能,孤立點(Outlier)分析 孤立點:一個數(shù)據(jù)對象,與數(shù)據(jù)的一般行為不一致 孤立點可以被視為例外,但對于欺騙檢測和罕見事件分析,它是相當有用的 趨勢和演變分析 趨勢和偏離:回歸分析 序列模式挖掘,周期性分析 基于相似的分析 其它基于模式或統(tǒng)計的分析,27/45,數(shù)據(jù)挖掘:多學科交叉,Data Mining,28/45,數(shù)據(jù)挖掘的分類,一般功能 描述式數(shù)據(jù)挖掘 預測式數(shù)據(jù)挖掘 不同的角度、不同的分類 待挖掘的數(shù)據(jù)庫類型 待發(fā)現(xiàn)的知識類型 所用的技術(shù)類型 所適合的應用類
9、型,29/45,數(shù)據(jù)挖掘從不同角度的分類,待挖掘的數(shù)據(jù)庫 關系的、事務的、面向?qū)ο蟮?、對?關系的、主動的、空間的、時間序列的、文本的、多媒體的、異種的、遺產(chǎn)的、WWW 等 所挖掘的知識 特征、區(qū)分、關聯(lián)、分類、聚類、趨勢、偏離和孤立點分析等 多/集成的功能和多層次上的挖掘,30/45,數(shù)據(jù)挖掘從不同角度的分類,所用技術(shù) 面向數(shù)據(jù)庫的、數(shù)據(jù)倉庫(OLAP)、 機器學習、 統(tǒng)計學、可視化、神經(jīng)網(wǎng)絡等 適合的應用 零售、電訊、銀行、欺騙分析、DNA 挖掘、股票市場分析、 Web 挖掘、Web日志分析等,31/45,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,動機:為什么要進行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘在什么數(shù)據(jù)上
10、進行 數(shù)據(jù)挖掘功能和分類 一些新的研究方向,32/45,Web挖掘,Web Mining,Web Usage Mining,Agent Based Approach,Database Approach,智能查詢 信息過濾/分類 個性化Web,多層次數(shù)據(jù)庫 Web查詢系統(tǒng),預處理 事務標識 模式發(fā)現(xiàn) 模式分析,Web Structure Mining,Web Content Mining,33/45,Web 使用挖掘,Web Usage Mining是在Web數(shù)據(jù)存儲地中應用數(shù)據(jù)挖掘技術(shù)抽取使用模式的方法 數(shù)據(jù)預處理 用戶使用頁面關聯(lián)、用戶分類、用戶聚類、 應用 個性化 站點改進 ,34/45,
11、文本挖掘,文本挖掘=數(shù)據(jù)挖掘(應用于文本存儲地)+基本語言學 文本預處理(無結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化) 詞法/語義分析 特征生成 Bag of Words 特征選擇 頻度、TFIDF、共現(xiàn)等 數(shù)據(jù)挖掘 文本分類、聚類等 分析結(jié)果,35/45,觀點、情感挖掘,觀點挖掘(Opinion Mining)是一種從論壇、討論組、新聞組、博客等用戶產(chǎn)生的內(nèi)容中挖掘其表達觀點的技術(shù)。 文本挖掘與觀點挖掘(事實與觀點) 文本挖掘關注事實,觀點挖掘關注用戶對事實所持的觀點; 事實是客觀的,觀點是主觀的; 事實只有一個,觀點卻各不相同。 應用 商務、網(wǎng)絡輿情、,36/45,數(shù)據(jù)流挖掘,性質(zhì) 連續(xù)性:數(shù)據(jù)流是連續(xù)到達的 無序性:系統(tǒng)無法控制數(shù)據(jù)到達的順序 無界性:數(shù)據(jù)流原則上是無限大的 實時性:要求算法能夠?qū)崟r地反映模式變化,37/45,數(shù)據(jù)流挖掘,性質(zhì) 傳統(tǒng)的數(shù)據(jù)挖掘,38/45,數(shù)據(jù)流挖掘,性質(zhì) 傳統(tǒng)的數(shù)據(jù)挖掘,39/45,數(shù)據(jù)流挖掘,性質(zhì) 傳統(tǒng)的數(shù)據(jù)挖掘,40/45,數(shù)據(jù)流挖掘,性質(zhì) 數(shù)據(jù)流挖掘,?,41/45,RFID事件流挖掘,Radio Frequency Identification (RFID),Tag,Reader,42/45,圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 14 家鄉(xiāng)物產(chǎn)養(yǎng)育我 公開課一等獎創(chuàng)新教學設計 (第1課時表格式)
- 人教版小學二年級上冊數(shù)學 第6單元 第3課時 解決問題 教案
- 2025標準版工程保理合同
- 2025委托購買合同范本
- 停車場管理系統(tǒng)升級合同書模板
- 離婚協(xié)議中的孩子戶籍遷移:合同范文
- 2025年中學學校物業(yè)管理合同范本
- 2025綜合合同范本匯編
- 2025監(jiān)理工程師《合同管理》知識點合同違約責任
- 服裝鞋帽銷售合同模板
- (正式版)JBT 14449-2024 起重機械焊接工藝評定
- 2020混凝土結(jié)構(gòu)加固修復用聚合物水泥砂漿施工及驗收規(guī)程
- 化妝培訓課件版
- 營地指導員基礎教程
- 初級電工證考試試題庫電工證考試題庫
- 潔凈廠房設計方案
- 北京市通州區(qū)2021-2022學年高二下學期期中地理試題(解析版)
- 企業(yè)財務共享中心成熟度研究-以海爾集團為例
- 急性一氧化碳中毒教學演示課件
- 客戶訂單交付管理
- 《教育學》課件 第五章 學校教育制度
評論
0/150
提交評論