版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘概念與技術(shù)第一章第一頁,共三十五頁,編輯于2023年,星期六第二頁,共三十五頁,編輯于2023年,星期六2023/5/312第三頁,共三十五頁,編輯于2023年,星期六2023/5/313第1章引言英文幻燈片制作:JiaweiHan中文幻燈片編譯:范明第四頁,共三十五頁,編輯于2023年,星期六第一章引論動(dòng)機(jī):為什么要數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進(jìn)行?數(shù)據(jù)挖掘功能所有的模式都是有趣的嗎?數(shù)據(jù)挖掘系統(tǒng)分類數(shù)據(jù)挖掘的主要問題第五頁,共三十五頁,編輯于2023年,星期六2023/5/315動(dòng)機(jī):需要是發(fā)明之母數(shù)據(jù)爆炸問題自動(dòng)的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導(dǎo)致大量數(shù)據(jù)存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫,和其它信息存儲(chǔ)中我們正被數(shù)據(jù)淹沒,但卻缺乏知識(shí)解決辦法:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理(OLAP)從大型數(shù)據(jù)庫的數(shù)據(jù)中提取有趣的知識(shí)(規(guī)則,規(guī)律性,模式,限制等)第六頁,共三十五頁,編輯于2023年,星期六2023/5/316數(shù)據(jù)處理技術(shù)的演進(jìn)1960s:數(shù)據(jù)收集,數(shù)據(jù)庫創(chuàng)建,IMS和網(wǎng)狀DBMS1970s:關(guān)系數(shù)據(jù)庫模型,關(guān)系DBMS實(shí)現(xiàn)1980s:RDBMS,先進(jìn)的數(shù)據(jù)模型(擴(kuò)充關(guān)系的,OO,演繹的,等.)和面向應(yīng)用的DBMS(空間的,科學(xué)的,工程的,等.)1990s—2000s:數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫,和Web數(shù)據(jù)庫第七頁,共三十五頁,編輯于2023年,星期六2023/5/317什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)):從大型數(shù)據(jù)庫中提取有趣的(非平凡的,
蘊(yùn)涵的,先前未知的
并且是潛在有用的)
信息或模式其它叫法和“insidestories”:數(shù)據(jù)挖掘:用詞不當(dāng)?數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(挖掘)(Knowledgediscoveryindatabases,KDD),知識(shí)提取(knowledgeextraction),數(shù)據(jù)/模式分析(data/patternanalysis),數(shù)據(jù)考古(dataarcheology),數(shù)據(jù)捕撈(datadredging),信息收獲(informationharvesting),商務(wù)智能(businessintelligence),等.什么不是數(shù)據(jù)挖掘?(演繹)查詢處理.
專家系統(tǒng)或小型機(jī)器學(xué)習(xí)(ML)/統(tǒng)計(jì)程序第八頁,共三十五頁,編輯于2023年,星期六2023/5/318為什么要數(shù)據(jù)挖掘?—可能的應(yīng)用數(shù)據(jù)庫分析和決策支持市場分析和管理針對(duì)銷售(targetmarketing),顧客關(guān)系管理,購物籃分析,交叉銷售(crossselling),市場分割(marketsegmentation)風(fēng)險(xiǎn)分析與管理預(yù)測,顧客關(guān)系,改進(jìn)保險(xiǎn),質(zhì)量控制,競爭能力分析欺騙檢測與管理其它應(yīng)用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘.DNA數(shù)據(jù)分析第九頁,共三十五頁,編輯于2023年,星期六2023/5/319市場分析與管理(1)用于分析的數(shù)據(jù)源在哪?信用卡交易,會(huì)員卡,打折優(yōu)惠卷,顧客投訴電話,(公共)生活時(shí)尚研究針對(duì)銷售(Targetmarketing)找出顧客群,他們具有相同特征:興趣,收入水平,消費(fèi)習(xí)慣,等.確定顧客隨時(shí)間變化的購買模式個(gè)人帳號(hào)到聯(lián)合帳號(hào)的轉(zhuǎn)變:結(jié)婚,等.交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關(guān)聯(lián)/相關(guān)基于關(guān)聯(lián)信息的預(yù)測第十頁,共三十五頁,編輯于2023年,星期六2023/5/3110市場分析與管理(2)顧客分類(Customerprofiling)數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買什么產(chǎn)品(聚類或分類)識(shí)別顧客需求對(duì)不同的顧客識(shí)別最好的產(chǎn)品使用預(yù)測發(fā)現(xiàn)什么因素影響新顧客提供匯總信息各種多維匯總報(bào)告統(tǒng)計(jì)的匯總信息(數(shù)據(jù)的中心趨勢和方差)第十一頁,共三十五頁,編輯于2023年,星期六2023/5/3111法人分析和風(fēng)險(xiǎn)管理財(cái)經(jīng)規(guī)劃和資產(chǎn)評(píng)估現(xiàn)金流分析和預(yù)測臨時(shí)提出的資產(chǎn)評(píng)估交叉組合(cross-sectional)和時(shí)間序列分析(金融比率(financial-ratio),趨勢分析,等.)資源規(guī)劃:資源與開銷的匯總與比較競爭:管理競爭者和市場指導(dǎo)對(duì)顧客分類和基于類的定價(jià)在高度競爭的市場調(diào)整價(jià)格策略第十二頁,共三十五頁,編輯于2023年,星期六2023/5/3112欺騙檢測和管理(1)應(yīng)用廣泛用于健康照料,零售,信用卡服務(wù),電訊(電話卡欺騙),等.方法使用歷史數(shù)據(jù)建立欺騙行為模型,使用數(shù)據(jù)挖掘幫助識(shí)別類似的實(shí)例例汽車保險(xiǎn):檢測這樣的人,他/她假造事故騙取保險(xiǎn)賠償洗錢:檢測可疑的金錢交易(USTreasury'sFinancialCrimesEnforcementNetwork)醫(yī)療保險(xiǎn):檢測職業(yè)病患者,醫(yī)生和介紹人圈第十三頁,共三十五頁,編輯于2023年,星期六2023/5/3113欺騙檢測和管理(2)檢測不適當(dāng)?shù)尼t(yī)療處置澳大利亞健康保險(xiǎn)會(huì)(AustralianHealthInsuranceCommission)發(fā)現(xiàn)許多全面的檢查是請(qǐng)求做的,而不是實(shí)際需要的(每年節(jié)省100萬澳元).檢測電話欺騙電話呼叫模式:通話距離,通話時(shí)間,每天或每周通話次數(shù).分析偏離期望的模式.英國電訊(BritishTelecom)識(shí)別頻繁內(nèi)部通話的呼叫者的離散群,特別是移動(dòng)電話,超過數(shù)百萬美元的欺騙.零售分析家估計(jì),38%的零售業(yè)萎縮是由于不忠誠的雇員造成的.第十四頁,共三十五頁,編輯于2023年,星期六2023/5/3114其它應(yīng)用運(yùn)動(dòng)IBMAdvancedScout分析NBA的統(tǒng)計(jì)數(shù)據(jù)(阻擋投籃,助攻,和犯規(guī))獲得了對(duì)紐約小牛隊(duì)(NewYorkKnicks)和邁艾米熱隊(duì)(MiamiHeat)的競爭優(yōu)勢天文借助于數(shù)據(jù)挖掘的幫助,JPL和PalomarObservatory發(fā)現(xiàn)了22顆類星體(quasars)InternetWebSurf-AidIBMSurf-Aid將數(shù)據(jù)挖掘算法用于有關(guān)交易的頁面的Web訪問日志,以發(fā)現(xiàn)顧客喜愛的頁面,分析Web銷售的效果,改進(jìn)Web站點(diǎn)的組織,等.第十五頁,共三十五頁,編輯于2023年,星期六2023/5/3115數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘:KDD的核心.數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫知識(shí)任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估第十六頁,共三十五頁,編輯于2023年,星期六2023/5/3116KDD過程的步驟學(xué)習(xí)應(yīng)用領(lǐng)域:相關(guān)的先驗(yàn)知識(shí)和應(yīng)用的目標(biāo)創(chuàng)建目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選擇數(shù)據(jù)清理和預(yù)處理:(可能占全部工作的60%!)數(shù)據(jù)歸約與變換:發(fā)現(xiàn)有用的特征,維/變量歸約,不變量的表示.選擇數(shù)據(jù)挖掘函數(shù)匯總,分類,回歸,關(guān)聯(lián),聚類.第十七頁,共三十五頁,編輯于2023年,星期六2023/5/3117KDD過程的步驟(續(xù))選擇挖掘算法數(shù)據(jù)挖掘:搜索有趣的模式模式評(píng)估和知識(shí)表示可視化,變換,刪除冗余模式,等.發(fā)現(xiàn)知識(shí)的使用第十八頁,共三十五頁,編輯于2023年,星期六2023/5/3118數(shù)據(jù)挖掘和商務(wù)智能
提高支持商務(wù)決策的潛能最終用戶商務(wù)分析人員
數(shù)據(jù)分析人員DBA
制定決策數(shù)據(jù)表示可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)探查OLAP,MDA統(tǒng)計(jì)分析,查詢和報(bào)告數(shù)據(jù)倉庫/數(shù)據(jù)集市數(shù)據(jù)源文字記錄,文件,信息提供者,數(shù)據(jù)庫系統(tǒng),OLTP系統(tǒng)第十九頁,共三十五頁,編輯于2023年,星期六2023/5/3119典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶界面知識(shí)庫第二十頁,共三十五頁,編輯于2023年,星期六2023/5/3120數(shù)據(jù)挖掘:在什么數(shù)據(jù)上進(jìn)行?關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)(交易)數(shù)據(jù)庫先進(jìn)的數(shù)據(jù)庫和信息存儲(chǔ)面向?qū)ο蠛蛯?duì)象-關(guān)系數(shù)據(jù)庫空間和時(shí)間數(shù)據(jù)時(shí)間序列數(shù)據(jù)和流數(shù)據(jù)文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫WWW第二十一頁,共三十五頁,編輯于2023年,星期六2023/5/3121數(shù)據(jù)挖掘功能(1)概念描述:特征和區(qū)分概化,匯總,和比較數(shù)據(jù)特征,例如,干燥和潮濕的地區(qū)關(guān)聯(lián)
(相關(guān)和因果關(guān)系)多維和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”) [support=2%,confidence=60%]contains(T,“computer”)
contains(T,“software”) [support=1%,confidence=75%]第二十二頁,共三十五頁,編輯于2023年,星期六2023/5/3122數(shù)據(jù)挖掘功能(2)分類和預(yù)測找出描述和識(shí)別類或概念的模型(函數(shù)),用于將來的預(yù)測例如根據(jù)氣候?qū)曳诸?或根據(jù)單位里程的耗油量對(duì)汽車分類表示:判定樹(decision-tree),分類規(guī)則,神經(jīng)網(wǎng)絡(luò)預(yù)測:預(yù)測某些未知或遺漏的數(shù)值值聚類分析類標(biāo)號(hào)(Classlabel)未知:對(duì)數(shù)據(jù)分組,形成新的類.例如,對(duì)房屋分類,找出分布模式聚類原則:最大化類內(nèi)的相似性,最小化類間的相似性第二十三頁,共三十五頁,編輯于2023年,星期六2023/5/3123數(shù)據(jù)挖掘功能(3)孤立點(diǎn)(Outlier)分析孤立點(diǎn):一個(gè)數(shù)據(jù)對(duì)象,它與數(shù)據(jù)的一般行為不一致孤立點(diǎn)可以被視為例外,但對(duì)于欺騙檢測和罕見事件分析,它是相當(dāng)有用的趨勢和演變分析趨勢和偏離:回歸分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或統(tǒng)計(jì)的分析第二十四頁,共三十五頁,編輯于2023年,星期六2023/5/3124挖掘出的所有模式都是有趣的嗎?一個(gè)數(shù)據(jù)挖掘系統(tǒng)/查詢可以挖掘出數(shù)以千計(jì)的模式,并非所有的模式都是有趣的建議的方法:以人為中心,基于查詢的,聚焦的挖掘興趣度度量:一個(gè)模式是有趣的如果它是易于被人理解的,在某種程度上在新的或測試數(shù)據(jù)上是有效的,潛在有用的,新穎的,或驗(yàn)證了用戶希望證實(shí)的某種假設(shè)客觀與主觀的興趣度度量:客觀:
基于模式的統(tǒng)計(jì)和結(jié)構(gòu),例如,支持度,置信度,等.主觀:
基于用戶對(duì)數(shù)據(jù)的確信,例如,出乎意料,新穎性,可行動(dòng)性(actionability),等.第二十五頁,共三十五頁,編輯于2023年,星期六2023/5/3125能夠只發(fā)現(xiàn)有趣的模式嗎?發(fā)現(xiàn)所有有趣的模式:完全性數(shù)據(jù)挖掘系統(tǒng)能夠發(fā)現(xiàn)所有有趣的模式嗎?關(guān)聯(lián)vs.分類vs.聚類僅搜索有趣的模式:優(yōu)化數(shù)據(jù)挖掘系統(tǒng)能夠僅發(fā)現(xiàn)有趣的模式嗎?方法首先找出所有模式,然后過濾掉不是有趣的那些.僅產(chǎn)生有趣的模式—挖掘查詢優(yōu)化第二十六頁,共三十五頁,編輯于2023年,星期六2023/5/3126數(shù)據(jù)挖掘:多學(xué)科交叉
數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計(jì)學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化第二十七頁,共三十五頁,編輯于2023年,星期六2023/5/3127數(shù)據(jù)挖掘分類一般功能描述式數(shù)據(jù)挖掘預(yù)測式數(shù)據(jù)挖掘不同的角度,不同的分類待挖掘的數(shù)據(jù)庫類型待發(fā)現(xiàn)的知識(shí)類型所用的技術(shù)類型所適合的應(yīng)用類型第二十八頁,共三十五頁,編輯于2023年,星期六2023/5/3128數(shù)據(jù)挖掘分類的多維視圖待挖掘的數(shù)據(jù)庫關(guān)系的,事務(wù)的,面向?qū)ο蟮?對(duì)象-關(guān)系的,主動(dòng)的,空間的,時(shí)間序列的,文本的,多媒體的,異種的,遺產(chǎn)的,WWW,等.所挖掘的知識(shí)特征,區(qū)分,關(guān)聯(lián),分類,聚類,趨勢,偏離和孤立點(diǎn)分析,等.多/集成的功能,和多層次上的挖掘所用技術(shù)面向數(shù)據(jù)庫的,數(shù)據(jù)倉庫(OLAP),機(jī)器學(xué)習(xí),統(tǒng)計(jì)學(xué),可視化,神經(jīng)網(wǎng)絡(luò),等.適合的應(yīng)用零售,電訊,銀行,欺騙分析,DNA挖掘,股票市場分析,Web挖掘,Web日志分析,等第二十九頁,共三十五頁,編輯于2023年,星期六2023/5/3129OLAP挖掘:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成數(shù)據(jù)挖掘系統(tǒng),DBMS,數(shù)據(jù)倉庫系統(tǒng)的耦合不耦合,松耦合,半緊密耦合,緊密耦合聯(lián)機(jī)分析挖掘挖掘與OLAP技術(shù)的集成交互挖掘多層知識(shí)通過下鉆,上卷,轉(zhuǎn)軸,切片,切塊等操作,在不同的抽象層挖掘知識(shí)和模式的必要性.多種挖掘功能的集成特征分類,先聚類在關(guān)聯(lián)第三十頁,共三十五頁,編輯于2023年,星期六2023/5/3130OLAM的結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAM引擎OLAP引擎用戶GUIAPI數(shù)據(jù)立方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第3層OLAP/OLAM第2層MDDB第1層數(shù)據(jù)存儲(chǔ)第4層用戶界面過濾和集成過濾Databases挖掘查詢挖掘結(jié)果第三十一頁,共三十五頁,編輯于2023年,星期六2023/5/3131數(shù)據(jù)挖掘的主要問題(1)挖掘方法和用戶交互在數(shù)據(jù)庫中挖掘不同類型的知識(shí)在多個(gè)抽象層的交互式知識(shí)挖掘結(jié)合背景知識(shí)數(shù)據(jù)挖掘語言和啟發(fā)式數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表示和可視化處理噪音和不完全數(shù)據(jù)模式評(píng)估:興趣度問題性能和可伸縮性(scalability)數(shù)據(jù)挖掘算法的性能和可伸縮性并行,分布和增量的挖掘方法第三十二頁,共三十五頁,編輯于2023年,星期六2023/5/3132數(shù)據(jù)挖掘的主要問題(2)數(shù)據(jù)類型的多樣性問題處理關(guān)系的和復(fù)雜類型的數(shù)據(jù)從異種數(shù)據(jù)庫和全球信息系統(tǒng)(WWW)挖掘信息應(yīng)用和社會(huì)效果問題發(fā)現(xiàn)知識(shí)的應(yīng)用特定領(lǐng)域的數(shù)據(jù)挖掘工具智能查詢回答過程控制和決策制定發(fā)現(xiàn)知識(shí)與已有知識(shí)的集成:知識(shí)融合問題數(shù)據(jù)安全,完整和私有的保護(hù)第三十三頁,共三十五頁,編輯于2023年,星期六2023/5/3133小結(jié)數(shù)據(jù)挖掘:從大量數(shù)據(jù)中發(fā)現(xiàn)有趣的模式數(shù)據(jù)庫技術(shù)的自然進(jìn)化,具有巨大需求和廣泛應(yīng)用KDD過程包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,變換,數(shù)據(jù)挖掘,模式評(píng)估,和知識(shí)表示挖掘可以在各種數(shù)據(jù)存儲(chǔ)上進(jìn)行數(shù)據(jù)挖掘功能:特征,區(qū)分,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版跨境電商合同履約保證協(xié)議3篇
- 2025年度新型設(shè)備租賃與集成系統(tǒng)解決方案合同3篇
- 地鐵供電系統(tǒng)安全管理
- 二零二五年度廠房設(shè)備租賃與全面質(zhì)量管理協(xié)議3篇
- 二零二五年度企事業(yè)單位實(shí)習(xí)生勞動(dòng)合同范本2篇
- 課題申報(bào)書:小學(xué)全科師范生核心素養(yǎng)體系及測評(píng)模型構(gòu)建
- 2025年度版權(quán)質(zhì)押合同及貸款條款3篇
- 2024幼兒園幼兒教育項(xiàng)目合作合同3篇
- 2024年駕駛員專屬勞務(wù)協(xié)議范本版
- 2024年美容院租賃合同范本
- 常用工具的正確使用
- 管材管件供貨計(jì)劃、運(yùn)輸方案及保障措施及售后服務(wù)
- (2024年)腸梗阻完整版課件
- 國際視野開拓全球
- T-CARM 002-2023 康復(fù)醫(yī)院建設(shè)標(biāo)準(zhǔn)
- 工程機(jī)械租賃服務(wù)方案及保障措施范本
- 2024年不良資產(chǎn)處置相關(guān)項(xiàng)目投資計(jì)劃書
- 腸道支架植入術(shù)培訓(xùn)課件
- 數(shù)字政府建設(shè)行業(yè)分析
- 人教版三年級(jí)上冊豎式計(jì)算練習(xí)400題及答案
- gmp生產(chǎn)工藝的驗(yàn)證
評(píng)論
0/150
提交評(píng)論