數(shù)據(jù)挖掘2015最新精品課程完整課件(第1講)---引言課件_第1頁(yè)
數(shù)據(jù)挖掘2015最新精品課程完整課件(第1講)---引言課件_第2頁(yè)
數(shù)據(jù)挖掘2015最新精品課程完整課件(第1講)---引言課件_第3頁(yè)
數(shù)據(jù)挖掘2015最新精品課程完整課件(第1講)---引言課件_第4頁(yè)
數(shù)據(jù)挖掘2015最新精品課程完整課件(第1講)---引言課件_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘數(shù)據(jù)挖掘徐光美徐光美教教 材材nJiawei Han, Micheline Kamber.數(shù)據(jù)挖掘:數(shù)據(jù)挖掘:概念與技術(shù)概念與技術(shù).北京:機(jī)北京:機(jī)械工業(yè)出版社,械工業(yè)出版社,2001.8月月n(有最新版本)(有最新版本)創(chuàng)辦了創(chuàng)辦了ACM TKDD學(xué)報(bào)并任主編,華學(xué)報(bào)并任主編,華人數(shù)據(jù)挖掘界的先驅(qū)和擁有最高成就的人數(shù)據(jù)挖掘界的先驅(qū)和擁有最高成就的學(xué)者學(xué)者參考書(shū)參考書(shū)2022年5月9日星期一數(shù)據(jù)挖掘3米歇爾是卡內(nèi)基梅隆大學(xué)的教授,講授米歇爾是卡內(nèi)基梅隆大學(xué)的教授,講授“機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)”等多門(mén)課程;美國(guó)人工智能協(xié)等多門(mén)課程;美國(guó)人工智能協(xié)會(huì)(會(huì)(AAAL)的主席;美國(guó))的主席;美國(guó)Ma

2、chine Learning雜志、國(guó)際機(jī)器學(xué)習(xí)年度會(huì)議雜志、國(guó)際機(jī)器學(xué)習(xí)年度會(huì)議(ICML)的創(chuàng)始人)的創(chuàng)始人(英英)漢德(漢德(David Hand)是倫敦帝國(guó)大學(xué)數(shù)學(xué)系統(tǒng)計(jì)學(xué)教授。)是倫敦帝國(guó)大學(xué)數(shù)學(xué)系統(tǒng)計(jì)學(xué)教授。參考書(shū)參考書(shū)n(美)陳封能,(美)斯美)陳封能,(美)斯坦巴赫,(美)庫(kù)瑪爾坦巴赫,(美)庫(kù)瑪爾著,范明等譯。著,范明等譯。Introduction to Data Mining.北京:人民郵電北京:人民郵電出版社,出版社,2011.n國(guó)外很多名校采用的數(shù)據(jù)國(guó)外很多名校采用的數(shù)據(jù)挖掘教材,內(nèi)容較全面挖掘教材,內(nèi)容較全面考核方式考核方式 總評(píng)成績(jī)總評(píng)成績(jī)=平時(shí)成績(jī)平時(shí)成績(jī)*50%+

3、期末作業(yè)成績(jī)期末作業(yè)成績(jī)*50% 平時(shí)成績(jī)平時(shí)成績(jī) = 課堂講解成績(jī)課堂講解成績(jī) + 課堂討論和出勤成績(jī)課堂討論和出勤成績(jī)n精讀一篇核心期刊以上級(jí)別的文獻(xiàn):研究動(dòng)機(jī)、具體方精讀一篇核心期刊以上級(jí)別的文獻(xiàn):研究動(dòng)機(jī)、具體方法、解決了何種問(wèn)題、效果如何。法、解決了何種問(wèn)題、效果如何。n用用PPT在課堂上講解上述問(wèn)題不少于在課堂上講解上述問(wèn)題不少于10分鐘。并詳細(xì)講分鐘。并詳細(xì)講解該論文涉及的算法。解該論文涉及的算法。n期末提交期末提交1份大作業(yè):研究動(dòng)機(jī)、具體方法、解決了何種份大作業(yè):研究動(dòng)機(jī)、具體方法、解決了何種問(wèn)題、效果如何、你認(rèn)為該文章有哪些優(yōu)缺點(diǎn)、應(yīng)該如問(wèn)題、效果如何、你認(rèn)為該文章有哪些優(yōu)

4、缺點(diǎn)、應(yīng)該如何解決、參考文獻(xiàn)(至少何解決、參考文獻(xiàn)(至少5篇)篇)2022年5月9日星期一數(shù)據(jù)挖掘5數(shù)據(jù)挖掘從業(yè)人員的收入數(shù)據(jù)挖掘從業(yè)人員的收入數(shù)據(jù)挖掘從業(yè)人員的收入數(shù)據(jù)挖掘從業(yè)人員的收入路漫漫其修遠(yuǎn)兮路漫漫其修遠(yuǎn)兮課程介紹課程介紹 數(shù)據(jù)挖掘興起的背景數(shù)據(jù)挖掘興起的背景 數(shù)據(jù)挖掘的相關(guān)概念數(shù)據(jù)挖掘的相關(guān)概念數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的主要任務(wù)主要內(nèi)容主要內(nèi)容Why:數(shù)據(jù)挖掘的產(chǎn)生數(shù)據(jù)挖掘的產(chǎn)生n海量數(shù)據(jù)被收集海量數(shù)據(jù)被收集n利用數(shù)據(jù)獲取有用知識(shí)的有效方法有限利用數(shù)據(jù)獲取有用知識(shí)的有效方法有限2022年5月9日星期一數(shù)據(jù)挖掘10數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值的知識(shí)有價(jià)值的知識(shí)

5、可怕的數(shù)據(jù)可怕的數(shù)據(jù) 苦惱: 淹沒(méi)在數(shù)據(jù)中 ; 不能制定合適的決策! n模式模式n趨勢(shì)趨勢(shì)n事實(shí)事實(shí)n關(guān)系關(guān)系n模型模型n關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n序列序列n目標(biāo)市場(chǎng)目標(biāo)市場(chǎng)n資金分配資金分配n貿(mào)易選擇貿(mào)易選擇n在哪兒做廣告在哪兒做廣告n銷(xiāo)售的地理位置銷(xiāo)售的地理位置n金融金融n經(jīng)濟(jì)經(jīng)濟(jì)n政府政府nPOS.n人口統(tǒng)計(jì)人口統(tǒng)計(jì)n生命周期生命周期課程介紹課程介紹 數(shù)據(jù)挖掘興起的背景數(shù)據(jù)挖掘興起的背景 數(shù)據(jù)挖掘的相關(guān)概念數(shù)據(jù)挖掘的相關(guān)概念數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的主要任務(wù)主要內(nèi)容主要內(nèi)容數(shù)據(jù)挖掘發(fā)展簡(jiǎn)史數(shù)據(jù)挖掘發(fā)展簡(jiǎn)史數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的定義 -1nData mining is the non-triv

6、ial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from huge volume of data. U. Fayyad et al KDD96n數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘是從海量海量數(shù)據(jù)中獲取數(shù)據(jù)中獲取有效的有效的、新穎的新穎的、潛在有用潛在有用的的、最終可理解的最終可理解的模式的模式的非平凡過(guò)程非平凡過(guò)程數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的定義 -2n分析少量數(shù)據(jù)無(wú)需利用數(shù)據(jù)挖掘分析少量數(shù)據(jù)無(wú)需利用數(shù)據(jù)挖掘n錯(cuò)誤的模式價(jià)值不大錯(cuò)誤的模式價(jià)值不大n不能僅僅挖掘出

7、常識(shí)不能僅僅挖掘出常識(shí)n挖掘出的模式一般用于輔助進(jìn)一步的決策挖掘出的模式一般用于輔助進(jìn)一步的決策n挖掘出的模式要呈現(xiàn)給決策者挖掘出的模式要呈現(xiàn)給決策者n數(shù)據(jù)挖掘并不像數(shù)據(jù)挖掘并不像SQL查詢那樣容易查詢那樣容易 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)KDD數(shù)據(jù)挖掘與數(shù)據(jù)挖掘與KDDu數(shù)據(jù)挖掘?qū)儆跀?shù)據(jù)挖掘?qū)儆贙DD 數(shù)據(jù)挖掘是數(shù)據(jù)挖掘是KDD的一個(gè)核心步驟的一個(gè)核心步驟u數(shù)據(jù)挖掘包含了數(shù)據(jù)挖掘包含了KDD 數(shù)據(jù)挖掘的對(duì)象不局限于數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘的對(duì)象不局限于數(shù)據(jù)庫(kù)u數(shù)據(jù)挖掘等于數(shù)據(jù)挖掘等于KDD 越來(lái)越多的學(xué)者和業(yè)界人士贊同此觀點(diǎn)越來(lái)越多的學(xué)者和業(yè)界人士贊同此觀點(diǎn)挖掘何種數(shù)據(jù)挖掘何種數(shù)據(jù)-1 n文件

8、文件n關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)n交易數(shù)據(jù)庫(kù)交易數(shù)據(jù)庫(kù)n每個(gè)記錄代表一個(gè)事務(wù):包括每次交易每個(gè)記錄代表一個(gè)事務(wù):包括每次交易的唯一標(biāo)識(shí)號(hào)和組成該事務(wù)的項(xiàng)的唯一標(biāo)識(shí)號(hào)和組成該事務(wù)的項(xiàng)n例:例:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)n從一個(gè)或多個(gè)數(shù)據(jù)源搜集到的信息儲(chǔ)存庫(kù),存放在一個(gè)一致的模式下,從一個(gè)或多個(gè)數(shù)據(jù)源搜集到的信息儲(chǔ)存庫(kù),存放在一個(gè)一致的模式下,通常駐留在單個(gè)站點(diǎn)。通常駐留在單個(gè)站點(diǎn)。n 數(shù)據(jù)清理數(shù)據(jù)清理n數(shù)據(jù)變換數(shù)據(jù)變換n數(shù)據(jù)集成數(shù)據(jù)集成n數(shù)據(jù)裝入數(shù)據(jù)裝入n定期刷新過(guò)程定期刷新過(guò)程n數(shù)據(jù)匯總組織數(shù)據(jù)匯總組織n 特定主題:顧客、商品和活動(dòng)等特定主題:顧客、商品和活動(dòng)等n用多維數(shù)據(jù)庫(kù)結(jié)構(gòu)建模用多維數(shù)據(jù)庫(kù)結(jié)構(gòu)建模n適合

9、于適合于OLAP清理變換集成裝入刷新數(shù)據(jù)倉(cāng)庫(kù)查詢與分析工具客戶客戶異地?cái)?shù)據(jù)源2022年5月9日星期一數(shù)據(jù)挖掘21多媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)n圖像、視頻和音頻數(shù)據(jù)。圖像、視頻和音頻數(shù)據(jù)。(image/video retrieval)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)n包含涉及空間的信息包含涉及空間的信息n地圖數(shù)據(jù)庫(kù)地圖數(shù)據(jù)庫(kù)nVLSI集成電路集成電路n蛋白質(zhì)分子蛋白質(zhì)分子3D空間排列空間排列時(shí)間序列數(shù)據(jù)庫(kù)時(shí)間序列數(shù)據(jù)庫(kù)n不同時(shí)間重復(fù)測(cè)量得到的值或事件的序列構(gòu)成不同時(shí)間重復(fù)測(cè)量得到的值或事件的序列構(gòu)成nEx: 股票數(shù)據(jù),環(huán)境、氣象監(jiān)測(cè)數(shù)據(jù)、工業(yè)測(cè)量數(shù)據(jù)等股票數(shù)據(jù),環(huán)境、氣象監(jiān)測(cè)數(shù)據(jù)、工業(yè)測(cè)量數(shù)據(jù)等n特點(diǎn):趨勢(shì)。循

10、環(huán)、周期、突變特點(diǎn):趨勢(shì)。循環(huán)、周期、突變Web數(shù)據(jù)數(shù)據(jù)Title: CNN.com InternationalH1: IAEA: Iran had secret nuke agendaH3: EXPLOSIONS ROCK BAGHDADTEXT BODY (with position and font type): The International Atomic Energy Agency has concluded that Iran has secretly produced small amounts of nuclear materials including low enric

11、hed uranium and plutonium that could be used to develop nuclear weapons according to a confidential report obtained by CNNHyperlink: URL: http:/ Anchor Text: AI oaedaImage: URL: http:/ & Caption: Iran nuclear Anchor Text: CNN Homepage News 挖掘何種數(shù)據(jù)挖掘何種數(shù)據(jù)-5nComparing with 2011nthe data types with the h

12、ighest growth:nXML datantext (free-form)nsocial network datanThe data types with the declining popularity :nmusic / audionimages / video, 挖掘多大的數(shù)據(jù)挖掘多大的數(shù)據(jù)商用數(shù)據(jù)挖掘軟件商用數(shù)據(jù)挖掘軟件開(kāi)源數(shù)據(jù)挖掘軟件開(kāi)源數(shù)據(jù)挖掘軟件http:/ Zhou. Three perspectives of data mining. Artificial Intelligence, 2003, 143(1).課程介紹課程介紹 數(shù)據(jù)挖掘興起的背景數(shù)據(jù)挖掘興起的背景 數(shù)據(jù)

13、挖掘的相關(guān)概念數(shù)據(jù)挖掘的相關(guān)概念數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的主要任務(wù)主要內(nèi)容主要內(nèi)容數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的主要任務(wù)1n預(yù)測(cè)預(yù)測(cè)/分類(lèi)型分類(lèi)型n通過(guò)學(xué)習(xí)和推理進(jìn)行預(yù)測(cè)通過(guò)學(xué)習(xí)和推理進(jìn)行預(yù)測(cè)/分類(lèi)分類(lèi)n分類(lèi)、回歸、偏差檢測(cè)分類(lèi)、回歸、偏差檢測(cè) n描述型描述型n對(duì)數(shù)據(jù)的一般特征進(jìn)行概括對(duì)數(shù)據(jù)的一般特征進(jìn)行概括n聚類(lèi)、關(guān)聯(lián)規(guī)則、序列模式聚類(lèi)、關(guān)聯(lián)規(guī)則、序列模式 分類(lèi)分類(lèi) 定義定義u給定記錄的集合(給定記錄的集合(訓(xùn)練集訓(xùn)練集) 每條記錄包含若干個(gè)每條記錄包含若干個(gè)屬性屬性,其中一個(gè)是,其中一個(gè)是類(lèi)別屬性類(lèi)別屬性,其它的,其它的稱(chēng)為稱(chēng)為條件屬性條件屬性。u找出一個(gè)以類(lèi)別屬性為結(jié)論,以其它屬性的值為

14、找出一個(gè)以類(lèi)別屬性為結(jié)論,以其它屬性的值為條件的條件的分類(lèi)模型分類(lèi)模型u目標(biāo):盡量精確地給出事先未知記錄的類(lèi)別屬性目標(biāo):盡量精確地給出事先未知記錄的類(lèi)別屬性的值的值 用用測(cè)試集測(cè)試集來(lái)檢驗(yàn)?zāi)P偷木?。?lái)檢驗(yàn)?zāi)P偷木?。分?lèi)分類(lèi) 例子例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KN

15、o10NoSingle90KYes10categoricalcategoricalcontinuousclassRefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried50K?NoMarried150K?YesDivorced90K?NoSingle40K?NoMarried80K?10TestSetTraining SetModelLearn Classifier分類(lèi)分類(lèi) 應(yīng)用應(yīng)用n直銷(xiāo)營(yíng)銷(xiāo)直銷(xiāo)營(yíng)銷(xiāo)(Direct Marketing)n只給最有可能購(gòu)買(mǎi)某種商品的客戶郵寄宣傳材料,節(jié)只給最有可能購(gòu)買(mǎi)某種商品的客戶郵寄宣傳材料,節(jié)省宣

16、傳費(fèi)用省宣傳費(fèi)用n方法方法n 利用以前類(lèi)似產(chǎn)品的數(shù)據(jù)利用以前類(lèi)似產(chǎn)品的數(shù)據(jù)n 已知數(shù)據(jù)中的已知數(shù)據(jù)中的買(mǎi)、不買(mǎi)買(mǎi)、不買(mǎi)構(gòu)成了類(lèi)別屬性構(gòu)成了類(lèi)別屬性n 搜集與這類(lèi)客戶相關(guān)的個(gè)人、生活方式等信息,如搜集與這類(lèi)客戶相關(guān)的個(gè)人、生活方式等信息,如居住地、收入等居住地、收入等n 使用這些信息作為條件屬性來(lái)學(xué)習(xí)分類(lèi)器。使用這些信息作為條件屬性來(lái)學(xué)習(xí)分類(lèi)器。聚類(lèi)聚類(lèi) 定義定義n給定一組數(shù)據(jù),每條數(shù)據(jù)包含一組屬性,根據(jù)數(shù)據(jù)間的相給定一組數(shù)據(jù),每條數(shù)據(jù)包含一組屬性,根據(jù)數(shù)據(jù)間的相似度量,把這些數(shù)據(jù)分成不同的組群,使得:似度量,把這些數(shù)據(jù)分成不同的組群,使得:n同一群中的數(shù)據(jù)盡量相似同一群中的數(shù)據(jù)盡量相似n群與群

17、之間的差別盡量明顯群與群之間的差別盡量明顯n相似度量相似度量n若屬性值是連續(xù)的,一般使用若屬性值是連續(xù)的,一般使用Euclidean距離距離n其它適用于不同具體問(wèn)題的相似度量其它適用于不同具體問(wèn)題的相似度量聚類(lèi)的展示聚類(lèi)的展示三維空間中基于三維空間中基于Euclidean 距離的聚類(lèi)距離的聚類(lèi)類(lèi)內(nèi)距離最小類(lèi)內(nèi)距離最小類(lèi)間距離最大類(lèi)間距離最大聚類(lèi)聚類(lèi) 應(yīng)用應(yīng)用n文本聚類(lèi)文本聚類(lèi)n目標(biāo)目標(biāo) :根據(jù)文本中關(guān)鍵詞出現(xiàn)的頻率找出若干組內(nèi)容:根據(jù)文本中關(guān)鍵詞出現(xiàn)的頻率找出若干組內(nèi)容相似的文本相似的文本n方法:找出每篇文本中頻繁出現(xiàn)的詞。根據(jù)關(guān)鍵詞出方法:找出每篇文本中頻繁出現(xiàn)的詞。根據(jù)關(guān)鍵詞出現(xiàn)的頻率給出

18、度量文本相似程度的指標(biāo)。使用該指標(biāo)現(xiàn)的頻率給出度量文本相似程度的指標(biāo)。使用該指標(biāo)進(jìn)行聚類(lèi)。進(jìn)行聚類(lèi)。文本聚類(lèi)的展示文本聚類(lèi)的展示n對(duì)象:對(duì)象:Los Angeles Times的的3204篇文章篇文章 n相似度量指標(biāo):這些文章中相同關(guān)鍵詞的數(shù)目相似度量指標(biāo):這些文章中相同關(guān)鍵詞的數(shù)目 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則定義定義n給定一組記錄,每條記錄由若干個(gè)項(xiàng)目組成,找出一些項(xiàng)目出現(xiàn)將導(dǎo)給定一組記錄,每條記錄由若干個(gè)項(xiàng)目組成,找出一些項(xiàng)目出現(xiàn)將導(dǎo)致另一些項(xiàng)目出現(xiàn)的規(guī)則致另一些項(xiàng)目出現(xiàn)的規(guī)則TIDItems1Bread, Coke, Milk2Beer, Bread3Beer, Coke, Diaper, Mil

19、k4Beer, Bread, Diaper, Milk5Coke, Diaper, MilkRules Discovered: Milk - Coke Diaper, Milk - Beer關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則應(yīng)用應(yīng)用n營(yíng)銷(xiāo)營(yíng)銷(xiāo)n假設(shè)發(fā)現(xiàn)的規(guī)則為假設(shè)發(fā)現(xiàn)的規(guī)則為nBagels, - Potato ChipsnPotato Chips 為后件為后件 = 可以用來(lái)決定哪些商品可以促可以用來(lái)決定哪些商品可以促進(jìn)進(jìn)Potato Chips 的銷(xiāo)售的銷(xiāo)售nBagels 為前件為前件 = 可以用來(lái)決定若對(duì)可以用來(lái)決定若對(duì)Bagels搞促銷(xiāo),將搞促銷(xiāo),將影響哪些商品的銷(xiāo)售影響哪些商品的銷(xiāo)售 nBagels 為前

20、件且為前件且 Potato chips為后件為后件 =可用來(lái)決定哪可用來(lái)決定哪些商品可以和些商品可以和 Bagels 一起對(duì)一起對(duì) Potato chips進(jìn)行促銷(xiāo)進(jìn)行促銷(xiāo)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則應(yīng)用應(yīng)用2n超市貨架管理超市貨架管理n目標(biāo):確定經(jīng)常被大量客戶一起購(gòu)買(mǎi)的商品目標(biāo):確定經(jīng)常被大量客戶一起購(gòu)買(mǎi)的商品.n方法:利用方法:利用POS機(jī)搜集的銷(xiāo)售數(shù)據(jù)找出項(xiàng)目之間的關(guān)機(jī)搜集的銷(xiāo)售數(shù)據(jù)找出項(xiàng)目之間的關(guān)聯(lián)聯(lián)序列模式序列模式n給定一系列具有時(shí)間屬性的對(duì)象(事件),發(fā)現(xiàn)不同事件給定一系列具有時(shí)間屬性的對(duì)象(事件),發(fā)現(xiàn)不同事件的強(qiáng)序列依賴(lài)關(guān)系的強(qiáng)序列依賴(lài)關(guān)系(A B) (C) (D E)回歸回歸n回歸是通過(guò)

21、具有已知值的變量來(lái)預(yù)測(cè)其它變量的值回歸是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其它變量的值n在統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)領(lǐng)域有廣泛的應(yīng)用在統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)領(lǐng)域有廣泛的應(yīng)用n例如例如:n根據(jù)廣告費(fèi)用來(lái)預(yù)測(cè)新產(chǎn)品的銷(xiāo)售量根據(jù)廣告費(fèi)用來(lái)預(yù)測(cè)新產(chǎn)品的銷(xiāo)售量n根據(jù)溫度、濕度和壓強(qiáng)來(lái)預(yù)測(cè)風(fēng)力根據(jù)溫度、濕度和壓強(qiáng)來(lái)預(yù)測(cè)風(fēng)力偏差偏差/異常檢測(cè)異常檢測(cè)n從正常的行為中檢測(cè)重要的偏差從正常的行為中檢測(cè)重要的偏差n應(yīng)用:應(yīng)用:n信用卡欺詐甄別信用卡欺詐甄別n網(wǎng)絡(luò)入侵檢測(cè)網(wǎng)絡(luò)入侵檢測(cè)挖掘結(jié)果的評(píng)價(jià)挖掘結(jié)果的評(píng)價(jià)n客觀評(píng)價(jià)方法客觀評(píng)價(jià)方法 基于統(tǒng)計(jì)和模式的結(jié)構(gòu)基于統(tǒng)計(jì)和模式的結(jié)構(gòu),如如support和和confidencen主觀評(píng)價(jià)方法主觀評(píng)價(jià)

22、方法 基于用戶對(duì)數(shù)據(jù)的信任程度基于用戶對(duì)數(shù)據(jù)的信任程度,如如unexpectednessnL.Q.Geng,H.J.Hamilton.Interestingness Measures for Data Mining: A Survey. ACM Computing Surveys, 2006, 38 (3).Top-10 Algorithm Finally Selected at ICDM06n#1: C4.5 (61 votes)-決策樹(shù)算法決策樹(shù)算法n#2: K-Means (60 votes)-聚類(lèi)算法聚類(lèi)算法n#3: SVM (58 votes)-分類(lèi)分類(lèi)n#4: Apriori (5

23、2 votes)-關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n#5: EM (48 votes)-數(shù)據(jù)收斂數(shù)據(jù)收斂n#6: PageRank (46 votes)-網(wǎng)頁(yè)權(quán)威性測(cè)度網(wǎng)頁(yè)權(quán)威性測(cè)度n#7: AdaBoost (45 votes)-迭代算法迭代算法n#7: kNN (45 votes)-k最近鄰分類(lèi)最近鄰分類(lèi)n#7: Naive Bayes (45 votes)-分類(lèi)分類(lèi)n#10: CART (34 votes)-分類(lèi)與回歸分類(lèi)與回歸重要資源重要資源2022年5月9日星期一數(shù)據(jù)挖掘492022年5月9日星期一50參考文獻(xiàn)源參考文獻(xiàn)源nData mining and KDD (SIGKDD member CDR

24、OM):nConference proceedings: KDD, and others, such as PKDD, PAKDD,ICDM etc.nJournal: Data Mining and Knowledge DiscoverynDatabase field (SIGMOD member CD ROM):nConference proceedings: ACM-SIGMOD, ACM-PODS, VLDB, ICDE, EDBT, DASFAAnJournals: ACM-TODS, J. ACM, IEEE-TKDE, JIIS, etc.nAI and Machine Learning:nConference proceedings: Machine learning, AAAI, IJCAI, etc.nJournals: Machine Learning, Artificial Intelligence, etc.nStatistics:nConference

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論