數(shù)據(jù)分析和挖掘_第1頁(yè)
數(shù)據(jù)分析和挖掘_第2頁(yè)
數(shù)據(jù)分析和挖掘_第3頁(yè)
數(shù)據(jù)分析和挖掘_第4頁(yè)
數(shù)據(jù)分析和挖掘_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第18章 數(shù)據(jù)分析與挖掘1、決議支持系統(tǒng)2、數(shù)據(jù)分析和聯(lián)機(jī)分析處理(OLAP)3、數(shù)據(jù)倉(cāng)庫(kù)工程4、數(shù)據(jù)挖掘10/10/1數(shù)據(jù)分析和挖掘第1頁(yè)數(shù)據(jù)分析與挖掘社會(huì)需求 數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值知識(shí)可怕數(shù)據(jù)10/10/2數(shù)據(jù)分析和挖掘第2頁(yè)數(shù)據(jù)分析與挖掘社會(huì)需求 苦惱: 淹沒(méi)在數(shù)據(jù)中 ; 不能制訂適當(dāng)決議! 數(shù)據(jù)知識(shí)決議模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場(chǎng)資金分配貿(mào)易選擇在哪兒做廣告銷(xiāo)售地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計(jì)生命周期10/10/3數(shù)據(jù)分析和挖掘第3頁(yè)1、決議支持系統(tǒng)數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)可廣義地劃分為事務(wù)處理系統(tǒng)和決議支持系統(tǒng)事務(wù)處理系統(tǒng)用來(lái)統(tǒng)計(jì)相關(guān)事務(wù)信息系統(tǒng)決議支持系統(tǒng)是從事務(wù)處理

2、系統(tǒng)存放細(xì)節(jié)信息中提取出高層次信息10/10/4數(shù)據(jù)分析和挖掘第4頁(yè)2.數(shù)據(jù)分析和聯(lián)機(jī)分析處理伴隨數(shù)據(jù)庫(kù)技術(shù)發(fā)展和應(yīng)用,數(shù)據(jù)庫(kù)存放數(shù)據(jù)量從20世紀(jì)80年代兆(M)字節(jié)及千兆(G)字節(jié)過(guò)渡到現(xiàn)在兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時(shí),用戶查詢需求也越來(lái)越復(fù)雜,包括已不但是查詢或操縱一張關(guān)系表中一條或幾條統(tǒng)計(jì),而且要對(duì)多張表中千萬(wàn)條統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已不能全部滿足這一要求。10/10/5數(shù)據(jù)分析和挖掘第5頁(yè)什么是OLAP聯(lián)機(jī)分析處理(Online Analytical Processing) 是共享多維信息、針對(duì)特定問(wèn)題聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析快速軟件技術(shù)。它經(jīng)過(guò)對(duì)信息各種可

3、能觀察形式進(jìn)行快速、穩(wěn)定一致和交互性存取,允許管理決議人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。OLAP=多維數(shù)據(jù)庫(kù)?10/10/6數(shù)據(jù)分析和挖掘第6頁(yè)OLTP聯(lián)機(jī)事務(wù)處理傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)主要應(yīng)用側(cè)重于日常商務(wù)操作專門(mén)為了實(shí)時(shí)數(shù)據(jù)操作而設(shè)計(jì) 支持?jǐn)?shù)據(jù)快速插入和修改 提供單個(gè)紀(jì)錄查詢 支持?jǐn)?shù)千個(gè)并發(fā)用戶 10/10/7數(shù)據(jù)分析和挖掘第7頁(yè)OLAP是數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵部心,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)主要應(yīng)用,支持復(fù)雜分析操作,側(cè)重決議支持,而且提供直觀易懂查詢結(jié)果。提供數(shù)據(jù)挖掘,發(fā)覺(jué)數(shù)據(jù)間潛在聯(lián)絡(luò) 從各個(gè)不一樣視覺(jué)察看數(shù)據(jù)10/10/8數(shù)據(jù)分析和挖掘第8頁(yè) OLTP vs OLAP10/10/9數(shù)據(jù)分析和挖掘第9頁(yè)OLAP是多維(多維

4、數(shù)據(jù)庫(kù)有層次概念)“嘿4月份我在北京賣(mài)掉了價(jià)值十萬(wàn)美元可樂(lè)”維度層次概念:產(chǎn)品類別產(chǎn)品名稱地域國(guó)家省市時(shí)間年季度月日10/10/10數(shù)據(jù)分析和挖掘第10頁(yè)維度和量度10/10/11數(shù)據(jù)分析和挖掘第11頁(yè)3、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)區(qū)分怎樣建設(shè)數(shù)據(jù)倉(cāng)庫(kù)10/10/12數(shù)據(jù)分析和挖掘第12頁(yè)數(shù)據(jù)倉(cāng)庫(kù)介紹數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)是從多個(gè)源中搜集一個(gè)信息倉(cāng)儲(chǔ)(或歸檔),在同一個(gè)位置用唯一模式存放。長(zhǎng)時(shí)間存放單獨(dú)統(tǒng)一數(shù)據(jù)接口10/10/13數(shù)據(jù)分析和挖掘第13頁(yè)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)區(qū)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)是對(duì)于大量已經(jīng)由OLTP形成數(shù)據(jù)一個(gè)分析型數(shù)據(jù)庫(kù),用于處理商業(yè)智能、決議支持等主要決議信

5、息;數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)應(yīng)用到一定程度之后而對(duì)歷史數(shù)據(jù)加工與分析;是處理兩種不一樣用途工具而已。10/10/14數(shù)據(jù)分析和挖掘第14頁(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)(1)10/10/15數(shù)據(jù)分析和挖掘第15頁(yè)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)包含了 一個(gè)中央事實(shí)表Fact table 多個(gè)維表10/10/16數(shù)據(jù)分析和挖掘第16頁(yè)數(shù)據(jù)倉(cāng)庫(kù)星型結(jié)構(gòu)10/10/17數(shù)據(jù)分析和挖掘第17頁(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)(2)10/10/18數(shù)據(jù)分析和挖掘第18頁(yè)ETL:數(shù)據(jù)提取與轉(zhuǎn)換10/10/19數(shù)據(jù)分析和挖掘第19頁(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)(3)10/10/20數(shù)據(jù)分析和挖掘第20頁(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)(4)10/10/21數(shù)據(jù)分析和挖掘第21頁(yè)四、數(shù)據(jù)挖掘1、

6、數(shù)據(jù)挖掘介紹2、數(shù)據(jù)挖掘系統(tǒng)特征3、數(shù)據(jù)挖掘技術(shù)10/10/22數(shù)據(jù)分析和挖掘第22頁(yè)1、數(shù)據(jù)挖掘介紹基本知識(shí)數(shù)據(jù)挖掘與OLAP比較數(shù)據(jù)挖掘與KDD比較數(shù)據(jù)挖掘流程10/10/23數(shù)據(jù)分析和挖掘第23頁(yè)數(shù)據(jù)挖掘介紹1、數(shù)據(jù)挖掘是怎樣一個(gè)過(guò)程呢? 從海量數(shù)據(jù)中,提取隱含在其中、人們事先不知道但又可能有用信息和知識(shí)過(guò)程。2、數(shù)據(jù)挖掘特征? 數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、改變、異常和有意義結(jié)構(gòu); 數(shù)據(jù)挖掘大部分價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改進(jìn)預(yù)測(cè)模型。10/10/24數(shù)據(jù)分析和挖掘第24頁(yè)數(shù)據(jù)挖掘系統(tǒng)代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代數(shù)據(jù)挖掘作為一個(gè)獨(dú)立應(yīng)用支持一個(gè)或者多個(gè)算法

7、獨(dú)立系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包含數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)/局部區(qū)域計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象、文本、和連續(xù)媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成 多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算數(shù)據(jù)聯(lián)合 多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在計(jì)算模型10/10/25數(shù)據(jù)分析和挖掘第25頁(yè)數(shù)據(jù)挖掘與OLAP比較(1)功效不一樣 數(shù)據(jù)挖掘DM功效在于知識(shí)發(fā)覺(jué)。如:數(shù)據(jù)挖掘DM中“分類”包含:貝葉斯分類、粗糙集分類、決議樹(shù)分類等,是

8、從數(shù)據(jù)中發(fā)覺(jué)知識(shí)規(guī)則 而聯(lián)機(jī)分析OLAP是一個(gè)自上而下、不停深入分析工具:用戶提出問(wèn)題或假設(shè),OLAP負(fù)責(zé)從上至下深入地提取出關(guān)于該問(wèn)題詳細(xì)信息,并以可視化方式展現(xiàn)給用戶。 用戶先入為主不足可能會(huì)限制問(wèn)題和假設(shè)范圍,從而影響最終結(jié)論。10/10/26數(shù)據(jù)分析和挖掘第26頁(yè) (2)數(shù)據(jù)組成不一樣數(shù)據(jù)挖是從混沌、含有巨大噪聲數(shù)據(jù)中提煉知識(shí)規(guī)則;而聯(lián)機(jī)分析OLAP只是從已經(jīng)規(guī)范化、純凈關(guān)系數(shù)據(jù)庫(kù)中組織數(shù)據(jù)。(3)知識(shí)與數(shù)據(jù)關(guān)系不一樣數(shù)據(jù)挖掘DM是從數(shù)據(jù)中發(fā)覺(jué)知識(shí)KDD;而聯(lián)機(jī)分析OLAP是利用人已知知識(shí)來(lái)有意識(shí)地組織和使用數(shù)據(jù)。10/10/27數(shù)據(jù)分析和挖掘第27頁(yè)數(shù)據(jù)挖掘與KDD知識(shí)發(fā)覺(jué)(KD)輸

9、出是規(guī)則 數(shù)據(jù)挖掘(DM)輸出是模型 共同點(diǎn)兩種方法輸入都是學(xué)習(xí)集(learning sets) 目標(biāo)都是盡可能多自動(dòng)化數(shù)據(jù)挖掘過(guò)程 數(shù)據(jù)挖掘過(guò)程并不能完全自動(dòng)化,只能半自動(dòng)化 10/10/28數(shù)據(jù)分析和挖掘第28頁(yè)SQL Server 數(shù)據(jù)挖掘處理流程10/10/29數(shù)據(jù)分析和挖掘第29頁(yè)2、數(shù)據(jù)挖掘系統(tǒng)特征 礦山(數(shù)據(jù))挖掘工具(算法)金子(知識(shí))數(shù)據(jù)特征知識(shí)特征算法特征10/10/30數(shù)據(jù)分析和挖掘第30頁(yè)數(shù)據(jù)特征大容量POS數(shù)據(jù)(某個(gè)超市天天要處理高達(dá)萬(wàn)筆交易)衛(wèi)星圖象(NASA地球觀察衛(wèi)星以每小時(shí)50GB速度發(fā)回?cái)?shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(各種數(shù)據(jù)類型混合數(shù)據(jù)源

10、,來(lái)自互聯(lián)網(wǎng)數(shù)據(jù)是經(jīng)典例子)10/10/31數(shù)據(jù)分析和挖掘第31頁(yè)系統(tǒng)特征知識(shí)發(fā)覺(jué)系統(tǒng)需要一個(gè)前處理過(guò)程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識(shí)發(fā)覺(jué)系統(tǒng)是一個(gè)自動(dòng)/半自動(dòng)過(guò)程知識(shí)發(fā)覺(jué)系統(tǒng)要有很好性能10/10/32數(shù)據(jù)分析和挖掘第32頁(yè)知識(shí)特征知識(shí)發(fā)覺(jué)系統(tǒng)能夠發(fā)覺(jué)什么知識(shí)?計(jì)算學(xué)習(xí)理論COLT(Computational Learning Theory)以FOL為基礎(chǔ)以發(fā)覺(jué)關(guān)系為目標(biāo)歸納邏輯程序設(shè)計(jì)現(xiàn)行知識(shí)發(fā)覺(jué)系統(tǒng)只能發(fā)覺(jué)特定模式知識(shí)規(guī)則分類關(guān)聯(lián)10/10/33數(shù)據(jù)分析和挖掘第33頁(yè)算法特征組成數(shù)據(jù)挖掘算法三要素模式記述語(yǔ)言:反應(yīng)了算法能夠發(fā)覺(jué)什么樣知識(shí)模式評(píng)價(jià):反應(yīng)了什么樣模式能夠稱為知識(shí)模式探

11、索:包含針對(duì)某一特定模式對(duì)參數(shù)空間探索和對(duì)模式空間探索10/10/34數(shù)據(jù)分析和挖掘第34頁(yè)3、數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測(cè)未來(lái)描述(Description):了解數(shù)據(jù)中潛在規(guī)律數(shù)據(jù)挖掘技術(shù)分類關(guān)聯(lián)規(guī)則聚集時(shí)間序列10/10/35數(shù)據(jù)分析和挖掘第35頁(yè)決議樹(shù)算法基本介紹 依據(jù)數(shù)據(jù)源,找到?jīng)Q定預(yù)測(cè)目標(biāo)原因主要關(guān)系登記以及程度。 把已知條件自動(dòng)分解為多個(gè)離散類別 初始狀態(tài)是一個(gè)大空間,挖掘過(guò)程是遞歸分 區(qū)不停分割。10/10/36數(shù)據(jù)分析和挖掘第36頁(yè)案例我們有大量客戶 年紀(jì)在20-60歲 月薪在08000元55%被我們認(rèn)可為好客戶里邊潛在規(guī)律是什么?10/10/

12、37數(shù)據(jù)分析和挖掘第37頁(yè)誰(shuí)是我們有價(jià)值客戶呢?10/10/38數(shù)據(jù)分析和挖掘第38頁(yè)誰(shuí)是我們有價(jià)值客戶呢?10/10/39數(shù)據(jù)分析和挖掘第39頁(yè)誰(shuí)是我們有價(jià)值客戶呢?10/10/40數(shù)據(jù)分析和挖掘第40頁(yè)決議樹(shù)算法經(jīng)典應(yīng)用 一個(gè)或多個(gè)變量預(yù)測(cè)目標(biāo),變量對(duì)目標(biāo)主要程序。 預(yù)測(cè)客戶是否會(huì)購(gòu)置某種產(chǎn)品,預(yù)測(cè)潛在客戶。 評(píng)定客戶風(fēng)險(xiǎn) 找到?jīng)Q議規(guī)則10/10/41數(shù)據(jù)分析和挖掘第41頁(yè)關(guān)聯(lián)規(guī)則算法基本介紹 分析發(fā)覺(jué)數(shù)據(jù)庫(kù)中不一樣變量或個(gè)體間之間關(guān)系程度,用這些規(guī)則找出用戶購(gòu)置行為模式。 關(guān)聯(lián)規(guī)則算法能夠處理異常大目錄,經(jīng)過(guò)了包含超出五千萬(wàn)種商品目錄測(cè)試。10/10/42數(shù)據(jù)分析和挖掘第42頁(yè)關(guān)聯(lián)規(guī)則算

13、法經(jīng)典應(yīng)用購(gòu)物籃物品關(guān)聯(lián)度貨物擺放捆綁銷(xiāo)售網(wǎng)站內(nèi)容關(guān)聯(lián)個(gè)性化促銷(xiāo)網(wǎng)上書(shū)店關(guān)聯(lián)銷(xiāo)售10/10/43數(shù)據(jù)分析和挖掘第43頁(yè)聚類算法基本介紹 將相同事物歸類 最大期望方法 K-Means10/10/44數(shù)據(jù)分析和挖掘第44頁(yè)聚類算法經(jīng)典應(yīng)用分類和預(yù)測(cè)、客戶價(jià)值度分析經(jīng)典問(wèn)題 尋找有價(jià)值客戶群體 尋找欺詐群體10/10/45數(shù)據(jù)分析和挖掘第45頁(yè)數(shù)據(jù)挖掘算法 分類 10/10/46數(shù)據(jù)分析和挖掘第46頁(yè)分類 VS 預(yù)測(cè)分類:預(yù)測(cè)項(xiàng)目所屬類依據(jù)已經(jīng)有訓(xùn)練數(shù)據(jù)集和所屬類,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù)預(yù)測(cè):是結(jié)構(gòu)和使用模型評(píng)定無(wú)樣本類,或評(píng)定給定樣本可能含有屬性或值空間。建立連續(xù)函數(shù)值模型,比如

14、預(yù)測(cè)空缺值10/10/47數(shù)據(jù)分析和挖掘第47頁(yè)預(yù)測(cè)和分類異同相同點(diǎn)二者都需要構(gòu)建模型都用模型來(lái)預(yù)計(jì)未知值預(yù)測(cè)當(dāng)中主要預(yù)計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不一樣點(diǎn)分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)(分類屬性值)預(yù)測(cè)法主要是用來(lái)預(yù)計(jì)連續(xù)值(量化屬性值)10/10/48數(shù)據(jù)分析和挖掘第48頁(yè)第一步:建立模型訓(xùn)練數(shù)據(jù)集分類算法IF rank = professorOR years 6THEN tenured = yes 分類規(guī)則10/10/49數(shù)據(jù)分析和挖掘第49頁(yè)第二步:用模型進(jìn)行分類分類規(guī)則測(cè)試集未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?注:測(cè)試集要獨(dú)立于訓(xùn)練樣本集,不然

15、會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”情況10/10/50數(shù)據(jù)分析和挖掘第50頁(yè)分類前期工作:準(zhǔn)備數(shù)據(jù)經(jīng)過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,能夠提升分類和預(yù)測(cè)過(guò)程準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或降低噪聲,處理空缺值。相關(guān)性分析數(shù)據(jù)中有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余;數(shù)據(jù)變換能夠?qū)?shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化10/10/51數(shù)據(jù)分析和挖掘第51頁(yè)比較分類方法使用以下標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法預(yù)測(cè)準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)類編號(hào)能力速度:產(chǎn)生和使用模型計(jì)算花銷(xiāo)魯棒性:給定噪聲數(shù)據(jù)或有空缺值數(shù)據(jù),模型正確預(yù)測(cè)能力可伸縮性:對(duì)大量數(shù)據(jù),有效構(gòu)建模型能力可解釋性:學(xué)習(xí)模型提供了解和洞察層次10/10/5

16、2數(shù)據(jù)分析和挖掘第52頁(yè)用判定樹(shù)歸納分類什么是判定樹(shù)?類似于流程圖樹(shù)結(jié)構(gòu)每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上測(cè)試每個(gè)分枝代表一個(gè)測(cè)試輸出每個(gè)樹(shù)葉節(jié)點(diǎn)代表類或類分布判定樹(shù)生成由兩個(gè)階段組成判定樹(shù)構(gòu)建開(kāi)始時(shí),全部訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸經(jīng)過(guò)選定屬性,來(lái)劃分樣本 (必須是離散值)樹(shù)剪枝許多分枝反應(yīng)是訓(xùn)練數(shù)據(jù)中噪聲和孤立點(diǎn),樹(shù)剪枝試圖檢測(cè)和剪去這種分枝判定樹(shù)使用:對(duì)未知樣本進(jìn)行分類經(jīng)過(guò)將樣本屬性值與判定樹(shù)相比較10/10/53數(shù)據(jù)分析和挖掘第53頁(yè)判定歸納樹(shù)算法判定歸納樹(shù)算法(一個(gè)貪心算法)自頂向下分治方式結(jié)構(gòu)判定樹(shù)樹(shù)以代表訓(xùn)練樣本單個(gè)根節(jié)點(diǎn)開(kāi)始使用分類屬性(假如是量化屬性,則需先進(jìn)行離散化)遞歸經(jīng)過(guò)選擇對(duì)應(yīng)測(cè)

17、試屬性,來(lái)劃分樣本,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)任何后代上出現(xiàn)測(cè)試屬性是依據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來(lái)進(jìn)行選擇(如:信息增益)注:屬性選擇遞歸劃分步驟停頓條件給定節(jié)點(diǎn)全部樣本屬于同一類沒(méi)有剩下屬性能夠用來(lái)深入劃分樣本使用多數(shù)表決沒(méi)有剩下樣本10/10/54數(shù)據(jù)分析和挖掘第54頁(yè)貝葉斯分類貝葉斯分類利用統(tǒng)計(jì)學(xué)中貝葉斯定理,來(lái)預(yù)測(cè)類組員概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定類概率。樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立,而且每個(gè)屬性對(duì)非類問(wèn)題產(chǎn)生影響都是一樣。10/10/55數(shù)據(jù)分析和挖掘第55頁(yè)提升分類法準(zhǔn)確性Bagging技術(shù)和boosting技術(shù)都經(jīng)過(guò)將T個(gè)學(xué)習(xí)得

18、到分類法C1,C2CT組合起來(lái),從而創(chuàng)造一個(gè)改進(jìn)分類法C*Bagging技術(shù)對(duì)訓(xùn)練集S進(jìn)行T次迭代,每次經(jīng)過(guò)放回取樣選取樣本集St,經(jīng)過(guò)學(xué)習(xí)St得到分類法Ct對(duì)于未知樣本X,每個(gè)分類法返回其類預(yù)測(cè),作為一票C*統(tǒng)計(jì)得票,并將得票最高預(yù)測(cè)賦予XBoosting技術(shù)每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)值Ct權(quán)值取決于其錯(cuò)誤率10/10/56數(shù)據(jù)分析和挖掘第56頁(yè)數(shù)據(jù)挖掘算法 關(guān)聯(lián)10/10/57數(shù)據(jù)分析和挖掘第57頁(yè)什么是關(guān)聯(lián)挖掘?關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其它信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購(gòu)物籃分析、交叉銷(xiāo)售、產(chǎn)品目錄設(shè)計(jì)等。舉例: 規(guī)則形式:

19、 “Body Head support, confidence”.buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%10/10/58數(shù)據(jù)分析和挖掘第58頁(yè)規(guī)則度量:支持度與可信度查找全部規(guī)則 X & Y Z 含有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z可能性可信度, c, 包含X 、 Y交易中也包含Z條件概率注:可信度A C (50%, 66.6%)C A (50%, 100%)買(mǎi)尿布客戶二者都買(mǎi)客戶買(mǎi)啤酒客戶10/10/59數(shù)據(jù)分析和挖掘第59頁(yè)關(guān)聯(lián)規(guī)則挖掘:不一樣類型關(guān)聯(lián)布爾 vs. 定量 關(guān)聯(lián) (基于 處理數(shù)據(jù)類型)buy

20、s(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60%age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75%單維 vs. 多維 關(guān)聯(lián) (例子同上)單層 vs. 多層 分析那個(gè)品種牌子啤酒與那個(gè)牌子尿布相關(guān)系?各種擴(kuò)展相關(guān)性、因果分析關(guān)聯(lián)并不一定意味著相關(guān)或因果添加約束如, 哪些“小東西”銷(xiāo)售促發(fā)了“大家伙”買(mǎi)賣(mài)?10/10/60數(shù)據(jù)分析和挖掘第60頁(yè)關(guān)聯(lián)規(guī)則挖掘一個(gè)例子對(duì)于 A C:support = support(A 、C) = 50%confidence

21、= support(A 、C)/support(A) = 66.6%最小值尺度 50%最小可信度 50%10/10/61數(shù)據(jù)分析和挖掘第61頁(yè)關(guān)鍵步驟:挖掘頻繁集Apriori基本思想:頻繁項(xiàng)集任何子集也一定是頻繁頻繁集:是指滿足最小支持度項(xiàng)目集合頻繁集子集也一定是頻繁如, 假如AB 是頻繁集,則 A B 也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到頻繁集生成關(guān)聯(lián)規(guī)則10/10/62數(shù)據(jù)分析和挖掘第62頁(yè)多層關(guān)聯(lián)規(guī)則項(xiàng)通常含有層次底層項(xiàng)通常支持度也低一些特定層規(guī)則可能更有意義交易數(shù)據(jù)庫(kù)能夠按照維或?qū)泳幋a能夠進(jìn)行共享多維挖掘食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃10/10/63數(shù)據(jù)分析和

22、挖掘第63頁(yè)挖掘多層關(guān)聯(lián)規(guī)則自上而下,深度優(yōu)先方法:先找高層“強(qiáng)”規(guī)則:牛奶 面包 20%, 60%.再找他們底層“弱”規(guī)則:酸奶 黃面包 6%, 50%.10/10/64數(shù)據(jù)分析和挖掘第64頁(yè)多層關(guān)聯(lián)規(guī)則支持度不變: 在各層之間使用統(tǒng)一支持度+ 一個(gè)最小支持度閾值. 假如一個(gè)項(xiàng)集父項(xiàng)集不含有最小支持度,那他本身也不可能滿足最小支持度。 底層項(xiàng)不會(huì)成為頻繁集,假如支持度太高 丟失底層關(guān)聯(lián)規(guī)則太低 生成太多高層關(guān)聯(lián)規(guī)則支持度遞減: 伴隨層次降低支持度遞減10/10/65數(shù)據(jù)分析和挖掘第65頁(yè)支持度不變支持度不變多層挖掘牛奶support = 10%酸奶 support = 6%脫脂奶suppor

23、t = 4%層 1min_sup = 5%層 2min_sup = 5%10/10/66數(shù)據(jù)分析和挖掘第66頁(yè)支持度遞減支持度遞減多層挖掘酸奶 support = 6%脫脂奶 support = 4%層 1min_sup = 5%層 2min_sup = 3%牛奶support = 10%10/10/67數(shù)據(jù)分析和挖掘第67頁(yè)多層關(guān)聯(lián):冗余過(guò)濾因?yàn)椤白嫦取标P(guān)系原因,有些規(guī)則可能是多出。例子牛奶 白面包 support = 8%, confidence = 70%酸奶 白面包 support = 2%, confidence = 72%我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則祖先參考規(guī)則祖先,假如他支持度與

24、我們“預(yù)期”支持度近似話,我們就說(shuō)這條規(guī)則是冗余。10/10/68數(shù)據(jù)分析和挖掘第68頁(yè)多層挖掘:深度優(yōu)先自頂向下,深度優(yōu)先方法:先挖掘高層頻繁項(xiàng): 牛奶 (15%), 面包 (10%)再挖掘他們底層相對(duì)較弱頻繁項(xiàng): 酸奶 (5%), 白面包 (4%)跨層時(shí)對(duì)支持度不一樣處理方法,對(duì)應(yīng)了不一樣算法:層之間支持度不變:假如t祖先是非頻繁,則不用考慮t支持度隨層遞減:則只考慮那些其祖先是頻繁/不可忽略項(xiàng)10/10/69數(shù)據(jù)分析和挖掘第69頁(yè)多維關(guān)聯(lián)規(guī)則:概念單維規(guī)則:buys(X, “milk”) buys(X, “bread”)多維規(guī)則: 2個(gè)以上維/謂詞維間關(guān)聯(lián)規(guī)則 (維詞不重復(fù))age(X,

25、”19-25”) occupation(X,“student”) buys(X,“coke”)混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù))age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”)類別屬性有限個(gè)值, 值之間無(wú)次序關(guān)系數(shù)量屬性數(shù)字,值之間隱含了次序關(guān)系10/10/70數(shù)據(jù)分析和挖掘第70頁(yè)挖掘多維關(guān)聯(lián)技術(shù)搜索頻繁k-維詞集合:如: age, occupation, buys 是一個(gè)3-維詞集合。按照對(duì) age 處理方式不一樣,分為:1. 用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義概念層次加以離散化。2. 帶數(shù)量關(guān)聯(lián)規(guī)則依據(jù)數(shù)據(jù)分布動(dòng)態(tài)把數(shù)值屬性離散化到不

26、一樣“箱”。3. 基于距離關(guān)聯(lián)規(guī)則用數(shù)據(jù)點(diǎn)之間距離動(dòng)態(tài)離散化10/10/71數(shù)據(jù)分析和挖掘第71頁(yè)大趨勢(shì) BIG DATA10/10/72數(shù)據(jù)分析和挖掘第72頁(yè)/10/1073數(shù)據(jù)分析和挖掘第73頁(yè)美國(guó)大數(shù)據(jù)戰(zhàn)略年3月,美國(guó)奧巴馬政府宣告投資2億美元開(kāi)啟“大數(shù)據(jù)研發(fā)計(jì)劃”,意在提升和改進(jìn)從海量和復(fù)雜數(shù)據(jù)中獲取知識(shí)能力,加速美國(guó)在科學(xué)和工程領(lǐng)域創(chuàng)造步伐,增強(qiáng)國(guó)家安全。這是繼1993年美國(guó)宣告“信息高速公路”計(jì)劃后又一次重大科技發(fā)展布署,由美國(guó)國(guó)家科學(xué)基金會(huì)、能源部等6個(gè)聯(lián)邦部門(mén)共同投資。/10/1074數(shù)據(jù)分析和挖掘第74頁(yè)谷歌盈利在于全部軟件應(yīng)用都是在線。用戶在無(wú)償使用這些產(chǎn)品同時(shí),把個(gè)人行為、喜好等信息也無(wú)償送給了Google。所以Google產(chǎn)品線越豐富,他對(duì)用戶了解就越深入,他廣告就越精準(zhǔn)。廣告價(jià)值就越高。這是正向循環(huán),谷歌好用、無(wú)償?shù)密浖a(chǎn)品,換取對(duì)用戶了解;經(jīng)過(guò)精準(zhǔn)廣告,找到生財(cái)之道。顛覆了微軟賣(mài)軟件拷貝盈利模式。成為互聯(lián)網(wǎng)巨頭?;ヂ?lián)網(wǎng)越來(lái)越智能/10/1075數(shù)據(jù)分析和挖掘第75頁(yè)馬云判斷來(lái)自于數(shù)據(jù)分析“初,阿里巴巴平臺(tái)上整個(gè)買(mǎi)家詢盤(pán)數(shù)急劇下滑,歐美對(duì)中國(guó)采購(gòu)在下滑。海關(guān)是賣(mài)了貨,出去以后再取得數(shù)據(jù);

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論