數(shù)據(jù)挖掘第1章-引論_第1頁
數(shù)據(jù)挖掘第1章-引論_第2頁
數(shù)據(jù)挖掘第1章-引論_第3頁
數(shù)據(jù)挖掘第1章-引論_第4頁
數(shù)據(jù)挖掘第1章-引論_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘與商務(wù)智能范勤勤物流研究中心目錄第一章聯(lián)系方式辦公地點:科研樓429BEmail:forever123fan@163.com考核方式閉卷考試(70%)+考勤(30%)課時安排總學(xué)時36,起止1-9周目錄第一章內(nèi)容安排第一章緒論第二章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性第三章分類:基本概念第四章分類:高級方法第五章聚類分析:基本概念和方法第六章離群點檢測第七章認識數(shù)據(jù)第八章數(shù)據(jù)預(yù)處理目錄第一章參考書JiaweiHan,MichelineKamber,JianPei(著).范明,孟小峰.(譯)

數(shù)據(jù)挖掘:概念與技術(shù),機械工業(yè)出版社,2012.MargaretH.Dunham.數(shù)據(jù)挖掘教程.清華大學(xué)出版社.2003(英文)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996.史忠植.知識發(fā)現(xiàn).清華大學(xué)出版社,2002.陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.人民郵電出版社,20041234567第一章緒論為什么進行數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?可以挖掘什么類型的數(shù)據(jù)?可以挖掘什么類型的模式?使用什么技術(shù)?面向什么類型的應(yīng)用?數(shù)據(jù)挖掘的主要問題?目錄第一章為什么進行數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的發(fā)展動力數(shù)據(jù)爆炸問題自動數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析Business:Web,e-commerce,transactions,stocks,…Science:Remotesensing,bioinformatics,scientificsimulation,…Societyandeveryone:News,YouKu,wechat,QQ,….7數(shù)據(jù)挖掘的發(fā)展動力8巨量數(shù)據(jù)的例子Europe‘sVeryLongBaselineInterferometry(VLBI,特長基線干涉儀):16個天文望遠鏡,每個望遠鏡每秒產(chǎn)生1個G的天文觀測數(shù)據(jù)。電信公司數(shù)據(jù):每天有幾十億的電話。銀行數(shù)據(jù):交易記錄。百度:每天處理的數(shù)據(jù)量將近100個PB,1PB=100萬個G,相當(dāng)于5000個國家圖書館的信息量總和。航運:一艘營運中的船舶,24小時內(nèi)通常會生成高達2GB的數(shù)據(jù)信息,這包括天氣、發(fā)動機、航行位置、速度、燃油消耗等。數(shù)據(jù)挖掘的發(fā)展動力-社會需求9我們擁有豐富的數(shù)據(jù),但卻缺乏知識人們渴望通過對這些龐大的數(shù)據(jù)分析得到更多的有助于決策的信息。雖然,目前的數(shù)據(jù)庫系統(tǒng)可以高效率地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但由于數(shù)據(jù)量龐大以及數(shù)據(jù)庫系統(tǒng)中分析方法的嚴重缺乏,使得它無法發(fā)現(xiàn)數(shù)據(jù)中隱藏的相互聯(lián)系,更無法根據(jù)當(dāng)前的數(shù)據(jù)去預(yù)測未來的發(fā)展趨勢。因此,出現(xiàn)了所謂“數(shù)據(jù)多,知識少”的現(xiàn)象,造成了嚴重的資源浪費。數(shù)據(jù)挖掘的發(fā)展動力數(shù)據(jù)挖掘從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合解決方法數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)10社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn)社會信息化后,社會的歷史是數(shù)據(jù)的歷史

數(shù)據(jù)管理系統(tǒng)

數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)庫技術(shù)的演化文件系統(tǒng)1960s和以前層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫1970s關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的實現(xiàn)1980s早期各種高級數(shù)據(jù)庫系統(tǒng)(擴展的關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫等等)面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)(空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等等)1980s晚期數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、多媒體數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫1990s流數(shù)據(jù)管理和挖掘基于各種應(yīng)用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫和整合的信息系統(tǒng)2000s11什么是數(shù)據(jù)挖掘?概述數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從大量的數(shù)據(jù)中挖掘哪些令人感興趣的(易被理解、新穎的、潛在有用的、非平凡的)模式或知識挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個精確的用詞)數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等13數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識挖掘(KDD)數(shù)據(jù)挖掘——知識挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估14KDD的步驟KDD過程數(shù)據(jù)清理:(消除噪聲和刪除不一致的數(shù)據(jù)。占全過程60%的工作量)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式)數(shù)據(jù)挖掘(核心步驟,使用智能方法提取數(shù)據(jù)模式)模式評估(根據(jù)某種興趣度度量,識別提供知識的真正有趣的模式)知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識)15典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)集成16數(shù)據(jù)挖掘系統(tǒng)的特征17數(shù)據(jù)的特征算法的特征知識系統(tǒng)的特征數(shù)據(jù)挖掘系統(tǒng)的特征——數(shù)據(jù)特征18大容量POS數(shù)據(jù)(某個超市每天要處理高達2000萬筆交易)衛(wèi)星圖像(NASA的地球觀測衛(wèi)星以每小時50GB的速度發(fā)回數(shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)數(shù)據(jù)挖掘系統(tǒng)的特征——算法特征19構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價:反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索主要方法分類聚類相關(guān)規(guī)則回歸其他數(shù)據(jù)挖掘系統(tǒng)的特征——知識系統(tǒng)特征20知識發(fā)現(xiàn)系統(tǒng)需要一個前處理過程知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動過程知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識規(guī)則分類關(guān)聯(lián)并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進行多種復(fù)雜的處理信息系統(tǒng)專注于數(shù)據(jù)的查詢處理機器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個多學(xué)科的融合21可以挖掘什么類型的數(shù)據(jù)?數(shù)據(jù)類型數(shù)據(jù)庫數(shù)據(jù)事務(wù)數(shù)據(jù)數(shù)據(jù)倉庫其他類型的數(shù)據(jù)空間數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)23數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫數(shù)據(jù)24數(shù)據(jù)庫系統(tǒng):由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成關(guān)系數(shù)據(jù)庫是表的匯集,每個表都被賦予一個唯一的名字。例子:商店、學(xué)校當(dāng)數(shù)據(jù)挖掘用于關(guān)系數(shù)據(jù)庫時,可以進一步搜索趨勢或數(shù)據(jù)模式。分析顧客數(shù)據(jù):新顧客的信用風(fēng)險檢測偏差:哪些商品的銷售出人預(yù)料數(shù)據(jù)倉庫數(shù)據(jù)倉庫25數(shù)據(jù)倉庫(數(shù)據(jù)立方體):是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在一致的模式下,并且通常駐留在單個站點上。例子:沃爾瑪,銀行事務(wù)數(shù)據(jù)事務(wù)數(shù)據(jù)26事務(wù)數(shù)據(jù)庫的每個記錄代表一個事務(wù):如顧客的一個購物,一個航班訂票事務(wù)標(biāo)識號(trans_ID)商品ID的列表T0011,5,8,9,12T0021,8,14……數(shù)據(jù)挖掘技術(shù)的應(yīng)用通過頻繁項集來挖掘促銷策略:如一起銷售商品的集合空間數(shù)據(jù)庫空間數(shù)據(jù)庫空間數(shù)據(jù)庫是指在關(guān)系型數(shù)據(jù)庫(DBMS)內(nèi)部對地理信息進行物理存儲。空間數(shù)據(jù)庫中存儲的海量數(shù)據(jù)包括對象的空間拓撲特征、非空間屬性特征以及對象在時間上的狀態(tài)變化數(shù)據(jù)挖掘技術(shù)的應(yīng)用通過空間分類和空間趨勢分析,引入機器學(xué)習(xí)算法,對有用模式進行智能檢索常見的空間數(shù)據(jù)庫數(shù)據(jù)類型地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學(xué)圖像數(shù)據(jù)27時間數(shù)據(jù)庫和時序數(shù)據(jù)庫時間數(shù)據(jù)庫和時序數(shù)據(jù)庫時間數(shù)據(jù)庫和時序數(shù)據(jù)庫都存放與時間有關(guān)的數(shù)據(jù)。時間數(shù)據(jù)庫通常存放包含時間相關(guān)屬性的數(shù)據(jù)。時序數(shù)據(jù)庫存放隨時間變化的值序列例子:股票市場的價格、環(huán)境溫度、銀行交易等對時間數(shù)據(jù)庫和時序數(shù)據(jù)庫的數(shù)據(jù)挖掘?qū)r間數(shù)據(jù)庫和時序數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或?qū)ο笞兓厔?8流數(shù)據(jù)特點與傳統(tǒng)的數(shù)據(jù)庫技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比,流數(shù)據(jù)在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別主要應(yīng)用場合網(wǎng)絡(luò)監(jiān)控傳感器網(wǎng)絡(luò)航空航天流媒體…等等29多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫實現(xiàn)用計算機管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術(shù)一般將這些多媒體數(shù)據(jù)以二進制大對象的形式進行存儲對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘?qū)τ诙嗝襟w數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的多特征提取和基于相似性的模式匹配30面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對數(shù)據(jù)以對象的形式進行存儲,并在這個基礎(chǔ)上實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢數(shù)據(jù)庫的能力等數(shù)據(jù)挖掘面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)挖掘會涉及一些新的技術(shù),比如處理復(fù)雜對象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。對象-關(guān)系數(shù)據(jù)庫對象-關(guān)系數(shù)據(jù)庫基于對象-關(guān)系模型構(gòu)造,該模型通過處理復(fù)雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴充關(guān)系模型31異構(gòu)數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫歷史數(shù)據(jù)庫是一系列的異構(gòu)數(shù)據(jù)庫系統(tǒng)的集合,包括不同種類的數(shù)據(jù)庫系統(tǒng),像關(guān)系數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫、文件系統(tǒng)等等對于異構(gòu)數(shù)據(jù)庫系統(tǒng),實現(xiàn)數(shù)據(jù)共享應(yīng)當(dāng)達到兩點一是實現(xiàn)數(shù)據(jù)庫轉(zhuǎn)換;二是實現(xiàn)數(shù)據(jù)的透明訪問。有效利用歷史數(shù)據(jù)庫的關(guān)鍵在于實現(xiàn)不同數(shù)據(jù)庫之間的數(shù)據(jù)信息資源、硬件設(shè)備資源和人力資源的合并和共享WEBSERVICE技術(shù)的出現(xiàn)有利于歷史數(shù)據(jù)庫數(shù)據(jù)的重新利用32文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)文本數(shù)據(jù)庫存儲的是對對象的文字性描述萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫文本數(shù)據(jù)庫的分類無結(jié)構(gòu)類型(大部分的文本資料和網(wǎng)頁)半結(jié)構(gòu)類型(XML數(shù)據(jù))結(jié)構(gòu)類型(圖書館數(shù)據(jù))數(shù)據(jù)挖掘內(nèi)容內(nèi)容檢索WEB訪問模式檢索33數(shù)據(jù)挖掘應(yīng)用——市場分析和管理數(shù)據(jù)從那里來?信用卡交易、會員卡、商家的優(yōu)惠卷、消費者投訴電話、公眾生活方式研究交叉市場分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測目標(biāo)市場構(gòu)建一系列的“客戶群模型”,這些顧客具有相同特征:興趣愛好、收入水平、消費習(xí)慣,等等確定顧客的購買模式34數(shù)據(jù)挖掘應(yīng)用——市場分析和管理顧客分析哪類顧客購買哪種商品(聚類分析或分類預(yù)測)提供概要信息多維度的綜合報告統(tǒng)計概要信息(數(shù)據(jù)的集中趨勢和變化)客戶需求分析確定適合不同顧客的最佳商品預(yù)測何種因素能夠吸引新顧客35數(shù)據(jù)挖掘應(yīng)用——公司分析和風(fēng)險管理財務(wù)計劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測交叉區(qū)域分析和時間序列分析(財務(wù)資金比率,趨勢分析等等)競爭對競爭者和市場趨勢的監(jiān)控將顧客按等級分組和基于等級的定價過程將定價策略應(yīng)用于競爭更激烈的市場中資源計劃總結(jié)和比較資源和花費36數(shù)據(jù)挖掘應(yīng)用——欺詐行為檢測和異常模式的發(fā)現(xiàn)方法對欺騙行為進行聚類和建模,并進行孤立點分析應(yīng)用(衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等)汽車保險:檢測交通事故獲取保險賠償?shù)娜巳合村X:發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險:職業(yè)病人,醫(yī)生以及相關(guān)數(shù)據(jù)分析;不必要的或相關(guān)的測試電信:電話呼叫欺騙行為;電話呼叫模型(呼叫目的地、持續(xù)時間、日或周呼叫次數(shù)。分析該模型發(fā)現(xiàn)與期待標(biāo)準的偏差)零售產(chǎn)業(yè):分析師估計有38%的零售額下降是由于雇員的不誠實行為造成的反恐怖主義37數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例38例子1:信貸決策(inthe1980s,AmericanExpress)已知:申請人金融和個人信息調(diào)查表問題:是否批準貸款簡單的統(tǒng)計方法可以決定90%的案例“臨界線案例”要由信貸員做出決定50%準予貸款的“臨界線案例”未按期還款.解決方案:拒絕所有“臨界線案例”?No!臨界線案例是最活躍的,重要的客戶數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例39例子1:信貸決策(inthe1980s,AmericanExpress)1000“臨界線案例”的訓(xùn)練集20個屬性:年齡為當(dāng)前老板工作的年限在當(dāng)前居住地居住的年限擁有銀行帳戶的年限所持有的其他信用卡,…學(xué)習(xí)到的規(guī)則:正確率為70%信貸員決策的正確率為50%規(guī)則可以用來向客戶解釋決策背后的原因數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例40例子2:購物籃分析關(guān)聯(lián)分析技術(shù)被用來發(fā)現(xiàn)在交易傾向同時被購買的商品(用來分析收銀數(shù)據(jù))啤酒+尿布擺在一起促銷數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例41例子3:超市預(yù)知高中生懷孕一家門店被客戶投訴將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒客戶道歉數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例42例子4:圖像處理學(xué)習(xí)到的規(guī)則:正確率為70%已知:沿海水域的雷達衛(wèi)星圖像問題:檢測出是否有浮油Noteasy:看上去的深色區(qū)域可能是由天氣因素造成的。(如大風(fēng))需要接受過培訓(xùn)的人員到圖片所示區(qū)域?qū)嵉乜疾欤喊嘿F的過程數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例43例子4:圖像處理從標(biāo)準化圖像提取黑色區(qū)域?qū)傩裕簠^(qū)域規(guī)模形狀、面積亮度邊角的銳利度和鋸齒形狀附近的其他區(qū)域背景信息解決問題受到如下限制:訓(xùn)練數(shù)據(jù)很少:原油泄漏事件是很少發(fā)生的不均衡數(shù)據(jù):絕大多數(shù)的深色區(qū)域不是浮油造成的數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例44例子5:預(yù)測奧斯卡關(guān)2013年,微軟紐約研究院的經(jīng)濟學(xué)家DAVID利用大數(shù)據(jù)成功預(yù)測24個奧斯卡獎項中的19個。2014年,DAVID成功預(yù)測24個獎項中的21個。

可以挖掘什么類型的模式?概述一般功能描述性的數(shù)據(jù)挖掘-描述數(shù)據(jù)的一般性質(zhì),了解數(shù)據(jù)中潛在的規(guī)律預(yù)測性的數(shù)據(jù)挖掘-對數(shù)據(jù)進行推斷,做預(yù)測常用的數(shù)據(jù)挖掘功能通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:類/概念描述:特性化和區(qū)分挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性用于預(yù)測分析的分類與回歸聚類分析離群點分析46類/概念描述:特性化和區(qū)分StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210概念描述為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類對象時,也稱為類描述)數(shù)據(jù)區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。例:數(shù)據(jù)特征化:提供給定數(shù)據(jù)集的簡潔匯總。例:對AllElectronic公司的“大客戶”(年消費額$1000以上)的特征化描述:40-50歲,有固定職業(yè),信譽良好,等等47挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性頻繁模式在數(shù)據(jù)中頻繁出現(xiàn)的模式,包括頻繁項集、頻繁子序列和頻繁子結(jié)構(gòu)示例關(guān)聯(lián)規(guī)則挖掘從事務(wù)數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性廣泛的用于購物籃或事務(wù)數(shù)據(jù)分析48用于預(yù)測分析的分類與回歸概念描述根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)(分類),用來預(yù)測類型標(biāo)志未知的對象類(預(yù)測)分類規(guī)則。IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”其他比如:按氣候?qū)曳诸?,按汽油消耗定額將汽車分類導(dǎo)出模型的表示:決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)可以用來預(yù)報某些未知的或丟失的數(shù)字值49聚類分析聚類分析將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程最大化類內(nèi)的相似性和最小化類間的相似性應(yīng)用對WEB日志的數(shù)據(jù)進行聚類,以發(fā)現(xiàn)相同的用戶訪問模式50離群點分析離群點分析離群點:一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)通常離群點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行離群點分析而得到結(jié)論應(yīng)用信用卡欺詐檢測移動電話欺詐檢測客戶劃分醫(yī)療分析(異常)51所有模式都是有趣的嗎?結(jié)論數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計,比如:支持度、置信度等等主觀度量:基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動的等等模式興趣度的度量一個模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對于新的或測試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)52使用什么技術(shù)?數(shù)據(jù)挖掘:多個學(xué)科的融合統(tǒng)計學(xué)數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)倉庫信息檢索機器學(xué)習(xí)數(shù)據(jù)挖掘應(yīng)用模式識別可視化算法高性能計算54統(tǒng)計學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論