數(shù)據(jù)挖掘(第2版)PPT全套完整教學(xué)課件_第1頁
數(shù)據(jù)挖掘(第2版)PPT全套完整教學(xué)課件_第2頁
數(shù)據(jù)挖掘(第2版)PPT全套完整教學(xué)課件_第3頁
數(shù)據(jù)挖掘(第2版)PPT全套完整教學(xué)課件_第4頁
數(shù)據(jù)挖掘(第2版)PPT全套完整教學(xué)課件_第5頁
已閱讀5頁,還剩545頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘第1章緒論.pptx第2章數(shù)據(jù)處理基礎(chǔ).pptx第3章分類與回歸.ppt第4章聚類分析.ppt第5章關(guān)聯(lián)規(guī)則.ppt第6章離群點(diǎn)挖掘.ppt全套PPT課件1第1章緒論

引例數(shù)據(jù)挖掘技術(shù)使用背景

數(shù)據(jù)挖掘任務(wù)及過程

數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘與隱私保護(hù)2引例

超市貨架的組織廣告精準(zhǔn)投放客戶流失分析智能搜索入侵檢測3超市貨架的組織——“啤酒與尿布”

貨架的組織會影響商品的銷售!超市商品按什么原則擺放?尿布與啤酒被擺在一起。為什么?原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時(shí)又會順手購買自己愛喝的啤酒。這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性,研究“啤酒與尿布”關(guān)聯(lián)的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨(dú)門武器,購物籃分析可以幫助超市在銷售過程中找到具有關(guān)聯(lián)關(guān)系的商品,并以此獲得銷售收益的增長!關(guān)聯(lián)銷售!4網(wǎng)上購物——“定向營銷”(廣告投放)

隨著Web2.0應(yīng)用的推廣,網(wǎng)絡(luò)社區(qū)服務(wù)SNS(SocialNetworkService)已成為互聯(lián)網(wǎng)關(guān)注的熱點(diǎn)。通過挖掘網(wǎng)絡(luò)中潛在的社區(qū)人群,企業(yè)可以更好地搜索潛在消費(fèi)者和傳播對象,將分散的目標(biāo)顧客和受眾精準(zhǔn)地聚集在一起,精確地把廣告投放給目標(biāo)客戶,這不但有效降低單人營銷費(fèi)用,而且可以減少對非目標(biāo)客戶的干擾,提高廣告的滿意度,最終實(shí)現(xiàn)網(wǎng)絡(luò)廣告投放策略的真正價(jià)值。5客戶流失分析

在激烈競爭的市場,往往采取名目繁多的促銷活動和層出不窮的廣告宣傳來吸引新客戶、留住老客戶;研究發(fā)現(xiàn):發(fā)展一個(gè)新客戶比保持一個(gè)老客戶的費(fèi)用要高出5倍以上。客戶流失分析是以客戶的歷史消費(fèi)行為數(shù)據(jù)、客戶的基礎(chǔ)信息、客戶擁有的產(chǎn)品信息為基礎(chǔ),通過研究綜合考慮流失的特點(diǎn)和與之相關(guān)的多種因素,以此建立可以在一定時(shí)間范圍內(nèi)預(yù)測客戶流失傾向的預(yù)測模型,以便對流失進(jìn)行預(yù)測、并對流失的后果進(jìn)行評估

6信息檢索——“智能搜索”

Web信息檢索,即搜索引擎,是能有效解決通過網(wǎng)絡(luò)來快速發(fā)現(xiàn)有用信息的重要工具。傳統(tǒng)的搜索引擎(百度、Google、Bing、搜搜等),在用戶輸入關(guān)鍵詞進(jìn)行查詢后,返回的是成千上萬的相關(guān)結(jié)果,往往需要用戶花費(fèi)大量時(shí)間瀏覽與選擇,不能滿足用戶快速獲取信息的愿望。因此大量學(xué)者以及研究人員開始研究行業(yè)化、個(gè)性化、智能化的第三代搜索引擎。

7入侵檢測隨著互聯(lián)網(wǎng)的發(fā)展,各種網(wǎng)絡(luò)入侵和攻擊工具、手段也隨著出現(xiàn),使得入侵檢測成為網(wǎng)絡(luò)管理的重要組成部分。入侵可以定義為任何威脅網(wǎng)絡(luò)資源(如用戶賬號、文件系統(tǒng)、系統(tǒng)內(nèi)核等)的完整性、機(jī)密性和可用性的行為。目前,大多數(shù)商業(yè)入侵檢測系統(tǒng)主要使用誤用檢測策略,這種策略對已知類型的攻擊通過規(guī)則可以較好地檢測,但對新的未知攻擊或已知攻擊的變種則難以檢測。新的網(wǎng)絡(luò)攻擊或已知攻擊的變種可以通過異常檢測方法來發(fā)現(xiàn),異常檢測通過構(gòu)建正常網(wǎng)絡(luò)行為模型(稱為特征描述),來檢測與特征描述嚴(yán)重偏離的新的模式。這種偏離可能代表真正的入侵,或者僅是需要加入特征描述的新行為。異常檢測主要的優(yōu)勢是可以檢測到以前未觀測到的新入侵。與傳統(tǒng)的入侵檢測系統(tǒng)相比,基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)通常更精確,需要更少的專家的手工處理。81.1數(shù)據(jù)挖掘技術(shù)使用背景9時(shí)代的挑戰(zhàn)、市場的需求

隨著通信、計(jì)算機(jī)、網(wǎng)絡(luò)、傳感器技術(shù)、數(shù)字化技術(shù)的快速發(fā)展,以及日常生活自動化技術(shù)的普遍使用,人們獲取數(shù)據(jù)、存儲數(shù)據(jù)變得越來越容易。我們正處在“大數(shù)據(jù)時(shí)代”,數(shù)以億計(jì)的人們,無時(shí)無刻、不知不覺地在各種場合生產(chǎn)大量數(shù)據(jù),如超市POS機(jī)、自動售貨機(jī)、信用卡和借記卡、在線購物、自動訂單處理、電子售票、RFID(RadioFrequencyIdentification射頻識別)、客服中心、各種監(jiān)控設(shè)備、社交媒體等?,F(xiàn)象:“數(shù)據(jù)過剩”、“信息爆炸”與“知識貧乏”

苦惱:淹沒在數(shù)據(jù)中,難以制定合適的決策!

如何將海量的數(shù)據(jù)以極快的速度加以歸納、計(jì)算與分析,找到暗藏于這些數(shù)據(jù)中的規(guī)律也就是挖掘人們工作、生活和社會發(fā)展中的規(guī)律,挖掘人與自然界的規(guī)律,這就是數(shù)據(jù)資源的開發(fā)利用,是非常有價(jià)值的工作。

10

數(shù)據(jù)挖掘——商業(yè)的驅(qū)動

在強(qiáng)大的商業(yè)需求驅(qū)動下,商家們開始注意到有效地解決大容量數(shù)據(jù)的利用問題具有巨大的商機(jī);學(xué)者們開始思考如何從大容量數(shù)據(jù)集中獲取有用信息和知識的方法。然而,面對高維、復(fù)雜、異構(gòu)的海量數(shù)據(jù),提取潛在的有用信息已經(jīng)成為巨大的挑戰(zhàn)。面對這一挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并顯示出強(qiáng)大的生命力。11

數(shù)據(jù)挖掘——科學(xué)計(jì)算、人工智能的驅(qū)動

外太空探索、氣象預(yù)報(bào)、基因數(shù)據(jù)分析、智慧城市、無人駕駛,......。12數(shù)據(jù)挖掘技術(shù)正在變成信息技術(shù)的核心之一;特別是大數(shù)據(jù)時(shí)代的來臨沖擊著傳統(tǒng)行業(yè),包括社交媒體、零售業(yè)、電子商務(wù)、交通、教育、金融、醫(yī)療、工業(yè)制造、旅游、生物醫(yī)藥等行業(yè),同時(shí)大數(shù)據(jù)也正在徹底改變?nèi)藗兊纳?、學(xué)習(xí)和工作方式。131.2數(shù)據(jù)挖掘任務(wù)及過程1.2.1數(shù)據(jù)挖掘定義1.2.2數(shù)據(jù)挖掘任務(wù)1.2.3數(shù)據(jù)挖掘過程1.2.4數(shù)據(jù)挖掘?qū)ο?.2.5數(shù)據(jù)挖掘工具及其選擇14技術(shù)層面:數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中,提取潛在有用的信息和知識的過程。商業(yè)層面:數(shù)據(jù)挖掘就是一種商業(yè)信息處理技術(shù),其主要特點(diǎn)是對大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和建模處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。1.2.1數(shù)據(jù)挖掘定義15本質(zhì)區(qū)別:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實(shí)用三個(gè)特征。其主要目標(biāo)就是提高決策能力,能在過去的經(jīng)驗(yàn)基礎(chǔ)上預(yù)言未來趨勢等。數(shù)據(jù)挖掘傳統(tǒng)數(shù)據(jù)分析方法(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析等)?16數(shù)據(jù)挖掘與相關(guān)學(xué)科之間的關(guān)系數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫等學(xué)科的交叉。MachineLearning/PatternRecognitionStatistics/

AIDataMiningDatabasesystems171.2.2數(shù)據(jù)挖掘任務(wù)預(yù)測任務(wù)根據(jù)其它屬性的值預(yù)測特定屬性的值,如分類、回歸、離群點(diǎn)檢測。描述任務(wù)尋找概括數(shù)據(jù)中潛在聯(lián)系的模式,如聚類分析、關(guān)聯(lián)分析、演化分析、序列模式挖掘。18

(1)分類(Classification)分析

分類分析,通過分析示例數(shù)據(jù)庫中的數(shù)據(jù)為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用此分類規(guī)則對其它數(shù)據(jù)庫中的記錄進(jìn)行分類。

分類分析廣泛應(yīng)用于用戶行為分析(受眾分析)、風(fēng)險(xiǎn)分析、生物科學(xué)等。垃圾郵件識別19

(2)聚類(Clustering)分析

“物以類聚,人以群分”。聚類分析技術(shù)試圖找出數(shù)據(jù)集中的共性和差異,并將具有共性的對象聚合在相應(yīng)的類中。聚類可以幫助決定哪些組合更有意義,廣泛應(yīng)用于客戶細(xì)分、定向營銷、信息檢索等等。通信行業(yè)的套餐設(shè)計(jì)20聚類與分類的主要區(qū)別

聚類與分類是容易混淆的兩個(gè)概念,聚類是一種無指導(dǎo)的觀察式學(xué)習(xí),沒有預(yù)先定義的類。而分類問題是有指導(dǎo)的示例式學(xué)習(xí),預(yù)先定義有類。分類是訓(xùn)練樣本包含有分類屬性值,而聚類則是在訓(xùn)練樣本中找到這些分類屬性值。聚類分類監(jiān)督(指導(dǎo))與否無指導(dǎo)學(xué)習(xí)(沒有預(yù)先定義的類)有指導(dǎo)學(xué)習(xí)(有預(yù)先定義的類)是否建立模型或訓(xùn)練否,旨在發(fā)現(xiàn)空間實(shí)體的屬性間的函數(shù)關(guān)系。是,具有預(yù)測功能21(b)(a)(c)(d)例:撲克牌的劃分與垃圾郵件的識別之間的差異。撲克牌的劃分屬于聚類問題。在不同的撲克游戲中采用不同的劃分方式,圖1-2為十六張牌基于不同相似性度量(花色、點(diǎn)數(shù)或顏色)的劃分結(jié)果。圖1-2十六張牌基于不同相似性度量的劃分結(jié)果垃圾郵件的識別屬于分類問題,所有訓(xùn)練用郵件預(yù)先被定義好類標(biāo)號信息,即訓(xùn)練集中的每封郵件預(yù)先被標(biāo)記為垃圾郵件或合法郵件信息,需要利用已有的訓(xùn)練郵件建立預(yù)測模型,然后利用預(yù)測模型來對未來未知郵件進(jìn)行預(yù)測。22例:識別不同類型的植物VS給植物命名識別不同類型的植物屬于聚類問題。給植物命名屬于分類問題。23 (3)回歸(Regression)分析

回歸分析是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種分析方法。其可應(yīng)用于風(fēng)險(xiǎn)分析、作文自動評分等領(lǐng)域。分類與回歸的區(qū)別分類和回歸都有預(yù)測的功能,但是:分類預(yù)測的輸出為離散或標(biāo)稱的屬性;回歸預(yù)測的輸出為連續(xù)屬性值;分類與回歸的例子:預(yù)測未來某銀行客戶會流失或不流失,這是分類任務(wù);預(yù)測某商場未來一年的總營業(yè)額,這是回歸任務(wù)。24(4)關(guān)聯(lián)(Association)分析

關(guān)聯(lián)分析,發(fā)現(xiàn)特征之間的相互依賴關(guān)系,通常是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的模式知識(又稱為關(guān)聯(lián)規(guī)則)。關(guān)聯(lián)分析廣泛用于市場營銷、事務(wù)分析等領(lǐng)域。(5)離群點(diǎn)(Outlier)檢測

離群點(diǎn)檢測就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)。可應(yīng)用于商業(yè)欺詐行為的自動檢測,網(wǎng)絡(luò)入侵檢測,金融欺詐檢測,反洗錢,犯罪嫌疑人調(diào)查,海關(guān)、稅務(wù)稽查等。25(6)演化(Evolving)分析

演化分析就是對隨時(shí)間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。如商品銷售的周期(季節(jié))性分析。(7)序列模式(SequentialPattern)挖掘

序列模式挖掘是指分析數(shù)據(jù)間的前后序列關(guān)系,包括相似模式發(fā)現(xiàn)、周期模式發(fā)現(xiàn)等。其應(yīng)用領(lǐng)域包括客戶購買行為模式預(yù)測、Web訪問模式預(yù)測、疾病診斷、網(wǎng)絡(luò)入侵檢測等。26(8)描述和可視化(DescriptionandVisualization)描述和可視化是對數(shù)據(jù)挖掘結(jié)果的表示方式。一般通過可視化工具進(jìn)行數(shù)據(jù)的展現(xiàn)、分析、鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻地展現(xiàn)出來。271.2.3數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘和知識發(fā)現(xiàn)緊密相連,在認(rèn)識數(shù)據(jù)挖掘過程前,先來了解知識發(fā)現(xiàn)這個(gè)概念。知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個(gè)過程,這個(gè)過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。

28知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)從技術(shù)的角度看知識發(fā)現(xiàn)過程29知識發(fā)現(xiàn)的主要步驟:

數(shù)據(jù)清洗(datacleaning)。其作用是清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù)。數(shù)據(jù)集成(dataintegration)。其作用是將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起。數(shù)據(jù)轉(zhuǎn)換(datatransformation)。其作用是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式。數(shù)據(jù)挖掘(datamining)。其作用是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識。模式評估(patternevaluation)。其作用是根據(jù)一定評估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的相關(guān)知識。知識表示(knowledgepresentation)。其作用是利用可視化和知識表達(dá)技術(shù),向用戶展示所挖掘的相關(guān)知識。301.2.4數(shù)據(jù)挖掘?qū)ο?1)車載信息服務(wù)數(shù)據(jù)(2)文本數(shù)據(jù)(3)時(shí)間數(shù)據(jù)和位置數(shù)據(jù)(4)RFID數(shù)據(jù)(5)智能電網(wǎng)數(shù)據(jù)(6)傳感器數(shù)據(jù)(7)遙測數(shù)據(jù)(8)社交網(wǎng)絡(luò)數(shù)據(jù)(9)時(shí)態(tài)數(shù)據(jù)和時(shí)間序列數(shù)據(jù)(10)流數(shù)據(jù)(11)多媒體數(shù)據(jù)311.2.5數(shù)據(jù)挖掘工具及其選擇挖掘軟件比較著名的商用數(shù)據(jù)挖掘軟件有IBMSPSSModeler、MicrosoftSQLServerAnalysisServices、OracleDM等,它們都能夠提供常規(guī)的挖掘過程和挖掘模式。Matlab,Excel(DatamininginExcel:XLMiner)等提供了數(shù)據(jù)挖掘模塊。開源數(shù)據(jù)挖掘工具有Weka,RapidMiner(YALE),OrangeJHepWork,KNIME,ARMiner等。Python!R!321.3數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘的應(yīng)用無處不在,有大量數(shù)據(jù)的地方就有數(shù)據(jù)挖掘的用武之地。數(shù)據(jù)挖掘技術(shù)應(yīng)用很廣,應(yīng)用較好的領(lǐng)域、行業(yè)有:金融保險(xiǎn)業(yè)電信市場營銷分析醫(yī)學(xué)體育生物信息學(xué)智能交通等這里主要介紹在商業(yè)領(lǐng)域和計(jì)算機(jī)領(lǐng)域的應(yīng)用。331.3數(shù)據(jù)挖掘應(yīng)用1.3.1數(shù)據(jù)挖掘在計(jì)算機(jī)領(lǐng)域中的應(yīng)用1.3.2數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用1.3.3數(shù)據(jù)挖掘在其它領(lǐng)域中的應(yīng)用1.3.4數(shù)據(jù)挖掘技術(shù)的前景341.3.1數(shù)據(jù)挖掘在計(jì)算機(jī)領(lǐng)域中的應(yīng)用(1)信息安全:入侵檢測,垃圾郵件的過濾

傳統(tǒng)的信息安全系統(tǒng)概括性差,只能發(fā)現(xiàn)模式規(guī)定的、已知的入侵行為,難以發(fā)現(xiàn)新的入侵行為。數(shù)據(jù)挖掘能夠?qū)徲?jì)數(shù)據(jù)進(jìn)行自動的、更高抽象層次的分析,從中提取出具有代表性、概括性的系統(tǒng)特征模式,以便減輕人們的工作量,且能自動發(fā)現(xiàn)新的入侵行為。同樣地,利用數(shù)據(jù)挖掘技術(shù)也可分析比較垃圾郵件與正常郵件的異同,建立垃圾郵件過濾模型,過濾無聊電郵和商業(yè)推銷等方面的垃圾郵件。35(2)互聯(lián)網(wǎng)信息挖掘

利用數(shù)據(jù)挖掘技術(shù)從與WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術(shù)、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)、信息學(xué)等多個(gè)領(lǐng)域,是一項(xiàng)綜合技術(shù)。

互聯(lián)網(wǎng)信息挖掘可分為Web內(nèi)容挖掘、Web使用挖掘、Web結(jié)構(gòu)挖掘。36Web結(jié)構(gòu)挖掘:挖掘Web上的鏈接結(jié)構(gòu),即對Web文檔的結(jié)構(gòu)進(jìn)行挖掘。通過Web頁面間的鏈接信息可以識別出權(quán)威頁面、安全隱患(非法鏈接)等。Web使用挖掘:通過對用戶訪問行為或Web日志的分析,獲得用戶的有用模式,建立用戶興趣模型。分析和發(fā)現(xiàn)Log日志中蘊(yùn)藏的規(guī)律可以識別潛在客戶、跟蹤Web服務(wù)的質(zhì)量以及偵探非法訪問的隱患等。Web內(nèi)容挖掘:對Web頁面內(nèi)容及后臺交易數(shù)據(jù)庫進(jìn)行挖掘,Web內(nèi)容挖掘與文本挖掘(TextMining)和Web搜索引擎(SearchEngine)等領(lǐng)域密切相關(guān)。37(3)自動問答系統(tǒng)

自動問答系統(tǒng)Q/A(automaticQuestionAnswering)采用自然語言處理技術(shù),一方面完成對用戶疑問的理解;另一方面完成正確答案的生成。這些研究涉及到計(jì)算語言學(xué)、信息科學(xué)和人工智能學(xué),是計(jì)算機(jī)應(yīng)用研究的熱點(diǎn)之一,其核心是自然語言理解技術(shù)。

如:Lexxe

wolfrram

Baidu知道,維基百科(Wikipedia)等利用群體智慧來部分實(shí)現(xiàn)自動問答的功能。注:在2011年2月14日至16日舉行的有史以來首次廣義性人機(jī)智力大賽中,IBM超級電腦“沃森”(Watson)擊敗美國頗受歡迎的智力競賽節(jié)目Jeopardy中的兩位最成功的參賽者肯-詹寧斯(KenJennings)和布拉德-魯特(BradRutter)。智能客服

38(4)網(wǎng)絡(luò)游戲:網(wǎng)絡(luò)游戲外掛檢測、免費(fèi)用戶到付費(fèi)用戶的轉(zhuǎn)化在網(wǎng)絡(luò)游戲中,游戲外掛是對游戲運(yùn)營商最嚴(yán)重的危害之一。所謂網(wǎng)絡(luò)游戲的外掛是指玩家利用游戲本身玩法的漏洞或通過作弊程序改變網(wǎng)絡(luò)游戲軟件。網(wǎng)絡(luò)游戲正式運(yùn)營前會存在大量的注冊用戶,這些注冊用戶會在網(wǎng)絡(luò)游戲運(yùn)行后存在很長一段時(shí)間。如何把這些注冊用戶轉(zhuǎn)化成付費(fèi)客戶,真正為游戲運(yùn)營商帶來收益呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用使網(wǎng)絡(luò)游戲運(yùn)營商能夠?qū)ψ杂脩舨扇〔顒e化營銷,對正確的注冊用戶采用合適的營銷手段,從而提高市場營銷活動效果,使企業(yè)利潤得到最大化。391.3.2數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用數(shù)據(jù)挖掘技術(shù)可以應(yīng)用到公司運(yùn)營的方方面面,包括對公司部門經(jīng)營情況的評估、內(nèi)部員工的管理、生產(chǎn)流程的監(jiān)管、產(chǎn)品結(jié)構(gòu)優(yōu)化與新產(chǎn)品開發(fā)、財(cái)務(wù)成本優(yōu)化、市場結(jié)構(gòu)分析、精準(zhǔn)營銷和客戶關(guān)系的管理等。數(shù)據(jù)挖掘商業(yè)應(yīng)用的目標(biāo)是:公司通過大量的客戶行為數(shù)據(jù)的精準(zhǔn)分析,更加高效地為用戶服務(wù),來改善其市場、銷售和客戶支持運(yùn)作。在商業(yè)領(lǐng)域中,典型的應(yīng)用是商業(yè)智能。所謂商業(yè)智能(BusinessIntelligence,BI),是指能夠幫助企業(yè)確定客戶的特點(diǎn),從而使企業(yè)能夠?yàn)榭蛻籼峁┯嗅槍π缘姆?wù),并對自身業(yè)務(wù)經(jīng)營做出正確明智決定的工具。商業(yè)智能是目前企業(yè)界和軟件開發(fā)行業(yè)廣泛關(guān)注的一個(gè)研究方向。IBM建立了專門從事BI方案設(shè)計(jì)的研究中心,ORACLE、Microsoft等公司紛紛推出了支持BI開發(fā)和應(yīng)用的軟件系統(tǒng)。商業(yè)智能技術(shù)的核心是數(shù)據(jù)挖掘,所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷(DatabaseMarketing)、客戶細(xì)分(CustomerSegmentation&Classification)、客戶背景分析(ProfileAnalysis)、交叉銷售(Cross-selling)、客戶流失分析(ChurnAnalysis)、客戶信用記分(CreditScoring)、欺詐檢測(FraudDetection)等。401.3.3其它領(lǐng)域中的應(yīng)用在競技體育中的應(yīng)用數(shù)據(jù)挖掘在生活中的應(yīng)用生物信息或基因數(shù)據(jù)挖掘醫(yī)療保健行業(yè)的數(shù)據(jù)挖掘情報(bào)分析挖掘天文學(xué)工業(yè)過程控制、智能電網(wǎng)農(nóng)業(yè)在社會治理中的應(yīng)用……41數(shù)據(jù)挖掘技術(shù)的價(jià)值和前景。在對產(chǎn)業(yè)界具有深遠(yuǎn)影響的大型IT公司里,數(shù)據(jù)挖掘技術(shù)發(fā)揮著重要作用,如Microsoft、Google、Yahoo、Baidu、Tencent等國內(nèi)外著名IT公司包括IBM在內(nèi)的世界上主要數(shù)據(jù)庫廠商,紛紛在數(shù)據(jù)挖掘領(lǐng)域加大投入,把數(shù)據(jù)挖掘功能集成到其產(chǎn)品中,以提高產(chǎn)品的競爭力。2009年10月2日,IBM成功收購了SPSSInc。1.3.4數(shù)據(jù)挖掘技術(shù)的前景42數(shù)據(jù)挖掘技術(shù)具有巨大價(jià)值和光明前景。有關(guān)學(xué)者撰文指出:門戶解決了Web0.5時(shí)代的信息匱乏;Google解決了Web1.0時(shí)代的信息泛濫;Fackbook解決了Web2.0時(shí)代的社交需求;未來是誰的十年?展望Web3.0時(shí)代,當(dāng)高效的社交網(wǎng)絡(luò)趨于信息量爆炸,我們龐大的社交關(guān)系也需要一個(gè)“Google”來處理,那就是下一個(gè)十年,數(shù)據(jù)挖掘的十年,網(wǎng)絡(luò)智能的十年。2012年10月,《哈佛商業(yè)評論》公開報(bào)道“數(shù)據(jù)科學(xué)家是21世紀(jì)最性感的職業(yè)”。截止2021年6月,全國有674所高校開設(shè)有“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”類似專業(yè)。海量數(shù)據(jù)的積累,數(shù)據(jù)在商業(yè)方面的價(jià)值成為企業(yè)未來發(fā)展的核心資源和重要支撐,如何去挖掘數(shù)據(jù)這座巨大而未知的礦藏,將是影響企業(yè)核心競爭力的關(guān)鍵因素。1.3.4數(shù)據(jù)挖掘技術(shù)的前景43機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘就業(yè)前景分析44數(shù)據(jù)挖掘不能干什么雖然數(shù)據(jù)挖掘具有廣泛應(yīng)用,但它絕不是無所不能,首先數(shù)據(jù)挖掘僅僅是一個(gè)工具,而不是有魔力的權(quán)杖;其次數(shù)據(jù)挖掘得到的預(yù)言模型可以告訴你會如何(whatwillhappen),但不能說明為什么會(why);再者數(shù)據(jù)挖掘不能在缺乏指導(dǎo)的情況下自動地發(fā)現(xiàn)模型。451.4數(shù)據(jù)挖掘與隱私保護(hù)(1)數(shù)據(jù)挖掘技術(shù)的應(yīng)用能夠?yàn)槿藗兊纳钐峁┍憷?、為政府的社會管理提供有效的支持、通過幫助公司更好地迎合顧客的需求來提高顧客的滿意度為企業(yè)增加收益,然而數(shù)據(jù)挖掘可能被濫用而涉及隱私問題。特別是在大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)安全和隱私保護(hù)就成為重要的問題。隱私保護(hù)的主體是用戶個(gè)人的隱私信息。如果用戶的隱私信息無法得到有效保護(hù),則可能給客戶的生活或者工作造成重大的影響。保障數(shù)據(jù)在采集、傳輸、利用和共享等各個(gè)環(huán)節(jié)安全的重要性不言而喻,個(gè)人隱私保護(hù)的安全合規(guī)性不容忽視。保護(hù)隱私的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的重要研究領(lǐng)域,對數(shù)據(jù)挖掘中的隱私保護(hù)做出反應(yīng),其目的是獲得有效的數(shù)據(jù)挖掘結(jié)果而不泄露底層的敏感數(shù)據(jù)。大部分保護(hù)隱私的數(shù)據(jù)挖掘都是用某種數(shù)據(jù)變換來保護(hù)隱私。461.4數(shù)據(jù)挖掘與隱私保護(hù)(2)2019年7月份,廣東省公安機(jī)關(guān)共監(jiān)測發(fā)現(xiàn)490余款A(yù)pp存在超范圍收集用戶信息行為,存在超范圍讀取用戶通話記錄、短信內(nèi)容,收集用戶通訊錄、位置信息,超權(quán)限使用用戶設(shè)備麥克風(fēng)、攝像頭等突出安全問題。據(jù)安全情報(bào)供應(yīng)商RiskBasedSecurity(RBS)的2019年Q3季度的報(bào)告,2019年1月1日至2019年9月30日,全球披露的數(shù)據(jù)泄露事件有5183起,泄露的數(shù)據(jù)量達(dá)到了79.95億條記錄!包括:智能家居公司歐瑞博數(shù)據(jù)庫泄露涉及超過20億條IoT日志,深網(wǎng)視界泄露250萬人的人臉數(shù)據(jù),PACS服務(wù)器泄露中國近28萬條患者記錄,印度某公司泄露了約2.75億條詳細(xì)個(gè)人信息,美國金融公司Evite泄露1億客戶的信息,優(yōu)衣庫泄露超過46萬名客戶的數(shù)據(jù)。471.4數(shù)據(jù)挖掘與隱私保護(hù)(3)在大數(shù)據(jù)環(huán)境下,可能會為個(gè)人隱私信息帶來以下問題:個(gè)人隱私信息泄露風(fēng)險(xiǎn)增加。無法做到真正的個(gè)人隱私保護(hù)。無法實(shí)現(xiàn)用戶匿名化。數(shù)據(jù)被攻擊的可能性增加。當(dāng)前,互聯(lián)網(wǎng)行業(yè)對個(gè)人隱私的侵犯及對個(gè)人隱私數(shù)據(jù)的使用較為普遍。在利用大數(shù)據(jù)提高社會整體運(yùn)行效率的同時(shí),要防止數(shù)據(jù)濫用或非法使用?!睹穹ǖ洹放c《個(gè)人信息保護(hù)法》等法律的實(shí)施將更好地保護(hù)個(gè)人隱私,在數(shù)據(jù)采集、處理過程中,我們也應(yīng)遵守法律法規(guī),合規(guī)使用數(shù)據(jù)。48小結(jié)

在信息爆炸的時(shí)代,我們將隨時(shí)隨地成為信息的接受者,散布在報(bào)紙、雜志、電視、廣播、網(wǎng)絡(luò)中的信息,良莠并存、真?zhèn)瓮?,有價(jià)值的信息淹沒在大量數(shù)據(jù)之中,我們該如何“借來一雙慧眼”,透過現(xiàn)象看本質(zhì),看個(gè)清楚明白呢?本章從實(shí)際應(yīng)用場景引入了數(shù)據(jù)挖掘主題,對數(shù)據(jù)挖掘的理論及應(yīng)用的概貌進(jìn)行了介紹,從數(shù)據(jù)挖掘產(chǎn)生的背景、數(shù)據(jù)挖掘的任務(wù)和過程、數(shù)據(jù)挖掘的對象、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域、數(shù)據(jù)挖掘技術(shù)的前景和隱私保護(hù)等方面展開了討論。49數(shù)據(jù)陷阱之“平均值”對于服從正態(tài)分布、均勻分布的變量來說,平均值和中位數(shù)幾乎相同。換句話說,在高斯法則生效的領(lǐng)域,平均值可以代表整體。但對于服從冪律分布的變量來說,平均值會偏向取值大的一端,明顯大于中位數(shù)。對于服從冪律分布的變量,若使用平均值來代表總體水平,會嚴(yán)重誤導(dǎo)讀者。當(dāng)一個(gè)人希望影響公眾觀念時(shí),或者是向其他人推銷廣告版面時(shí),平均值便是一個(gè)經(jīng)常被使用的詭計(jì),有時(shí)出于無心,但更多的時(shí)候是明知故犯。數(shù)據(jù)是真實(shí)的,然而不妥的是遇到平均值時(shí),并沒有先思考它是什么的平均,它包含了哪些對象,僅依據(jù)這些數(shù)據(jù)和事實(shí)就推斷出一個(gè)未經(jīng)證實(shí)或錯(cuò)誤的結(jié)論,進(jìn)而影響了自身的判斷。50閱讀資料10CHALLENGINGPROBLEMSINDATAMININGRESEARCH.pdfTop10algorithmsindatamining.pdfTop10DataMiningMistakes.pdf51作業(yè)1.2,1.4,1.6,1.752第2章

數(shù)據(jù)處理基礎(chǔ)本章主要介紹對數(shù)據(jù)的探索分析、數(shù)據(jù)挖掘質(zhì)量保障方法,包括數(shù)據(jù)特性分析與總體分布形態(tài)的了解、缺失數(shù)據(jù)的處理、數(shù)據(jù)變換、數(shù)據(jù)歸約、數(shù)據(jù)離散化及特征構(gòu)造與特征選擇等,預(yù)先進(jìn)行數(shù)據(jù)探索和適當(dāng)?shù)臄?shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘任務(wù)成功的必要條件。53第2章

數(shù)據(jù)處理基礎(chǔ)2.1數(shù)據(jù)2.2數(shù)據(jù)探索2.3數(shù)據(jù)預(yù)處理2.4相似性度量542.1數(shù)據(jù)

2.1.1數(shù)據(jù)及數(shù)據(jù)類型相關(guān)概念數(shù)據(jù)狹義:數(shù)字。廣義:數(shù)據(jù)對象及其屬性的集合,其表現(xiàn)形式可以是數(shù)字、符號、文字、圖像抑或是計(jì)算機(jī)代碼等等。屬性(也稱為特征、維或字段),是指一個(gè)對象的某方面性質(zhì)或特性。一個(gè)對象通過若干屬性來刻畫。數(shù)據(jù)集數(shù)據(jù)對象的集合(同分布、同特征)55屬性包含電信客戶信息的樣本數(shù)據(jù)集案例客戶編號客戶類別行業(yè)大類通話級別通話總費(fèi)用…N22011002518大客戶采礦業(yè)和一般制造業(yè)市話16352…業(yè)客戶批發(fā)和零售業(yè)市話+國內(nèi)長途(含國內(nèi)IP)27891…N22004895555商業(yè)客戶批發(fā)和零售業(yè)市話+國際長途(含國際IP)63124…3221026196大客戶科學(xué)教育和文化衛(wèi)生市話+國際長途(含國際IP)53057…客戶房地產(chǎn)和建筑業(yè)市話+國際長途(含國際IP)80827…︰︰︰︰︰…對象56屬性類型描述例子操作分類的(定性的)標(biāo)稱其屬性值只提供足夠的信息以區(qū)分對象。這種屬性值沒有實(shí)際意義。顏色、性別、產(chǎn)品編號眾數(shù)、熵、列聯(lián)相關(guān)。序數(shù)其屬性值提供足夠的信息以區(qū)分對象的序。成績等級(優(yōu)、良、中、及格、不及格)、年級(一年級、二年級、三年級、四年級)中值、百分位、秩相關(guān)、符號檢驗(yàn)。數(shù)值的(定量的)區(qū)間其屬性值之間的差是有意義的。日歷日期、攝氏溫度均值、標(biāo)準(zhǔn)差、皮爾遜相關(guān)比率其屬性值之間的差和比率都是有意義的。長度、時(shí)間和速度幾何平均、調(diào)和平均、百分比變差不同的屬性類型57數(shù)據(jù)集的特性維度(Dimensionality)指數(shù)據(jù)集中的對象具有的屬性個(gè)數(shù)總和。維歸約稀疏性(Sparsity)指在某些數(shù)據(jù)集中,有意義的數(shù)據(jù)非常少,對象在大部分屬性上的取值為0;非零項(xiàng)不到1%。文本數(shù)據(jù)集分辨率(Resolution)不同分辨率下數(shù)據(jù)的性質(zhì)不同58數(shù)據(jù)集的類型數(shù)據(jù)集的類別記錄數(shù)據(jù)事務(wù)數(shù)據(jù)或購物籃數(shù)據(jù)數(shù)據(jù)矩陣基于圖形的數(shù)據(jù)帶有對象之間聯(lián)系的數(shù)據(jù):萬維網(wǎng)具有圖形對象的數(shù)據(jù):化合物結(jié)構(gòu)有序數(shù)據(jù)時(shí)序數(shù)據(jù)或時(shí)態(tài)數(shù)據(jù)序列數(shù)據(jù)時(shí)間序列數(shù)據(jù)空間數(shù)據(jù)流數(shù)據(jù)59記錄數(shù)據(jù)事務(wù)數(shù)據(jù)(TransactionData)是一種特殊類型的記錄數(shù)據(jù),其中每個(gè)記錄涉及一個(gè)項(xiàng)的集合。事務(wù)ID商品的ID列表T100Bread,Milk,BeerT200Soda,cup,Diaper……事務(wù)數(shù)據(jù)事例典型的事務(wù)數(shù)據(jù)如超市零售數(shù)據(jù),顧客一次購物所購買的商品的集合就構(gòu)成一個(gè)事務(wù),而購買的商品就是項(xiàng)。這種類型的數(shù)據(jù)也稱作購物籃數(shù)據(jù)(MarketBasketData),因?yàn)橛涗浿械拿恳豁?xiàng)都是一位顧客“購物籃”中購買的商品。60數(shù)據(jù)矩陣如果一個(gè)數(shù)據(jù)集簇中的所有數(shù)據(jù)對象都具有相同的數(shù)值屬性集,則數(shù)據(jù)對象可以看作多維空間中的點(diǎn),其中每個(gè)維代表描述對象的一個(gè)不同屬性。數(shù)據(jù)集可以用一個(gè)m×n的矩陣表示,其中m行,一個(gè)對象一行;n列,一個(gè)屬性一列。61文本數(shù)據(jù)文檔用詞向量表示每個(gè)詞是向量的一個(gè)分量(屬性)每個(gè)分量的值是對應(yīng)詞在文檔中出現(xiàn)的次數(shù)62圖形數(shù)據(jù)網(wǎng)頁鏈接化合物結(jié)構(gòu)63有序數(shù)據(jù)時(shí)序數(shù)據(jù)或時(shí)態(tài)數(shù)據(jù)項(xiàng)/事件時(shí)序元素64有序數(shù)據(jù)基因組序列數(shù)據(jù)65有序數(shù)據(jù)空間溫度數(shù)據(jù)662.2數(shù)據(jù)探索對數(shù)據(jù)進(jìn)行探查,以發(fā)現(xiàn)其主要特點(diǎn),對其形成直觀認(rèn)識,理解數(shù)據(jù)的結(jié)構(gòu)和各變量的意義,包括數(shù)據(jù)質(zhì)量檢查、描述性數(shù)據(jù)統(tǒng)計(jì)、探索各變量間的關(guān)系,在探索過程中可以應(yīng)用可視化技術(shù)從中看出某些規(guī)律。672.2.1描述性統(tǒng)計(jì)分析數(shù)據(jù)統(tǒng)計(jì)又稱為匯總統(tǒng)計(jì),用單個(gè)數(shù)或數(shù)的小集合來捕獲大的數(shù)據(jù)集的各種屬性特征。通常需要數(shù)據(jù)的中心趨勢和離散程度特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離散程度度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(InterQuartilesRange,IQR)和方差(variance)等。68(1)數(shù)據(jù)的中心度量-1

數(shù)據(jù)集“中心”的最常用、最有效的數(shù)值度量是(算術(shù))均值(mean)。設(shè)

x1,x2,…,

xN是N個(gè)值的集合,則該值集的均值定義為:69(1)數(shù)據(jù)的中心度量-2集合中每個(gè)值

與一個(gè)權(quán)值

相關(guān)聯(lián)。權(quán)值反映對應(yīng)值的顯著性、重要性或出現(xiàn)頻率。在這種情況下,使用加權(quán)算術(shù)均值(weightedarithmeticmean):70(1)數(shù)據(jù)的中心度量-3截?cái)嗑担褐付?和100間的百分位數(shù)p,丟棄高端和低端(p/2)%的數(shù)據(jù),然后用常規(guī)方法計(jì)算均值,所得的結(jié)果即是截?cái)嗑?。中位?shù)是p=100%時(shí)的截?cái)嗑?,而?biāo)準(zhǔn)均值是對應(yīng)于p=0%的截?cái)嗑怠@河?jì)算{1,2,3,4,5,90}值集的均值,中位數(shù),中列數(shù)和p=40%的截?cái)嗑?解:均值是17.5,中位數(shù)是3.5,中列數(shù)是45.5,p=40%時(shí)的截?cái)嗑狄彩?.571(1)數(shù)據(jù)的中心度量-4中列數(shù)、中位數(shù)分別定義為:

如果有奇數(shù)個(gè)值,則中位數(shù)為中間值;如果有偶數(shù)個(gè)值,則中位數(shù)為中間兩個(gè)數(shù)的平均值。72(2)數(shù)據(jù)散布程度度量-1極差和方差是值集的散布度量,表明屬性值是否散布很寬,或者是否相對集中在單個(gè)點(diǎn)(如均值)附近。最簡單的散布度量是極差,即最大值和最小值之差假設(shè)屬性x具有m個(gè)值,其極差定義為:

range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定義如下:73(2)數(shù)據(jù)散布程度度量-2因?yàn)榉讲钣玫搅司?,而均值容易被離群值扭曲,所以方差對離群值很敏感。更加穩(wěn)健的值集散布估計(jì)方法:絕對平均偏差(absoluteaveragedeviation,AAD)中位數(shù)絕對偏差(medianabsolutedeviation,MAD)四分位數(shù)極差(interquartilerange,IQR)

74

(3)數(shù)據(jù)分布形態(tài)度量

數(shù)據(jù)分布形態(tài)度量指標(biāo)包括偏度、峰度。偏度(skewness),是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對稱程度的數(shù)字特征。定義上偏度是樣本的三階標(biāo)準(zhǔn)化矩。

圖2-2(1)正偏斜分布(2)負(fù)偏斜分布75

(3)數(shù)據(jù)分布形態(tài)度量

峰度(peakedness;kurtosis)又稱峰態(tài)系數(shù)。峰度表示分布的尾部與正態(tài)分布的區(qū)別,反應(yīng)的是圖像的尖銳程度:峰度越大,表現(xiàn)在圖像上面是中心點(diǎn)越尖銳。在相同方差的情況下,中間一大部分的值方差都很小,為了達(dá)到和正太分布方差相同的目的,必須有一些值離中心點(diǎn)越遠(yuǎn),所以這就是所說的“厚尾”,反應(yīng)的是異常點(diǎn)增多這一現(xiàn)象。峰度計(jì)算方法為:

圖2-3(1)峰度值為0(2)正峰度(3)負(fù)峰度762.2.2數(shù)據(jù)可視化

數(shù)據(jù)可視化分析是數(shù)據(jù)發(fā)現(xiàn)和探索過程中最重要的手段之一。數(shù)據(jù)可視化的主要方法是關(guān)于如何把數(shù)據(jù)從視覺上概括在一張圖內(nèi)。從視覺角度把數(shù)據(jù)呈現(xiàn)出來,有助于輕松理解復(fù)雜數(shù)據(jù)的各個(gè)變量以及變量之間的相互關(guān)系。借助可視化手段,可以對數(shù)據(jù)有一個(gè)宏觀認(rèn)識,同時(shí)能看清數(shù)據(jù)長遠(yuǎn)的發(fā)展趨勢,可視化有助于探索變量之間的關(guān)系。數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)可視化與信息圖形、信息可視化、科學(xué)可視化以及統(tǒng)計(jì)圖形密切相關(guān)。當(dāng)前,在研究、教學(xué)和開發(fā)領(lǐng)域,數(shù)據(jù)可視化乃是一個(gè)極為活躍而又關(guān)鍵的方面?!皵?shù)據(jù)可視化”這條術(shù)語實(shí)現(xiàn)了成熟的科學(xué)可視化領(lǐng)域與較年輕的信息可視化領(lǐng)域的統(tǒng)一。

常見的數(shù)據(jù)可視化方式有:餅圖、散點(diǎn)圖、折線圖、柱形圖、雷達(dá)圖、地理圖、箱線圖。77772.2.3

辛普森悖論(1)辛普森悖論(Simpson'sParadox)由英國統(tǒng)計(jì)學(xué)家辛普森(E.H.Simpson)于1951年提出。當(dāng)人們嘗試探究兩種變量是否具有相關(guān)性時(shí),比如新生錄取率與性別,報(bào)酬與性別等,會對之進(jìn)行分組研究。辛普森悖論就是在這種研究中,在某些前提下有時(shí)會產(chǎn)生的一種詭異現(xiàn)象,即在分組比較中都占優(yōu)勢的一方,在總評中反而處于劣勢。782.2.3

辛普森悖論(2)案例1:關(guān)于兩種腎結(jié)石治療效果的數(shù)據(jù)比較單獨(dú)看治療效果方面的數(shù)據(jù),A療法對治療兩種大小的腎結(jié)石的效果都更好,但是將數(shù)據(jù)合并后發(fā)現(xiàn),B療法針對所有情況的療效更優(yōu)。這個(gè)悖論可以用涉及相關(guān)專業(yè)知識的數(shù)據(jù)生成過程,或者說因果模型來解決。TreatmentStonesizeTreatmentATreatmentBSmallstonesGroup193%(81/87)Group287%(234/270)LargestonesGroup373%(192/263)Group469%(55/80)Both78%(273/350)83%(289/350)792.2.3

辛普森悖論(3)案例2:數(shù)據(jù)能證明一個(gè)觀點(diǎn),又能證明其相反的觀點(diǎn)。這個(gè)例證展示了,辛普森悖論是如何證明兩個(gè)相反的政治觀點(diǎn)的。辛普森悖論也是政客們的常用伎倆。表2-4表明,美國在福特總統(tǒng)的1974~1978年的任期中,他對每個(gè)收入人群都進(jìn)行了減稅,但此期間全國性的稅收額有明顯上漲。

19741978AdjustedGrossIncomeIncomeTaxTaxRateIncomeTaxTaxRateUnder$5,00041,651,6432,244,467.05419,879,622689,318.035$5,000to$9,999146,400,74013,646,348.093122,853,3158,819,461.072$10,000to$14,999192,688,92221,449,597.111171,858,02417,155,758.100$15,000to$99,999470,010,79075,038,230.160865,037,814137,860,951.159$100,000ormore29,427,15211,311,672.38462,806,15924,051,698.383Total880,179,427123,690,314

1,242,434,934188,577,186

OverallTaxRate

.141

.152802.2.3

辛普森悖論(4)案例3:高校錄取數(shù)據(jù)的理解一所美國高校的法學(xué)院和商學(xué)院,人們懷疑這兩個(gè)學(xué)院在招生時(shí)有性別歧視。下表給出了不同性別考生錄取情況統(tǒng)計(jì)數(shù)據(jù)。從表中來看,女生在兩個(gè)學(xué)院的錄取比率都較男生高。而將兩學(xué)院的數(shù)據(jù)匯總后,在總評中,女生的錄取比率反而比男生低,這就是辛普森悖論。我們應(yīng)該采信哪個(gè)結(jié)論呢?學(xué)院性別錄取拒收總數(shù)錄取比例法學(xué)院男生8455315.10%女生5110115233.60%總數(shù)5914620528.78%商學(xué)院男生2015025180.10%女生92910191.10%總數(shù)2935935283.24%匯總男生2099530468.80%女50%總數(shù)35220555763.20%812.2.3

辛普森悖論(5)辛普森悖論的重要性在于它揭示了我們看到的數(shù)據(jù)并非全貌。我們不能滿足于展示的數(shù)字或圖表,我們需要考慮整個(gè)數(shù)據(jù)生成過程,考慮因果模型。

簡單地將分組數(shù)據(jù)相加匯總,是不能反映真實(shí)情況的。為了避免辛普森悖論的出現(xiàn),就需要斟酌各分組的權(quán)重,并乘以一定的系數(shù)以消除因分組數(shù)據(jù)基數(shù)差異而造成的影響。當(dāng)有多個(gè)差異大的類別的數(shù)據(jù)混合在一起時(shí),對數(shù)據(jù)挖掘的結(jié)論可能需要多角度評估,需要從分組數(shù)據(jù)中深度分析。822.3數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘方法的效果受到源數(shù)據(jù)質(zhì)量的直接影響。高質(zhì)量的數(shù)據(jù)是進(jìn)行有效挖掘的前提,高質(zhì)量的決定必須建立在高質(zhì)量的數(shù)據(jù)上。數(shù)據(jù)預(yù)處理的目的是提供干凈、簡潔、準(zhǔn)確的數(shù)據(jù),以達(dá)到簡化模型和提高算法泛化能力的目的,使挖掘過程更有效、更容易,提高挖掘效率和準(zhǔn)確性。數(shù)據(jù)質(zhì)量的檢測和糾正是數(shù)據(jù)挖掘前期非常重要的環(huán)節(jié)。83數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填寫空缺數(shù)據(jù),平滑噪聲數(shù)據(jù),識別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫,數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和特征構(gòu)造數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示及特征選擇數(shù)據(jù)離散化通過概念分層和數(shù)據(jù)離散化來規(guī)約數(shù)據(jù),對數(shù)值數(shù)據(jù)特別重要84數(shù)據(jù)預(yù)處理數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約臟數(shù)據(jù)“干凈”數(shù)據(jù)-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A11585數(shù)據(jù)清理——為什么要清理數(shù)據(jù)?現(xiàn)實(shí)世界的數(shù)據(jù)是“臟的”不完整的:有感興趣的屬性缺少屬性值含噪聲的:包含錯(cuò)誤的或是“孤立點(diǎn)”不一致的:在命名或是編碼上存在差異意義:數(shù)據(jù)清理的目的就是試圖填充缺失值、去除噪聲并識別離群點(diǎn)、糾正數(shù)據(jù)中的不一致值。86數(shù)據(jù)清理——缺失值數(shù)據(jù)并不總是完整的引起空缺值的原因設(shè)備異常與其它已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒有被輸入的數(shù)據(jù)在輸入數(shù)據(jù)時(shí),有些數(shù)據(jù)認(rèn)為得不到重視而沒有被輸入對數(shù)據(jù)的改變沒有進(jìn)行日志記載87數(shù)據(jù)清理——缺失值的處理方法忽略元組:當(dāng)缺少類標(biāo)號時(shí)通常這樣處理(在分類任務(wù)中)。除非同一記錄中有多個(gè)屬性缺失值,否則該方法不是很有效。忽略屬性列:如果該屬性的缺失值太多,如超過80%,則在整個(gè)數(shù)據(jù)集中忽略該屬性。人工填寫缺失值:通常情況下,該方法費(fèi)時(shí)費(fèi)力,并且當(dāng)數(shù)據(jù)集很大或缺少很多值時(shí),該方法可能行不通。自動填充缺失值:有三種不同的策略。策略一:使用一個(gè)全局常量填充缺失值,將缺失的屬性值用同一個(gè)常數(shù)替換。策略二:使用與給定記錄屬同一類的所有樣本的均值或眾數(shù)填充缺省值。策略三:用可能值來代替缺失值:可以用回歸、基于推理的工具或決策樹歸納確定。將模型集拆分成幾個(gè)部分。88數(shù)據(jù)清理——噪聲數(shù)據(jù)的平滑方法噪聲是測量變量的隨機(jī)錯(cuò)誤或偏差。噪聲是測量誤差的隨機(jī)部分,包含錯(cuò)誤或孤立點(diǎn)值。導(dǎo)致噪聲產(chǎn)生的原因有:數(shù)據(jù)收集的設(shè)備故障數(shù)據(jù)錄入過程中人的疏忽數(shù)據(jù)傳輸過程中的錯(cuò)誤目前噪聲數(shù)據(jù)的平滑方法包括:分箱:分箱方法通過考察“鄰居”(即周圍的值)來平滑有序數(shù)據(jù)的值。聚類:聚類將類似的值組織成群或“簇”?;貧w:讓數(shù)據(jù)適合一個(gè)函數(shù)來平滑數(shù)據(jù)。89數(shù)據(jù)平滑實(shí)例一組排序后的數(shù)據(jù)(單位:元):4,8,15,21,21,24,25,28,34劃分為等深的箱箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值進(jìn)行平滑箱1:9,9,9(下同)用箱的邊界進(jìn)行平滑箱1:4,4,15箱2:21,21,24箱3:25,25,3490特殊字段的處理有兩種極端的字段需要特殊處理:取值幾乎相同和幾乎都不同的字段。只有一個(gè)取值或幾乎只有一個(gè)取值的字段,包含的信息非常少量,對于數(shù)據(jù)挖掘目的而言,應(yīng)該忽略這些字段。但在忽略這些字段之前,應(yīng)該了解為什么會出現(xiàn)如此傾斜的分布、該例反映了關(guān)于商業(yè)的什么事情。每一行或幾乎每一行取不同值的分類屬性字段,這些字段可唯一(或非常接近)識別每一行(每位客戶),例如:客戶名字、地址、電話號碼、身份證號碼、學(xué)號、車牌號。這些字段不會在數(shù)據(jù)挖掘中被直接使用,但可能包含豐富的信息,如學(xué)號包含了入學(xué)年份和專業(yè)信息,這時(shí)需要從這些字段中提取重要特征作為衍生變量,數(shù)據(jù)挖掘者需借助領(lǐng)域知識發(fā)現(xiàn)這類信息并進(jìn)行提取。91數(shù)據(jù)集成將兩個(gè)或多個(gè)數(shù)據(jù)源中的數(shù)據(jù),存放在一個(gè)一致的數(shù)據(jù)存儲設(shè)備中。在數(shù)據(jù)集成時(shí),有許多問題需要考慮,數(shù)據(jù)一致性和冗余是兩個(gè)重要問題。不同表中可能使用不同名稱來指示同一屬性,正如一個(gè)人有多個(gè)不同的別名或不同的人擁有相同的名字,這樣將導(dǎo)致數(shù)據(jù)的不一致或沖突。一個(gè)屬性是冗余的,如果它能由另一個(gè)表“導(dǎo)出”;屬性或維命名的不一致也可能導(dǎo)致數(shù)據(jù)集中的冗余。思考題:利用網(wǎng)上信息如何自動生成個(gè)人簡歷?92數(shù)據(jù)變換平滑:去除數(shù)據(jù)中的噪聲數(shù)據(jù)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)泛化:沿概念分層高上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間(消除量綱的影響)最小-最大規(guī)范化Z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到數(shù)據(jù)集中數(shù)據(jù)離散化93數(shù)據(jù)變換——規(guī)范化最小-最大規(guī)范化Z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化94數(shù)據(jù)變換——特征構(gòu)造特征提取(FeatureExtraction)由原始數(shù)據(jù)創(chuàng)建新的特征集映射數(shù)據(jù)到新的空間從不同視角提示重要和有趣的特征傅里葉變換(FourierTransform)小波變換(WaveletTransform)特征構(gòu)造由一個(gè)或多個(gè)原始特征共同構(gòu)造新的特征95數(shù)據(jù)變換——離散化與概念分層離散化通過將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間標(biāo)號可以代替實(shí)際的數(shù)據(jù)值。概念分層通過使用高層的概念(比如:老年,中年,青年)來替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來規(guī)約數(shù)據(jù)概念分層可以用樹來表示,樹的每一個(gè)節(jié)點(diǎn)代表一個(gè)概念(比如:按地區(qū)劃分世界)96數(shù)據(jù)歸約從記錄和維度兩個(gè)方面減少數(shù)據(jù)量維歸約維度(數(shù)據(jù)特征的數(shù)目)歸約是指通過使用數(shù)據(jù)編碼或變換,得到原始數(shù)據(jù)的歸約或“壓縮”表示。如果原始數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,則該數(shù)據(jù)歸約是無損的。如果只能重新構(gòu)造原始數(shù)據(jù)的近似表示,則該數(shù)據(jù)歸約是有損的。維規(guī)約的好處如果維度較低,許多數(shù)據(jù)挖掘算法效果會更好。維歸約使模型涉及更少的特征,因而可以產(chǎn)生更容易理解的模型。使用維歸約可以降低數(shù)據(jù)挖掘算法的時(shí)間和空間復(fù)雜度。97數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集對數(shù)據(jù)進(jìn)行匯總或聚集。例如,可以聚集電信客戶的日消費(fèi)數(shù)據(jù),計(jì)算月和年消費(fèi)數(shù)據(jù)。通常,這一步用來為多粒度數(shù)據(jù)分析構(gòu)建數(shù)據(jù)立方體。98數(shù)據(jù)歸約——抽樣抽樣是一種選擇數(shù)據(jù)對象子集進(jìn)行分析的常用方法事先調(diào)查和最終的數(shù)據(jù)分析統(tǒng)計(jì)學(xué)使用抽樣是因?yàn)榈玫礁信d趣的整個(gè)數(shù)據(jù)集的費(fèi)用太高、太費(fèi)時(shí)間

數(shù)據(jù)挖掘使用抽樣是因處理所有的數(shù)據(jù)的費(fèi)用太高、太費(fèi)時(shí)間

99有效抽樣原理如果樣本是有代表性的,則使用樣本與使用整個(gè)數(shù)據(jù)集的效果幾乎一樣如果數(shù)據(jù)對象的均值是感興趣的性質(zhì),而樣本具有近似于原數(shù)據(jù)集的均值,則樣本是有代表性的

100數(shù)據(jù)歸約——抽樣用數(shù)據(jù)較小的隨機(jī)樣本表示大的數(shù)據(jù)集簡單隨機(jī)抽樣無放回抽樣隨著每個(gè)項(xiàng)被抽出,它被從構(gòu)成總體的所有對象集中刪除有放回的抽樣對象被選中時(shí)不從總體中刪除分層抽樣特點(diǎn)總體由不同類別的對象組成每種類型的對象數(shù)量差別很大先對數(shù)據(jù)集進(jìn)行分組:數(shù)據(jù)集D被劃分為互不相交的“層”,則可通過對每一層按一定比例簡單隨機(jī)選樣得到D的分層選樣利用聚類實(shí)現(xiàn)分層抽樣:將數(shù)據(jù)集D劃分成m個(gè)不相交的簇,再在聚類結(jié)果的簇上進(jìn)行簡單隨機(jī)抽樣101案例8000個(gè)點(diǎn) 2000個(gè)點(diǎn) 500個(gè)點(diǎn)102聚類抽樣同分層抽樣的原理一樣103數(shù)據(jù)歸約——特征選擇特征選擇概念:從一組已知特征集合中選擇最具代表性的特征子集,使其保留原有數(shù)據(jù)的大部分信息,即所選特征子集可以像原來的特征全集一樣用來正確區(qū)分?jǐn)?shù)據(jù)集的每個(gè)數(shù)據(jù)對象。通過特征選擇,一些和任務(wù)無關(guān)或是冗余的特征被刪除,從而提高數(shù)據(jù)處理的效率。目的:去除不相關(guān)和冗余的特征,降低時(shí)間空間復(fù)雜度,提高數(shù)據(jù)質(zhì)量及數(shù)據(jù)泛化能力。理想的特征子集:每個(gè)有價(jià)值的非目標(biāo)特征與目標(biāo)特征強(qiáng)相關(guān),而非目標(biāo)特征之間不相關(guān)或是弱相關(guān)基本步驟:去掉與目標(biāo)特征不相關(guān)的特征刪除冗余特征104特征選擇過程流程選擇的屬性停止標(biāo)準(zhǔn)評估驗(yàn)證過程搜索策略特征子集屬性不滿足105特征選擇通過刪除不相干的屬性或維減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式(探索式)搜索方法逐步向前選擇逐步向后刪除向前選擇和向后刪除相結(jié)合判定歸納樹106探索性選擇方法d個(gè)屬性有2d個(gè)可能的子集逐步向前選擇由空屬性集開始,選擇原屬性集中最好的屬性,并將其添加入該集合,重復(fù)該步驟直到無法選擇出最優(yōu)屬性或滿足一定閾值約束為止。逐步向后刪除由整個(gè)屬性集開始,每一步都刪除掉尚在屬性集中的最壞屬性。直到無法選擇出最差屬性為止或滿足一定閾值約束為止。向前選擇和向后刪除相結(jié)合每一步選擇一個(gè)最好屬性,并刪除一個(gè)最壞屬性可以使用一個(gè)臨界值來判定上述三種方法的結(jié)束條件判定歸納樹利用決策樹的歸納方法對初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得一個(gè)初始決策樹,所有沒有出現(xiàn)這個(gè)決策樹上的屬性均認(rèn)為是無關(guān)屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個(gè)較優(yōu)的屬性子集。107屬性子集選擇的貪心方法向前選擇向后刪除決策樹歸納初始屬性集:(A1,A2,A3,A4,A5,A6)初始?xì)w約集:{}=>{A1}=>{A1,A4}=>歸約后的屬性子集:{A1,A4,A6}初始屬性集:(A1,A2,A3,A4,A5,A6)=>{A1,A3,A4,A5,A6}=>{A1,A4,A5,A6}=>歸約后的屬性子集:{A1,A4,A6}初始屬性集:(A1,A2,A3,A4,A5,A6)與決策樹建模相似108數(shù)據(jù)歸約——數(shù)據(jù)壓縮數(shù)據(jù)壓縮——用數(shù)據(jù)編碼或者變換,得到原始數(shù)據(jù)的壓縮表示。有損壓縮VS.無損壓縮無損(loseless)壓縮:可以不丟失任何信息地還原壓縮數(shù)據(jù)例如:字符串壓縮有廣泛的理論基礎(chǔ)和精妙的算法在解壓縮前對字符串的操作非常有限有損(lossy)壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示例如:音頻/視頻壓縮有時(shí)可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個(gè)片斷兩種有損數(shù)據(jù)壓縮的方法:小波變換和主成分分析109主成分分析(PCA)找出新的屬性(主成分),這些屬性是原屬性的線性組合屬性之間相互正交的用于連續(xù)屬性的線性代數(shù)技術(shù)捕獲數(shù)據(jù)的最大變差

x2x1e1102.4相似性度量2.4.1屬性之間的相似性度量2.4.2對象之間的相似性度量111簡單數(shù)據(jù)對象之間的相似度和相異度屬性類別相異度相似度標(biāo)稱的序數(shù)的S=1-d區(qū)間的或比率的相似度兩個(gè)對象相似程度的數(shù)值度量,兩對象越相似,它們的相似度就越高。相異度與相似度相反。

112連續(xù)屬性之間的相關(guān)度線性相關(guān)系數(shù)對于兩個(gè)連續(xù)特征(x,y),其相關(guān)度的計(jì)算公式:r的取值范圍在[-1,1],r的值越接近1或-1,表示兩特征的相關(guān)性越強(qiáng),越接近于0,相關(guān)性越弱。不足:對于非線性的數(shù)據(jù)的相關(guān)性計(jì)算會存在偏差。113余弦相似度如果(文檔)d1

和d2

是兩(文檔)向量,則cos(d1,d2)=(d1

d2)/||d1||||d2||,

其中,表示向量點(diǎn)積,

||d||是向量d的長度.

例:

d1

=3205000200 d2=1000000102

d1

d2=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5||d1||=(3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5=6.481||d2||=(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)

0.5

=(6)0.5=2.245

cos(d1,d2)=0.3150114離散屬性間的相關(guān)性計(jì)算對稱的不確定性離散型數(shù)據(jù)間相關(guān)性計(jì)算(互信息)特征x的信息熵已知變量y后x的條件信息熵信息增益互信息115數(shù)據(jù)對象之間的相異度——距離距離的性質(zhì)非負(fù)性對稱性(有些距離定義不滿足這一條?。┤遣坏仁剑ㄓ行┚嚯x定義不滿足這一條?。┫嗨贫鹊男再|(zhì):僅當(dāng)x=y時(shí),s(x,y)=1.0<=s<=1對稱性116閔可夫斯基(Minkowski)距離閔可夫斯基(Minkowski)距離x=1,城市塊(曼哈頓)距離x=2,歐幾里得距離x=∞,切比雪夫(Chebyshev)距離117Canberra/BrayCurtis距離

Canberra距離BrayCurtis距離118馬氏距離由印度統(tǒng)計(jì)學(xué)家Mahalanobis于1936年引入的考慮了屬性之間的相關(guān)性可以更準(zhǔn)確地衡量多維數(shù)據(jù)之間的距離計(jì)算公式如下(為m×m的協(xié)方差矩陣)不足協(xié)方差矩陣難以確定計(jì)算量大不適合大規(guī)模數(shù)據(jù)集119Mahalanobis距離CovarianceMatrix:BACA:(0.5,0.5)B:(0,1)C:(1.5,1.5)Mahal(A,B)=5Mahal(A,C)=4120二值屬性二元數(shù)據(jù)相似性度量

M01=x取0并且y取1的屬性的個(gè)數(shù) M10=x取1并且y取0的屬性的個(gè)數(shù) M00=x取0并且y取0的屬性的個(gè)數(shù) M11=x取1并且y取1的屬性的個(gè)數(shù)簡單匹配系數(shù)(SimpleMatchingCoefficient,SMC):SMC=值匹配的屬性個(gè)數(shù)/屬性個(gè)數(shù) =(M11+M00)/(M01+M10+M11+M00)Jaccard系數(shù) J=匹配的個(gè)數(shù)/不涉及0-0匹配的屬性個(gè)數(shù)

=(M11)/(M01+M10+M11)

121例子X=(1000000000)

Y=(0000001001)

M01=2(x取0并且y取1的屬性的個(gè)數(shù))M10=1(x取1并且y取0的屬性的個(gè)數(shù))M00=7(x取0并且y取0的屬性的個(gè)數(shù))M11=0(x取1并且y取1的屬性的個(gè)數(shù))SMC=(M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7J=M11/(M01+M10+M11)=0/(2+1+0)=0

122符號、順序和比例數(shù)值屬性符號屬性變量對于符號變量,最常用的計(jì)算對象p和對象q之間差異程度的方法是簡單匹配方法,其定義如下:其中s表示對象p和對象q取值相同狀態(tài)的符號變量個(gè)數(shù),M為符號變量總的狀態(tài)個(gè)數(shù),M-s表示對象p和對象q取不同狀態(tài)的符號變量個(gè)數(shù)。123符號、順序和比例數(shù)值屬性順序變量在計(jì)算對象間的差異程度時(shí),順序變量的處理方法與間隔數(shù)值變量的處理方法類似。涉及變量f的差異程度計(jì)算方法如下:第i個(gè)對象的f變量值記為Xif,變量f有個(gè)Mf有序狀態(tài),利用等級1,2,…,Mf分別替換相應(yīng)的Xif,得到相應(yīng)的rif,。將順序變量做變換映射到區(qū)間[0,1]上。利用有關(guān)間隔數(shù)值變量的任一種距離計(jì)算公式來計(jì)算差異程度。124符號、順序和比例數(shù)值屬性比例數(shù)值變量在計(jì)算比例數(shù)值變量所描述對象間的距離時(shí),有三種處理方法,它們是:將比例數(shù)值變量當(dāng)做區(qū)間間隔數(shù)值變量來進(jìn)行計(jì)算處理,這種方法不太好,因?yàn)榉蔷€性的比例尺度可能會被扭曲。將比例數(shù)值變量看成是連續(xù)的順序變量進(jìn)行處理。利用變換(如對數(shù)轉(zhuǎn)換)來處理第i個(gè)對象中屬性f的值xif得到y(tǒng)if,將yif當(dāng)作間隔數(shù)值變量進(jìn)行處理。這里的變換需要根據(jù)具體定義或應(yīng)用要求而選擇log或log-log或其它變換。相對來說這一方法效果最好。125符號、順序和比例數(shù)值屬性混合類型的變量計(jì)算具有混合類型變量對象之間差異程度的一種方法是將變量按類型分組,對每種類型的變量單獨(dú)進(jìn)行聚類分析。另一種方法是將不同類型的變量組合在一個(gè)差異度矩陣中,把所有變量轉(zhuǎn)換到統(tǒng)一的區(qū)間[0,1]中.假設(shè)數(shù)據(jù)集包含m種不同類型的變量,對象p和q之間的差異度d(p,q)定義為:126對象之間的相似系數(shù)

可以通過一個(gè)單調(diào)遞減函數(shù),將距離轉(zhuǎn)換成相似性度量,相似性度量的取值一般在區(qū)間[0,1]之間,值越大,說明兩個(gè)對象越相似。采用負(fù)指數(shù)函數(shù)將Euclidean距離轉(zhuǎn)換為相似性度量s,即采用取Euclidean距離的倒數(shù),為了避免分母為0的情況,在分母上加1,即若距離在0~1之間,可采用與1的差作為相似系數(shù),即:127小結(jié)在進(jìn)行數(shù)據(jù)挖掘之前,需要了解、分析挖掘?qū)ο蟮奶匦裕⑦M(jìn)行相應(yīng)的預(yù)處理,使之達(dá)到挖掘算法進(jìn)行知識獲取所要求的最低標(biāo)準(zhǔn)。本章介紹了數(shù)據(jù)挖掘領(lǐng)域中的數(shù)據(jù)類型,以及每種數(shù)據(jù)類型的特點(diǎn)、數(shù)據(jù)的統(tǒng)計(jì)特征、數(shù)據(jù)可視化;重點(diǎn)介紹了數(shù)據(jù)預(yù)處理中的數(shù)據(jù)清理(缺失值和噪聲數(shù)據(jù)處理)、數(shù)據(jù)集成、數(shù)據(jù)變換(特征構(gòu)造、數(shù)據(jù)泛化、離散化、規(guī)范化、數(shù)據(jù)平滑)、數(shù)據(jù)歸約(特征變換、特征選擇、抽樣)的主要方法及各種方法使用的前提;針對不同類型的數(shù)據(jù)對象,介紹了度量數(shù)據(jù)相似性和距離的方法。128數(shù)據(jù)陷阱之“幸存者偏差”幸存者偏差又叫“幸存者謬誤”,反駁的是一種常見邏輯謬誤,即只看到經(jīng)過某種篩選之后的結(jié)果,卻沒有意識到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息。“幸存者偏差”的統(tǒng)計(jì)概念來自于二戰(zhàn)期間英美軍方調(diào)查了作戰(zhàn)后幸存飛機(jī)上彈痕的分布,決定哪里彈痕多就加強(qiáng)哪里?!霸绞钦J(rèn)真觀察眼前的真相,你離真相越遠(yuǎn)?!倍牪灰欢ㄊ钦?,眼見也不一定為實(shí)。我們需要打破慣性思維,躲開顯性證據(jù),看到背后的隱性證據(jù)。129作業(yè):2.5,2.6,2.11,2.13,2.15130第3章分類與回歸3.1分類概述3.2決策樹分類方法3.3貝葉斯分類方法3.4K-最近鄰分類方法3.5神經(jīng)網(wǎng)絡(luò)分類方法3.6支持向量機(jī)3.7集成分類3.8分類問題拓展3.9分類模型的評價(jià)3.10回歸分析3.11綜合案例131分類與回歸是數(shù)據(jù)挖掘中應(yīng)用極其廣泛的重要技術(shù)。分類的目的是利用已有觀測數(shù)據(jù)建立一個(gè)分類器來預(yù)測未知對象屬于哪個(gè)預(yù)定義的目標(biāo)類,或者說分類就是利用訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的規(guī)律來確定未知樣本的類別。回歸分析可以對預(yù)測變量和響應(yīng)變量之間的聯(lián)系建模。在數(shù)據(jù)挖掘環(huán)境下,預(yù)測變量是描述樣本的感興趣的屬性,一般預(yù)測變量的值是已知的,響應(yīng)變量的值是我們要預(yù)測的。當(dāng)響應(yīng)變量和所有預(yù)測變量都是連續(xù)值時(shí),回歸分析是一個(gè)好的選擇。132分類與回歸的區(qū)別分類和回歸都有預(yù)測的功能,但是:分類預(yù)測的輸出為離散或標(biāo)稱的屬性;回歸預(yù)測的輸出為連續(xù)屬性值;分類與回歸的例子:預(yù)測未來某銀行客戶會流失或不流失,這是分類任務(wù);預(yù)測某商場未來一年的總營業(yè)額,這是回歸任務(wù)。1333.1分類概述134分類的步驟分類的任務(wù)是對數(shù)據(jù)集進(jìn)行學(xué)習(xí)并構(gòu)造一個(gè)擁有預(yù)測功能的分類模型,用于預(yù)測未知樣本的類標(biāo)號。分類的過程描述如下:1)首先將數(shù)據(jù)集劃分為2部分:訓(xùn)練集和測試集。2)第一步:對訓(xùn)練集學(xué)習(xí),構(gòu)建分類模型。模型可以是決策樹或分類規(guī)則等形式。3)第二步:用建好的分類模型對測試集分類評估該分類模型的分類準(zhǔn)確度及其它性能。4)最后,使用分類準(zhǔn)確度高的分類模型對類標(biāo)號未知的樣本數(shù)據(jù)進(jìn)行分類。135分類的應(yīng)用目前分類方法廣泛應(yīng)用于各行各業(yè),如:股票預(yù)測信用評估:劃分出交易是合法或欺詐醫(yī)療診斷:根據(jù)核磁共振的結(jié)果區(qū)分腫瘤是惡性還是良性的市場營銷圖像分類:根據(jù)星系的形狀對它們進(jìn)行分類文本分類:根據(jù)電子郵件的標(biāo)題和內(nèi)容檢查出垃圾郵件,將新聞分類為金融、天氣、娛樂體育等……136數(shù)據(jù)挖掘中分類算法歸類分類模型的學(xué)習(xí)方法大體上主要有以下幾類基于決策樹的分類方法貝葉斯分類方法K-最近鄰分類方法神經(jīng)網(wǎng)絡(luò)方法支持向量機(jī)方法集成學(xué)習(xí)方法……1373.2決策樹分類方法1383.2.1決策樹的基本概念決策樹(DecisionTree)是一種樹型結(jié)構(gòu),包括:決策節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))、分支和葉節(jié)點(diǎn)三個(gè)部分。其中:決策節(jié)點(diǎn)代表某個(gè)測試,通常對應(yīng)于待分類對象的某個(gè)屬性,在該屬性上的不同測試結(jié)果對應(yīng)一個(gè)分支。葉節(jié)點(diǎn)存放某個(gè)類標(biāo)號值,表示一種可能的分類結(jié)果。分支表示某個(gè)決策節(jié)點(diǎn)的不同取值。決策樹可以用來對未知樣本進(jìn)行分類,分類過程如下:從決策樹的根節(jié)點(diǎn)開始,從上往下沿著某個(gè)分支往下搜索,直到葉結(jié)點(diǎn),以葉結(jié)點(diǎn)的類標(biāo)號作為該未知樣本的類標(biāo)號。139決策樹分類例題演示訓(xùn)練數(shù)據(jù)集決策樹模型outlooktemperaturehumiditywindyplaysunny8585nonosunny8090yesnoovercast8378noyesrain7096noyesrain6880noyesrain6570yesnoovercast6465yesyessunny7295nonosunny6970noyesrain7580noyessunny7570yesyesovercast7290yesyesovercast8175noyesrain7180yesno140應(yīng)用模型測試數(shù)據(jù)Startfromtherootoftree.測試數(shù)據(jù)141測試數(shù)據(jù)應(yīng)用模型測試數(shù)據(jù)142測試數(shù)據(jù)應(yīng)用模型測試數(shù)據(jù)143測試數(shù)據(jù)應(yīng)用模型測試數(shù)據(jù)144測試數(shù)據(jù)應(yīng)用模型測試數(shù)據(jù)分配play屬性為:“yes”145決策樹的應(yīng)用非常簡單。如何從訓(xùn)練數(shù)據(jù)集構(gòu)造決策樹,是3.2小節(jié)要討論的主要內(nèi)容。圖3-1的構(gòu)造過程將在3.2.4小節(jié)介紹。1463.2.2構(gòu)建決策樹的要素決策樹在構(gòu)建過程中需重點(diǎn)解決2個(gè)問題:(1)如何選擇合適的屬性作為決策樹的節(jié)點(diǎn)去劃分訓(xùn)練樣本;(2)如何在適當(dāng)位置停止劃分過程,從而得到大小合適的決策樹。1471.屬性“純度”度量方法決策樹根據(jù)數(shù)據(jù)“純度”來構(gòu)建,如何量化屬性純度呢?純度有基于信息熵和基于Gini系數(shù)兩類度量方法。

假定S為訓(xùn)練集,S的目標(biāo)屬性C具有m個(gè)可能的類標(biāo)號值,C={C1,C2,…,Cm},假定訓(xùn)練集S中,Ci在所有樣本中出現(xiàn)的頻率為pi(i=1,2,3,…,m)。1481.屬性“純度”度量方法(續(xù))

1491.屬性“純度”度量方法(續(xù))

1501.屬性“純度”度量方法(續(xù))

例:考慮下圖所示性別變量。一個(gè)班有40人,男女生各20人?,F(xiàn)將其劃分為兩組,第一組:18個(gè)男生,4個(gè)女生;第二組2個(gè)男生,16個(gè)女生。按照性別計(jì)算分組前后:(1)單個(gè)節(jié)點(diǎn)熵和總的熵;(2)單個(gè)節(jié)點(diǎn)Gini系數(shù)和總的Gini系數(shù)。全班男生20人,女生20人第一組18個(gè)男生,4個(gè)女生第二組2個(gè)男生,16個(gè)女生151解:(1)對于信息熵對于劃分前單個(gè)節(jié)點(diǎn)的熵,計(jì)算如下:在這個(gè)例子中,男生和女生都是20個(gè),各占一半,即p(男生)=p(女生)=0.5,將其代入上述公式中得:152劃分成兩組后,對于第一組有:對于第二組有:用劃分后兩個(gè)節(jié)點(diǎn)信息熵的平均表示劃分后總的熵,每個(gè)節(jié)點(diǎn)的權(quán)重為節(jié)點(diǎn)記錄的比例。因此劃分后總的熵為:153(2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論