版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、埃森哲大數(shù)據(jù)分析方法1大數(shù)據(jù)分析大數(shù)據(jù)分析-埃森哲埃森哲2015-7埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法數(shù)據(jù)分析即從數(shù)據(jù)、信息到知識(shí)的過(guò)程,數(shù)據(jù)分析需要數(shù)學(xué)理論、行業(yè)經(jīng)驗(yàn)以及計(jì)算機(jī)工具三者結(jié)合分析分析誤區(qū)誤區(qū)數(shù)據(jù)數(shù)據(jù)挖掘挖掘工具支撐數(shù)學(xué)&統(tǒng)計(jì)學(xué)知識(shí)行業(yè)經(jīng)驗(yàn)傳統(tǒng)傳統(tǒng)分析分析機(jī)器機(jī)器學(xué)習(xí)學(xué)習(xí)數(shù)學(xué)數(shù)學(xué)&統(tǒng)計(jì)學(xué)知識(shí)統(tǒng)計(jì)學(xué)知識(shí)數(shù)據(jù)分析的基礎(chǔ),將整理、描述、預(yù)
2、測(cè)數(shù)據(jù)的手段、過(guò)程抽象為數(shù)學(xué)模型的理論知識(shí)工具支撐工具支撐各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷的實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。行業(yè)經(jīng)驗(yàn)行業(yè)經(jīng)驗(yàn)行業(yè)經(jīng)驗(yàn)可在數(shù)據(jù)分析前確定分析需求,分析中檢驗(yàn)方法是否合理,以及分析后指導(dǎo)應(yīng)用,但行業(yè)特征不同,其應(yīng)用也不同,因此本文不展開介紹傳統(tǒng)分析傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識(shí),包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛,本文不展開介紹分析誤區(qū)分析誤區(qū)不了解分析模型的數(shù)學(xué)原理,會(huì)導(dǎo)致錯(cuò)誤的使用模型,而得出錯(cuò)誤的分析結(jié)論,影響業(yè)務(wù)決策,因此在選用分析模型時(shí),要深入了解該模型的原理和使
3、用限制機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)不需要人過(guò)多干預(yù),通過(guò)計(jì)算機(jī)自動(dòng)學(xué)習(xí),發(fā)現(xiàn)數(shù)據(jù)規(guī)律,但結(jié)論不易控制。數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘是挖掘數(shù)據(jù)背后隱藏的知識(shí)的重要手段埃森哲大數(shù)據(jù)分析方法隨著計(jì)算機(jī)技術(shù)發(fā)展和數(shù)據(jù)分析理論的更新,當(dāng)前的數(shù)據(jù)分析逐步成為機(jī)器語(yǔ)言、統(tǒng)計(jì)知識(shí)兩個(gè)學(xué)科的交集(備選)數(shù)據(jù)數(shù)據(jù)挖掘挖掘計(jì)算機(jī)技術(shù)統(tǒng)計(jì)學(xué)、人工智能業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)挖掘數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。信息處理信息處理信息處理信息處理信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)
4、據(jù)庫(kù)中的信息。它們不反映復(fù)雜的模式,或隱藏在數(shù)據(jù)庫(kù)中的規(guī)律。傳統(tǒng)分析傳統(tǒng)分析數(shù)據(jù)分析數(shù)據(jù)分析工具工具傳統(tǒng)分析傳統(tǒng)分析在數(shù)據(jù)量較少時(shí),傳統(tǒng)的數(shù)據(jù)分析已能夠發(fā)現(xiàn)數(shù)據(jù)中包含的知識(shí),包括結(jié)構(gòu)分析、杜邦分析等模型,方法成熟,應(yīng)用廣泛,本文不展開介紹數(shù)據(jù)分析工具數(shù)據(jù)分析工具各種廠商開發(fā)了數(shù)據(jù)分析的工具、模塊,將分析模型封裝,使不了解技術(shù)的人也能夠快捷的實(shí)現(xiàn)數(shù)學(xué)建模,快速響應(yīng)分析需求。埃森哲大數(shù)據(jù)分析方法隨著計(jì)算機(jī)科學(xué)的進(jìn)步,數(shù)據(jù)挖掘、商務(wù)智能、大數(shù)據(jù)等概念的出現(xiàn),數(shù)據(jù)分析的手段和方法更加豐富一系列以事實(shí)為支持,輔助商業(yè)決策的技術(shù)和方法,曾用名包括專家系統(tǒng)、智能決策等一般由數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、
5、數(shù)據(jù)備份和恢復(fù)等部分組成對(duì)數(shù)據(jù)分析的體系化管理,數(shù)據(jù)分析的主體依然是數(shù)據(jù)挖掘結(jié)構(gòu)分析分組分析杜邦分析預(yù)警分析常規(guī)分析常規(guī)分析揭示數(shù)據(jù)之間的靜態(tài)關(guān)系分析過(guò)程滯后對(duì)數(shù)據(jù)質(zhì)量要求高商務(wù)智能商務(wù)智能數(shù)據(jù)挖掘數(shù)據(jù)挖掘大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)數(shù)據(jù)可視化數(shù)據(jù)可視化統(tǒng)計(jì)學(xué)和計(jì)算機(jī)技術(shù)等多學(xué)科的結(jié)合揭示數(shù)據(jù)之間隱藏的關(guān)系將數(shù)據(jù)分析的范圍從“已知”擴(kuò)展到“未知”,從“過(guò)去”推向“將來(lái)”從多種類型的數(shù)據(jù)中,快速獲取知識(shí)的能力數(shù)據(jù)挖掘技術(shù)的衍生大數(shù)據(jù)時(shí)代,展示數(shù)據(jù)可以更好輔助理解數(shù)據(jù)、演繹數(shù)據(jù)本文在描述數(shù)據(jù)分析的流程后,重點(diǎn)介紹通用的數(shù)據(jù)分析方法和主流的應(yīng)用工具、軟件。隨著數(shù)據(jù)量的不斷擴(kuò)大,數(shù)據(jù)分析理論正處于飛速發(fā)展期,
6、因此本文的方法側(cè)重于基礎(chǔ)原理介紹。數(shù)據(jù)數(shù)據(jù)分析分析埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法1. 1.業(yè)務(wù)理解業(yè)務(wù)理解(business understanding(business understanding) 確定目標(biāo)、明確分析需求2. 2.數(shù)據(jù)理解(數(shù)據(jù)理解(data understandingdata understanding) 收集原始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)
7、據(jù)、檢驗(yàn)數(shù)據(jù)質(zhì)量3. 3.數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備(data preparation)(data preparation) 選擇數(shù)據(jù)、清洗數(shù)據(jù)、構(gòu)造數(shù)據(jù)、整合數(shù)據(jù)、格式化數(shù)據(jù)4. 4.建立模型建立模型(modeling(modeling) 選擇建模技術(shù)、參數(shù)調(diào)優(yōu)、生成測(cè)試計(jì)劃、構(gòu)建模型5. 5.評(píng)估模型評(píng)估模型(evaluation)(evaluation) 對(duì)模型進(jìn)行較為全面的評(píng)價(jià),評(píng)價(jià)結(jié)果、重審過(guò)程6. 6.部署部署(deployment)(deployment) 分析結(jié)果應(yīng)用數(shù)據(jù)分析標(biāo)準(zhǔn)流程crisp-dm為90年代由sig組織(當(dāng)時(shí))提出,已被業(yè)界廣泛認(rèn)可的數(shù)據(jù)分析流程。埃森哲大數(shù)據(jù)分析方法數(shù)
8、據(jù)分析框架業(yè)務(wù)理解業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備建立模型建立模型理解業(yè)務(wù)背景,評(píng)估分析需求模型評(píng)估模型評(píng)估應(yīng)用應(yīng)用 理解業(yè)務(wù)背景:理解業(yè)務(wù)背景:數(shù)據(jù)分析的本質(zhì)是服務(wù)于業(yè)務(wù)需求,如果沒(méi)有業(yè)務(wù)理解,缺乏業(yè)務(wù)指導(dǎo),會(huì)導(dǎo)致分析無(wú)法落地。 評(píng)估業(yè)務(wù)需求:評(píng)估業(yè)務(wù)需求:判斷分析需求是否可以轉(zhuǎn)換為數(shù)據(jù)分析項(xiàng)目,某些需求是不能有效轉(zhuǎn)換為數(shù)據(jù)分析項(xiàng)目的,比如不符合商業(yè)邏輯、數(shù)據(jù)不足、數(shù)據(jù)質(zhì)量極差等。數(shù)據(jù)收集數(shù)據(jù)清洗 數(shù)據(jù)收集:數(shù)據(jù)收集:抽取的數(shù)據(jù)必須能夠正確反映業(yè)務(wù)需求,否則分析結(jié)論會(huì)對(duì)業(yè)務(wù)將造成誤導(dǎo)。 數(shù)據(jù)清洗:數(shù)據(jù)清洗:原始數(shù)據(jù)中存在數(shù)據(jù)缺失和壞數(shù)據(jù),如果不處理會(huì)導(dǎo)致模型失效,因此對(duì)數(shù)據(jù)通過(guò)過(guò)濾“
9、去噪”從而提取出有效數(shù)據(jù)數(shù)據(jù)探索數(shù)據(jù)轉(zhuǎn)換選擇方法、工具,建立模型建模過(guò)程評(píng)估模型結(jié)果評(píng)估分析結(jié)果應(yīng)用分析模型改進(jìn) 探索數(shù)據(jù):探索數(shù)據(jù):運(yùn)用統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部規(guī)律。 數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換:為了達(dá)到模型的輸入數(shù)據(jù)要求,需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,包括生成衍生變量、一致化、標(biāo)準(zhǔn)化等。 建立模型:建立模型:綜合考慮業(yè)務(wù)需求精度、數(shù)據(jù)情況、花費(fèi)成本等因素,選擇最合適的模型。在實(shí)踐中對(duì)于一個(gè)分析目的,往往運(yùn)用多個(gè)模型,然后通過(guò)后續(xù)的模型評(píng)估,進(jìn)行優(yōu)化、調(diào)整,以尋求最合適的模型。 建模過(guò)程評(píng)估:建模過(guò)程評(píng)估:對(duì)模型的精度、準(zhǔn)確性、效率和通用性進(jìn)行評(píng)估。, 模型結(jié)果評(píng)估:模型結(jié)果評(píng)估:評(píng)估是否有遺漏的
10、業(yè)務(wù),模型結(jié)果是否回答了當(dāng)初的業(yè)務(wù)問(wèn)題,需要結(jié)合業(yè)務(wù)專家進(jìn)行評(píng)估。 結(jié)果應(yīng)用:結(jié)果應(yīng)用:將模型應(yīng)用于業(yè)務(wù)實(shí)踐,才能實(shí)現(xiàn)數(shù)據(jù)分析的真正價(jià)值:產(chǎn)生商業(yè)價(jià)值和解決業(yè)務(wù)問(wèn)題。 模型改進(jìn):模型改進(jìn):對(duì)模型應(yīng)用效果的及時(shí)跟蹤和反饋,以便后期的模型調(diào)整和優(yōu)化。 埃森哲大數(shù)據(jù)分析方法業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估開始是否明確需求否否數(shù)據(jù)探索結(jié)構(gòu)分析分布特性特征描述分類與回歸聚類分析時(shí)序模型關(guān)聯(lián)分析結(jié)構(gòu)優(yōu)化分析結(jié)果應(yīng)用數(shù)據(jù)分析框架圖例流程概要方法分類處理方法模型檢驗(yàn)理解業(yè)務(wù)背景,評(píng)估分析需求是是否滿足要求收集數(shù)據(jù)否是是建立模型貝葉斯神經(jīng)網(wǎng)絡(luò)c4.5決策樹指數(shù)平滑支持向量機(jī)灰色理論k均值算法fp-gro
11、wth算法apriori算法均方根誤差均方誤差正概率統(tǒng)計(jì)群間差異度群內(nèi)相似度業(yè)務(wù)符合度支持度置信度均方根誤差均方誤差正概率統(tǒng)計(jì)灰色理論遺傳算法數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換svm算法knn算法埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法數(shù)據(jù)清洗&數(shù)據(jù)探索 數(shù)據(jù)收集的方法多種多樣,本文不再詳述。在對(duì)收集的數(shù)據(jù)進(jìn)行分析前,要明確數(shù)據(jù)類型、規(guī)模,對(duì)數(shù)據(jù)有初步理解,同時(shí)要對(duì)數(shù)據(jù)中的“噪
12、聲”進(jìn)行處理,以支持后續(xù)數(shù)據(jù)建模。數(shù)據(jù)清洗數(shù)據(jù)清洗 異常值判別 缺失值處理 數(shù)據(jù)結(jié)構(gòu)統(tǒng)一(人為因素較多,無(wú)統(tǒng)一方法,本文不詳述)數(shù)據(jù)探索數(shù)據(jù)探索 特征描述 分布推斷 結(jié)構(gòu)優(yōu)化數(shù)據(jù)探索數(shù)據(jù)探索數(shù)據(jù)清洗和數(shù)據(jù)探索通常交互進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)探索通常交互進(jìn)行數(shù)據(jù)探索有助于選擇數(shù)據(jù)清洗方法數(shù)據(jù)探索有助于選擇數(shù)據(jù)清洗方法數(shù)據(jù)清洗后可以更有效的進(jìn)行數(shù)據(jù)探索數(shù)據(jù)清洗后可以更有效的進(jìn)行數(shù)據(jù)探索埃森哲大數(shù)據(jù)分析方法給定一個(gè)置信概率,并確定一個(gè)置信限,凡超過(guò)此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,將其視為異常值。常用的方法(數(shù)據(jù)來(lái)源于同一分布,且是正態(tài)的):拉依達(dá)準(zhǔn)則、肖維勒準(zhǔn)則、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則、t檢驗(yàn)。
13、根據(jù)人們對(duì)客觀事物、業(yè)務(wù)等已有的認(rèn)識(shí),判別由于外界干擾、人為誤差等原因造成實(shí)測(cè)數(shù)據(jù)偏離正常結(jié)果,判斷異常值。比較困難數(shù)據(jù)清洗的第一步是識(shí)別會(huì)影響分析結(jié)果的“異?!睌?shù)據(jù),然后判斷是否剔除。目前常用的識(shí)別異常數(shù)據(jù)的方法有物理判別法和統(tǒng)計(jì)判別法數(shù)據(jù)清洗:1.異常值判別物理判別法統(tǒng)計(jì)判別法慎重對(duì)待刪除異常值:慎重對(duì)待刪除異常值:為減少犯錯(cuò)誤的概率,可多種統(tǒng)計(jì)判別法結(jié)合使用,并盡力尋找異常值出現(xiàn)的原因;若有多個(gè)異常值,應(yīng)逐個(gè)刪除,即刪除一個(gè)異常值后,需再行檢驗(yàn)后方可再刪除另一個(gè)異常值檢驗(yàn)方法以正態(tài)分布為前提,若數(shù)據(jù)偏離正態(tài)分布或樣本較小時(shí),則檢驗(yàn)結(jié)檢驗(yàn)方法以正態(tài)分布為前提,若數(shù)據(jù)偏離正態(tài)分布或樣本較小時(shí)
14、,則檢驗(yàn)結(jié)果未必可靠,果未必可靠,校驗(yàn)是否正態(tài)分布可借助w檢驗(yàn)、d檢驗(yàn)注意注意埃森哲大數(shù)據(jù)分析方法13判別方法判別方法判別公式判別公式剔除范圍剔除范圍操作步驟操作步驟評(píng)價(jià)評(píng)價(jià)拉依達(dá)準(zhǔn)則拉依達(dá)準(zhǔn)則(33準(zhǔn)則)準(zhǔn)則)大于+3小于-3求均值、標(biāo)準(zhǔn)差,進(jìn)行邊界檢驗(yàn),剔除一個(gè)異常數(shù)據(jù),然后重復(fù)操作,逐一剔除適合用于n185時(shí)的樣本判定肖維勒準(zhǔn)則肖維勒準(zhǔn)則(等概率準(zhǔn)則)(等概率準(zhǔn)則)大于 + zc(n)小于 - zc(n)求均值、標(biāo)準(zhǔn)差,比對(duì)系數(shù)讀取zc(n)值,邊界檢驗(yàn),剔除一個(gè)異常數(shù)據(jù),然后重復(fù)操作,逐一剔除實(shí)際中zc(n) f(n,),說(shuō)明x(n)離群遠(yuǎn),則判定該數(shù)據(jù)為異常數(shù)據(jù)將數(shù)據(jù)由小到大排成順序
15、統(tǒng)計(jì)量,求極差,比對(duì)狄克遜判斷表讀取 f(n,)值,邊界檢驗(yàn),剔除一個(gè)異常數(shù)據(jù),然后重復(fù)操作,逐一剔除異常值只有一個(gè)時(shí),效果好;同側(cè)兩個(gè)數(shù)據(jù)接近,效果不好當(dāng)n處于 3 ,25時(shí),判別效果較好t t檢驗(yàn)檢驗(yàn)最大、最小數(shù)據(jù)與均值差值大于分別檢驗(yàn)最大、最小數(shù)據(jù),計(jì)算不含被檢驗(yàn)最大或最小數(shù)據(jù)時(shí)的均值及標(biāo)準(zhǔn)差,逐一判斷并刪除異常值異常值只有一個(gè)時(shí),效果好;同側(cè)兩個(gè)極端數(shù)據(jù)接近時(shí),效果不好;因而有時(shí)通過(guò)中位數(shù)代替平均數(shù)的調(diào)整方法可以有效消除同側(cè)異常值的影響()30.003p xu icnxxz(n,)ixxt 1( n ,)ixxt12(n ,)(n ,)itxxt0()(1 )()(1 )( 2 )(1
16、 )()(1 )nnnnfxxxxxxxx或()(1 )( ,)( ,)nxxk nxxk n 或( ,)k n 常見(jiàn)統(tǒng)計(jì)判別法常見(jiàn)統(tǒng)計(jì)判別法埃森哲大數(shù)據(jù)分析方法14由包含m個(gè)插補(bǔ)值的向量代替每一個(gè)缺失值,然后對(duì)新產(chǎn)生的m個(gè)數(shù)據(jù)集使用相同的方法處理,得到處理結(jié)果后,綜合結(jié)果,最終得到對(duì)目標(biāo)變量的估計(jì)在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)的條件期望(e步),后用極大化對(duì)數(shù)似然函數(shù)以確定參數(shù)的值,并用于下步的迭代(m步)基于完整的數(shù)據(jù)集,建立回歸方程(模型),對(duì)于包含空值的對(duì)象,將已知屬性值代入方程來(lái)估計(jì)未知屬性值,以此估計(jì)值來(lái)進(jìn)行填充;但當(dāng)變量不是線性相
17、關(guān)或預(yù)測(cè)變量高度相關(guān)時(shí)會(huì)導(dǎo)致估計(jì)偏差先根據(jù)歐式距離或相關(guān)分析確定距離缺失數(shù)據(jù)樣本最近的k個(gè)樣本,將這k個(gè)值加權(quán)平均來(lái)估計(jì)缺失數(shù)據(jù)值取所有對(duì)象(或與該對(duì)象具有相同決策屬性值的對(duì)象)的平均值來(lái)填充該缺失的屬性值數(shù)據(jù)清洗:數(shù)據(jù)清洗:2. 2.缺失值處理缺失值處理平均值填充平均值填充k最近距離法最近距離法回歸回歸極大似線估極大似線估計(jì)計(jì)多重插補(bǔ)法多重插補(bǔ)法 在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大影響,因此對(duì)剔除的異常值以及缺失值,要采用合理的方法進(jìn)行填補(bǔ),常見(jiàn)的方法有平均值填充、k最近距離法、回歸法、極大似線估計(jì)法等隨著數(shù)據(jù)量的增大,異常值和缺失值對(duì)整體分析結(jié)果的影響會(huì)逐漸變小,因此在“大數(shù)據(jù)”模式下
18、,數(shù)據(jù)清洗可忽略異常值和缺失值的影響,而側(cè)重對(duì)數(shù)據(jù)結(jié)構(gòu)合理性的分析埃森哲大數(shù)據(jù)分析方法數(shù)據(jù)探索 通過(guò)數(shù)據(jù)探索,初步發(fā)現(xiàn)數(shù)據(jù)特征、規(guī)律,為后續(xù)數(shù)據(jù)建模提供輸入依據(jù),常見(jiàn)的數(shù)據(jù)探索方法有數(shù)據(jù)特征描述、相關(guān)性分析、主成分分析等。 結(jié)構(gòu)優(yōu)化描述已有數(shù)據(jù)特征- 數(shù)據(jù)分布特征描述- 數(shù)據(jù)探索要遵循由淺入深、由易到難的步驟數(shù)據(jù)探索要遵循由淺入深、由易到難的步驟概率分布特征描述推斷整體數(shù)據(jù)特征- 參數(shù)檢驗(yàn)- 非參數(shù)檢驗(yàn)- 探索數(shù)據(jù)之間的關(guān)系- 相關(guān)性分析- 主成分分析- 埃森哲大數(shù)據(jù)分析方法數(shù)據(jù)特征描述中心位置中心位置diagramdiagram 2 2diagramdiagram 2 2diagramdia
19、gram 3 3圖形特征圖形特征分散程度分散程度中心位置中心位置v 眾數(shù)眾數(shù)v 中位數(shù)中位數(shù)/四分位數(shù)四分位數(shù)v 均值均值分散程度分散程度v 方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差v 極差、四分位差極差、四分位差v 標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù) z-scorev 離散系數(shù)離散系數(shù)圖形特征圖形特征v 偏度偏度數(shù)據(jù)分布偏斜程度的測(cè)度v 峰度峰度數(shù)據(jù)分布扁平程度的測(cè)度左偏分布右偏分布扁平分布尖峰分布埃森哲大數(shù)據(jù)分析方法數(shù)據(jù)概率分布 概率分布可以表述隨機(jī)變量取值的概率規(guī)律,是掌握數(shù)據(jù)變化趨勢(shì)和范圍的一個(gè)重要手段。離散分布離散分布均勻分布二項(xiàng)分布幾何分布離散型均勻分布是一個(gè)離散型概率分布,其中有限個(gè)數(shù)值擁有相同的概率1.在每次試
20、驗(yàn)中只有兩種可能的結(jié)果,而且是互相對(duì)立的;2.每次實(shí)驗(yàn)是獨(dú)立的,與其它各次試驗(yàn)結(jié)果無(wú)關(guān);3.結(jié)果事件發(fā)生的概率在整個(gè)系列試驗(yàn)中保持不變,則這一系列試驗(yàn)稱為伯努力試驗(yàn)。以下兩種離散型概率分布中的一種:在伯努利試驗(yàn)中,得到一次成功所需要的試驗(yàn)次數(shù)x。x的值域是 1, 2, 3, . 在得到第一次成功之前所經(jīng)歷的失敗次數(shù)y=x 1。y的值域是 0, 1, 2, 3, . 泊松近似泊松近似是二項(xiàng)分布的一種極限形式。其強(qiáng)調(diào)如下的試驗(yàn)前提:一次抽樣的概率值相對(duì)很小,而抽取次數(shù)值又相對(duì)很大。因此泊松分布又被稱之為罕有事件分布。泊松分布指出,如果隨機(jī)一次試驗(yàn)出現(xiàn)的概率為p,那么在n次試驗(yàn)中出現(xiàn)k次的概率按照泊
21、松分布應(yīng)該為連續(xù)分布連續(xù)分布均勻分布指數(shù)分布正態(tài)分布如果連續(xù)型隨機(jī)變量具有如下p=1/(b-a)的概率密度函數(shù),其中xa,b,則稱服從上的均勻分布指數(shù)分布可以用來(lái)表示獨(dú)立隨機(jī)事件發(fā)生的時(shí)間間隔,比如指數(shù)分布還用來(lái)描述大型復(fù)雜系統(tǒng)(如計(jì)算機(jī))的平均故障間隔時(shí)間mtbf的失效分布正態(tài)分布若隨機(jī)變量x服從一個(gè)數(shù)學(xué)期望為、方差為2的高斯分布,記為n(,2)。其概率密度函數(shù)為正態(tài)分布的期望值決定了其位置,其標(biāo)準(zhǔn)差決定了分布的幅度。因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。我們通常所說(shuō)的標(biāo)準(zhǔn)正態(tài)分布是 = 0, = 1的正態(tài)分布埃森哲大數(shù)據(jù)分析方法數(shù)據(jù)分布初步推斷參數(shù)檢驗(yàn):數(shù)據(jù)的分布已知的情況下,對(duì)數(shù)
22、據(jù)分布的參數(shù)是否落在相應(yīng)范圍內(nèi)進(jìn)行檢驗(yàn) 假設(shè)檢驗(yàn)是數(shù)理統(tǒng)計(jì)學(xué)中根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法,可以分為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)。非參數(shù)檢驗(yàn):一般是在不知道數(shù)據(jù)分布的前提下,檢驗(yàn)數(shù)據(jù)的分布情況檢驗(yàn)方法名檢驗(yàn)方法名稱稱問(wèn)題類型問(wèn)題類型假設(shè)假設(shè)卡方檢驗(yàn)檢測(cè)實(shí)際觀測(cè)頻數(shù)與理論頻數(shù)之間是否存在差異觀測(cè)頻數(shù)與理論頻數(shù)無(wú)差異k-s檢驗(yàn)檢驗(yàn)變量取值是否為正態(tài)分布服從正態(tài)分布游程檢驗(yàn)檢測(cè)一組觀測(cè)值是否有明顯變化趨勢(shì)無(wú)明顯變化趨勢(shì)二項(xiàng)分布假設(shè)檢驗(yàn)通過(guò)樣本數(shù)據(jù)檢驗(yàn)樣本來(lái)自的總體是否服從指定的概率為p的二項(xiàng)分布服從概率為p的二項(xiàng)分布檢驗(yàn)方法名稱檢驗(yàn)方法名稱問(wèn)題類型問(wèn)題類型假設(shè)假設(shè)適用條件適用條件抽樣方法抽樣方法
23、單樣本t檢驗(yàn)判斷一個(gè)總體平均數(shù)等于平均數(shù)等于已知數(shù)總體平均數(shù)等于a總體服從正態(tài)分布從總體中抽取一個(gè)樣本f檢驗(yàn)判斷兩總體方差方差相等兩總體方差相等總體服從正態(tài)分布從兩個(gè)總體中各抽取一個(gè)樣本獨(dú)立樣本 t檢驗(yàn)判斷兩總體平均數(shù)平均數(shù)相等兩總體平均數(shù)相等1、總體服從正態(tài)分布2、兩總體方程相等從兩個(gè)總體中各抽取一個(gè)樣本配對(duì)樣本t檢驗(yàn)判斷指標(biāo)實(shí)驗(yàn)前后平均數(shù)相等指標(biāo)實(shí)驗(yàn)前后平均數(shù)相等1、總體服從正態(tài)分布2、兩組數(shù)據(jù)是同一試驗(yàn)對(duì)象在試驗(yàn)前后的測(cè)試值抽取一組試驗(yàn)對(duì)象,在試驗(yàn)前測(cè)得試驗(yàn)對(duì)象某指標(biāo)的值,進(jìn)行試驗(yàn)后再測(cè)得試驗(yàn)對(duì)象該指標(biāo)的取值二項(xiàng)分布假設(shè)檢驗(yàn)隨機(jī)抽樣實(shí)驗(yàn)的成功概率的檢驗(yàn)總體概率等于p總體服從二項(xiàng)分布從總體
24、中抽取一個(gè)樣本總結(jié)1、參數(shù)檢驗(yàn)是針對(duì)參數(shù)做的假設(shè),非參數(shù)檢驗(yàn)是針對(duì)總體分布情況做的假設(shè)。 2、二者的根本區(qū)別在于參數(shù)檢驗(yàn)要利用到總體的信息,以總體分布和樣本信息對(duì)總體參數(shù)作出推斷;非參數(shù)檢驗(yàn)不需要利用總體的信息。埃森哲大數(shù)據(jù)分析方法相關(guān)系數(shù)是考察變量之間的相關(guān)程度的變量,相關(guān)分析是優(yōu)化數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)相關(guān)系數(shù)是考察變量之間的相關(guān)程度的變量,相關(guān)分析是優(yōu)化數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)0 00.40.40.60.60.80.81.01.00.20.2負(fù)相關(guān)負(fù)相關(guān)正相關(guān)正相關(guān)極強(qiáng)相關(guān)強(qiáng)相關(guān)中等相關(guān)弱相關(guān)弱相關(guān)或無(wú)(線性)相關(guān)適適用用條條件件結(jié)構(gòu)優(yōu)化相關(guān)性分析 用于分析的多個(gè)變量間可能會(huì)存在較多的信息重復(fù),若直接用來(lái)
25、分析,會(huì)導(dǎo)致模型復(fù)雜,同時(shí)可能會(huì)引起模型較大誤差,因此要初步探索數(shù)據(jù)間的相關(guān)性,剔除重復(fù)因素。spearmanspearman秩相關(guān)系數(shù)秩相關(guān)系數(shù)衡量?jī)蓚€(gè)變量之間聯(lián)系(變化趨勢(shì))的強(qiáng)弱在秩(排序)的相對(duì)大小基礎(chǔ)上得到,對(duì)異常值更穩(wěn)健pearsonpearson相關(guān)系數(shù)相關(guān)系數(shù)衡量?jī)蓚€(gè)變量線性相關(guān)性的強(qiáng)弱在方差和協(xié)方差的基礎(chǔ)上得到的,對(duì)異常值敏感kendallkendall相關(guān)系數(shù)相關(guān)系數(shù)基于協(xié)同思想得到,衡量變量之間的協(xié)同趨勢(shì)對(duì)異常值穩(wěn)健特特點(diǎn)點(diǎn)服從正態(tài)分布或接近正態(tài)的單峰分布兩個(gè)變量為連續(xù)數(shù)據(jù)兩個(gè)變量均為連續(xù)數(shù)據(jù)或等級(jí)數(shù)據(jù)兩個(gè)變量均為連續(xù)數(shù)據(jù)或等級(jí)數(shù)據(jù)偏相關(guān)分析偏相關(guān)分析二元變量相關(guān)分析二元
26、變量相關(guān)分析距離相關(guān)分析距離相關(guān)分析研究?jī)蓚€(gè)變量之間線性相關(guān)關(guān)系時(shí),控制可能對(duì)其產(chǎn)生影響的變量對(duì)觀測(cè)量之間或變量之間相似或不相似程度的一種測(cè)度埃森哲大數(shù)據(jù)分析方法檢驗(yàn)動(dòng)機(jī)檢驗(yàn)動(dòng)機(jī): 樣本數(shù)據(jù)只是總體的一個(gè)實(shí)現(xiàn),因此,根據(jù)現(xiàn)有數(shù)據(jù)計(jì)算出來(lái)的相關(guān)系數(shù)只是變量相關(guān)系數(shù)的一個(gè)觀測(cè)值,又稱為樣本相關(guān)系數(shù)。欲根據(jù)這個(gè)樣本相關(guān)系數(shù)來(lái)估計(jì)總體相關(guān)系數(shù),必須進(jìn)行顯著性檢驗(yàn)。其原假設(shè):在總體中,兩個(gè)變量的相關(guān)系數(shù)(總體相關(guān)系數(shù))為零檢驗(yàn)意義檢驗(yàn)意義: 計(jì)算在原假設(shè)成立的情況下(也就是在兩個(gè)變量相關(guān)系數(shù)為零的情況下),由于抽樣的原因(收集樣本數(shù)據(jù)的原因)得到當(dāng)前的樣本相關(guān)系數(shù)(可能這個(gè)系數(shù)并不為零,甚至還比較大)的
27、概率。(p值越小說(shuō)明越是小概率事件,不可能發(fā)生,拒絕原假設(shè))檢驗(yàn)方法檢驗(yàn)方法: t檢驗(yàn)(常用) :對(duì)于近似高斯分布的數(shù)據(jù)(如兩個(gè)變量服從雙變量正態(tài)分布), 相關(guān)系數(shù)的 樣本分布 近似地服從自由度為n2的 t分布;如果樣本容量不是特別小(通常大于30),即使觀測(cè)數(shù)據(jù)不服從正態(tài)分布,依然可使用t檢驗(yàn)結(jié)構(gòu)優(yōu)化相關(guān)性分析埃森哲大數(shù)據(jù)分析方法 karl pearson(1901)探究如何通過(guò)少數(shù)幾個(gè)主成分(principal component)來(lái)解釋多個(gè)變量間的內(nèi)部結(jié)構(gòu)時(shí)提出主成分分析法,旨在從原始變量中導(dǎo)出少數(shù)幾個(gè)主分量,使其盡可能多地保留原始變量的信息,且彼此間互不相關(guān)內(nèi)涵內(nèi)涵:將彼此相關(guān)的一組指
28、標(biāo)變量轉(zhuǎn)化為彼此獨(dú)立的一組新的指標(biāo)變量,并用其中較少的幾個(gè)新指標(biāo)變量就能綜合反映原多個(gè)指標(biāo)變量所包含主要信息的多元統(tǒng)計(jì)方法結(jié)構(gòu)優(yōu)化主成分分析應(yīng)用應(yīng)用:數(shù)據(jù)的壓縮和解釋,即常被用來(lái)尋找和簡(jiǎn)化判斷事物或現(xiàn)象的綜合指標(biāo),并對(duì)綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉屧恚涸恚涸O(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上用來(lái)降維的一種方法。埃森哲大數(shù)據(jù)分析方法22 數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式,通常的做法有數(shù)據(jù)泛化、標(biāo)準(zhǔn)化、屬性構(gòu)造等,本文詳細(xì)介紹數(shù)據(jù)標(biāo)準(zhǔn)化的方法,即統(tǒng)
29、一數(shù)據(jù)的量綱及數(shù)量級(jí),將數(shù)據(jù)處理為統(tǒng)一的基準(zhǔn)的方法。基期標(biāo)準(zhǔn)化法基期標(biāo)準(zhǔn)化法直線法直線法折線法折線法曲線法曲線法 選擇基期作為參照, 各期標(biāo)準(zhǔn)化數(shù)據(jù)各期數(shù)據(jù)/基期數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換各方法都有缺點(diǎn),要根據(jù)客觀事物的特征及所選用的分析方法來(lái)確定,如聚類分析、關(guān)聯(lián)分析等常用直線法,且聚類分析必須滿足無(wú)量綱標(biāo)準(zhǔn);而綜合評(píng)價(jià)則折線和曲線方法用得較多能簡(jiǎn)就簡(jiǎn),能簡(jiǎn)就簡(jiǎn),能用直線盡量不用曲線。 極值法: z-score法:max(x )min(x ),max(x )max(x )max(x )min(x )iiiiiiiiiiiixxxxxx21,s=(xx)1iiixxxsn其中0(xa)(axb)1(
30、xb)iiiiixaxba 某些數(shù)據(jù)在不同值范圍,采用不同的標(biāo)準(zhǔn)化方法,通常用于綜合評(píng)價(jià)示例 log函數(shù)法: arctan函數(shù)法: 對(duì)數(shù)函數(shù)法、模糊量化模式等 埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法分類定義:定義: 按照某種指定的屬性特征將數(shù)據(jù)歸類。需要確定類別的概念描述,并找出類判別準(zhǔn)則。分類的目的是獲得一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)集
31、合中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類別。 分類是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法而求得分類規(guī)則的。是模式識(shí)別的基礎(chǔ)。 分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。 銀行根據(jù)客戶以往貸款記錄情況,將客戶分為低風(fēng)險(xiǎn)客戶和高風(fēng)險(xiǎn)客戶,學(xué)習(xí)得到分類器。對(duì)一個(gè)新來(lái)的申請(qǐng)者,根據(jù)分類器計(jì)算風(fēng)險(xiǎn),決定接受或拒絕該申請(qǐng)分析影響變壓器正常運(yùn)行的因素,預(yù)測(cè)變壓器是否有故障,若有故障,故障為放電故障、過(guò)熱故障、短路故障等的哪一種。持續(xù)時(shí)長(zhǎng)持續(xù)時(shí)長(zhǎng) 13yes no72%9698%設(shè)備類型設(shè)備類型 110359%設(shè)備類型設(shè)備類型 2負(fù)荷負(fù)荷負(fù)荷負(fù)荷 6then 是否提薪= 是 分類模型(model)訓(xùn)練數(shù)據(jù)模型的使
32、用p識(shí)別未知對(duì)象的所屬類別p模型正確性的評(píng)價(jià)已標(biāo)記分類的測(cè)試樣本與模型的實(shí)際分類結(jié)果進(jìn)行比較模型的正確率是指測(cè)試集中被正確分類的樣本數(shù)與樣本總數(shù)的百分比。測(cè)試集與訓(xùn)練集相分離,否則將出現(xiàn)過(guò)擬合(over-fitting)現(xiàn)象分類模型測(cè)試數(shù)據(jù)(唐旭, 高級(jí), 4)提薪提薪? ?是是埃森哲大數(shù)據(jù)分析方法分類分類的主要算法:分類的主要算法:knnknn算法、算法、決策樹(cart、c4.5等)、svm算法、貝葉斯算法、bp神經(jīng)網(wǎng)絡(luò)等埃森哲大數(shù)據(jù)分析方法分類分類的主要算法:分類的主要算法:knn算法、決策樹(cart、c4.5c4.5等)、svm算法、貝葉斯算法、bp神經(jīng)網(wǎng)絡(luò)等算法介紹:算法介紹: c
33、4.5是一種類似二叉樹或多叉樹的樹結(jié)構(gòu)。樹中的每個(gè)非葉結(jié)點(diǎn)(包括根結(jié)點(diǎn))對(duì)應(yīng)于訓(xùn)練樣本集總一個(gè)非類屬性的測(cè)試,非葉結(jié)點(diǎn)的每一個(gè)分支對(duì)應(yīng)屬性的一個(gè)測(cè)試結(jié)果,每個(gè)葉結(jié)點(diǎn)代表一個(gè)類或類分布。從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的一條路徑形成一條分類規(guī)則。決策樹可以很方便地轉(zhuǎn)化為分類規(guī)則,一種非常直觀的分類模型的表示形式。 c45屬于一種歸納學(xué)習(xí)算法。歸納學(xué)習(xí)(inductive learning)旨在從大量經(jīng)驗(yàn)數(shù)據(jù)中歸納抽取一般的判定規(guī)則和模式,它是機(jī)器學(xué)習(xí)(machine learning)中最核心、最成熟的一個(gè)分支。 根據(jù)有無(wú)導(dǎo)師指導(dǎo),歸納學(xué)習(xí)又分為有導(dǎo)師學(xué)習(xí)(supervised learning,又稱為示例學(xué)
34、習(xí))和無(wú)導(dǎo)師學(xué)習(xí)(unsupervised learning)。 c45屬于有導(dǎo)師的學(xué)習(xí)算法。算法特點(diǎn):算法特點(diǎn):(1)模型直觀清晰,分類規(guī)則易于解釋;(2)解決了連續(xù)數(shù)據(jù)值的學(xué)習(xí)問(wèn)題;(3)提供了將學(xué)習(xí)結(jié)果決策樹到等價(jià)規(guī)則集的轉(zhuǎn)換功能。決策樹示例:套用俗語(yǔ),決策樹分類的思想類似于找對(duì)象?,F(xiàn)想象一個(gè)女孩的母親要給這個(gè)女孩介紹男朋友,于是有了下面的對(duì)話: 女兒:多大年紀(jì)了? 母親:26。 女兒:長(zhǎng)的帥不帥? 母親:挺帥的。 女兒:收入高不? 母親:不算很高,中等情況。 女兒:是公務(wù)員不? 母親:是,在稅務(wù)局上班呢。 女兒:那好,我去見(jiàn)見(jiàn)。埃森哲大數(shù)據(jù)分析方法分類分類的主要算法:分類的主要算法:k
35、nn算法、決策樹(cart、c4.5c4.5等)、svm算法、貝葉斯算法、bp神經(jīng)網(wǎng)絡(luò)等設(shè)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量來(lái)描述n個(gè)屬性的值,即:x=x1,x2,xn,假定有m個(gè)類,分別用c1, c2,,cm表示。給定一個(gè)未知的數(shù)據(jù)樣本x(即沒(méi)有類標(biāo)號(hào)),若樸素貝葉斯分類法將未知的樣本x分配給類ci,則一定是p(ci|x)p(cj|x) 1jm,ji根據(jù)貝葉斯定理由于p(x)對(duì)于所有類為常數(shù),最大化后驗(yàn)概率p(ci|x)可轉(zhuǎn)化為最大化先驗(yàn)概率p(x|ci)p(ci)。如果訓(xùn)練數(shù)據(jù)集有許多屬性和元組,計(jì)算p(x|ci)的開銷可能非常大,為此,通常假設(shè)各屬性的取值互相獨(dú)立,這樣先驗(yàn)概率p(x1|ci
36、),p(x2|ci),p(xn|ci)可以從訓(xùn)練數(shù)據(jù)集求得。根據(jù)此方法,對(duì)一個(gè)未知類別的樣本x,可以先分別計(jì)算出x屬于每一個(gè)類別ci的概率p(x|ci)p(ci),然后選擇其中概率最大的類別作為其類別。樸素貝葉斯算法成立的前提是各屬性之間互相獨(dú)立。當(dāng)數(shù)據(jù)集滿足這種獨(dú)立性假設(shè)時(shí),分類的準(zhǔn)確度較高,否則可能較低。另外,該算法沒(méi)有分類規(guī)則輸出。貝葉斯圖像識(shí)別貝葉斯圖像識(shí)別貝葉斯方法是一個(gè)非常通用的推理框架。其核心理念可以描述成:analysis by synthesis (通過(guò)合成來(lái)分析)。06 年的認(rèn)知科學(xué)新進(jìn)展上有一篇論文就是講用貝葉斯推理來(lái)解釋視覺(jué)識(shí)別的,一圖勝千言,下圖就是摘自這篇論文:首先
37、是視覺(jué)系統(tǒng)提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是 e 還是 f 還是等號(hào)),然后使用一個(gè)自頂向下的驗(yàn)證來(lái)比較到底哪個(gè)概念最佳地解釋了觀察到的圖像埃森哲大數(shù)據(jù)分析方法分類分類的主要算法:分類的主要算法:knn算法、決策樹(cart、c4.5c4.5等)、svm算法、貝葉斯算法、bp神經(jīng)網(wǎng)絡(luò)等 bp(back propagation)網(wǎng)絡(luò)是1986年由rumelhart(魯姆哈特)和mccelland(麥克利蘭)為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。bp網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無(wú)
38、需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過(guò)反向傳播來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。bp神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input)、隱層(hidden layer)和輸出層(output layer)。bpbp神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程 正向傳播: 輸入樣本-輸入層-各隱藏層-輸出層 判斷是否轉(zhuǎn)入反向傳播階段 若輸出層的實(shí)際輸出與期望輸出不符 誤差反傳 誤差以某種形式在各層表示-修正各層單元的權(quán)值 網(wǎng)絡(luò)輸出的誤差減少到可接受的程度或達(dá)到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止bpbp神經(jīng)網(wǎng)絡(luò)的不足神經(jīng)網(wǎng)絡(luò)的不足首先,由于學(xué)習(xí)速率是固定的,因此網(wǎng)絡(luò)的收斂速度
39、慢,需要較長(zhǎng)的訓(xùn)練時(shí)間。其次,bp算法可以使權(quán)值收斂到某個(gè)值,但并不保證其為誤差平面的全局最小值。再次,網(wǎng)絡(luò)隱含層的層數(shù)和單元數(shù)的選擇尚無(wú)理論上的指導(dǎo),一般是根據(jù)經(jīng)驗(yàn)或者通過(guò)反復(fù)實(shí)驗(yàn)確定。最后,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性。也就是說(shuō),如果增加了學(xué)習(xí)樣本,訓(xùn)練好的網(wǎng)絡(luò)就需要從頭開始訓(xùn)練,對(duì)于以前的權(quán)值和閾值是沒(méi)有記憶的。存款情況庫(kù)存情況銷售情況人員規(guī)模高風(fēng)險(xiǎn)低風(fēng)險(xiǎn)無(wú)風(fēng)險(xiǎn)輸入層隱藏層輸出層埃森哲大數(shù)據(jù)分析方法回歸產(chǎn)生產(chǎn)生:英國(guó)統(tǒng)計(jì)學(xué)家f.galton(法蘭西斯高爾頓)(1822-1911)和其學(xué)生k.pearson(卡爾.皮爾遜)(1856-1936)觀察了1078對(duì)夫婦,以每對(duì)夫婦的平均身高為x
40、,而取他們成年的兒子的身高為y,得到如下經(jīng)驗(yàn)方程: y=33.73+0.516x定義:定義: 假定同一個(gè)或多個(gè)獨(dú)立變量存在相關(guān)關(guān)系,尋找相關(guān)關(guān)系的模型。不同于時(shí)間序列法的是:模型的因變量是隨機(jī)變量,而自變量是可控變量。分為線性回歸和非線性回歸,通常指連續(xù)要素之間的模型關(guān)系,是因果關(guān)系分析的基礎(chǔ)。(回歸研究的是數(shù)據(jù)之間的非確定性關(guān)系)0100200300400500-1000100200300 gaussian kernel polynomial kernelresidual errordata series 線性回歸算法尋找屬性與預(yù)測(cè)目標(biāo)之間的線性關(guān)系。通過(guò)屬性選擇與去掉相關(guān)性,去掉與問(wèn)題無(wú)關(guān)
41、的變量或存在線性相關(guān)性的變量。 在建立回歸模型之前,可先進(jìn)行主成分分析,消除屬性之間的相關(guān)性。最后通過(guò)最小二乘法,算法得到各屬性與目標(biāo)之間的線性系數(shù)。埃森哲大數(shù)據(jù)分析方法分類分類:前提:前提: 正態(tài)性假設(shè):總體誤差項(xiàng)需服從正態(tài)分布,反之則最小二乘估計(jì)不再是最佳無(wú)偏估計(jì),不能進(jìn)行區(qū)間估計(jì)和假設(shè)檢驗(yàn) 零均值性假設(shè):在自變量取一定值的條件下,其總體各誤差項(xiàng)的條件平均值為零,反之無(wú)法得到無(wú)偏估計(jì) 等方差性假設(shè):在自變量取一定值的條件下,其總體各誤差項(xiàng)的條件方差為一常數(shù),反之無(wú)法得到無(wú)偏估計(jì) 獨(dú)立性假設(shè) :誤差項(xiàng)之間相互獨(dú)立(不相關(guān)),誤差項(xiàng)與自變量之間應(yīng)相互獨(dú)立,否則最小二乘估計(jì)不再是有效估計(jì)檢驗(yàn)檢驗(yàn)
42、:回歸模型回歸回歸- -線性回歸線性回歸 一元線性回歸一元線性回歸只有一個(gè)變量x與因變量y有關(guān),x與y都是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布多元線性回歸多元線性回歸分析多個(gè)變量與因變量y的關(guān)系, x與y都是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布logisticlogistic線性回歸線性回歸分析多個(gè)變量與因變量y的關(guān)系, y通常是離散型或定性變量,該模型對(duì)因變量y的分布無(wú)要求模型顯著性:f檢驗(yàn),讀取p值并同置信度比較,判斷回歸模型顯著性系數(shù)顯著性:t檢驗(yàn),讀取p值并同置信度比較,判斷該自變量是否顯著影響因變量擬合優(yōu)度殘差檢驗(yàn):繪制殘差圖(標(biāo)準(zhǔn)化殘差直方圖及散點(diǎn)圖),檢驗(yàn)殘差的正
43、態(tài)性及獨(dú)立性,若所描繪的點(diǎn)都在以0為橫軸的直線上下隨機(jī)散布,則回歸直線對(duì)各個(gè)觀測(cè)值的擬合情況良好決定系數(shù): 度量自變量對(duì)因變量變化的解釋程度,愈接近1則線性關(guān)系愈強(qiáng)2r樣本容量:n 30或n 3(p+1);其中n為樣本容量,p為自變量數(shù)目埃森哲大數(shù)據(jù)分析方法分類模型評(píng)估分類模型評(píng)估效果指標(biāo)測(cè)試集選取指標(biāo)呈現(xiàn)保持法隨機(jī)二次抽樣交叉驗(yàn)證自助法基于統(tǒng)計(jì)基于比率誤差、離差、kappa統(tǒng)計(jì)量、 準(zhǔn)確率置信區(qū)間、錯(cuò)誤率觀測(cè)差混淆矩陣roc曲線ks曲線lift圖響應(yīng)率曲線目的:模型之間的比選以及單模型預(yù)測(cè)效果捕獲率曲線/增益圖準(zhǔn)確率敏感性特異性精度ks值lift值響應(yīng)率捕獲率埃森哲大數(shù)據(jù)分析方法分類模型評(píng)估
44、方法方法描述描述圖示圖示保持法將原始數(shù)據(jù)集隨機(jī)地劃分到兩個(gè)獨(dú)立的集合:訓(xùn)練集和檢驗(yàn)集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到檢驗(yàn)集。模型的效果指標(biāo)如準(zhǔn)確率、誤差等由訓(xùn)練集導(dǎo)出。隨機(jī)二次抽樣多次重復(fù)使用保持法,得到一組準(zhǔn)確率等效果指標(biāo)。交叉驗(yàn)證最常用的是k-折交叉法,將原始數(shù)據(jù)分成k份,每次用其中一份為測(cè)試集,其余為訓(xùn)練集運(yùn)行,總共運(yùn)行k次,記錄誤差。自助法有放回抽樣。訓(xùn)練集的樣本為n,放回原數(shù)據(jù)集,重新有放回地均勻抽取n個(gè)樣本后,剩余的數(shù)據(jù)集作為測(cè)試集。原始數(shù)原始數(shù)據(jù)集據(jù)集訓(xùn)練集訓(xùn)練集測(cè)試集測(cè)試集模型評(píng)估建立模型2/31/3原始原始數(shù)據(jù)數(shù)據(jù)集集模型評(píng)估建立模型1/k1/k1/k1
45、/k有放回抽取n樣本建立模型測(cè)試集模型評(píng)估訓(xùn)練集(n)總數(shù)據(jù)集測(cè)試集選取方法埃森哲大數(shù)據(jù)分析方法效果指標(biāo)基于比率10合計(jì)1aba+b0cdc+d合計(jì)a+cb+da+b+c+d預(yù)測(cè)類實(shí)際類以二分類為例,說(shuō)明幾個(gè)重要效果指標(biāo)概念。下圖為混淆矩陣。通過(guò)銀行辦理信用卡的例子做指標(biāo)的業(yè)務(wù)解釋。最常用的評(píng)估指標(biāo),用以評(píng)價(jià)模型分類是否正確。但是,對(duì)于不平衡問(wèn)題(即0類的占大多數(shù)),準(zhǔn)確率去評(píng)價(jià)就不夠。例如銀行辦理信用卡,模型只用一條規(guī)則“所有人不違約”,結(jié)果準(zhǔn)確率達(dá)到1000/1200=83.3%。但這樣的模型毫無(wú)意義。準(zhǔn)確率適合于平衡問(wèn)題。正確識(shí)別正元組的百分比。如例中,敏感性為80/200=40%,因此
46、該模型正確標(biāo)識(shí)真元組(稀有類)的能力還是比較差的,但是還是高于違約的總占比200/1200=16.7%違約不違約合計(jì)違約80120200不違約209801000合計(jì)10011001200預(yù)測(cè)類實(shí)際類正確識(shí)別負(fù)元組的百分比。例子中為98%。預(yù)測(cè)為正元類中實(shí)際為正元類所占的百分比。衡量預(yù)測(cè)類1的精確性。例子中為80%。該案例中模型對(duì)于違約的人群,可以識(shí)別40%;如果一個(gè)人通過(guò)模型判斷為違約類,則80%可能該人為違約的。敏感性和精度是兩個(gè)重要指標(biāo),可以綜合這兩個(gè)指標(biāo),如f等。示例敏感性=a/(a+b)準(zhǔn)確率=(a+d)/(a+b+c+d)特異性=d/(c+d)精度=a/(a+c)分類模型評(píng)估埃森哲大
47、數(shù)據(jù)分析方法以真正率及敏感性為縱軸,假正率=1-特異性為橫軸做圖。給定一個(gè)二類問(wèn)題,我們可以對(duì)檢驗(yàn)集的不同部分,顯示模型可以正確識(shí)別正樣本的比例與模型將負(fù)樣本錯(cuò)誤標(biāo)識(shí)為正樣本的比例之間的比較評(píng)定。敏感性的增加以錯(cuò)誤正例的增加為代價(jià)。 roc曲線增益圖ks曲線模型預(yù)測(cè)為概率值,即為1類的概率為多少,為0類的概率為多少。將1類、0類的概率 按照大小由高到底排列,并將各自的累計(jì)百分比畫在一個(gè)圖里??v坐標(biāo)代表累計(jì)百分比,橫坐標(biāo)為預(yù)測(cè)的概率區(qū)間。0、1曲線的最大距離為ks值,反映模型區(qū)分0、1類的能力,越大代表模型將0、1分開程度越大。一般大于0.2較好。如圖ks=0.47.和捕獲率曲線是一樣的,詳見(jiàn)捕
48、獲率曲線。理想模型:100%預(yù)測(cè)正確下的曲線。這里假設(shè)1類占總數(shù)為30%。模型的曲線越靠近理想曲線,預(yù)測(cè)水平越高??捎胓ini系數(shù)衡量。gini系數(shù)=模型曲線與隨機(jī)曲線之間的面積/理想模型曲線與隨機(jī)曲線之間的面積。越接近1越好。分類模型評(píng)估埃森哲大數(shù)據(jù)分析方法響應(yīng)率曲線捕獲率曲線在每個(gè)區(qū)間里進(jìn)行計(jì)算,1類的累計(jì)數(shù)占該區(qū)間累計(jì)的總數(shù)比例作為響應(yīng)率響應(yīng)率。比如在排序前10%中,模型1得出1類樣本占比80%,模型2為73%。響應(yīng)率越高越好,改圖顯示模型1較模型2更好。是在每個(gè)區(qū)間段,計(jì)算1類的累計(jì)值占總體1類的百分比作為捕獲率捕獲率。衡量的是某累計(jì)區(qū)間抓住1類的對(duì)象占總體的比例。隨機(jī)概率:隨機(jī)概率:
49、不用模型隨機(jī)抽取數(shù)據(jù)得到的比率。比如響應(yīng)率,總數(shù)據(jù)中1類占比20%,那抽取10%數(shù)據(jù)理論占比應(yīng)該還是20%。橫坐標(biāo):橫坐標(biāo):按照模型結(jié)果概率得分從高到底排序,分成10個(gè)區(qū)間。適合于模型輸出值為概率得分,如貝葉斯分類、后向傳播等。lift值=響應(yīng)率/隨機(jī)概率。比如對(duì)10000名淺在顧客進(jìn)行概率打分,預(yù)測(cè)其購(gòu)買商品的可能性,若實(shí)際中有900人會(huì)購(gòu)買,則9%為隨機(jī)概率。抽取概率排名前10%的人數(shù),即1000人,預(yù)測(cè)600人購(gòu)買,則前10%的響應(yīng)率為600/1000=60%,則lift值=60%/9%=6.67.lift圖三個(gè)指標(biāo)在實(shí)際業(yè)務(wù)中使用比較多,因?yàn)槠渲庇^、通俗易懂;同時(shí)有利于劃分不同的目標(biāo)人
50、群,前10%?、20%?根據(jù)業(yè)務(wù)需要挑選受眾規(guī)模。分類模型評(píng)估埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法聚類分析 聚類分析對(duì)具有共同趨勢(shì)或結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分組,將數(shù)據(jù)項(xiàng)分組成多個(gè)簇(類),簇之間的數(shù)據(jù)差別應(yīng)盡可能大,簇內(nèi)的數(shù)據(jù)差別應(yīng)盡可能小,即“最小化簇間的相似性, 最大化簇內(nèi)的相似性”。示例基于劃分基于劃分的聚類的聚類基于層次基于層次的聚類的聚類基于密度基于密度的聚類的
51、聚類基于網(wǎng)格基于網(wǎng)格的聚類的聚類基于模型基于模型的聚類的聚類 對(duì)給定的數(shù)據(jù)集合,事先指定劃分為k個(gè)類別。 典型算法:典型算法:k-均值法均值法和k-中心點(diǎn)算法等。 對(duì)給定的數(shù)據(jù)集合進(jìn)行層次分解,不需要預(yù)先給定聚類數(shù),但要給定終止條件,包括凝聚法和分裂法兩類。 典型算法:典型算法: cure、chameleon、birch、agglomerative 只要某簇鄰近區(qū)域的密度超過(guò)設(shè)定的閾值,則擴(kuò)大簇的范圍,繼續(xù)聚類。這類算法可以獲得任意形狀的簇。 典型算法:典型算法:dbscan、optics和denclue等 首先將問(wèn)題空間量化為有限數(shù)目的單元,形成一個(gè)空間網(wǎng)格結(jié)構(gòu),隨后聚類在這些網(wǎng)格之間進(jìn)行。
52、 典型算法:典型算法:sting、warecluster和clique等 。為每個(gè)簇假定一個(gè)模型,尋找數(shù)據(jù)對(duì)模型的最佳擬合。所基于的假設(shè)是:數(shù)據(jù)是根據(jù)潛在的概率分布生成的。典型算法:典型算法:cobweb和神經(jīng)網(wǎng)絡(luò)算法等。埃森哲大數(shù)據(jù)分析方法聚類分析k均值聚類39-2-1.5-1-0.500.511.5200.511.522.53xyiteration 1-2-1.5-1-0.500.511.5200.511.522.53xyiteration 2-2-1.5-1-0.500.511.5200.511.522.53xyiteration 3-2-1.5-1-0.500.511.5200.511
53、.522.53xyiteration 4-2-1.5-1-0.500.511.5200.511.522.53xyiteration 5-2-1.5-1-0.500.511.5200.511.522.53xyiteration 6 利用k-means聚類算法,把原始數(shù)據(jù)聚成三個(gè)不同的簇的應(yīng)用實(shí)例如左圖示(k=3)。基本思路基本思路:(1)首先,隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)做為聚類中心;(2)然后,計(jì)算其它點(diǎn)到這些聚類中心點(diǎn)的距離,通過(guò)對(duì)簇中距離平均值的計(jì)算,不斷改變這些聚類中心的位置,直到這些聚類中心不再變化為止。應(yīng)用實(shí)例 k-means算法,也被稱為k-平均或k-均值,是一種得到最廣泛使用的聚類算法。主
54、要思想是:首先將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),然后把每個(gè)數(shù)據(jù)點(diǎn)劃分到最近的類別中,使得評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使同一個(gè)類中的對(duì)象相似度較高,而不同類之間的對(duì)象的相似度較小。埃森哲大數(shù)據(jù)分析方法聚類模型評(píng)估聚類評(píng)估指標(biāo)評(píng)估指標(biāo)公式定義公式定義圖示定義圖示定義凝聚度衡量一個(gè)族內(nèi)對(duì)象凝聚情況分離度衡量族與族之間的差異輪廓系數(shù)綜合了凝聚度和分離度相似度矩陣通過(guò)與理想相似矩陣比較,看聚類效果共性分類相關(guān)系數(shù)衡量共性分類矩陣與原相異度矩陣之間的相關(guān)度,用以評(píng)估哪種層次聚類方法最好。目的:評(píng)估聚類效果、確定合適的分類數(shù)量、聚類模型的選擇埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)
55、分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法關(guān)聯(lián)規(guī)則關(guān)聯(lián)分析 association 市場(chǎng)組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售 定義:定義: 自然界中某種事物發(fā)生時(shí)其他事物也會(huì)發(fā)生,則這種聯(lián)系稱之為關(guān)聯(lián)。反映事件之間依賴或關(guān)聯(lián)的知識(shí)稱為關(guān)聯(lián)型知識(shí)(又稱依賴關(guān)系)。要求找出描述這種關(guān)聯(lián)的規(guī)則,并用以預(yù)測(cè)或識(shí)別。 關(guān)聯(lián)分析的目的是找出數(shù)據(jù)集合中隱藏的關(guān)聯(lián)網(wǎng),是離散變量因果分析的基礎(chǔ)。舉例: 通過(guò)發(fā)現(xiàn)顧客放
56、入其購(gòu)物籃中不同商品之間的聯(lián)系,分析顧客的購(gòu)買習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。例如,在同一次購(gòu)物中,如果顧客購(gòu)買牛奶的同時(shí),也購(gòu)買面包(和什么類型的面包)的可能性有多大? 這種信息可以引導(dǎo)銷售,可以幫助零售商有選擇地經(jīng)銷和安排貨架。例如,將牛奶和面包盡可能放近一些,可以進(jìn)一步刺激一次去商店同時(shí)購(gòu)買這些商品。埃森哲大數(shù)據(jù)分析方法喝咖啡(a)不喝咖啡(a)合計(jì)喝茶(b)15050200不喝茶(b)650150800合計(jì)8002001000關(guān)聯(lián)規(guī)則設(shè)關(guān)聯(lián)規(guī)則: ,a或b為項(xiàng)集,支持度= ,表示同時(shí)包含a、b事務(wù)占總事務(wù)的百分比;置信度= ,是預(yù)測(cè)
57、性指標(biāo),表示a事務(wù)發(fā)生b事務(wù)發(fā)生的可能性。顯然支持度為對(duì)稱指標(biāo),即 都一樣,而置信度為非對(duì)稱指標(biāo),二者不同。我們以茶和咖啡的案例做指標(biāo)說(shuō)明。ab/a bab/aababa或b基本概念基本概念aa合計(jì)bf11f10f1+bf01f00f0+合計(jì)f+1f+0f示例支持度(喝茶喝咖啡)=150/1000=15%;置信度(喝茶喝咖啡)=150/200=75%。即一個(gè)人喝茶那么他75%可能喝咖啡。再看,不管一個(gè)人是否喝茶,其喝咖啡的比例為800/1000=80%75%。即一個(gè)人喝茶其喝咖啡的可能性由80%降低到75%,因此喝茶喝咖啡的高置信度實(shí)際上是一個(gè)誤導(dǎo),其忽略了喝咖啡的支持度。因此,支持度-置信度
58、的評(píng)估框架是不完善的。置信度除以喝咖啡的支持度,即75%/80%=0.94。大于1表示正相關(guān),而且越大相關(guān)性越強(qiáng);等于1表示相互獨(dú)立;小于1表示負(fù)相關(guān)。興趣因子興趣因子對(duì)于連續(xù)變量相關(guān)性用pearson相關(guān)系數(shù),pearson相關(guān)系數(shù)用來(lái)衡量?jī)蓚€(gè)數(shù)據(jù)集合是否在一條線上面,它用來(lái)衡量定距變量間的線性關(guān)系。如衡量國(guó)民收入和居民儲(chǔ)蓄存款、身高和體重、高中成績(jī)和高考成績(jī)等變量間的線性相關(guān)關(guān)系。相關(guān)性相關(guān)性埃森哲大數(shù)據(jù)分析方法關(guān)聯(lián)規(guī)則主要的關(guān)聯(lián)算法:主要的關(guān)聯(lián)算法:aprioriapriori關(guān)聯(lián)算法、關(guān)聯(lián)算法、fp-growth關(guān)聯(lián)算法等; apriori算法是最基本的一種關(guān)聯(lián)規(guī)則算法,它采用布爾關(guān)聯(lián)
59、規(guī)則的挖掘頻繁項(xiàng)集的算法,利用逐層搜索的方法挖掘頻繁項(xiàng)集。埃森哲大數(shù)據(jù)分析方法關(guān)聯(lián)規(guī)則 fp-growth算法不產(chǎn)生候選集而直接生成頻繁集的頻繁模式增長(zhǎng)算法,該算法采用分而治之的策略:在第一次掃描數(shù)據(jù)庫(kù)之后,把數(shù)據(jù)庫(kù)中的頻繁項(xiàng)目集壓縮到一棵頻繁模式樹中,形成投影數(shù)據(jù)庫(kù),同時(shí)保留其中的關(guān)聯(lián)信息,隨后繼續(xù)將fp-tree分成一些條件樹,對(duì)這些條件樹分別進(jìn)行挖掘。fp-tree的構(gòu)建f,c,b組合滿足條件主要的關(guān)聯(lián)算法:主要的關(guān)聯(lián)算法:apriori關(guān)聯(lián)算法、fp-growthfp-growth關(guān)聯(lián)算法關(guān)聯(lián)算法等;埃森哲大數(shù)據(jù)分析方法關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則模型評(píng)估目的:識(shí)別有意義(有價(jià)值)的關(guān)聯(lián)模式客觀度
60、量評(píng)價(jià)項(xiàng)集:對(duì)稱度量指標(biāo)評(píng)價(jià)關(guān)聯(lián)規(guī)則:非對(duì)稱客觀度量支持度相關(guān)性興趣因子余弦jaccard集體強(qiáng)度置信度j度量gini指標(biāo)可信度因子互信息信任度主觀度量可視化基于主觀模板的度量基于主觀興趣的度量.埃森哲大數(shù)據(jù)分析方法目錄概述概述數(shù)據(jù)分析框架數(shù)據(jù)分析框架數(shù)據(jù)分析方法數(shù)據(jù)分析方法數(shù)據(jù)理解數(shù)據(jù)理解& &數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析支撐工具數(shù)據(jù)分析支撐工具關(guān)聯(lián)分析關(guān)聯(lián)分析聚類分析聚類分析分類與回歸分類與回歸時(shí)序模型時(shí)序模型結(jié)構(gòu)優(yōu)化結(jié)構(gòu)優(yōu)化埃森哲大數(shù)據(jù)分析方法時(shí)間序列時(shí)間序列:是按時(shí)間順序的一組數(shù)字序列構(gòu)成序列構(gòu)成:組合模型:組合模型: 加法模型:假定時(shí)間序列是基于4種成份相加而成的。長(zhǎng)期趨勢(shì)并不影響季節(jié)變動(dòng);y=t+s+c+i 乘法模型:假定時(shí)間序列是基于4種成份相乘而成的。假定季節(jié)變動(dòng)與循環(huán)變動(dòng)為長(zhǎng)期趨勢(shì)的函
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中物理第四章電磁波及其應(yīng)用第四節(jié)第五節(jié)課題研究:社會(huì)生活中的電磁波課件新人教版選修1-
- 上海市嘉定區(qū) 2024-2025年八年級(jí)上學(xué)期期中考試道德與法治試卷(無(wú)答案)
- 幼兒園教研學(xué)期工作計(jì)劃的學(xué)校文化與特色建設(shè)
- 教育機(jī)構(gòu)的心理安全與應(yīng)急預(yù)案計(jì)劃
- 電商倉(cāng)儲(chǔ)租賃合同三篇
- 藝術(shù)教育中的性別平等實(shí)踐計(jì)劃
- 十一月中旬執(zhí)業(yè)醫(yī)師資格資格考試口腔執(zhí)業(yè)醫(yī)師綜合練習(xí)卷(附答案)
- 知識(shí)產(chǎn)權(quán)轉(zhuǎn)讓委托合同三篇
- 水環(huán)境綜合治理的整治措施計(jì)劃
- 加強(qiáng)語(yǔ)文素養(yǎng)提升計(jì)劃
- 新產(chǎn)品上市策劃及營(yíng)銷課件
- 電視主持人勞動(dòng)合同書
- 磁新材料科技有限公司20萬(wàn)噸超純鐵精粉項(xiàng)目環(huán)評(píng)可研資料環(huán)境影響
- 大學(xué)生食品工作方面的生涯發(fā)展報(bào)告
- 基于Android的天氣預(yù)報(bào)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
- (完整)中醫(yī)癥候積分量表
- 繪制進(jìn)度計(jì)劃?rùn)M道圖
- 常州高級(jí)中學(xué)2022-2023學(xué)年高一上學(xué)期期中質(zhì)量檢查物理試題(解析版)
- 簡(jiǎn)愛(ài)英文版課件
- 職業(yè)道德與商業(yè)道德培訓(xùn)
- 學(xué)科教研基地匯報(bào)材料
評(píng)論
0/150
提交評(píng)論