




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)導(dǎo)論第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項(xiàng)目實(shí)訓(xùn) 5.1數(shù)據(jù)分析概念和分類第五章大數(shù)據(jù)分析數(shù)據(jù)分析概念和分類數(shù)據(jù)分析是指收集、處理數(shù)據(jù)并獲取數(shù)據(jù)隱含信息的過程。大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)產(chǎn)生速度快、數(shù)據(jù)價(jià)值密度低等特點(diǎn),這些特點(diǎn)增加了對(duì)大數(shù)據(jù)進(jìn)行有效分析的難度,大數(shù)據(jù)分析(BigDataAnalytics,BDA)成為當(dāng)前探索大數(shù)據(jù)發(fā)展的核心內(nèi)容。數(shù)據(jù)分析主要作用包括:●推測(cè)或解釋數(shù)據(jù)并確定如何使用數(shù)據(jù);●檢查數(shù)據(jù)是否合法;●給決策制定合理建議;●診斷或推斷錯(cuò)誤原因;●預(yù)測(cè)未來將要發(fā)生的事情。數(shù)據(jù)分析的類型根據(jù)數(shù)據(jù)分析深度,可將數(shù)據(jù)分析分為三個(gè)層次:描述性分析(descriptiveanalysis),預(yù)測(cè)性(predictiveanalysis)分析和規(guī)則性分析(prescriptiveanalysis)。在統(tǒng)計(jì)學(xué)的領(lǐng)域當(dāng)中,數(shù)據(jù)分析可劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析及驗(yàn)證性數(shù)據(jù)分析三種類型。在人類探索自然的過程中,通常將數(shù)據(jù)分析方法分為定性數(shù)據(jù)分析和定量數(shù)據(jù)分析兩大類。按照數(shù)據(jù)分析的實(shí)時(shí)性,一般將數(shù)據(jù)分析分為實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析。第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項(xiàng)目實(shí)訓(xùn) 數(shù)據(jù)分析是指數(shù)據(jù)收集、處理并獲取數(shù)據(jù)信息的過程。通過數(shù)據(jù)分析,人們可以從雜亂無章的數(shù)據(jù)當(dāng)中獲取有用的信息,從而找出研究對(duì)象的內(nèi)在規(guī)律。數(shù)據(jù)作為第四次工業(yè)革命的戰(zhàn)略資源,全球各國都在大力發(fā)展數(shù)據(jù)基礎(chǔ)信息平臺(tái)的建設(shè),用以改善數(shù)據(jù)的采集、存儲(chǔ)、傳輸及管理的效率,從而提升信息服務(wù)水平。數(shù)據(jù)分析方法概述數(shù)據(jù)來源大數(shù)據(jù)分析包括五個(gè)階段,1)數(shù)據(jù)獲取及儲(chǔ)存2)數(shù)據(jù)信息抽取及無用信息的清洗3)數(shù)據(jù)整合及表示4)數(shù)據(jù)模型的建立和結(jié)果分析5)結(jié)果闡釋數(shù)據(jù)分析活動(dòng)步驟分析數(shù)據(jù)在完成對(duì)數(shù)據(jù)的處理之后,最重要的就是根據(jù)既定目標(biāo)需求對(duì)處理結(jié)果進(jìn)行分析。目前,主要依靠四項(xiàng)技術(shù):統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和可視化分析。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析大數(shù)據(jù)分析方法的三種體系面向數(shù)據(jù)視角面向流程視角面向信息技術(shù)視角面向數(shù)據(jù)視角的大數(shù)據(jù)分析方法主要是以大數(shù)據(jù)分析處理的對(duì)象“數(shù)據(jù)”為依據(jù),從數(shù)據(jù)本身的類型、數(shù)據(jù)量、數(shù)據(jù)處理方式以及數(shù)據(jù)能夠解決的具體問題等方面對(duì)大數(shù)據(jù)分析方法進(jìn)行分類。面向流程視角的大數(shù)據(jù)分析方法主要關(guān)注大數(shù)據(jù)分析的步驟和階段。一般而言,大數(shù)據(jù)分析是一個(gè)多階段的任務(wù)循環(huán)執(zhí)行過程。面向信息技術(shù)視角的大數(shù)據(jù)分析方法強(qiáng)調(diào)大數(shù)據(jù)本身涉及到的新型信息技術(shù),從大數(shù)據(jù)的處理架構(gòu)、大數(shù)據(jù)系統(tǒng)和大數(shù)據(jù)計(jì)算模式等方面來探討具體的大數(shù)據(jù)分析方法。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析巨量的各類機(jī)器產(chǎn)生的數(shù)據(jù)123數(shù)據(jù)來源人為產(chǎn)生的大量數(shù)據(jù)企業(yè)的數(shù)據(jù)5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析大數(shù)據(jù)的來源按照數(shù)據(jù)產(chǎn)生主體可劃分為三層。最外層的是巨量的各類機(jī)器產(chǎn)生的數(shù)據(jù),次外層是人為產(chǎn)生的大量數(shù)據(jù)。最內(nèi)層主要是來自企業(yè)的數(shù)據(jù)。數(shù)據(jù)分析活動(dòng)步驟1數(shù)據(jù)獲取及儲(chǔ)存2數(shù)據(jù)信息抽取及無用信息的清洗3數(shù)據(jù)整合及表示4數(shù)據(jù)模型的建立和結(jié)果分析5結(jié)果闡釋5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析由于大數(shù)據(jù)復(fù)雜多變的特殊屬性,不同的學(xué)者對(duì)大數(shù)據(jù)分析方法的看法各異??偨Y(jié)起來,包括三種體系,分別是面向數(shù)據(jù)視角、面向流程視角和面向信息技術(shù)視角的分析方法。4大必要的活動(dòng)步驟(4)數(shù)據(jù)挖掘(3)數(shù)據(jù)預(yù)處理(1)識(shí)別目標(biāo)需求(2)采集數(shù)據(jù)數(shù)據(jù)挖掘的目的是在現(xiàn)有數(shù)據(jù)基礎(chǔ)之上利用各類有效的算法挖掘出數(shù)據(jù)中隱含的有機(jī)質(zhì)信息,從而達(dá)到分析推理和預(yù)測(cè)的效果,實(shí)現(xiàn)預(yù)定的高層次數(shù)據(jù)分析需求。對(duì)數(shù)據(jù)進(jìn)行必要的預(yù)處理,常用的數(shù)據(jù)預(yù)處理方法包括:數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)去冗余。首先必須明確數(shù)據(jù)分析的目標(biāo)需求,從而為數(shù)據(jù)的收集和分析提供清晰的方向,該步驟是數(shù)據(jù)分析有效性的首要條件。數(shù)據(jù)采集就是運(yùn)用合適的方法來有效收集盡可能多的相關(guān)數(shù)據(jù),從而為數(shù)據(jù)分析過程的順利進(jìn)行打下基礎(chǔ)。常用的數(shù)據(jù)采集方法包括:系統(tǒng)日志采集方法,這是目前廣泛使用的一種數(shù)據(jù)采集方法。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析數(shù)據(jù)分析活動(dòng)步驟分析數(shù)據(jù)數(shù)據(jù)挖掘數(shù)據(jù)挖掘可以認(rèn)為是發(fā)現(xiàn)大數(shù)據(jù)集中數(shù)據(jù)模式的一種計(jì)算過程。許多數(shù)據(jù)挖掘算法已經(jīng)在機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)和數(shù)據(jù)庫領(lǐng)域得到了應(yīng)用。機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。高性能的以機(jī)器學(xué)習(xí)算法為核心的數(shù)據(jù)分析,為實(shí)際業(yè)務(wù)提供服務(wù)和指導(dǎo),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的最終變現(xiàn)。統(tǒng)計(jì)分析統(tǒng)計(jì)分析基于統(tǒng)計(jì)理論,屬于應(yīng)用數(shù)學(xué)的一個(gè)分支。在統(tǒng)計(jì)理論中,隨機(jī)性和不確定性由概率理論建模。統(tǒng)計(jì)分析技術(shù)可以分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì)??梢暬治隹梢暬治雠c信息繪圖學(xué)和信息可視化相關(guān)。數(shù)據(jù)可視化的目標(biāo)是以圖形方式清晰有效地展示信息,從而便于解釋數(shù)據(jù)之間的特征和屬性情況。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材
習(xí)題5.4上機(jī)與項(xiàng)目實(shí)訓(xùn) 5.3數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。這個(gè)定義包括幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘大數(shù)據(jù)挖掘數(shù)據(jù)挖掘是創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算方法,通過對(duì)提供的數(shù)據(jù)進(jìn)行分析,查找特定類型的模式和趨勢(shì),最終形成創(chuàng)建模型。分類樸素貝葉斯算法一種重要的數(shù)據(jù)分析形式,根據(jù)重要數(shù)據(jù)類的特征向量值及其他約束條件,構(gòu)造分類函數(shù)或分類模型,目的是根據(jù)數(shù)據(jù)集的特點(diǎn)把未知類別的樣本映射到給定類別中。支持向量機(jī)SVM算法AdaBoost算法C4.5算法CART算法聚類BIRCH算法目的在于將數(shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集在一起,同一個(gè)數(shù)據(jù)群中的數(shù)據(jù)特征要盡可能相似,不同的數(shù)據(jù)群中的數(shù)據(jù)特征要有明顯的區(qū)別。K-Means算法期望最大化算法(EM算法)K近鄰算法關(guān)聯(lián)規(guī)則Apriori算法索系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項(xiàng)與另一組事件或數(shù)據(jù)項(xiàng)聯(lián)系起來的規(guī)則,以獲得預(yù)先未知的和被隱藏的,不能通過數(shù)據(jù)庫的邏輯操作或統(tǒng)計(jì)的方法得出的信息。FP-Growth算法大數(shù)據(jù)挖掘工具Hadoop如此復(fù)雜和龐大的數(shù)據(jù)集面前,傳統(tǒng)的數(shù)據(jù)挖掘分析工具已經(jīng)不能勝任大數(shù)據(jù)的挖掘分析。針對(duì)大數(shù)據(jù)龐大的規(guī)模以及復(fù)雜的結(jié)構(gòu),目前業(yè)界已開發(fā)了眾多的大數(shù)據(jù)挖掘分析工具。第五章大數(shù)據(jù)分析MahoutSparkMLlibStormApacheDrillRapidMinerPentahoBI數(shù)據(jù)挖掘常用算法大數(shù)據(jù)挖掘常用的算法有分類、聚類、回歸分析、關(guān)聯(lián)規(guī)則、特征分析、Web頁挖掘、神經(jīng)網(wǎng)絡(luò)等智能算法。5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析
分類就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù),根據(jù)目標(biāo)數(shù)據(jù)的不同特點(diǎn)按照分類模式將其劃分為不同的類別,其作用是通過分類模型,將目標(biāo)數(shù)據(jù)映射到某個(gè)特定的類別。分類
聚類分析是把一組數(shù)據(jù)按照差異性和相似性分為幾個(gè)類別,使得屬于同一類的數(shù)據(jù)之間相似性盡可能大,不同類之間的相似性盡可能小,跨類的數(shù)據(jù)關(guān)聯(lián)性盡可能低。聚類
5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析
回歸分析是確定兩種或兩種以上變量相互之間依賴性關(guān)系的一種統(tǒng)計(jì)分析方法,用以分析數(shù)據(jù)的內(nèi)在規(guī)律,常用于數(shù)值預(yù)報(bào)、系統(tǒng)控制等問題。回歸分析
關(guān)聯(lián)分析最主要的目的就是找出隱藏在數(shù)據(jù)之間的相互關(guān)系和關(guān)聯(lián)性,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他相關(guān)數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)分析第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘
特征分析是指從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式即為此數(shù)據(jù)集的總體特征。特征分析
Web網(wǎng)頁挖掘涉及Web技術(shù)、計(jì)算機(jī)語言、信息學(xué)等多個(gè)領(lǐng)域,是一個(gè)綜合性過程。Web網(wǎng)頁挖掘第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)
第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)是一種模擬大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu)來進(jìn)行信息處理的數(shù)學(xué)模型,具有強(qiáng)大的自主學(xué)習(xí)能力和聯(lián)想存儲(chǔ)功能并具有高度容錯(cuò)性,非常適合處理非線性數(shù)據(jù)以及具有模糊性、不完整性、冗余性特征的數(shù)據(jù)。大數(shù)據(jù)挖掘工具第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)是一種模擬大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu)來進(jìn)行信息處理的數(shù)學(xué)模型,具有強(qiáng)大的自主學(xué)習(xí)能力和聯(lián)想存儲(chǔ)功能并具有高度容錯(cuò)性,非常適合處理非線性數(shù)據(jù)以及具有模糊性、不完整性、冗余性特征的數(shù)據(jù)。Hadoop是一種能夠?qū)Υ髷?shù)據(jù)進(jìn)行并行分布式處理的計(jì)算框架,以一種可靠、可伸縮、高效的方式對(duì)海量數(shù)據(jù)進(jìn)行處理。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡(jiǎn)稱HDFS。HDFS具有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉硬件上;而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。Mahout第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘Mahout的主要數(shù)據(jù)目標(biāo)集是大規(guī)模數(shù)據(jù),因此Mahout能夠建立運(yùn)行在ApacheHadoop平臺(tái)上的可伸縮的機(jī)器學(xué)習(xí)算法,這些算法通過Mapreduce模式實(shí)現(xiàn),但并不局限于Hadoop平臺(tái)。SparkMLlibMLlib是構(gòu)建在ApacheSpark上的一個(gè)可擴(kuò)展的分布式機(jī)器學(xué)習(xí)庫,充分利用了Spark的內(nèi)存計(jì)算和適合迭代型計(jì)算的優(yōu)勢(shì),將性能大幅度提升。MLlib支持的分類算法主要有:樸素貝葉斯、邏輯回歸、決策樹和支持向量機(jī).MLlib支持的回歸算法主要有:Lasso、線性回歸、決策樹和嶺回歸。聚類算法屬于非監(jiān)督式學(xué)習(xí),MLlib目前支持廣泛使用的Kmeans算法。MLlib也支持基于模型的協(xié)同過濾,其中用戶和商品通過一小組隱語義因子進(jìn)行表達(dá),并且這些因子也用于預(yù)測(cè)缺失元素。StormStorm是一個(gè)開源的、分布式的具有高容錯(cuò)性的實(shí)時(shí)計(jì)算系統(tǒng)。Storm能夠十分可靠地處理龐大的數(shù)據(jù)流,能夠用來處理Hadoop的批量數(shù)據(jù)。Storm應(yīng)用領(lǐng)域廣泛,包括:在線機(jī)器學(xué)習(xí)、實(shí)時(shí)分析、分布式RPC(遠(yuǎn)過程調(diào)用)、持續(xù)計(jì)算、ETL等等。Storm的處理速度非常迅速,每個(gè)節(jié)點(diǎn)每秒可以處理上百萬個(gè)數(shù)據(jù)元組,Storm支持多種語言編程,具有容錯(cuò)性高、可擴(kuò)展、易于設(shè)置和操作的特點(diǎn)。5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析
ApacheDrill在基于SQL的數(shù)據(jù)分析和商業(yè)智能(BI)上引入了JSON(JavaScriptObjectNotation,JS對(duì)象標(biāo)記)文件模型,使得用戶能查詢固定架構(gòu)、演化架構(gòu)以及各種格式和數(shù)據(jù)存儲(chǔ)中的模式(columnar-free)無關(guān)數(shù)據(jù)。ApacheDrill
RapidMiner是德國多特蒙德工業(yè)大學(xué)于2007年推出的世界領(lǐng)先的數(shù)據(jù)挖掘工具,能夠完成的數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,并且能夠簡(jiǎn)化數(shù)據(jù)挖掘過程的設(shè)計(jì)和評(píng)價(jià)。RapidMiner第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘PentahoBI第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘PentahoBI是一個(gè)以流程為核心的,面向解決方案(Solution)而非工具組件的框架,其目的在于將一系列企業(yè)級(jí)BI產(chǎn)品、API、開源軟件等組件加以集成,方便商務(wù)智能應(yīng)用的開發(fā)。PentahoBI包括多個(gè)工具軟件和一個(gè)webserver平臺(tái),支持分析、報(bào)表、圖表、數(shù)據(jù)挖掘和數(shù)據(jù)集成等功能,允許商業(yè)分析人員或研發(fā)人員分析模型,創(chuàng)建報(bào)表,商業(yè)規(guī)則和BI流程。數(shù)據(jù)挖掘算法應(yīng)用第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘決策樹分類算法,只需從樹的根節(jié)點(diǎn)開始,將測(cè)試條件用于檢驗(yàn)記錄,根據(jù)測(cè)試結(jié)果選擇合適的分支,一直到最后輸出檢驗(yàn)結(jié)果。數(shù)據(jù)屬性名稱體溫胎生類標(biāo)號(hào)數(shù)據(jù)內(nèi)容太陽鳥恒溫否?數(shù)據(jù)挖掘算法應(yīng)用第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘利用貝葉斯網(wǎng)絡(luò)進(jìn)行病情分析診斷,醫(yī)生可以根據(jù)病例數(shù)據(jù)建立合適的貝葉斯網(wǎng)絡(luò)分類模型,如對(duì)心臟病或心口疼痛患者的病例數(shù)據(jù)進(jìn)行建模。造成心臟?。℉D)的因素可能有不健康的飲食(D)和缺少鍛煉(E),心臟病帶來的相應(yīng)癥狀包括高血壓(BP)和胸痛(CP)等。與此類似,心口痛(Hb)可能因?yàn)轱嬍巢唤】?,同時(shí)也會(huì)造成胸痛。K-均值聚類方法
第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘K-均值聚類常用來對(duì)異常對(duì)象進(jìn)行檢測(cè),如垃圾信息、欺詐性行為等。K-均值算法通過對(duì)數(shù)據(jù)集的聚類分析,找出數(shù)據(jù)集合中遠(yuǎn)離集聚簇的那些稀疏數(shù)據(jù),再通過相應(yīng)的處理方法作進(jìn)一步處理,能夠有效清洗不干凈的數(shù)據(jù),剔除惡意用戶。
K-均值目標(biāo)數(shù)據(jù)集關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則常用于發(fā)現(xiàn)事物之間的相關(guān)關(guān)系,通過一種屬性的出現(xiàn)來推斷很可能出現(xiàn)的其他屬性,能夠起到一種預(yù)測(cè)作用。通過發(fā)現(xiàn)這種關(guān)聯(lián)關(guān)系能夠指導(dǎo)用戶合理安排事物處理規(guī)則。5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析Tid項(xiàng)目集1{面包,牛奶,雞蛋,麥片}2{面包,牛奶,雞蛋}3{雞蛋,麥片}4{面包,牛奶,花生}第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)
5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析1.給定特征數(shù)值離散的1組數(shù)據(jù)實(shí)例,設(shè)計(jì)并實(shí)現(xiàn)決策樹算法,對(duì)數(shù)據(jù)實(shí)例建立決策樹,觀察決策樹是否正確,數(shù)據(jù)樣本如下:TidOutlookTemperatureHumidityWindyPlay1SunnyHotHighFalseNo2SunnyHotHighTrueNo3OvercastHotHighFalseYes4RainyMildHighFalseYes5RainyCoolNormalFalseYes6RainyCoolNormalTrueNo7OvercastCoolNormalTrueYes8SunnyMildHighFalseNo9SunnyCoolNormalFalseYes10RainyMildNormalFalseYes編寫決策樹程序,建立決策樹,輸入實(shí)例,輸出預(yù)測(cè)類型。5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析
2.根據(jù)貝葉斯公式,給出在類條件概率密度為正態(tài)分布時(shí)具體的判別函數(shù)表達(dá)式,用此判別函數(shù)設(shè)計(jì)分類器。數(shù)據(jù)隨機(jī)生成,比如生成兩類樣本(如鱸魚和鮭魚),每個(gè)樣本有兩個(gè)特征(如長度和亮度),每類有若干個(gè)(比如20個(gè))樣本點(diǎn),假設(shè)每類樣本點(diǎn)服從二維正態(tài)分布,隨機(jī)生成具體數(shù)據(jù),然后估計(jì)每類的均值與協(xié)方差,在兩類協(xié)方差相同的情況下求出分類邊界。先驗(yàn)概率自己給定,比如都為0.5。如果可能,畫出在兩類協(xié)方差不相同的情況下的分類邊界。畫出圖形。標(biāo)號(hào)集合數(shù)目中心坐標(biāo)半徑1100(5,5)22100(10,6)23100(8,10)25.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析3.隨機(jī)生成2維坐標(biāo)點(diǎn),對(duì)點(diǎn)進(jìn)行聚類,進(jìn)行k=2聚類,k=3聚類,多次k=4聚類,分析比較實(shí)驗(yàn)結(jié)果,隨機(jī)生成3個(gè)點(diǎn)集,點(diǎn)到中心點(diǎn)距離服從高斯分布,相關(guān)數(shù)據(jù)如下:隨機(jī)生成測(cè)試點(diǎn)集,分別聚成2,3,4類,觀察實(shí)驗(yàn)結(jié)果。多次4聚類,觀察實(shí)驗(yàn)結(jié)果。
4.使用一種你熟悉的程序設(shè)計(jì)語言,如C++或Java,實(shí)現(xiàn)Apriori算法,至少在兩種不同的數(shù)據(jù)集上比較算法的性能。在Apriori算法中,尋找頻繁項(xiàng)集的基本思想是:
A.簡(jiǎn)單統(tǒng)計(jì)所有含一個(gè)元素項(xiàng)目集出現(xiàn)的頻率,找出不小于最小支持度的項(xiàng)目集,即頻繁項(xiàng)集;
B.從第二步開始,循環(huán)處理直到再?zèng)]有最大項(xiàng)目集生成。循環(huán)過程是:
第k步中,
根據(jù)第k-1步生成的頻繁(k-1)項(xiàng)集產(chǎn)生侯選k項(xiàng)集。根據(jù)候選k項(xiàng)集,算出候選k項(xiàng)集支持度,并與最小支持度比較,
找到頻繁k項(xiàng)集。5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析實(shí)驗(yàn)5認(rèn)識(shí)大數(shù)據(jù)分析工具實(shí)驗(yàn)原理本節(jié)內(nèi)容,主要向讀者簡(jiǎn)單介紹使用Mahout軟件來實(shí)現(xiàn)K-means程序。ApacheMahout是ApacheSoftwareFoundation(AFS)開發(fā)的一個(gè)嶄新的開源項(xiàng)目,主要目的是為了創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,供研發(fā)人員在Apache的許可下免費(fèi)使用。在Mahout中,包含了分類、聚類、集群和頻繁子項(xiàng)挖掘等實(shí)現(xiàn)。另外,用戶可以通過ApacheHadoop庫將Mahout有效地?cái)U(kuò)展到云中。Mahout在開源領(lǐng)域的發(fā)展時(shí)間還比較短暫,但是Mahout目前已經(jīng)擁有了大量的功能實(shí)現(xiàn),尤其是針對(duì)聚類和CF方面。Mahout主要擁有如下特性:(1)TasteCF。Taste是一個(gè)針對(duì)CF的開源項(xiàng)目,由SeanOwen在SourceForge上發(fā)起的。(2)支持針對(duì)Map-Reduce的聚類算法的實(shí)現(xiàn),例如K-means、模糊K-means、Canopy、Mean-shift和Dirichlet。(3)分布式貝葉斯網(wǎng)絡(luò)和互補(bǔ)貝葉斯網(wǎng)絡(luò)的分類實(shí)現(xiàn)。(4)擁有專門針對(duì)進(jìn)化編程的分布式適用性功能。(5)擁有Matrix和矢量庫。5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析實(shí)驗(yàn)內(nèi)容K-means算法是一種聚類算法,主要功能是用來把目標(biāo)數(shù)據(jù)分成幾個(gè)不同的簇,使得簇內(nèi)元素彼此具有最大相似,不同簇間的元素彼此具有最大相異性。算法實(shí)現(xiàn)原理比較簡(jiǎn)單,容易理解。具體過程如圖所示:K-means實(shí)現(xiàn)過程實(shí)驗(yàn)5認(rèn)識(shí)大數(shù)據(jù)分析工具5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析實(shí)驗(yàn)內(nèi)容如上圖所示,圖中有A,B,C,D,E五個(gè)點(diǎn),假設(shè)K值為2圖中灰色點(diǎn)所示,意味著把目標(biāo)數(shù)據(jù)分成兩個(gè)集群。具體實(shí)現(xiàn)過程如下:(1)在目標(biāo)范圍內(nèi)隨機(jī)取K個(gè)分簇點(diǎn)(圖中K=2);(2)求圖中所有個(gè)點(diǎn)到 K個(gè)分簇點(diǎn)的距離,若Pi離分簇點(diǎn)Si距離最小,則Pi屬于Si的類。從上圖可以看到A,B,C屬于1號(hào)分簇點(diǎn),D,E屬于2號(hào)分簇點(diǎn);(3)移動(dòng)分簇點(diǎn)到屬于它的類中心;(4)重復(fù)執(zhí)行(2)、(3)步驟到所有分簇點(diǎn)不在改變位置為止。K-means算法具有實(shí)現(xiàn)簡(jiǎn)單、執(zhí)行速度快,對(duì)大數(shù)據(jù)集有較高的效率而且算法可伸縮,時(shí)間復(fù)雜度為O(NKt)其中N為數(shù)據(jù)集個(gè)數(shù),K為簇?cái)?shù)目,t為算法迭代次數(shù)。K-means非常適合用于大數(shù)據(jù)挖掘,但它也有固有的不足之處,例如K的取值具有隨機(jī)性,非常難以在事先具體給出,并且初始聚類的中心選擇對(duì)最后的聚類結(jié)果也有較大影響。實(shí)驗(yàn)5認(rèn)識(shí)大數(shù)據(jù)分析工具5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第五章大數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)(1)建立HDFS目錄在client機(jī)上操作,首先在HDFS上建立文件目錄;[root@clienthadoop]#bin/hadoopfs–mkdir–p/user/root/testdata(2)準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)將root/data/33/文件夾下的synthetic_control.data文件上傳到HDFS上面上個(gè)步驟新建的目錄下。[root@clienthadoop]#bin/hadoop/fs–putsynthetic_control.data/user/root/testdata(3)添加臨時(shí)的JAVA_HOME環(huán)境變量[root@clienthadoop]#exportJAVA_HOME=/usr/local/jdk1.7.0_79(4)提交Mahout的K-means程序[root@clienthadoop]#bin/hadoopjar/usr/cstor/mahout/mahout-examples-0.9-job.jar\>org.apache.mahout.clustering.syntheticcontrol.kmeans.Job(5)查看程序結(jié)果[root@clienthadoop]#bin/hadoopfs–ls/user/root/output。實(shí)驗(yàn)5認(rèn)識(shí)大數(shù)據(jù)分析工具第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項(xiàng)目實(shí)訓(xùn)
1.數(shù)據(jù)挖掘的常用算法有哪幾類?2.數(shù)據(jù)挖掘方法中分類的含義?分類與聚類方法有哪些不同之處?3.根據(jù)數(shù)據(jù)挖掘的應(yīng)用場(chǎng)景,談?wù)剶?shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域。4.簡(jiǎn)述決策樹分類的主要步驟。簡(jiǎn)略介紹貝葉斯網(wǎng)絡(luò)的構(gòu)建過程,以及如何應(yīng)用先驗(yàn)概率求得后驗(yàn)概率的步驟。5.K-均值聚類算法和K-中心點(diǎn)聚類算法都能進(jìn)行有效的聚類分析。概述K-均值和K-中心點(diǎn)算法的優(yōu)缺點(diǎn);并分別舉出兩個(gè)算法各自適用的分析實(shí)例。習(xí)題:6.計(jì)算決策樹在最壞情況下的計(jì)算復(fù)雜度是很有意義的。給定數(shù)據(jù)集D,屬性數(shù)n和訓(xùn)練元組數(shù)|D|,根據(jù)D和n來分析計(jì)算復(fù)雜度。7.當(dāng)一個(gè)數(shù)據(jù)對(duì)象可以同時(shí)屬于多個(gè)類時(shí),很難評(píng)估分類的準(zhǔn)確率,在此種情況之下,您打算使用何種標(biāo)準(zhǔn)在相同數(shù)據(jù)上建立不同的分類器。8.假如銀行想開發(fā)一個(gè)分類器,預(yù)防信用卡交易中的欺詐。如果銀行有大量非欺詐數(shù)據(jù)實(shí)例和很少的欺詐數(shù)據(jù)實(shí)例,考慮如何構(gòu)造高質(zhì)量分類器。習(xí)題:9.考慮如右表的數(shù)據(jù)集:(1)計(jì)算條件概率P(A|X),P(B|X),P(C|X),P(A|Y),p(B|Y),P(C|Y);(2)根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測(cè)樣本(A=0,B=1,C=0)的類標(biāo)號(hào);(3)比較P(A=1),P(B=1)和P(A=1,B=1),陳述A,B之間的關(guān)系;(4)比較P(A=1,B=1|類=X)與P(A=1|類=X)和P(B=1|類=X),給定類X,變量A,B條件獨(dú)立嗎?習(xí)題:10.某醫(yī)院對(duì)本院醫(yī)生進(jìn)行服務(wù)態(tài)度的評(píng)估,根據(jù)以往的評(píng)估顯示,70%的醫(yī)生服務(wù)態(tài)度為良好,30%的醫(yī)生服務(wù)態(tài)度一般。在此次評(píng)估中,以前評(píng)為良好的醫(yī)生中,有80%的仍然為良好;而在以前評(píng)為一般的醫(yī)生,有30%的人達(dá)到了良好?,F(xiàn)在有一名醫(yī)生的評(píng)估結(jié)果是良好,請(qǐng)問他在以前評(píng)估中是良好的概率是多少。11.假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的8個(gè)點(diǎn)(用(x,y)代表位置)聚類為3個(gè)簇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 投資項(xiàng)目可行性研究與項(xiàng)目評(píng)估
- 農(nóng)業(yè)觀光生態(tài)園
- 三農(nóng)產(chǎn)品物流配送手冊(cè)
- 綠色農(nóng)產(chǎn)品生產(chǎn)技術(shù)推廣與應(yīng)用實(shí)踐方案
- 車聯(lián)網(wǎng)及大數(shù)據(jù)應(yīng)用
- 電商行業(yè)直播帶貨模式創(chuàng)新與發(fā)展方案
- 校園廣播系統(tǒng)投標(biāo)方案
- 針對(duì)公司運(yùn)營挑戰(zhàn)的對(duì)策報(bào)告
- 電力設(shè)施節(jié)能減排操作規(guī)程
- 三農(nóng)村公共服務(wù)設(shè)施信息化管理方案
- 作業(yè)層隊(duì)伍建設(shè)重點(diǎn)業(yè)務(wù)課件
- DB31T 685-2019 養(yǎng)老機(jī)構(gòu)設(shè)施與服務(wù)要求
- 二年級(jí)下冊(cè)美術(shù)教案-第5課 美麗的花園|嶺南版
- 人類進(jìn)化史精品課件
- 魯濱遜漂流記讀后感PPT
- 總包單位向門窗單位移交門窗安裝工程工作面交接單
- 設(shè)備供貨安裝方案(通用版)
- 公開招聘社區(qū)居委專職工作人員考試筆試、面試題集及相關(guān)知識(shí)(11套試題含答案)
- 《植物生理學(xué)》課件第三章+植物的光合作用
- 中國藥膳理論與實(shí)踐-藥膳基本理論和技能
- 華東師大版七年級(jí)初一數(shù)學(xué)下冊(cè)全套試卷(單元、期中、期末)
評(píng)論
0/150
提交評(píng)論