大數(shù)據(jù)基礎與實務(商科版)(第二版)課件 項目五 數(shù)據(jù)挖掘和分析_第1頁
大數(shù)據(jù)基礎與實務(商科版)(第二版)課件 項目五 數(shù)據(jù)挖掘和分析_第2頁
大數(shù)據(jù)基礎與實務(商科版)(第二版)課件 項目五 數(shù)據(jù)挖掘和分析_第3頁
大數(shù)據(jù)基礎與實務(商科版)(第二版)課件 項目五 數(shù)據(jù)挖掘和分析_第4頁
大數(shù)據(jù)基礎與實務(商科版)(第二版)課件 項目五 數(shù)據(jù)挖掘和分析_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

大數(shù)據(jù)基礎與實務項目五數(shù)據(jù)挖掘和分析數(shù)據(jù)挖掘和機器學習算法任務一任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述小明經(jīng)常去超市并發(fā)現(xiàn)一個規(guī)律,他在購物清單上列舉好的某些商品可能會被超市阿姨擺放在相鄰的區(qū)域。例如,面包柜臺旁邊會擺上黃油、面條柜臺附近一定會有老干媽等等。這樣的物品擺放會讓他的購物過程更加快捷、輕松。那么如何知道哪些物品該擺放在一塊?又或者用戶在購買某一個商品的情況下購買另一個商品的概率有多大?這就要利用關(guān)聯(lián)數(shù)據(jù)挖掘的相關(guān)算法來解決。知識準備數(shù)據(jù)挖掘一(一)數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(DataMining),又稱之為數(shù)據(jù)庫文件的專業(yè)知識發(fā)覺(Knowledge-DiscoveryinDatabases,KDD),它是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。定義數(shù)據(jù)挖掘通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標。知識準備數(shù)據(jù)挖掘一(二)數(shù)據(jù)挖掘體系知識準備數(shù)據(jù)挖掘一(三)數(shù)據(jù)挖掘的流程KDD過程迭代序列1數(shù)據(jù)清理消除噪聲和刪除不一致數(shù)據(jù)2數(shù)據(jù)集成多種數(shù)據(jù)源可以組合在一起3數(shù)據(jù)選擇從數(shù)據(jù)庫中提取與分析任務相關(guān)數(shù)據(jù)4數(shù)據(jù)變換通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式5數(shù)據(jù)挖掘使用一定的模型算法提取數(shù)據(jù)模式6模式評估根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式7知識表示使用可視化和知識表示技術(shù),向用戶提供挖掘的知識知識準備數(shù)據(jù)挖掘一(三)數(shù)據(jù)挖掘的流程

圖5-1數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個步驟知識準備數(shù)據(jù)挖掘一(四)數(shù)據(jù)挖掘的應用市場分析和管理1風險分析和管理2欺騙檢測和異常模式的監(jiān)測(孤立點)3文本挖掘4知識準備機器學習二(一)機器學習的定義機器學習是一門多領域交叉學科。涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。定義利用機器學習的模型算法,從現(xiàn)實世界的海量數(shù)據(jù)里提煉出有價值的知識,規(guī)則和模式。并應用到前臺系統(tǒng),輔助業(yè)務的進行。例如:用戶推薦、預測結(jié)果、精準分類等,使到業(yè)務能產(chǎn)生更大的效益。知識準備機器學習二(二)機器學習的方法監(jiān)督學習(1)KNN(K近鄰法)(2)決策樹(3)支持向量機(4)樸素貝葉斯(5)Logistics回歸無監(jiān)督式學習(1)層次聚類(2)k均值聚類(3)PCA(主成分分析)半監(jiān)督式學習(1)基于概率的算法;(2)在現(xiàn)有監(jiān)督算法基礎上作修改的方法;(3)直接依賴于聚類假設的方法;(4)基于多視圖的方法;(5)基于圖的方法。強化學習(1)Q-Learning(2)時間差學習知識準備數(shù)據(jù)挖掘和機器學習的關(guān)系三(一)相同點01020304都使用數(shù)據(jù)都用于解決復雜的問題均屬于數(shù)據(jù)科學的范疇機器學習有時被用作進行有用數(shù)據(jù)挖掘的一種手段知識準備數(shù)據(jù)挖掘和機器學習的關(guān)系三(二)不同點聯(lián)系能力實用性因素目的使用時間課堂研討我們寫一段程序讓計算機自己進行一個學習過程,直到達到一個滿意程度。那么學習的目的是什么?怎樣學習?滿意程度又是如何定義的呢?拓展訓練01請闡述數(shù)據(jù)挖掘的概念。02機器學習領域有幾種主要學習方式?03請闡述數(shù)據(jù)挖掘和機器學習的關(guān)系?謝謝觀看大數(shù)據(jù)基礎與實務項目五數(shù)據(jù)挖掘和分析大數(shù)據(jù)分析技術(shù)任務二任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR與往屆世界杯不同的是:數(shù)據(jù)分析成為巴西世界杯賽事外的精彩看點。伴隨賽場上球員的奮力角逐,大數(shù)據(jù)也在全力演繹世界杯背后的分析故事。一向以嚴謹著稱的德國隊引入專門處理大數(shù)據(jù)的足球解決方案,進行比賽數(shù)據(jù)分析,優(yōu)化球隊配置,并通過分析對手數(shù)據(jù)找到比賽的“制敵”方式;谷歌、微軟、Opta等通過大數(shù)據(jù)分析預測賽果……大數(shù)據(jù),不僅成為賽場上的“第12人”,也在某種程度上充當了世界杯的“預言帝”。大數(shù)據(jù)分析邂逅世界杯,是大數(shù)據(jù)時代的必然發(fā)生,那么小明想要知道大數(shù)據(jù)分析技術(shù)在我們的生活中還有哪些作用呢?任務描述知識準備一大數(shù)據(jù)分析概述大數(shù)據(jù)分析技術(shù)(已有數(shù)據(jù))分布式統(tǒng)計分析技術(shù)分布式挖掘、深度學習技術(shù)(未知數(shù)據(jù))數(shù)據(jù)處理技術(shù)數(shù)據(jù)分析階段聚類與分類關(guān)聯(lián)分析深度學習知識準備二大數(shù)據(jù)分析模型常見的大數(shù)據(jù)分析模型。選擇了數(shù)據(jù)結(jié)構(gòu),算法也隨之確定,系統(tǒng)構(gòu)造的關(guān)鍵因素是數(shù)據(jù)而不是算法。這種洞見導致了許多種軟件設計方法和程序設計語言的出現(xiàn),面向?qū)ο蟮某绦蛟O計語言就是其中之一。數(shù)據(jù)模型業(yè)務模型常見的數(shù)據(jù)分析模型區(qū)分知識準備二大數(shù)據(jù)分析模型(一)數(shù)據(jù)模型統(tǒng)計數(shù)據(jù)視角的實體模型通常指的是統(tǒng)計分析或大數(shù)據(jù)挖掘、深度學習、人工智能技術(shù)等種類的實體模型,這些模型是從科學研究視角去往界定的。6.時間序列2.回歸1.降維5.關(guān)聯(lián)3.聚類7.異常數(shù)據(jù)檢測4.分類知識準備二大數(shù)據(jù)分析模型(二)業(yè)務模型業(yè)務流程實體模型指的是對于某一業(yè)務流程情景而界定的,用以解決困難的某些實體模型,這種實體模型跟上邊實體模型的差別取決于情景化的運用。知識準備二大數(shù)據(jù)分析模型(二)業(yè)務模型序號模型類型1會員數(shù)據(jù)化運營分析模型會員細分模型、會員價值模型、會員活躍度模型、會員流失預測模型、會員特征分析模型、市場營銷回應預測模型。2商品數(shù)據(jù)化運營分析模型商品價格敏感度模型、新產(chǎn)品市場定位模型、銷售預測模型、商品關(guān)聯(lián)銷售模型、異常訂單檢測模型、商品規(guī)劃的最優(yōu)組合。3流量數(shù)據(jù)化運營分析模型流量波動檢測、渠道特征聚類、廣告整合傳播模型、流量預測模型。4內(nèi)容數(shù)據(jù)化運營分析模型情感分析模型、搜索優(yōu)化模型、文章關(guān)鍵字模型、主題模型、垃圾信息檢測模型。知識準備三大數(shù)據(jù)分析的作用(一)現(xiàn)狀分析分析此階段企業(yè)的整體運營情況分析企業(yè)每個業(yè)務的組成呈現(xiàn)形式:報告(每日、每周和每月)知識準備三大數(shù)據(jù)分析的作用(二)原因分析在對第一階段的現(xiàn)狀進行分析之后,就對公司的運營有了基本的了解,但仍不知道是什么因素促使該公司保持現(xiàn)有的優(yōu)勢,又是什么導致了公司存在這樣的不足。這時需要進行原因分析,以進一步確定業(yè)務變更的具體原因。原因分析通常通過主題分析進行。知識準備三大數(shù)據(jù)分析的作用(三)預測分析了解公司運營的現(xiàn)狀后,有時需要對公司的未來發(fā)展趨勢做出預測,為公司制定業(yè)務目標,并提供有效的戰(zhàn)略參考和決策依據(jù),以確保公司的持續(xù)健康發(fā)展。預測分析通常是通過主題分析完成的,主題分析通常是在制定公司的季度和年度計劃時進行的。預測分析發(fā)展頻率不如現(xiàn)狀分析和原因分析高。知識準備四大數(shù)據(jù)分析的應用(一)數(shù)據(jù)分析對互聯(lián)網(wǎng)的作用對海量用戶數(shù)據(jù)進行挖掘分析,發(fā)現(xiàn)用戶的個性喜好,從而對用戶的消費行為進行準確把握。將用戶上網(wǎng)行為與業(yè)務支撐系統(tǒng)數(shù)據(jù)進行結(jié)合分析,展現(xiàn)了用戶動態(tài)與靜態(tài)數(shù)據(jù)的互補性,為市場營銷人員尋找目標客戶打下了良好的基礎,提升了營銷準確率。知識準備四大數(shù)據(jù)分析的應用(二)數(shù)據(jù)分析對電商的作用營銷管理客戶管理智能推薦知識準備四大數(shù)據(jù)分析的應用(三)數(shù)據(jù)分析對金融的作用數(shù)據(jù)技術(shù)對金融行業(yè)的影響巨大,金融業(yè)對信息系統(tǒng)的實際應用前景還是非常大的,金融業(yè)對信息系統(tǒng)的實用性要求很高,且積累了大量的客戶交易數(shù)據(jù)。金融業(yè)主要信息需求010203金融分析防堵詐騙客戶行為分析知識準備四大數(shù)據(jù)分析的應用(四)數(shù)據(jù)分析對其他行業(yè)的作用旅游行業(yè)進行人流、車流量等統(tǒng)計,了解用戶的想法和需求電信行業(yè)進行增值業(yè)務推薦和新套餐科學定價分析房地產(chǎn)行業(yè)做出投資決策建議課堂研討如何正確看待大數(shù)據(jù)安全和傳統(tǒng)數(shù)據(jù)安全之間的關(guān)系?拓展訓練01針對大數(shù)據(jù)處理的主要計算模型有哪些?02大數(shù)據(jù)分析技術(shù)主要包括有哪些?謝謝觀看大數(shù)據(jù)基礎與實務項目五數(shù)據(jù)挖掘和分析構(gòu)建決策樹模型任務四任務描述知識準備課堂研討拓展訓練目錄CONTENTSONETWOTHREEFOUR任務描述

隨著互聯(lián)網(wǎng)在生活中的滲透率越來越高,任何一款產(chǎn)品,獲取新用戶的成本都在不斷增加。隨之而來的是老用戶的流失成本在不斷增加。所以企業(yè)不得不重視對老用戶的維系。這個時候,搭建一套成熟的用戶運營體系勢在必行。在所有的互聯(lián)網(wǎng)產(chǎn)品中,每個用戶都會扮演不同的角色,發(fā)生不同的行為。所以,在搭建用戶運營體系時,主要是基于用戶的角色和行為的不同,做用戶分層。通過用戶分層,企業(yè)可以區(qū)分高價值用戶以及低價值用戶。也可以了解到哪些用戶正在活躍,又有哪些正在流失。這也是日常所說的精細化運營的前提,只有做好用戶分層,才能針對不同層級的用戶制定相應的運營策略,才能做到精細化。。

知識準備

決策樹(DecisionTree)是一種基本的分類與回歸方法。它是一個樹形結(jié)構(gòu),對于指定特征空間的數(shù)據(jù)點來說,總能順著決策樹的根節(jié)點一步步分配到子節(jié)點,最終到達葉節(jié)點,而葉節(jié)點表示了該數(shù)據(jù)點所屬的分類。。決策樹決策樹定義一知識準備決策樹由節(jié)點和有向邊組成。節(jié)點有兩種類型:決策節(jié)點和葉節(jié)點。一般的,一個決策樹包含一個根節(jié)點,若干個決策節(jié)點和若干個葉節(jié)點。根節(jié)點:根節(jié)點是一個特殊的分支節(jié)點,它是決策樹的起點,代表整個樣本,并進一步劃分為兩個或多個同類集。決策節(jié)點(分支節(jié)點):分支節(jié)點決定輸入數(shù)據(jù)進入哪一個分支。每個分支節(jié)點對應一個分支函數(shù)(劈分函數(shù)),將不同的預測變量的值域映射到有限、離散的分支上。葉子節(jié)點:表示最終的決策結(jié)果,它們沒有子節(jié)點。決策樹組成部分二組成知識準備點擊任務一新建項目并修改項目名稱,在【數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論