




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘及入門應(yīng)用方法數(shù)據(jù)挖掘更像是從荒涼的草原上收獲美味的果實,而不是在廣闊的礦山中尋找金礦。不知道有沒有金脈,但草原上肯定有果實。然而在實際數(shù)據(jù)中,有很多神秘數(shù)據(jù)無法使用,也有很多數(shù)據(jù)不清楚這棵樹是否真的結(jié)出可食用的果實。首先我們要清理草原,但是清理這片遼闊的草原需要很多時間。實際收獲果實通常需要80%的時間。即使數(shù)據(jù)最終變得干凈也必須想出各種想法,才能收獲高效和有價值的規(guī)則的果實。什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一種技術(shù),例如可以基于對每個客戶的深刻理解,在公司與客戶之間形成長期良好關(guān)系的方法和策略。更具體地說可以說是分析公司收集的大量數(shù)據(jù),發(fā)現(xiàn)有用的模式和規(guī)則,并支持營銷活動的統(tǒng)計方法和工具的集合。其中最經(jīng)典的案例是啤酒與尿布的故事,通過關(guān)聯(lián)規(guī)則銷售。大多數(shù)人會認(rèn)為這只是一個軼事,沒有確鑿的證據(jù)表明將兩者放在同一樓層實際上會增加銷售額。甚至有人會認(rèn)為消費周期決定的,或者是一個偶然現(xiàn)象。數(shù)據(jù)挖掘的2種方法比較數(shù)據(jù)挖掘和統(tǒng)計分析的區(qū)別,數(shù)據(jù)挖掘是知識發(fā)現(xiàn),統(tǒng)計分析是假設(shè)檢驗,但真的是這樣嗎?統(tǒng)計分析處理的數(shù)據(jù)量比較少,數(shù)據(jù)挖掘可能更多。數(shù)據(jù)挖掘也有知識發(fā)現(xiàn)的成分,但不是通過輸入數(shù)據(jù)就能自動發(fā)現(xiàn)的。應(yīng)該認(rèn)識到數(shù)據(jù)挖掘有兩種類型:不僅是知識發(fā)現(xiàn),還有假設(shè)檢驗,就像統(tǒng)計分析一樣。假設(shè)檢驗(面向目標(biāo))
數(shù)據(jù)挖掘有一個客觀變量來預(yù)測購買量和客戶反應(yīng),并據(jù)此對客戶進(jìn)行分類?;貧w分析、決策樹和神經(jīng)網(wǎng)絡(luò)等許多技術(shù)都用于有目的地構(gòu)建模型。知識發(fā)現(xiàn)(探索性)
數(shù)據(jù)挖掘沒有目標(biāo)變量,試圖從獲得的數(shù)據(jù)中尋找有用的規(guī)則、模式、相似性等,作為一種典型的方法用于購物籃分析,屬于關(guān)聯(lián)分析。在假設(shè)檢驗數(shù)據(jù)挖掘中,估計和理解是指估計和理解定量的數(shù)字,例如在什么地區(qū)銷售什么樣的產(chǎn)品,銷售多少。分類提煉
是指將各個地區(qū)暢銷的產(chǎn)品和產(chǎn)品類別進(jìn)行提煉,分類整理后進(jìn)行分析。這兩個是為了正確識別當(dāng)前的情況,但
預(yù)測
不是當(dāng)前的情況,而是通過創(chuàng)建某種模型來預(yù)測未來的銷量和暢銷產(chǎn)品。另一方面,知識啟發(fā)式數(shù)據(jù)挖掘
關(guān)聯(lián)規(guī)則制定
是探索性地同時知道買了什么和買了什么。
聚類
是指根據(jù)購買趨勢等對相似的人進(jìn)行分組,并嘗試對每個組實施最佳措施。由于這兩種方法沒有目標(biāo)變量,所以它們對應(yīng)于多元分析中的匯總方法,但也不是沒有目標(biāo)的。聚類和分類的區(qū)別在于分組依據(jù)是基于預(yù)定義的屬性、購買金額等,還是分組基于事后定義的探索性依據(jù)。分位分析、RFM分析等是對客戶進(jìn)行分組的類似方法,但基于預(yù)定義的標(biāo)準(zhǔn),例如購買數(shù)量和頻率。在聚類分析中,由于某種原因,分組是任意的,并且在事后進(jìn)行分析以了解組的特征,因此方法完全不同。文本挖掘
是一種具有代表性的
了解群體特征
的數(shù)據(jù)挖掘方法,用于假設(shè)檢驗和知識發(fā)現(xiàn)。文本挖掘可用于定性和定量地了解有目的所說的內(nèi)容,或探索性地發(fā)現(xiàn)所說的內(nèi)容。這樣就有了兩種類型的數(shù)據(jù)挖掘:假設(shè)檢驗(面向目標(biāo))數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(探索)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘解決的問題想用數(shù)據(jù)挖掘做什么的時候,有人說他們想做RFM分析或集群客戶,但這不是最終目標(biāo),只是解決營銷問題的一種手段,那么企業(yè)面臨哪些營銷挑戰(zhàn)?將問題費結(jié)成產(chǎn)品和客戶。想了解的產(chǎn)品問題方法在哪里銷售多少產(chǎn)品?估計,理解您應(yīng)該如何對您的產(chǎn)品進(jìn)行分類?分類、提取未來我們應(yīng)該重點關(guān)注哪些重點產(chǎn)品?分類、提取這個產(chǎn)品未來能賣多少錢?未來預(yù)測哪些產(chǎn)品與哪些產(chǎn)品一起購買?制定關(guān)聯(lián)規(guī)則新產(chǎn)品是如何收到的?了解群體的特征想了解您的客戶問題方法該客戶購買什么樣的產(chǎn)品?估計,理解誰是好客戶,誰瀕臨倒戈?分類、提取未來哪些客戶會購買該產(chǎn)品?未來預(yù)測應(yīng)該為哪個客戶群推薦哪種產(chǎn)品?聚類按性別、年齡和地區(qū)劃分,客戶是什么樣的人?猜測群體的特征可以看到每個挑戰(zhàn)都適合兩種數(shù)據(jù)挖掘分類法之一。解決這些營銷問題是數(shù)據(jù)挖掘的最終目的。在數(shù)據(jù)挖掘中,有適合解決每個問題的方法。通過營銷的4P元素(Porduct,Price,Promotion,Place)與營銷的基本策略STP(Segmentation,Targeting,Positioning)相關(guān)聯(lián),這也是數(shù)據(jù)挖掘的本質(zhì)。數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘
是在大型數(shù)據(jù)集中發(fā)現(xiàn)模式的過程,涉及機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)庫系統(tǒng)交叉的方法。數(shù)據(jù)挖掘是計算機(jī)科學(xué)和統(tǒng)計學(xué)的一個跨學(xué)科子領(lǐng)域,其總體目標(biāo)是提取信息(使用智能方法)從數(shù)據(jù)集中將信息轉(zhuǎn)換為可理解的結(jié)構(gòu)以供進(jìn)一步使用。數(shù)據(jù)科學(xué)
是一個跨學(xué)科領(lǐng)域,使用科學(xué)的方法、過程、算法和系統(tǒng)從許多結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取知識和見解。數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘、深度學(xué)習(xí)和大數(shù)據(jù)有關(guān)。數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘之間最大的區(qū)別可能在于它們的術(shù)語。數(shù)據(jù)科學(xué)是一個廣泛的領(lǐng)域,包括捕獲數(shù)據(jù)、分析數(shù)據(jù)并從中獲得洞察力的過程。另一方面,數(shù)據(jù)挖掘主要是在數(shù)據(jù)集中找到有用的信息,并利用這些信息來發(fā)現(xiàn)隱藏的模式。數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘之間的另一個主要區(qū)別是前者是一個多學(xué)科領(lǐng)域,包括統(tǒng)計學(xué)、社會科學(xué)、數(shù)據(jù)可視化、自然語言處理、數(shù)據(jù)挖掘等,而后者是前者的一個子集。數(shù)據(jù)科學(xué)專業(yè)人員的角色在某種程度上可以被認(rèn)為是人工智能研究員、深度學(xué)習(xí)工程師、機(jī)器學(xué)習(xí)工程師或數(shù)據(jù)分析師的組合。該人也可能能夠擔(dān)任數(shù)據(jù)工程師的角色。相反,數(shù)據(jù)挖掘?qū)I(yè)人員不一定必須能夠勝任所有這些角色。數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘之間的另一個顯著區(qū)別在于這些專業(yè)人員使用的數(shù)據(jù)類型。通常,數(shù)據(jù)科學(xué)處理各種類型的數(shù)據(jù),無論是結(jié)構(gòu)化的、半結(jié)構(gòu)化的還是非結(jié)構(gòu)化的。另一方面,數(shù)據(jù)挖掘主要處理結(jié)構(gòu)化數(shù)據(jù)。如果考慮該領(lǐng)域的工作性質(zhì),在數(shù)據(jù)科學(xué)中不僅要發(fā)現(xiàn)模式并分析它們,它們是數(shù)據(jù)挖掘的關(guān)鍵組成部分,相反在數(shù)據(jù)科學(xué)工具和技術(shù)的幫助下,應(yīng)該能夠通過利用現(xiàn)在和歷史數(shù)據(jù)。數(shù)據(jù)挖掘的過程目的明確:
在數(shù)據(jù)挖掘中,雖然沒有目的,但你不太可能會嘗試通過將暫時存在的數(shù)據(jù)投入其中來獲得一些知識。知識發(fā)現(xiàn)(探索)數(shù)據(jù)挖掘并非沒有目的。首先,了解要解決的問題,明確目的。分析策略的確定:
為了達(dá)到這個目標(biāo)首先要仔細(xì)查看數(shù)據(jù),了解其內(nèi)容,然后制定政策,使用哪些數(shù)據(jù),使用哪些分析方法和工具。此外,一次嘗試無法找到最優(yōu)的分析策略,如果分析結(jié)果不理想,則可能會修改策略并重復(fù)多次循環(huán)。數(shù)據(jù)清洗、數(shù)據(jù)處理/整形:
正如開頭所說,最好認(rèn)為收集到的數(shù)據(jù)總是夾雜著不必要的數(shù)據(jù)。數(shù)據(jù)重復(fù)和丟失數(shù)據(jù),不應(yīng)該處理的數(shù)據(jù)污染,異常值和異常值,這些垃圾數(shù)據(jù)必須被提取和排除。還要了解它是什么數(shù)據(jù),把數(shù)據(jù)標(biāo)準(zhǔn)化,格式化成分析軟件可以處理的形式?;揪酆希?/p>
在進(jìn)行認(rèn)真的分析之前,需要對數(shù)據(jù)進(jìn)行鳥瞰。有必要通過計算基本統(tǒng)計量和進(jìn)行交叉制表來減少構(gòu)成要解決問題的基礎(chǔ)的數(shù)值。為了進(jìn)行分析,了解要分析的問題很重要,基本聚合可以更準(zhǔn)確地了解當(dāng)前情況。多元分析:
根據(jù)分析策略的結(jié)果,選擇回歸分析、聚類分析、關(guān)聯(lián)分析等方法。即使在同一個回歸分析中,也需要選擇是簡單回歸分析、多元回歸分析還是量化類型。在聚類分析的情況下,使用哪種距離定義,在關(guān)聯(lián)分析中,使用哪種關(guān)聯(lián)分析你必須決定是否使用邏輯。最重要的是,提取、分類和發(fā)現(xiàn)有用的知識。模型創(chuàng)建:
根據(jù)多變量分析的結(jié)果,概括規(guī)則并創(chuàng)建模型,當(dāng)獲取新數(shù)據(jù)時,該模型可以用某種算法解決問題。該模型的適用性通過將其應(yīng)用于實際數(shù)據(jù)來驗證。如果不合適或預(yù)測準(zhǔn)確率低,可能需要調(diào)整模型或?qū)彶槟P捅旧恚@就是為什么說數(shù)據(jù)挖掘是一個不斷試錯的過程。數(shù)據(jù)挖掘處理的數(shù)據(jù)數(shù)據(jù)挖掘的一個特點是處理的數(shù)據(jù)量大于統(tǒng)計分析處理的數(shù)據(jù)量,但與統(tǒng)計分析處理的數(shù)據(jù)還有其他決定性的差異。統(tǒng)計分析所用的數(shù)據(jù),不僅干凈,浪費少,而且和一個經(jīng)過合理規(guī)劃、樹木密布、果實幾乎可以肯定成熟的果園一樣。比如在調(diào)查數(shù)據(jù)中,數(shù)百個問題的答案數(shù)據(jù)幾乎全部被量表分成5級評分并進(jìn)行是否的1/0數(shù)據(jù)填充,NULL(無值)的數(shù)據(jù)。數(shù)據(jù)挖掘處理的數(shù)據(jù)是數(shù)以萬計的產(chǎn)品中購買了幾種產(chǎn)品的數(shù)百萬客戶的數(shù)據(jù)毫不夸張地說大部分?jǐn)?shù)據(jù)為NULL。當(dāng)數(shù)據(jù)多數(shù)被NULL充滿變得稀疏時,稱為稀疏數(shù)據(jù),構(gòu)建數(shù)據(jù)矩陣被稱為稀疏矩陣。在數(shù)據(jù)挖掘中,數(shù)據(jù)的這種稀疏性是一個大問題。有必要從產(chǎn)品分析和客戶分析兩方面來解決稀疏問題。在產(chǎn)品分析中,按SKU(StockKeepingUnit)分析數(shù)以萬計的產(chǎn)品,無非是造成數(shù)據(jù)稀疏的因素。為此品類分析在CTB(CustomertoBusiness)分析中顯得尤為重要。另外評價客戶相似度時的相似度定義可能無法通過傳統(tǒng)的聚類分析處理,因此需要對其進(jìn)行設(shè)計。數(shù)據(jù)挖掘和大數(shù)據(jù)大數(shù)據(jù)這個詞像流行語一樣泛濫。那么大數(shù)據(jù)和數(shù)據(jù)挖掘有什么關(guān)系呢?在此之前,我想回顧一下什么是大數(shù)據(jù)。大數(shù)據(jù)商業(yè)被定義為利用大數(shù)據(jù)解決社會和經(jīng)濟(jì)問題的商業(yè)并提高或支持業(yè)務(wù)的附加值。當(dāng)數(shù)據(jù)具備3V和4V有時被視為大數(shù)據(jù)的特征。體積(Volume):
指在大數(shù)據(jù)方面可以達(dá)到千億的數(shù)據(jù)量或數(shù)據(jù)大小。大數(shù)據(jù)的第一個特點就是容量大。不僅限于企業(yè),由于信息技術(shù)的演進(jìn),即使是無聲的,也會收集到越來越多的數(shù)據(jù),數(shù)據(jù)量將達(dá)到TB到PB的量級。多樣性(Variety):指不同類型的數(shù)據(jù),如社交媒體、網(wǎng)絡(luò)服務(wù)器日志等。大數(shù)據(jù)并不總是像通常在電子表格中處理的那樣量化和關(guān)聯(lián)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))。還有各種非結(jié)構(gòu)化數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù)),例如文本、語音、圖像和視頻,并且通過文本挖掘、語音和圖像分析將這些數(shù)據(jù)結(jié)構(gòu)化,并將其用于業(yè)務(wù)的運動越來越多。速度(Velocity):
指的是數(shù)據(jù)增長的速度,數(shù)據(jù)呈指數(shù)增長并且速度非???。在當(dāng)今瞬息萬變的社會中,有必要對這些數(shù)據(jù)進(jìn)行實時處理和響應(yīng)。真實性(Veracity):
指的是像社交媒體這樣的數(shù)據(jù)的不確定性,意味著數(shù)據(jù)是否可信。主流的方法是通過抽樣從一些數(shù)據(jù)中推斷出整體。另一方面,大數(shù)據(jù)并非不可能獲得所有數(shù)據(jù),因此它是準(zhǔn)確的,消除了因猜測而產(chǎn)生的歧義和不準(zhǔn)確,使得基于真正可靠的數(shù)據(jù)做出決策成為可能。價值(Value):
指的是我們存儲和處理的數(shù)據(jù)是有價值的,以及我們?nèi)绾螐倪@些海量數(shù)據(jù)中受益。大數(shù)據(jù)的本質(zhì)價值在于對獲得的數(shù)據(jù)進(jìn)行分析,得出有用的知識和智慧,建立和驗證模型、解決問題。數(shù)據(jù)挖掘常用方法提取數(shù)據(jù)數(shù)據(jù)清洗
是指從獲取的數(shù)據(jù)中去除垃圾數(shù)據(jù)(噪聲)并提取要分析的數(shù)據(jù)。特定產(chǎn)品的抽取
從產(chǎn)品中抽取某特定需求的產(chǎn)品或可能銷售的產(chǎn)品。特定客戶的抽取
從客戶中抽取購買了特定產(chǎn)品的客戶、優(yōu)秀客戶等。數(shù)據(jù)排序產(chǎn)品排序按銷售順序?qū)Ξa(chǎn)品進(jìn)行排序(排名),按銷售可能性對產(chǎn)品進(jìn)行排序(預(yù)測)。客戶排序
按購買次數(shù)最多的順序?qū)蛻暨M(jìn)行排序,按最近購買的順序?qū)蛻暨M(jìn)行排序。客戶分組
按屬性區(qū)分客戶。數(shù)據(jù)分組產(chǎn)品分組
將產(chǎn)品分組。客戶分組
按屬性區(qū)分客戶。數(shù)據(jù)性質(zhì)拆解了解分組
產(chǎn)品的特點計算每個產(chǎn)品類別的月銷量和平均單價等組代表值。了解分組客戶的特征
了解按性別和年齡劃分的消費金額(交叉表)。數(shù)據(jù)間關(guān)系了解產(chǎn)品A的總銷量與溫度之間的關(guān)系?預(yù)測在任何給定溫度下它的銷量。了解分組客戶購買的產(chǎn)品。從基礎(chǔ)數(shù)據(jù)處理看數(shù)據(jù)分析的本質(zhì)作為問卷數(shù)據(jù)基礎(chǔ)的交叉制表,是一種將客戶按屬性或某種特征分組,并檢查每個組數(shù)據(jù)的屬性的制表方法。CRM中經(jīng)常出現(xiàn)的RFM分析,是一種將客戶按照頻繁購買、頻繁購買、大額購買的順序進(jìn)行排序、組合、分組的分析。分析的變種有很多。按區(qū)域和店鋪類型進(jìn)行需求預(yù)測可以說是通過按區(qū)域和店鋪對銷售額進(jìn)行分組,并了解銷售數(shù)據(jù)、時間數(shù)據(jù)和各種解釋變量數(shù)據(jù)之間的關(guān)系進(jìn)行預(yù)測的模型。各種回歸分析、決策樹、神經(jīng)網(wǎng)絡(luò)等都用于找出關(guān)系。了解這些分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 香椿種植轉(zhuǎn)讓合同范本
- 南昌購房合同范本
- 余泥外運合同范本
- 衛(wèi)星定位合同范本
- 合同范本從里
- 不良資產(chǎn)合同范本
- 小型裝修合同范本
- 北京地暖合同范本
- 包工頭和工人簽合同范本
- 合同范本快速打字
- 醫(yī)療廢物管理條例
- 消防工程常用設(shè)施三維圖解
- 慢性乙型肝炎防治指南(2022年版)解讀
- 搟筋課件教學(xué)課件
- 醫(yī)院工程改造工程施工組織設(shè)計方案
- 英語人稱代詞和物主代詞練習(xí)題(附答案)
- 計算機(jī)一級考試WPS試題及答案
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗人員理論考試題庫及答案
- 《Windows server操作系統(tǒng)》Windows Server 2019全套教學(xué)課件
- 全科醫(yī)生題庫附有答案
- 2024年12月大學(xué)英語四級CET-4真題試卷
評論
0/150
提交評論