R語言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)課件_第1頁
R語言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)課件_第2頁
R語言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)課件_第3頁
R語言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)課件_第4頁
R語言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)課件_第5頁
已閱讀5頁,還剩345頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、R語言數(shù)據(jù)分析概述第1頁,共350頁。1熟悉R語言分析工具目錄認(rèn)識(shí)數(shù)據(jù)分析2小結(jié)3第2頁,共350頁。 廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。 狹義的數(shù)據(jù)分析是指根據(jù)分析目的,采用對(duì)比分析、分組分析、交叉分析和回歸分析等分析方法,對(duì)收集來的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個(gè)特征統(tǒng)計(jì)量結(jié)果的過程。 數(shù)據(jù)挖掘則是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類、分類、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價(jià)值的過程。數(shù)據(jù)分析的概念第3頁,共350頁。數(shù)據(jù)分析的流程數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,甚至是一種方法論。雖然每個(gè)公司都會(huì)根據(jù)自身需求

2、和目標(biāo)創(chuàng)建最適合的數(shù)據(jù)分析流程,但數(shù)據(jù)分析的核心步驟是一致的。下圖是一個(gè)典型的數(shù)據(jù)分析的流程。第4頁,共350頁。需求分析:數(shù)據(jù)分析中的需求分析也是數(shù)據(jù)分析環(huán)節(jié)的第一步和最重要的步驟之一,決定了后續(xù)的分析的方向、方法。數(shù)據(jù)獲取:數(shù)據(jù)是數(shù)據(jù)分析工作的基礎(chǔ),是指根據(jù)需求分析的結(jié)果提取,收集數(shù)據(jù)。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是指對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)合并,數(shù)據(jù)清洗,數(shù)據(jù)變換和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)變換后使得整體數(shù)據(jù)變?yōu)楦蓛粽R,可以直接用于分析建模這一過程的總稱。分析與建模:分析與建模是指通過對(duì)比分析、分組分析、交叉分析、回歸分析等分析方法和聚類、分類、關(guān)聯(lián)規(guī)則、智能推薦等模型與算法發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息,并得出結(jié)論的

3、過程。模型評(píng)價(jià)與優(yōu)化:模型評(píng)價(jià)是指對(duì)已經(jīng)建立的一個(gè)或多個(gè)模型,根據(jù)其模型的類別,使用不同的指標(biāo)評(píng)價(jià)其性能優(yōu)劣的過程。部署:部署是指將通過了正式應(yīng)用數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。數(shù)據(jù)分析的流程第5頁,共350頁。主要是客戶的基本數(shù)據(jù)信息進(jìn)行商業(yè)行為分析。首先,界定目標(biāo)客戶,根據(jù)客戶的需求,目標(biāo)客戶的性質(zhì),所處行業(yè)的特征以及客戶的經(jīng)濟(jì)狀況等基本信息使用統(tǒng)計(jì)分析方法和預(yù)測(cè)驗(yàn)證法,分析目標(biāo)客戶,提高銷售效率。其次,了解客戶的采購過程,根據(jù)客戶采購類型、采購性質(zhì)進(jìn)行分類分析制定不同的營(yíng)銷策略。最后,根據(jù)已有的客戶特征,進(jìn)行客戶特征分析、客戶忠誠(chéng)分析、客戶注意力分析、客戶營(yíng)銷分析和客戶收益分

4、析。了解數(shù)據(jù)分析應(yīng)用場(chǎng)景1. 客戶分析第6頁,共350頁。產(chǎn)品分析主要是競(jìng)爭(zhēng)產(chǎn)品分析,通過對(duì)競(jìng)爭(zhēng)產(chǎn)品的分析制定自身產(chǎn)品策略。價(jià)格分析又可以分為成本分析和售價(jià)分析,成本分析的目的是降低不必要成本,售價(jià)分析的目的是制定符合市場(chǎng)的價(jià)格。渠道分析目的是指對(duì)產(chǎn)品的銷售渠道進(jìn)行分析,確定最優(yōu)的渠道配比。廣告與促銷分析能夠結(jié)合客戶分析,實(shí)現(xiàn)銷量的提升,利潤(rùn)的增加。了解數(shù)據(jù)分析應(yīng)用場(chǎng)景2. 營(yíng)銷分析囊括了產(chǎn)品分析,價(jià)格分析,渠道分析,廣告與促銷分析這四類分析。第7頁,共350頁。以不同社交媒體渠道生成的內(nèi)容為基礎(chǔ),實(shí)現(xiàn)不同社交媒體的用戶分析,訪問分析,互動(dòng)分析等。同時(shí),還能為情感和輿情監(jiān)督提供豐富的資料。用戶

5、分析主要根據(jù)用戶注冊(cè)信息,登錄平臺(tái)的時(shí)間點(diǎn)和平時(shí)發(fā)表的內(nèi)容等用戶數(shù)據(jù),分析用戶個(gè)人畫像和行為特征。訪問分析是通過用戶平時(shí)訪問的內(nèi)容,分析用戶的興趣愛好,進(jìn)而分析潛在的商業(yè)價(jià)值?;?dòng)分析根據(jù)互相關(guān)注對(duì)象的行為預(yù)測(cè)該對(duì)象未來的某些行為特征。了解數(shù)據(jù)分析應(yīng)用場(chǎng)景3. 社交媒體分析第8頁,共350頁。新型的病毒防御系統(tǒng)可使用數(shù)據(jù)分析技術(shù),建立潛在攻擊識(shí)別分析模型,監(jiān)測(cè)大量網(wǎng)絡(luò)活動(dòng)數(shù)據(jù)和相應(yīng)的訪問行為,識(shí)別可能進(jìn)行入侵的可疑模式,做到未雨綢繆。了解數(shù)據(jù)分析應(yīng)用場(chǎng)景4. 網(wǎng)絡(luò)安全通過物聯(lián)網(wǎng)技術(shù)能夠收集和分析設(shè)備上的數(shù)據(jù)流,包括連續(xù)用電、零部件溫度、環(huán)境濕度和污染物顆粒等無數(shù)潛在特征,建立設(shè)備管理模型,從而

6、預(yù)測(cè)設(shè)備故障,合理安排預(yù)防性的維護(hù),以確保設(shè)備正常作業(yè),降低因設(shè)備故障帶來的安全風(fēng)險(xiǎn)。5. 設(shè)備管理第9頁,共350頁。物流是物品從供應(yīng)地向接收地的實(shí)體流動(dòng)。通過業(yè)務(wù)系統(tǒng)和GPS定位系統(tǒng)獲得數(shù)據(jù),對(duì)于客戶使用數(shù)據(jù)構(gòu)建交通狀況預(yù)測(cè)分析模型,有效預(yù)測(cè)實(shí)時(shí)路況、物流狀況、車流量、客流量和貨物吞吐量,進(jìn)而提前補(bǔ)貨,制定庫存管理策略。了解數(shù)據(jù)分析應(yīng)用場(chǎng)景6. 交通物流分析身份信息泄露盜用事件逐年增長(zhǎng),隨之而來的是欺詐行為和交易的增多。公安機(jī)關(guān),各大金融機(jī)構(gòu),電信部門可利用用戶基本信息,用戶交易信息,用戶通話短信信息等數(shù)據(jù),識(shí)別可能發(fā)生的潛在欺詐交易,做到提前預(yù)防未雨綢繆。7. 欺詐行為檢測(cè)第10頁,共3

7、50頁。1熟悉R語言分析工具目錄認(rèn)識(shí)數(shù)據(jù)分析2小結(jié)3第11頁,共350頁。RPythonMATLAB語言學(xué)習(xí)難易程度入門難度低入門難度一般入門難度一般使用場(chǎng)景數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),數(shù)據(jù)可視化等。數(shù)據(jù)分析,機(jī)器學(xué)習(xí),矩陣運(yùn)算,科學(xué)數(shù)據(jù)可視化,數(shù)字圖像處理,web應(yīng)用,網(wǎng)絡(luò)爬蟲,系統(tǒng)運(yùn)維等。矩陣計(jì)算,數(shù)值分析,科學(xué)數(shù)據(jù)可視化,機(jī)器學(xué)習(xí),符號(hào)計(jì)算,數(shù)字圖像處理,數(shù)字信號(hào)處理,仿真模擬等。第三方支持擁有大量的Packages,能夠調(diào)用C,C+,F(xiàn)ortran,Java等其他程序語言。擁有大量的第三方庫,能夠簡(jiǎn)便地調(diào)用C,C+,F(xiàn)ortran,Java等其他程序語言。擁有大量專業(yè)的工具箱,在新版

8、本中加入了對(duì)C,C+,Java的支持。流行領(lǐng)域工業(yè)界學(xué)術(shù)界工業(yè)界學(xué)術(shù)界工業(yè)界學(xué)術(shù)界軟件成本開源免費(fèi)開源免費(fèi)商業(yè)收費(fèi)數(shù)據(jù)分析常用工具目前主流的數(shù)據(jù)分析語言有R,Python,MATLAB三種程序語言。第12頁,共350頁。R語言在保證語法簡(jiǎn)單的同時(shí),兼顧了程序設(shè)計(jì)語言的邏輯與自然的語言風(fēng)格。R語言擁有數(shù)目眾多的Packages,能夠輕松滿足數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等領(lǐng)域的需求。R語言的源代碼是開放的(自由且免費(fèi)),可以部署在任何操作系統(tǒng)上,例如Windows、Linux、Mac OS X、BSD、Unix。R語言可以通過Packages調(diào)用如Python,Java,C,C+等語言,同時(shí)還提供

9、了Google,Twitter,微博等的API接口。R語言數(shù)據(jù)分析的優(yōu)勢(shì)R語言數(shù)據(jù)分析主要包含以下4方面優(yōu)勢(shì)。第13頁,共350頁。R語言提供了data.frame數(shù)據(jù)類型和基礎(chǔ)的數(shù)據(jù)操作函數(shù)和功能。在此基礎(chǔ)之上如表所示的Packages提供了更加簡(jiǎn)單便捷且功能強(qiáng)大的數(shù)據(jù)操作功能與函數(shù)。R語言數(shù)據(jù)分析常用的Packages1. 數(shù)據(jù)操作Package名稱說 明dplyr快速數(shù)據(jù)操作和數(shù)據(jù)庫查詢。data.table使用短小靈活的語法操作數(shù)據(jù)。reshape2靈活的數(shù)據(jù)排列與聚合處理。tidyr方便對(duì)數(shù)據(jù)進(jìn)行整理,傳播和收集。lubridate時(shí)間數(shù)據(jù)的處理。stringi/stringr基于I

10、CU的字符串處理方案。第14頁,共350頁。R語言作為一門統(tǒng)計(jì)語言,本身提供了基礎(chǔ)的繪圖功能,但是出于圖形的美觀,圖形的功能考慮,眾多開發(fā)者提供了如表所示的Packages。R語言數(shù)據(jù)分析常用的Packages2. 圖形繪制Package名稱說 明ggplot2強(qiáng)大的繪圖統(tǒng)計(jì)和計(jì)算圖形系統(tǒng)的實(shí)現(xiàn)。lattice一個(gè)強(qiáng)大優(yōu)雅的高級(jí)數(shù)據(jù)可視化系統(tǒng)。rChats交互式JS繪圖。plotly使用plot.ly進(jìn)行交互式ggplot2和Shiny繪圖。第15頁,共350頁。除了能夠?qū)崿F(xiàn)統(tǒng)計(jì)計(jì)算,數(shù)據(jù)分析外,R語言還提供了眾多和Web技術(shù)服務(wù)相關(guān)的Packages,如表所示。R語言數(shù)據(jù)分析常用的Packa

11、ges3. Web技術(shù)和服務(wù)Package名稱說 明Shiny使用R創(chuàng)建簡(jiǎn)單的Web交互應(yīng)用。RCurl常規(guī)的網(wǎng)絡(luò)客戶端接口(HTTP/FTP/.)。httr使用更加友好的Rcurl封裝。XMLR中生成和解析XML的工具。rvest使用CSSSelect和XPath語法進(jìn)行簡(jiǎn)單的Web信息抓取。第16頁,共350頁。R語言在設(shè)計(jì)之初并不提供并行計(jì)算,并且由于腳本語言本身的限制,本身語言的性能也不高?;谶@一原因,開發(fā)者們提供了為數(shù)不少的高性能與并行計(jì)算相關(guān)的Packages,如表所示。R語言數(shù)據(jù)分析常用的Packages4. 高性能與并行計(jì)算Package名稱說 明parallelR語言高性能

12、的并行計(jì)算平臺(tái)。SparkR可以連接Spark的R包。RcppRcpp在R中提供了一個(gè)高效的API,使得函數(shù)更快執(zhí)行。compiler使用JIT提高R代碼的速度。foreach使用并行來執(zhí)行循環(huán)。第17頁,共350頁。完善的數(shù)據(jù)庫連接接口是R語言的優(yōu)勢(shì)之一,可以提供MySQL,Oracle,PostgreSQL等數(shù)據(jù)庫的接口,從而實(shí)現(xiàn)對(duì)應(yīng)數(shù)據(jù)庫的讀寫操作。R語言常用的數(shù)據(jù)庫管理Packages如表所示。R語言數(shù)據(jù)分析常用的Packages5. 數(shù)據(jù)庫管理Package名稱說 明RODBC在R語言中使用ODBC連接數(shù)據(jù)庫。RJDBC在R語言中使用JDBC連接數(shù)據(jù)庫。DBI在R和數(shù)據(jù)庫管理系統(tǒng)之間

13、定義一個(gè)公共的接口。RMySQLR語言的MySQL數(shù)據(jù)庫接口。ROracleR語言的Oracle數(shù)據(jù)庫接口。RPostgreSQLR語言的PostgreSQL數(shù)據(jù)庫接口。RHiveR語言的Apache Hive接口。第18頁,共350頁。R語言中占比最高的Packages是與統(tǒng)計(jì),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)相關(guān)的。下表列出了常用的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)相關(guān)的Packages。R語言數(shù)據(jù)分析常用的Packages6. 數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)Package名稱說 明arules挖掘關(guān)聯(lián)規(guī)則和頻繁項(xiàng)集。C50C5.0決策樹和基于規(guī)則的模型。caret分類和回歸訓(xùn)練。forecast基于ARIMA,ETS,STLM,T

14、BATS和神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)。glmnetLasso和elastic-net正規(guī)化廣義線性模型。nnet神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。rattle圖形界面式的數(shù)據(jù)挖掘工具箱。tree分類和回歸樹。第19頁,共350頁。自然語言處理(Natural Language Processing)是計(jì)算機(jī)科學(xué),數(shù)據(jù)科學(xué),人工智能領(lǐng)域的一個(gè)重要的方向?,F(xiàn)代NLP算法是基于機(jī)器學(xué)習(xí),特別是統(tǒng)計(jì)機(jī)器學(xué)習(xí)。R語言中常用的自然語言處理Packages如表所示。R語言數(shù)據(jù)分析常用的Packages7. 自然語言處理Package名稱說 明jiebaR結(jié)巴中文分詞。tm一個(gè)全面的文本挖掘框架。zipfR詞頻分布統(tǒng)計(jì)模型。NL

15、P基本自然語言處理功能。topicmodelsLDA主題模型。word2vec將詞字符轉(zhuǎn)換為詞向量。第20頁,共350頁。金融本身是和數(shù)據(jù)相關(guān)度非常高的行業(yè),可以根據(jù)交易數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、上市公司的各種事件數(shù)據(jù)、基本面數(shù)據(jù)、宏觀數(shù)據(jù)、輿情數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等,來構(gòu)建不同的交易策略。R語言提供了如表所示的Packages,進(jìn)行基礎(chǔ)的金融分析。R語言數(shù)據(jù)分析常用的Packages8. 金融Package名稱說 明quantmod定量金融模型和交易框架。TTR技術(shù)交易規(guī)則相關(guān)的數(shù)據(jù)和功能函數(shù)。xts可擴(kuò)展的時(shí)間序列。tseries金融時(shí)間序列分析和計(jì)算。fAssets金融資產(chǎn)分析和建模。第21頁,共35

16、0頁。R語言專注的方向是統(tǒng)計(jì)分析,所以在某些領(lǐng)域不如JAVA,Python這樣的編程語言。為解決這一弊端,R語言提供了各類語言的API,其中常用的語言接口Packages如表所示。R語言數(shù)據(jù)分析常用的Packages9. 語言接口Package名稱說 明rJAVAR語言的JAVA接口。jvmr集成了R,JAVA和Scala。rJythonR語言的Jython接口。rPythonR語言的Python接口。R.matlab讀寫mat文件,將R語言和Matlab連接在一起。rpy2Python對(duì)R語言的接口。第22頁,共350頁。1熟悉R語言分析工具目錄認(rèn)識(shí)數(shù)據(jù)分析2小結(jié)3第23頁,共350頁。本章

17、根據(jù)目前數(shù)據(jù)分析發(fā)展?fàn)顩r,將數(shù)據(jù)分析具象化。介紹了數(shù)據(jù)分析的概念,流程,目的以及應(yīng)用場(chǎng)景。闡述了使用R語言進(jìn)行數(shù)據(jù)分析的優(yōu)勢(shì)。列舉說明R語言數(shù)據(jù)分析重要Packages的功能。小結(jié)第24頁,共350頁。第25頁,共350頁。商品零售購物籃分析2022/8/20第26頁,共350頁。1分析商品銷售狀況目錄了解購物籃分析2使用Apriori關(guān)聯(lián)規(guī)則構(gòu)建購物籃分析模型3小結(jié)4第27頁,共350頁。現(xiàn)代商品種類繁多,顧客往往會(huì)由于需要購買的商品眾多而變得疲于選擇,且顧客并不會(huì)因?yàn)樯唐愤x擇豐富而選擇購買更多的商品。分析商品零售企業(yè)現(xiàn)狀例如,貨架上有可口可樂和百事可樂,若顧客需要選購可樂若干,或許會(huì)同時(shí)購

18、買兩種可樂,但是購買可樂的數(shù)量大多數(shù)情況下不會(huì)因?yàn)槠放茢?shù)量增加而增加。第28頁,共350頁。繁雜的選購過程往往會(huì)給顧客疲憊的購物體驗(yàn)。分析商品零售企業(yè)現(xiàn)狀對(duì)于某些商品,顧客會(huì)選擇同時(shí)購買,如面包與牛奶、薯片與可樂等,當(dāng)面包與牛奶或者薯片與可樂分布在商場(chǎng)的兩側(cè),且距離十分遙遠(yuǎn)時(shí),顧客購買的欲望就會(huì)減少,在時(shí)間緊迫的情況下顧客甚至?xí)艞壻徺I某些計(jì)劃購買的商品。相反,把牛奶與面包擺放在相鄰的位置,既給顧客提供便利,提升購物體驗(yàn),又提高顧客購買的概率,達(dá)到了促銷的目的。第29頁,共350頁。許多商場(chǎng)以打折方式作為主要促銷手段,以更少的利潤(rùn)為代價(jià)獲得更高的銷量。分析商品零售企業(yè)現(xiàn)狀打折往往會(huì)使顧客增加原

19、計(jì)劃購買商品的數(shù)量,對(duì)于原計(jì)劃不打算購買且不必要的商品,打折的吸引力遠(yuǎn)遠(yuǎn)不足。而正確的商品擺放卻能提醒顧客購買某些必需品,甚至吸引他們購買感興趣的商品。第30頁,共350頁。IDGoods1柑橘類水果1人造黃油1即食湯1半成品面包2咖啡2熱帶水果2酸奶3全脂牛奶4奶油乳酪4肉蔓了解某商品零售企業(yè)基本數(shù)據(jù)情況某商品零售企業(yè)共收集了9835個(gè)購物籃的數(shù)據(jù),其中包含169個(gè)不同的商品類別,售出商品總數(shù)為43367件。其數(shù)據(jù)示例如表所示。第31頁,共350頁。分析商品熱銷情況和商品結(jié)構(gòu)。分析商品之間的關(guān)聯(lián)性。根據(jù)分析結(jié)果給出銷售建議。案例目標(biāo)綜合商品零售行業(yè)現(xiàn)狀,該商品零售企業(yè)提供的數(shù)據(jù),本案例需要完

20、成以下分析目標(biāo)。第32頁,共350頁。熟悉購物籃分析的步驟與流程第33頁,共350頁。1分析商品銷售狀況目錄了解購物籃分析2使用Apriori關(guān)聯(lián)規(guī)則構(gòu)建購物籃分析模型3小結(jié)4第34頁,共350頁。商品名稱銷量銷量占比全脂牛奶25130.057947287其他蔬菜19030.043881292面包卷18090.041713745蘇打17150.039546199酸奶13720.031636959瓶裝水10870.025065142根莖類蔬菜10720.024719257熱帶水果10320.023796896購物袋9690.022344179香腸9240.021306523分析熱銷商品針對(duì)原始數(shù)

21、據(jù)中不同商品銷量進(jìn)行統(tǒng)計(jì),結(jié)果如表所示。全脂牛奶銷售量最高,銷量為2513件,占比5.795%。其余熱銷商品還有其他蔬菜銷量1903件,占比4.388%。面包卷銷量1809件,占比4.171%。蘇打銷量1715件,占比3.955%。酸奶銷量1372件,占比3.164%等。前20種商品銷量占據(jù)的比例約為50%,基本符合“二八定律”。銷量排行前10商品的銷量及其占比第35頁,共350頁。對(duì)每一類商品的熱銷程度進(jìn)行分析,有利于商家制定商品在貨架的擺放策略和位置。若是某類商品較為熱銷,它的擺放位置可以有如下選擇。可以把此類商品擺放到商場(chǎng)的中心位置,方便顧客選購?;蛘甙汛祟惿唐窋[放到商場(chǎng)深處位置,使顧客

22、在購買熱銷商品前經(jīng)過非熱銷商品,增加在非熱銷商品處的停留時(shí)間,促進(jìn)非熱銷產(chǎn)品的銷量。分析商品結(jié)構(gòu)第36頁,共350頁。商品類別銷量銷量占比非酒精飲料75940.175442西點(diǎn)71920.166155果蔬71460.165092米糧調(diào)料51850.119787百貨51410.118771肉類48700.11251酒精飲料22870.052836食品類18700.043202零食14590.033707熟食5410.012499分析商品結(jié)構(gòu)原始數(shù)據(jù)中的商品本身已經(jīng)過歸類處理,但是部分商品還是存在一定的重疊,故再次對(duì)其進(jìn)行歸類處理。歸類后每一類的商品占據(jù)的比例如表所示,并根據(jù)表中數(shù)據(jù)作商品結(jié)構(gòu)分析

23、圖。商品結(jié)構(gòu)分析圖歸類后每一類的商品占據(jù)的比例第37頁,共350頁。商品類別銷量銷量占比全脂牛奶25130.330919蘇打17150.225836瓶裝水10870.143139水果/蔬菜汁7110.093627咖啡5710.075191超高溫殺菌的牛奶3290.043324其他飲料2790.03674一般飲料2560.033711速溶咖啡730.009613茶380.005004可可飲料220.002897分析商品結(jié)構(gòu)進(jìn)一步查看銷量第一的非酒精飲料類商品的內(nèi)部商品結(jié)構(gòu),統(tǒng)計(jì)商品銷量占比如表所示。第38頁,共350頁。1分析商品銷售狀況目錄了解購物籃分析2使用Apriori關(guān)聯(lián)規(guī)則構(gòu)建購物籃分

24、析模型3小結(jié)4第39頁,共350頁。關(guān)聯(lián)規(guī)則算法主要用于尋找數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)關(guān)系,基于樣本的統(tǒng)計(jì)規(guī)律,進(jìn)行關(guān)聯(lián)規(guī)則分析。根據(jù)所分析的關(guān)聯(lián)關(guān)系,可從一個(gè)特征的信息來推斷另一個(gè)特征的信息。當(dāng)信息置信度達(dá)到某一閾值時(shí),就可以認(rèn)為規(guī)則成立。了解Apriori算法的基本原理與使用方法第40頁,共350頁。Apriori算法是常用的關(guān)聯(lián)規(guī)則算法之一,也是最為經(jīng)典的分析頻繁項(xiàng)集的算法,第一次實(shí)現(xiàn)在大數(shù)據(jù)集上可行的關(guān)聯(lián)規(guī)則提取的算法。在介紹Apriori算法前引入幾個(gè)相關(guān)概念。置信度、支持度和提升度頻繁項(xiàng)集優(yōu)缺點(diǎn)與適用場(chǎng)景apriori函數(shù)及其參數(shù)介紹了解Apriori算法的基本原理與使用方法第41頁,共

25、350頁。了解Apriori算法的基本原理與使用方法1. 置信度、支持度和提升度第42頁,共350頁。項(xiàng)集是項(xiàng)的集合,包含k項(xiàng)的項(xiàng)集稱為k項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是所有包含項(xiàng)集事務(wù)的級(jí)數(shù),又稱絕對(duì)支持度或支持度計(jì)數(shù)。若存在項(xiàng)集的支持度滿足預(yù)定義的最小置信度或最小支持度的閾值,則稱此項(xiàng)集為頻繁項(xiàng)集。同時(shí)滿足最小置信度和最小支持度的規(guī)則稱為強(qiáng)規(guī)則。了解Apriori算法的基本原理與使用方法2. 頻繁項(xiàng)集第43頁,共350頁。Apriori算法的主要思想是找出存在于事務(wù)數(shù)據(jù)集中最大的頻繁項(xiàng)集,利用最大頻繁項(xiàng)目集與預(yù)先設(shè)定的最小置信度閾值生成強(qiáng)關(guān)聯(lián)規(guī)則。本案例使用Apriori算法構(gòu)建商品購物籃關(guān)聯(lián)規(guī)則模

26、型的流程圖如圖所示。了解Apriori算法的基本原理與使用方法2. 頻繁項(xiàng)集第44頁,共350頁。優(yōu)點(diǎn):Apriori算法是關(guān)聯(lián)規(guī)則最常用也是最經(jīng)典的分析頻繁項(xiàng)集的算法,算法已大大壓縮了頻繁項(xiàng)集的大小,并可以取得良好性能。缺點(diǎn):Apriori算法每次計(jì)算支持度與置信度都需要重新掃描所有數(shù)據(jù)。其次,算法有的多次掃描事務(wù)數(shù)據(jù)的缺陷,在每一步產(chǎn)生候選集時(shí)循環(huán)產(chǎn)生的項(xiàng)集過多,沒有排除不應(yīng)該參與組合的元素。適用場(chǎng)景:Apriori算法除了適用在商品零售購物籃分析外,近年來也廣泛應(yīng)用在金融行業(yè)中,可以成功預(yù)測(cè)銀行客戶的需求;還應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,檢測(cè)出用戶行為的安全模式進(jìn)而鎖定攻擊者。此外,Apriori

27、算法還可應(yīng)用于高校管理、移動(dòng)通訊、中醫(yī)證型等領(lǐng)域。了解Apriori算法的基本原理與使用方法3.優(yōu)缺點(diǎn)與適用場(chǎng)景第45頁,共350頁。R語言中的arules包提供了Apriori算法的函數(shù)apriori,其基本使用語法如下。apriori(data, parameter = NULL, appearance = NULL, control = NULL)常用參數(shù)及其說明,如表所示。了解Apriori算法的基本原理與使用方法4. apriori函數(shù)及其參數(shù)介紹參數(shù)說明data接收transactions。表示進(jìn)行訓(xùn)練的數(shù)據(jù)。無默認(rèn)。parameter接收APparameter或list。表示對(duì)最

28、小支持度、最小置信度、最小項(xiàng)數(shù)和最大項(xiàng)數(shù)的設(shè)置。默認(rèn)最小支持度為0.1,最小置信度為0.8,最大項(xiàng)數(shù)為10。appearance接收APparameter或list。表示使用該參數(shù)來控制對(duì)應(yīng)項(xiàng)。默認(rèn)所有項(xiàng)目無限制。第46頁,共350頁。Apriori算法輸出結(jié)果的形式一般包含lhs,rhs,support,confidence以及l(fā)ift。lhs和rhs分別指操作符“”左邊的項(xiàng)和右邊的項(xiàng)。提升度小于1說明前項(xiàng)和后項(xiàng)是負(fù)相關(guān)的,提升度等于1說明前項(xiàng)和后項(xiàng)沒有任何關(guān)系,提升度大于1說明前項(xiàng)和后項(xiàng)是正相關(guān)相關(guān)的。在本案例中,提升度大于1對(duì)模型才有價(jià)值,所以需要剔除提升度小于或等于1的規(guī)則。了解Apr

29、iori算法的基本原理與使用方法4. apriori函數(shù)及其參數(shù)介紹第47頁,共350頁。lhsrhssupportconfidencelift其他蔬菜,全脂牛奶=根莖類蔬菜0.0231830.3097832.842082仁果類水果=熱帶水果0.0204370.2701612.574648根莖類蔬菜,全脂牛奶=其他蔬菜0.0231830.4740122.44977根莖類蔬菜=其他蔬菜0.0473820.4347012.246605其他蔬菜,全脂牛奶=酸奶0.0222670.2975542.132979酸奶油=其他蔬菜0.0288760.4028372.081924酸奶油=酸奶0.0207420

30、.2893622.074251全脂牛奶,酸奶=其他蔬菜0.0222670.3974592.054131其他蔬菜,酸奶=全脂牛奶0.0222670.5128812.007235熱帶水果=酸奶0.0292830.279072.000475分析結(jié)果經(jīng)過多次試驗(yàn),發(fā)現(xiàn)在最小支持度為0.02,最小置信度為0.35時(shí)用Apriori算法求取關(guān)聯(lián)規(guī)則數(shù)目適中,能夠得出優(yōu)良結(jié)果。以lift進(jìn)行從高到低排列的前10條規(guī)則,如表所示。第48頁,共350頁。分析結(jié)果將全脂牛奶放在顧客購買商品的必經(jīng)之路,或者商場(chǎng)顯眼位置,方便顧客拿取。其他蔬菜、根莖類蔬菜、酸奶油、豬肉、黃油、本地蛋類和多種水果同時(shí)購買的概率較高,可

31、以考慮捆綁銷售,或者適當(dāng)調(diào)整商場(chǎng)布置,將這些商品的距離盡量拉近,提升購物體驗(yàn)。通過模型的規(guī)則得出在顧客購買商品的時(shí)候會(huì)同時(shí)購買全脂牛奶。因此,商場(chǎng)可以根據(jù)實(shí)際情況進(jìn)行布置。第49頁,共350頁。1分析商品銷售狀況目錄了解購物籃分析2使用Apriori關(guān)聯(lián)規(guī)則構(gòu)建購物籃分析模型3小結(jié)4第50頁,共350頁。本案例主要結(jié)合商品零售購物籃的案例,重點(diǎn)介紹了關(guān)聯(lián)規(guī)則算法中的Apriori算法在商品零售購物籃分析案例中的應(yīng)用。過程中詳細(xì)的分析了商品零售的現(xiàn)狀與問題,同時(shí)給出某商場(chǎng)的商品零售數(shù)據(jù),分析了商品的熱銷程度,最后通過Apriori算法構(gòu)建相應(yīng)模型,并根據(jù)模型結(jié)果制定銷售策略。小結(jié)第51頁,共35

32、0頁。第52頁,共350頁。航空公司客戶價(jià)值分析2018/1/24第53頁,共350頁。1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價(jià)值分析2使用K-Means算法進(jìn)行客戶分群3小結(jié)4第54頁,共350頁。分析航空公司現(xiàn)狀1. 行業(yè)內(nèi)競(jìng)爭(zhēng)民航的競(jìng)爭(zhēng)除了三大航空公司之間的競(jìng)爭(zhēng)之外,還將加入新崛起的各類小型航空公司、民營(yíng)航空公司,甚至國(guó)外航空巨頭。航空產(chǎn)品生產(chǎn)過剩,產(chǎn)品同質(zhì)化特征愈加明顯,于是航空公司從價(jià)格、服務(wù)間的競(jìng)爭(zhēng)逐漸轉(zhuǎn)向?qū)蛻舻母?jìng)爭(zhēng)。第55頁,共350頁。分析航空公司現(xiàn)狀2. 行業(yè)外競(jìng)爭(zhēng)隨著高鐵、動(dòng)車等鐵路運(yùn)輸?shù)呐d建,航空公司受到巨大沖擊。第56頁,共350頁。目前航空公司已積累了大量的

33、會(huì)員檔案信息和其乘坐航班記錄。以2014-03-31為結(jié)束時(shí)間,選取寬度為兩年的時(shí)間段作為分析觀測(cè)窗口,抽取觀測(cè)窗口內(nèi)有乘機(jī)記錄的所有客戶的詳細(xì)數(shù)據(jù)形成歷史數(shù)據(jù),44個(gè)特征,總共62988條記錄。數(shù)據(jù)特征及其說明如右表所示。航空公司客戶數(shù)據(jù)說明表 名特征名稱特征說明客戶基本信息MEMBER_NO會(huì)員卡號(hào)FFP_DATE入會(huì)時(shí)間FIRST_FLIGHT_DATE第一次飛行日期GENDER性別FFP_TIER會(huì)員卡級(jí)別WORK_CITY工作地城市WORK_PROVINCE工作地所在省份WORK_COUNTRY工作地所在國(guó)家AGE年齡第57頁,共350頁。航空公司客戶數(shù)據(jù)說明表 名特征名稱特征說明乘

34、機(jī)信息FLIGHT_COUNT觀測(cè)窗口內(nèi)的飛行次數(shù)LOAD_TIME觀測(cè)窗口的結(jié)束時(shí)間LAST_TO_END最后一次乘機(jī)時(shí)間至觀測(cè)窗口結(jié)束時(shí)長(zhǎng)AVG_DISCOUNT平均折扣率SUM_YR觀測(cè)窗口的票價(jià)收入SEG_KM_SUM觀測(cè)窗口的總飛行公里數(shù)LAST_FLIGHT_DATE末次飛行日期AVG_INTERVAL平均乘機(jī)時(shí)間間隔MAX_INTERVAL最大乘機(jī)間隔積分信息EXCHANGE_COUNT積分兌換次數(shù)EP_SUM總精英積分PROMOPTIVE_SUM促銷積分PARTNER_SUM合作伙伴積分POINTS_SUM總累計(jì)積分POINT_NOTFLIGHT非乘機(jī)的積分變動(dòng)次數(shù)BP_SUM

35、總基本積分第58頁,共350頁。借助航空公司客戶數(shù)據(jù),對(duì)客戶進(jìn)行分類。對(duì)不同的客戶類別進(jìn)行特征分析,比較不同類別客戶的客戶價(jià)值。對(duì)不同價(jià)值的客戶類別提供個(gè)性化服務(wù),制定相應(yīng)的營(yíng)銷策略。案例目標(biāo)結(jié)合目前航空公司的數(shù)據(jù)情況,可以實(shí)現(xiàn)以下目標(biāo)。第59頁,共350頁。公司收入的80%來自頂端的20%的客戶。20%的客戶其利潤(rùn)率100%。90%以上的收入來自現(xiàn)有客戶。大部分的營(yíng)銷預(yù)算經(jīng)常被用在非現(xiàn)有客戶上。5%至30%的客戶在客戶金字塔中具有升級(jí)潛力??蛻艚鹱炙锌蛻羯?jí)2%,意味著銷售收入增加10%,利潤(rùn)增加50%。這些經(jīng)驗(yàn)也許并不完全準(zhǔn)確,但是它揭示了新時(shí)代客戶分化的趨勢(shì),也說明了對(duì)客戶價(jià)值分析的迫

36、切性和必要性。了解客戶價(jià)值分析客戶營(yíng)銷戰(zhàn)略倡導(dǎo)者Jay & Adam Curry從國(guó)外數(shù)百家公司進(jìn)行了客戶營(yíng)銷實(shí)施的經(jīng)驗(yàn)中提煉了如下經(jīng)驗(yàn)。第60頁,共350頁。熟悉航空客戶價(jià)值分析的步驟與流程航空客戶價(jià)值分析案例的總體流程如圖所示。第61頁,共350頁。1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價(jià)值分析2使用K-Means算法進(jìn)行客戶分群3小結(jié)4第62頁,共350頁。通過對(duì)數(shù)據(jù)觀察發(fā)現(xiàn)原始數(shù)據(jù)中存在票價(jià)為空值,票價(jià)最小值為0,折扣率最小值為0,總飛行公里數(shù)大于0的記錄。票價(jià)為空值的數(shù)據(jù)可能是客戶不存在乘機(jī)記錄造成。處理方法:丟棄票價(jià)為空的記錄。其他的數(shù)據(jù)可能是客戶乘坐0折機(jī)票或者積分兌換造

37、成。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對(duì)于問題影響不大,因此對(duì)其進(jìn)行丟棄處理。處理方法:丟棄票價(jià)為0,平均折扣率不為0,總飛行公里數(shù)大于0的記錄。處理數(shù)據(jù)缺失值與異常值航空公司客戶原始數(shù)據(jù)存在少量的缺失值和異常值,需要清洗后才能用于分析。第63頁,共350頁。本案例的目標(biāo)是客戶價(jià)值分析,即通過航空公司客戶數(shù)據(jù)識(shí)別不同價(jià)值的客戶,識(shí)別客戶價(jià)值應(yīng)用最廣泛的模型是RFM模型。R(Recency)指的是最近一次消費(fèi)時(shí)間與截止時(shí)間的間隔。通常情況下,最近一次消費(fèi)時(shí)間與截止時(shí)間的間隔越短,對(duì)即時(shí)提供的商品或是服務(wù)也最有可能感興趣。F(Frequency)指顧客在某段時(shí)間內(nèi)所消費(fèi)的次數(shù)??梢哉f消費(fèi)頻率

38、越高的顧客,也是滿意度越高的顧客,其忠誠(chéng)度也就越高,顧客價(jià)值也就越大。M(Monetary)指顧客在某段時(shí)間內(nèi)所消費(fèi)的金額。消費(fèi)金額越大的顧客,他們的消費(fèi)能力自然也就越大,這就是所謂“20%的顧客貢獻(xiàn)了80%的銷售額”的二八法則。構(gòu)建航空客戶價(jià)值分析的關(guān)鍵特征1. RFM模型介紹第64頁,共350頁。RFM模型包括三個(gè)特征,使用三維坐標(biāo)系進(jìn)行展示,如圖所示。X軸表示Recency,Y軸表示Frequency,Z軸表示Monetary,每個(gè)軸一般會(huì)分成5級(jí)表示程度,1為最小,5為最大。構(gòu)建航空客戶價(jià)值分析的關(guān)鍵特征2. RFM模型結(jié)果解讀第65頁,共350頁。在RFM模型中,消費(fèi)金額表示在一段時(shí)

39、間內(nèi),客戶購買該企業(yè)產(chǎn)品金額的總和,由于航空票價(jià)受到運(yùn)輸距離,艙位等級(jí)等多種因素影響,同樣消費(fèi)金額的不同旅客對(duì)航空公司的價(jià)值是不同的,因此這個(gè)特征并不適合用于航空公司的客戶價(jià)值分析。構(gòu)建航空客戶價(jià)值分析的關(guān)鍵特征3. 傳統(tǒng)RFM模型在航空行業(yè)的缺陷第66頁,共350頁。本案例選擇客戶在一定時(shí)間內(nèi)累積的飛行里程M和客戶在一定時(shí)間內(nèi)乘坐艙位所對(duì)應(yīng)的折扣系數(shù)的平均值C兩個(gè)特征代替消費(fèi)金額。此外,航空公司會(huì)員入會(huì)時(shí)間的長(zhǎng)短在一定程度上能夠影響客戶價(jià)值,所以在模型中增加客戶關(guān)系長(zhǎng)度L,作為區(qū)分客戶的另一特征。本案例將客戶關(guān)系長(zhǎng)度L,消費(fèi)時(shí)間間隔R,消費(fèi)頻率F,飛行里程M和折扣系數(shù)的平均值C作為航空公司識(shí)

40、別客戶價(jià)值的關(guān)鍵特征(如表所示),記為L(zhǎng)RFMC模型。構(gòu)建航空客戶價(jià)值分析的關(guān)鍵特征4. 航空客戶價(jià)值分析的LRFMC模型模型LRFMC航空公司LRFMC模型會(huì)員入會(huì)時(shí)間距觀測(cè)窗口結(jié)束的月數(shù)客戶最近一次乘坐公司飛機(jī)距觀測(cè)窗口結(jié)束的月數(shù)客戶在觀測(cè)窗口內(nèi)乘坐公司飛機(jī)的次數(shù)客戶在觀測(cè)窗口內(nèi)累計(jì)的飛行里程客戶在觀測(cè)窗口內(nèi)乘坐艙位所對(duì)應(yīng)的折扣系數(shù)的平均值第67頁,共350頁。完成五個(gè)特征的構(gòu)建以后,對(duì)每個(gè)特征數(shù)據(jù)分布情況進(jìn)行分析,其數(shù)據(jù)的取值范圍如表所示。從表中數(shù)據(jù)可以發(fā)現(xiàn),五個(gè)特征的取值范圍數(shù)據(jù)差異較大,為了消除數(shù)量級(jí)數(shù)據(jù)帶來的影響,需要對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化LRFMC五個(gè)特征特征名稱LRFMC最

41、小值12.170.0323680.14最大值114.5724.372135807171.5第68頁,共350頁。LOAD_TIMEFFP_DATELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMAVG_DISCOUNT2014/3/312013/3/1623141268501.022014/3/312012/6/266651847300.762014/3/312009/12/8233603871.272014/3/312009/12/101236622591.022014/3/312011/8/251422547301.36標(biāo)準(zhǔn)化LRFMC五個(gè)特征L、R、F、M和C五個(gè)特征的

42、數(shù)據(jù)示例,上圖為原始數(shù)據(jù),下圖為標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。LRFMC1.44-0.9514.0326.761.301.31-0.919.0713.132.871.33-0.898.7212.652.880.66-0.420.7812.541.990.39-0.929.9213.901.34第69頁,共350頁。1預(yù)處理航空客戶數(shù)據(jù)目錄了解航空公司現(xiàn)狀與客戶價(jià)值分析2使用K-Means算法進(jìn)行客戶分群3小結(jié)4第70頁,共350頁。K-Means聚類算法是一種基于質(zhì)心的劃分方法,輸入聚類個(gè)數(shù)k,以及包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫,輸出滿足誤差平方和最小標(biāo)準(zhǔn)的k個(gè)聚類。算法步驟如下。從n個(gè)樣本數(shù)據(jù)中隨機(jī)選

43、取k個(gè)對(duì)象作為初始的聚類中心。分別計(jì)算每個(gè)樣本到各個(gè)聚類質(zhì)心的距離,將樣本分配到距離最近的那個(gè)聚類中心類別中。所有樣本分配完成后,重新計(jì)算k個(gè)聚類的中心。與前一次計(jì)算得到的k個(gè)聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)(2),否則轉(zhuǎn)(5)。當(dāng)質(zhì)心不發(fā)生變化時(shí)停止并輸出聚類結(jié)果。了解K-Means聚類算法1. 基本概念第71頁,共350頁。K-Means聚類算法是在數(shù)值類型數(shù)據(jù)的基礎(chǔ)上進(jìn)行研究,然而數(shù)據(jù)分析的樣本復(fù)雜多樣,因此要求不僅能夠?qū)μ卣鳛閿?shù)值類型的數(shù)據(jù)進(jìn)行分析,還要適應(yīng)數(shù)據(jù)類型的變化,對(duì)不同特征做不同變換,以滿足算法的要求。了解K-Means聚類算法2. 數(shù)據(jù)類型第72頁,共350頁。K-M

44、eans算法在R語言中實(shí)現(xiàn)的核心函數(shù)為kmeans,來源于stats軟件包,其基本語法如下。kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c(Hartigan-Wong, Lloyd, Forgy,MacQueen)常用參數(shù)及其說明,如表所示。了解K-Means聚類算法3. kmeans函數(shù)及其參數(shù)介紹參數(shù)名稱說 明x接收matrix或dataframe。表示進(jìn)行聚類分析的數(shù)據(jù)集。無默認(rèn)。centers接收int。表示初始類的個(gè)數(shù)或者初始類的中心。無默認(rèn)。iter.max接收int。表示最大迭代次數(shù)。默認(rèn)為10。nstart

45、接收int。表示選擇隨機(jī)起始中心點(diǎn)的次數(shù)。默認(rèn)為1。algorithm接收特定character(Hartigan-Wong, Lloyd, Forgy, MacQueen)。默認(rèn)為Hartigan-Wong。第73頁,共350頁。K-Means模型構(gòu)建完成后可以通過屬性查看不同的信息,如表所示。了解K-Means聚類算法3. kmeans函數(shù)及其參數(shù)介紹屬性說明cluster返回int。表示每個(gè)點(diǎn)被分配到的簇。centers返回num。表示聚類中心矩陣。totss返回int。表示所生成簇的總體距離平方和。withinss返回num。表示每個(gè)簇內(nèi)的距離平方和。betweenss返回num。表示

46、每個(gè)簇之間的距離平方和。size返回int。表示每個(gè)簇內(nèi)的數(shù)量。第74頁,共350頁。分析聚類結(jié)果對(duì)數(shù)據(jù)進(jìn)行聚類分群的結(jié)果如表所示。聚類類別聚類個(gè)數(shù)聚類中心LRFMC客戶群153360.483-0.7992.4832.4250.309客戶群241710.056-0.003-0.226-0.2292.200客戶群3157421.160-0.377-0.087-0.095-0.156客戶群424663-0.700-0.415-0.161-0.161-0.254客戶群512132-0.3131.686-0.574-0.537-0.173第75頁,共350頁。分析聚類結(jié)果針對(duì)聚類結(jié)果進(jìn)行特征分析,如圖

47、所示。第76頁,共350頁。分析聚類結(jié)果結(jié)合業(yè)務(wù)分析,通過比較各個(gè)特征在群間的大小對(duì)某一個(gè)群的特征進(jìn)行評(píng)價(jià)分析,從而總結(jié)出每個(gè)群的優(yōu)勢(shì)和弱勢(shì)特征,具體結(jié)果如表所示。群類別優(yōu)勢(shì)特征弱勢(shì)特征客戶群1FMR客戶群2CRFM客戶群3FML客戶群4LC客戶群5FMR第77頁,共350頁。分析聚類結(jié)果基于特征描述,本案例定義五個(gè)等級(jí)的客戶類別:重要保持客戶,重要發(fā)展客戶,重要挽留客戶,一般客戶,低價(jià)值客戶。每種客戶類別的特征如圖所示。第78頁,共350頁。會(huì)員的升級(jí)與保級(jí):航空公司可以在對(duì)會(huì)員升級(jí)或保級(jí)進(jìn)行評(píng)價(jià)的時(shí)間點(diǎn)之前,對(duì)那些接近但尚未達(dá)到要求的較高消費(fèi)客戶進(jìn)行適當(dāng)提醒甚至采取一些促銷活動(dòng),刺激他們通

48、過消費(fèi)達(dá)到相應(yīng)標(biāo)準(zhǔn)。這樣既可以獲得收益,同時(shí)也提高了客戶的滿意度,增加了公司的精英會(huì)員。首次兌換:采取的措施是從數(shù)據(jù)庫中提取出接近但尚未達(dá)到首次兌換標(biāo)準(zhǔn)的會(huì)員,對(duì)他們進(jìn)行提醒或促銷,使他們通過消費(fèi)達(dá)到標(biāo)準(zhǔn)。一旦實(shí)現(xiàn)了首次兌換,客戶在本公司進(jìn)行再次消費(fèi)兌換就比在其他公司進(jìn)行兌換要容易許多,在一定程度上等于提高了轉(zhuǎn)移的成本。交叉銷售:通過發(fā)行聯(lián)名卡等與非航空類企業(yè)的合作,使客戶在其他企業(yè)的消費(fèi)過程中獲得本公司的積分,增強(qiáng)與公司的聯(lián)系,提高他們的忠誠(chéng)度。模型應(yīng)用根據(jù)對(duì)各個(gè)客戶群進(jìn)行特征分析,采取下面的一些營(yíng)銷手段和策略,為航空公司的價(jià)值客戶群管理提供參考。第79頁,共350頁。1分析方法與過程目錄了

49、解航空公司現(xiàn)狀與客戶價(jià)值分析2使用K-Means算法進(jìn)行客戶分群3小結(jié)4第80頁,共350頁。本案例結(jié)合航空公司客戶價(jià)值分析的案例,重點(diǎn)介紹了數(shù)據(jù)分析算法中K-Means聚類算法在客戶價(jià)值分析中的應(yīng)用。針對(duì)RFM客戶價(jià)值分析模型的不足,使用K-Means算法構(gòu)建了航空客戶價(jià)值分析LRFMC模型,詳細(xì)描述了數(shù)據(jù)分析的整個(gè)過程。小結(jié)第81頁,共350頁。第82頁,共350頁。財(cái)政收入預(yù)測(cè)分析2022/8/20第83頁,共350頁。1了解相關(guān)性分析目錄分析財(cái)政收入預(yù)測(cè)背景2使用Lasso回歸選取財(cái)政收入預(yù)測(cè)的關(guān)鍵特征3使用灰色預(yù)測(cè)和SVR構(gòu)建財(cái)政收入預(yù)測(cè)模型4小結(jié)5第84頁,共350頁。財(cái)政收入,是

50、指政府為履行其職能、實(shí)施公共政策和提供公共物品與服務(wù)需要而籌集的一切資金的總和。財(cái)政收入表現(xiàn)為政府部門在一定時(shí)期內(nèi)(一般為一個(gè)財(cái)政年度)所取得的貨幣收入。財(cái)政收入是衡量一國(guó)政府財(cái)力的重要特征,政府在社會(huì)經(jīng)濟(jì)活動(dòng)中提供公共物品和服務(wù)的范圍和數(shù)量,在很大程度上取決于財(cái)政收入的充裕狀況。在我國(guó)現(xiàn)行的分稅制財(cái)政管理體制下,地方財(cái)政收入不但是國(guó)家財(cái)政收入的重要組成部分,而且具有其相對(duì)獨(dú)立的構(gòu)成內(nèi)容。如何制定地方財(cái)政支出計(jì)劃,合理分配地方財(cái)政收入,促進(jìn)地方的發(fā)展,提高市民的收入和生活質(zhì)量是每個(gè)地方政府需要考慮的首要問題。因此,地方財(cái)政收入預(yù)測(cè)是非常必要的。分析財(cái)政收入預(yù)測(cè)背景1. 財(cái)政收入簡(jiǎn)介和需求第85

51、頁,共350頁??紤]到數(shù)據(jù)的可得性,本案例所用的財(cái)政收入分為地方一般預(yù)算收入和政府性基金收入。地方一般預(yù)算收入包括以下2個(gè)部分。稅收收入。主要包括企業(yè)所得稅與地方所得稅中中央和地方共享的40%,地方享有的25%的增值稅,營(yíng)業(yè)稅和印花稅等。非稅收收入。包括專項(xiàng)收入、行政事業(yè)性收費(fèi)、罰沒收入、國(guó)有資本經(jīng)營(yíng)收入和其他收入等。政府性基金收入是國(guó)家通過向社會(huì)征收以及出讓土地、發(fā)行彩票等方式取得收入,并專項(xiàng)用于支持特定基礎(chǔ)設(shè)施建設(shè)和社會(huì)事業(yè)發(fā)展的收入。分析財(cái)政收入預(yù)測(cè)背景2. 財(cái)政收入預(yù)測(cè)數(shù)據(jù)基礎(chǔ)情況第86頁,共350頁。分析財(cái)政收入預(yù)測(cè)背景2. 財(cái)政收入預(yù)測(cè)數(shù)據(jù)基礎(chǔ)情況第87頁,共350頁。分析財(cái)政收入

52、預(yù)測(cè)背景2. 財(cái)政收入預(yù)測(cè)數(shù)據(jù)基礎(chǔ)情況第88頁,共350頁。分析財(cái)政收入預(yù)測(cè)背景2. 財(cái)政收入預(yù)測(cè)數(shù)據(jù)基礎(chǔ)情況第89頁,共350頁。分析財(cái)政收入預(yù)測(cè)背景2. 財(cái)政收入預(yù)測(cè)數(shù)據(jù)基礎(chǔ)情況第90頁,共350頁。結(jié)合財(cái)政收入預(yù)測(cè)的需求分析,本次數(shù)據(jù)分析建模目標(biāo)主要有以下2個(gè)。分析,識(shí)別影響地方財(cái)政收入的關(guān)鍵特征。預(yù)測(cè)2014年和2015年的財(cái)政收入。分析財(cái)政收入預(yù)測(cè)背景3. 財(cái)政收入預(yù)測(cè)分析目標(biāo)第91頁,共350頁。眾多學(xué)者已經(jīng)對(duì)財(cái)政收入的影響因素進(jìn)行了研究,但是他們大多先建立財(cái)政收入與各待定的影響因素之間的多元線性回歸模型,運(yùn)用最小二乘估計(jì)方法來估計(jì)回歸模型的系數(shù),通過系數(shù)來檢驗(yàn)它們之間的關(guān)系,模型

53、的結(jié)果對(duì)數(shù)據(jù)的依賴程度很大,并且普通最小二乘估計(jì)求得的解往往是局部最優(yōu)解,后續(xù)步驟的檢驗(yàn)可能就會(huì)失去應(yīng)有的意義。本案例在已有研究的基礎(chǔ)上運(yùn)用Lasso特征選擇方法來研究影響地方財(cái)政收入的因素。在Lasso特征選擇的基礎(chǔ)上,鑒于灰色預(yù)測(cè)對(duì)少量數(shù)據(jù)預(yù)測(cè)的優(yōu)良性能,對(duì)單個(gè)選定的影響因素建立灰色預(yù)測(cè)模型,得到它們?cè)?014年及2015年的預(yù)測(cè)值。由于支持向量回歸有較強(qiáng)的適用性和容錯(cuò)能力,對(duì)歷史數(shù)據(jù)建立訓(xùn)練模型,把灰色預(yù)測(cè)的數(shù)據(jù)結(jié)果代入訓(xùn)練完成的模型中,充分考慮歷史數(shù)據(jù)信息,可以得到較為準(zhǔn)確的預(yù)測(cè)結(jié)果,即2014年和2015年財(cái)政收入。了解財(cái)政收入預(yù)測(cè)的方法方法選擇第92頁,共350頁。熟悉財(cái)政收入預(yù)測(cè)

54、的步驟與流程第93頁,共350頁。本案例的總體流程如圖所示,主要包括以下步驟。對(duì)原始數(shù)據(jù)進(jìn)行探索性分析,了解原始特征之間的相關(guān)性。利用Lasso特征選擇模型進(jìn)行特征提取。建立單個(gè)特征的灰色預(yù)測(cè)模型以及支持向量回歸預(yù)測(cè)模型。使用支持向量回歸預(yù)測(cè)模型得出2014-2015年財(cái)政收入的預(yù)測(cè)值。對(duì)上述建立的財(cái)政收入預(yù)測(cè)模型進(jìn)行評(píng)價(jià)。熟悉財(cái)政收入預(yù)測(cè)的步驟與流程案例流程第94頁,共350頁。1了解相關(guān)性分析目錄分析財(cái)政收入預(yù)測(cè)背景2使用Lasso回歸選取財(cái)政收入預(yù)測(cè)的關(guān)鍵特征3使用灰色預(yù)測(cè)和SVR構(gòu)建財(cái)政收入預(yù)測(cè)模型4小結(jié)5第95頁,共350頁。了解相關(guān)性分析Pearson相關(guān)系數(shù)第96頁,共350頁。

55、了解相關(guān)性分析Pearson相關(guān)系數(shù)第97頁,共350頁。x1x2x3x4x5x6x7x8x9x10 x11x12x13yx11.000.950.950.970.970.990.950.970.980.98-0.290.940.960.94x20.951.001.000.990.990.920.990.990.980.98-0.130.891.000.98x30.951.001.000.990.990.921.000.990.980.99-0.150.891.000.99x40.970.990.991.001.000.950.991.000.991.00-0.190.911.000.99x50

56、.970.990.991.001.000.950.991.000.991.00-0.180.900.990.99x60.990.920.920.950.951.000.930.950.970.96-0.340.950.940.91x70.950.991.000.990.990.931.000.990.980.99-0.150.891.000.99x80.970.990.991.001.000.950.991.000.991.00-0.150.901.000.99x90.980.980.980.990.990.970.980.991.000.99-0.230.910.990.98x100.980

57、.980.991.001.000.960.991.000.991.00-0.170.900.990.99x11-0.29-0.13-0.15-0.19-0.18-0.34-0.15-0.15-0.23-0.171.00-0.43-0.16-0.12x120.940.890.890.910.900.950.890.900.910.90-0.431.000.900.87x130.961.001.001.000.990.941.001.000.990.99-0.160.901.000.99y0.940.980.990.990.990.910.990.990.980.99-0.120.870.991.

58、00分析計(jì)算結(jié)果Pearson相關(guān)系數(shù)矩陣第98頁,共350頁。分析計(jì)算結(jié)果分析第99頁,共350頁。1了解相關(guān)性分析目錄分析財(cái)政收入預(yù)測(cè)背景2使用Lasso回歸選取財(cái)政收入預(yù)測(cè)的關(guān)鍵特征3使用灰色預(yù)測(cè)和SVR構(gòu)建財(cái)政收入預(yù)測(cè)模型4小結(jié)5第100頁,共350頁。Lasso回歸方法屬于正則化方法的一種,是壓縮估計(jì)。它通過構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)較為精煉的模型,使得它壓縮一些系數(shù),同時(shí)設(shè)定一些系數(shù)為零,保留了子集收縮的優(yōu)點(diǎn),是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。了解Lasso回歸方法1. 概念第101頁,共350頁。Lasso以縮小特征集(降階)為思想,是一種收縮估計(jì)方法。Lasso方法可以將特征

59、的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?,進(jìn)而達(dá)到特征選擇的目的,可以廣泛應(yīng)用于模型改進(jìn)與選擇。通過選擇懲罰函數(shù),借用Lasso思想和方法實(shí)現(xiàn)特征選擇的目的。模型選擇本質(zhì)上是尋求模型稀疏表達(dá)的過程,而這種過程可以通過優(yōu)化一個(gè)“損失”“懲罰”的函數(shù)問題來完成。了解Lasso回歸方法2. 基本原理第102頁,共350頁。了解Lasso回歸方法2. 基本原理第103頁,共350頁。當(dāng)原始特征中存在多重共線性時(shí),Lasso回歸不失為一種很好的處理共線性的方法,它可以有效地對(duì)存在多重共線性的特征進(jìn)行篩選。在機(jī)器學(xué)習(xí)中,面對(duì)海量的數(shù)據(jù),首先想到的就是降維,爭(zhēng)取用盡可能少的數(shù)據(jù)解決問題,從這層意義上說,用Las

60、so模型進(jìn)行特征選擇也是一種有效的降維方法。Lasso從理論上說,對(duì)數(shù)據(jù)類型沒有太多限制,可以接受任何類型的數(shù)據(jù),而且一般不需要對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理。了解Lasso回歸方法3. 適用場(chǎng)景第104頁,共350頁。優(yōu)點(diǎn):可以彌補(bǔ)最小二乘法和逐步回歸局部最優(yōu)估計(jì)的不足,可以很好地進(jìn)行特征的選擇,可以有效地解決各特征之間存在多重共線性的問題。缺點(diǎn):如果存在一組高度相關(guān)的特征時(shí),Lasso回歸方法傾向于選擇其中的一個(gè)特征,而忽視其他所有的特征,這種情況會(huì)導(dǎo)致結(jié)果的不穩(wěn)定性。雖然Lasso回歸方法存在弊端,但是在合適的場(chǎng)景中還是可以發(fā)揮不錯(cuò)的效果。在財(cái)政收入預(yù)測(cè)中,各原始特征存在著嚴(yán)重的多重共線性,多重共

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論