




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)分析方法論2.1基本方法&2.2高級方法1對比法23CONTENTS拆分法排序法4分組法6降維法7增維法8指標法9圖形法5交叉法10SWOT分析法11描述性統(tǒng)計法12數(shù)據(jù)標準化(指數(shù)化)基本方法數(shù)據(jù)分析有法可循,在分析數(shù)據(jù)時使用分析方法可以快速有效地分析數(shù)據(jù),從數(shù)據(jù)中獲取信息。常用的基本方法有對比法、拆分法、排序法、分組法、交叉法、降維法、增維法、指標法和圖形法。根據(jù)業(yè)務場景選擇一種或一種以上的分析方法可以讓分析更加高效。各基本方法的使用場景如表所示。分析方法使用場景對比法發(fā)現(xiàn)問題拆分法尋找問題的原因排序法找到分析的重點分組法洞察事物特征交叉法將兩個及以上的維度進行比較,并通過交叉的方式分析數(shù)據(jù)降維法解決復雜問題增維法解決信息量過少的問題指標法基本方法,可支持多字段圖形法基本方法,對分析字段有數(shù)量限制對比法PARTONE對比法是最基本的分析方法也是數(shù)據(jù)分析的“先鋒軍”,分析師在開展分析時首先使用對比法,可以快速發(fā)現(xiàn)問題。進行商業(yè)分析時有三個必備的維度,分別是過去的自己、同期的對手和同期的行業(yè),通過這三個維度的對比可以了解數(shù)據(jù)意義,否則數(shù)據(jù)就是一座孤島。對比法分為橫向和縱向兩個方向。橫向?qū)Ρ仁侵缚缇S度的對比,用于分析不同事物的差異,比如在分析企業(yè)銷售業(yè)績的時候,將不同行業(yè)的企業(yè)銷售業(yè)績一起進行對比,這樣可以知道某家企業(yè)在整個市場的地位。如我國500強企業(yè)排行榜單,就是將不同行業(yè)的企業(yè)產(chǎn)值進行對比??v向?qū)Ρ仁侵冈谕粋€維度不同階段的對比,比如基于時間維度,將今天的銷售業(yè)績和昨天、上個星期同一天進行對比,可以知道今天銷售業(yè)績的情況。例:小李是某網(wǎng)店運營,剛接手一家新網(wǎng)店,欲確定該店鋪的主營品類,已知該店鋪經(jīng)營A、B、C、D四個品類,各品類銷售數(shù)據(jù)如右表所示。解:將表轉(zhuǎn)變成柱形圖,如右表所示,通過對比A、B、C、D四個品類銷售額的最大值,要做市場規(guī)模則選擇銷售額高的品類,要便于生存則選擇銷售額低的品類。A品類B品類C品類D品類1580萬元780萬元605萬元1685萬元各品類的銷售額拆分法PARTTWO拆分法拆分法是最常用的分析方法之一,在許多領域應用非常廣泛,杜邦分析法就是拆分法的經(jīng)典應用。拆分法是將某個問題拆解成若干個子問題,通過研究該若干子問題從而找到問題的癥結(jié)點并解決問題。比如在研究銷售業(yè)績下降問題時,可以將銷售業(yè)績問題拆分成轉(zhuǎn)化率、客單價和訪客數(shù)這三個子問題,通過分析這三個子問題從而解決銷售業(yè)績問題。解:如圖所示,銷售額下降的問題可拆分成三個子問題,分別是訪客數(shù)、轉(zhuǎn)化率和客單價的變化,對上表的數(shù)據(jù)運用對比法發(fā)現(xiàn)主要是訪客數(shù)的變化引起的銷售額大幅下降??稍龠M一步拆分訪客數(shù),訪客數(shù)可分為付費訪客數(shù)和免費訪客數(shù),對問題的原因進行進一步剖析,直到找到問題的根源。拆分法可分為完全拆分法和重點拆分法。完全拆分法,也稱為等額拆分法,是將父問題100%進行拆解,拆解出來的子問題的和或者集合(算法)可100%解釋父問題。如銷售額=訪客數(shù)×轉(zhuǎn)化率×客單價,等式兩邊完全相等。重點拆分法,也稱為非等額拆分法。只拆分出問題的重點,子問題只解釋了父問題的80%左右。如做好網(wǎng)店=點擊率+轉(zhuǎn)化率+退款率,確實要做好一家網(wǎng)店只要做好點擊率、轉(zhuǎn)化率和退款率這三個指標就夠了,但做網(wǎng)店運營不完全是這三個環(huán)節(jié)。抓住重要環(huán)節(jié),有時面對一些復雜的問題,就需要采用重點拆分法。日期訪客數(shù)轉(zhuǎn)化率客單價銷售額周一10003.5%1003500昨日20003.4%1006800上周一25003.5%1008750例:某網(wǎng)店的銷售額大幅下降,店鋪核心數(shù)據(jù)如表所示,運營欲找出銷售額下降的原因排序法PARTTHREE排序法排序法是基于某一個指標或度量值的大小,將觀測值進行遞增或遞減排列,每一次排列只能基于某一個指標。排序法是從對比法中衍生的一種常用方法,百度搜索風云榜、阿里排行榜等業(yè)內(nèi)知名榜單就是重采用排序法的產(chǎn)品,通過查看排序后的榜單,用戶可以快速獲取目標價值信息。例:某運營收集了數(shù)個品類的數(shù)據(jù),如表所示,欲通過排序法列出品類榜單品類交易指數(shù)在線產(chǎn)品數(shù)(個)T恤2017855135570連衣裙4355121868084褲子2266441053642襯衫1959211556930表1未排序的品類行業(yè)數(shù)據(jù)解:排序法只能基于某一個度量進行排序,表1中有兩個度量,因此可以做出兩個表單。表2為基于交易指數(shù)的榜單,排名越靠前代表該品類的市場規(guī)模越大。排名品類交易指數(shù)在線產(chǎn)品數(shù)(個)1連衣裙43551218680842褲子22664410536423T恤20178551355704襯衫1959211556930表3為基于產(chǎn)品數(shù)的榜單,排名越靠前代表該品類的市場競爭越大。排名品類交易指數(shù)在線產(chǎn)品數(shù)(個)1T恤20178551355702褲子22664410536423連衣裙43551218680844襯衫1959211556930分組法PARTFOUR分組法來源于統(tǒng)計學,用于發(fā)現(xiàn)事物的特征,是非常重要的分析方法。分析時可以按類型、結(jié)構(gòu)、時間階段等維度進行分組,觀察分組后的數(shù)據(jù)特征,從特征中洞察信息。例:基于下表的信息,分析褲子和職業(yè)套裝的差異父類目子類目銷售額(元)褲子休閑褲747991311褲子打底褲89942330褲子西裝褲/正裝褲4952899褲子棉褲/羽絨褲1800685職業(yè)套裝休閑套裝216517887職業(yè)套裝職業(yè)女裙套裝24072258職業(yè)套裝醫(yī)護制服1649589職業(yè)套裝其他套裝5952780解:基于題目可以得知需要對父類目進行統(tǒng)計分組。分組結(jié)果如下表所示父類目銷售額(元)褲子844687225職業(yè)套裝248192514通過觀察分組結(jié)果可知褲子的市場份額遠大于職業(yè)套裝的市場份額交叉法PARTFIVE交叉法是對比法和拆分法的結(jié)合,將有一定關聯(lián)的兩個或兩個以上的維度和度量值排列在統(tǒng)計表內(nèi)進行對比分析,在小于等于三維的情況下可以靈活使用圖表進行展示。當維度大于三維時選用統(tǒng)計表展示,此時也稱之多維分析法。比如在研究市場定價時,經(jīng)常將產(chǎn)品特征和定價作為維度,銷售額作為指標進行分析。例:下表所示是不同性別的消費者在不同品類上的消費金額數(shù)據(jù),利用交叉法分析不同性別的差異。性別品類消費金額(元)男零食68男耳機180女零食155女耳機42解:將左表轉(zhuǎn)變成二維交叉表,如表2-10所示,可以直觀地觀察到男性和女性用戶在消費偏好上的差異,男性更愿意在耳機上消費,女性則更愿意在零食上消費。性別
品類零食耳機男68180女15542降維法PARTSIX降維法是在數(shù)據(jù)集指標過多及分析干擾因素太多時,通過找到并分析核心指標提高分析精度,或者通過主成分分析、因子分析等統(tǒng)計學方法將數(shù)據(jù)由高維轉(zhuǎn)換成低維的方法。比如在分析店鋪數(shù)據(jù)時,根據(jù)業(yè)務問題的核心提取主要的2~4個核心指標進行分析。例:根據(jù)下表的數(shù)據(jù)指標字段評估店鋪的綜合情況。轉(zhuǎn)化率銷售額客單價訪客數(shù)動銷率連帶率好評率糾紛率上新率解:對數(shù)據(jù)指標字段進行分類,將店鋪的評估分成產(chǎn)品運營能力、店鋪獲客能力和店鋪服務能力。動銷率連帶率上新率反映店鋪產(chǎn)品運營能力的指標如下表所示反映店鋪獲客能力的指標如下表所示轉(zhuǎn)化率銷售額客單價訪客數(shù)反映店鋪服務能力的指標如下表所示好評率糾紛率基于各能力維度下的指標,綜合評估各能力的分數(shù)??墒褂脭?shù)據(jù)歸一化的方法或者熵值法計算分數(shù),達到綜合評估的目的。1.數(shù)據(jù)歸一化是將數(shù)據(jù)映射到[0,1]的區(qū)間,在2.2.3小節(jié)中詳細介紹。2.熵值法的核心思想是用信息的無序度來衡量信息的效用值。信息的無序度越低(越不穩(wěn)定)增維法Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilmtobeusedinawiderfieldPARTSEVEN增維法是在數(shù)據(jù)集的字段過少或信息量不足時,為了便于分析師分析,通過計算衍生出更加直觀的指標。比如在分析關鍵詞時,將搜索人氣除以商品數(shù)量得到的新指標,定義為關鍵詞的競爭指數(shù)。例:如表所示,計算關鍵詞的競爭度,公式如下:競爭度=搜索人氣×點擊率×支付轉(zhuǎn)化率÷在線商品數(shù)基于業(yè)務經(jīng)驗,得到的指標為正指標,數(shù)值越大越好關鍵詞搜索人氣點擊率在線商品數(shù)支付轉(zhuǎn)化率競爭度永生花32914152.95%1651186.92%0.02永生花花瓣耳環(huán)11736132.03%31993.99%0.19永生花禮盒10274162.75%557748.55%0.03永生花DIY材料包9245222.64%41983.71%0.18永生花玻璃罩7977138.58%237186.89%0.03指標法Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilmtobeusedinawiderfieldPARTEIGHT指標法是分析的基本方法之一,通過匯總值、平均值、標準差等一系列統(tǒng)計指標研究分析數(shù)據(jù)。指標法更適用于多維的數(shù)據(jù)。例:下表所示為淘寶搜索某關鍵詞按人氣排名前5的商品數(shù)據(jù),
通過指標法描述這個數(shù)據(jù)。排名售價銷售額評價人數(shù)DSR_物流分DSR_描述分DSR_服務分16801156001514.614.744.7623680629280164.984.984.98321803727809024.954.954.964218037496023634.924.934.94521993804279584.954.974.95解:使用指標法描述數(shù)據(jù)后的結(jié)果,如下表所示。
售價銷售額評價人數(shù)DSR_物流分DSR_描述分DSR_服務分計數(shù)555555缺失值000000平均值21843746098784.884.914.92匯總109191873047439024.4124.5724.59標準差9491624698350.140.090.08描述數(shù)據(jù)的相關度量圖形法Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilmtobeusedinawiderfieldPARTNINE圖形法是分析的基本方法之一,通過柱形圖、折線圖、散點圖等一系列統(tǒng)計圖形直觀地分析數(shù)據(jù)。圖形法適用于低維的數(shù)據(jù)。例:下表所示為淘寶搜索某關鍵詞按人氣排名前220的商品數(shù)據(jù),通過圖形法分析相關售價的分布排名售價銷售額評價人數(shù)DSR_物流分DSR_描述分DSR_服務分16801156001514.614.744.7623680629280164.984.984.98321803727809024.954.954.96……………………………………220150547800332064.754.634.74某關鍵詞按人氣排名前220的商品數(shù)據(jù)解:下圖所示是基于售價分組后繪制的直方圖,可以直觀地觀察各個價格區(qū)間包含商品的個數(shù),商品售價分布主要集中在[118,588],[1058,1528]兩個區(qū)間。
圖形法有畫圖空間、圖形和圖注三個要素。畫圖空間是圖形的容器,圖形呈現(xiàn)在畫圖空間之中,如二維空間、三維空間。圖形是要表達信息的可視化結(jié)果,如線形、柱形。圖注是對圖形的標注。如上圖所示,圖注包含圖標題、數(shù)據(jù)標簽、坐標軸、坐標軸標題、圖例。圖1價格區(qū)間分布圖圖2圖形的圖注示例SWOT分析法Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilmtobeusedinawiderfieldPARTTENSWOT分析法,即態(tài)勢分析法,來源于市場營銷方法論,是首先將與研究對象密切相關的各種主要內(nèi)部優(yōu)勢、劣勢和外部的機會和威脅等,通過調(diào)查列舉出來,并依照矩陣形式排列,然后用系統(tǒng)分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應的結(jié)論,而結(jié)論通常帶有一定的決策性。SWOT分析法是常用的分析方法,有助于分析師了解企業(yè)當前所處的內(nèi)外環(huán)境,可以讓分析師更準確地通過數(shù)據(jù)做判斷。1.內(nèi)部因素分析
內(nèi)部因素由優(yōu)勢(Strengths)和劣勢(Weaknesses)組成,對企業(yè)內(nèi)部的管理、團隊、產(chǎn)品和市場營銷情況進行分析,通過了解企業(yè)的內(nèi)部情況,分析師可以更好地解讀數(shù)據(jù)中蘊藏的信息。例:如下表所示,對某電商公司的內(nèi)部因素進行分析。優(yōu)勢(Strengths)劣勢(Weaknesses)1.店鋪開發(fā)能力強2.服務消費者的能力強3.能夠把控品質(zhì)4.公司的財務狀況非常好1.公司管理方面不是很完善2.庫存能力不強,常斷貨3.公司內(nèi)部人員競爭4.店鋪定位不明確5.開發(fā)消費者能力弱2.外部因素分析
外部因素由機會(Opportunities)和威脅(Threats)組成,對企業(yè)外部的環(huán)境、政策和競爭對手進行分析,通過了解企業(yè)的外部情況,分析師可以充分地了解企業(yè)的情況。例:如下表所示,對某電商公司的外部因素進行分析。機會(Opportunities)威脅(Threats)1.市場標桿很少,明確定位的店鋪很少2.市場需求大幅增長3.普遍不重視用戶體驗4.個性化1.競爭2.同質(zhì)化嚴重3.盜圖4.大商家新入駐3.基于內(nèi)外因素的應對策略
在充分了解企業(yè)的內(nèi)外部情況后,將內(nèi)部的優(yōu)勢、劣勢和外部的機會、威脅進行交叉。當企業(yè)的優(yōu)勢遇到機會,應當采取發(fā)展的策略;當企業(yè)的優(yōu)勢遇到威脅,應當采取拓展的策略;當企業(yè)的劣勢遇到機會,應當采取爭取的策略;當企業(yè)的劣勢遇到威脅,應當采取保守的策略。例:如下表所示,根據(jù)某電商企業(yè)的內(nèi)外部因素進行策略分析。
優(yōu)勢(Strengths)劣勢(Weaknesses)機會(Opportunities)SO(發(fā)展)WO(爭取)1.結(jié)合市場情況,在自身開發(fā)能力的基礎上,找到明確的定位,增加消費者黏性,提高復購率2.提升消費者體驗3.開發(fā)更多新品迎合市場需求1.提升管理能力,讓指令可以上行下達2.合理使用ERP軟件進行管理,嚴格把控庫存?zhèn)}位3.設定良性競爭機制4.精準定位消費者人群5.制訂推廣方案,吸引更多新消費者威脅(Threats)ST(拓展)WT(保守)1.提升店鋪形象(口碑)2.開發(fā)團隊把控市場需求走向,規(guī)避同質(zhì)化3.結(jié)合公司的自主開發(fā),提升公司版權保護意識4.精準定位消費者1.保持店鋪的獨特風格,不被外界影響2.加強CRM管控描述性統(tǒng)計法Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilmtobeusedinawiderfieldPARTELEVEN描述性統(tǒng)計法是運用描述性統(tǒng)計指標對數(shù)據(jù)集進行研究,來源于統(tǒng)計學。在獲得數(shù)據(jù)集后,一般要對數(shù)據(jù)集進行觀察,了解數(shù)據(jù)集的字段、數(shù)據(jù)分布等。當數(shù)據(jù)指標較少時可選用圖形法進行直觀的觀察,數(shù)據(jù)指標較多時無法使用,此時需使用描述性統(tǒng)計法。本節(jié)以淘寶網(wǎng)某關鍵詞排名前5的商品數(shù)據(jù)為數(shù)據(jù)集,利用Excel工具實現(xiàn)指標計算。如圖所示,數(shù)據(jù)區(qū)域為A1:G6。排名售價銷售額評價人數(shù)DSR_物流分DSR_描述分DSR_服務分16801156001514.614.744.7623680629280164.984.984.98321803727809024.954.954.964218037496023634.924.934.94521993804279584.954.974.95淘寶某關鍵詞排名前5的商品數(shù)據(jù)1.五數(shù)概括法
五數(shù)概括法是指用五個指標反映數(shù)據(jù)集的分布情況,五個指標分別是最小值、1/4位數(shù)(Q1)、中位數(shù)(Q2)、3/4位數(shù)(Q3)和最大值。(1)最小值指數(shù)據(jù)集中最小的一個值。計算方法:在Excel中鍵入“=MIN([array])”,其中[array]為要進行計算的區(qū)域。例1:求上表中銷售額的最小值。解:在C7單元格中鍵入“=MIN(C2:C6)”,得到結(jié)果為:115600。(2)1/4位數(shù)指數(shù)據(jù)集中所有數(shù)值由小到大排列后第25%的數(shù)字。計算方法:在Excel中鍵入“=QUARTILE.INC([array],[quart])”,其中[array]為要進行計
算的區(qū)域,[quart]為要計算的指標,[quart]為1表示計算1/4位數(shù)。例2:求上表中銷售額的1/4位數(shù)。解:在C8單元格中鍵入“=QUARTILE.INC(C2:C6,1)”,得到結(jié)果為:244190。(3)中位數(shù)指數(shù)據(jù)集中所有數(shù)值由小到大排列后第50%的數(shù)字。計算方法:在Excel中鍵入“=QUARTILE.INC([array],[quart])”,其中[array]為要進行計算的區(qū)域,[quart]為要計算的指標,[quart]值為2表示計算中位數(shù)。例3:求前表中銷售額的中位數(shù)。解:在C9單元格中鍵入“=QUARTILE.INC(C2:C6,2)”,得到結(jié)果為:374960。(4)3/4位數(shù)指數(shù)據(jù)集中所有數(shù)值由小到大排列后第75%的數(shù)字。計算方法:在Excel中鍵入“=QUARTILE.INC([array],[quart])”,其中[array]為要進行計算的區(qū)域,[quart]為要計算的指標,[quart]值為3表示計算3/4位數(shù)。例4:求前表中銷售額的3/4位數(shù)。解:在C10單元格中鍵入“=QUARTILE.INC(C2:C6,3)”,得到結(jié)果為:504853.5。(5)最大值指數(shù)據(jù)集中最大的一個值。計算方法:在Excel中鍵入“=MAX([array])”,其中[array]為要進行計算的區(qū)域。例5:求前表中銷售額的最大值。解:在C11單元格中鍵入“=MAX(C2:C6)”,得到結(jié)果為:629280。五數(shù)概括法的計算結(jié)果如下表所示類型計算結(jié)果最小值1156001/4位數(shù)244190中位數(shù)3749603/4位數(shù)504853.5最大值629280如下圖所示,將這5個數(shù)值繪制成箱線圖,可以直觀地看到數(shù)據(jù)集的分布情況。
在某些場景下,為了分析的可靠性,會從數(shù)據(jù)集中抽取分布在1/4位數(shù)~3/4位數(shù)的數(shù)據(jù)作為觀測值,也就是分別將兩端的數(shù)據(jù)過濾掉,避免極端情況的影響。例如在計算行業(yè)平均銷售件數(shù)時,排除爆款群和銷量極低的產(chǎn)品,這樣計算出來的平均數(shù)更具有代表性,更接近于大多數(shù)的產(chǎn)品。
基于五數(shù)概括法繪制的箱線圖2.計數(shù)、匯總和平均值計數(shù)、匯總和平均值是最常用的描述性統(tǒng)計指標。(1)計數(shù)計數(shù)(Count)亦稱數(shù)數(shù),算術的基本概念之一,指數(shù)事物個數(shù)的過程。在統(tǒng)計指標中計數(shù)是指統(tǒng)計數(shù)值或者觀測值的數(shù)量。計算方法:在Excel中鍵入“=COUNT([array])”,其中[array]表示要進行計算的區(qū)域。例1:求右表中銷售額的計數(shù)。解:在C11單元格中鍵入“=COUNT(C2:C6)”,得到結(jié)果為:5。(2)匯總匯總是數(shù)據(jù)的求和。計算方法:在Excel中鍵入“=SUM([array])”,其中[array]表示要進行計算的區(qū)域。例2:求右表中銷售額的總數(shù)。解:在C11單元格中鍵入“=SUM(C2:C6)”,得到結(jié)果為:1873047。(3)平均值平均值是指算術平均值,又稱均值。計算方法:在Excel中鍵入“=AVERAGE([array])”,其中[array]表示要進行計算的區(qū)域。例3:求右表中銷售額的平均值。解:在C11單元格中鍵入“=AVERAGE(C2:C6)”,得到結(jié)果為:374609.4。3.標準差標準差是用于反映數(shù)據(jù)離散程度的指標。標準差又分總體標準差和樣本標準差,當數(shù)據(jù)是總體時采用總體標準差,如計算企業(yè)的所有產(chǎn)品的銷售額標準差,計算行業(yè)爆款的標準差則采用樣本標準差,如計算行業(yè)前10產(chǎn)品銷售額的標準差。總體標準差計算方法:在Excel中鍵入“=STDEV.P([array])”,其中[array]代表要進行計算的區(qū)域。樣本標準差計算方法:在Excel中鍵入“=STDEV.S([array])”,其中[array]代表要進行計算的區(qū)域。例:求下表中銷售額的標準差。解:先明確何為總體,如果標準差是要反映表2-22中5個產(chǎn)品的標準差,那這5個產(chǎn)品就是總體;如果用此標準差反應該品類的標準差,此時該品類的所有產(chǎn)品就是總體。本例求表中銷售額的標準差,不考慮整個品類,則用總體標準差,在C11單元格中鍵入“=STDEV.P(C2:C6)”,得到結(jié)果為:162468.6。4.變異系數(shù)變異系數(shù)和標準差一樣也是用于反映數(shù)據(jù)離散程度的指標,但不同的是變異系數(shù)不被數(shù)據(jù)量綱影響。公式為:變異系數(shù)=標準差/平均值例:求下表中銷售額的變異系數(shù)。解:在C11單元格中鍵入“=STDEV.P(C2:C6)/AVERAGE(C2:C6)”,得到結(jié)果為:0.433701。不同分組的變異系數(shù)可進行對比,數(shù)值越大離散程度則越大。數(shù)據(jù)標準化(指數(shù)化)Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilmtobeusedinawiderfieldPARTTWELVE在數(shù)據(jù)分析之前,通常需要先將數(shù)據(jù)標準化(Normalization),利用標準化后的數(shù)據(jù)進行數(shù)據(jù)分析,屬于數(shù)據(jù)清洗中的方法。數(shù)據(jù)標準化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標準化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標數(shù)據(jù)性質(zhì),使所有指標對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標準化的方法有很多種,常用的有“最小—最大(Min-Max)標準化”、“Z-score標準化”和“按小數(shù)定標標準化”等。經(jīng)過上述標準化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標測評值,即各指標值都處于同一個數(shù)量級別上,可以進行綜合測評分析。1.Min-Max標準化Min-Max標準化方法是對原始數(shù)據(jù)進行線性變換的方法。設MinA和MaxA分別為屬性A的最小值和最大值,將A的一個原始值x通過Min-Max標準化映射成在區(qū)間[0,1]中的值x',其公式為:新數(shù)據(jù)=(原數(shù)據(jù)-最小值)/(最大值-最小值)例:采用Min-Max標準化方法將下表的數(shù)據(jù)標準化。產(chǎn)品訪客數(shù)支付轉(zhuǎn)化率客單價A766312.92%40.92B615614.38%26.45C25623.44%238.65D24459.65%55.77E18814.94%106.69解:產(chǎn)品B的新訪客數(shù)映射到(6156-256)/(7663-256),其中,6156是產(chǎn)品B原訪客數(shù),256是訪客數(shù)中最小的值,7663是訪客數(shù)中最大的值。如下圖所示為Excel中的公式:=(B2-MIN(B$2:B$6))/(MAX(B$2:B$6)-MIN(B$2:B$6))其中,“$”表示絕對引用,在列名前加“$”表示對列絕對引用,在行號前加“$”表示對行絕對引用。
在Excel中運用min-max的公式2.Z-score標準化Z-score是指基于原始數(shù)據(jù)的平均值(Mean)和標準差(StandardDeviation)進行數(shù)據(jù)的標準化。將A的原始值x使用Z-score標準化到x'。Z-score是指標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況,其公式為:新數(shù)據(jù)=(原數(shù)據(jù)-平均值)/標準差例:采用Z-score標準化方法將表2-24的數(shù)據(jù)標準化。解:產(chǎn)品B的新訪客數(shù)為(6156-3680.2)/2774.18,其中,6156是產(chǎn)品B的訪客數(shù),3680.0是訪客數(shù)的平均值,2771.18是訪客數(shù)的總體標準差。右圖所示Excel中的公式為:“=(B2-AVERAGE(B$2:B$6))/STDEV.P(B$2:B$6)”。
在Excel中運用z-score的公式感謝觀看數(shù)據(jù)分析方法論2.1基本方法&2.2高級方法熵值法CONTENTS漏斗分析法矩陣分析法多維分析法相關性分析法杜邦分析法時間序列分析法18131415161719熵值法PARTThirteen熵值法源自信息學科,廣泛應用于對數(shù)據(jù)集的離散程度評估,也可用于估算權重從而計算綜合得分。1.原理
在信息論中,熵是對不確定性的一種度量。信息量越大,不確定性就越小,熵也就越小;信息量越小,不確定性就越大,熵也就越大。根據(jù)熵的特性,可以通過計算熵值來判斷一個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指標對綜合評價的影響越大。因此,可根據(jù)各項指標的變異程度,利用信息熵計算各指標的權重,為多指標綜合評價提供依據(jù)。2.計算例2-25:表2-25是3個產(chǎn)品測試時的數(shù)據(jù),使用熵值法對產(chǎn)品的表現(xiàn)進行綜合評估并排名。解:本例有3個款式的產(chǎn)品可供選擇,每個款式的產(chǎn)品有3個屬性,由于3個屬性的量綱不同,因此需要用熵值法求出各屬性的權重以及在產(chǎn)品中的貢獻度。設產(chǎn)品總量為m,得分為x,產(chǎn)品序號為i,屬性序號為j。
將表2-25轉(zhuǎn)變成p矩陣,如表2-26所示,p為數(shù)值與各列之和的商,pij=xij÷∑xij。將p值乘以ln(p)得到各個評分的貢獻度,Eij=pij×ln(pij),得到表2-27所示的E矩陣。根據(jù)k=1÷ln(m),其中m為產(chǎn)品總量,此例m=3,計算得k=0.910239。根據(jù)以下3個公式,計算出的結(jié)果如表2-28所示。貢獻總量E=k×∑p一致性程度D=1-E權重W=D÷∑D由于得分的量綱不同,先使用Min-Max標準化方法,將值轉(zhuǎn)換成[0,1]區(qū)間的數(shù)值,再用每個屬性的得分乘以權重值W后相加得到綜合得分,綜合得分落在[0,1]區(qū)間,如表2-29所示。漏斗分析法PARTFourteen漏斗分析法是結(jié)合了流程分析的方法,更強調(diào)事件的發(fā)展過程,按照事件發(fā)展的過程分析問題,屬于數(shù)據(jù)分析中的方法。它能夠科學地反映用戶行為狀態(tài),以及從起點到終點各階段用戶轉(zhuǎn)化率的情況,是數(shù)據(jù)分析中重要的分析模型。
目前,漏斗分析法已經(jīng)廣泛應用于網(wǎng)站用戶行為分析和App用戶行為分析的流量監(jiān)控、產(chǎn)品目標轉(zhuǎn)化等日常數(shù)據(jù)運營與數(shù)據(jù)分析工作中。圖2-10所示為淘寶生意參謀的交易漏斗圖,從訪客到下單,再到支付,可運用漏斗分析法在這個過程中洞察問題。漏斗分析法分析步驟漏斗分析法的一般操作步驟如下。①確定業(yè)務流程,各個環(huán)節(jié)的量綱必須一致。②確定數(shù)據(jù)。③畫圖。例2-26:現(xiàn)有用戶交易過程的數(shù)據(jù)如圖2-11所示,使用Excel畫出數(shù)據(jù)集的漏斗圖。解:設置各環(huán)節(jié)數(shù)據(jù)表格,注意量綱必須一致。選中數(shù)據(jù),在【插入】選項卡中選擇【漏斗圖】選項,如圖2-12所示。創(chuàng)建漏斗圖并設置好圖表標題后的效果如圖2-13所示。右擊漏斗圖,在彈出的快捷菜單中選擇【設置數(shù)據(jù)系列格式(F)】命令,在【設置數(shù)據(jù)系列】窗格中,將間隙寬度設置為50%,如圖2-14所示。在【插入】選項卡中選擇【形狀】選項,如圖2-15所示,選擇【下箭頭】。圖2-16所示為在漏斗圖中添加下箭頭后的效果。在【插入】選項卡中選擇【文本框】選項,如圖2-17所示,在箭頭旁插入文本框?!靖袷健窟x項卡中,將文本框的形狀和邊框都設置為無填充,如圖2-18所示。設置好的漏斗圖如圖2-19所示。添加從瀏覽商品到完成交易的轉(zhuǎn)化率,最終效果如圖2-20所示。通過圖2-20可以發(fā)現(xiàn),整個流程中最大的問題出現(xiàn)在“加入購物車”這個環(huán)節(jié),運營人員可重點優(yōu)化這個環(huán)節(jié)。矩陣分析法PARTFifteen矩陣分析法是從交叉法演變而來的,和交叉法最大的區(qū)別是矩陣法的兩個軸是維度,不是度量。在低維(二維~三維)時可以使用該方法,它屬于數(shù)據(jù)分析方法。其原理是在矩陣圖的基礎上,把各因素分別放在行和列中,然后在行和列的交叉點用數(shù)量來描述這些因素之間的對比,再進行數(shù)量計算,并進行定量分析,從而確定哪些因素比較重要。矩陣分析思維矩陣分析思維是指通過對原始感性材料進行矩陣般的分析與規(guī)整,形成全面、系統(tǒng)、嚴謹、專業(yè)并具有很強邏輯性和關聯(lián)性的理性思想,從而有助于形成正確思考、研究、決策等高層次思維的思想方法,這是一種縱橫交叉的邏輯研究方法。此思維被廣泛應用,比如在工程管理上將各種任務分為重要并緊急、重要不緊急、不重要緊急和不重要不緊急這4類,4類任務分別在矩陣圖的4個象限。SWOT分析法,也是矩陣分析思維的一種應用。創(chuàng)建矩陣創(chuàng)建矩陣至少需要兩個維度,每個維度有N個交點,因此兩個維度形成(N+1)×(N+1)的二維平面圖。以N=1為例,形成2×2=4的二維平面圖,也稱為四象限分析法。例2-27:表2-30所示為某店鋪5個產(chǎn)品的表現(xiàn)數(shù)據(jù),用矩陣分析法分析數(shù)據(jù)。解:用矩陣分析法分析數(shù)據(jù)的步驟如下。①在Excel中選中支付金額和訪客平均價值,創(chuàng)建散點圖。②根據(jù)兩個指標的平均值設置x軸和y軸的交點。③基于(20262.62,15.14)劃分4個坐標區(qū)域,每個數(shù)據(jù)點代表一個產(chǎn)品,分布在4個區(qū)域內(nèi),如圖2-21所示。定義矩陣繪制矩陣圖需根據(jù)畫圖的兩個維度對矩陣進行定義,因此理解指標背后所代表的業(yè)務意義,是矩陣分析法的關鍵。支付金額代表產(chǎn)品的市場份額,訪客平均價值代表流量價值。添加定義后的矩陣如圖2-22所示,定義如下。(1)右上角的區(qū)域市場份額和流量價值都較高,可定義該區(qū)域的產(chǎn)品為企業(yè)的核心產(chǎn)品??蓪①Y源重點放在B產(chǎn)品上,通過市場推廣和營銷提高B產(chǎn)品的市場份額。(2)右下角的區(qū)域市場份額較高,但流量價值較低,可定義該區(qū)域的產(chǎn)品為企業(yè)的引流產(chǎn)品。需要維持A產(chǎn)品的市場份額,在其生命周期內(nèi)保持引流能力。(3)左上角的區(qū)域流量價值較高,但市場份額較低,可定義該區(qū)域的產(chǎn)品為企業(yè)的重點發(fā)展產(chǎn)品或利潤產(chǎn)品。需要為C產(chǎn)品引入更多的流量,以測試市場對該產(chǎn)品的反饋。(4)左下角的區(qū)域市場份額和流量價值都較低,可定義該區(qū)域的產(chǎn)品為企業(yè)的問題產(chǎn)品??上戮€E產(chǎn)品和D產(chǎn)品或?qū)產(chǎn)品和D產(chǎn)品進行重新定位。矩陣具有運動的特性,分布在不同區(qū)間的點會隨著時間的推移而移動,而這種移動是有規(guī)律可循的,如圖2-23所示。隨著需求的增長,低市場份額、高流量價值的市場就會轉(zhuǎn)變成高市場份額、高流量價值的市場;隨著競爭的加劇,高市場份額、高流量價值的市場就會轉(zhuǎn)變成高市場份額、低流量價值的市場;隨著產(chǎn)品生命周期的結(jié)束,高市場份額、低流量價值的市場就會轉(zhuǎn)變成低市場份額、低流量價值的市場;此時需要對市場進行重新定位,重新定位后會重新轉(zhuǎn)變成低市場份額、高流量價值的市場。一個優(yōu)秀的產(chǎn)品必然具有高流量價值,隨著時間的推移市場份額會越來越大,市場份額大到一定程度,市場的競爭對手會急劇增加,此時流量價值會逐漸下降,隨著產(chǎn)品生命周期的結(jié)束,最終產(chǎn)品將會退市多維分析法PARTSixteen多維分析法多維分析法是分析多個指標的方法。在許多復雜的業(yè)務場景下,降維后仍存在多個指標,對多個維度進行分析的方法就是多維分析法。多維分析法同樣局限于四維空間,一般采用二維平面圖進行展示。1.三維氣泡圖三維氣泡圖并非真正的三維圖形,而是在二維平面圖上展示3個維度,比一般的二維圖形展現(xiàn)更多的信息。例2-28:表2-31所示為某店鋪產(chǎn)品數(shù)據(jù),用氣泡圖展現(xiàn)數(shù)據(jù)。解:在Excel中選中訪客數(shù)、支付轉(zhuǎn)化率和客單價,創(chuàng)建氣泡圖。x軸為訪客數(shù),y軸為支付轉(zhuǎn)化率,氣泡大小為客單價,如圖2-24所示。2.雷達圖雷達圖是以從同一點開始的軸上表示的3個或更多個定量、變量的,以二維圖表的形式顯示多變量數(shù)據(jù)的圖形方法,其軸的相對位置和角度通常是無信息的。雷達圖也稱為網(wǎng)絡圖、蜘蛛網(wǎng)圖、星圖、不規(guī)則多邊形、極坐標圖或Kiviat圖。它相當于平行坐標圖,坐標軸徑向排列。例2-29:表2-31所示為某店鋪產(chǎn)品數(shù)據(jù),用雷達圖展現(xiàn)數(shù)據(jù)。解:使用Min-Max標準化方法將表2-31的數(shù)據(jù)標準化,繪制出表2-32。在Excel中選中表2-32的產(chǎn)品、訪客數(shù)、支付轉(zhuǎn)化率和客單價,創(chuàng)建雷達圖。選中雷達圖,在【圖表工具】的【設計】選項卡中,選擇【切換行/列】選項,效果如圖2-25所示。時間序列分析法PARTSeventeen時間序列分析法,強調(diào)的是通過對某個事物或事件進行一定時間段內(nèi)的連續(xù)觀測,并對數(shù)據(jù)進行統(tǒng)計。采用時間序列分析法研究數(shù)據(jù)的變化和發(fā)展規(guī)模,廣泛應用于數(shù)據(jù)挖掘領域1.移動平均法移動平均法是用一組最近的實際數(shù)據(jù)值來預測未來一期或幾期內(nèi)公司產(chǎn)品的需求量、公司產(chǎn)能等的常用方法。移動平均法適用于近期預測。當產(chǎn)品需求既不快速增長也不快速下降,且不存在季節(jié)性因素時,移動平均法能有效地消除預測中的隨機波動。移動平均法根據(jù)預測時使用的各元素的權重不同,可以分為簡單移動平均法和加權移動平均法。(1)簡單移動平均法。簡單移動平均法的各元素的權重都相等。簡單移動平均法的計算公式為:Ft=[(At-1)+(At-2)+(At-3)+…+(At-n)]/n其中:Ft——對下一期的預測值;n——移動平均的時期個數(shù);At-1——前期實際值;At-2、At-3和At-n分別表示前兩期、前3期直至前n期的實際值。例2-30:表2-33是某店鋪2022年10月26日—2022年11月4日的店鋪訪客數(shù)真實數(shù)據(jù),采用簡單移動平均法預測2022年11月2日—2022年11月4日的訪客數(shù)據(jù)。其中表2-33的第8行到第10行為驗證數(shù)據(jù),用于驗證預測結(jié)果。解:在電商的數(shù)據(jù)體系中,存在一些常用的時間范圍節(jié)點,如近3天、近7天、近14天、近30天等。在正常的流量(非活動)下,當天的流量主要受當天前n個小時、近3天、近7天數(shù)據(jù)的影響。在以天為單位預測數(shù)據(jù)時,可選擇近3天或近7天的數(shù)據(jù),本例以近7天為例。將數(shù)據(jù)對應填入Excel中,在D9單元格輸入公式“=AVERAGE(C2:C8)”,然后將公式填充到D10和D11。2022年11月2日和2022年11月3日的預測結(jié)果與真實數(shù)值較為接近,如圖2-26所示。(2)加權移動平均法。加權移動平均法給固定跨越期限內(nèi)的每個變量值以不同的權重。其原理是:歷史各期產(chǎn)品需求的數(shù)據(jù)信息對預測未來期內(nèi)需求量的作用是不一樣的。除了以n為周期的周期性變化外,遠離目標期的變量值的影響力相對較低,故應給予較低的權重。加權移動平均法的計算公式為:其中:w1——第t-1期實際銷售額的權重;w2——第t-2期實際銷售額的權重;wn——第t-n期實際銷售額的權重;n——預測的時期數(shù),w1+w2+…+wn=1。在運用加權移動平均法時,權重的選擇是一個值得注意的問題。經(jīng)驗法和試算法是選擇權重較為簡單的兩種方法。一般而言,離日期最近的數(shù)據(jù)最能準確預測未來的情況,因而權重應大些。例如,前一個月的利潤和生產(chǎn)能力比前幾個月的數(shù)據(jù)能更好地估測下個月的利潤和生產(chǎn)能力。但是,如果數(shù)據(jù)是季節(jié)性的,則權重也應是季節(jié)性的。例2-31:使用加權移動平均法預測表2-33所示的數(shù)據(jù)。解:根據(jù)業(yè)務經(jīng)驗,雖然近7天是一個整體,但也可以分成近3天和3天之前,近3天的數(shù)據(jù)權重相對較大,系數(shù)可設為0.6;3天之前的數(shù)據(jù)權重相對較低,系數(shù)可設為0.4。將表2-33中數(shù)據(jù)填至一個新的Excel表格中,在D9單元格輸入公式“=0.4×AVERAGE(C2:C5)+0.6×AVERAGE(C6:C8)”。在D10單元格輸入公式“=0.4×AVERAGE(C3:C6)+0.6×AVERAGE(C7:C8,D9)”。在D11單元格輸入公式“=0.4×AVERAGE(C4:C7)+0.6×AVERAGE(C8,D9:D10)”。預測結(jié)果如圖2-27所示,預測結(jié)果的誤差并沒有明顯提高,說明訪客數(shù)受影響的因素較多。除了使用時間序列分析法之外,還可以通過其他方法預測并進行修正。2.指數(shù)平滑法指數(shù)平滑法實際上是一種特殊的加權移動平均法。指數(shù)平滑法進一步加強了觀察期內(nèi)近期觀察值對預測值的作用,對不同時間的觀察值所賦予的權重不同,加大了近期觀察值的權重,使預測值能夠迅速反映市場實際的變化。根據(jù)平滑次數(shù)的不同,指數(shù)平滑法可以分為一次指數(shù)平滑法、二次指數(shù)平滑法、高次指數(shù)平滑法。(1)一次指數(shù)平滑法當時間序列無明顯的變化趨勢時,可用一次指數(shù)平滑法。其公式為:其中:指數(shù)平滑法初始值的確定需要從時間序列的項數(shù)來考慮:若時間序列的觀察期n大于15,初始值對預測結(jié)果的影響很小,可以以第一期觀測值作為初始值;若觀察期n等于15,初始值對預測結(jié)果影響較大,則取最初幾期觀測值的平均數(shù)作為初始值,通常取前3期。一次指數(shù)平滑法的局限性:一次指數(shù)平滑法只適用于水平型歷史數(shù)據(jù)的預測,不適用于呈斜坡型線性趨勢歷史數(shù)據(jù)的預測。(2)二次指數(shù)平滑法二次指數(shù)平滑法是在一次指數(shù)平滑的基礎上再進行一次平滑。它不能單獨進行預測,必須與一次指數(shù)平滑法配合,建立預測的數(shù)學模型,然后運用數(shù)學模型確定預測值。預測公式為:(3)高次指數(shù)平滑預測法高次指數(shù)平滑預測法是一種使用多個指數(shù)平滑系數(shù)進行預測的方法,通常使用二次指數(shù)平滑或者三次指數(shù)平滑。這種方法在預測時考慮了更多的歷史數(shù)據(jù),能夠更準確地捕捉到趨勢和季節(jié)性的變化。若時間序列的變動呈現(xiàn)二次曲線趨勢,則需采用三次指數(shù)平滑法進行預測。三次指數(shù)平滑法是在二次指數(shù)平滑的基礎上再進行一次平滑。預測公式為:例2-32:使用指數(shù)平滑法預測表2-33中的數(shù)據(jù)。解:預測的期數(shù)為3,觀察值為7,由于觀察值過少,故使用一次指數(shù)平滑法。將表2-33的數(shù)填入一個新的Excel表格中,阻尼系數(shù)先設定為0.3,如圖2-28所示。初始值為前3個觀測值的平均值,即在C4單元格輸入公式“=AVERAGE(B2:B4)”。從第4個觀測值開始預測,即在C5單元格輸入公式“=$B$2×C2+(1-$B$2)×D4”。將公式一直填充到C11單元格,如圖2-29所示??梢詫㈩A測的值跟真實值進行對比,算出誤差并通過調(diào)整阻尼系數(shù)對比誤差的大小,從而確定阻尼系數(shù)。相關性分析法PARTEighteen
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣西玉林市陸川中學2025屆高三化學試題2月份考試卷含解析
- 2025年河北省石家莊二中高三第一次質(zhì)量調(diào)研(一模)物理試題含解析
- 甘肅省鎮(zhèn)原縣第二中學2025屆高考生物試題原創(chuàng)模擬卷(三)含解析
- 廣州科技貿(mào)易職業(yè)學院《供熱綜合課程設計B》2023-2024學年第一學期期末試卷
- 汕頭大學《眼應用光學基礎》2023-2024學年第一學期期末試卷
- 河南省新密市重點達標名校2025年中考英語試題命題比賽模擬試卷(12)含答案
- DB15T 3623-2024飼用谷子青貯技術規(guī)程
- DB15T 3511-2024大棚四膜覆蓋薄皮甜瓜-番茄促早延后高效栽培技術規(guī)程
- 機床行業(yè)綠色制造與環(huán)境保護政策導向研究考核試卷
- 水產(chǎn)批發(fā)市場信息化建設考核試卷
- 大學生職業(yè)發(fā)展與就業(yè)指導(仁能達教育科技公司)學習通測試及答案
- 2025年境外投資融資顧問服務合同范本3篇
- 2024-2025學年人教新目標英語八年級下冊期末綜合檢測卷(含答案)
- 331金屬晶體課件高二化學人教版選擇性必修2
- 礦山礦石采購合同模板
- 2024年浪潮數(shù)字企業(yè)技術有限公司社會招聘(105人)筆試核心備考題庫及答案解析
- 第47屆世界技能大賽江蘇省選拔賽競賽技術文件-混凝土建筑項目
- 國開2024年《數(shù)據(jù)庫運維》形考1-3
- 勞動合同(模版)4篇
- 137案例黑色三分鐘生死一瞬間事故案例文字版
- 藥物研發(fā)監(jiān)管的國際協(xié)調(diào)
評論
0/150
提交評論