版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章商務(wù)數(shù)據(jù)分析概述目錄1、數(shù)據(jù)分析與商務(wù)數(shù)據(jù)分析的定義2、思維方法3、分析流程4、統(tǒng)計(jì)學(xué)基本概念1數(shù)據(jù)分析與商務(wù)數(shù)據(jù)分析的定義1.1數(shù)據(jù)分析的定義1.2商務(wù)數(shù)據(jù)分析的定義1.1數(shù)據(jù)分析的定義
簡(jiǎn)單地說,數(shù)據(jù)分析指對(duì)大量數(shù)據(jù)進(jìn)行整理后,利用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法和分析工具,對(duì)處理過的數(shù)據(jù)進(jìn)行分析,形成有效結(jié)論的過程。數(shù)據(jù)分析的結(jié)果呈現(xiàn)往往是一個(gè)個(gè)數(shù)據(jù)或一張數(shù)據(jù)表。
數(shù)據(jù)分析多是通過軟件來完成的。這就要求我們不僅要掌握各種數(shù)據(jù)分析的原理和方法,還要熟悉分析軟件的操作。1.2商務(wù)數(shù)據(jù)分析的定義商務(wù)數(shù)據(jù)分析是基于盈利目的,將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)問題,有目的地對(duì)數(shù)據(jù)進(jìn)行收集、整理、加工和分析,將隱藏在數(shù)據(jù)背后的信息提煉出來,并加以概括總結(jié)的過程。商務(wù)數(shù)據(jù)分析的結(jié)果需要回歸到實(shí)際業(yè)務(wù)中解讀。商務(wù)數(shù)據(jù)分析流程主要包括明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展示和撰寫報(bào)告等環(huán)節(jié)。
案例:某公司新入職兩位數(shù)據(jù)分析專員———張三和李四,某日領(lǐng)導(dǎo)給了他們一份數(shù)據(jù)集(該公司電商購(gòu)物數(shù)據(jù)),并讓他們做個(gè)報(bào)告。其中,張三對(duì)著這個(gè)數(shù)據(jù)集直接計(jì)算RFM三個(gè)指標(biāo),并將三個(gè)指標(biāo)切成五段,做個(gè)k均值聚類,分成四類。然后,直接將結(jié)果發(fā)給領(lǐng)導(dǎo);而李四先拿著數(shù)據(jù)去咨詢銷售部、市場(chǎng)部、運(yùn)營(yíng)部等各部門負(fù)責(zé)人,了解數(shù)據(jù)背后的業(yè)務(wù)邏輯,將業(yè)務(wù)理順之后,運(yùn)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、算法等分析手段,計(jì)算出RFM聚類模型,再與具體商業(yè)環(huán)境結(jié)合,解釋最終的結(jié)果。對(duì)于張三而言,他的行為是放大了商務(wù)數(shù)據(jù)分析中的“分析”,忽視,甚至無視“商務(wù)”的結(jié)果,所以他只能是數(shù)據(jù)分析師;而李四先將商務(wù)問題轉(zhuǎn)化為數(shù)據(jù)報(bào)表,得出結(jié)果之后再應(yīng)用到實(shí)際的商務(wù)環(huán)境中,是一名合格的商務(wù)數(shù)據(jù)分析師。。2思維方法2.1
對(duì)比法2.2
分類法2.3
漏斗法2.4
閉環(huán)法2.1對(duì)比法對(duì)比法就是將兩組或兩組以上的數(shù)據(jù)進(jìn)行比較的方法,是最通用的方法。
我們知道,孤立的數(shù)據(jù)沒有意義,有對(duì)比才有差異。一些直接描述事物的變量,如長(zhǎng)度、數(shù)量、高度、寬度等,通過對(duì)比得到比率數(shù)據(jù),如增速、效率、效益等指標(biāo),這樣的數(shù)據(jù)才是數(shù)據(jù)分析時(shí)常用的。
比如用于在時(shí)間維度上的同比和環(huán)比、增長(zhǎng)率、定基比,與競(jìng)爭(zhēng)對(duì)手的對(duì)比、類別之間的對(duì)比、特征和屬性對(duì)比等。使用對(duì)比法可以發(fā)現(xiàn)數(shù)據(jù)變化規(guī)律,使用頻繁,經(jīng)常和其他方法搭配使用。在圖11所示的A、B兩公司銷售額對(duì)比中,雖然A公司銷售額總體上漲且高于B公司,但是B公司的增速迅猛,高于A公司,即使后期增速下降了,最后的銷售額還是超過了A公司。圖1-1AB公司銷售額分析2.2分類法客戶分群、產(chǎn)品歸類、市場(chǎng)分級(jí)、績(jī)效評(píng)價(jià)……許多事情都需要有分類的思維。主管拍腦袋也可以分類,通過機(jī)器學(xué)習(xí)算法也可以分類,那么許多人就模糊了,到底分類法怎么應(yīng)用呢?關(guān)鍵點(diǎn)在于,分類后的事物需要在核心指標(biāo)上能拉開距離。也就是說,分類后的結(jié)果,必須是顯著的。如圖12所示,橫軸和縱軸往往是運(yùn)營(yíng)當(dāng)中關(guān)注的核心指標(biāo)(當(dāng)然不限于二維),而分類后的對(duì)象,其分布不是隨機(jī)的,而是有顯著的集群的傾向。假設(shè)圖1-2反映了某個(gè)消費(fèi)者分群的結(jié)果,橫軸代表購(gòu)買頻率,縱軸代表客單價(jià),那么顏色最深的這群人,就是明顯的“人傻錢多”的“剁手金牌客戶”。圖1-2消費(fèi)者分群示例圖2.3漏斗法漏斗法即漏斗圖,有點(diǎn)像倒金字塔,是一個(gè)流程化的思考方式,常用于新用戶的開發(fā)、購(gòu)物轉(zhuǎn)化率這些有變化和一定流程的分析。漏斗模型的核心思想其實(shí)可以歸為分解和量化。比如分析電商的轉(zhuǎn)化,我們要做的就是監(jiān)控每個(gè)層級(jí)上用戶的轉(zhuǎn)化情況,尋找每個(gè)層級(jí)的可優(yōu)化點(diǎn)。對(duì)于沒有按照流程操作的用戶,專門繪制他們的轉(zhuǎn)化模型,縮短路徑以提升用戶體驗(yàn)。不過,單一的漏斗法是沒有用的,不能得出什么結(jié)果,要與其他方法相結(jié)合,如對(duì)比法等。圖1-3是經(jīng)典的營(yíng)銷漏斗圖,它形象地展示了從挑選商品到最終購(gòu)買商品這整個(gè)流程中的一個(gè)個(gè)子環(huán)節(jié)。相鄰環(huán)節(jié)的轉(zhuǎn)化率就是指用數(shù)據(jù)指標(biāo)來量化每一個(gè)步驟的表現(xiàn)。所以整個(gè)漏斗模型就是先將整個(gè)購(gòu)買流程拆分成一個(gè)個(gè)步驟,然后用轉(zhuǎn)化率來衡量每一個(gè)步驟的表現(xiàn),最后通過異常的數(shù)據(jù)指標(biāo)找出有問題的環(huán)節(jié),從而解決問題,優(yōu)化該步驟,最終達(dá)到提升整體購(gòu)買轉(zhuǎn)化率的目的。圖1-3營(yíng)銷漏斗圖2.3閉環(huán)法閉環(huán)的概念可以引申到很多場(chǎng)景中,比如業(yè)務(wù)流程閉環(huán)、用戶生命周期閉環(huán)、產(chǎn)品功能使用閉環(huán)、市場(chǎng)推廣策略閉環(huán)等。閉環(huán)法如圖1-4所示。圖1-4閉環(huán)法示例圖比如,一家軟件公司的典型業(yè)務(wù)流:推廣行為(市場(chǎng)部)→流量進(jìn)入主站(市場(chǎng)+產(chǎn)研)→注冊(cè)流程(產(chǎn)研)→試用體驗(yàn)(產(chǎn)研+銷售)→進(jìn)入采購(gòu)流程(銷售部)→交易并部署(售后+產(chǎn)研)→使用、續(xù)約、推薦(售后+市場(chǎng))→推廣行為。一個(gè)閉環(huán)下來,各個(gè)銜接環(huán)節(jié)的指標(biāo)就值得關(guān)注了:廣告點(diǎn)擊率→注冊(cè)流程進(jìn)入率→注冊(cè)轉(zhuǎn)化率→試用率→銷售各環(huán)節(jié)轉(zhuǎn)化率→付款率→推薦率/續(xù)約率……這里會(huì)涉及漏斗思維,如前文所述,千萬(wàn)不要用一個(gè)漏斗來衡量一個(gè)循環(huán)。有了閉環(huán)思維,能比較快地建立有邏輯關(guān)系的指標(biāo)體系。3分析流程3.1需求分析3.2數(shù)據(jù)收集3.3數(shù)據(jù)處理3.4
數(shù)據(jù)分析3.5數(shù)據(jù)呈現(xiàn)3.5報(bào)告撰寫3.1需求分析首先要明確數(shù)據(jù)分析的目的,只有明確目的,數(shù)據(jù)分析才不會(huì)偏離方向,否則得出的數(shù)據(jù)分析結(jié)果沒有指導(dǎo)意義。當(dāng)分析目的明確后,我們需要對(duì)思路進(jìn)行梳理,并搭建分析框架,然后把分析目的分解成若干個(gè)不同的分析要點(diǎn),也就是說,要明確:該如何具體開展數(shù)據(jù)分析?需要從哪幾個(gè)角度進(jìn)行分析?采用哪些分析指標(biāo)?采用哪些邏輯思維?運(yùn)用哪些理論依據(jù)?明確數(shù)據(jù)分析目的并確定分析思路,是確保數(shù)據(jù)分析過程有效進(jìn)行的先決條件,它可以為數(shù)據(jù)收集、處理及分析提供清晰的方向。數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析框架,收集相關(guān)數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供了素材和依據(jù)。這里的數(shù)據(jù)包括一手?jǐn)?shù)據(jù)與二手?jǐn)?shù)據(jù)。一手?jǐn)?shù)據(jù)是指通過訪談、詢問、問卷、測(cè)定等方式直接獲得的數(shù)據(jù),因此一手?jǐn)?shù)據(jù)也稱原始數(shù)據(jù)。其優(yōu)點(diǎn)有:可以回答二手?jǐn)?shù)據(jù)不能回答的具體問題;更加及時(shí)和可信;保密性更強(qiáng)(一手?jǐn)?shù)據(jù)是公司自己收集的,是屬于公司的,便于保密)。二手?jǐn)?shù)據(jù)是指通過網(wǎng)絡(luò)、媒介、統(tǒng)計(jì)機(jī)構(gòu)等獲取的經(jīng)過加工整理后的數(shù)據(jù)。它是相對(duì)于原始數(shù)據(jù)而言的,指那些并非為正在進(jìn)行的研究而是為其他目的已經(jīng)收集好的統(tǒng)計(jì)資料。因此,二手?jǐn)?shù)據(jù)也稱為次級(jí)數(shù)據(jù)。其優(yōu)點(diǎn)有:成本低、易獲取,能為進(jìn)一步原始數(shù)據(jù)的收集奠定基礎(chǔ)等。3.2數(shù)據(jù)收集獲取一手?jǐn)?shù)據(jù)的方法有調(diào)查法、實(shí)驗(yàn)法、報(bào)告法和自動(dòng)生成法。1.調(diào)查法調(diào)查法可細(xì)分為現(xiàn)場(chǎng)調(diào)查法和訪問調(diào)查法。(1)現(xiàn)場(chǎng)調(diào)查法是指調(diào)查人員憑借自己的眼睛或借助攝錄像器材,在調(diào)查現(xiàn)場(chǎng)直接記錄正在發(fā)生的市場(chǎng)行為或狀況的一種有效的收集資料的方法。其特點(diǎn)為被調(diào)查者是在不知情的情況下被調(diào)查的。(2)訪問調(diào)查法是指通過對(duì)調(diào)查者提問,根據(jù)被調(diào)查者的答復(fù)取得資料的一種調(diào)查方法。其特點(diǎn)為資料準(zhǔn)確、全面,但是實(shí)施起來需要較高的人力成本。訪問調(diào)查法可細(xì)分為:直接訪問法、堵截訪問法、電話訪問法、固定樣本調(diào)查法。2.實(shí)驗(yàn)法實(shí)驗(yàn)法是指將調(diào)查對(duì)象放在統(tǒng)一條件下進(jìn)行實(shí)驗(yàn)以獲得所需數(shù)據(jù)的方法。3.報(bào)告法報(bào)告法是指調(diào)查單位或報(bào)告單位利用各種原始記錄、基層統(tǒng)計(jì)臺(tái)賬和有關(guān)核算資料作為報(bào)告依據(jù),按照隸屬關(guān)系,逐級(jí)向有關(guān)部門提供統(tǒng)計(jì)資料的方法。我國(guó)在全國(guó)范圍內(nèi)實(shí)施的統(tǒng)計(jì)報(bào)表制度,就是用這種方法來取得資料的。這種調(diào)查是各地區(qū)、各部門、各單位按照《統(tǒng)計(jì)法》的規(guī)定,必須對(duì)國(guó)家履行的一種義務(wù)。其特點(diǎn)有:具有統(tǒng)一項(xiàng)目、統(tǒng)一表式、統(tǒng)一要求和統(tǒng)一上報(bào)程序;能夠進(jìn)行大量調(diào)查;如果報(bào)告系統(tǒng)健全,原始記錄和核算資料完整,就可以取得比較精確而可靠的資料;可以促進(jìn)被調(diào)查單位建立健全原始記錄和核算資料;在被調(diào)查單位的有關(guān)利益可能受到影響時(shí),容易出現(xiàn)虛報(bào)或瞞報(bào)現(xiàn)象。4. 自動(dòng)生成法自動(dòng)生成法是指用傳感器、攝像頭等自動(dòng)收集數(shù)據(jù)的方法。電子商務(wù)在線交易日志數(shù)據(jù)、應(yīng)用服務(wù)器日志數(shù)據(jù)和自動(dòng)保存的數(shù)據(jù)都是自動(dòng)生成的數(shù)據(jù)。獲取二手?jǐn)?shù)據(jù)的渠道主要有兩類:企業(yè)內(nèi)部和企業(yè)外部。企業(yè)內(nèi)部可獲取的數(shù)據(jù)有:營(yíng)銷資料(不同產(chǎn)品、時(shí)期、顧客、分銷渠道的銷售記錄及市場(chǎng)占有率等)、業(yè)務(wù)資料(訂貨單、進(jìn)貨單、發(fā)貨單、銷售記錄等)、統(tǒng)計(jì)資料(統(tǒng)計(jì)報(bào)表、企業(yè)銷售、庫(kù)存等數(shù)據(jù)資料)、財(cái)務(wù)資料(財(cái)務(wù)報(bào)表、會(huì)計(jì)核算、產(chǎn)品價(jià)格、成本等資料)、顧客資料(顧客檔案、服務(wù)記錄、退貨信息等)。企業(yè)外部指互聯(lián)網(wǎng)、行業(yè)協(xié)會(huì)和商會(huì)、政府機(jī)構(gòu)、新聞媒體、調(diào)研機(jī)構(gòu)和公司、消費(fèi)者組織等。數(shù)據(jù)處理是指對(duì)采集到的數(shù)據(jù)進(jìn)行加工整理,形成適合數(shù)據(jù)分析的樣式,保證數(shù)據(jù)的一致性和有效性的過程。它是數(shù)據(jù)分析前必不可少的階段。數(shù)據(jù)處理的基本目的是從大量的、雜亂無章、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)解決問題有價(jià)值、有意義的數(shù)據(jù)。如果數(shù)據(jù)本身存在錯(cuò)誤,那么即使采用先進(jìn)的數(shù)據(jù)分析方法,得到的結(jié)果也是錯(cuò)誤的,不具備任何參考價(jià)值,甚至還會(huì)誤導(dǎo)決策。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)抽取、數(shù)據(jù)合并、數(shù)據(jù)計(jì)算等處理方法。一般的數(shù)據(jù)需要進(jìn)行一定的處理才能用于后續(xù)的數(shù)據(jù)分析工作。即使是“干凈”的原始數(shù)據(jù),也需要先進(jìn)行一定的處理才能使用。3.3數(shù)據(jù)處理數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒肮ぞ?對(duì)收集來的數(shù)據(jù)進(jìn)行分析,提取有價(jià)值的信息,形成有效結(jié)論的過程。在確定數(shù)據(jù)分析思路階段,數(shù)據(jù)分析師就應(yīng)當(dāng)為需要分析的內(nèi)容確定適合的數(shù)據(jù)分析方法。這項(xiàng)工作做好了,數(shù)據(jù)分析師就能夠駕馭數(shù)據(jù),從容地進(jìn)行分析和研究了。一般的數(shù)據(jù)分析,我們可以通過Excel完成,而高級(jí)的數(shù)據(jù)分析就要采用專業(yè)的分析軟件進(jìn)行,如數(shù)據(jù)分析工具SPSS、SAS、Python、R語(yǔ)言等。3.4數(shù)據(jù)分析通過數(shù)據(jù)分析,隱藏在數(shù)據(jù)內(nèi)部的關(guān)系和規(guī)律就會(huì)逐漸浮現(xiàn)出來,那么通過什么方式來展現(xiàn)這些關(guān)系和規(guī)律,才能讓別人一目了然呢?一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的,即用圖表說話。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、散點(diǎn)圖、雷達(dá)圖等,當(dāng)然可以對(duì)這些圖表進(jìn)一步整理加工,使之變?yōu)槲覀冃枰膱D形,如金字塔圖、矩陣圖、瀑布圖、漏斗圖、帕雷托圖等。多數(shù)情況下,人們更愿意接受圖形這種數(shù)據(jù)展現(xiàn)方式,因?yàn)樗芨佑行?、直觀地傳達(dá)分析師的意圖。一般情況下,能用圖說明問題的,就不用表格;能用表格說明問題的,就不用文字。3.5數(shù)據(jù)呈現(xiàn)數(shù)據(jù)分析報(bào)告其實(shí)是對(duì)整個(gè)數(shù)據(jù)分析過程的一個(gè)總結(jié)與呈現(xiàn)。通過報(bào)告,把數(shù)據(jù)分析的起因、過程、結(jié)果及建議完整地呈現(xiàn)出來,以供決策者參考。所以數(shù)據(jù)分析報(bào)告是通過對(duì)數(shù)據(jù)全方位的科學(xué)分析來評(píng)估企業(yè)運(yùn)營(yíng)質(zhì)量,為決策者提供科學(xué)、嚴(yán)謹(jǐn)?shù)臎Q策依據(jù),以降低企業(yè)運(yùn)營(yíng)風(fēng)險(xiǎn),提高企業(yè)核心競(jìng)爭(zhēng)力。3.6報(bào)告撰寫
一份好的分析報(bào)告,首先需要有一個(gè)好的分析框架,并且層次明晰、圖文并茂,能夠讓讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使讀者正確理解報(bào)告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動(dòng)活潑,提高視覺沖擊力,有助于讀者更形象、直觀地理解問題和結(jié)論。其次,需要有明確的結(jié)論。沒有明確結(jié)論的分析稱不上分析,同時(shí)也失去了報(bào)告的意義,因?yàn)樽畛蹙褪菫閷ふ一蛘咔笞C一個(gè)結(jié)論才進(jìn)行分析的,所以千萬(wàn)不要舍本求末。第三,一定要有建議或解決方案。決策者需要的不僅僅是找出問題,更重要的是建議或解決方案,以便他們?cè)跊Q策時(shí)參考。所以,數(shù)據(jù)分析師不只需要掌握數(shù)據(jù)分析方法,還要了解和熟悉業(yè)務(wù),這樣才能根據(jù)發(fā)現(xiàn)的業(yè)務(wù)問題,提出具有可行性的建議或解決方案。4統(tǒng)計(jì)學(xué)基本概念數(shù)據(jù)分析是統(tǒng)計(jì)學(xué)中的重要內(nèi)容,也是統(tǒng)計(jì)學(xué)的擴(kuò)展。因此,在學(xué)習(xí)數(shù)據(jù)分析之前,我們需要了解一些統(tǒng)計(jì)學(xué)中的基本概念。1.絕對(duì)數(shù)和相對(duì)數(shù)絕對(duì)數(shù)是反映客觀現(xiàn)象總體在一定時(shí)間、一定地點(diǎn)的總規(guī)模、總水平的綜合性指標(biāo),也是數(shù)據(jù)分析中常用的指標(biāo),如年GDP、總?cè)丝诘取O鄬?duì)數(shù)是指由兩個(gè)有聯(lián)系的指標(biāo)計(jì)算而得出的數(shù)值,它是反映客觀現(xiàn)象之間數(shù)量聯(lián)系緊密程度的綜合指標(biāo)。相對(duì)數(shù)一般以倍數(shù)、百分?jǐn)?shù)等表示。相對(duì)數(shù)的計(jì)算公式:相對(duì)數(shù)=比較值(比數(shù))/基礎(chǔ)值(基數(shù))。2. 百分比和百分點(diǎn)百分比是相對(duì)數(shù)中的一種,它表示一個(gè)數(shù)是另一個(gè)數(shù)的百分之幾,也稱為百分率或百分?jǐn)?shù)。百分比用1%作為度量單位。百分點(diǎn)是指不同時(shí)期以百分?jǐn)?shù)的形式表示的相對(duì)指標(biāo)的變動(dòng)幅度,1%等于1個(gè)百分點(diǎn)。3. 頻數(shù)和頻率頻數(shù)是指一個(gè)數(shù)據(jù)在整體中出現(xiàn)的次數(shù)。頻率是指某一事件發(fā)生的次數(shù)與總的事件數(shù)之比。頻率通常用比例或百分?jǐn)?shù)表示。4. 比例與比率比例是指在總體中各數(shù)據(jù)占總體的比重,通常反映總體的構(gòu)成和比例,即部分與整體之間的關(guān)系。比率是指樣本(或總體)中各不同類別數(shù)據(jù)之間的比值,由于比率不是部分與整體之間的對(duì)比關(guān)系,因而比值可能大于1。5. 倍數(shù)和番數(shù)倍數(shù)用一個(gè)數(shù)據(jù)除以另一個(gè)數(shù)據(jù)而獲得。倍數(shù)一般用來表示上升、增長(zhǎng)的幅度,一般不表示減少的幅度。番數(shù)指原來數(shù)量的2的n次方。6. 同比和環(huán)比同比指的是與歷史同時(shí)期的數(shù)據(jù)相比較而獲得的比值,反映事物發(fā)展的相對(duì)性。環(huán)比指與上一個(gè)統(tǒng)計(jì)時(shí)期的值進(jìn)行對(duì)比獲得的值,主要反映事物的逐期發(fā)展情況。7. 變量變量來源于數(shù)學(xué),是計(jì)算機(jī)語(yǔ)言中能儲(chǔ)存計(jì)算結(jié)果或表示值的抽象概念。變量可以通過變量名訪問。8. 連續(xù)變量在統(tǒng)計(jì)學(xué)中,變量按變量值是否連續(xù)可分為連續(xù)變量與離散變量?jī)煞N。在一定區(qū)間內(nèi)可以任意取值的變量稱為連續(xù)變量,其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值可作無限分割,即可取無限個(gè)數(shù)值,如體重等變量。9. 離散變量離散變量的各變量值之間都是以整數(shù)斷開的。例如人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù)等,都只能按整數(shù)計(jì)算。離散變量的數(shù)值只能用計(jì)數(shù)的方法取得。8. 連續(xù)變量在統(tǒng)計(jì)學(xué)中,變量按變量值是否連續(xù)可分為連續(xù)變量與離散變量?jī)煞N。在一定區(qū)間內(nèi)可以任意取值的變量稱為連續(xù)變量,其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值可作無限分割,即可取無限個(gè)數(shù)值,如體重等變量。9. 離散變量離散變量的各變量值之間都是以整數(shù)斷開的。例如人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù)等,都只能按整數(shù)計(jì)算。離散變量的數(shù)值只能用計(jì)數(shù)的方法取得。10. 定性變量觀測(cè)的個(gè)體只能歸屬于幾種互不相容類別中的一種時(shí),一般用非數(shù)字來表達(dá)其類別,這樣的觀測(cè)數(shù)據(jù)稱為定性變量,又稱為分類變量。定性變量可以理解成可以分類別的變量,如學(xué)歷、性別、婚否等。11. 均值均值(平均數(shù))是表示一組數(shù)據(jù)集中趨勢(shì)的統(tǒng)計(jì)量,是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和除以這組數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。12. 中位數(shù)對(duì)于有限的數(shù)集,可以通過把所有觀察值按由大到小的順序排序后找出正中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。13. 缺失值缺失值指的是現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不齊全的。14. 缺失率某屬性的缺失率=數(shù)據(jù)集中某屬性的缺失值個(gè)數(shù)/數(shù)據(jù)集總行數(shù)。15. 異常值異常值指一組測(cè)定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測(cè)定值。與平均值的偏差超過3倍標(biāo)準(zhǔn)差的測(cè)定值,稱為高度異常的異常值。16. 方差方差是在概率論和統(tǒng)計(jì)學(xué)中衡量隨機(jī)變量或一組數(shù)據(jù)的離散程度的統(tǒng)計(jì)量。在概率論中,方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(均值)之間的偏離程度。統(tǒng)計(jì)學(xué)中的方差(樣本方差)是每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。在許多實(shí)際問題中,研究方差有重要意義。方差是衡量源數(shù)據(jù)和期望值相差程度的指標(biāo)。17. 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差又常稱均方差,是離均差平方的算術(shù)平均數(shù)的平方根,用σ表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標(biāo)準(zhǔn)差未必相同。18. 相關(guān)系數(shù)相關(guān)系數(shù)是最早由統(tǒng)計(jì)學(xué)家卡爾·皮爾遜設(shè)計(jì)的統(tǒng)計(jì)指標(biāo),是研究變量之間線性相關(guān)程度的量,一般用字母r表示。r的絕對(duì)值越大,表明相關(guān)性越強(qiáng)。由于研究對(duì)象的不同,相關(guān)系數(shù)有多種定義方式,較為常用的是皮爾遜相關(guān)系數(shù)。19. 皮爾遜相關(guān)系數(shù)皮爾遜相關(guān)系數(shù)是用來反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)量。20. 特征值特征值是線性代數(shù)中的一個(gè)重要概念,在數(shù)學(xué)、物理學(xué)、化學(xué)、計(jì)算機(jī)等領(lǐng)域有著廣泛的應(yīng)用。設(shè)A是矢量空間的一個(gè)線性變換,如果空間中某一非零矢量通過A變換后所得到的矢量和X僅差一個(gè)常數(shù)因子,即AX=kX,則稱k為A的特征值,X稱為A的屬于特征值k的特征特征矢量。21. 統(tǒng)計(jì)總體與統(tǒng)計(jì)個(gè)體統(tǒng)計(jì)總體(簡(jiǎn)稱總體)是由客觀存在的,在某些性質(zhì)上相同的眾多個(gè)體集合的整體,如重慶市所有的高校。統(tǒng)計(jì)個(gè)體(簡(jiǎn)稱個(gè)體)是構(gòu)成統(tǒng)計(jì)總體的一個(gè)個(gè)單位,數(shù)據(jù)就是從個(gè)體中取得的,因此個(gè)體是各項(xiàng)統(tǒng)計(jì)數(shù)字最原始的承擔(dān)者。22. 統(tǒng)計(jì)指標(biāo)與統(tǒng)計(jì)標(biāo)志統(tǒng)計(jì)指標(biāo)是說明總體綜合數(shù)量特征的,具有綜合的性質(zhì)。通常,一個(gè)完整的統(tǒng)計(jì)指標(biāo)包含指標(biāo)名稱和指標(biāo)數(shù)值兩部分。統(tǒng)計(jì)標(biāo)志是說明總體單位屬性的,一般不具有綜合的特征。統(tǒng)計(jì)指標(biāo)按其性質(zhì)可以分為數(shù)量標(biāo)志和品質(zhì)標(biāo)志。數(shù)量標(biāo)志:以數(shù)量來表示的標(biāo)志,表示事物量的特性。品質(zhì)標(biāo)志:用文字來表示的標(biāo)志,表示事物質(zhì)的特征。統(tǒng)計(jì)指標(biāo)的指標(biāo)值是由各單位的標(biāo)志值匯總或計(jì)算得來的。隨著研究目的的不同,指標(biāo)與標(biāo)志之間可以相互轉(zhuǎn)化。感謝聆聽!第二章商務(wù)數(shù)據(jù)分析方法和工具目錄1、分析方法2、工具1分析方法1.1描述性分析1.2診斷性分析1.2預(yù)測(cè)性分析1.1描述性分析【描述性】的分析回答What的問題:我的企業(yè)發(fā)生了什么?數(shù)據(jù)類型通常是綜合的、廣泛的、實(shí)時(shí)的、精確的,以高效的可視化來展現(xiàn)。比如,某公司的銷售月報(bào),就是描述性分析。一個(gè)看板上匯總了各個(gè)地區(qū)的月度指標(biāo),如完成率、完成度,它是實(shí)時(shí)變動(dòng)的,到月底自動(dòng)匯總。它不光“描述”,還有一定程度的分析,可以滿足日常管理需求。比如揚(yáng)州這個(gè)地區(qū),本月的目標(biāo)完成率最低,但是年度目標(biāo)完成率卻較好,是本月的銷售目標(biāo)太高,還是考核上有松懈。如果是人為的松懈,年度考核是否也要記錄月度的考核成績(jī)?高效的可視化展現(xiàn),一方面是說,做這個(gè)報(bào)告的速度要快,即問即答,不能當(dāng)某人想知道今天的情況怎么樣時(shí),三天之后才有答案;另一方面是說,這個(gè)報(bào)告以“模板”的形式存在,數(shù)據(jù)變了,報(bào)告也會(huì)隨之變動(dòng),什么時(shí)候打開,什么時(shí)候都是最新的。描述性分析是所有分析形式中最常見的。在業(yè)務(wù)中,它為分析人員提供了業(yè)務(wù)中關(guān)鍵指標(biāo)和措施的視圖,如公司每月的收支表。類似地,分析師可以獲得大量客戶的數(shù)據(jù)。了解客戶的人口統(tǒng)計(jì)信息(如我們的客戶的30%是個(gè)體經(jīng)營(yíng)者)將被歸類為“描述性分析”,利用有效的可視化工具可以更好地呈現(xiàn)描述性分析的信息。1.2診斷性分析【診斷性】的分析回答Why的問題:為什么我的企業(yè)發(fā)生了這樣的事情?需要有從全局鉆取到細(xì)節(jié)的能力和隔離所有混淆信息的能力。比如查看數(shù)據(jù)地圖,發(fā)現(xiàn)江蘇的市場(chǎng)銷售額較高,想知道是什么原因,于是點(diǎn)擊該省份,能定位到各類產(chǎn)品的銷售數(shù)據(jù)和響應(yīng)的合作客戶數(shù)據(jù)。在對(duì)描述性數(shù)據(jù)進(jìn)行評(píng)估時(shí),診斷分析工具將使分析師能夠深入到細(xì)分的數(shù)據(jù),從而找出問題的根本原因。精心設(shè)計(jì)的商業(yè)信息(BI)儀表板有讀取時(shí)間序列數(shù)據(jù)(多個(gè)連續(xù)時(shí)間點(diǎn)的數(shù)據(jù))的功能,并具有過濾器和鉆取能力,可進(jìn)行此類分析。1.3預(yù)測(cè)性分析【預(yù)測(cè)性】的分析回答的是WhatLikely的問題:我的企業(yè)將要發(fā)生什么?主要回答戰(zhàn)略性的問題:我的商業(yè)策略是否在一段時(shí)期內(nèi)保持一致,根據(jù)算法,用模型預(yù)測(cè)某個(gè)具體的結(jié)果。就像玩三國(guó)殺的時(shí)候,很多人喜歡諸葛亮,不停地使用“觀星”一樣,我們希望能夠預(yù)測(cè)某件事在未來發(fā)生的可能性,或是預(yù)測(cè)一個(gè)可以量化的值,甚至預(yù)測(cè)某個(gè)結(jié)果可能發(fā)生的時(shí)間點(diǎn)。如何實(shí)現(xiàn)預(yù)測(cè),一方面取決于工具,但更重要的,取決于預(yù)測(cè)模型。預(yù)測(cè)分析是關(guān)于預(yù)測(cè)的。無論是預(yù)測(cè)將來發(fā)生事件的可能性,還是預(yù)測(cè)可量化的數(shù)值,抑或是估計(jì)可能發(fā)生事件的時(shí)間點(diǎn),這些都是通過預(yù)測(cè)模型完成的。預(yù)測(cè)模型通常利用各種可變數(shù)據(jù)進(jìn)行預(yù)測(cè)。數(shù)據(jù)的變異性與預(yù)測(cè)結(jié)果密切相關(guān)(例如,年齡越大的人,對(duì)心臟病發(fā)作的敏感程度越高———我們會(huì)說年齡與心臟病發(fā)作風(fēng)險(xiǎn)呈線性相關(guān)),然后將這些數(shù)據(jù)一起編譯成分?jǐn)?shù)或預(yù)測(cè)。在充滿不確定性的環(huán)境中,預(yù)測(cè)能夠幫助做出更好的決定。預(yù)測(cè)模型也是許多領(lǐng)域中正在使用的重要方法。2工具2.1數(shù)據(jù)采集工具2.2
數(shù)據(jù)存儲(chǔ)工具2.3
數(shù)據(jù)處理工具2.4
數(shù)據(jù)分析工具2.1數(shù)據(jù)采集工具1.八爪魚采集器/火車采集器(火車)八爪魚采集器是一款使用簡(jiǎn)單、功能強(qiáng)大的網(wǎng)絡(luò)爬蟲工具,可實(shí)現(xiàn)可視化操作,無須編寫代碼,內(nèi)置海量模板,支持任意網(wǎng)絡(luò)數(shù)據(jù)的抓取;火車采集器是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析、挖掘軟件,可以靈活、迅速地抓取網(wǎng)頁(yè)上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。
下面以八爪魚采集器為例,重點(diǎn)介紹該類采集器的功能及使用方法。(1)八爪魚采集器的功能:1)云采集:5000臺(tái)云服務(wù)器,24×7小時(shí)高效穩(wěn)定不間斷采集,結(jié)合API可無縫對(duì)接內(nèi)部系統(tǒng),定期同步爬取數(shù)據(jù)。2)智能防封:自動(dòng)破解多種驗(yàn)證碼,提供代理IP池,結(jié)合UA切換,可有效突破封鎖,順利采集數(shù)據(jù)。3)全網(wǎng)適用:眼見即可采,不管是文字圖片,還是貼吧論壇,支持所有業(yè)務(wù)渠道的數(shù)據(jù)爬取,滿足各種采集需求。4)海量模板:內(nèi)置數(shù)百個(gè)網(wǎng)站數(shù)據(jù)源,全面覆蓋多個(gè)行業(yè),只需簡(jiǎn)單設(shè)置,就可快速準(zhǔn)確獲取數(shù)據(jù)。5)簡(jiǎn)單易用:無須再學(xué)爬蟲編程技術(shù),簡(jiǎn)單三步就可以輕松抓取網(wǎng)頁(yè)數(shù)據(jù),支持多種格式一鍵導(dǎo)出,快速導(dǎo)入數(shù)據(jù)庫(kù)。6)穩(wěn)定高效:有分布式云集群服務(wù)器和多用戶協(xié)作管理平臺(tái)的支撐,可靈活調(diào)度任務(wù),順利爬取海量數(shù)據(jù)。爬取方法:以爬取京東眾籌為例進(jìn)行講解。步驟一:打開八爪魚采集器,如圖21所示,選擇“自定義采集”。圖2-1八爪魚頁(yè)面圖步驟二:將網(wǎng)址輸入“網(wǎng)址”框內(nèi),單擊“保存網(wǎng)址”按鈕,如圖22所示。圖2-2保存網(wǎng)址步驟三:在出現(xiàn)的網(wǎng)址內(nèi)容中單擊“下一頁(yè)”按鈕,如圖2-3所示。在彈出的“操作提示”對(duì)話框中,單擊“循環(huán)點(diǎn)擊下一頁(yè)”選項(xiàng),如圖2-4所示。圖2-3單擊“下一頁(yè)”按鈕圖2-4單擊“循環(huán)點(diǎn)擊下一頁(yè)”選項(xiàng)步驟四:選中網(wǎng)頁(yè)第一行第一個(gè)圖片,結(jié)果如圖2-5所示。在彈出的“操作提示”對(duì)話框中單擊“選中全部”選項(xiàng),結(jié)果如圖2-6所示。在再次彈出的“操作提示”對(duì)話框中單擊“循環(huán)點(diǎn)擊每個(gè)圖片”,結(jié)果如圖2-7所示。圖2-5選中網(wǎng)頁(yè)第一行第一個(gè)圖片圖2-6單擊“選中全部”圖27單擊“循環(huán)點(diǎn)擊每個(gè)圖片”步驟五:在出現(xiàn)的網(wǎng)頁(yè)中選取所要搜集的信息。1)選擇價(jià)格:單擊“價(jià)格”,在彈出的“操作提示”對(duì)話框中單擊“采集該元素的文本”,如圖2-8所示。圖2-8選擇“價(jià)格”頁(yè)面元素2)選擇當(dāng)前進(jìn)度:單擊“當(dāng)前進(jìn)度”,在彈出的“操作提示”對(duì)話框中單擊“采集該元素的文本”,如圖2-9所示,依此類推。圖2-9采集“當(dāng)前進(jìn)度”元素文本步驟六:打開流程界面,將所搜集的數(shù)據(jù)進(jìn)行命名,單擊“確定”按鈕,然后單擊“開始采集”按鈕,接著單擊“啟動(dòng)本地采集”按鈕。1)打開流程界面,將所搜集的數(shù)據(jù)進(jìn)行命名,單擊“確定”按鈕,然后并單擊“開始采集”按鈕,如圖2-10所示。圖2-10保存并開始采集2)單擊“啟動(dòng)本地采集”按鈕,如圖211所示。圖2-11啟動(dòng)本地采集步驟七:結(jié)果呈現(xiàn),如圖2-12所示。圖2-12結(jié)果呈現(xiàn)2.Python(爬蟲)爬蟲的概念
如果我們把互聯(lián)網(wǎng)比做一張大的蜘蛛網(wǎng),數(shù)據(jù)便存放于蜘蛛網(wǎng)的各個(gè)節(jié)點(diǎn),而爬蟲就是一只小蜘蛛,沿著網(wǎng)絡(luò)抓取自己的獵物(數(shù)據(jù))。爬蟲指的是向網(wǎng)站發(fā)起請(qǐng)求,獲取資源后分析并提取有用數(shù)據(jù)的程序;從技術(shù)層面來說,就是通過程序模擬瀏覽器請(qǐng)求站點(diǎn)的行為,把站點(diǎn)返回的HTML代碼、JSON數(shù)據(jù)、二進(jìn)制數(shù)據(jù)(圖片、視頻)爬到本地,進(jìn)而提取自己需要的數(shù)據(jù),存放起來使用。。(2)爬蟲基本流程爬蟲流程圖如圖2-13所示。圖213爬蟲流程圖1)發(fā)送請(qǐng)求。使用http庫(kù)向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,即發(fā)送一個(gè)Request。請(qǐng)求包含請(qǐng)求頭、請(qǐng)求體等。請(qǐng)求模塊的缺陷:不能執(zhí)行JS和CSS代碼。2)獲取響應(yīng)內(nèi)容。如果服務(wù)器能正常響應(yīng),則會(huì)得到一個(gè)Response。響應(yīng)包含html、json、圖片、視頻等。3)解析內(nèi)容。①解析html數(shù)據(jù):正則表達(dá)式(RE模塊);第三方解析庫(kù),如Beautifulsoup、Pyquery等。②解析json數(shù)據(jù):json模塊。③解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件。4)保存數(shù)據(jù)。保存形式多樣,可以保存到數(shù)據(jù)庫(kù)(MySQL、MongDB、Redis),也可以保存為文本文件。(3)請(qǐng)求與響應(yīng)請(qǐng)求與響應(yīng)示意圖如圖2-14所示。請(qǐng)求:用戶將自己的信息通過瀏覽器(SocketClient)發(fā)送給服務(wù)器(SocketServer)。圖214請(qǐng)求與響應(yīng)示意圖響應(yīng):服務(wù)器接收請(qǐng)求,分析用戶發(fā)來的請(qǐng)求信息,然后返回?cái)?shù)據(jù)(返回的數(shù)據(jù)中可能包含其他鏈接,如圖片、JS、CSS等)。瀏覽器在接收響應(yīng)后,會(huì)解析其內(nèi)容并顯示給用戶,而爬蟲程序在模擬瀏覽器發(fā)送請(qǐng)求,并接收響應(yīng)后,要提取其中的有用數(shù)據(jù)。(4)請(qǐng)求內(nèi)容1)請(qǐng)求方式。常見的請(qǐng)求方式有:Get/Post。2)請(qǐng)求的URL。全球統(tǒng)一資源定位符(URL)用來定義互聯(lián)網(wǎng)上唯一的資源。例如一張圖片、一個(gè)文件、一段視頻都可以用URL唯一確定。3)請(qǐng)求頭。①User-Agent:請(qǐng)求頭中如果沒有User-Agent客戶端配置,服務(wù)端可能將你當(dāng)作一個(gè)非法用戶。?Cookies:用來保存登錄信息。注意:一般做爬蟲都會(huì)加上請(qǐng)求頭。4)請(qǐng)求體。如果是Get方式,請(qǐng)求體沒有內(nèi)容(Get請(qǐng)求的請(qǐng)求體放在URL的后面參數(shù)中,直接能看到);如果是Post方式,請(qǐng)求體是FormatData。(5)響應(yīng)1)常見響應(yīng)狀態(tài)碼如下:200表示成功;301表示跳轉(zhuǎn);404表示文件不存在;403表示無權(quán)限訪問;502表示服務(wù)器錯(cuò)誤。2)請(qǐng)求頭常見參數(shù)。①Set-Cookie:BDSVRTM=0;path=/:可能有多個(gè),用來告訴瀏覽器,把Cookie保存下來。?Content-Location:服務(wù)端響應(yīng)頭中的位置信息返回瀏覽器之后,瀏覽器就會(huì)重新訪問另一個(gè)頁(yè)面。(6)總結(jié)1)總結(jié)爬蟲流程:爬取→解析→存儲(chǔ)。2)爬蟲所需工具。①請(qǐng)求庫(kù):Requests、Selenium。?解析庫(kù):正則表達(dá)式、Beautifulsoup,Pyquery。?存儲(chǔ)庫(kù):文件、MySQL、MongoDB、Redis。3)爬蟲常用框架:Scrapy、Pyspider等。2.2數(shù)據(jù)存儲(chǔ)工具
1.數(shù)據(jù)文件(1)什么是數(shù)據(jù)文件數(shù)據(jù)文件是在計(jì)算機(jī)系統(tǒng)上使用的最常見類型的文件之一。本質(zhì)上,它可以是存儲(chǔ)數(shù)據(jù)的任何文件。它可以采取純文本文件的形式或二進(jìn)制文件格式。數(shù)據(jù)文件類型的數(shù)量是巨大的,成千上萬(wàn)的應(yīng)用軟件都在產(chǎn)生專有的文件格式。有許多方法來存儲(chǔ)數(shù)據(jù),無論是以結(jié)構(gòu)化還是非結(jié)構(gòu)化的格式。如HTML和XML的標(biāo)記語(yǔ)言是按照指定的規(guī)則構(gòu)造的結(jié)構(gòu)化數(shù)據(jù),可以很容易地讀出或由程序操縱。而非結(jié)構(gòu)化數(shù)據(jù)文件不具有預(yù)先定義的數(shù)據(jù)模型,并且通常是以文本為主。非結(jié)構(gòu)化的文件類型包括元數(shù)據(jù)、文件、模擬數(shù)據(jù)、健康記錄和其他類型的多媒體內(nèi)容。。
(2)常見的三種文件存儲(chǔ)格式1) TXT文件存儲(chǔ)。優(yōu)點(diǎn):簡(jiǎn)單,兼容任何平臺(tái)。缺點(diǎn):不利于檢索。對(duì)檢索和數(shù)據(jù)結(jié)構(gòu)要求不高,為了使用方便,可用TXT文本存儲(chǔ)。2) JSON文件存儲(chǔ)。JSON是JavaScriptObjectNotation的簡(jiǎn)寫,是JavaScript對(duì)象標(biāo)記,通過對(duì)象和數(shù)組的組合來表示數(shù)據(jù),構(gòu)造簡(jiǎn)潔但結(jié)構(gòu)化程度非常高,是一種輕量級(jí)數(shù)據(jù)交換格式。在JavaScript語(yǔ)言中,一切都是對(duì)象。任何支持的類型都可以通過JSON來表示,如字符串、數(shù)字、對(duì)象、數(shù)組等,對(duì)象和數(shù)組是比較特殊且常用的兩種類型。3) CSV文件存儲(chǔ)。CSV是Comma-SeparatedValues的簡(jiǎn)寫,中文名是逗號(hào)分隔值或字符分隔值,以純文本形式存儲(chǔ)表格數(shù)據(jù)。該文件是一個(gè)字符序列,可由任意數(shù)目的記錄組成,記錄間以某種換行符分隔。每條記錄由字段組成,字段間的分隔符常使用逗號(hào)或制表符。所有記錄都有完全相同的字段序列,相當(dāng)于一個(gè)結(jié)構(gòu)化表的純文本形式。相比Excel文件更簡(jiǎn)單,XLS文本是電子表格,包含了文本、數(shù)值、公式和格式等內(nèi)容,而CSV中不包含這些內(nèi)容,就是特定字符分隔的純文本,結(jié)構(gòu)簡(jiǎn)單清晰。2. 數(shù)據(jù)庫(kù)(1) 定義數(shù)據(jù)庫(kù)是存放數(shù)據(jù)的倉(cāng)庫(kù)。它的存儲(chǔ)空間很大,可以存放百萬(wàn)條、千萬(wàn)條甚至上億條數(shù)據(jù)。但是數(shù)據(jù)庫(kù)并不是隨意地將數(shù)據(jù)進(jìn)行存放,而是有一定的規(guī)則的,否則查詢的效率會(huì)很低。當(dāng)今世界是一個(gè)充滿數(shù)據(jù)的互聯(lián)網(wǎng)世界。即這個(gè)互聯(lián)網(wǎng)世界就是數(shù)據(jù)世界。數(shù)據(jù)的來源有很多,比如出行記錄、消費(fèi)記錄、瀏覽的網(wǎng)頁(yè)、發(fā)送的消息等。除了文本類型的數(shù)據(jù),圖像、音樂、聲音也是數(shù)據(jù)。(2) 類型1) 關(guān)系型數(shù)據(jù)庫(kù)。關(guān)系型數(shù)據(jù)庫(kù)的存儲(chǔ)格式可以直觀地反映實(shí)體間的關(guān)系。關(guān)系型數(shù)據(jù)庫(kù)和常見的表格相似,關(guān)系型數(shù)據(jù)庫(kù)中表與表之間是有很多復(fù)雜的關(guān)聯(lián)關(guān)系的。常見的關(guān)系型數(shù)據(jù)庫(kù)有MySQL、SQLServer等。在輕量或者小型的應(yīng)用中,使用不同的關(guān)系型數(shù)據(jù)庫(kù)對(duì)系統(tǒng)的性能影響不大,但是在構(gòu)建大型應(yīng)用時(shí),需要根據(jù)應(yīng)用的業(yè)務(wù)需求和性能需求,選擇合適的關(guān)系型數(shù)據(jù)庫(kù)。非關(guān)系型數(shù)據(jù)庫(kù)。
隨著近些年技術(shù)方向的不斷拓展,大量的非關(guān)系型數(shù)據(jù)庫(kù)NoSQL如MongoDB、Redis、Memcache出于簡(jiǎn)化數(shù)據(jù)庫(kù)結(jié)構(gòu)、避免冗余、影響性能的表連接、摒棄復(fù)雜分布式的目的被設(shè)計(jì)。非關(guān)系型數(shù)據(jù)庫(kù)指的是分布式的、非關(guān)系型的、不保證遵循ACID原則的數(shù)據(jù)存儲(chǔ)系統(tǒng)。其技術(shù)與CAP理論、一致性哈希算法有密切關(guān)系。所謂CAP理論,簡(jiǎn)單來說就是一個(gè)分布式系統(tǒng)不可能滿足可用性、一致性與分區(qū)容錯(cuò)性這三個(gè)要求,一次性滿足兩種要求是該系統(tǒng)的上限。一致性哈希算法指的是非關(guān)系型數(shù)據(jù)庫(kù)在應(yīng)用過程中,為滿足工作需求而在通常情況下產(chǎn)生的一種數(shù)據(jù)算法,該算法能有效解決工作方面的諸多問題,但也存在弊端,即工作完成質(zhì)量會(huì)隨著節(jié)點(diǎn)的變化而產(chǎn)生波動(dòng),當(dāng)節(jié)點(diǎn)過多時(shí),相關(guān)工作結(jié)果就不那么準(zhǔn)確。這一問題使整個(gè)系統(tǒng)的工作效率受到影響,導(dǎo)致整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)出現(xiàn)亂碼的概率與出錯(cuò)率大大提高,甚至?xí)霈F(xiàn)數(shù)據(jù)節(jié)點(diǎn)的內(nèi)容遷移,產(chǎn)生錯(cuò)誤的代碼信息。但盡管如此,非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)還是具有非常明顯的應(yīng)用優(yōu)勢(shì),如數(shù)據(jù)庫(kù)結(jié)構(gòu)相對(duì)簡(jiǎn)單,在大數(shù)據(jù)量下的讀寫性能好;能滿足隨時(shí)存儲(chǔ)自定義數(shù)據(jù)格式的需求,非常適用于大數(shù)據(jù)處理工作。非關(guān)系型數(shù)據(jù)庫(kù)適合追求速度和可擴(kuò)展性、業(yè)務(wù)多變的應(yīng)用場(chǎng)景。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理更合適,如文章、評(píng)論,這些數(shù)據(jù)通常只用于模糊處理,并不需要像結(jié)構(gòu)化數(shù)據(jù)一樣,進(jìn)行精確查詢,而且這類數(shù)據(jù)往往是海量的,數(shù)據(jù)規(guī)模的增長(zhǎng)往往也是不可預(yù)期的。非關(guān)系型數(shù)據(jù)庫(kù)的擴(kuò)展能力幾乎是無限的,所以非關(guān)系型數(shù)據(jù)庫(kù)可以很好地滿足這一類數(shù)據(jù)的存儲(chǔ)。非關(guān)系型數(shù)據(jù)庫(kù)利用鍵值(Key-Value)可以獲取大量的非結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)的獲取效率很高,但用它查詢結(jié)構(gòu)化數(shù)據(jù)效果就比較差。分布式數(shù)據(jù)庫(kù)。
所謂的分布式數(shù)據(jù)庫(kù)技術(shù),就是數(shù)據(jù)庫(kù)技術(shù)與分布式技術(shù)的一種結(jié)合。它具體指的是把那些在地理意義上分散開的各個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)和在計(jì)算機(jī)系統(tǒng)邏輯上屬于同一個(gè)系統(tǒng)的數(shù)據(jù)結(jié)合起來的一種數(shù)據(jù)庫(kù)技術(shù)。它既有著數(shù)據(jù)庫(kù)間的協(xié)調(diào)性,也有著數(shù)據(jù)的分布性。這個(gè)系統(tǒng)并不注重系統(tǒng)的集中控制,而是注重每個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)的自治性。此外,為了減輕程序員編寫程序的工作量以及系統(tǒng)出錯(cuò)的可能性,一般完全不考慮數(shù)據(jù)的分布情況,這樣的結(jié)果就使得系統(tǒng)數(shù)據(jù)的分布情況一直保持著透明性。數(shù)據(jù)獨(dú)立性在分布式數(shù)據(jù)庫(kù)管理系統(tǒng)中是十分重要的。分布式數(shù)據(jù)庫(kù)管理系統(tǒng)還增加了分布式透明性。這個(gè)新概念的作用是讓數(shù)據(jù)進(jìn)行轉(zhuǎn)移時(shí)使程序正確性不受影響,就像數(shù)據(jù)并沒有在編寫程序時(shí)被分布一樣。在分布式數(shù)據(jù)庫(kù)里,數(shù)據(jù)冗雜是一種被需要的特性,這點(diǎn)和一般的集中式數(shù)據(jù)庫(kù)系統(tǒng)不一樣。第一點(diǎn)是為了提高局部的應(yīng)用性而要在那些被需要的數(shù)據(jù)庫(kù)節(jié)點(diǎn)復(fù)制數(shù)據(jù)。第二點(diǎn)是因?yàn)槿绻硞€(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)出現(xiàn)系統(tǒng)錯(cuò)誤,在修復(fù)好之前,可以通過操作其他的數(shù)據(jù)庫(kù)節(jié)點(diǎn)中復(fù)制好的數(shù)據(jù)來讓系統(tǒng)能夠繼續(xù)使用,提高系統(tǒng)的有效性。3. 大數(shù)據(jù)(1) 基本介紹。大數(shù)據(jù)通常指的是那些數(shù)量巨大和難于收集、處理、分析的數(shù)據(jù)集,也指那些在傳統(tǒng)基礎(chǔ)設(shè)施中長(zhǎng)期保存的數(shù)據(jù)。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模。業(yè)內(nèi)對(duì)大數(shù)據(jù)應(yīng)用寄予了無限的期望。商業(yè)信息積累得越多,價(jià)值也越大,只不過我們需要一個(gè)方法把這些價(jià)值挖掘出來。隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長(zhǎng),它已經(jīng)衍生出自己獨(dú)特的架構(gòu),而且也直接推動(dòng)了存儲(chǔ)、網(wǎng)絡(luò)以及計(jì)算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個(gè)新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動(dòng)的,就這個(gè)例子來說,我們很明顯地看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施的發(fā)展。此外,這一變化對(duì)存儲(chǔ)廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個(gè)機(jī)會(huì)。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長(zhǎng),以及分析數(shù)據(jù)來源的多樣化,此前存儲(chǔ)系統(tǒng)的設(shè)計(jì)已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲(chǔ)廠商已經(jīng)意識(shí)到這一點(diǎn),他們開始修改基于塊和文件的存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)以適應(yīng)這些新的要求。在這里,我們會(huì)討論那些與大數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施相關(guān)的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。(2) 大數(shù)據(jù)存儲(chǔ)方式1) 分布式系統(tǒng)。分布式系統(tǒng)包含多個(gè)自主的處理單元,通過計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián)來協(xié)作完成分配的任務(wù),其分而治之的策略能夠更好地處理大規(guī)模數(shù)據(jù)分析問題。分布式系統(tǒng)主要包括以下兩類:? 分布式文件系統(tǒng):存儲(chǔ)管理需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持。分布式文件系統(tǒng)HDFS是一個(gè)高度容錯(cuò)性系統(tǒng),被設(shè)計(jì)成適用于批量處理,能夠提供高吞吐量的數(shù)據(jù)訪問。? 分布式鍵值系統(tǒng):用于存儲(chǔ)關(guān)系簡(jiǎn)單的半結(jié)構(gòu)化數(shù)據(jù)。典型的分布式鍵值系統(tǒng)有AmazonDynamo,其存儲(chǔ)和管理的是對(duì)象而不是數(shù)據(jù)塊。2) 非關(guān)系型數(shù)據(jù)庫(kù)。關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)無法滿足Web2.0的需求,主要表現(xiàn)為:無法滿足海量數(shù)據(jù)的管理需求,無法滿足數(shù)據(jù)高并發(fā)的需求,可擴(kuò)展性和可用性較差。非關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)勢(shì):可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等。典型的非關(guān)系型數(shù)據(jù)庫(kù)包括:鍵值數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)和圖形數(shù)據(jù)庫(kù)。3) 云數(shù)據(jù)庫(kù)。云數(shù)據(jù)庫(kù)是基于云計(jì)算技術(shù)發(fā)展的一種共享基礎(chǔ)架構(gòu)的方法,是被部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)。云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù),而只是以服務(wù)的方式提供數(shù)據(jù)庫(kù)功能。云數(shù)據(jù)庫(kù)所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫(kù)所使用的關(guān)系模型(微軟的SQLAzure云數(shù)據(jù)庫(kù)采用了關(guān)系模型)。同一個(gè)公司也可能提供采用不同數(shù)據(jù)模型的多種云數(shù)據(jù)庫(kù)服務(wù)。2.3數(shù)據(jù)處理工具數(shù)據(jù)處理是指根據(jù)數(shù)據(jù)分析目的,將收集到的數(shù)據(jù),用適當(dāng)?shù)奶幚矸椒ㄟM(jìn)行加工、整理,形成適合數(shù)據(jù)分析的樣式。它是數(shù)據(jù)分析前必不可少的工作,并且在整個(gè)數(shù)據(jù)分析工作量中占據(jù)了很大的比例。數(shù)據(jù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)合并、數(shù)據(jù)計(jì)算、數(shù)據(jù)分組等操作。數(shù)據(jù)處理主要運(yùn)用的工具有Excel、TableauPrep和Python。1. Excel案例:在對(duì)數(shù)據(jù)進(jìn)行分析前,經(jīng)常需要對(duì)數(shù)據(jù)進(jìn)行處理。如圖2-15所示,現(xiàn)需要將手機(jī)號(hào)碼中間四位數(shù)字單獨(dú)提取出來,所以需要運(yùn)用Excel函數(shù)。圖2-15數(shù)據(jù)抽取步驟一:打開Excel文件,找到該工作表,選中D2單元格,輸入函數(shù)“=MID(C2,4,4)”,如圖2-16所示。圖
2
16
輸入函數(shù)步驟二:將鼠標(biāo)指針放在D2單元格右下角,出現(xiàn)十字光標(biāo)后下拉,即可得出所有號(hào)碼的中間四位數(shù)字,如圖2-17所示。圖
2-17
結(jié)果呈現(xiàn)2. TableauPrep(1) 什么是TableauPrep。2018年4月,Tableau公司推出全新的數(shù)據(jù)準(zhǔn)備產(chǎn)品———TableauPrep,旨在幫助人們以快速可靠的方式對(duì)數(shù)據(jù)進(jìn)行合并、組織和清理,進(jìn)一步縮短從數(shù)據(jù)獲取信息所需的時(shí)間。簡(jiǎn)而言之,TableauPrep是一款簡(jiǎn)單易用的數(shù)據(jù)處理工具(部分ETL工作)。之所以使用TableauPrep,是因?yàn)槲覀冊(cè)谑褂肂I工具進(jìn)行數(shù)據(jù)可視化時(shí),數(shù)據(jù)常常不具有適合分析的形制(數(shù)據(jù)模型),很難應(yīng)對(duì)復(fù)雜的數(shù)據(jù)準(zhǔn)備工作。因此,我們需要一種更方便的工具來搭建我們需要的數(shù)據(jù)模型。(2) 下載TableauPrep。TableauPrep官方鏈接地址:https://www.tableau.com/products/prep。目前TableauPrep提供30天的試用,現(xiàn)有的TableauDesktop客戶可在2020年之前免費(fèi)使用TableauPrep。同時(shí)支持Windows及Mac系統(tǒng)。TableauDesktop的Key(密鑰)無法直接激活TableauPrep,根據(jù)官方介紹,需要進(jìn)入Tableau客戶端,使用Administrator賬戶登錄,即可以看到已經(jīng)購(gòu)買的DesktopKey,以及1個(gè)TableauPrep的Key。此Key可以激活與DesktopKey關(guān)聯(lián)電腦上的TableauPrep。(3) TableauPrep數(shù)據(jù)連接。TableauPrep支持連接到常用類型的數(shù)據(jù),以及Tableau的數(shù)據(jù)提取(.tde或.hyper),并且從版本2019.3.1開始還支持發(fā)布的數(shù)據(jù)源。連接類型如圖2-18所示。3. Python下面給出一個(gè)手機(jī)號(hào)碼,為了保護(hù)客戶隱私,需要通過Python中的函數(shù)將中間四位號(hào)碼用“?”代替。具體的圖218TableauPrep數(shù)據(jù)連接類型Python代碼如圖219所示。圖219Python代碼實(shí)現(xiàn)2.4數(shù)據(jù)分析工具數(shù)據(jù)分析工具有很多。一般來說,一個(gè)優(yōu)秀的數(shù)據(jù)分析師都有很多的知識(shí)儲(chǔ)備,并且能夠熟練地使用數(shù)據(jù)分析工具。那么數(shù)據(jù)分析工具都有哪些呢?一般來說,Excel、Python、SPSS比較常見。下面分別為大家介紹這些工具。1.Excel在眾多數(shù)據(jù)分析工具中,Excel是最常用、最容易上手的分析工具。Excel數(shù)據(jù)分析功能十分強(qiáng)大,不僅提供簡(jiǎn)單的數(shù)據(jù)處理功能,還有專業(yè)的數(shù)據(jù)分析工具庫(kù),包括相關(guān)系數(shù)分析、描述統(tǒng)計(jì)分析等。下面列舉一個(gè)案例來講述Excel的數(shù)據(jù)分析功能。案例:某公司在研究公司的新媒體賬號(hào)每天發(fā)布的內(nèi)容對(duì)閱讀量、轉(zhuǎn)發(fā)量、當(dāng)天漲粉量的影響時(shí),對(duì)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),部分?jǐn)?shù)據(jù)如圖2-20所示?,F(xiàn)在需要將表格中的“標(biāo)題類型”和“內(nèi)容類型”信息轉(zhuǎn)換為數(shù)據(jù)。規(guī)定用數(shù)字代碼表示“噱頭型”標(biāo)題,用數(shù)字代碼“2”表示“干貨型”標(biāo)題,依此類推。用代碼“1”來表示“獵奇”內(nèi)容,依此類推。轉(zhuǎn)換后的表格結(jié)果如圖221所示。圖
2-20
部分?jǐn)?shù)據(jù)統(tǒng)計(jì)圖
2-21
轉(zhuǎn)化后的數(shù)據(jù)步驟一:打開Excel表,選擇“數(shù)據(jù)”→“數(shù)據(jù)分析”命令,打開“數(shù)據(jù)分析”對(duì)話框,選擇“相關(guān)系數(shù)”選項(xiàng),如圖2-22所示。圖
2-22
“
數(shù)據(jù)分析”
對(duì)話框步驟二:在“相關(guān)系數(shù)”對(duì)話框中設(shè)置區(qū)域。設(shè)置“輸入?yún)^(qū)域”為所有數(shù)據(jù)表區(qū)域。選中“逐列”單選按鈕和“標(biāo)志位于第一行”復(fù)選框。設(shè)置“輸出區(qū)域”為一個(gè)空白的單元格,單擊“確定”按鈕,如圖2-23所示。圖
2-23
“
相關(guān)系數(shù)”
對(duì)話框步驟三:查看分析結(jié)果。在分析結(jié)果中,正數(shù)表示正相關(guān),負(fù)數(shù)表示負(fù)相關(guān)。正數(shù)越大、負(fù)數(shù)越小,就說明相關(guān)性越大。如圖224所示,“插圖數(shù)量”和“轉(zhuǎn)發(fā)量”的相關(guān)系數(shù)為0.59(保留兩位小數(shù)),說明兩者呈正相關(guān)關(guān)系,即插圖數(shù)量越多,轉(zhuǎn)發(fā)量越大。其余變量間系數(shù)較小,不存在相關(guān)關(guān)系。圖224結(jié)果呈現(xiàn)2. Python采用Python進(jìn)行數(shù)據(jù)分析需要掌握一系列庫(kù)的使用方法,包括NumPy(矩陣運(yùn)算庫(kù))、SciPy(統(tǒng)計(jì)運(yùn)算庫(kù))、Matplotlib(繪圖庫(kù))、Pandas(數(shù)據(jù)集操作)、SymPy(數(shù)值運(yùn)算庫(kù))等庫(kù),在Python中進(jìn)行數(shù)據(jù)分析時(shí),這些庫(kù)有廣泛的應(yīng)用。案例:我們根據(jù)工作經(jīng)驗(yàn)、薪資水平的歷史數(shù)據(jù),運(yùn)用Python相關(guān)知識(shí)建立線性回歸模型,然后根據(jù)給出的薪資水平來預(yù)測(cè)未來的薪資。數(shù)據(jù)源如圖2-25所示。圖225源數(shù)據(jù)步驟一:導(dǎo)入相關(guān)庫(kù),源碼如圖226所示。步驟二:讀取源數(shù)據(jù),源碼如圖2-27所示。圖
2-26
導(dǎo)入相關(guān)庫(kù)源碼圖
2-27
讀取源數(shù)據(jù)源碼步驟三:建立線性回歸模型,源碼如圖228所示。步驟四:求解參數(shù)及截距,結(jié)果如圖229所示。3. SPSSSPSS是世界上最早的統(tǒng)計(jì)分析軟件,由美國(guó)斯坦福大學(xué)的三位研究生于1968年研發(fā)成功,同時(shí)成立了SPSS公司,并于1975年成立法人組織,在芝加哥組建了SPSS總部。2009年7月28日,IBM公司宣布將用12億美元現(xiàn)金收購(gòu)統(tǒng)計(jì)分析軟件提供商SPSS公司。如今SPSS的最新版本為SPSS26.0,而且更名為IBMSPSSStatistics。迄今,SPSS公司已有40余年的成長(zhǎng)歷史。SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件,它最突出的特點(diǎn)是操作界面極為友好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,使用Windows窗口的方式展示各種管理和分析數(shù)據(jù)的功能,用對(duì)話框展示各種功能選擇項(xiàng)。用戶只要掌握一定的Windows操作技能,精通統(tǒng)計(jì)分析原理,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類似Excel表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便地從其他數(shù)據(jù)庫(kù)中讀入數(shù)據(jù)。其統(tǒng)計(jì)過程包括常用的、較為成熟的統(tǒng)計(jì)過程,完全可以滿足非統(tǒng)計(jì)專業(yè)人士的工作需要。輸出結(jié)果十分美觀,存儲(chǔ)格式是專用的SPO格式,可以轉(zhuǎn)存為HTML格式和文本格式。對(duì)于熟悉老版本編程運(yùn)行方式的用戶,SPSS還特別設(shè)計(jì)了語(yǔ)法生成窗口,用戶只需在菜單中選好各個(gè)選項(xiàng),然后單擊“粘貼”按鈕就可以自動(dòng)生成標(biāo)準(zhǔn)的SPSS程序。極大地方便了中、高級(jí)用戶。案例:圖2 30中的數(shù)據(jù)表達(dá)的是某公司月份的商品銷售情況,第一列是月份,第二列是當(dāng)月銷售商品種類數(shù),第三列是當(dāng)月的商品銷售量。我們現(xiàn)在需要通過回歸分析來了解商品上架種類和商品銷售量之間是否有關(guān)系,如果有的話又是怎樣的一種關(guān)系,并且是否可以通過目前的數(shù)據(jù)來預(yù)測(cè)12月份的商品銷售量情況。圖230源數(shù)據(jù)步驟一:如圖2-31所示,我們需要從“分析”菜單中選擇“回歸”→“線性”命令(回歸的模型選擇有很多種,本案例中我們選擇線性回歸)。圖
2
31
選擇線性回歸步驟二:在彈出的“線性回歸”對(duì)話框中,我們把銷售數(shù)量設(shè)為因變量,自變量為商品種類,如圖2-32所示圖
2
32
在
“
線性回歸”
對(duì)話框中參數(shù)設(shè)置步驟三:單擊右側(cè)的Statistics,在彈出的“線性回歸:統(tǒng)計(jì)”對(duì)話框中選擇Durbin-Watson復(fù)選框,單擊“繼續(xù)”按鈕,返回“線性回歸”對(duì)話框;單擊“繪圖”按鈕,選擇輸出殘差“直方圖”與“正態(tài)概率圖”,如圖2-33和圖2-34所示。其他的選項(xiàng)我們暫時(shí)接受系統(tǒng)默認(rèn)設(shè)置,不做更改。圖
2-33
參數(shù)設(shè)置圖
2-34
參數(shù)設(shè)置步驟四:單擊“繼續(xù)”按鈕返回“線性回歸”對(duì)話框,單擊“確定”按鈕,結(jié)果如圖235所示。圖2
35
結(jié)果呈現(xiàn)從圖2-35中我們可以看出,不管是R平方還是調(diào)整后的R平方都在90%以上,說明本次回歸模型的擬合效果是很好的。從圖2-35我們可以看出,方差分析的顯著性為0.00<0.05,說明在本次分析中商品種類和銷售數(shù)量之間存在顯著的線性關(guān)系。從圖2-35中我們可以看出,整個(gè)回歸分析的結(jié)果是很好的,t檢驗(yàn)里的顯著性水平0.00<0.05,說明本次回歸方程的系數(shù)是顯著的,具有統(tǒng)計(jì)學(xué)意義。本次回歸分析的回歸方程為:
Y=399.954+7.503X到這里不知道大家是不是也認(rèn)為整個(gè)回歸分析就做完了。其實(shí),我們還有重要的一步?jīng)]有驗(yàn)證,就是D-W檢驗(yàn)。在第一個(gè)模型匯總圖里,我們能看到本次分析的D-W值是1.475,可以通過查詢DurbinWatson檢驗(yàn)表,也可以看輸出的圖來判斷是否數(shù)據(jù)存在自相關(guān)等問題。圖2-36和圖2-37就是我們輸出的殘差圖,從圖中可以看出殘差的分布沒有呈現(xiàn)出明顯的規(guī)律性,說明此題的數(shù)據(jù)不存在自相關(guān)等情況,本次的回歸模型不用進(jìn)行其他操作,可以直接使用。圖2-36
直方圖圖2-37P-P
圖最后,我們既然得出了回歸方程,就可以對(duì)12月份的商品銷售情況做出相應(yīng)的預(yù)測(cè),直接往回歸方程里面代數(shù)就可以計(jì)算出來了。到這里,我們本次SPSSStatistics的回歸分析案例就全部做完了,舉這個(gè)比較簡(jiǎn)單的例子,要是讓大家看看如何使用SPSSStatistics。在工作中,我們需要的回歸模型可能會(huì)比這個(gè)復(fù)雜,但是原理都是一樣的,可以參考此案例。2.5數(shù)據(jù)可視化工具數(shù)據(jù)可視化是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的重要環(huán)節(jié)。數(shù)據(jù)可視化同時(shí)還廣泛存在于各種商業(yè)、政務(wù)、教育等領(lǐng)域的業(yè)務(wù)表述之中。因?yàn)椤皥D”才是喜聞樂見、通俗易懂的,也是最直觀的。不僅如此,數(shù)據(jù)可視化還是獨(dú)立的業(yè)務(wù),在現(xiàn)代社會(huì)中有各種引人注目的操作,比如將抽象的東西“可視化”“直觀化”等。本節(jié)主要向讀者介紹了數(shù)據(jù)可視化中常用工具的使用方法,并且通過多個(gè)實(shí)戰(zhàn)項(xiàng)目案例,讓讀者更深入地理解可視化的各種方法和技能。1. Excel數(shù)據(jù)可視化軟件很多,例如R、Python、第三方在線工具等,但是絕大部分對(duì)于初學(xué)者非常不友好,需要花大量時(shí)間去學(xué)習(xí)、研究。這里我強(qiáng)烈推薦Excel,因?yàn)槠鋵W(xué)習(xí)起來簡(jiǎn)單、兼容性極強(qiáng)。案例:圖2-38所示為某公司各銷售區(qū)域的銷售金額,現(xiàn)在需要體現(xiàn)出目標(biāo)的完成情況,可以用Excel中的數(shù)據(jù)條來實(shí)現(xiàn)。圖238效果圖展示2. TableauTableau是大數(shù)據(jù)可視化的市場(chǎng)領(lǐng)導(dǎo)者之一,在為大數(shù)據(jù)操作、深度學(xué)習(xí)算法和多種類型的AI應(yīng)用程序提供交互式數(shù)據(jù)可視化方面尤為高效。Tableau可以與AmazonAWS,MySQL、Hadoop、Teradata和SAP協(xié)作,成為一個(gè)能夠創(chuàng)建詳細(xì)圖形和展示直觀數(shù)據(jù)的多功能工具。這樣高級(jí)管理人員和中間鏈管理人員能夠基于包含大量信息且容易讀懂的Tableau圖形做出基礎(chǔ)決策。案例:根據(jù)“2019年各省市售電量明細(xì)表.xlsx”,制作各個(gè)地區(qū)銷售明細(xì)柱形圖。如圖2-39所示。圖239效果圖3. PythonPython有很多附加庫(kù)可以用來制作靜態(tài)或動(dòng)態(tài)的可視化文件,但是我們將主要關(guān)注Matplotlib和以它為基礎(chǔ)的庫(kù)。Matplotlib是一個(gè)用于生成出版級(jí)質(zhì)量圖表(通常是二維的)的桌面繪圖包。該項(xiàng)目由約翰·亨特(JohnHunter)于2002年發(fā)起,目的在于在Python環(huán)境下進(jìn)行MATLAB風(fēng)格的繪圖。Matplotlib和IPython社區(qū)合作簡(jiǎn)化了IPythonshell(目前是Jupyter筆記本)的交互式繪圖。Matplotlib支持所有操作系統(tǒng)上的各種GUI后端,還可以將可視化文件導(dǎo)出為所有常見的矢量和光柵圖形格式(PDF、SVG、JPG、PNG、BMP、GIF等)。隨著時(shí)間的推移,Matplotlib已經(jīng)產(chǎn)生了一些數(shù)據(jù)可視化的附加工具包,可使用Matplotlib進(jìn)行底層繪圖。案例:現(xiàn)需要在JupyterNotebook中繪制簡(jiǎn)單的折線圖,具體代碼及效果如圖240所示。圖2-40源碼及效果圖呈現(xiàn)2.2報(bào)告撰寫工具數(shù)據(jù)分析的最后一步就是撰寫分析報(bào)告。數(shù)據(jù)分析報(bào)告是對(duì)整個(gè)數(shù)據(jù)分析過程的一個(gè)總結(jié)與呈現(xiàn),通過報(bào)告,把數(shù)據(jù)分析的起因、過程、結(jié)果及建議完整地呈現(xiàn)出來。數(shù)據(jù)分析報(bào)告也是一種溝通與交流的形式,主要是指將分析的結(jié)果、可行性建議以及其他有價(jià)值的信息傳遞給決策者,從而讓決策者做出正確的判斷和決策。一般情況下,我們用Word或PowerPoint制作數(shù)據(jù)分析報(bào)告。
1. PowerPoint一份好的工作報(bào)告PPT會(huì)幫你有條理地闡述一段時(shí)間以來的工作情況,把你所要表達(dá)的信息組織在一組圖文并茂的畫面中,可以形象直觀地介紹、展示你的工作成果。步驟一:明確中心思想傳達(dá)的中心思想應(yīng)符合一定標(biāo)準(zhǔn),明確中心思想的要訣如下:有的放矢———具體的,而不是籠統(tǒng)的。貫穿整體———統(tǒng)領(lǐng)的,而不是局部的。擲地有聲———具有沖擊力的,而不是平淡的。言之有據(jù)———以事實(shí)科學(xué)分析為基礎(chǔ)的,而不是“靈光一現(xiàn)”的。步驟二:梳理結(jié)構(gòu),建立論證組織PPT匯報(bào)內(nèi)容結(jié)構(gòu),選擇合適的切入點(diǎn),如從問題入手、從解決方案入手、從理論入手、從成功案例或同行業(yè)其他成功經(jīng)驗(yàn)入手。步驟三:繪制PPT報(bào)告確定模板,確定匯報(bào)文件的風(fēng)格,包括背景、標(biāo)志和頁(yè)碼。擬好標(biāo)題,根據(jù)切割的版面撰寫每頁(yè)P(yáng)PT的題目,包括正文和目錄頁(yè)。選擇并繪制素材,選擇合適的素材進(jìn)行繪制和構(gòu)圖,包括圖表、文本和動(dòng)畫。修改潤(rùn)色,對(duì)PPT中的各個(gè)組成部分,如顏色、圖形的位置、標(biāo)題內(nèi)容等進(jìn)行修改,以達(dá)到最佳的表現(xiàn)效果。2. Word作為Office套件的核心程序,Word提供了許多易于使用的文檔創(chuàng)建工具,同時(shí)也提供了豐富的功能集供創(chuàng)建復(fù)雜的文檔使用。Word分析報(bào)告不僅簡(jiǎn)便易操作,同時(shí)滿足了不少政府機(jī)構(gòu)、企事業(yè)單位等的某些業(yè)務(wù)需求,比如政府工作的季度報(bào)告、年度報(bào)告等。同時(shí)它對(duì)習(xí)慣用Word的用戶來說,也極具親切感和誘惑力。(1) Word報(bào)告的種類1) 工作報(bào)告:工作報(bào)告是指下級(jí)單位向上級(jí)匯報(bào)某項(xiàng)工作或某一階段工作的進(jìn)展、成績(jī)、經(jīng)驗(yàn)、存在的問題及今后的打算等時(shí)使用的報(bào)告。2) 情況報(bào)告:情況報(bào)告用于向上級(jí)反映本單位發(fā)生的重大問題和主要情況。這類報(bào)告并不局限于某一具體工作,主要是針對(duì)工作中出現(xiàn)的有關(guān)問題及處理情況。例如,出現(xiàn)突發(fā)性重大事故,有關(guān)部門就必須立即向上級(jí)匯報(bào),以便于領(lǐng)導(dǎo)采取相應(yīng)的措施。處理后的有關(guān)情況也要向上級(jí)報(bào)告,使領(lǐng)導(dǎo)能把握事件發(fā)生的最新動(dòng)態(tài)。3) 答復(fù)報(bào)告:答復(fù)報(bào)告是指答復(fù)上級(jí)查詢事項(xiàng)時(shí)使用的報(bào)告。(2) 寫作格式1) 標(biāo)題:標(biāo)題由發(fā)文單位、事由和文種組成。報(bào)告的標(biāo)題有兩種情況,一是完全式,即寫出完整的標(biāo)準(zhǔn)式的公文標(biāo)題;二是省略式,即報(bào)告的標(biāo)題根據(jù)需要省略發(fā)文單位。2) 主送單位:報(bào)告的事項(xiàng)是誰(shuí)主管的,主送單位就寫誰(shuí)的名稱;如有抄送單位,在正文之后寫明抄送單位名稱。3) 正文:報(bào)告的正文分為緣由、事項(xiàng)和結(jié)尾三部分。緣由是報(bào)告的基礎(chǔ),說明發(fā)文的原因、依據(jù)和目的,或是由于形勢(shì)發(fā)展的要求,或是由于工作的需要,或是由于上級(jí)的指示等。這部分要寫得比較概括,把有關(guān)情況交代清楚就行了,不用展開。事項(xiàng)是報(bào)告的主體和核心部分,這是需要上級(jí)了解的主要內(nèi)容,要交代清楚。工作報(bào)告寫的是工作情況問題和今后的打算等;情況報(bào)告寫發(fā)生的具體事件的處理情況以及教訓(xùn)等;答復(fù)報(bào)告的內(nèi)容比較簡(jiǎn)單,上級(jí)問什么就答什么。結(jié)尾是一些習(xí)慣用語(yǔ),如特此報(bào)告、特此報(bào)告請(qǐng)審查等,應(yīng)另起一行。4) 落款:在正文之后的右下角寫明制發(fā)報(bào)告單位的名稱和日期,如果在標(biāo)題中已寫明發(fā)文單位的名稱,這里可以省略不寫。日期則年、月、日要寫齊全。感謝聆聽!第三章商務(wù)數(shù)據(jù)分析應(yīng)用目錄1、市場(chǎng)分析2、產(chǎn)品分析3、運(yùn)營(yíng)分析4、客戶分析1市場(chǎng)分析1.1市場(chǎng)需求調(diào)研1.2行業(yè)數(shù)據(jù)采集1.3市場(chǎng)定位分析1.4細(xì)分市場(chǎng)分析1.5市場(chǎng)生命周期分析1.5行業(yè)競(jìng)爭(zhēng)分析市場(chǎng)分析是企業(yè)進(jìn)行項(xiàng)目投資、戰(zhàn)略制定、開展咨詢和研究活動(dòng)的基石。一次完整的市場(chǎng)分析通常包括市場(chǎng)需求調(diào)研、行業(yè)數(shù)據(jù)采集、市場(chǎng)定位分析、細(xì)分市場(chǎng)分析、市場(chǎng)生命周期分析、行業(yè)競(jìng)爭(zhēng)分析等步驟。實(shí)際
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年安徽貨運(yùn)從業(yè)資格證模擬考試0題答案解析
- 2025年麗江道路運(yùn)輸從業(yè)資格證考試內(nèi)容是什么
- 電工技術(shù)及實(shí)訓(xùn)試題庫(kù)(含參考答案)
- 農(nóng)藝工高級(jí)題庫(kù)(含參考答案)
- 產(chǎn)權(quán)確認(rèn)協(xié)議書(2篇)
- 產(chǎn)品代理協(xié)議書(2篇)
- 機(jī)械設(shè)備著作權(quán)管理辦法
- 樁基工程施工精細(xì)化管理
- 地下空間臨時(shí)用地管理辦法
- 園林綠化工程材料購(gòu)銷合同模板
- 物資清運(yùn)方案及
- 熱穩(wěn)定校驗(yàn)計(jì)算書
- 2023-2024學(xué)年四川省成都市高一上英語(yǔ)期末考試題(含答案和音頻)
- 北京市房山區(qū)2023-2024學(xué)年三年級(jí)上學(xué)期期末數(shù)學(xué)試卷
- 《中國(guó)建筑股份有限公司施工企業(yè)質(zhì)量管理辦法》
- 在線開放課程申報(bào)書(成功申報(bào))
- 特種設(shè)備鍋爐日管控、周排查、月調(diào)度主要項(xiàng)目及內(nèi)容表
- 配電室運(yùn)行維護(hù)投標(biāo)方案(技術(shù)標(biāo))
- 快手申訴文本
- 小學(xué)體育隨班就讀學(xué)生個(gè)別輔導(dǎo)表
- 房屋維修方案三篇
評(píng)論
0/150
提交評(píng)論