數(shù)據(jù)可視化與分析基礎(第三版)_第1頁
數(shù)據(jù)可視化與分析基礎(第三版)_第2頁
數(shù)據(jù)可視化與分析基礎(第三版)_第3頁
數(shù)據(jù)可視化與分析基礎(第三版)_第4頁
數(shù)據(jù)可視化與分析基礎(第三版)_第5頁
已閱讀5頁,還剩258頁未讀, 繼續(xù)免費閱讀

付費閱讀全文

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

文前.indd12022/8/214:33:53

內(nèi)?容?簡?介

本書以循序漸進的方式,由淺入深地講解了數(shù)據(jù)分析的整個過程。全書共分7章,包括數(shù)據(jù)分析概述、數(shù)據(jù)獲

取、數(shù)據(jù)整理、數(shù)據(jù)可視化、數(shù)據(jù)挖掘基礎、數(shù)據(jù)分析報告和數(shù)據(jù)分析案例。每章內(nèi)附有實用性范例供讀者練習,

鞏固所學知識。

本書在講解數(shù)據(jù)可視化基礎性原理的同時,融入真實案例分析,具有較強的實用性,可幫助讀者舉一反三,真

正掌握大數(shù)據(jù)可視化和數(shù)據(jù)挖掘的工具軟件,并能運用大數(shù)據(jù)思維解決學習和工作中的實際問題。

本書適合作為高等院校非計算機專業(yè)大數(shù)據(jù)可視化、數(shù)字媒體設計等課程的教材,也可作為對數(shù)據(jù)分析感興趣

讀者的參考書。

圖書在版編目(CIP)數(shù)據(jù)

數(shù)據(jù)可視化與分析基礎/張丹玨主編.—3版.—北京:

中國鐵道出版社有限公司,2022.8

高等院校大數(shù)據(jù)技術與應用系列教材

ISBN978-7-113-29426-7

Ⅰ.①數(shù)…Ⅱ.①張…Ⅲ.①可視化軟件-高等學校-

教材Ⅳ.①TP31

中國版本圖書館CIP數(shù)據(jù)核字(2022)第118463號

書名:數(shù)據(jù)可視化與分析基礎

作者:張丹玨

策劃:曹莉群編輯部電話:(010)63549508

責任編輯:陸慧萍?彭立輝

封面設計:劉?穎

責任校對:焦桂榮

責任印制:樊啟鵬

出版發(fā)行:中國鐵道出版社有限公司(100054,北京市西城區(qū)右安門西街8號)

網(wǎng)址:/51eds/

印刷:北京柏力行彩印有限公司

版次:2019年8月第1版2022年8月第3版?2022年8月第1次印刷

開本:850?mm×1?168?mm?1/16印張:16.25字數(shù):418千

書號:ISBN978-7-113-29426-7

定價:52.00元

版權所有侵權必究

凡購買鐵道版圖書,如有印制質量問題,請與本社教材圖書營銷部聯(lián)系調(diào)換。電話:(010)63550836

打擊盜版舉報電話:(010)63549461

文前.indd22022/8/116:52:39

前言

大數(shù)據(jù)技術經(jīng)歷了多年的發(fā)展,已經(jīng)在金融、電信、教育、醫(yī)藥等領域得到了較多且較為成功的

應用,這使人們看到了該技術所帶來的社會變革,而IT技術的高速發(fā)展使得該技術趨于大眾化,使

得越來越多的人能夠參與其中,分享該技術帶來的樂趣。

本書系統(tǒng)地介紹了數(shù)據(jù)分析、數(shù)據(jù)可視化與數(shù)據(jù)挖掘的概念和方法,在內(nèi)容編排上側重于應用,

用案例將知識點進行串聯(lián)。本次修訂將數(shù)據(jù)分析過程細化為數(shù)據(jù)獲取、數(shù)據(jù)整理、數(shù)據(jù)可視化和數(shù)據(jù)

挖掘圖表制作、數(shù)據(jù)公式與函數(shù)、數(shù)據(jù)可視化案例,對其操作方案與步驟進行詳解,同時對書中的案

例進行了優(yōu)化,以期達到提高讀者學習興趣、增強實踐動手能力的目的。

本書對于初次接觸數(shù)據(jù)分析的讀者會有很大幫助,書中對數(shù)據(jù)分析的每一步操作都有詳盡的說明,

且選用的軟件都是相關工具軟件,無須編程基礎即可完成整個分析過程,使讀者能夠脫離枯燥的代碼

環(huán)境,專注于數(shù)據(jù)本身,為數(shù)據(jù)分析帶來全新的思路和視角。書中涉及的數(shù)據(jù)均來自網(wǎng)絡,僅供學習

研究使用。

本書由張丹玨擔任主編,鄭俊擔任副主編,李妍、趙任穎、施慶參與編寫。全書由顧順德主審。

具體編寫分工如下:第1章由施慶編寫;第2章由李妍編寫;第3章由趙任穎編寫;第4章的4.1~4.3、

4.5和4.6由鄭俊編寫;第4章的4.4由施慶編寫;第4章的4.7、第5~7章和附錄A由張丹玨整理;

附錄B由盛家駿、翁少逸、蔣雨蔚和張丹玨整理;附錄C由趙任穎整理。

本書贈送在線配套課程,讀者如有需要可以根據(jù)附錄C中的相關介紹進行在線學習。

在本書的編寫過程中,得到了許多老師的大力支持和熱情幫助,中國鐵道出版社有限公司的編輯

對本書的出版給予了大力支持,在此表示衷心的感謝!

由于時間倉促,編者水平有限,書中難免存在疏漏或不足之處,懇請讀者批評指正,以便及時修

改和完善。

編者

2022年3月

文前.indd32022/8/111:54:35

文前.indd42022/8/111:54:35

目錄

第1章?數(shù)據(jù)分析概述...............1第3章?數(shù)據(jù)整理..................29

1.1大數(shù)據(jù)簡介......................................................13.1初識FineBI.................................................29

1.2數(shù)據(jù)可視化......................................................23.1.1?軟件概況.................................29

1.2.1數(shù)據(jù)可視化概述......................23.1.2?軟件安裝與啟動.....................29

1.2.2?在線可視化工具......................23.1.3?FineBI主界面.........................34

1.2.3?桌面版可視化軟件..................63.2數(shù)據(jù)準備........................................................36

1.3?數(shù)據(jù)挖掘...........................................................83.2.1?業(yè)務包管理.............................36

1.3.1?數(shù)據(jù)挖掘概述..........................83.2.2?數(shù)據(jù)源連接.............................37

1.3.2?常用數(shù)據(jù)挖掘工具..................83.2.3?數(shù)據(jù)表基礎操作.....................40

1.4數(shù)據(jù)分析...........................................................93.3數(shù)據(jù)加工........................................................41

1.4.1數(shù)據(jù)分析概述..........................93.3.1?過濾........................................42

1.4.2數(shù)據(jù)分析的目的與分類.........103.3.2?分組匯總.................................46

1.4.3數(shù)據(jù)分析的作用.....................103.3.3?字段設置.................................48

1.5數(shù)據(jù)分析的步驟........................................103.3.4?排序........................................48

3.3.5?新增列....................................49

1.6數(shù)據(jù)分析方法論........................................12

3.3.6?數(shù)據(jù)表合并.............................52

1.7常見數(shù)據(jù)分析法則..................................12

3.4資源遷移........................................................54

第2章?數(shù)據(jù)獲取..................143.4.1?導入BI數(shù)據(jù)表.......................55

3.4.2?導出BI數(shù)據(jù)表.......................57

2.1?數(shù)據(jù)及數(shù)據(jù)來源........................................14

3.5綜合案例——交通違規(guī)數(shù)據(jù)整理....58

2.1.1?數(shù)據(jù)........................................14

2.1.2?數(shù)據(jù)來源.................................14第4章數(shù)據(jù)可視化................64

2.1.3?數(shù)據(jù)抓取.................................15

4.1?數(shù)據(jù)可視化概述........................................64

2.2?八爪魚采集器.............................................15

4.2?儀表板創(chuàng)建與設計..................................64

2.2.1?采集器簡介.............................15

4.2.1?儀表板概述.............................64

2.2.2?使用模板采集數(shù)據(jù).................16

4.2.2?儀表板的創(chuàng)建與設計.............65

2.2.3?智能識別采集數(shù)據(jù).................20

4.3?組件添加與編輯........................................69

2.2.4?自定義配置采集數(shù)據(jù).............22

文前.indd12022/8/111:54:35

II數(shù)據(jù)可視化與分析基礎

4.4?公式與函數(shù)..................................................845.3.2數(shù)據(jù)的角色...........................169

4.4.1?常量和運算符.........................845.3.3數(shù)據(jù)的導入...........................169

4.4.2?函數(shù)的組成.............................865.3.4數(shù)據(jù)的集成...........................174

4.4.3?計算語法.................................875.3.5數(shù)據(jù)的導出...........................175

4.4.4?邏輯函數(shù).................................885.3.6數(shù)據(jù)整合...............................176

4.4.5?數(shù)學和三角函數(shù).....................895.4數(shù)據(jù)建?!獩Q策樹..........................176

4.4.6?聚合函數(shù).................................905.4.1數(shù)據(jù)預測...............................176

4.4.7?文本函數(shù).................................925.4.2用戶畫像...............................180

4.4.8?日期函數(shù).................................945.4.3模型分析...............................183

4.4.9?快速計算函數(shù).........................965.5數(shù)據(jù)建模——關聯(lián)分析....................185

4.5?組件類型與應用.....................................1035.5.1關聯(lián)參數(shù)...............................185

4.5.1?可視化組件...........................1035.5.2關聯(lián)分析...............................186

4.5.2?過濾組件...............................1325.6綜合案例——成績分析....................188

4.5.3?其他組件...............................135

4.6?鉆取與聯(lián)動...............................................137第6章數(shù)據(jù)分析報告............193

4.7?綜合案例.....................................................1416.1數(shù)據(jù)分析報告概述...............................193

4.7.1?景點客流量展示...................1416.2數(shù)據(jù)分析報告的寫作原則...............193

4.7.2?校情展示...............................1476.3數(shù)據(jù)分析報告的結構..........................194

第5章數(shù)據(jù)挖掘基礎............1586.4數(shù)據(jù)分析報告排版..............................195

5.1數(shù)據(jù)挖掘概述..........................................1586.5綜合案例——數(shù)據(jù)分析報告

5.1.1數(shù)據(jù)挖掘的分類...................158排版................................................................196

5.1.2數(shù)據(jù)挖掘的步驟...................159

第7章數(shù)據(jù)分析案例............202

5.1.3數(shù)據(jù)挖掘的應用...................160

5.1.4數(shù)據(jù)挖掘的案例...................1607.1廣告投放分析..........................................202

5.2IBMSPSSModeler18簡介.......161

7.1.1數(shù)據(jù)導入...............................202

5.2.1軟件下載與安裝...................1627.1.2創(chuàng)建儀表板...........................203

5.2.2軟件界面介紹.......................1627.1.3制作“廣告投放分析

5.2.3數(shù)據(jù)流構建...........................164首頁”儀表板......................204

5.2.4模型簡介...............................1667.1.4制作“廣告投放概況

5.3數(shù)據(jù)整理.....................................................168分析”儀表板......................204

5.3.1數(shù)據(jù)的屬性...........................1697.1.5制作“廣告投放渠道

分析”儀表板......................209

文前.indd22022/8/111:54:35

目?錄III

7.1.6制作“注冊人數(shù)預測”7.2.5制作“基于RFM模型的

儀表板..................................211客戶價值分析”儀表板.......221

7.1.7制作“結論和建議”7.2.6制作“用戶畫像”

儀表板..................................214儀表板..................................228

7.1.8導出儀表板...........................2157.2.7制作“結論和建議”

7.2客戶價值分析..........................................216儀表板..................................233

7.2.1數(shù)據(jù)導入...............................2167.2.8導出儀表板...........................234

7.2.2創(chuàng)建儀表板...........................216附錄A數(shù)據(jù)分析報告評分表......235

7.2.3制作“客戶價值分析

附錄B數(shù)據(jù)分析報告示例........236

首頁”儀表板.......................217

7.2.4制作“基于帕累托模型的附錄C如何獲取在線配套課程....251

客戶價值分析”儀表板.......218

文前.indd32022/8/111:54:35

文前.indd42022/8/111:54:35

第1章

數(shù)據(jù)分析概述

在當今飛速發(fā)展的數(shù)字化社會,數(shù)據(jù)量呈現(xiàn)井噴式增長,如何從這些數(shù)據(jù)中提取有效信息顯得尤為

重要和迫切。一個專業(yè)的數(shù)據(jù)分析師,除了需要掌握各項操作技能、了解各種數(shù)據(jù)分析工具,更重要的

是具備數(shù)據(jù)分析的思維邏輯。

本章將著重介紹數(shù)據(jù)分析領域的相關概念、工具及方法,幫助讀者了解大數(shù)據(jù)、數(shù)據(jù)可視化、數(shù)據(jù)

挖掘以及數(shù)據(jù)分析的步驟、方法和分析法則,為后續(xù)的學習打下扎實的理論基礎。

1.1大數(shù)據(jù)簡介

大數(shù)據(jù)(BigData)又稱巨量資料,是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流

程優(yōu)化能力,來適應海量、高增長率和多樣化的信息資源。

大數(shù)據(jù)具有以下5V特征:

(1)Volume(大量):指巨大的數(shù)據(jù)量,包括采集、存儲及計算過程中的數(shù)據(jù)。大數(shù)據(jù)的起始計

算單位一般是PB、EB或ZB。

數(shù)據(jù)量的單位換算如下:

1GB(GigaByte、吉字節(jié))=1024MB

1TB(TrillionByte、太字節(jié))=1024GB

1PB(PetaByte、拍字節(jié))=1024TB

1EB(ExaByte、艾字節(jié))=1024PB

1ZB(ZettaByte、澤字節(jié))=1024EB

(2)Velocity(高速):指數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。

(3)Variety(多樣):指種類和數(shù)據(jù)來源多樣化,包括結構化、半結構化和非結構化數(shù)據(jù),具體

表現(xiàn)為網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的

要求。

(4)Value(價值):指數(shù)據(jù)價值密度相對較低。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應用,信息感知無

01.indd12022/8/111:44:00

2數(shù)據(jù)可視化與分析基礎

處不在,而價值密度的高低與數(shù)據(jù)總量的大小成反比,因此,如何通過強大的機器算法迅速地完成數(shù)據(jù)

的價值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。

(5)Veracity(真實性):指數(shù)據(jù)的準確性和可信賴度,即數(shù)據(jù)的質量。

1.2數(shù)據(jù)可視化

1.2.1數(shù)據(jù)可視化概述

數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地傳達數(shù)據(jù)中蘊含的信息,其本質是將復雜的數(shù)據(jù)用視

覺展示的方式增強用戶對數(shù)據(jù)的理解,以準確、形象、快速的傳達方式凸顯數(shù)據(jù)的含義。數(shù)據(jù)可視化綜

合應用計算機科學、圖形學、可視化設計、心理學等多個領域的知識,運用符合人類視覺系統(tǒng)的方式為

用戶提供簡潔、直觀、形象、有趣、易于理解的數(shù)據(jù)展示,從而幫助用戶了解數(shù)據(jù),應用數(shù)據(jù)。

值得一提的是:數(shù)據(jù)可視化是一個處于不斷演變中的概念,其邊界在不斷地擴大,涵蓋的范圍也變

得越來越廣。

1.2.2?在線可視化工具

常見的在線可視化工具有以下幾種:

1.ECharts

ECharts是一個免費的、功能強大的、可視化的庫。它可以流暢地運行在PC和移動設備上,兼容

當前絕大部分瀏覽器(如EdgeChrome、Firefox、Safari等),底層依賴輕量級的Canvas類庫ZRender,

提供直觀、生動、可交互、可高度個性化定制的數(shù)據(jù)可視化圖表。簡單地說,ECharts就是一個幫助數(shù)

據(jù)可視化的庫。官方實例如圖1-1所示。

圖1-1?ECharts官方實例

01.indd22022/8/111:44:00

第1章數(shù)據(jù)分析概述3

2.GAPMINDER

GAPMINDER是位于瑞典斯德哥爾摩的一個非營利機構的網(wǎng)站,目的是“replacedevastatingmyths

withafact-basedworldview”。它們收集了大量的國際統(tǒng)計數(shù)據(jù),用非常簡單形象而極富動感的方式進

行展示,既可在線播放,又可下載(每次聯(lián)網(wǎng)時會自動下載更新數(shù)據(jù)),免費使用。官方實例如圖1-2

所示。

圖1-2?GAPMINDER官方實例

3.D3

D3全稱是Data-DrivenDocuments,顧名思義是一個被數(shù)據(jù)驅動的文檔,它是一個JavaScript的函數(shù)庫,

主要用于數(shù)據(jù)可視化的展現(xiàn)。官方實例如圖1-3所示。

圖1-3?D3官方實例

01.indd32022/8/111:44:00

4數(shù)據(jù)可視化與分析基礎

4.RAWGraphs

RAWGraphs號稱是“電子表格和矢量圖形之間的缺失鏈接”,它建立在D3.js之上,界面設計直觀,

開源免費,不需要任何注冊。它有一個21種圖表類型的庫可供選擇,所有的處理均在瀏覽器中完成。此外,

RAWGraphs是高度可定制和可擴展的,甚至可以接受新的自定義布局。官方實例如圖1-4所示。

圖1-4?RAWGraphs官方實例

5.Datawrapper

Datawrapper是一個用于制作交互式圖表的在線數(shù)據(jù)可視化工具。通過從CSV文件上傳數(shù)據(jù)或直接

將其粘貼到字段中,Datawrapper將生成相關的可視化文件,非常容易使用和生成有效的圖形。官方實

例如圖1-5所示。

圖1-5?Datawrapper官方實例

01.indd42022/8/111:44:00

第1章數(shù)據(jù)分析概述5

6.TableauOnline

TableauOnline是目前較為流行的可視化工具,它支持各種圖表、圖形和地圖。這是一個完全免費

的工具,用它制作的圖表可以很容易地嵌入到任何網(wǎng)頁中,無須離開瀏覽器,即可連接到數(shù)據(jù)源,也可

以使用Web制作功能新建工作簿和可視化。此外,Tableau還有可供下載的付費版本。官方實例如圖1-6

所示。

圖1-6?Tableau官方實例

7.Plotly

Plotly是一個開源的Python的庫,可以完成基于Web的數(shù)據(jù)分析和繪圖生成。使用Plotly輸出的結

果是一個使用Plotly.js繪制而成的交互網(wǎng)頁,同樣支持生成靜態(tài)圖表,如pdf、png之類的。官方實例如

圖1-7所示。

圖1-7?Plotly官方實例

01.indd52022/8/111:44:01

6數(shù)據(jù)可視化與分析基礎

8.VisualizeFree

VisualizeFree是一個免費的可視化工具,其本質上是一個托管平臺,允許用戶使用公開的或者自行

上傳的數(shù)據(jù)集,然后依據(jù)設置,構建完成交互式可視化的演示數(shù)據(jù)。官方實例如圖1-8所示。

圖1-8?VisualizeFree官方實例

1.2.3?桌面版可視化軟件

相對于在線可視化工具的種種功能性局限,以下4種桌面版可視化軟件則更為方便易用。

1.FineBI

FineBI是由帆軟軟件有限公司推出的一款商業(yè)智能(BusinessIntelligence)產(chǎn)品,是國內(nèi)較為成熟

的可視化分析軟件,用戶可以通過快速的數(shù)據(jù)處理和管控,對數(shù)據(jù)進行便捷的探索分析。

FineBI的主要優(yōu)勢如下:

(1)完善的數(shù)據(jù)準備管理策略。FineBI支持豐富的數(shù)據(jù)源連接,幫助企業(yè)進行多樣數(shù)據(jù)整合;支

持數(shù)據(jù)業(yè)務包功能,基于業(yè)務需求做好數(shù)據(jù)分類管理;支持智能的表間字段關聯(lián),多種關聯(lián)方式搭配使

用;支持表與字段名稱智能轉義,增強數(shù)據(jù)可讀可用性;自帶數(shù)據(jù)處理工具,支持對數(shù)據(jù)進行轉換處理,

如構建自循環(huán)列等。

(2)靈活的自助數(shù)據(jù)處理。FineBI重點打造的自助數(shù)據(jù)集,提供了新增列、分組統(tǒng)計、過濾、排序、

01.indd62022/8/111:44:01

第1章數(shù)據(jù)分析概述7

上下合并、左右合并等功能,可讓用戶以極低的學習成本將數(shù)據(jù)處理成自己需要的結果。

(3)可視化探索式分析。用戶只需要進行簡單的拖動操作,選擇需要分析的字段,就能夠以最直

觀快速的方式了解自己的數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)問題的模塊。同時FineBI提供的強大可視化效果,還可以讓

用戶的數(shù)據(jù)以更生動、更有沖擊力的方式進行展現(xiàn)。

(4)完備的數(shù)據(jù)共享與呈現(xiàn)方案。FineBI支持PC端和移動端,支持自由切換數(shù)據(jù)的分析維度、

指標、方式以及過濾條件,支持鉆取、聯(lián)動,也支持數(shù)據(jù)的注釋標記、分享、推送提醒等功能,用戶可

以隨時隨地了解自己關心的數(shù)據(jù)。

(5)以IT為中心的企業(yè)級管控。FineBI提供了以IT為中心的企業(yè)級管控方案,應用FineBI管理

平臺,IT中心可以輕松地進行報表管理、用戶管理、機構管理、權限管理等,讓用戶在有序的管控下,

能夠自由地針對權限范圍內(nèi)的數(shù)據(jù)進行BI分析以及數(shù)據(jù)洞察。

2.OracleAnalyticsDesktop

OracleAnalyticsDesktop是Oracle推出的一個數(shù)據(jù)可視化獨立產(chǎn)品,也是OracleBI產(chǎn)品BIEE的一

部分。OracleAnalytics的產(chǎn)品組件,不僅支持本地部署,也可以在云端方便地訪問,甚至在個人的桌面端,

用戶也可以隨時隨地自如地分析任何來自個人或企業(yè)內(nèi)部的數(shù)據(jù)。

OracleAnalyticsDesktop在方便用戶使用、加速交互性的同時,保證數(shù)據(jù)的準確性和一致性,并具

有以下亮點:

(1)可視:用豐富的可視化控件展示數(shù)據(jù),且方便分享給其他人。

(2)簡單:不論是加載數(shù)據(jù),或者混搭不同來源的數(shù)據(jù),還是以拖動的方式進行交互性探索,都

以用戶期望的方式進行。

(3)快速:只需要通過點擊,就可以快速地檢索數(shù)據(jù),找到更多的答案和業(yè)務洞察。

(4)智能:對數(shù)據(jù)進行解讀,推薦最佳的表現(xiàn)形式,并可以根據(jù)上下文自動進行聯(lián)動。

OracleAnalyticsDesktop可以有多種部署選擇,包括云端的OracleAnalyticsCloud、本地部署的

OracleAnalytics以及桌面版OracleAnalyticsDesktop。用戶可以根據(jù)實際需要,選擇任何一種工作方式,

利用相同的技術進行自助式的數(shù)據(jù)探索,并且可以在不同的工作方式下非常容易地進行遷移和共享。

3.PowerBI

PowerBI是微軟旗下的一個一體化的BI和分析平臺,提供“即服務”或者桌面客戶端,但是評分

最高的還屬其可視化功能??梢暬軌蛑苯訌膱蟾嬷袆?chuàng)建,可以同整個組的用戶共享。除了大量的內(nèi)置

可視化樣式外,也可以在AppSource社區(qū)不斷創(chuàng)建新的可視化樣式。如果用戶想自己編碼,可以使用開

發(fā)人員工具(DeveloperTools)從頭開始創(chuàng)建并與其他用戶共享。它還包括一個自然語言界面,允許通

過簡單的搜索詞建立不同復雜度的可視化。

PowerBI的主要產(chǎn)品有PowerBI、PowerBIDesktop、PowerBIPremium、PowerBIMobile、PowerBI

Embedded和PowerBIReportServer。

4.TableauDesktop

Tableau是一家提供商業(yè)智能的軟件公司,主要產(chǎn)品有TableauPublic、TableauDesktop、Tableau

Online、TableauServer、TableauMobile和嵌入式分析等。TableauDesktop是桌面系統(tǒng)中最簡單的商業(yè)智

能工具軟件之一。Tableau是能夠幫助用戶查看并理解數(shù)據(jù)的商業(yè)智能軟件,具有分析快速、簡單易用、

01.indd72022/8/111:44:01

8數(shù)據(jù)可視化與分析基礎

不限數(shù)據(jù)源、智能儀表板、自動更新、瞬時共享等特點。

“所有人都能學會的業(yè)務分析工具”,這是Tableau官網(wǎng)上對TableauDesktop的描述。Tableau

Desktop是基于斯坦福大學突破性技術的軟件應用程序,分個人版和專業(yè)版。TableauDesktop能連接許

多數(shù)據(jù)源,如Access、Excel、文本文件、DB2、MSSQLServer、Sybase等,在獲取數(shù)據(jù)源中的各類結構

化數(shù)據(jù)后,它幫助用戶生動地分析實際存在的任何結構化數(shù)據(jù),以在幾分鐘內(nèi)生成美觀的圖表、坐標圖、

儀表盤與報告。利用Tableau簡便的拖放式界面,可以自定義視圖、布局、形狀、顏色等,幫助用戶展

現(xiàn)自己的數(shù)據(jù)視角。

1.3?數(shù)據(jù)挖掘

1.3.1?數(shù)據(jù)挖掘概述

在大數(shù)據(jù)時代,如果人們想要探究數(shù)據(jù)深層次的內(nèi)涵,離不開數(shù)據(jù)挖掘的操作。數(shù)據(jù)挖掘(Data

Mining),又譯為資料探勘、數(shù)據(jù)采礦,一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。

數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)和模式

識別等諸多方法來實現(xiàn)上述目標。

數(shù)據(jù)挖掘常見的分析方法有分類、估計、預測、相關性分組或關聯(lián)規(guī)則、聚類復雜數(shù)據(jù)類型挖掘等。

1.3.2?常用數(shù)據(jù)挖掘工具

1.IBMSPSSModeler

IBMSPSSModeler是IBM開發(fā)的一個面向商業(yè)用戶的高品質數(shù)據(jù)挖掘工具,該軟件擁有可視化用戶

界面,簡單易用,且包含多種挖掘算法,可快速建立數(shù)據(jù)模型,挖掘結果直觀易懂,可應用于商業(yè)活動,

從而改進決策過程,故在數(shù)據(jù)挖掘領域具有較好的口碑。

2.R

R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放軟件,有UNIX、Linux、MacOS和Windows版本,

是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能

包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具;完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而

強大的編程語言,可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能。

事實上,與其說R是一種統(tǒng)計軟件,還不如說R是一種數(shù)學計算的環(huán)境,因為R并不僅僅提供若

干統(tǒng)計程序,用戶只需指定數(shù)據(jù)庫和若干參數(shù)便可進行統(tǒng)計分析。R的思想是:它可以提供一些集成的

統(tǒng)計工具,但更大量的是它提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而使用戶能靈活機動地進行數(shù)據(jù)分

析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。

3.OracleDataMining

OracleDataMining是OracleAdvancedAnalytics數(shù)據(jù)庫選件的一個組件,它提供了強大的數(shù)據(jù)庫挖掘

算法,可以讓數(shù)據(jù)分析師發(fā)現(xiàn)洞察、做出預測并利用其Oracle數(shù)據(jù)進行投資。通過OracleDataMining,

用戶可以在Oracle數(shù)據(jù)庫中構建和應用預測性模型,從而幫助用戶預測客戶行為、確定理想客戶、制定

01.indd82022/8/111:44:01

第1章數(shù)據(jù)分析概述9

客戶檔案、發(fā)現(xiàn)交叉銷售機會、發(fā)現(xiàn)異常情況并識別潛在欺詐行為。

OracleDataMining中的算法以SQL函數(shù)形式實現(xiàn),充分利用了Oracle數(shù)據(jù)庫的優(yōu)勢。SQL數(shù)據(jù)挖

掘函數(shù)可以挖掘數(shù)據(jù)表和視圖、星狀模式數(shù)據(jù),包括事務性數(shù)據(jù)、聚合、非結構化數(shù)據(jù),即CLOB數(shù)據(jù)

類型(使用OracleText提取令牌),以及空間數(shù)據(jù)。OracleAdvancedAnalyticsSQL數(shù)據(jù)挖掘函數(shù)充分利

用數(shù)據(jù)庫的并行能力進行模型構建和模型應用,并沿用所有數(shù)據(jù)和用戶權限和安全方案,可以在SQL

查詢、BI儀表盤和嵌入式實時應用中包含預測模型。

4.Weka

Weka全稱是WaikatoEnvironmentforKnowledgeAnalysis,是一個公開的數(shù)據(jù)挖掘工作平臺,集合了

大量能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理,提供分類、回歸、聚類、關聯(lián)規(guī)則

以及在新的交互式界面上的可視化。

2005年8月,在第11屆ACMSIGKDD國際會議上,Waikato大學的Weka小組榮獲了數(shù)據(jù)挖掘和

知識探索領域的最高服務獎,Weka系統(tǒng)得到了廣泛的認可,被譽為數(shù)據(jù)挖掘和機器學習歷史上的里程碑,

是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一,每月下載量超過萬次。Weka高級用戶可以通過Java編程和命令行

來調(diào)用其分析組件。同時,Weka也為普通用戶提供了圖形化界面,與R相比,Weka在統(tǒng)計分析方面較弱,

但在機器學習方面要強得多。

5.RapidMiner

RapidMiner是一個用于機器學習和數(shù)據(jù)挖掘實驗的環(huán)境,用于研究實際的數(shù)據(jù)挖掘任務,是世界領

先的數(shù)據(jù)挖掘開源系統(tǒng)。該工具以Java編程語言編寫,通過基于模板的框架提供高級分析。

6.KNIME

KNIME是一個基于Eclipse平臺開發(fā)、開源的模塊化數(shù)據(jù)挖掘軟件平臺。它提供了自建服務器版和

云版兩種支持方式,能夠讓用戶可視化創(chuàng)建數(shù)據(jù)流,選擇性地執(zhí)行部分或所有分解步驟,然后通過數(shù)據(jù)

和模型上的交互式視圖研究執(zhí)行后的結果。

KNIME兼容多種數(shù)據(jù)形式,如純文本、數(shù)據(jù)庫、文檔、圖像、網(wǎng)絡,還支持基于Hadoop的數(shù)據(jù)格

式,兼容多種數(shù)據(jù)分析工具和語言。此外,KNIME還支持R語言和Python語言的腳本,從而提供了易

于使用的圖形化接口,能夠把分析結果通過生動形象的圖形展示給用戶。

KNIME核心版本已經(jīng)包含數(shù)百個數(shù)據(jù)集成模塊(文件I/O,支持所有通用JDBC的通用數(shù)據(jù)庫管理

系統(tǒng)的數(shù)據(jù)庫節(jié)點)、數(shù)據(jù)轉換(過濾器、轉換器、組合器),以及常用的數(shù)據(jù)分析和可視化方法。使

用免費的ReportDesigner擴展,KNIME工作流可用作數(shù)據(jù)集,以創(chuàng)建可導出為doc、ppt、xls、pdf等文

檔格式的報告模板。

1.4數(shù)據(jù)分析

1.4.1數(shù)據(jù)分析概述

數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總、理解并消化,

以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。

01.indd92022/8/111:44:01

10數(shù)據(jù)可視化與分析基礎

1.4.2數(shù)據(jù)分析的目的與分類

數(shù)據(jù)分析的目的是把隱藏在大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結所研究對象

的內(nèi)在規(guī)律,幫助管理者進行有效的判斷和決策。

數(shù)據(jù)分析的分類有以下3種:

(1)描述性數(shù)據(jù)分析:側重于概括和表述數(shù)據(jù)的整體狀況。

(2)探索性數(shù)據(jù)分析:側重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征。

(3)驗證性數(shù)據(jù)分析:側重于驗證已有假設的真?zhèn)巍?/p>

1.4.3數(shù)據(jù)分析的作用

數(shù)據(jù)分析的作用主要體現(xiàn)在以下幾方面。

1.市場營銷方面

通過數(shù)據(jù)分析和數(shù)據(jù)挖掘技術,可以精準地尋找目標用戶,發(fā)現(xiàn)用戶特征,構建用戶畫像,預測用

戶行為,對用戶進行合理分群、用戶偏好預測、用戶個性化推薦等。

此外,通過對用戶行為分析研究,針對用戶的多維度屬性、標簽和行為數(shù)據(jù),進行用戶流失預警、

用戶生命周期分析、用戶影響力分析、用戶價值分析等相關用戶行為研究。

再者,通過監(jiān)測并分析行業(yè)競品情況,收集并解讀相關用戶和市場研究報告,為公司產(chǎn)品規(guī)劃提供

支持,對行業(yè)競爭品和行情進行監(jiān)控。

2.運營管理方面

在運營管理方面,通過對日常報告和數(shù)據(jù)的制作與維護,運營人員可以對公司業(yè)務的運營情況展開

深入分析,提出發(fā)展策略和建議。借助于監(jiān)控評估運營活動效能,運營人員也可以評估運營活動效能,

提出營銷活動優(yōu)化和成本控制解決方案,并主導或協(xié)助落實。在公司管理層面,通過數(shù)據(jù)分析,可以針

對運營團隊整體KPI考核及情況制定對應績效考核方案并跟蹤績效考核實施。

3.產(chǎn)品研發(fā)方面

數(shù)據(jù)分析可以幫助產(chǎn)品進行優(yōu)化升級,并對新產(chǎn)品的研發(fā)提供有效的數(shù)據(jù)支持。

4.大數(shù)據(jù)平臺支持方面

對于基金、證券、期貨、投資這些金融行業(yè),每天都會產(chǎn)生大量的數(shù)據(jù),這些海量的數(shù)據(jù)更是離不

開數(shù)據(jù)分析的輔助,對于深層次的數(shù)據(jù)挖掘具有強大的應用前景。

5.其他方面

此外,數(shù)據(jù)分析在餐飲行業(yè)、旅游行業(yè)、快速消費品行業(yè)、教育行業(yè)、物流行業(yè)、互聯(lián)網(wǎng)金融行業(yè)、

建筑業(yè)等都具有舉足輕重的價值。在如今這個時代,誰先認識到數(shù)據(jù)分析的巨大潛力并付諸行動,誰就

能搶占先機。

1.5數(shù)據(jù)分析的步驟

數(shù)據(jù)分析過程包括6個循序漸進的基本步驟,它們相輔相成,缺一不可,是企業(yè)在數(shù)據(jù)分析時必不

可少的步驟。

01.indd102022/8/111:44:01

第1章數(shù)據(jù)分析概述11

1.明確分析目的和思路

明確分析目的和思路有助于幫助分析者提供清晰的指引方向,保證數(shù)據(jù)分析的有效進行。

2.數(shù)據(jù)收集

數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析目的收集相關數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供基礎。一般數(shù)據(jù)來源

于以下4個渠道:

(1)權威機構:各國各級政府公開發(fā)布的數(shù)據(jù),如中國國家統(tǒng)計局等。

(2)互聯(lián)網(wǎng):網(wǎng)絡平臺上公開的數(shù)據(jù)信息,如微博、百度、大眾點評等。

(3)市場調(diào)查:自發(fā)進行的調(diào)研活動,向特定的群體收集數(shù)據(jù)。

(4)企業(yè)數(shù)據(jù)庫:企業(yè)掌握的生產(chǎn)、運營數(shù)據(jù),一般這類數(shù)據(jù)不會公開發(fā)布,或者經(jīng)過脫敏后公

開使用。

3.數(shù)據(jù)預處理

數(shù)據(jù)預處理是指對收集到的數(shù)據(jù)進行加工整理,形成適合數(shù)據(jù)分析的樣式,是數(shù)據(jù)分析前必不可少

的階段,其目的是從大量的、雜亂無章、難以理解的數(shù)據(jù)中抽取并導出對解決問題有價值、有意義的數(shù)

據(jù),從而提高數(shù)據(jù)分析的效率。

數(shù)據(jù)預處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等。

4.數(shù)據(jù)分析

數(shù)據(jù)分析是指用適當?shù)姆治龇椒肮ぞ撸瑢μ幚磉^的數(shù)據(jù)進行分析,提取有價值的信息,形成有效

結論的過程。

數(shù)據(jù)分析分為以下三大類:

(1)描述性數(shù)據(jù)分析:側重于概括和表述數(shù)據(jù)的整體狀況,包括數(shù)量統(tǒng)計、數(shù)據(jù)缺失情

況、樣本分布、平均值、分位數(shù)、方差、指標在時間和空間上的變化趨勢等。

(2)探索性數(shù)據(jù)分析:側重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征,是為了形成值得假設的檢驗而對數(shù)據(jù)進行

分析的一種方法,是對傳統(tǒng)統(tǒng)計學假設檢驗手段的補充。探索性數(shù)據(jù)分析的出發(fā)點不僅是確定數(shù)據(jù)質量,

更是從數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)頒布的模式和提出新的假設。

(3)驗證性數(shù)據(jù)分析:側重于驗證已有假設的真?zhèn)?,注重對?shù)據(jù)模型和研究假設的驗證。

5.數(shù)據(jù)展現(xiàn)

數(shù)據(jù)展現(xiàn)在數(shù)據(jù)分析步驟中是一個重要的角色,只有將收集的數(shù)據(jù)通過處理和分析,形成有用的信

息,并且用圖形,如柱形圖、餅圖、折線圖等進行展現(xiàn),能讓人們一目了然地發(fā)現(xiàn)數(shù)據(jù)的本質及作用。

數(shù)據(jù)展現(xiàn)需要做到內(nèi)容清晰易理解、信息完整明確、簡潔美觀。

6.報告撰寫

撰寫報告是數(shù)據(jù)分析的最后一步,是整個數(shù)據(jù)分析過程的總結,是給企業(yè)決策者的一種參考,為決

策者提供科學、嚴謹?shù)臎Q策依據(jù)。

一份優(yōu)秀的數(shù)據(jù)分析報告,需要有一個明確的主題和一個清晰的目錄,能圖文并茂地闡述數(shù)據(jù)、條

理清晰地呈現(xiàn)結論,使決策者能一目了然地看出報告的核心內(nèi)容,這樣既能給閱讀者視覺上的沖擊,又

能很明確地闡述數(shù)據(jù)分析的核心內(nèi)容

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論