大數(shù)據(jù)分析方法與應(yīng)用 課件 第1、2章 大數(shù)據(jù)概述、數(shù)據(jù)分析基礎(chǔ)_第1頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第1、2章 大數(shù)據(jù)概述、數(shù)據(jù)分析基礎(chǔ)_第2頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第1、2章 大數(shù)據(jù)概述、數(shù)據(jù)分析基礎(chǔ)_第3頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第1、2章 大數(shù)據(jù)概述、數(shù)據(jù)分析基礎(chǔ)_第4頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第1、2章 大數(shù)據(jù)概述、數(shù)據(jù)分析基礎(chǔ)_第5頁
已閱讀5頁,還剩82頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)分析方法與應(yīng)用第1章大數(shù)據(jù)概述1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對科學研究和經(jīng)濟社會的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.1大數(shù)據(jù)的相關(guān)概念

大數(shù)據(jù)來源歸納為以下三點:科學研究產(chǎn)生大數(shù)據(jù)大數(shù)據(jù)的信息交互比以往任何時候?qū)茖W研究的影響都要突出,尤其是各大實驗室之間的實驗數(shù)據(jù)交流分享。比如類似希格斯玻色子的發(fā)現(xiàn)就需要36個國家的150多個計算中心之間每年進行約26PB(26×1015B)的數(shù)據(jù)共享。龐大網(wǎng)絡(luò)信息形成大數(shù)據(jù)淘寶網(wǎng)擁有超過7億注冊會員,每天交易量超過1.2萬億元。醫(yī)院里,一個病人的CT影像數(shù)據(jù)量達幾十GB,而全國每年的門診人數(shù)以數(shù)十億計,并且病人的數(shù)據(jù)需要長時間保存。物聯(lián)網(wǎng)(InternetofThings,IoT)產(chǎn)生大數(shù)據(jù)物聯(lián)網(wǎng)設(shè)備和傳感器生成大量的數(shù)據(jù)(例如智能工業(yè)設(shè)備、智能產(chǎn)品等),這些數(shù)據(jù)通過云平臺進行存儲和處理,從中可以提取有價值的信息,支持決策制定、優(yōu)化資源利用和改善用戶體驗。1.1大數(shù)據(jù)的相關(guān)概念

1.1.2大數(shù)據(jù)的概念與特征Gartner咨詢公司給出的定義是:“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。”維基百科對大數(shù)據(jù)的定義如下:在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲、搜索、共享、分析和可視化。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。1.1大數(shù)據(jù)的相關(guān)概念

1.1.2大數(shù)據(jù)的概念與特征IBM(國際商業(yè)機器公司)提出了大數(shù)據(jù)“5V”的概念,即在“4V”的基礎(chǔ)上多了一個特征——Veracity(數(shù)據(jù)質(zhì)量),表示數(shù)據(jù)的準確性和可信賴度。1.1大數(shù)據(jù)的相關(guān)概念

1.1.3大數(shù)據(jù)的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)指通過二維表結(jié)構(gòu)來完成邏輯表達的數(shù)據(jù),也稱行數(shù)據(jù),主要通過關(guān)系數(shù)據(jù)庫進行存儲和管理。非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相對的,不適于用二維表來表現(xiàn)的是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)屬性,包括所有格式的辦公文檔、各類報表、圖片、音頻、視頻、日志、地形等數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)既具有一定的結(jié)構(gòu),又靈活多變,其實也是非結(jié)構(gòu)化數(shù)據(jù)的一種,如員工簡歷、電子郵件等。處理這類數(shù)據(jù)可以通過信息抽取等步驟,采用可擴展標記語言(ExtensibleMarkupLanguage,XML)、超文本標記語言(HyperTextMarkupLanguage,HTML)等形式表達。網(wǎng)絡(luò)爬蟲經(jīng)常需要采集互聯(lián)網(wǎng)上的半結(jié)構(gòu)化數(shù)據(jù)。1.1大數(shù)據(jù)的相關(guān)概念

1.1.4《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》資源維度數(shù)據(jù)要素的地位正不斷地提升,價值正持續(xù)地凸顯。隨著經(jīng)濟形態(tài)從農(nóng)業(yè)經(jīng)濟演進到工業(yè)經(jīng)濟,再到數(shù)字經(jīng)濟,數(shù)據(jù)在人類社會發(fā)展史上的地位和作用一直在提升。根據(jù)國際數(shù)據(jù)機構(gòu)IDC的預測,中國的數(shù)據(jù)量將以30%的年均增長速度領(lǐng)先全球,到2025年將成為全球最大的數(shù)據(jù)圈。技術(shù)維度從技術(shù)維度看,大數(shù)據(jù)技術(shù)加快創(chuàng)新變革,“5V”特性優(yōu)勢持續(xù)釋放。除高容量采集、高容量存儲、高性能采集以及異構(gòu)融合等相關(guān)技術(shù)快速地演進外,隨著隱私計算、分布式賬本等新興大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)的精準度高和可信賴度高的第五大特征優(yōu)勢也在不斷地呈現(xiàn)。1.1大數(shù)據(jù)的相關(guān)概念

1.1.4《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》大數(shù)據(jù)產(chǎn)業(yè)維度我國大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)優(yōu)勢基本形成,對經(jīng)濟社會發(fā)展的服務(wù)支撐能力不斷增強。數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)等部分領(lǐng)域呈現(xiàn)出了先發(fā)優(yōu)勢,大數(shù)據(jù)的標準體系初步建立。在大數(shù)據(jù)產(chǎn)品和服務(wù)體系方面,數(shù)據(jù)資源、基礎(chǔ)硬件、通用軟件、行業(yè)應(yīng)用、安全保障等方面的產(chǎn)品和服務(wù)不斷豐富。我國的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)持續(xù)優(yōu)化。賦能維度從賦能的維度看,大數(shù)據(jù)產(chǎn)業(yè)不斷地融入實體經(jīng)濟,成為數(shù)字經(jīng)濟發(fā)展的核心驅(qū)動力之一。大數(shù)據(jù)產(chǎn)業(yè)為數(shù)字經(jīng)濟提供高質(zhì)量的數(shù)據(jù)要素,大數(shù)據(jù)產(chǎn)業(yè)深度融入產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型進程,推動傳統(tǒng)要素數(shù)據(jù)化,改變了傳統(tǒng)的生產(chǎn)方式,持續(xù)激發(fā)新業(yè)態(tài)和新模式。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對科學研究和經(jīng)濟社會的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.2對科學研究和經(jīng)濟社會的影響

1.2.1對科學研究的影響大數(shù)據(jù)的產(chǎn)生和信息技術(shù)領(lǐng)域提出的面向數(shù)據(jù)的概念同時改變了科學研究的模式。著名數(shù)據(jù)庫專家,圖靈獎獲得者JimGray博士提出了數(shù)據(jù)密集型科研“第四范式”(TheFourthParadigm)

第四范式——數(shù)據(jù)研究,是通過數(shù)據(jù)研究發(fā)現(xiàn)知識。利用海量數(shù)據(jù)加上高速計算發(fā)現(xiàn)新的知識是數(shù)據(jù)密集型的科學發(fā)現(xiàn)。Google廣告優(yōu)化配置及2016年李世石在圍棋挑戰(zhàn)中輸給AlphaGo都是依據(jù)第四范式實現(xiàn)的。實驗理論研究計算仿真數(shù)據(jù)研究1.2對科學研究和經(jīng)濟社會的影響

1.2.2對經(jīng)濟社會的影響大數(shù)據(jù)改變了企業(yè)的決策方式、產(chǎn)品創(chuàng)新過程、供應(yīng)鏈管理、市場營銷策略等方面,幫助企業(yè)提高效率、降低成本、增強競爭力,并推動數(shù)字經(jīng)濟的發(fā)展和創(chuàng)新。大數(shù)據(jù)提供了大量的實時和歷史數(shù)據(jù),使得企業(yè)能夠基于數(shù)據(jù)進行決策。如:通過分析用戶的行為數(shù)據(jù)和消費習慣,企業(yè)可以提供個性化的產(chǎn)品和服務(wù),滿足客戶的特定需求,提高用戶體驗和忠誠度。大數(shù)據(jù)分析可以揭示產(chǎn)品的使用情況和性能,幫助企業(yè)進行產(chǎn)品創(chuàng)新和優(yōu)化。大數(shù)據(jù)可以幫助企業(yè)優(yōu)化供應(yīng)鏈管理。大數(shù)據(jù)可以幫助企業(yè)發(fā)現(xiàn)業(yè)務(wù)流程中的瓶頸和改進點,優(yōu)化流程設(shè)計,提高效率和生產(chǎn)力。1.2對科學研究和經(jīng)濟社會的影響

1.2.3大數(shù)據(jù)與其他學科大數(shù)據(jù)課程不僅是一門獨立的學科,也會與其他學科交叉融合,互相影響。大數(shù)據(jù)極大地影響著人們的生活方式、思維方式和工作習慣,從大數(shù)據(jù)的特點和發(fā)展趨勢來看可以歸納為以下幾點。主體大眾化在大數(shù)據(jù)視域下,數(shù)據(jù)的使用者不再是一個具有一定特征的、單一的小群體或個人,而是數(shù)量龐大、結(jié)構(gòu)復雜的大眾群體。在大數(shù)據(jù)時代,只需要通過一部智能手機,或者任何可以連接網(wǎng)絡(luò)的設(shè)備,就可以在網(wǎng)絡(luò)空間留下自己的足跡,這些數(shù)據(jù)又會被某些機構(gòu)或個人收集、分析、處理變?yōu)榧河?。這便是大數(shù)據(jù)的使用主體變得大眾化的現(xiàn)實基礎(chǔ)??傮w來說,大數(shù)據(jù)由于具有主體大眾化的特點,其數(shù)據(jù)內(nèi)容可以做到極端的生活化和細節(jié)化,甚至能夠描畫出一個人的生活習慣和行為偏好。但大數(shù)據(jù)的普及意味著,數(shù)據(jù)海中的數(shù)據(jù)首先是范圍廣泛、內(nèi)容詳密的,這極大地提高了個人信息隱私安全保護的要求。1.2對科學研究和經(jīng)濟社會的影響

治理多元化治理多元化的主要目標是保護個人信息隱私的安全。除了政府和各種團體機構(gòu)外,各類網(wǎng)絡(luò)企業(yè)、自媒體、軟件開發(fā)者以及眾多網(wǎng)絡(luò)用戶都有責任為保護個人信息隱私做出貢獻。在大數(shù)據(jù)視域下,不同治理主體在數(shù)據(jù)處理上存在著顯著差異,不同的價值觀最后會產(chǎn)生完全不同的結(jié)果,這勢必會加大個人信息隱私保護的難度。

數(shù)據(jù)海量化“AI尋人”便是數(shù)據(jù)海量化的實例之一。由于只有最大限度的搜集到足夠多的個人信息,大數(shù)據(jù)的使用效率才能大大提高,但同時海量的數(shù)據(jù)也會對個人信息隱私安全構(gòu)成威脅。

手段多維化手段多維化是指數(shù)據(jù)采集者要從多方面、多途徑來搜集有關(guān)信息,大數(shù)據(jù)能夠反映出一個人的生活細節(jié)及行為偏好,主要原因就是大數(shù)據(jù)具有手段多維化的特征。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對科學研究和經(jīng)濟社會的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.3大數(shù)據(jù)的研究現(xiàn)狀

2008201120122019201320142021國際頂級科技期刊Nature出版BigData專題以及Science推出DealingwithData專刊,計算機社區(qū)聯(lián)盟發(fā)表相關(guān)報告,闡述了大數(shù)據(jù)應(yīng)用過程中面臨的困境與解決方案麥肯錫發(fā)布的報告《大數(shù)據(jù):下一代創(chuàng)新、競爭及生產(chǎn)力開拓者》首次提出大數(shù)據(jù)的概念聯(lián)合國發(fā)布相關(guān)報告對大數(shù)據(jù)的運用進行了初步解讀并分析了可能面臨的挑戰(zhàn);美國啟動了“大數(shù)據(jù)發(fā)展計劃”,培養(yǎng)更多專業(yè)人才科技部正式啟動863項目“面向大數(shù)據(jù)的先進存儲結(jié)構(gòu)與關(guān)鍵技術(shù)”,啟動5個大數(shù)據(jù)課題。大數(shù)據(jù)首次寫入政府工作報告。十八屆五中全會將大數(shù)據(jù)上升到國家戰(zhàn)略,強調(diào)推動大數(shù)據(jù)與實體經(jīng)濟的深度融合。美國進入大數(shù)據(jù)的“第三步戰(zhàn)略階段”,打造了面向未來的大數(shù)據(jù)創(chuàng)新生態(tài)?!丁笆奈濉贝髷?shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》、《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》等發(fā)布,把大數(shù)據(jù)產(chǎn)業(yè)作為數(shù)字經(jīng)濟時代重要引擎。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對科學研究和經(jīng)濟社會的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.4大數(shù)據(jù)的機遇與挑戰(zhàn)

1.4.1機遇大數(shù)據(jù)分析成為大數(shù)據(jù)技術(shù)的核心通過大數(shù)據(jù)分析,可以深入理解數(shù)據(jù),發(fā)現(xiàn)新的機遇和挑戰(zhàn),并為個人、企業(yè)和社會帶來更多的價值和發(fā)展機會,同時,大數(shù)據(jù)分析可以應(yīng)用于各個領(lǐng)域,如政府可以利用大數(shù)據(jù)分析來改善公共安全、城市規(guī)劃和社會管理。

大數(shù)據(jù)與云技術(shù)的深度融合云技術(shù)提供了彈性的計算和存儲資源、可擴展的數(shù)據(jù)存儲解決方案、彈性擴展的計算環(huán)境,通過云技術(shù)的支持,大數(shù)據(jù)可以更加高效、彈性和安全地進行處理和分析,隨著大數(shù)據(jù)和云技術(shù)的不斷發(fā)展,它們的融合將進一步推動數(shù)字化轉(zhuǎn)型和創(chuàng)新的進程。1.4大數(shù)據(jù)的機遇與挑戰(zhàn)

1.4.1機遇大數(shù)據(jù)技術(shù)與各領(lǐng)域深度融合大數(shù)據(jù)技術(shù)已經(jīng)在許多領(lǐng)域都有廣泛的應(yīng)用,如零售、金融、醫(yī)療和制造業(yè)等領(lǐng)域。在醫(yī)療領(lǐng)域,醫(yī)院利用大數(shù)據(jù)分析患者的醫(yī)療記錄、基因組數(shù)據(jù)和生活習慣等信息,以提供更加個性化的醫(yī)療診斷和治療方案。大數(shù)據(jù)還可以用于疾病預測、藥物研發(fā)和醫(yī)療資源管理等方面,提升醫(yī)療服務(wù)的效率和質(zhì)量。在制造業(yè)領(lǐng)域,比亞迪利用大數(shù)據(jù)技術(shù)來改進產(chǎn)品設(shè)計、優(yōu)化生產(chǎn)過程和提供個性化的汽車服務(wù)。他們通過車輛傳感器和互聯(lián)網(wǎng)連接,收集和分析車輛數(shù)據(jù),以實現(xiàn)智能駕駛和車輛運營的優(yōu)化。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展和創(chuàng)新,其實際應(yīng)用領(lǐng)域范圍將不斷擴大,與各領(lǐng)域的融合也將不斷加深,它將繼續(xù)推動各行各業(yè)的數(shù)字化轉(zhuǎn)型和創(chuàng)新發(fā)展。1.4大數(shù)據(jù)的機遇與挑戰(zhàn)

1.4.1機遇開源軟件將成為助推大數(shù)據(jù)發(fā)展的新動力開源軟件可以根據(jù)具體的業(yè)務(wù)需求進行定制和擴展,滿足不同行業(yè)和組織的特定要求。開源軟件通常以較低的成本提供,并且在大數(shù)據(jù)處理方面具有出色的性能。開源軟件的共享和合作精神有助于推動大數(shù)據(jù)領(lǐng)域的技術(shù)進步和發(fā)展。開源軟件的靈活性還使得組織可以自主控制和管理數(shù)據(jù),加強對數(shù)據(jù)的安全和隱私的保護。開源軟件的開放性和可擴展性鼓勵了創(chuàng)新者和企業(yè)參與到大數(shù)據(jù)領(lǐng)域的創(chuàng)新中,推動了新的應(yīng)用和技術(shù)的涌現(xiàn)。開源軟件的生態(tài)系統(tǒng)還可以促進不同組織和開發(fā)者之間的合作,加速大數(shù)據(jù)應(yīng)用的發(fā)展和成熟。開源軟件的應(yīng)用可以促進大數(shù)據(jù)技術(shù)的普及和發(fā)展,推動各行各業(yè)更好地應(yīng)用大數(shù)據(jù),實現(xiàn)更多的創(chuàng)新和增長機會。1.4大數(shù)據(jù)的機遇與挑戰(zhàn)

1.4.2挑戰(zhàn)

數(shù)據(jù)隱私和安全大數(shù)據(jù)時代涉及大量的個人和機密數(shù)據(jù),數(shù)據(jù)隱私和安全成為重要的挑戰(zhàn)。未經(jīng)充分保護的數(shù)據(jù)可能導致個人隱私泄露、身份盜竊和惡意攻擊。

數(shù)據(jù)質(zhì)量和可靠性大數(shù)據(jù)通常來自多個來源,可能存在數(shù)據(jù)質(zhì)量不一致、錯誤和缺失等問題。這可能導致分析結(jié)果不準確或誤導性。

技術(shù)和人才需求大數(shù)據(jù)時代需要大量的技術(shù)和人才來處理和分析龐大的數(shù)據(jù)集。大數(shù)據(jù)技術(shù)和工具的快速發(fā)展也要求從業(yè)人員不斷更新知識和技能,以適應(yīng)不斷變化的環(huán)境。

倫理和法律問題大數(shù)據(jù)的應(yīng)用涉及倫理和法律問題。同時,大數(shù)據(jù)的應(yīng)用可能對個人和社會產(chǎn)生不平等的影響,引發(fā)公平和道德的爭議。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對科學研究和經(jīng)濟社會的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.5

大數(shù)據(jù)分析的相關(guān)概念大數(shù)據(jù)分析已經(jīng)成為各個領(lǐng)域中實現(xiàn)數(shù)據(jù)驅(qū)動決策、創(chuàng)新和效率提升的重要工具。隨著數(shù)據(jù)量的不斷增加和技術(shù)的進一步發(fā)展,大數(shù)據(jù)分析將繼續(xù)在商業(yè)、科研、社會等領(lǐng)域發(fā)揮重要作用。1.5.1大數(shù)據(jù)分析的概念

大數(shù)據(jù)分析是指通過數(shù)據(jù)科學和機器學習等方法,對大體量、多種類的數(shù)據(jù)進行收集、處理、儲存、分析和可視化的過程,以揭示數(shù)據(jù)集中的趨勢和關(guān)聯(lián)性,并為決策者提供相關(guān)業(yè)務(wù)信息。大數(shù)據(jù)分析的基礎(chǔ)就是大數(shù)據(jù),在理論層面,理論是對大數(shù)據(jù)認知的必經(jīng)之路,也是大數(shù)據(jù)廣泛傳播與認同的基線。從大數(shù)據(jù)的定義和特征洞悉行業(yè)對大數(shù)據(jù)的整體描述和定性;從對大數(shù)據(jù)的價值進行探討深入分析大數(shù)據(jù)的意義所在;探討大數(shù)據(jù)的現(xiàn)在和未來去解開大數(shù)據(jù)的發(fā)展之謎;從大數(shù)據(jù)隱私這個特殊視角探討人與數(shù)據(jù)之間的倫理。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.1大數(shù)據(jù)分析的概念在技術(shù)層面,技術(shù)是大數(shù)據(jù)價值體現(xiàn)的基礎(chǔ)與前進的法寶。從云計算、分布式處理技術(shù)、儲存技術(shù)和感知技術(shù)的發(fā)展,可以說明大數(shù)據(jù)從采集、預處理、儲存、分析和成果的整個過程。在實踐層面,實踐是大數(shù)據(jù)價值最終體現(xiàn)的環(huán)節(jié)。從個人、企業(yè)、政府和互聯(lián)網(wǎng)的大數(shù)據(jù)四個方面闡述大數(shù)據(jù)已經(jīng)帶來的價值以及未來可能實現(xiàn)的價值藍圖。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.2大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析的比較數(shù)據(jù)規(guī)模和復雜性傳統(tǒng)數(shù)據(jù)分析大多對數(shù)據(jù)庫儲存數(shù)據(jù)進行分析,規(guī)模相對較小、數(shù)據(jù)類型單一,以結(jié)構(gòu)化數(shù)據(jù)為主。大數(shù)據(jù)分析旨在應(yīng)對體量巨大、種類繁多、產(chǎn)生速度快和價值密度低的數(shù)據(jù),涉及數(shù)據(jù)的收集、存儲、清洗和處理等方面的挑戰(zhàn),并從中提取有效信息。

數(shù)據(jù)處理速度和實時性傳統(tǒng)數(shù)據(jù)分析通常是離線處理或批處理,即對已經(jīng)收集的數(shù)據(jù)進行分析。大數(shù)據(jù)分析需要在實時或接近實時的情況下,收集并處理高速生成的數(shù)據(jù),以便及時發(fā)現(xiàn)和響應(yīng)潛在的機會或風險。1.5

大數(shù)據(jù)分析的相關(guān)概念數(shù)據(jù)處理架構(gòu)傳統(tǒng)數(shù)據(jù)分析主要以縱向擴展為主,采用集中式處理方法。集中式計算中,數(shù)據(jù)計算幾乎完全依賴于一臺中、大型的中心計算機。常用數(shù)據(jù)處理方式為Excel和數(shù)據(jù)庫。大數(shù)據(jù)分析主要以橫向擴展為主,更傾向于分布式處理方法。分布式計算機系統(tǒng)是指由多臺分散的、硬件自治的計算機,經(jīng)過互聯(lián)的網(wǎng)絡(luò)連接而形成的系統(tǒng),系統(tǒng)的處理和控制功能分布在各個計算機上。常見分布式計算系統(tǒng)有MIP、OpenMP、Spark等。

數(shù)據(jù)處理方法傳統(tǒng)數(shù)據(jù)分析采用以處理器為中心的數(shù)據(jù)處理方式,主要是用數(shù)據(jù)庫和數(shù)據(jù)倉庫進行存儲、管理和分析。大數(shù)據(jù)分析采用以數(shù)據(jù)為中心的數(shù)據(jù)處理方法,減少數(shù)據(jù)移動開銷。一般而言,大數(shù)據(jù)處理流程可分為4步,即數(shù)據(jù)采集、數(shù)據(jù)清洗與預處理、數(shù)據(jù)統(tǒng)計分析與挖掘、結(jié)果可視化。大數(shù)據(jù)分析不僅產(chǎn)出分析結(jié)果,甚至產(chǎn)出模型的原型和效果測試,用來后續(xù)升級產(chǎn)品。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程1)目標確定。明確分析的目標和問題,例如市場調(diào)研、客戶洞察、業(yè)務(wù)優(yōu)化等。

2)數(shù)據(jù)收集。收集與目標相關(guān)的數(shù)據(jù),它是數(shù)據(jù)分析的重要基礎(chǔ)環(huán)節(jié)。

3)數(shù)據(jù)預處理。對收集到的數(shù)據(jù)進行去重、去噪、清洗和轉(zhuǎn)換等操作,確保數(shù)據(jù)的準確性和一致性。這是數(shù)據(jù)分析前必不可少的一個環(huán)節(jié),需要花費大量時間,也在一定程度上保證了數(shù)據(jù)的質(zhì)量。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程大數(shù)據(jù)清洗主要處理的是“臟數(shù)據(jù)”,其主要目標是監(jiān)測和修復臟數(shù)據(jù),以解決數(shù)據(jù)質(zhì)量問題,當前的數(shù)據(jù)清洗主要圍繞著將數(shù)據(jù)劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程

4)數(shù)據(jù)挖掘。指在大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)隱藏模式、趨勢、關(guān)聯(lián)和知識的過程。大數(shù)據(jù)挖掘?qū)τ诎l(fā)現(xiàn)商業(yè)機會、改進運營效率、提升決策質(zhì)量等方面具有重要作用。常見大數(shù)據(jù)挖掘任務(wù)包括分類、聚類、關(guān)聯(lián)分析、預估和預測等。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程

5)數(shù)據(jù)建模與分析。應(yīng)用統(tǒng)計分析、機器學習、數(shù)據(jù)挖掘等技術(shù),構(gòu)建模型并對數(shù)據(jù)進行分析,以揭示隱藏的模式和趨勢。這個階段要能駕馭數(shù)據(jù)、展開數(shù)據(jù)分析,熟悉常規(guī)數(shù)據(jù)分析方法,例如方差、回歸等多元數(shù)據(jù)分析方法,也需要熟悉數(shù)據(jù)分析工具,如Excel、Hadoop、Spark和SAS等。6)數(shù)據(jù)可視化。通過可視化工具和統(tǒng)計方法對數(shù)據(jù)進行探索,尋找數(shù)據(jù)之間的關(guān)聯(lián)、趨勢和異常。借助數(shù)據(jù)展現(xiàn)與可視化手段能更加直觀展現(xiàn)分析結(jié)果。常見大數(shù)據(jù)可視化工具包括:Tableau、PowerBI等。常見的圖表包括餅圖、折線圖、散點圖、帕累托圖等。7)結(jié)果分析和報告。解釋分析結(jié)果,并將其以易于理解的報告形式呈現(xiàn)給相關(guān)的利益相關(guān)者。一份好的大數(shù)據(jù)分析報告能夠為決策者提供有價值的信息和洞察,支持他們做出明智的決策。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.4大數(shù)據(jù)分析的基礎(chǔ)模型AARRR模型AARRR模型是一種用于衡量和優(yōu)化用戶參與度的模型,它常被應(yīng)用于大數(shù)據(jù)分析中。1)獲?。ˋcquisition)。在大數(shù)據(jù)分析中,可以利用數(shù)據(jù)分析來了解用戶獲取渠道的效果和效率。通過分析用戶來源、營銷活動和廣告投放效果等數(shù)據(jù),可以評估不同渠道的效果,并確定哪些渠道對用戶獲取產(chǎn)生了最大影響。2)激活(Activation)。激活階段的目標是讓用戶體驗到產(chǎn)品或服務(wù)的價值,并使其成為活躍用戶。在大數(shù)據(jù)分析中,可以分析用戶的行為和使用模式,了解用戶在產(chǎn)品或服務(wù)中的參與程度。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.4大數(shù)據(jù)分析的基礎(chǔ)模型

3)留存(Retention)。用戶留存是指讓用戶保持長期的使用和參與。在大數(shù)據(jù)分析中,可以利用數(shù)據(jù)來識別用戶的留存率和忠誠度。通過分析用戶活動、重復購買率、使用時長等數(shù)據(jù),可以了解用戶的留存情況,并針對不同用戶群體實施個性化策略,提高用戶的留存率。4)收入(Revenue)。這一步驟關(guān)注的是從用戶行為中獲取收入。在大數(shù)據(jù)分析中,可以通過分析用戶的消費行為和購買模式,了解用戶的付費習慣和價值。通過分析收入數(shù)據(jù)、轉(zhuǎn)化率、購買決策路徑等,可以識別用戶的付費能力和購買意愿,并針對不同用戶群體實施個性化的收入增長策略。5)傳播(Refer)。傳播是通過現(xiàn)有用戶向其他潛在用戶傳播產(chǎn)品或服務(wù)。在大數(shù)據(jù)分析中,可以通過分析用戶的分享行為、社交媒體活動等數(shù)據(jù),了解用戶的推薦效果和影響力。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.4大數(shù)據(jù)分析的基礎(chǔ)模型漏斗模型漏斗模型是一種用于追蹤和分析用戶在某個過程或轉(zhuǎn)化路徑中的流動情況的分析方法。漏斗模型常用于評估用戶在完成特定目標的轉(zhuǎn)化過程中的轉(zhuǎn)化率,并識別在轉(zhuǎn)化路徑的不同階段存在的瓶頸或問題。通常包含以下幾個階段:1.5

大數(shù)據(jù)分析的相關(guān)概念漏斗模型1)流量來源。例如廣告、搜索引擎、社交媒體等。在這個階段,分析人員可以追蹤每個流量來源的訪問量和用戶行為,了解哪些渠道吸引了更多的訪問者。2)用戶訪問。在流量來源階段之后,用戶會訪問網(wǎng)站或應(yīng)用程序的特定頁面。在這個階段,可以追蹤訪問量、頁面停留時間以及用戶的瀏覽行為。這有助于了解用戶對不同頁面的興趣和參與度。3)轉(zhuǎn)化行為。在訪問階段之后,用戶可能會執(zhí)行某些轉(zhuǎn)化行為,例如添加產(chǎn)品到購物車等,在這個階段,分析人員可以跟蹤轉(zhuǎn)化率和轉(zhuǎn)化行為的特征,以確定用戶在特定轉(zhuǎn)化目標上的表現(xiàn)。4)轉(zhuǎn)化結(jié)果。在這個階段,可以計算最終的轉(zhuǎn)化率,并分析成功轉(zhuǎn)化的用戶的特征和行為,以獲得關(guān)于用戶轉(zhuǎn)化過程的深入洞察。通過分析漏斗模型的各個階段,有助于采取相應(yīng)的優(yōu)化措施,以提高轉(zhuǎn)化率和用戶體驗,大數(shù)據(jù)分析技術(shù)可以幫助技術(shù)人員跟蹤和分析用戶數(shù)據(jù),優(yōu)化整個轉(zhuǎn)化過程。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對科學研究和經(jīng)濟社會的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.6大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)目前已經(jīng)廣泛應(yīng)用于各行各業(yè)中,包括金融大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、零售大數(shù)據(jù)、電商大數(shù)據(jù)、交通大數(shù)據(jù)、智慧城市大數(shù)據(jù)等應(yīng)用場景。醫(yī)療大數(shù)據(jù)

醫(yī)療大數(shù)據(jù)主要包括了人們的日常健康體征數(shù)據(jù)、體檢數(shù)據(jù)、病例數(shù)據(jù)、處方數(shù)據(jù)、用藥情況數(shù)據(jù)、基因數(shù)據(jù)等圍繞著人體各項健康指標以及與健康行為相關(guān)的數(shù)據(jù)。在習近平總書記關(guān)于建設(shè)健康中國和數(shù)字經(jīng)濟的一系列重要論述規(guī)劃下,國家相繼成立了多家醫(yī)療健康大數(shù)據(jù)中心。(1)醫(yī)療大數(shù)據(jù)資源《國務(wù)院辦公廳關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導意見》指出:加快建設(shè)和完善以居民電子健康檔案、電子病歷、電子處方等為核心的基礎(chǔ)數(shù)據(jù)庫。探索推進可穿戴設(shè)備、智能健康電子產(chǎn)品、健康醫(yī)療移動應(yīng)用等產(chǎn)生的數(shù)據(jù)資源規(guī)范接入人口健康信息平臺。1.6大數(shù)據(jù)的應(yīng)用醫(yī)療大數(shù)據(jù)(2)行業(yè)治理大數(shù)據(jù)應(yīng)用加強深化醫(yī)藥衛(wèi)生體制改革評估監(jiān)測,加強居民健康狀況等重要數(shù)據(jù)精準統(tǒng)計和預測評價,有力支撐健康中國建設(shè)規(guī)劃和決策。(3)臨床和科研大數(shù)據(jù)應(yīng)用依托國家臨床醫(yī)學研究中心和協(xié)同研究網(wǎng)絡(luò),系統(tǒng)加強臨床和科研數(shù)據(jù)資源整合共享,提升醫(yī)學科研及應(yīng)用效能,推動智慧醫(yī)療發(fā)展。(4)公共衛(wèi)生大數(shù)據(jù)應(yīng)用通過醫(yī)療機構(gòu)、公共衛(wèi)生機構(gòu)和口岸檢驗檢疫機構(gòu)的信息共享和業(yè)務(wù)協(xié)同,全面提升公共衛(wèi)生監(jiān)測評估和決策管理能力,提高突發(fā)公共衛(wèi)生事件預警與應(yīng)急響應(yīng)能力。1.6大數(shù)據(jù)的應(yīng)用醫(yī)療大數(shù)據(jù)(5)醫(yī)院管理與傳統(tǒng)的臨床醫(yī)療相比,利用大數(shù)據(jù)分析技術(shù)能夠更好地對醫(yī)療數(shù)據(jù)進行分析,為醫(yī)護人員提供了大概率的預測與建議,并在此基礎(chǔ)上提升了醫(yī)療臨床系統(tǒng)決策的合理性。大數(shù)據(jù)分析可以幫助醫(yī)療機構(gòu)更好地理解資源分配的需求,從而優(yōu)化醫(yī)療服務(wù)的供給。這包括合理安排醫(yī)療設(shè)備的使用、人員的調(diào)度以及床位的管理,以提高整體效率。(6)智能診療隨著人工智能技術(shù)的發(fā)展,大數(shù)據(jù)與AI的結(jié)合為精準醫(yī)療和個性化治療提供了可能。例如,通過對患者的基因數(shù)據(jù)、生活習慣、病史等多維度信息的綜合分析,醫(yī)生可以為患者提供更加精準的診療方案。1.6大數(shù)據(jù)的應(yīng)用生物大數(shù)據(jù)自人類基因組計劃完成以來,以美國為代表,世界主要發(fā)達國家紛紛啟動了生命科學基礎(chǔ)研究計劃,如國際千人基因組計劃、DNA百科全書計劃、英國十萬人基因組計劃等。這些計劃引領(lǐng)生物數(shù)據(jù)呈爆炸式增長,目前每年全球產(chǎn)生的生物數(shù)據(jù)總量已達EB級,生命科學領(lǐng)域正在爆發(fā)一次數(shù)據(jù)革命,生命科學某種程度上已經(jīng)成為大數(shù)據(jù)科學。2023年,教育部辦公廳關(guān)于印發(fā)《服務(wù)健康事業(yè)和健康產(chǎn)業(yè)人才培養(yǎng)引導性專業(yè)指南》的通知。對接國家重大需求,服務(wù)健康事業(yè)和健康產(chǎn)業(yè)發(fā)展新態(tài)勢,設(shè)置5個新醫(yī)科人才培養(yǎng)引導性專業(yè)。其中1個是:生物醫(yī)藥數(shù)據(jù)科學。培養(yǎng)目標:本專業(yè)培養(yǎng)具有較好的生物醫(yī)藥知識,掌握面向數(shù)據(jù)科學的數(shù)學、統(tǒng)計學、計算機科學基礎(chǔ)理論和方法,具備較強的數(shù)據(jù)挖掘與統(tǒng)計分析、應(yīng)用大數(shù)據(jù)方法解決實際問題的能力,能夠勝任大數(shù)據(jù)分析挖掘、大數(shù)據(jù)系統(tǒng)開發(fā)等技術(shù)領(lǐng)域以及大數(shù)據(jù)生物信息、大數(shù)據(jù)藥學、大數(shù)據(jù)醫(yī)療與公共衛(wèi)生管理等各類應(yīng)用領(lǐng)域工作的專業(yè)型人才。1.6大數(shù)據(jù)的應(yīng)用農(nóng)牧大數(shù)據(jù)習近平總書記指出堅持把解決好“三農(nóng)”問題作為全黨工作重中之重。我國已進入傳統(tǒng)農(nóng)業(yè)向現(xiàn)代農(nóng)業(yè)加快轉(zhuǎn)變的關(guān)鍵階段,需要運用大數(shù)據(jù)提高農(nóng)業(yè)生產(chǎn)精準化、智能化水平。國家農(nóng)業(yè)數(shù)據(jù)中心由1個中央平臺,種植、畜牧和漁業(yè)等產(chǎn)業(yè)數(shù)據(jù),國際農(nóng)業(yè)、全球遙感、質(zhì)量安全、科技教育、設(shè)施裝備、農(nóng)業(yè)要素、資源環(huán)境、防災(zāi)減災(zāi)、疫病防控等數(shù)據(jù)資源及各省、自治區(qū)、直轄市農(nóng)業(yè)數(shù)據(jù)分中心共同組成,集成農(nóng)業(yè)部各類數(shù)據(jù)和涉農(nóng)部門數(shù)據(jù)。大數(shù)據(jù)在農(nóng)業(yè)應(yīng)用主要是指依據(jù)未來商業(yè)需求的預測來進行農(nóng)牧產(chǎn)品生產(chǎn),降低菜賤傷農(nóng)的概率。同時大數(shù)據(jù)的分析將會更加精確預測未來的天氣氣候,幫助農(nóng)牧民做好自然災(zāi)害的預防工作。大數(shù)據(jù)同時也會幫助農(nóng)民依據(jù)消費者消費習慣決定來增加哪些品種的種植,減少哪些品種農(nóng)作物的生產(chǎn),提高單位種植面積的產(chǎn)值,同時有助于快速銷售農(nóng)產(chǎn)品,完成資金回流。牧民可以通過大數(shù)據(jù)分析來安排放牧范圍,有效利用牧場。漁民可以利用大數(shù)據(jù)安排休漁期、定位捕魚范圍等。1.6大數(shù)據(jù)的應(yīng)用交通大數(shù)據(jù)交通作為人類行為的重要組成和重要條件之一,對于大數(shù)據(jù)的感知也是最急迫的?,F(xiàn)代城市每天產(chǎn)生海量龐雜、異質(zhì)多元,大范圍時空關(guān)聯(lián)的數(shù)據(jù),蘊含著豐富的價值信息。通過對多元異構(gòu)大數(shù)據(jù)的匯聚和深度挖掘,可以更準確地刻畫城市交通系統(tǒng)的運行狀態(tài)與演變規(guī)律,有望在虛擬環(huán)境下實現(xiàn)城市復雜交通系統(tǒng)運行狀態(tài)的實時監(jiān)測、在線推演、精準調(diào)控和可視化呈現(xiàn),為實現(xiàn)城市交通系統(tǒng)科學決策提供了新途徑,為大幅度提升城市綜合交通運系統(tǒng)的規(guī)格、設(shè)計、運行管理水平,進而實現(xiàn)城市綜合交通系統(tǒng)的整體效能提供了有力支撐。規(guī)劃:交通設(shè)施選址、道路規(guī)劃、管理設(shè)施部署。運營:客流調(diào)控、公共交通優(yōu)化、用戶體系運營。運行優(yōu)化:安全風險監(jiān)測、施工路段交通組織。出行服務(wù):自動駕駛輔助、智能導航、個性化服務(wù)。1.6大數(shù)據(jù)的應(yīng)用環(huán)保大數(shù)據(jù)氣象對社會的影響涉及方方面面,氣象已成為二十一世紀社會發(fā)展的重要資源。借助于大數(shù)據(jù)技術(shù),天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升,同時對于重大自然災(zāi)害,例如龍卷風,通過大數(shù)據(jù)計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應(yīng)對自然災(zāi)害的能力。天氣預報的準確度的提升和預測周期的延長將會有利于農(nóng)業(yè)生產(chǎn)的安排。2024年中國氣象局在第七屆數(shù)字中國建設(shè)峰會·數(shù)字氣象分論壇上首次發(fā)布第五批開放共享氣象數(shù)據(jù)暨人工智能氣象大模型訓練專題數(shù)據(jù)目錄,共包含6大類12種氣象數(shù)據(jù)和產(chǎn)品。這些數(shù)據(jù)和產(chǎn)品依托國家氣象科學數(shù)據(jù)中心門戶網(wǎng)站中國氣象數(shù)據(jù)網(wǎng),為社會公眾提供數(shù)據(jù)下載服務(wù)。國家氣象科學數(shù)據(jù)中心不斷探索新的數(shù)據(jù)服務(wù)方式,打通“氣象數(shù)據(jù)服務(wù)最后一公里”,為氣象數(shù)據(jù)要素價值發(fā)揮保駕護航。1.6大數(shù)據(jù)的應(yīng)用衛(wèi)星大數(shù)據(jù)北斗衛(wèi)星導航系統(tǒng)(以下簡稱北斗系統(tǒng))是中國著眼于國家安全和經(jīng)濟社會發(fā)展需要,自主建設(shè)運行的全球衛(wèi)星導航系統(tǒng),是為全球用戶提供全天候、全天時、高精度的定位、導航和授時服務(wù)的國家重要時空基礎(chǔ)設(shè)施。北斗系統(tǒng)提供服務(wù)以來,已在交通運輸、農(nóng)林漁業(yè)、水文監(jiān)測、氣象測報、通信授時、電力調(diào)度、救災(zāi)減災(zāi)、公共安全等領(lǐng)域得到廣泛應(yīng)用,服務(wù)國家重要基礎(chǔ)設(shè)施,產(chǎn)生了顯著的經(jīng)濟效益和社會效益。基于北斗系統(tǒng)的導航服務(wù)已被電子商務(wù)、移動智能終端制造、位置服務(wù)等廠商采用,廣泛進入中國大眾消費、共享經(jīng)濟和民生領(lǐng)域,應(yīng)用的新模式、新業(yè)態(tài)、新經(jīng)濟不斷涌現(xiàn),深刻改變著人們的生產(chǎn)生活方式。1.6大數(shù)據(jù)的應(yīng)用電商大數(shù)據(jù)大數(shù)據(jù)的發(fā)展給電商平臺帶來了豐富的應(yīng)用場景和商業(yè)機遇。影響的領(lǐng)域包括訂單管理、用戶管理、庫存管理和供應(yīng)鏈優(yōu)化等。首先,訂單管理與預測分析是大數(shù)據(jù)在電商平臺中非常廣泛的應(yīng)用。通過分析歷史訂單數(shù)據(jù),電商平臺可以實現(xiàn)訂單管理自動化,并根據(jù)數(shù)據(jù)模型預測未來訂單的規(guī)模和趨勢。這樣,電商平臺可以更好地規(guī)劃倉庫、庫存和物流等需求,以達到更高的效率和客戶滿意度。其次,用戶數(shù)據(jù)分析與個性化推薦也是大數(shù)據(jù)在電商平臺中重要的應(yīng)用。電商平臺通過分析用戶在平臺上的瀏覽、購買和評價等行為,可以將用戶細分成不同的群體,并推薦個性化的商品和服務(wù)。這樣,可以提高用戶購買的滿意度,提高客戶轉(zhuǎn)化率。此外,大數(shù)據(jù)分析可以優(yōu)化供應(yīng)鏈,提高商品的質(zhì)量和數(shù)量。這樣,可以提高客戶滿意度并減少效率成本。1.6大數(shù)據(jù)的應(yīng)用1.6大數(shù)據(jù)的應(yīng)用總結(jié)數(shù)據(jù)是新時代重要的生產(chǎn)要素,是國家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)是數(shù)據(jù)的集合,以容量大、類型多、速度快、精度準、價值高為主要特征,是推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力,是提升政府治理能力的新途徑,是重塑國家競爭優(yōu)勢的新機遇。大數(shù)據(jù)產(chǎn)業(yè)是以數(shù)據(jù)生成、采集、存儲、加工、分析、服務(wù)為主的戰(zhàn)略性新興產(chǎn)業(yè),是激活數(shù)據(jù)要素潛能的關(guān)鍵支撐,是加快經(jīng)濟社會發(fā)展質(zhì)量變革、效率變革、動力變革的重要引擎。Thank

you!大數(shù)據(jù)分析方法與應(yīng)用第2章數(shù)據(jù)分析基礎(chǔ)2.1數(shù)據(jù)的類型與分布目錄CONTENTS2.2變量之間的關(guān)系第2章數(shù)據(jù)分析基礎(chǔ)2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.4數(shù)據(jù)的輸入2.1數(shù)據(jù)的類型與分布

數(shù)據(jù)的類型定性數(shù)據(jù)(也稱為名義數(shù)據(jù))是一種用于描述各種類別或?qū)傩缘臄?shù)據(jù)。定量數(shù)據(jù)是以數(shù)字表現(xiàn)的數(shù)據(jù),它可以被測量、計算和比較。數(shù)據(jù)的收集方式(數(shù)據(jù)收集方式會影響數(shù)據(jù)的分布特征)

截面數(shù)據(jù)(Cross-sectionaldata)是指在同一時間點上對某個總體進行測量所得到的數(shù)據(jù)。時間序列數(shù)據(jù)(Time

series

data)是一種按時間順序排列的觀測值的集合,這些觀測值通常時間間隔采集。2.2變量之間的關(guān)系協(xié)方差(Covariance)是描述兩個隨機變量之間關(guān)系的統(tǒng)計量。它用于衡量兩個變量在同一時間段內(nèi)的變動趨勢是否同向或相反。當協(xié)方差為正值時,表示兩個變量呈正相關(guān)關(guān)系,即當一個變量增大時,另一個變量也可能會增大。當協(xié)方差為負值時,表示兩個變量呈負相關(guān)關(guān)系,即當一個變量增大時,另一個變量可能會減小。當協(xié)方差接近于零時,表示兩個變量之間沒有線性關(guān)系。協(xié)方差只能描述變量之間的線性關(guān)系,并不能確定其因果關(guān)系。2.2.1協(xié)方差相關(guān)系數(shù)(Pearsoncorrelationcoefficient)是一種用于衡量兩個變量之間線性關(guān)系強度和方向的統(tǒng)計量。相關(guān)系數(shù)用希臘字母ρ表示,取值范圍為[-1,1]。相關(guān)系數(shù)定量地刻畫了X和Y的相關(guān)程度,即|ρxy|越大,相關(guān)程度越大;|ρxy|=0對應(yīng)相關(guān)程度最低。相關(guān)系數(shù)是一種非參數(shù)統(tǒng)計量,不受變量分布形狀的影響,適用于各種分布。其中2.2變量之間的關(guān)系2.2.2相關(guān)系數(shù)散點圖是描述變量關(guān)系的一種直觀方法,可以從散點圖中直觀地看出兩個變量之間是否存在相關(guān)關(guān)系、是正線性相關(guān)還是負線性相關(guān),也可以大致看出變量之間關(guān)系強度如何,但是對于具體關(guān)系強度則需要相關(guān)系數(shù)來判斷。2.3數(shù)據(jù)的可視化——基于Excel的應(yīng)用2.3.1散點圖【例2-1】廣告業(yè)近年來得到廣泛應(yīng)用,尤其在產(chǎn)品推廣中發(fā)揮了巨大作用,也影響著產(chǎn)品的銷售收入,因此了解廣告費對銷售收入的影響至關(guān)重要。某公司銷售額和廣告費用的數(shù)據(jù)如表2-1所示。表2-1某公司銷售額和廣告費用廣告費用(萬元)銷售額1052126015701877208223942.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點圖1)打開Excel表格,選中需要制作散點圖的數(shù)據(jù)單元格,單擊“插入”菜單下的散點圖。繪制廣告費用對銷售收入的影響情況的散點圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點圖2)選中“XY散點圖”,然后界面右側(cè)會顯示很多的散點圖,選擇一個合適的,單擊確定。3)單擊“圖表標題”,輸入標題名稱。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點圖4)在圖表空白處單擊選中圖表,然后單擊右上角的“+”號,勾選“數(shù)據(jù)標簽”,這樣每個散點圖數(shù)據(jù)點上都會顯示數(shù)值,單擊“趨勢線”,還能添加趨勢線??梢园l(fā)現(xiàn)銷售額和廣告費用之間呈現(xiàn)一種線性關(guān)系,即隨著廣告費用的增加,銷售額也會增加。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點圖【例2-2】三大產(chǎn)業(yè)的發(fā)展對我國經(jīng)濟發(fā)展有著舉足輕重的作用,通過柱形圖和折線圖表示三大產(chǎn)業(yè)在2019-2022年的增加值,可以直觀看出這四年的變化情況。我國2019-2022年第一、第二和第三產(chǎn)業(yè)增加值如表2-2所示。表2-2我國2019-2022年第一、第二和第三產(chǎn)業(yè)增加值年份第一產(chǎn)業(yè)增加值第二產(chǎn)業(yè)增加值第三產(chǎn)業(yè)增加值201970,467386,165534,233202077,754384,255553,977202183,086450,904609,680202288,345483,164638,6982.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖1)打開Excel,選擇相關(guān)數(shù)據(jù),選定插入,單擊“柱狀圖形”。繪制我國2019-2022年第一、第二和第三產(chǎn)業(yè)增加值變化的柱形圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2)選擇一種柱形圖,單擊確定。3)單擊“圖表設(shè)計”菜單項,在“圖標布局”和“圖表式樣”中選擇需要的布局和式樣。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖4)如果選擇有圖表標題和坐標軸標題的布局,則得到如下的圖表。單擊標題可以修改標題文本。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖5)修改橫坐標軸。右鍵單擊橫坐標,單擊選擇數(shù)據(jù),在水平(分類)軸標簽下單擊編輯,選擇需要顯示的橫坐標數(shù)據(jù),單擊確定。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖6)得到最終的柱狀圖。通過比較不同柱子的長度,可以快速看出哪個類別或時間段的數(shù)據(jù)更大或更小。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖1)打開Excel,選擇相關(guān)數(shù)據(jù),選定插入,單擊“折線圖形”。單擊標題可以修改標題文本。繪制我國2019-2022年第一、第二和第三產(chǎn)業(yè)增加值變化的折線圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2)修改橫坐標軸。右鍵單擊橫坐標,單擊選擇數(shù)據(jù),在水平(分類)軸標簽下單擊編輯,選擇需要顯示的橫坐標數(shù)據(jù),單擊確定。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖3)得到數(shù)據(jù)最終的折線圖。折線圖通常由一系列數(shù)據(jù)點連接而成,表示數(shù)據(jù)隨時間或某一變量變化而變化的趨勢。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表數(shù)據(jù)透視表是一種數(shù)據(jù)分析工具,用于對大量數(shù)據(jù)進行匯總、整理和分析。它以電子表格的形式展示數(shù)據(jù),通過行和列的組合來提供多維度的統(tǒng)計信息。數(shù)據(jù)透視表有以下幾個主要功能:1)匯總數(shù)據(jù)通過將數(shù)據(jù)按照不同的維度進行分組,數(shù)據(jù)透視表可以將大量數(shù)據(jù)匯總并顯示總計、平均值、最大值、最小值等統(tǒng)計指標。2)過濾數(shù)據(jù)數(shù)據(jù)透視表可以根據(jù)特定的條件篩選數(shù)據(jù),只顯示符合條件的記錄,從而更精確地進行數(shù)據(jù)分析。3)重新排序通過拖動字段或更改字段順序,可以動態(tài)調(diào)整數(shù)據(jù)透視表中的數(shù)據(jù)展示方式,使其更符合分析需求。4)數(shù)據(jù)透視圖數(shù)據(jù)透視表可以將數(shù)據(jù)以交叉表格的形式展示,清晰直觀地呈現(xiàn)不同維度之間的關(guān)系,幫助用戶發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢和異常情況。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表【例2-3】以銷售月表為例,表中記錄了訂單號、訂單日期、訂單金額、銷售人員和銷售人員部門,如下表2-3所示。表2-3銷售月表訂單號訂單日期訂單金額銷售人員部門202305012023.8.17100,000Alan銷售1部202305022023.8.1720,000Lily銷售2部202305032023.8.185000Alan銷售1部202305042023.8.1930000Alan銷售1部202305052023.8.20200,000Tom銷售1部202305062023.8.2125,000Mike銷售2部202305072023.8.212,000Lily銷售2部202305082023.8.2250,000Helen銷售3部202305092023.8.2323,000Mike銷售2部2023050102023.8.2440,000Tom銷售1部2023050112023.8.2510,000Helen銷售3部2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用1)單擊插入,單擊數(shù)據(jù)透視圖。以銷售人員分類查詢訂單總額2)選擇數(shù)據(jù)透視表,選中需要分析的數(shù)據(jù)區(qū)域。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表3)選擇需要添加到報表的字段—銷售人員和銷售金額,即顯示各銷售人員負責的訂單金額總計的情況。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表4)根據(jù)數(shù)據(jù)透視圖分析銷售人員、銷售金額和銷售部門之間關(guān)系通過使用數(shù)據(jù)透視表,用戶可以更加靈活和高效地對復雜的數(shù)據(jù)進行分析和理解,快速找到有意義的數(shù)據(jù)洞察,并支持決策制定和問題解決。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表直接鍵盤輸入用自定義格式輸入LEFT用條件函數(shù)IF輸入用“有效性”工具輸入輸入序列用字符提取函數(shù)RIGHTMID輸入用查找函數(shù)VLOOKUP輸入等2.4數(shù)據(jù)的輸入2.4.1Excel數(shù)據(jù)的輸入方法1)單擊Excel菜單:“數(shù)據(jù)\數(shù)據(jù)驗證”。2.4數(shù)據(jù)的輸入2.4.2數(shù)據(jù)有效性2)數(shù)據(jù)驗證-設(shè)置日期驗證條件。如果輸入的數(shù)據(jù)是2023年某高校大學生的出生年月,在“允許”下拉菜單中選定“日期”,輸入“開始日期”和“結(jié)束”日期。2.4數(shù)據(jù)的輸入2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

3)數(shù)據(jù)驗證-設(shè)置文本長度驗證條件。如果輸入的數(shù)據(jù)是學生的身份證號碼,在“允許”下拉中選定“文本長度”,“數(shù)據(jù)”下拉選定“等于”,“長度”輸入18。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

4)數(shù)據(jù)驗證-設(shè)置序列驗證條件。設(shè)置還可以建立輸入項目的下拉菜單,特別適合輸入定制的項目。例如:建立畢業(yè)院校的下拉菜單。打開“數(shù)據(jù)驗證/設(shè)置/允許”下拉菜單,選定“序列”。選定下拉菜單中的院校名稱,就可以方便地輸入所選內(nèi)容。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

5)數(shù)據(jù)驗證-輸入信息提示。“輸入信息”用于用戶定制選定輸入單元格時出現(xiàn)的提示信息。例如,對于輸入身份證號碼的單元格。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

6)數(shù)據(jù)驗證-出錯警告。輸入的身份證號碼超過18位時出現(xiàn)的錯誤警告。2.4.2數(shù)據(jù)有效性條件函數(shù)IF是Excel中常用的條件判斷函數(shù),其語法格式為:=IF(logical_test,[value_if_true],[value_if_false])。logical_test:表示要進行判斷的條件,如果該條件為TRUE,則返回val

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論