數(shù)據(jù)科學與大數(shù)據(jù)技術導論-第2章-大數(shù)據(jù)概述_第1頁
數(shù)據(jù)科學與大數(shù)據(jù)技術導論-第2章-大數(shù)據(jù)概述_第2頁
數(shù)據(jù)科學與大數(shù)據(jù)技術導論-第2章-大數(shù)據(jù)概述_第3頁
數(shù)據(jù)科學與大數(shù)據(jù)技術導論-第2章-大數(shù)據(jù)概述_第4頁
數(shù)據(jù)科學與大數(shù)據(jù)技術導論-第2章-大數(shù)據(jù)概述_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第2章大數(shù)據(jù)概述主編:王道平數(shù)據(jù)科學與大數(shù)據(jù)技術導論本章教學要點本章主要大數(shù)據(jù)的相關理論知識。其中需掌握大數(shù)據(jù)的發(fā)展歷程和大數(shù)據(jù)的概念與特征;熟悉大數(shù)據(jù)的產(chǎn)生背景、大數(shù)據(jù)的核心技術和大數(shù)據(jù)的處理過程;了解大數(shù)據(jù)的應用與挑戰(zhàn)、大數(shù)據(jù)的價值和大數(shù)據(jù)與相關領域的關系。目錄大數(shù)據(jù)的產(chǎn)生和發(fā)展2.12.2大數(shù)據(jù)基礎理論2.3大數(shù)據(jù)與相關領域的聯(lián)系01大數(shù)據(jù)的產(chǎn)生和發(fā)展PART

ONE2.1.1大數(shù)據(jù)的產(chǎn)生背景信息化的浪潮是不斷更迭的,根據(jù)國際商業(yè)機器公司(IBM)前CEO郭士納的觀點,IT領域每隔若干年就會迎來一次重大變革,每一次的信息化浪潮,都推動了信息技術的向前發(fā)展。目前,在IT領域相繼掀起了3次信息化浪潮,如下表所示。信息化浪潮發(fā)生時間標志解決問題代表企業(yè)第一次浪潮1980年前后個人計算機信息處理IBM、聯(lián)想、蘋果、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、百度、騰訊、中國移動、Facebook等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)信息爆炸華為、滴滴、金蝶、阿里巴巴等2.1.1大數(shù)據(jù)的產(chǎn)生背景大數(shù)據(jù)是在信息化技術的不斷發(fā)展下產(chǎn)生的,是IT技術的不斷更新為大數(shù)據(jù)的出現(xiàn)提供了可能性。與此同時云計算技術的成熟又為大數(shù)據(jù)的存儲和處理奠定了技術的基礎。云計算在處理數(shù)據(jù)時運用分布式處理、并行處理和網(wǎng)格計算的技術基礎,使龐大的數(shù)據(jù)量可以在短時間內(nèi)被處理完成,相比于之前利用傳統(tǒng)數(shù)據(jù)處理技術需要數(shù)小時甚至數(shù)天進行處理的數(shù)據(jù)量,運用云計算技術在數(shù)分鐘甚至幾十秒內(nèi)就可以處理完成,極大的提高了數(shù)據(jù)處理的效率;在數(shù)據(jù)存儲中,云計算通過集群應用,網(wǎng)格技術,分布式文件系統(tǒng)等方式使大數(shù)據(jù)可以被儲存在云端,方便人們存取。為大數(shù)據(jù)的研究和利用提供了強大的技術支持。2.1.2大數(shù)據(jù)的發(fā)展1.大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)最早起源于20世紀90年代,繼個人計算機普及之后互聯(lián)網(wǎng)的出現(xiàn),使數(shù)據(jù)量呈現(xiàn)爆炸式的增長,大數(shù)據(jù)因此而誕生,開始被學者們所研究。直至今日,大數(shù)據(jù)仍然處于蓬勃發(fā)展的階段,還有一些問題亟待研究者們?nèi)ソ鉀Q。從整個大數(shù)據(jù)發(fā)展歷程來看,其可分為以下4個階段,如右圖所示。2.1.2大數(shù)據(jù)的發(fā)展(1)萌芽階段(20世紀90年代到21世紀初)萌芽階段也被稱為數(shù)據(jù)挖掘階段。那時的數(shù)據(jù)庫技術和數(shù)據(jù)挖掘的理論已經(jīng)成熟,數(shù)據(jù)的結構類型只有結構化數(shù)據(jù),人們把數(shù)據(jù)儲存在數(shù)據(jù)倉庫和數(shù)據(jù)庫里,在需要操作時大多采用離線處理方式,對生成的數(shù)據(jù)需要集中分析處理。存儲數(shù)據(jù)通常使用物理工具,例如:紙張、膠卷、光盤(CD與DVD)和磁盤等。(2)突破階段(2003年~2006年)突破階段也稱非結構化數(shù)據(jù)階段,該階段由于非結構化的數(shù)據(jù)大量出現(xiàn),使得傳統(tǒng)的數(shù)據(jù)庫處理系統(tǒng)難以應對如此龐大的數(shù)據(jù)量。學者們開始針對大數(shù)據(jù)的計算處理技術以及不同結構類型數(shù)據(jù)的存儲工具進行研究,以加快大數(shù)據(jù)的處理速度,增加大數(shù)據(jù)的存儲空間和存儲工具的適用性。2.1.2大數(shù)據(jù)的發(fā)展(3)成熟階段(2006年~2009年)在大數(shù)據(jù)的成熟階段,谷歌公開發(fā)表的兩篇論文《谷歌文件系統(tǒng)》和《基于集群的簡單數(shù)據(jù)處理:MapReduce》,其核心的技術包括分布式文件系統(tǒng)(DistributedFileSystem,DFS),分布式計算系統(tǒng)框架MapReduce等引發(fā)了研究者的關注。在此期間,大數(shù)據(jù)研究的焦點主要是算法的性能,云計算,大規(guī)模的數(shù)據(jù)集并行運算算法,以及開源分布式架構(Hadoop)等。數(shù)據(jù)的存儲方式也由以物理存儲方式占主導變?yōu)橛蓴?shù)字化存儲方式占主導地位。2.1.2大數(shù)據(jù)的發(fā)展(4)應用階段(2009~至今)大數(shù)據(jù)基礎技術逐漸成熟,學術界及企業(yè)界紛紛開始從對大數(shù)據(jù)技術的研究轉向?qū)玫难芯?。?013年開始,大數(shù)據(jù)技術開始向商業(yè)、科技、醫(yī)療、政府、教育、經(jīng)濟、交通、物流及社會的各個領域滲透,為各個領域的發(fā)展提供了技術上的支持。右圖為大數(shù)據(jù)的7大應用領域。2.1.2大數(shù)據(jù)的發(fā)展大數(shù)據(jù)作為一種重要的資源,隨著大數(shù)據(jù)技術的成熟和發(fā)展越來越受到人們的重視。很多企業(yè)運用大數(shù)據(jù)技術改善現(xiàn)有的運營模式或是創(chuàng)新運營模式以提高自身的競爭優(yōu)勢,更好的為人們服務。在物流領域,大數(shù)據(jù)技術使物流變得更具“智慧”了,省去了很多機械的人力工作,大大提升了物流系統(tǒng)的效率和效益。在物流企業(yè),大數(shù)據(jù)的出現(xiàn)使得物品的供需更加匹配,資源的優(yōu)化和配置更有效率;在汽車行業(yè),“無人汽車”和車聯(lián)網(wǎng)保險精準定價的出現(xiàn),讓車主可以獲得更加貼心的服務;在公共安全領域,借助大數(shù)據(jù)可以更好、更快地應對突發(fā)事件,以保證社會和諧穩(wěn)定。2.大數(shù)據(jù)的應用2.1.2大數(shù)據(jù)的發(fā)展大數(shù)據(jù)在醫(yī)療領域也得到了廣泛的應用。在研發(fā)階段,大數(shù)據(jù)的參與可以縮短藥品的研發(fā)時間,使得對癥的藥品可以更快的投入使用;在疾病的診斷上,大數(shù)據(jù)就給予病歷庫充分的數(shù)據(jù)支持,使病人被誤診的概率大大降低,減少醫(yī)療風險;在日常的健康檢測中,大數(shù)據(jù)技術可以實時監(jiān)控人體的健康狀況,并實時給人們健康反饋,讓人們可以預防一些慢性病的發(fā)生。2.大數(shù)據(jù)的應用2.1.2大數(shù)據(jù)的發(fā)展除此之外,還有很多領域都應用了大數(shù)據(jù)的理論和相關技術,比如:教育、金融、政府、制造業(yè)等。大數(shù)據(jù)在各行各業(yè)的應用,對個人的生活方式,企業(yè)的運營模式乃至社會的運行都產(chǎn)生了巨大的變革,推動著社會的發(fā)展。2.大數(shù)據(jù)的應用2.1.2大數(shù)據(jù)的發(fā)展(1)數(shù)據(jù)的開放共享程度低目前的數(shù)據(jù)開放水平總體較低,可用的數(shù)據(jù)開放平臺較少。在開放的數(shù)據(jù)資源中也存在著一些問題,如很多數(shù)據(jù)資源無法正常讀取;數(shù)據(jù)更新遲滯;數(shù)據(jù)資源的內(nèi)容和形式缺乏多樣性;數(shù)據(jù)開放的范圍有限等。(2)數(shù)據(jù)的安全問題嚴峻目前信息安全和數(shù)據(jù)管理體系仍然不夠健全,無法兼顧大數(shù)據(jù)的安全與發(fā)展,導致在線的用戶資料等被盜的發(fā)生,甚至是一些不法分子利用泄露的個人信息進行詐騙的現(xiàn)象出現(xiàn),使人們對互聯(lián)網(wǎng)的使用產(chǎn)生擔憂。(3)制度建設落后隨著大數(shù)據(jù)的蓬勃發(fā)展,大數(shù)據(jù)在隱私保護和數(shù)據(jù)安全方面存在嚴重的風險,需要對大數(shù)據(jù)的使用進行規(guī)范和限制。雖然目前國家出臺了部分相關法規(guī),但相比于歐美國家,我國在大數(shù)據(jù)制度建設上還有進一步提升的空間。(4)大數(shù)據(jù)專業(yè)人才缺乏目前專業(yè)人才的缺乏仍然是大數(shù)據(jù)產(chǎn)業(yè)所面臨的重要問題。據(jù)中國商委會數(shù)據(jù)分析部統(tǒng)計,我國大數(shù)據(jù)市場未來將面臨1400萬的人才缺口。除此之外,我國大數(shù)據(jù)人才資源存在著結構不平衡的問題。2.大數(shù)據(jù)面臨的挑戰(zhàn)02大數(shù)據(jù)基礎理論PART

TWO2.2.1大數(shù)據(jù)的概念與特征大數(shù)據(jù)是數(shù)量極大并且附有一定價值的。關于大數(shù)據(jù)的概念,很多的專家,學者,機構都給出了自己對于大數(shù)據(jù)的定義。1.大數(shù)據(jù)的概念“不用隨機分析法(抽樣調(diào)查)這樣捷徑,而是采用對所有數(shù)據(jù)進行分析處理。”維克托·邁爾-舍恩伯格和肯尼斯·庫克耶:“由科學儀器、傳感器、網(wǎng)上交易、電子郵件、視頻、點擊流和/或所有其他可用的數(shù)字源產(chǎn)生的大規(guī)模、多樣的、復雜的、縱向的和/或分布式的數(shù)據(jù)集?!泵绹鴩铱茖W基金委員會:1.2.1數(shù)據(jù)科學的概念“一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低4大特征?!丙溈襄a全球研究所:本書對大數(shù)據(jù)的定義為:無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。2.2.1大數(shù)據(jù)的概念與特征大數(shù)據(jù)的特征通常被概括為5個”V”,即數(shù)據(jù)量(Volume)大、數(shù)據(jù)類型繁多(Variety)、處理速度(Velocity)快、價值(Value)密度低和真實性(Veracity)強5個方面。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征1.大數(shù)據(jù)的特征單位

換算關系B(Byte,字節(jié))1B=8bitKB(Kilobyte,千字節(jié))1KB=1024BMB(Megabyte,兆字節(jié))1MB=1024KBGB(Gigabyte,吉字節(jié))1GB=1024MBTB(Trillionbyte,太字節(jié))1TB=1024GBPB(Petabyte,拍字節(jié))1PB=1024TBEB(Exabyte,艾字節(jié))1EB=1024PBZB(Zettabyte,兆字節(jié))1ZB=1024EB(1)數(shù)據(jù)量大數(shù)據(jù)量大是大數(shù)據(jù)的首要特征,通過右表數(shù)據(jù)的存儲單位換算關系可更形象的表現(xiàn)出大數(shù)據(jù)的龐大的數(shù)據(jù)量。通常認為,處于吉字節(jié)(GB)級別的數(shù)據(jù)就稱為超大規(guī)模數(shù)據(jù),太字節(jié)(TB)級別的數(shù)據(jù)為海量級數(shù)據(jù),而大數(shù)據(jù)的數(shù)據(jù)量通常在拍字節(jié)(PB)級及以上,可想而知大數(shù)據(jù)的體量是非常龐大的。2.2.1大數(shù)據(jù)的概念與特征用一個更形象例子來展現(xiàn)大數(shù)據(jù)的數(shù)據(jù)量:2012年IDC和EMC聯(lián)合發(fā)布的《數(shù)據(jù)宇宙》報告顯示,2011年全球數(shù)據(jù)總量已經(jīng)達到1.87ZB,如果把這樣的數(shù)據(jù)量用光盤來進行存儲,并把這些存儲好的光盤并排排列好,其長度可達8×10^5km,大約可繞地球20圈。而且這樣的數(shù)據(jù)量并不是緩慢增長的,據(jù)報道:從1986年到2010年僅20年的時間中,全球的數(shù)據(jù)量已增長了100倍,而且數(shù)據(jù)增長的速度會隨著時間的發(fā)展越來越快。數(shù)據(jù)量龐大并且在呈幾何式爆發(fā)增長的大數(shù)據(jù),更需要進行認真的管理以及研究。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(2)數(shù)據(jù)類型繁多在進入大數(shù)據(jù)時代之后,數(shù)據(jù)類型也變得多樣化了。數(shù)據(jù)的結構類型從傳統(tǒng)單一的結構化數(shù)據(jù),變成了以非結構化數(shù)據(jù),準結構化數(shù)據(jù)和半結構化數(shù)據(jù)為主的結構類型,比如:網(wǎng)絡日志、圖片、社交網(wǎng)絡信息和地理位置信息等,這些不同的結構類型使大數(shù)據(jù)的存儲和處理變得更具挑戰(zhàn)性。除了數(shù)據(jù)結構類型的豐富,數(shù)據(jù)所在的領域也變得更加豐富,很多傳統(tǒng)的領域由于互聯(lián)網(wǎng)技術的發(fā)展,數(shù)據(jù)量也明顯增加,像物流、醫(yī)療、金融行業(yè)等的大數(shù)據(jù)都呈現(xiàn)出“爆炸式”的增長。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(3)處理速度快大數(shù)據(jù)的產(chǎn)生速度很快,變化的速度也很快。比如Facebook每天會產(chǎn)生25億以上的數(shù)據(jù)條目,每日數(shù)據(jù)新增量超過500TB。在如此高速的數(shù)據(jù)量產(chǎn)生的同時,由于大數(shù)據(jù)的技術逐漸成熟,數(shù)據(jù)處理的速度也很快,各種數(shù)據(jù)在線上可以被實時的處理,傳輸和存儲,以便全面的反映當下的情況,并從中獲取到有價值的信息。谷歌的Dremel就是一種可擴展的、交互式的數(shù)據(jù)實時查詢系統(tǒng),用于嵌套數(shù)據(jù)的分析。他通過結合多級樹狀執(zhí)行過程和列式數(shù)據(jù)結構,可以在短短幾秒內(nèi)完成對億萬張表的聚合查詢,也能擴展到成千上萬的中央處理器(CentralProcessingUnit,CPU)上,滿足谷歌用戶操作PB級別的數(shù)據(jù)要求,同時可以在2~3秒內(nèi)完成PB級的數(shù)據(jù)查詢。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(4)價值密度低大數(shù)據(jù)雖然在數(shù)量上十分龐大,但其實有價值的數(shù)據(jù)量相對比較低。在通過對大數(shù)據(jù)的獲取、存儲、抽取、清洗、集成、挖掘等一系列操作之后,能保留下來的有效數(shù)據(jù)甚至不足20%。真可謂是“沙里淘金”。以監(jiān)控攝像拍攝下來的視頻為例,一天的視頻記錄中有價值的記錄可能只有短暫的幾秒或是幾分鐘,但為了安全保障工作的順利開展,需要投入大量的資金購買設備,消耗電能和存儲空間以保證相關的區(qū)域24小時都在監(jiān)控的狀態(tài)下。因此對很多行業(yè)來說,如何能夠在低價值密度的大數(shù)據(jù)中更快更節(jié)省成本的提取到有價值的數(shù)據(jù)是他們所關注的焦點之一。1.大數(shù)據(jù)的特征2.2.1大數(shù)據(jù)的概念與特征(5)真實性強大數(shù)據(jù)中的內(nèi)容是與真實世界中發(fā)生的息息相關的,反映了很多真實的、客觀的信息,因此大數(shù)據(jù)擁有真實性強的特征。但大數(shù)據(jù)中也存在著一定數(shù)據(jù)的偏差和錯誤,要保證在數(shù)據(jù)的采集和清洗中保證留下來的數(shù)據(jù)是準確和可信賴的,才能在大數(shù)據(jù)的研究中從龐大的網(wǎng)絡數(shù)據(jù)中提取出能夠解釋和預測現(xiàn)實的事件,分析出其中蘊含的規(guī)律,預測未來的發(fā)展動向。1.大數(shù)據(jù)的特征2.2.2大數(shù)據(jù)的核心技術大數(shù)據(jù)的核心技術一般包括大數(shù)據(jù)采集技術、大數(shù)據(jù)預處理技術、大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)分析與挖掘技術、大數(shù)據(jù)可視化與大數(shù)據(jù)安全保障技術。大數(shù)據(jù)采集技術大數(shù)據(jù)預處理技術大數(shù)據(jù)存儲與管理技術數(shù)據(jù)采集技術是指:通過射頻識別(RFID)技術、傳感器、社交網(wǎng)絡交互及移動互聯(lián)網(wǎng)等方式獲得結構化、半結構化、準結構化和非結構化的海量數(shù)據(jù)。是大數(shù)據(jù)知識服務模型的根本。大數(shù)據(jù)預處理技術主要用于完成對已獲得數(shù)據(jù)的抽取、清洗等步驟。對數(shù)據(jù)進行抽取操作是由于獲取的數(shù)據(jù)可能具有多種結構和類型,需要將這些復雜的數(shù)據(jù)轉化為單一的或者便于處理的構型,以便于處理。大數(shù)據(jù)存儲與管理就是利用存儲器把采集到的數(shù)據(jù)存儲起來,并建立相應的數(shù)據(jù)庫來進行管理和調(diào)用。大數(shù)據(jù)存儲與管理的技術重點是解決復雜結構化數(shù)據(jù)的管理與處理。2.2.2大數(shù)據(jù)的核心技術大數(shù)據(jù)分析與挖掘技術大數(shù)據(jù)可視化技術大數(shù)據(jù)安全保障技術

大數(shù)據(jù)分析與挖掘技術包括改進已有的數(shù)據(jù)挖掘、機器學習、開發(fā)數(shù)據(jù)網(wǎng)絡挖掘、特異群組挖掘和圖挖掘等新型數(shù)據(jù)挖掘技術,其中重點研究的是基于對象的數(shù)據(jù)連接、相似性連接等的大數(shù)據(jù)融合技術和用戶興趣分析、網(wǎng)絡行為分析、情感語義分析等面向領域的大數(shù)據(jù)挖掘技術。

大數(shù)據(jù)可視化技術能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟活動提供依據(jù),從而提高各個領域的運行效率,提升整個社會經(jīng)濟的集約化程度。數(shù)據(jù)可視化的技術可分為基于文本的可視化技術和基于圖形的可視化技術。從企業(yè)和政府層面大數(shù)據(jù)安全保障技術主要是應對黑客的網(wǎng)絡攻擊以及防止數(shù)據(jù)泄露的問題發(fā)生;從個人層面,大數(shù)據(jù)安全保障技術主要是為了保護個人的隱私安全問題。2.2.2大數(shù)據(jù)的價值大數(shù)據(jù)的價值伴隨著數(shù)據(jù)的處理過程而產(chǎn)生(其處理過程如下圖所示),并在社會的方方面面中體現(xiàn)著它的價值。概括起來大數(shù)據(jù)的價值主要體現(xiàn)在以下2個方面:2.2.2大數(shù)據(jù)的價值1.發(fā)現(xiàn)規(guī)律在大數(shù)據(jù)分析中可以挖掘出不同要素之間的相關關系。這些關系體現(xiàn)的就是大數(shù)據(jù)中蘊含的規(guī)律,通過找到這些規(guī)律,有助于認清事物的本質(zhì),進而好的為人類服務。醫(yī)院可以更快的發(fā)現(xiàn)疾病,研制出相應的藥品,挽救更多人的生命;企業(yè)可以更好的了解不同顧客的需求,從而有針對性的為客戶推薦商品,減少顧客的選購商品的時間等。2.預測未來

大數(shù)據(jù)以龐大的數(shù)據(jù)樣本量以及先進算法技術大幅度提高了預測的準確率,為企業(yè)擴大了競爭優(yōu)勢,為人們的衣食住行也提供了很大的便利。比如銀行可以借助大數(shù)據(jù)預測潛在的風險,從而預防潛在的金融危機;氣象局可以更精準的預測未來的天氣,方便人們的出行等。03大數(shù)據(jù)與相關領域的聯(lián)系PART

THREE大數(shù)據(jù)與相關領域的聯(lián)系大數(shù)據(jù)的發(fā)展也與其他相關領域的出現(xiàn)有和發(fā)展著密不可分的聯(lián)系:數(shù)據(jù)科學是大數(shù)據(jù)研究的基礎理論,物聯(lián)網(wǎng)為大數(shù)據(jù)的數(shù)據(jù)采集提供了新的數(shù)據(jù)來源,區(qū)塊鏈技術保障了大數(shù)據(jù)存儲的安全性,而人工智能提供了大數(shù)據(jù)分析的新的研究方法,他們相輔相成,共同促進著大數(shù)據(jù)的發(fā)展。他們之間的關系如下圖所示。2.3.1大數(shù)據(jù)與數(shù)據(jù)科學大數(shù)據(jù)是存儲在不同地方的大量非聚合的原始數(shù)據(jù),其大小變化至少為pb級以上。隨著時間的推移會有越來越多的數(shù)據(jù)從各種來源生成,而且這些數(shù)據(jù)不是標準形式的,而是以各種形式產(chǎn)生的。數(shù)據(jù)科學是針對數(shù)據(jù)研究的理論基礎,包含所有與結構化和非結構化數(shù)據(jù)相關的內(nèi)容,從準備、清理、分析和源于有用的視角開始。它結合了數(shù)學、統(tǒng)計學、智能數(shù)據(jù)捕獲、編程、問題解決、數(shù)據(jù)清理、不同的觀察角度、準備和數(shù)據(jù)對齊。它是對數(shù)據(jù)進行處理的幾種技術和流程的組合,以獲得有價值的業(yè)務視角。簡而言之,大數(shù)據(jù)是數(shù)據(jù)科學領域中的一個重要的并且很熱門的研究點。高效的解決大數(shù)據(jù)存儲與處理的問題一直以來也是數(shù)據(jù)科學所追求的目標。也可以說數(shù)據(jù)科學的研究是包含著大數(shù)據(jù)的,大數(shù)據(jù)的研究推進也有助于數(shù)據(jù)科學的發(fā)展。2.3.2大數(shù)據(jù)與物聯(lián)網(wǎng)物聯(lián)網(wǎng)(TheInternetofThings,簡稱IOT)是指通過各種信息傳感器、射頻識別技術、全球定位系統(tǒng)、紅外感應器、激光掃描器等各種裝置與技術,實時采集任何需要監(jiān)控、連接、互動的物體或過程,采集其聲、光、熱、電、力學、化學、生物、位置等各種需要的信息,通過各類可能的網(wǎng)絡接入,實現(xiàn)物與物、物與人的泛在連接,實現(xiàn)對物品和過程的智能化感知、識別和管理。簡單地說,物聯(lián)網(wǎng)即“萬物相連的互聯(lián)網(wǎng)”,實現(xiàn)在任何時間、任何地點上人、機、物的互聯(lián)互通。2.3.2大數(shù)據(jù)與物聯(lián)網(wǎng)對于大數(shù)據(jù)而言,物聯(lián)網(wǎng)是大數(shù)據(jù)的一個重要來源。大數(shù)據(jù)的數(shù)據(jù)來源主要有三個方面,分別是物聯(lián)網(wǎng)、Web系統(tǒng)和傳統(tǒng)信息系統(tǒng),其中物聯(lián)網(wǎng)是大數(shù)據(jù)的主要數(shù)據(jù)來源,占到了整個數(shù)據(jù)來源的百分之九十以上,所以說沒有物聯(lián)網(wǎng)也就沒有大數(shù)據(jù)。對于物聯(lián)網(wǎng)來說,大數(shù)據(jù)又是物聯(lián)網(wǎng)體系的重要組成部分。物聯(lián)網(wǎng)的體系結構分成六個部分,分別是設備、網(wǎng)絡、平臺、數(shù)據(jù)分析、應用和安全,其中大數(shù)據(jù)分析就是物聯(lián)網(wǎng)數(shù)據(jù)分析部分的主要研究內(nèi)容,而且物聯(lián)網(wǎng)將事物和信息聯(lián)系起來,使數(shù)據(jù)和實物之間有了關聯(lián)性,能產(chǎn)生更大的價值。2.3.3大數(shù)據(jù)與區(qū)塊鏈區(qū)塊鏈(Blockchain)是用分布式數(shù)據(jù)庫識別、傳播和記載信息的智能化對等網(wǎng)絡,也稱為價值互聯(lián)網(wǎng)。是利用分布式數(shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術形成的新型應用模式。區(qū)塊鏈一詞最早是作為比特幣的底層技術之一出現(xiàn)的,它本質(zhì)上是一個去中心化的數(shù)據(jù)庫。從科技層面來看,區(qū)塊鏈涉及數(shù)學、密碼學、互聯(lián)網(wǎng)和計算機編程等很多科學技術問題。從應用視角來看,區(qū)塊鏈是一個分布式的共享賬本和數(shù)據(jù)庫,具有去中心化、不可篡改、全程留痕、可以追溯、集體維護、公開透明等特點。這些特點保證了區(qū)塊鏈的“誠實”與“透明”,為區(qū)塊鏈創(chuàng)造信任奠定基礎。2.3.3大數(shù)據(jù)與區(qū)塊鏈在大數(shù)據(jù)中,區(qū)塊鏈技術保障了大數(shù)據(jù)的安全,使得大數(shù)據(jù)在存儲和使用時的安全問題得到了極大的解決。其工作原理就是把所有數(shù)據(jù)東西拆分成更小的部分并使其分布在整個計算機網(wǎng)絡上,而不是把數(shù)據(jù)上傳到云服務器上,或者把數(shù)據(jù)存儲在一個地方的傳統(tǒng)方式,這樣就有效地排除了中間人處理數(shù)據(jù)的傳輸和交易。此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論