大數(shù)據(jù)介紹課件

上傳人：l*** IP屬地：貴州上傳時間：2023-07-24 格式：PPT 頁數(shù)：65 大小：10.49MB 積分：25 舉報 版權申訴

已閱讀5頁，還剩60頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

大數(shù)據(jù)時代的背景“大數(shù)據(jù)”的誕生：半個世紀以來，隨著計算機技術全面融入社會生活，信息爆炸已經累積到了開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息，而且其增長速度也在加快。如今，這個概念幾乎應用到了所有人類智力與發(fā)展的領域中。Facebook社交網絡淘寶電子商務微博、Apps移動互聯(lián)21世紀是數(shù)據(jù)信息大發(fā)展的時代，移動互聯(lián)、社交網絡、電子商務等極大拓展了互聯(lián)網的邊界和應用范圍，各種數(shù)據(jù)正在迅速膨脹并變大互聯(lián)網（社交、搜索、電商）、移動互聯(lián)網（微博）、物聯(lián)網（傳感器、智慧地球）、車聯(lián)網、GPS、醫(yī)學影像、安全監(jiān)控、金融（銀行、股市、保險）、電信（通話、短信）大數(shù)據(jù)的定義大數(shù)據(jù)（Bigdata或Megadata），或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料，指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內截取、管理、處理、并整理成為人類所能解讀的形式的信息。GBTBPB數(shù)據(jù)大爆炸EBZB地球上至今總共的數(shù)據(jù)量：在2006年，個人用戶才剛剛邁進TB時代，全球一共新產生了約180EB的數(shù)據(jù)；在2011年，這個數(shù)字達到1.8ZB.到2020年，整個世界的數(shù)據(jù)總量會增長44倍，達到35ZB想要駕馭著龐大的數(shù)據(jù)必須先了解大數(shù)據(jù)的特征

多樣性（Variety）大數(shù)據(jù)具有4V特征

速度（Velocity）

價值（Value）

容量（Volume）海量數(shù)據(jù)處理，難以集中存儲和計算TBPBEB快速地數(shù)據(jù)傳輸流模式實時準實時批量多種多樣的數(shù)據(jù)類型結構化半結構化非結構化巨大的數(shù)據(jù)價值高價值低密度碎片化高離散化傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)對比傳統(tǒng)數(shù)據(jù)（DB）大數(shù)據(jù)（BD）數(shù)據(jù)規(guī)模?。∕B）大（GB、TP、PB）數(shù)據(jù)類型單一（結構化）繁多（結構化、半結構化、非結構化）數(shù)據(jù)與模式關系現(xiàn)有模式后有數(shù)據(jù)現(xiàn)有數(shù)據(jù)后有模式，模式種類繁多處理對象數(shù)據(jù)各種類型相關技術分析技術：數(shù)據(jù)處理：自然語言處理技術統(tǒng)計和分析：A/Btest；topN排行榜數(shù)據(jù)挖掘：關聯(lián)規(guī)則分析；分類；聚類大數(shù)據(jù)技術：數(shù)據(jù)采集：ETL工具數(shù)據(jù)存?。宏P系數(shù)據(jù)庫；NoSQL；SQL等基礎架構支持：云存儲；分布式文件系統(tǒng)等計算結果展現(xiàn)：云計算；標簽云；關系圖等存儲：結構化數(shù)據(jù)：海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結構化數(shù)據(jù)：圖片、視頻、word等文件存儲不利于檢索、查詢和存儲半結構化數(shù)據(jù)：轉換為結構化存儲按照非結構化存儲解決方案：Hadoop流計算數(shù)據(jù)源（互聯(lián)網、物聯(lián)網、企業(yè)數(shù)據(jù)）數(shù)據(jù)收集（ETL（kattle）、提取、轉換、加載）數(shù)據(jù)存儲（SQL和NoSQL）資源管理（1）、數(shù)據(jù)收集、準備（2）、數(shù)據(jù)存儲批處理交互式流處理數(shù)據(jù)挖掘（數(shù)據(jù)倉庫、olap、商務智能等）數(shù)據(jù)可視化用戶（3）、資源管理（4）、計算框架（5）、數(shù)據(jù)分析（6）、數(shù)據(jù)展示Hbase的優(yōu)劣1、動態(tài)可擴展的，創(chuàng)建表的時候不需要知道有幾列，只需要指定有幾個columnfamily，并且列為空就不存儲數(shù)據(jù),節(jié)省存儲空間。為什么列是動態(tài)的？統(tǒng)計淘寶訪問量和購買量，新平臺的統(tǒng)計，傳統(tǒng)關系型數(shù)據(jù)庫需要停機維護，而Hbase支持動態(tài)增加2、多版本數(shù)據(jù)

根據(jù)Rowkey和Columnkey定位到的Value可以有任意數(shù)量的版本值，因此對于需要存儲變動歷史記錄的數(shù)據(jù)，用HBase就非常方便了。3、支持事務較弱，所以有事務支持的時候都會選擇傳統(tǒng)的關系型數(shù)據(jù)庫，Hbase事務僅僅是針對某一行的一系列Put/Delete操作。不同行、不同表間一系列操作是無法放在一個事務中的。對一張多Region表來說，還是無法保證每次修改都能封裝為一個事務。計算框架批處理：mapreduce例：報表實時性：（毫秒級）storm例：信用卡欺詐交互式分析：（秒級）spark數(shù)據(jù)挖掘數(shù)據(jù)挖掘從海量的數(shù)據(jù)中找到有價值的金礦數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程數(shù)據(jù)可視化大數(shù)據(jù)主要應用技術---HadoopHadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計算。運行平臺：Linux、MacOS/X，Solaris，Windows高可靠性高容錯性低成本高效性高擴展性Hadoop優(yōu)點1、高可靠性：hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。2、高擴展性：hadoop是在可用的計算機集簇之間分配數(shù)據(jù)并完成計算任務的，這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。3、高效性：能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點之間的動態(tài)平衡，因此處理速度非?？臁?、高容錯性：hadoop能夠自動保存數(shù)據(jù)的多個副本，并且能夠自動將失敗的任務重新分配。5、低成本：hadoop本身是運行在普通PC服務器組成的集群中進行大數(shù)據(jù)的分發(fā)及處理工作的，這些服務器集群是可以支持數(shù)千個節(jié)點的。Hadoop核心設計兩大核心設計MapReduceHDFSMap：任務的分解Reduce：結果的匯總NameNode：文件管理DataNode：文件存儲Client：文件獲取HDFS架構主從（Master/Slave）體系結構只含有一二NameNode主服務節(jié)點這個節(jié)點管理文件系統(tǒng)中的命名空間和調度客服端對文件的訪問通常一個機器就是一個DataNode數(shù)據(jù)節(jié)點，DataNode管理本節(jié)點上數(shù)據(jù)的存儲在HDFS內部，一個文件被分割為一個貨多個數(shù)據(jù)塊，并且這些數(shù)據(jù)塊被存儲在一批DataNode中NameNode執(zhí)行文件系統(tǒng)中命名空間的操作（打開、關閉、重命名文件和目錄），NameNode需要執(zhí)行數(shù)據(jù)塊到DataNode映射的決策DataNode負責響應來自客戶端的文件讀寫要求，也要負責執(zhí)行來自NameNode的關于數(shù)據(jù)塊創(chuàng)建、刪除和冗余存儲的指令Map/Reduce處理過程一次Map/Reduce任務過程。用戶提交給JobTracer，JobTracer把對應的用戶程序中的Map操作和Reduce操作映射至TaskTracer節(jié)點中；輸入模塊負責把輸入數(shù)據(jù)分成小數(shù)據(jù)塊。然后把他們傳給Map節(jié)點；Map節(jié)點得到每一個key/value對，處理后產生一個或多個key/value對，然后寫入文件；Reduce節(jié)點獲取臨時文件中的數(shù)據(jù)，對代用相同key的數(shù)據(jù)進行迭代計算，然后把最終結果寫入文件。我們要數(shù)圖書館中的所有書。你數(shù)1號書架，我數(shù)2號書架。這就是“Map”。我們人越多，數(shù)書就更快?，F(xiàn)在我們到一起，把所有人的統(tǒng)計數(shù)加在一起。這就是“Reduce”。Hadoop體系架構AmbariChuKwaZooKeeperPigHiveAvroMahoutMapReduce/YARNCassandraHBaseHDFSApacheAmbari是一個基于Web的工具，用于配置、管理和監(jiān)視ApacheHadoop集群，支持HadoopHDFS、HadoopMapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。ApacheAmbariApachePig是一個用于大型數(shù)據(jù)集分析的平臺，它包含了一個用于數(shù)據(jù)分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在于它們的結構經得起大量的并行，也就是說讓它們支撐起非常大的數(shù)據(jù)集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器ApachePigApacheHive是Hadoop的一個數(shù)據(jù)倉庫系統(tǒng)，促進了數(shù)據(jù)的綜述（將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表）、即席查詢以及存儲在Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢功能——HiveQL語言，同時當使用這個語言表達一個邏輯變得低效和繁瑣時，HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。Hive類似CloudBase，基于hadoop分布式計算平臺上的提供datawarehouse的sql功能的一套軟件。使得存儲在hadoop里面的海量數(shù)據(jù)的匯總，即席查詢簡單化。ApacheHiveHBase是一個分布式的、面向列的開源數(shù)據(jù)庫，該技術來源于FayChang所撰寫的Google論文“Bigtable：一個結構化數(shù)據(jù)的分布式存儲系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)（FileSystem）所提供的分布式數(shù)據(jù)存儲一樣，HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數(shù)據(jù)庫，它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。ApacheHBaseApacheCassandra是一個高性能、可線性擴展、高有效性數(shù)據(jù)庫，可以運行在商用硬件或云基礎設施上打造完美的任務關鍵性數(shù)據(jù)平臺。在橫跨數(shù)據(jù)中心的復制中，Cassandra同類最佳，為用戶提供更低的延時以及更可靠的災難備份。通過log-structuredupdate、反規(guī)范化和物化視圖的強支持以及強大的內置緩存，Cassandra的數(shù)據(jù)模型提供了方便的二級索引（columnindex）ApacheCassandraAvro是一個數(shù)據(jù)系列化系統(tǒng)；Avro是dougcutting主持的RPC項目，有點類似Google的protobuf和Facebook的thrift。Avro用來做以后hadoop的RPC，使hadoop的RPC模塊通信速度更快、數(shù)據(jù)結構更緊湊ApacheMahout是個可擴展的機器學習和數(shù)據(jù)挖掘庫，當前Mahout支持主要的4個用例：

推薦挖掘：搜集用戶動作并以此給用戶推薦可能喜歡的事物。

聚集：收集文件并進行相關文件分組。

分類：從現(xiàn)有的分類文檔中學習，尋找文檔中的相似特征，并為無標簽的文檔進行正確的歸類。

頻繁項集挖掘：將一組項分組，并識別哪些個別項會經常一起出現(xiàn)。Zookeeper是Google的Chubby一個開源的實現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調系統(tǒng)，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。ApacheChukwa是個開源的數(shù)據(jù)收集系統(tǒng)，用以監(jiān)視大型分布系統(tǒng)。建立于HDFS和Map/Reduce框架之上，繼承了Hadoop的可擴展性和穩(wěn)定性。Chukwa同樣包含了一個靈活和強大的工具包，用以顯示、監(jiān)視和分析結果，以保證數(shù)據(jù)的使用達到最佳效果。Hadoop平臺的安裝配置Hadoop安裝配置參考如下：/xia520pi/archive/2012/05/16/2503949.htmlZookeeper

從程序員的角度來講可以理解為Hadoop的整體監(jiān)控系統(tǒng)。如果namenode,HMaster宕機后，這時候Zookeeper

的重新選出leader。這是它最大的作用所在。下面詳細介紹zookeeper的作用Hadoop有NameNode，HBase有HMaster，為什么還需要zookeeper，下面給大家通過例子給大家介紹。

一個Zookeeper的集群中,3個Zookeeper節(jié)點.一個leader,兩個follower的情況下,停掉leader,然后兩個follower選舉出一個leader.獲取的數(shù)據(jù)不變.我想Zookeeper能夠幫助Hadoop做到:

Hadoop,使用Zookeeper的事件處理確保整個集群只有一個NameNode,存儲配置信息等.

HBase,使用Zookeeper的事件處理確保整個集群只有一個HMaster,察覺HRegionServer聯(lián)機和宕機,存儲訪問控制列表等.Hbase是一個分布式的、面向列的數(shù)據(jù)庫。Hbase利用hadoop的HDFS作為其的文件存儲系統(tǒng)，Hbase利用hadoop的MapReduce來處理Hbase中的海量數(shù)據(jù)，利用Zookeeper作為協(xié)同服務namegradcoursemathartzkb59787baoniu48980HBaseshell的基本用法

hbase提供了一個shell的終端給用戶交互。通過執(zhí)行helpget可以看到命令的幫助信息。以網上的一個學生成績表的例子來演示hbase的用法。這里grad對于表來說是一個列,course對于表來說是一個列族,這個列族由兩個列組成math和art,當然我們可以根據(jù)我們的需要在course中建立更多的列族,如computer,physics等相應的列添加入course列族。(1)

列族columnfamily

hbase表中的每個列，都歸屬與某個列族。列族是表的chema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如courses:history，courses:math都屬于courses這個列族。(2)單元

Cell

HBase中通過row和columns確定的為一個存貯單元稱為cell。由{rowkey,column(=<family>+<label>),version}唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的，全部是字節(jié)碼形式存貯。(3)

時間戳timestamp每個cell都保存著同一份數(shù)據(jù)的多個版本。版本通過時間戳來索引。時間戳的類型是64位整型。時間戳可以由hbase(在數(shù)據(jù)寫入時自動)賦值，此時時間戳是精確到毫秒的當前系統(tǒng)時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數(shù)據(jù)版本沖突，就必須自己生成具有唯一性的時間戳。每個cell中，不同版本的數(shù)據(jù)按照時間倒序排序，即最新的數(shù)據(jù)排在最前面。為了避免數(shù)據(jù)存在過多版本造成的的管理(包括存貯和索引)負擔，hbase提供了兩種數(shù)據(jù)版本回收方式。一是保存數(shù)據(jù)的最后n個版本，二是保存最近一段時間內的版本（比如最近七天）。用戶可以針對每個列族進行設置。Thinks大數(shù)據(jù)數(shù)據(jù)的本質數(shù)據(jù)本質是生產資料和資產數(shù)據(jù)生產資料資產大數(shù)據(jù)的提出在1980年，著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中，明確提出“數(shù)據(jù)就是財富”，將大數(shù)據(jù)稱為“第三次浪潮的華彩樂章”。第二次浪潮第三次浪潮第一次浪潮農業(yè)階段，約1萬年前開始工業(yè)階段，17世紀末開始信息化階段，20世紀50年代后期開始“如果說IBM的主機拉開了信息化革命的大幕，那么大數(shù)據(jù)才是第三次浪潮的華彩樂章。”從“數(shù)據(jù)”到“大數(shù)據(jù)”事件一事件二事件三時至今日，“數(shù)據(jù)”變身“大數(shù)據(jù)”，“開啟了一次重大的時代轉型”“大數(shù)據(jù)”這一概念的形成，有三個標志性事件：2008年9月，美國《自然》（Nature）雜志?？猅henextgoogle，第一次正式提出“大數(shù)據(jù)”概念。2011年2月1日，《科學》（Science）雜志?？狣ealingwithdata，通過社會調查的方式，第一次綜合分析了大數(shù)據(jù)對人們生活造成的影響，詳細描述了人類面臨的“數(shù)據(jù)困境”。2011年5月，麥肯錫研究院發(fā)布報告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次給大數(shù)據(jù)做出相對清晰的定義：“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能力的數(shù)據(jù)集?！贝髷?shù)據(jù)的定義大數(shù)據(jù)（bigdata），指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。大數(shù)據(jù)的來源隨著智能手機的普及，網民參與互聯(lián)網產品和使用各種手機應用的程度越來越深，用戶的行為、位置、甚至身體生理等每一點變化都成為了可被記錄和分析的數(shù)據(jù)，數(shù)據(jù)量呈現(xiàn)爆炸式增長。地球上至今總共的數(shù)據(jù)量：在2006年，個人用戶才剛剛邁進TB時代，全球一共新產生了約180EB的數(shù)據(jù)；據(jù)IDC研究機構預測：到2020年，整個世界的數(shù)據(jù)總量將會增長44倍，達到35.2ZB（1ZB=10億TB）！1PB=2^50字節(jié)1EB=2^60字節(jié)1ZB=2^70字節(jié)TBPBEB ZB在2011年，這個數(shù)字達到了1.8ZB。GB數(shù)據(jù)大爆炸大數(shù)據(jù)的來源互聯(lián)網每天產生的全部內容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網民每天在Facebook上要花費234億分鐘，被移動互聯(lián)網使用者發(fā)送和接收的數(shù)據(jù)高達44PB全球每秒發(fā)送290萬封電子郵件，一分鐘讀一篇的話，足夠一個人晝夜不停地讀5.5年每天會有2.88萬個小時的視頻上傳到YouTube，足夠一個人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬條消息，假設10秒就瀏覽一條消息，足夠一個人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大？

以上一組互聯(lián)網數(shù)據(jù)大數(shù)據(jù)的來源來自大量傳感器的機器數(shù)據(jù)科學研究及行業(yè)多結構專業(yè)數(shù)據(jù)來自“大人群”泛互聯(lián)網數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網數(shù)據(jù)隨著人類活動的進一步擴展，數(shù)據(jù)規(guī)模會急劇膨脹，包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內的各行業(yè)累積的數(shù)據(jù)量越來越大，數(shù)據(jù)類型也越來越多、越來越復雜，已經超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍，于是“大數(shù)據(jù)”這樣一個概念才會應運而生。大數(shù)據(jù)的構成大數(shù)據(jù)=海量數(shù)據(jù)（交易數(shù)據(jù)、交互數(shù)據(jù)）+針對海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù)：企業(yè)內部的經營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù)，是結構化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù)，我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù)：源于Facebook、Twitter、微博、及其他來源的社交媒體數(shù)據(jù)構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學信息、電子郵件等等?？梢愿嬖V我們未來會發(fā)生什么。海量數(shù)據(jù)處理：大數(shù)據(jù)的涌現(xiàn)已經催生出了設計用于數(shù)據(jù)密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。注：大數(shù)據(jù)不僅僅指的是數(shù)據(jù)量龐大，更為重要的是數(shù)據(jù)類型復雜大交易數(shù)據(jù)大交互數(shù)據(jù)大數(shù)據(jù)處理大數(shù)據(jù)集成大數(shù)據(jù)4V特征4V特征種類多（Variety）速度快（Velocity）價值高（Value）體量大（Volume）大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比，數(shù)據(jù)來源廣、維度多、類型雜，各種機器儀表在自動產生數(shù)據(jù)的同時，人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù)；不僅有企業(yè)組織內部的業(yè)務數(shù)據(jù)，還有海量相關的外部數(shù)據(jù)。隨著現(xiàn)代感測、互聯(lián)網、計算機技術的發(fā)展，數(shù)據(jù)生成、儲存、分析、處理的速度遠遠超出人們的想象力，這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價值，但同其呈幾何指數(shù)爆發(fā)式增長相比，某一對象或模塊數(shù)據(jù)的價值密度較低，這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。從2013年至2020年，人類的數(shù)據(jù)規(guī)模將擴大50倍，每年產生的數(shù)據(jù)量將增長到44萬億GB，相當于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍，且每18個月翻一番。大數(shù)據(jù)4V特征—價值高（Value）大數(shù)據(jù)有巨大的潛在價值，但同其呈幾何指數(shù)爆發(fā)式增長相比，某一對象或模塊數(shù)據(jù)的價值密度較低，這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。挖掘大數(shù)據(jù)的價值類似沙里淘金，從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息；價值密度低，是大數(shù)據(jù)的一個典型特征；大數(shù)據(jù)4V特征—體量大（Volume）從2013年至2020年，人類的數(shù)據(jù)規(guī)模將擴大50倍，每年產生的數(shù)據(jù)量將增長到44萬億GB，相當于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍，且每18個月翻一番。1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相當于50%的全美學術研究圖書館藏書信息內容5EB相當于至今全世界人類所講過的話語1ZB如同全世界海灘上的沙子數(shù)量總和1YB相當于7000位人類體內的微細胞總和一般情況下，大數(shù)據(jù)是以PB、EB、ZB為單位進行計量的大數(shù)據(jù)4V特征—速度快（Velocity）82254132215327源自英國Coda研究咨詢公司大數(shù)據(jù)的增長速度快大數(shù)據(jù)的處理速度快實時數(shù)據(jù)流處理的要求，是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術，BI技術的關鍵差別之一；1s是臨界點，對于大數(shù)據(jù)應用而言,必須要在1秒鐘內形成答案，否則處理結果就是過時和無效的；現(xiàn)在及未來幾年內美國的移動網絡數(shù)據(jù)流量增長（PB/月）大數(shù)據(jù)4V特征—種類多（Variety）大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比，數(shù)據(jù)來源廣、維度多、類型雜，各種機器儀表在自動產生數(shù)據(jù)的同時，人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù)；不僅有企業(yè)組織內部的業(yè)務數(shù)據(jù)，還有海量相關的外部數(shù)據(jù)。數(shù)據(jù)來源多企業(yè)內部多個應用系統(tǒng)的數(shù)據(jù)、互聯(lián)網和物聯(lián)網的興起，帶來了微博、社交網站、傳感器等多種來源。數(shù)據(jù)類型多保存在關系數(shù)據(jù)庫中的結構化數(shù)據(jù)只占少數(shù)，70~80%的數(shù)據(jù)是如圖片、音頻、視頻、模型、連接信息、文檔等非結構化和半結構化數(shù)據(jù)。關聯(lián)性強數(shù)據(jù)之間頻繁交互，比如游客在旅行途中上傳的圖片和日志，就與游客的位置、行程等信息有了很強的關聯(lián)性。物聯(lián)網數(shù)據(jù)行業(yè)/企業(yè)內數(shù)據(jù)互聯(lián)網數(shù)據(jù)大數(shù)據(jù)大數(shù)據(jù)帶來的思維變革大數(shù)據(jù)大數(shù)據(jù)的核心代表著我們分析信息時的三個轉變，這些轉變將改變我們理解和組建社會的方法更多更雜更好更多不是隨機樣本，而是全體數(shù)據(jù)更好不是因果關系，而是相關關系更雜不是精確性，而是混雜性大數(shù)據(jù)帶來的思維變革—更多人口大普查全數(shù)據(jù)模式隨機采樣樣本模式大數(shù)據(jù)應用全數(shù)據(jù)模式是指在國家統(tǒng)一規(guī)定的時間內，按照統(tǒng)一的方法、統(tǒng)一的項目、統(tǒng)一的調查表和統(tǒng)一的標準時點，對全國人口普遍地、逐戶逐人地進行的一次性調查登記；主要特點是調查組織高度集中性，普查對象的全面完整性；人口大普查耗時耗費，一般來講是十年一次，新中國成立以來共進行了6次人口大普查；人口大普查是一種典型的全數(shù)據(jù)模式；大數(shù)據(jù)時代小數(shù)據(jù)時代大數(shù)據(jù)帶來的思維變革—更多人口大普查全數(shù)據(jù)模式隨機采樣樣本模式大數(shù)據(jù)應用全數(shù)據(jù)模式人口大普查是一種耗時耗費的工程，一般是以十年為單位；各國每年需要進行幾百次的小規(guī)模人口調查，采取隨機采樣分析的方式，這是一種樣本模式；源于實用并且很好的創(chuàng)新！隨機采樣分析是小數(shù)據(jù)時代的產物；大數(shù)據(jù)時代小數(shù)據(jù)時代大數(shù)據(jù)帶來的思維變革—更多人口大普查全數(shù)據(jù)模式隨機采樣樣本模式大數(shù)據(jù)應用全數(shù)據(jù)模式我們已具備了大數(shù)據(jù)的各種技術能力，思維需要轉換到大數(shù)據(jù)的全數(shù)據(jù)模式：樣本=全部；大數(shù)據(jù)不用隨機分析法這樣的捷徑，而采用所有數(shù)據(jù)的方法；這里的“大”是相對的——相撲比賽所有數(shù)據(jù)存儲還不需要一個TB，但是是所有的數(shù)據(jù)！在大數(shù)據(jù)時代采用隨機采樣法，就像在汽車時代騎馬一樣，雖然特定情況下仍可采樣隨機采樣法，但是慢慢地我們會放棄它；大數(shù)據(jù)時代小數(shù)據(jù)時代大數(shù)據(jù)帶來的思維變革—更好佛教《三世因果經》主要講

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)介紹課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)介紹課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔