大數(shù)據(jù)歷史及將來課件

上傳人：z*** IP屬地：貴州上傳時間：2023-08-03 格式：PPTX 頁數(shù)：63 大小：6.66MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩58頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

目錄1.大數(shù)據(jù)

2.Hadoop3.HDFS4.MapReduce5.Hive6.Hbase7.Spark8.RDD9.SparkSQL10.Python大數(shù)據(jù)開發(fā)目錄1.大數(shù)據(jù)BIGDATAWEBPB千TCRMTB千GGB千兆ERPEB千P不斷增加的數(shù)據(jù)種類與復(fù)雜度用戶生成內(nèi)容移動網(wǎng)絡(luò)短信、彩信輿情分析外部統(tǒng)計高清視頻語音轉(zhuǎn)換產(chǎn)品、服務(wù)log社交網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)流用戶點擊流網(wǎng)絡(luò)log營銷歷史A/B測試動態(tài)定價聯(lián)署網(wǎng)絡(luò)搜索營銷行為目標(biāo)動態(tài)過濾付款信息客戶名單客戶接觸購買明細(xì)購買記錄營銷信息客戶細(xì)分移動互聯(lián)網(wǎng)云計算物聯(lián)網(wǎng)社交網(wǎng)絡(luò)數(shù)據(jù)的低成本獲取與分布式存儲(Hadoop)基于位置的服務(wù)內(nèi)容分析萬兆交換流計算信息技術(shù)的飛速發(fā)展催生了大數(shù)據(jù)大數(shù)據(jù)產(chǎn)生背景BIGDATAWEBPBCRMTBGBERPEB不斷增加的數(shù)據(jù)膨脹相應(yīng)的處理技術(shù)數(shù)據(jù)膨脹相應(yīng)的處理技術(shù)4V：

Volume，Variety，Value，Velocity數(shù)據(jù)體量巨大：從TB級別，躍升到PB級別數(shù)據(jù)類型繁多：網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息。。。價值密度低：海量數(shù)據(jù)中高價值信息的比例。。。處理速度快：秒級響應(yīng)。。。Veracity(準(zhǔn)確性)：處理的結(jié)果要保證一定的準(zhǔn)確性。大數(shù)據(jù)的特點4V：Volume，Variety，Value，Veloc面臨核心問題：數(shù)據(jù)的存儲和分析磁盤存儲和磁盤讀取的比較：數(shù)據(jù)堆成山發(fā)現(xiàn)知識難：–如今信息世界，數(shù)據(jù)大爆炸–面向應(yīng)用，各自為陣，煙囪林立–缺乏為決策提供知識的一個完整服務(wù)體系資源的分類：計算能力，存儲能力，網(wǎng)絡(luò)速度面臨核心問題：數(shù)據(jù)的存儲和分析磁盤存儲和磁盤讀取的比較：數(shù)據(jù)云技術(shù)為大數(shù)據(jù)處理提供了技術(shù)基礎(chǔ)云技術(shù)發(fā)展給了人們廉價獲取海量計算和存儲能力–以前一個大型機，或者一個數(shù)據(jù)處理中心的事情，目前可以用一個云計算（Hadoop）集群來完成–大量CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)–1T數(shù)據(jù)，100臺機器，每臺存儲1%，同時讀取，只需要幾分鐘云技術(shù)為大數(shù)據(jù)處理提供了技術(shù)基礎(chǔ)云技術(shù)發(fā)展給了人們廉價獲取海大數(shù)據(jù)分析帶來變化數(shù)據(jù)大小–由GB到PB數(shù)據(jù)更新–由頻繁讀寫到一次寫入多次讀取數(shù)據(jù)結(jié)構(gòu)–靜態(tài)模式到動態(tài)模式計算方法–應(yīng)用為主轉(zhuǎn)變?yōu)榉治鰹橹鞔髷?shù)據(jù)分析帶來變化數(shù)據(jù)大小大數(shù)據(jù)分析的五個方面AnalyticVisualizations（可視化分析）–不管是對數(shù)據(jù)分析專家還是普通用戶，數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。–可視化可以直觀的展示數(shù)據(jù)，讓數(shù)據(jù)自己說話，讓觀眾聽到結(jié)果。DataMiningAlgorithms（數(shù)據(jù)挖掘算法）–可視化是給人看的，數(shù)據(jù)挖掘就是給機器看的。–集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部，挖掘價值。–這些算法不僅要處理大數(shù)據(jù)的量，也要處理大數(shù)據(jù)的速度。大數(shù)據(jù)分析的五個方面AnalyticVisualizati大數(shù)據(jù)分析的五個方面PredictiveAnalyticCapabilities（預(yù)測性分析能力）–數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù)，而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果，做出一些預(yù)測性的判斷。SemanticEngines（語義引擎）–非結(jié)構(gòu)化數(shù)據(jù)的多樣性，需要一系列的工具去解析，提取，分析數(shù)據(jù)。–語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息DataQualityandMasterDataManagement（數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理）–數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。–通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。大數(shù)據(jù)分析的五個方面PredictiveAnalytic大數(shù)據(jù)目前主流技術(shù)主要有Hadoop、Spark、Storm三類，以及在此之下配套發(fā)展的HDFS、MapReduce、Hbase、Hive、Yarn等一系列開源軟件。其中Hadoop發(fā)展最早，商業(yè)化也最成熟，目前最新版本為3.0。Spark目前最新版本為2.0,Spark這兩年發(fā)展迅速，是大數(shù)據(jù)最火的技術(shù)。目前大數(shù)據(jù)主流技術(shù)大數(shù)據(jù)目前主流技術(shù)主要有Hadoop、Spark、SKafka分布式消息系統(tǒng)Flume日志數(shù)據(jù)Sqoop關(guān)系型數(shù)據(jù)HDFSHadoop分布式文件系統(tǒng)HBaseNoSQL數(shù)據(jù)庫MapReduce批處理Spark內(nèi)存處理Streaming實時處理Pig腳本語言HiveSQLGraphX圖計算SparkSQLTableauQlikviewBusinessObjectsCognosR/SPSSMLLib機器學(xué)習(xí)Tez批處理數(shù)據(jù)存儲數(shù)據(jù)采集數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)展示數(shù)據(jù)管控YARN通用資源管理框架ZooKeeper分布式應(yīng)用程序協(xié)調(diào)服務(wù)Ambari集群管控Oozie工作流引擎服務(wù)批處理實時處理Splunk機器數(shù)據(jù)大數(shù)據(jù)常用技術(shù)架構(gòu)KafkaFlumeSqoopHDFSHBaseMapRed大數(shù)據(jù)常用技術(shù)架構(gòu)大數(shù)據(jù)常用技術(shù)架構(gòu)大數(shù)據(jù)歷史及將來課件大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例001張三15男性學(xué)生002李四32女性教師003王二麻44男性工程師001 張三 15+1 男性

學(xué)生002 李四 32+1 女性

教師003 王二麻 44+1 男性

工程師Localfile讀取處理分析002 李四

女性

教師存儲Localfile1假如沒有數(shù)據(jù)庫HDFS（file）讀取MapReduce/SparkNoSQL/HDFS結(jié)果存儲展示分析SQL001張三15男性學(xué)生001 張三 15+1 男性學(xué)生Lo目錄1.大數(shù)據(jù)

2.Hadoop3.HDFS4.MapReduce5.Hive6.Hbase7.Spark8.RDD9.SparkSQL10.Python大數(shù)據(jù)開發(fā)目錄1.大數(shù)據(jù)Google的三大技術(shù)核心GFS分布式文件系統(tǒng)MapReduce數(shù)據(jù)處理機制BigTable表結(jié)構(gòu)Google的三大技術(shù)核心GFS分布式文件系統(tǒng)GFSGFSClient（客戶端）：應(yīng)用程序的訪問接口Master（主服務(wù)器）：管理節(jié)點，在邏輯上只有一個，保存系統(tǒng)的元數(shù)據(jù)，負(fù)責(zé)整個文件系統(tǒng)的管理。ChunkServer（數(shù)據(jù)塊服務(wù)器）：負(fù)責(zé)具體的存儲工作。數(shù)據(jù)以文件的形式存儲在ChunkServer上。GFSGFSClient（客戶端）：應(yīng)用程序的訪問接口Bigtable一個存儲Web網(wǎng)頁的例子的表的片斷。行名是一個反向URL。contents列族存放的是網(wǎng)頁的內(nèi)容，anchor列族存放引用該網(wǎng)頁的錨鏈接文本。CNN的主頁被SportsIllustrater和MY-look的主頁引用，因此該行包含了名為“anchor:”和“anchhor:my.look.ca”的列。每個錨鏈接只有一個版本（alex注：注意時間戳標(biāo)識了列的版本，t9和t8分別標(biāo)識了兩個錨鏈接的版本）；而contents列則有三個版本，分別由時間戳t3，t5，和t6標(biāo)識。Bigtable一個存儲Web網(wǎng)頁的例子的表的片斷。行名是BigtableBigtableMapReduceMapReduceHadoop是Google開源的實現(xiàn)DougCutting(道·卡廷

)等在Nutch技術(shù)基礎(chǔ)上受到Google相關(guān)論文的啟發(fā)Yahoo！支持,由Apache主導(dǎo)的開源系統(tǒng)Hadoop得到大量廠商的支持目前有眾多的產(chǎn)品序列Hadoop與GoogleHadoop這個單詞是，是他兒子的一個毛絨玩具小象的名字Hadoop與GoogleHadoop這個單詞是，是他兒子的Hadoop核心技術(shù)HDFS分布式的文件管理系統(tǒng)MapReduce基于鍵值對Key/ValuePair分布式并行計算模型Hbase

數(shù)據(jù)結(jié)構(gòu)化管理組件，采用基于列族的稀疏大表管理機制Hadoop核心技術(shù)Hadoop組成Hadoop組成Hadoop版本Hadoop有兩個分支，分別來源于0.20.x和0.23.x。0.20.x是比較穩(wěn)定的版本，由其發(fā)展出Hadoop1.0，主要是修正了bug，改進了性能和兼容性。0.20.X和1.0是目前教學(xué)中最主流的版本，但存在單點故障的隱患。0.23.x中新特性更多，但相對不穩(wěn)定。由其分支發(fā)展出Hadoop2.0。該版本在4000個節(jié)點的集群上進行測試，主要工作是處理無共享存儲下的HDFSHA，還包括YARN(下一代MapReduce)ResourceManager以及調(diào)度方面的改進。Hadoop版本HDFS特點一個名字節(jié)點和多個數(shù)據(jù)節(jié)點數(shù)據(jù)復(fù)制（冗余機制）故障檢測安全性HDFS特點HDFS的NameNode和DataNodeHDFScluster有兩類節(jié)點，以master/worker模式工作:一個Namenode(master)和一批Datanode(workers).Namenode管理文件系統(tǒng)的namespace.它以兩個文件的形式，永久保存在本地文件上:namespaceimage和editlog.Namenode同時記錄著每個文件中各塊，所在的Datanode的信息Datanodes是文件系統(tǒng)的工作節(jié)點，存儲和檢索數(shù)據(jù)塊blocks,Datanodes定期向Namenode發(fā)送它們所存儲的塊的列表.HDFS的NameNode和DataNode數(shù)據(jù)復(fù)制冗余機制HDFS為了做到可靠,創(chuàng)建了多份數(shù)據(jù)塊（block,64M大?。┑膹?fù)制（replicas）并將它們放置在服務(wù)器群的計算節(jié)點中（Datanodes）MapReduce就可以在它們所在的節(jié)點上處理這些數(shù)據(jù)了。數(shù)據(jù)復(fù)制冗余機制HDFS為了做到可靠,創(chuàng)建了多份數(shù)據(jù)塊（bl機架感知策略機架感知策略故障檢測名字節(jié)點NameNode：

日志文件,鏡像文件數(shù)據(jù)節(jié)點DataNode心跳包（檢測是否宕機）塊報告（安全模式下檢測）數(shù)據(jù)完整性檢測(校驗,比較)故障檢測安全性一般來講，Hadoop本身不負(fù)責(zé)管理用戶的安全認(rèn)證機制依賴Kerberos,一個成熟的開源網(wǎng)絡(luò)審計協(xié)議來進行認(rèn)證安全性RDBMSvsMapReduceMapReduce適合于以批處理方式處理需要分析整個數(shù)據(jù)集的問題,尤其是adhoc分析.MapReduce適合于一次寫入，多次讀出的應(yīng)用.RDBMS適合于

多次讀寫、點查詢，索引后可以提供低延遲的數(shù)據(jù)檢索和快速的數(shù)量數(shù)據(jù)更新.RDBMS適合于持續(xù)更新的數(shù)據(jù)集RDBMS MapReduce數(shù)據(jù)大小GBPB訪問交互和批處理批處理更新多次讀寫一次寫入多次讀取結(jié)構(gòu)靜態(tài)模式動態(tài)模式完整性高低橫向擴展非線性線性RDBMSvsMapReduceMapReduce適合于Hadoop中的MapReduce并行計算架構(gòu)和模型依托于HDFS由Job

Client端發(fā)起，Jobtracker協(xié)調(diào)，

眾多Tasktracker參與和一系列的task

并行執(zhí)行若干Map，reduce，

以及combine操作和函數(shù)Hadoop中的MapReduce并行計算架構(gòu)和模型分布式并行計算兩類節(jié)點控制job執(zhí)行過程一個jobtracker和一堆tasktrackers.Jobtracker通過調(diào)度tasktrackers上執(zhí)行的任務(wù)，來協(xié)調(diào)所有運行在系統(tǒng)上的作業(yè)jobs.jobtracker此時記錄每項作業(yè)任務(wù)task的整體進度情況.Tasktrackers在運行任務(wù)的同時，將進度報告發(fā)給jobtracker,如果一個task失敗，jobtracker將在另外一個tasktracker節(jié)點上重新調(diào)度該任務(wù).分布式并行計算Hadoop1.0的MapReduce架構(gòu)Hadoop1.0的MapReduce架構(gòu)V1版的瓶頸問題JobTracker是Map-reduce的集中處理點，存在單點故障。JobTracker完成了太多的任務(wù)，造成了過多的資源消耗，當(dāng)map-reducejob非常多的時候，會造成很大的內(nèi)存開銷，只能支持4000節(jié)點主機的上限。在TaskTracker端，以map/reducetask的數(shù)目作為資源的表示過于簡單，沒有考慮到cpu/內(nèi)存的占用情況，如果兩個大內(nèi)存消耗的task被調(diào)度到了一塊，很容易出現(xiàn)OOM。Yarn是MapReduce的新一代版本(V2)V1版的瓶頸問題JobTracker是Map-reducYarn的設(shè)計YARN不再有單獨的jobtracker或tasktrackers，取而代之的是ResourceManager,ApplicationMaster與NodeManager三個部分ResourceManager：-是一個中心的服務(wù)，它做的事情是調(diào)度、啟動每一個Job所屬的ApplicationMaster、另外監(jiān)控ApplicationMaster的存在情況。-ResourceManager運行在HDFS集群的NameNode上。ApplicationMaster

-負(fù)責(zé)一個Job生命周期內(nèi)的所有工作，類似老的框架中JobTracker，

負(fù)責(zé)task的監(jiān)控、重啟

-注意每一個Job都有一個ApplicationMaster，它可以運行在ResourceManager以外的機器上。

-向ResourceManager申請集群中的資源（以Containers命名）NodeManager功能比較專一，就是負(fù)責(zé)Container狀態(tài)的維護，并向ResourceManager保持心跳。每個工作節(jié)點有一個nodemanagers。Yarn的設(shè)計YARN不再有單獨的jobtracker或tYarn下的MapReduce架構(gòu)Yarn下的MapReduce架構(gòu)Yarn的架構(gòu)Yarn的架構(gòu)目錄1.大數(shù)據(jù)

2.Hadoop3.HDFS4.MapReduce5.Hive6.Hbase7.Spark8.RDD9.SparkSQL10.Python大數(shù)據(jù)開發(fā)目錄1.大數(shù)據(jù)HDFS簡介管理跨網(wǎng)中，多臺計算機存儲的文件系統(tǒng)，稱為分布式文件系統(tǒng)，能夠容忍節(jié)點故障且不丟失數(shù)據(jù)HDFS：HadoopDistributedFileSystemHDFS以流式數(shù)據(jù)訪問模式，來存儲大文件，運行于商用硬件集群上HDFS簡介管理跨網(wǎng)中，多臺計算機存儲的文件系統(tǒng)，稱為分布式HDFS的設(shè)計超大文件文件大小是以G,T,P為單位的流式數(shù)據(jù)訪訪問模式：一次寫入，多次讀取.數(shù)據(jù)集通常由數(shù)據(jù)源生成，或從數(shù)據(jù)源復(fù)制，并長時間在此數(shù)據(jù)集上，進行多類分析.每次分析將涉及該數(shù)據(jù)集的大部分或全部讀取數(shù)據(jù)集的延遲，要遠遠重要于讀取某條數(shù)據(jù)記錄的時間.商用硬件Hadoop對硬件的要求是不求昂貴，但求可靠.設(shè)計在商用機器組成的cluster硬件上對大型的集群來說，節(jié)點的故障率還是較高的.HDFS被設(shè)計成能夠繼續(xù)運行，且不讓用戶察覺到明顯的中斷.HDFS的設(shè)計超大文件不適合HDFS的情況低時間延遲的數(shù)據(jù)訪問幾十毫秒范圍的低延遲訪問應(yīng)用

HDFS是為高數(shù)據(jù)吞吐量而優(yōu)化的.對低延遲來說，HBase是一個好的選擇大量的小文件Namenode將文件系統(tǒng)的元數(shù)據(jù)存儲在內(nèi)存中每個文件、目錄和數(shù)據(jù)塊的存儲信息，大概是150bytes.(100萬個文件就需要300M空間)文件系統(tǒng)存儲文件的總數(shù)，受限于Namenode的內(nèi)存容量.不支持多用戶寫入及任意修改文件不適合HDFS的情況低時間延遲的數(shù)據(jù)訪問HDFSblocks塊數(shù)據(jù)塊是數(shù)據(jù)讀寫的最小單位，HDFS上的文件也被劃分為塊大小的多個分塊64MBforHDFSHDFSblocks貌似較大,其目的是為了最小化尋址開銷.尋址時間是10ms,傳輸速率是100MB/s,要使得尋址時間占傳輸時間的1%塊大小應(yīng)該是100MB左右.使用blocks好處是：文件大小可以大于網(wǎng)上任意一個盤的容量.HDFS使用塊抽象,而非整個文件作為存儲單元，大大簡化了存儲子系統(tǒng)的設(shè)計.塊非常適合用于數(shù)據(jù)備份，進而提供數(shù)據(jù)容錯能力和可用性.HDFSblocks塊數(shù)據(jù)塊是數(shù)據(jù)讀寫的最小單位，HDFSHDFS基本架構(gòu)HDFS基本架構(gòu)讀取HDFS數(shù)據(jù)讀取HDFS數(shù)據(jù)讀文件流程使用HDFS提供的客戶端開發(fā)庫Client，向遠程的Namenode發(fā)起RPC請求；Namenode會視情況返回文件的部分或者全部block列表，對于每個block，Namenode都會返回有該block拷貝的DataNode地址；客戶端開發(fā)庫Client會選取離客戶端最接近的DataNode來讀取block；如果客戶端本身就是DataNode,那么將從本地直接獲取數(shù)據(jù).讀取完當(dāng)前block的數(shù)據(jù)后，關(guān)閉與當(dāng)前的DataNode連接，并為讀取下一個block尋找最佳的DataNode；當(dāng)讀完列表的block后，且文件讀取還沒有結(jié)束，客戶端開發(fā)庫會繼續(xù)向Namenode獲取下一批的block列表。讀取完一個block都會進行checksum驗證，如果讀取datanode時出現(xiàn)錯誤，客戶端會通知Namenode，然后再從下一個擁有該block拷貝的datanode繼續(xù)讀。讀文件流程使用HDFS提供的客戶端開發(fā)庫Client，向遠程數(shù)據(jù)寫入HDFS數(shù)據(jù)寫入HDFS寫文件流程使用HDFS提供的客戶端開發(fā)庫Client，向遠程的Namenode發(fā)起RPC請求；Namenode會檢查要創(chuàng)建的文件是否已經(jīng)存在，創(chuàng)建者是否有權(quán)限進行操作，成功則會為文件創(chuàng)建一個記錄，否則會讓客戶端拋出異常；當(dāng)客戶端開始寫入文件的時候，開發(fā)庫會將文件切分成多個packets，并向Namenode申請新的blocks，獲取用來存儲replicas的合適的datanodes列表。開發(fā)庫把packet以流的方式寫入第一個datanode，該datanode把該packet存儲之后，再將其傳遞給在下一個datanode，直到最后一個datanode，這種寫數(shù)據(jù)的方式呈流水線的形式。最后一個datanode成功存儲之后會返回一個ackpacket，成功收到datanode返回的ackpacket后會移除相應(yīng)的packet。如果傳輸過程中，有某個datanode出現(xiàn)了故障，出現(xiàn)故障的datanode會被移除，同時Namenode會分配一個新的datanode，保持replicas設(shè)定的數(shù)量。寫文件流程使用HDFS提供的客戶端開發(fā)庫Client，向遠程HDFS數(shù)據(jù)完整性HDFS存儲著每個數(shù)據(jù)塊的replica,因此可以通過復(fù)制完好的數(shù)據(jù)復(fù)本，來修復(fù)數(shù)據(jù)。當(dāng)客戶端client在讀取數(shù)據(jù)塊時，一旦檢測到錯誤后,就向NameNode報告此壞塊，停止讀取的Datanode,同時Namenode將此錯誤塊復(fù)本標(biāo)記為壞。Namenode將此復(fù)本復(fù)制到另外一個DataNode中，保證replica的數(shù)量恢復(fù)正常.已損壞的數(shù)據(jù)塊復(fù)本被拋棄。HDFS數(shù)據(jù)完整性HDFS存儲著每個數(shù)據(jù)塊的replica數(shù)據(jù)傳輸和存儲壓縮Compression減少文件存儲空間加速數(shù)據(jù)在網(wǎng)絡(luò)和磁盤上的傳輸

壓縮算法需要權(quán)衡空間/時間序列化Serialization序列化就是將結(jié)構(gòu)化對象，轉(zhuǎn)化為字節(jié)流在網(wǎng)絡(luò)上傳輸寫到磁盤上進行永久存儲反序列化是將字節(jié)流轉(zhuǎn)化為結(jié)構(gòu)化對象Hadoop使用自己的序列化格式Writables數(shù)據(jù)傳輸和存儲壓縮CompressionHDFS文件格式Hadoop中的文件格式大致上分為面向行和面向列兩類：面向行：同一行的數(shù)據(jù)存儲在一起，即連續(xù)存儲。SequenceFile,MapFile,AvroDatafile。采用這種方式，如果只需要訪問行的一小部分?jǐn)?shù)據(jù)，亦需要將整行讀入內(nèi)存，推遲序列化一定程度上可以緩解這個問題，但是從磁盤讀取整行數(shù)據(jù)的開銷卻無法避免。面向行的存儲適合于整行數(shù)據(jù)需要同時處理的情況。面向列：整個文件被切割為若干列數(shù)據(jù)，每一列數(shù)據(jù)一起存儲。Parquet,RCFile,ORCFile。面向列的格式使得讀取數(shù)據(jù)時，可以跳過不需要的列，適合于只處于行的一小部分字段的情況。但是這種格式的讀寫需要更多

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)歷史及將來課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)歷史及將來課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔