大數(shù)據(jù)歷史及將來課件_第1頁
大數(shù)據(jù)歷史及將來課件_第2頁
大數(shù)據(jù)歷史及將來課件_第3頁
大數(shù)據(jù)歷史及將來課件_第4頁
大數(shù)據(jù)歷史及將來課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

目錄1.大數(shù)據(jù)

2.Hadoop3.HDFS4.MapReduce5.Hive6.Hbase7.Spark8.RDD9.SparkSQL10.Python大數(shù)據(jù)開發(fā)目錄1.大數(shù)據(jù)BIGDATAWEBPB千TCRMTB千GGB千兆ERPEB千P不斷增加的數(shù)據(jù)種類與復(fù)雜度用戶生成內(nèi)容移動網(wǎng)絡(luò)短信、彩信輿情分析外部統(tǒng)計高清視頻語音轉(zhuǎn)換產(chǎn)品、服務(wù)log社交網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)流用戶點擊流網(wǎng)絡(luò)log營銷歷史A/B測試動態(tài)定價聯(lián)署網(wǎng)絡(luò)搜索營銷行為目標(biāo)動態(tài)過濾付款信息客戶名單客戶接觸購買明細(xì)購買記錄營銷信息客戶細(xì)分移動互聯(lián)網(wǎng)云計算物聯(lián)網(wǎng)社交網(wǎng)絡(luò)數(shù)據(jù)的低成本獲取與分布式存儲(Hadoop)基于位置的服務(wù)內(nèi)容分析萬兆交換流計算信息技術(shù)的飛速發(fā)展催生了大數(shù)據(jù)大數(shù)據(jù)產(chǎn)生背景BIGDATAWEBPBCRMTBGBERPEB不斷增加的數(shù)據(jù)膨脹相應(yīng)的處理技術(shù)數(shù)據(jù)膨脹相應(yīng)的處理技術(shù)4V:

Volume,Variety,Value,Velocity數(shù)據(jù)體量巨大:從TB級別,躍升到PB級別數(shù)據(jù)類型繁多:網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息。。。價值密度低:海量數(shù)據(jù)中高價值信息的比例。。。處理速度快:秒級響應(yīng)。。。Veracity(準(zhǔn)確性):處理的結(jié)果要保證一定的準(zhǔn)確性。大數(shù)據(jù)的特點4V:Volume,Variety,Value,Veloc面臨核心問題:數(shù)據(jù)的存儲和分析磁盤存儲和磁盤讀取的比較:數(shù)據(jù)堆成山發(fā)現(xiàn)知識難:–如今信息世界,數(shù)據(jù)大爆炸–面向應(yīng)用,各自為陣,煙囪林立–缺乏為決策提供知識的一個完整服務(wù)體系資源的分類:計算能力,存儲能力,網(wǎng)絡(luò)速度面臨核心問題:數(shù)據(jù)的存儲和分析磁盤存儲和磁盤讀取的比較:數(shù)據(jù)云技術(shù)為大數(shù)據(jù)處理提供了技術(shù)基礎(chǔ)云技術(shù)發(fā)展給了人們廉價獲取海量計算和存儲能力–以前一個大型機,或者一個數(shù)據(jù)處理中心的事情,目前可以用一個云計算(Hadoop)集群來完成–大量CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)–1T數(shù)據(jù),100臺機器,每臺存儲1%,同時讀取,只需要幾分鐘云技術(shù)為大數(shù)據(jù)處理提供了技術(shù)基礎(chǔ)云技術(shù)發(fā)展給了人們廉價獲取海大數(shù)據(jù)分析帶來變化數(shù)據(jù)大小–由GB到PB數(shù)據(jù)更新–由頻繁讀寫到一次寫入多次讀取數(shù)據(jù)結(jié)構(gòu)–靜態(tài)模式到動態(tài)模式計算方法–應(yīng)用為主轉(zhuǎn)變?yōu)榉治鰹橹鞔髷?shù)據(jù)分析帶來變化數(shù)據(jù)大小大數(shù)據(jù)分析的五個方面AnalyticVisualizations(可視化分析)–不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。–可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。DataMiningAlgorithms(數(shù)據(jù)挖掘算法)–可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。–集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。–這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。大數(shù)據(jù)分析的五個方面AnalyticVisualizati大數(shù)據(jù)分析的五個方面PredictiveAnalyticCapabilities(預(yù)測性分析能力)–數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果,做出一些預(yù)測性的判斷。SemanticEngines(語義引擎)–非結(jié)構(gòu)化數(shù)據(jù)的多樣性,需要一系列的工具去解析,提取,分析數(shù)據(jù)。–語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)–數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。–通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。大數(shù)據(jù)分析的五個方面PredictiveAnalytic大數(shù)據(jù)目前主流技術(shù)主要有Hadoop、Spark、Storm三類,以及在此之下配套發(fā)展的HDFS、MapReduce、Hbase、Hive、Yarn等一系列開源軟件。其中Hadoop發(fā)展最早,商業(yè)化也最成熟,目前最新版本為3.0。Spark目前最新版本為2.0,Spark這兩年發(fā)展迅速,是大數(shù)據(jù)最火的技術(shù)。目前大數(shù)據(jù)主流技術(shù)大數(shù)據(jù)目前主流技術(shù)主要有Hadoop、Spark、SKafka分布式消息系統(tǒng)Flume日志數(shù)據(jù)Sqoop關(guān)系型數(shù)據(jù)HDFSHadoop分布式文件系統(tǒng)HBaseNoSQL數(shù)據(jù)庫MapReduce批處理Spark內(nèi)存處理Streaming實時處理Pig腳本語言HiveSQLGraphX圖計算SparkSQLTableauQlikviewBusinessObjectsCognosR/SPSSMLLib機器學(xué)習(xí)Tez批處理數(shù)據(jù)存儲數(shù)據(jù)采集數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)展示數(shù)據(jù)管控YARN通用資源管理框架ZooKeeper分布式應(yīng)用程序協(xié)調(diào)服務(wù)Ambari集群管控Oozie工作流引擎服務(wù)批處理實時處理Splunk機器數(shù)據(jù)大數(shù)據(jù)常用技術(shù)架構(gòu)KafkaFlumeSqoopHDFSHBaseMapRed大數(shù)據(jù)常用技術(shù)架構(gòu)大數(shù)據(jù)常用技術(shù)架構(gòu)大數(shù)據(jù)歷史及將來課件大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例大數(shù)據(jù)案例001張三15男性學(xué)生002李四32女性教師003王二麻44男性工程師001 張三 15+1 男性

學(xué)生002 李四 32+1 女性

教師003 王二麻 44+1 男性

工程師Localfile讀取處理分析002 李四

33

女性

教師存儲Localfile1假如沒有數(shù)據(jù)庫HDFS(file)讀取MapReduce/SparkNoSQL/HDFS結(jié)果存儲展示分析SQL001張三15男性學(xué)生001 張三 15+1 男性 學(xué)生Lo目錄1.大數(shù)據(jù)

2.Hadoop3.HDFS4.MapReduce5.Hive6.Hbase7.Spark8.RDD9.SparkSQL10.Python大數(shù)據(jù)開發(fā)目錄1.大數(shù)據(jù)Google的三大技術(shù)核心GFS分布式文件系統(tǒng)MapReduce數(shù)據(jù)處理機制BigTable表結(jié)構(gòu)Google的三大技術(shù)核心GFS分布式文件系統(tǒng)GFSGFSClient(客戶端):應(yīng)用程序的訪問接口Master(主服務(wù)器):管理節(jié)點,在邏輯上只有一個,保存系統(tǒng)的元數(shù)據(jù),負(fù)責(zé)整個文件系統(tǒng)的管理。ChunkServer(數(shù)據(jù)塊服務(wù)器):負(fù)責(zé)具體的存儲工作。數(shù)據(jù)以文件的形式存儲在ChunkServer上。GFSGFSClient(客戶端):應(yīng)用程序的訪問接口Bigtable一個存儲Web網(wǎng)頁的例子的表的片斷。行名是一個反向URL。contents列族存放的是網(wǎng)頁的內(nèi)容,anchor列族存放引用該網(wǎng)頁的錨鏈接文本。CNN的主頁被SportsIllustrater和MY-look的主頁引用,因此該行包含了名為“anchor:”和“anchhor:my.look.ca”的列。每個錨鏈接只有一個版本(alex注:注意時間戳標(biāo)識了列的版本,t9和t8分別標(biāo)識了兩個錨鏈接的版本);而contents列則有三個版本,分別由時間戳t3,t5,和t6標(biāo)識。Bigtable一個存儲Web網(wǎng)頁的例子的表的片斷。行名是BigtableBigtableMapReduceMapReduceHadoop是Google開源的實現(xiàn)DougCutting(道·卡廷

)等在Nutch技術(shù)基礎(chǔ)上受到Google相關(guān)論文的啟發(fā)Yahoo!支持,由Apache主導(dǎo)的開源系統(tǒng)Hadoop得到大量廠商的支持目前有眾多的產(chǎn)品序列Hadoop與GoogleHadoop這個單詞是,是他兒子的一個毛絨玩具小象的名字Hadoop與GoogleHadoop這個單詞是,是他兒子的Hadoop核心技術(shù)HDFS分布式的文件管理系統(tǒng)MapReduce基于鍵值對Key/ValuePair分布式并行計算模型Hbase

數(shù)據(jù)結(jié)構(gòu)化管理組件,采用基于列族的稀疏大表管理機制Hadoop核心技術(shù)Hadoop組成Hadoop組成Hadoop版本Hadoop有兩個分支,分別來源于0.20.x和0.23.x。0.20.x是比較穩(wěn)定的版本,由其發(fā)展出Hadoop1.0,主要是修正了bug,改進了性能和兼容性。0.20.X和1.0是目前教學(xué)中最主流的版本,但存在單點故障的隱患。0.23.x中新特性更多,但相對不穩(wěn)定。由其分支發(fā)展出Hadoop2.0。該版本在4000個節(jié)點的集群上進行測試,主要工作是處理無共享存儲下的HDFSHA,還包括YARN(下一代MapReduce)ResourceManager以及調(diào)度方面的改進。Hadoop版本HDFS特點一個名字節(jié)點和多個數(shù)據(jù)節(jié)點數(shù)據(jù)復(fù)制(冗余機制)故障檢測安全性HDFS特點HDFS的NameNode和DataNodeHDFScluster有兩類節(jié)點,以master/worker模式工作:一個Namenode(master)和一批Datanode(workers).Namenode管理文件系統(tǒng)的namespace.它以兩個文件的形式,永久保存在本地文件上:namespaceimage和editlog.Namenode同時記錄著每個文件中各塊,所在的Datanode的信息Datanodes是文件系統(tǒng)的工作節(jié)點,存儲和檢索數(shù)據(jù)塊blocks,Datanodes定期向Namenode發(fā)送它們所存儲的塊的列表.HDFS的NameNode和DataNode數(shù)據(jù)復(fù)制冗余機制HDFS為了做到可靠,創(chuàng)建了多份數(shù)據(jù)塊(block,64M大?。┑膹?fù)制(replicas)并將它們放置在服務(wù)器群的計算節(jié)點中(Datanodes)MapReduce就可以在它們所在的節(jié)點上處理這些數(shù)據(jù)了。數(shù)據(jù)復(fù)制冗余機制HDFS為了做到可靠,創(chuàng)建了多份數(shù)據(jù)塊(bl機架感知策略機架感知策略故障檢測名字節(jié)點NameNode:

日志文件,鏡像文件數(shù)據(jù)節(jié)點DataNode心跳包(檢測是否宕機)塊報告(安全模式下檢測)數(shù)據(jù)完整性檢測(校驗,比較)故障檢測安全性一般來講,Hadoop本身不負(fù)責(zé)管理用戶的安全認(rèn)證機制依賴Kerberos,一個成熟的開源網(wǎng)絡(luò)審計協(xié)議來進行認(rèn)證安全性RDBMSvsMapReduceMapReduce適合于以批處理方式處理需要分析整個數(shù)據(jù)集的問題,尤其是adhoc分析.MapReduce適合于一次寫入,多次讀出的應(yīng)用.RDBMS適合于

多次讀寫、點查詢,索引后可以提供低延遲的數(shù)據(jù)檢索和快速的數(shù)量數(shù)據(jù)更新.RDBMS適合于持續(xù)更新的數(shù)據(jù)集RDBMS MapReduce數(shù)據(jù)大小GBPB訪問交互和批處理批處理更新多次讀寫一次寫入多次讀取結(jié)構(gòu)靜態(tài)模式動態(tài)模式完整性高低橫向擴展非線性線性RDBMSvsMapReduceMapReduce適合于Hadoop中的MapReduce并行計算架構(gòu)和模型依托于HDFS由Job

Client端發(fā)起,Jobtracker協(xié)調(diào),

眾多Tasktracker參與和一系列的task

并行執(zhí)行若干Map,reduce,

以及combine操作和函數(shù)Hadoop中的MapReduce并行計算架構(gòu)和模型分布式并行計算兩類節(jié)點控制job執(zhí)行過程一個jobtracker和一堆tasktrackers.Jobtracker通過調(diào)度tasktrackers上執(zhí)行的任務(wù),來協(xié)調(diào)所有運行在系統(tǒng)上的作業(yè)jobs.jobtracker此時記錄每項作業(yè)任務(wù)task的整體進度情況.Tasktrackers在運行任務(wù)的同時,將進度報告發(fā)給jobtracker,如果一個task失敗,jobtracker將在另外一個tasktracker節(jié)點上重新調(diào)度該任務(wù).分布式并行計算Hadoop1.0的MapReduce架構(gòu)Hadoop1.0的MapReduce架構(gòu)V1版的瓶頸問題JobTracker是Map-reduce的集中處理點,存在單點故障。JobTracker完成了太多的任務(wù),造成了過多的資源消耗,當(dāng)map-reducejob非常多的時候,會造成很大的內(nèi)存開銷,只能支持4000節(jié)點主機的上限。在TaskTracker端,以map/reducetask的數(shù)目作為資源的表示過于簡單,沒有考慮到cpu/內(nèi)存的占用情況,如果兩個大內(nèi)存消耗的task被調(diào)度到了一塊,很容易出現(xiàn)OOM。Yarn是MapReduce的新一代版本(V2)V1版的瓶頸問題JobTracker是Map-reducYarn的設(shè)計YARN不再有單獨的jobtracker或tasktrackers,取而代之的是ResourceManager,ApplicationMaster與NodeManager三個部分ResourceManager:-是一個中心的服務(wù),它做的事情是調(diào)度、啟動每一個Job所屬的ApplicationMaster、另外監(jiān)控ApplicationMaster的存在情況。-ResourceManager運行在HDFS集群的NameNode上。ApplicationMaster

-負(fù)責(zé)一個Job生命周期內(nèi)的所有工作,類似老的框架中JobTracker,

負(fù)責(zé)task的監(jiān)控、重啟

-注意每一個Job都有一個ApplicationMaster,它可以運行在ResourceManager以外的機器上。

-向ResourceManager申請集群中的資源(以Containers命名)NodeManager功能比較專一,就是負(fù)責(zé)Container狀態(tài)的維護,并向ResourceManager保持心跳。每個工作節(jié)點有一個nodemanagers。Yarn的設(shè)計YARN不再有單獨的jobtracker或tYarn下的MapReduce架構(gòu)Yarn下的MapReduce架構(gòu)Yarn的架構(gòu)Yarn的架構(gòu)目錄1.大數(shù)據(jù)

2.Hadoop3.HDFS4.MapReduce5.Hive6.Hbase7.Spark8.RDD9.SparkSQL10.Python大數(shù)據(jù)開發(fā)目錄1.大數(shù)據(jù)HDFS簡介管理跨網(wǎng)中,多臺計算機存儲的文件系統(tǒng),稱為分布式文件系統(tǒng),能夠容忍節(jié)點故障且不丟失數(shù)據(jù)HDFS:HadoopDistributedFileSystemHDFS以流式數(shù)據(jù)訪問模式,來存儲大文件,運行于商用硬件集群上HDFS簡介管理跨網(wǎng)中,多臺計算機存儲的文件系統(tǒng),稱為分布式HDFS的設(shè)計超大文件文件大小是以G,T,P為單位的流式數(shù)據(jù)訪訪問模式:一次寫入,多次讀取.數(shù)據(jù)集通常由數(shù)據(jù)源生成,或從數(shù)據(jù)源復(fù)制,并長時間在此數(shù)據(jù)集上,進行多類分析.每次分析將涉及該數(shù)據(jù)集的大部分或全部讀取數(shù)據(jù)集的延遲,要遠遠重要于讀取某條數(shù)據(jù)記錄的時間.商用硬件Hadoop對硬件的要求是不求昂貴,但求可靠.設(shè)計在商用機器組成的cluster硬件上對大型的集群來說,節(jié)點的故障率還是較高的.HDFS被設(shè)計成能夠繼續(xù)運行,且不讓用戶察覺到明顯的中斷.HDFS的設(shè)計超大文件不適合HDFS的情況低時間延遲的數(shù)據(jù)訪問幾十毫秒范圍的低延遲訪問應(yīng)用

HDFS是為高數(shù)據(jù)吞吐量而優(yōu)化的.對低延遲來說,HBase是一個好的選擇大量的小文件Namenode將文件系統(tǒng)的元數(shù)據(jù)存儲在內(nèi)存中每個文件、目錄和數(shù)據(jù)塊的存儲信息,大概是150bytes.(100萬個文件就需要300M空間)文件系統(tǒng)存儲文件的總數(shù),受限于Namenode的內(nèi)存容量.不支持多用戶寫入及任意修改文件不適合HDFS的情況低時間延遲的數(shù)據(jù)訪問HDFSblocks塊數(shù)據(jù)塊是數(shù)據(jù)讀寫的最小單位,HDFS上的文件也被劃分為塊大小的多個分塊64MBforHDFSHDFSblocks貌似較大,其目的是為了最小化尋址開銷.尋址時間是10ms,傳輸速率是100MB/s,要使得尋址時間占傳輸時間的1%塊大小應(yīng)該是100MB左右.使用blocks好處是:文件大小可以大于網(wǎng)上任意一個盤的容量.HDFS使用塊抽象,而非整個文件作為存儲單元,大大簡化了存儲子系統(tǒng)的設(shè)計.塊非常適合用于數(shù)據(jù)備份,進而提供數(shù)據(jù)容錯能力和可用性.HDFSblocks塊數(shù)據(jù)塊是數(shù)據(jù)讀寫的最小單位,HDFSHDFS基本架構(gòu)HDFS基本架構(gòu)讀取HDFS數(shù)據(jù)讀取HDFS數(shù)據(jù)讀文件流程使用HDFS提供的客戶端開發(fā)庫Client,向遠程的Namenode發(fā)起RPC請求;Namenode會視情況返回文件的部分或者全部block列表,對于每個block,Namenode都會返回有該block拷貝的DataNode地址;客戶端開發(fā)庫Client會選取離客戶端最接近的DataNode來讀取block;如果客戶端本身就是DataNode,那么將從本地直接獲取數(shù)據(jù).讀取完當(dāng)前block的數(shù)據(jù)后,關(guān)閉與當(dāng)前的DataNode連接,并為讀取下一個block尋找最佳的DataNode;當(dāng)讀完列表的block后,且文件讀取還沒有結(jié)束,客戶端開發(fā)庫會繼續(xù)向Namenode獲取下一批的block列表。讀取完一個block都會進行checksum驗證,如果讀取datanode時出現(xiàn)錯誤,客戶端會通知Namenode,然后再從下一個擁有該block拷貝的datanode繼續(xù)讀。讀文件流程使用HDFS提供的客戶端開發(fā)庫Client,向遠程數(shù)據(jù)寫入HDFS數(shù)據(jù)寫入HDFS寫文件流程使用HDFS提供的客戶端開發(fā)庫Client,向遠程的Namenode發(fā)起RPC請求;Namenode會檢查要創(chuàng)建的文件是否已經(jīng)存在,創(chuàng)建者是否有權(quán)限進行操作,成功則會為文件創(chuàng)建一個記錄,否則會讓客戶端拋出異常;當(dāng)客戶端開始寫入文件的時候,開發(fā)庫會將文件切分成多個packets,并向Namenode申請新的blocks,獲取用來存儲replicas的合適的datanodes列表。開發(fā)庫把packet以流的方式寫入第一個datanode,該datanode把該packet存儲之后,再將其傳遞給在下一個datanode,直到最后一個datanode,這種寫數(shù)據(jù)的方式呈流水線的形式。最后一個datanode成功存儲之后會返回一個ackpacket,成功收到datanode返回的ackpacket后會移除相應(yīng)的packet。如果傳輸過程中,有某個datanode出現(xiàn)了故障,出現(xiàn)故障的datanode會被移除,同時Namenode會分配一個新的datanode,保持replicas設(shè)定的數(shù)量。寫文件流程使用HDFS提供的客戶端開發(fā)庫Client,向遠程HDFS數(shù)據(jù)完整性HDFS存儲著每個數(shù)據(jù)塊的replica,因此可以通過復(fù)制完好的數(shù)據(jù)復(fù)本,來修復(fù)數(shù)據(jù)。當(dāng)客戶端client在讀取數(shù)據(jù)塊時,一旦檢測到錯誤后,就向NameNode報告此壞塊,停止讀取的Datanode,同時Namenode將此錯誤塊復(fù)本標(biāo)記為壞。Namenode將此復(fù)本復(fù)制到另外一個DataNode中,保證replica的數(shù)量恢復(fù)正常.已損壞的數(shù)據(jù)塊復(fù)本被拋棄。HDFS數(shù)據(jù)完整性HDFS存儲著每個數(shù)據(jù)塊的replica數(shù)據(jù)傳輸和存儲壓縮Compression減少文件存儲空間加速數(shù)據(jù)在網(wǎng)絡(luò)和磁盤上的傳輸

壓縮算法需要權(quán)衡空間/時間序列化Serialization序列化就是將結(jié)構(gòu)化對象,轉(zhuǎn)化為字節(jié)流在網(wǎng)絡(luò)上傳輸寫到磁盤上進行永久存儲反序列化是將字節(jié)流轉(zhuǎn)化為結(jié)構(gòu)化對象Hadoop使用自己的序列化格式Writables數(shù)據(jù)傳輸和存儲壓縮CompressionHDFS文件格式Hadoop中的文件格式大致上分為面向行和面向列兩類:面向行:同一行的數(shù)據(jù)存儲在一起,即連續(xù)存儲。SequenceFile,MapFile,AvroDatafile。采用這種方式,如果只需要訪問行的一小部分?jǐn)?shù)據(jù),亦需要將整行讀入內(nèi)存,推遲序列化一定程度上可以緩解這個問題,但是從磁盤讀取整行數(shù)據(jù)的開銷卻無法避免。面向行的存儲適合于整行數(shù)據(jù)需要同時處理的情況。面向列:整個文件被切割為若干列數(shù)據(jù),每一列數(shù)據(jù)一起存儲。Parquet,RCFile,ORCFile。面向列的格式使得讀取數(shù)據(jù)時,可以跳過不需要的列,適合于只處于行的一小部分字段的情況。但是這種格式的讀寫需要更多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論