云計算與分布式數(shù)據(jù)處理.課件_第1頁
云計算與分布式數(shù)據(jù)處理.課件_第2頁
云計算與分布式數(shù)據(jù)處理.課件_第3頁
云計算與分布式數(shù)據(jù)處理.課件_第4頁
云計算與分布式數(shù)據(jù)處理.課件_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、唐卓 博士 副教授 湖南大學信息科學與工程學院2015 年 9 月云計算與大數(shù)據(jù)分布式處理技術概述講義大綱1云計算概述23云計算主要技術CloudStack+Hadoop生態(tài)系統(tǒng)網(wǎng)絡計算發(fā)展趨勢1995集群計算1998網(wǎng)格計算1999對等計算2007云計算201X3分布式計算技術的演進智能計算云計算已經(jīng)成為IT的發(fā)展趨勢 行業(yè)環(huán)境分析云計算 一種新的突破式創(chuàng)新云計算隨需應變的計算軟件即是服務效用計算網(wǎng)格計算 基于網(wǎng)絡的應用訂購 把計算資源作為一種可計量的服務提供出來 用并行計算解決大的計算問題 整合的端到端業(yè)務,能夠快速響應任何客戶需求、市場機會或者外部威脅 在任何時間、任何地點訪問動態(tài)提供的

2、IT資源云計算的推動力商業(yè)的需求: 降低IT成本、簡化IT管理和快速響應市場變化運營的需求:規(guī)范流程、降低成本、節(jié)約能源計算的需求:更大的數(shù)據(jù)量、更多的用戶技術的進步:虛擬化、多核、自動化、Web技術 云計算定義云計算(Cloud Computing ):是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計算(Grid Computing)的發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。Wiki定義:Cloud computing is a style of computing in which dynamically scalab

3、le and offer virtualized resources are provided as a service over the Internet。云計算是一種通過Internet以服務的方式提供動態(tài)可伸縮的虛擬化的資源的計算模式.云計算的目標企業(yè)B企業(yè)A企業(yè)C企業(yè)A企業(yè)B企業(yè)C互聯(lián)網(wǎng)云平臺服務商像用電、水一樣使用IT發(fā)電廠企業(yè)自己部署發(fā)電設施企業(yè)使用公共電力服務電力傳輸網(wǎng)絡數(shù)據(jù)在云端:不怕丟失,不必備份,任意點恢復;軟件在云端:不必下載自動升級 ;無所不在的計算:在任何時間,任意地點,任何設備登錄后就可以進行計算服務;(桌面虛擬化、服務器虛擬化)無限強大的計算:具有無限空間的,無限

4、速度。硬件為中心軟件為中心 服務為中心 PCC/S云計算 云計算定義應用運維整合應用軟件集成軟件平臺整合硬件系統(tǒng)整合傳統(tǒng)企業(yè)信息化服務的模型開發(fā)商A應用A維護企業(yè)IT運行部門操作系統(tǒng)、數(shù)據(jù)庫、中間件、套件軟件、工具軟件等系統(tǒng)軟件維護服務器、存儲、備份、網(wǎng)絡、通訊、安全、桌面等系統(tǒng)運行維護服務器、存儲、備份、網(wǎng)絡、通訊、安全、桌面等系統(tǒng)產(chǎn)品維保供電、通風、監(jiān)控、消防、門禁、接地、避雷、機架等機房產(chǎn)品維保系統(tǒng)維保服務商系統(tǒng)軟件服務商系統(tǒng)運維服務商機房維保服務商開發(fā)商B應用B維護開發(fā)商C應用C維護開發(fā)商X應用X維護煙囪式的建設分布式的開發(fā)分離式的運維云計算將改變模式單一、重復建設、各自為陣的狀態(tài)開發(fā)

5、商A應用A維護操作系統(tǒng)、數(shù)據(jù)庫、中間件、套件軟件、工具軟件等系統(tǒng)軟件維護服務器、存儲、備份、網(wǎng)絡、通訊、安全、桌面等系統(tǒng)運行維護服務器、存儲、備份、網(wǎng)絡、通訊、安全、桌面等系統(tǒng)產(chǎn)品維保供電、通風、監(jiān)控、消防、門禁、接地、避雷、機架等機房產(chǎn)品維保開發(fā)商B應用B維護開發(fā)商C應用C維護開發(fā)商X應用X維護云計算理念:一切皆服務軟件服務(SaaS):云軟件服務平臺服務(PaaS):云平臺服務基礎架構(gòu)服務(IaaS):云架構(gòu)服務運維服務(OaaS):云運營服務基礎設施服務(DCaaS):云數(shù)據(jù)中心服務軟件開發(fā)服務(SDaaS):云開發(fā)服務信息融合服務云計算正走向成熟的生產(chǎn)期Gartner14技術預測云計算

6、已過了最高期望點、炒作高峰期!人類機能增進量子計算語音識別平面計算機增強現(xiàn)實云計算飛速發(fā)展11云計算處于快速發(fā)展階段十年一浪潮12智能計算以數(shù)據(jù)為中心云計算必然走向以數(shù)據(jù)為基礎的智能計算以云計算為基礎、以大數(shù)據(jù)為核心的企業(yè)級應用/軟件,將是互聯(lián)網(wǎng)下一個爆發(fā)領域。在營銷領域,企業(yè)級營銷云將成為廣大企業(yè)的智能核心,在未來5年,將逐步顛覆數(shù)字廣告、電商銷售、客戶信息管理CRM、甚至是OA領域的傳統(tǒng)模式。 1月14日,阿里宣布戰(zhàn)略投資并控股中國最大的多屏整合數(shù)字廣告平臺易傳媒。易傳媒閆方軍:五年內(nèi)顛覆整個CRM營銷產(chǎn)業(yè)馬云:現(xiàn)在正在從IT Technology 到DT云服務提供面向云服務消費者,提供統(tǒng)

7、一登錄界面和訪問根據(jù)云服務資源狀況和消費者需求,包裝云服務資源對云服務的消費設立服務等級,按需計費管理云消費者狀態(tài)和請求簡化和標準化云計算整體邏輯結(jié)構(gòu)云服務管理運行維護云計算架構(gòu)系統(tǒng),保障云架構(gòu)的穩(wěn)定和可靠云計算的類型和服務層次私有云公有云混合云操作系統(tǒng)+應用服務引擎應用系統(tǒng)基礎設施(IaaS)應用平臺(PaaS)應用軟件(SaaS)Infrastructure as a Service以服務的形式提供虛擬硬件資源,如虛擬主機/存儲/網(wǎng)絡/數(shù)據(jù)庫管理等資源。用于無需購買服務器、網(wǎng)絡設備、存儲設備,只需通過互聯(lián)網(wǎng)租賃即可搭建自己的應用系統(tǒng)典型應用:Amazon Web Service (AWS)

8、Platform as a Service提供應用服務引擎,如互聯(lián)網(wǎng)應用編程接口/運行平臺等。用戶基于該應用服務引擎,可以構(gòu)建該類應用。典型應用:Google AppEngine, F, Microsoft Azure服務平臺Software as a Service用戶通過Internet (如瀏覽器)來使用軟件。用戶不必購買軟件,只需按需租用軟件典型應用:Google Doc, S, Oracle CRM OnDemand, Office Live Workspace面向外部用戶需求,通過開放網(wǎng)絡提供云計算服務IDC,GoogleApp,Saleforce在線CRM大型企業(yè)按照云計算的架構(gòu)

9、搭建平臺,面向企業(yè)內(nèi)部需求提供云計算服務企業(yè)內(nèi)部數(shù)據(jù)中心等兼顧以上兩種情況的云計算服務Amazon Web Server等既為企業(yè)內(nèi)部又為外部用戶提供云計算服務按照部署模式分類按照交付模式分類阿里云在2014年上半年里成為了國內(nèi)最大的公有云領域之中基礎設施及服務中的老大。位于其后的則分別是:2. 中國電信3. 中國聯(lián)通4. 微軟的azure云5. 亞馬遜的AWS部署層次的類型平臺即服務Platform as a ServiceHigh VolumeTransactionsSoftware as a Service服務器網(wǎng)絡存儲Metering監(jiān)控計費服務云開發(fā)云企業(yè)云多租賃安全中間件協(xié)作業(yè)務服

10、務CRM/ERP/HR定制服務數(shù)據(jù)中心虛擬化,動態(tài)供應服務管理J2EEOn-ramps服務封裝Ajax開發(fā)On-ramps開發(fā)工具與其他云的互操作軟件即服務基礎設施即服務部署層次的類型云計算的類型和服務層次目錄1云計算概述23云計算主要技術CloudStack+Hadoop生態(tài)系統(tǒng)18云管理平臺虛擬化分布式文件系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)存儲大規(guī)模并行技術云計算技術框架云計算技術框架分布式文件系統(tǒng)大規(guī)模并行計算結(jié)構(gòu)化分布式數(shù)據(jù)存儲虛擬化云計算云管理平臺:實現(xiàn)對于云計算平臺資源的管理、硬件及應用系統(tǒng)的性能和故障監(jiān)控分布式文件系統(tǒng):可擴展的支持海量數(shù)據(jù)的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的

11、應用。它運行于廉價的普通硬件上,提供容錯功能(通常保留數(shù)據(jù)的3份拷貝),典型技術為GFS/HDFS/KFS以及中國移動提出的HyperDFS大規(guī)模并行計算:在分布式并行環(huán)境中將一個任務分解成更多份細粒度的子任務,這些子任務在空閑的處理節(jié)點之間被調(diào)度和快速處理之后,最終通過特定的規(guī)則進行合并生成最終的結(jié)果。典型技術為MapReduce結(jié)構(gòu)化分布式數(shù)據(jù)存儲:類似文件系統(tǒng)采用數(shù)據(jù)庫來存儲結(jié)構(gòu)化數(shù)據(jù),云計算也需要采用特殊技術實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)存儲,典型技術為BigTable/Dynamo以及中國移動提出的HugeTable虛擬化:即資源的抽象化,實現(xiàn)單一物理資源的多個邏輯表示,或者多個物理資源的單一邏輯表

12、示 云管理平臺虛擬化技術前端數(shù)據(jù)中心虛擬化組件虛擬化:設備層面IDS/IPS,虛擬路由 轉(zhuǎn)發(fā)VRF,VDC,虛擬防火墻交換系統(tǒng)虛擬化:系統(tǒng)層面虛擬交換VSS N:1,提供更好的可用性虛擬私有云VPC Nexus N:1 提供更好的網(wǎng)絡擴展能力網(wǎng)絡虛擬化:連接層面VPN,MPLS/VPN,VLAN,VNet,OTV網(wǎng)絡服務虛擬化:服務層面應用加速、L4-7交換機,安全服務,廣域網(wǎng)優(yōu)化技術服務器和后端存儲虛擬化:存儲虛擬化與統(tǒng)一IO :DCE :數(shù)據(jù)中心以太網(wǎng), Unified IO/FCoE VSAN:虛擬SAN技術服務器及桌面虛擬化 :x86服務器虛擬化小型機分區(qū)技術VDI技術:虛擬桌面技術

13、前端虛擬 SANs/統(tǒng)一IO虛擬存儲虛擬網(wǎng)絡服務Virtual Firewall Context 1Virtual SSLContext 3虛擬機前端虛擬化 Virtual Firewall Context 1Virtual Firewall Context Virtual SLBContext Virtual SSLContext 3Virtual SSLContext VSSVLANVRFVPNsVDCvHBAVSANsFCoEGFS后端虛擬化不等于云計算虛擬化不等于云計算,云計算除了虛擬化之外,還需要從運維、管理、安全等方面進行調(diào)整來滿足云計算的要求。虛擬化轉(zhuǎn)化成云計算的要素云計算關鍵技

14、術:資源管理與調(diào)度建立超大規(guī)模集群的資源管理系統(tǒng),實現(xiàn)透明化的可伸縮計算系統(tǒng),提高資源的使用效率、發(fā)揮計算資源的聚合效能關鍵技術虛擬機生成虛擬機文件管理(復制、備份)快速的動態(tài)部署技術資源監(jiān)控與調(diào)度,高效負載均衡高效遷移技術故障快速檢測與容錯技術高效的資源動態(tài)擴展技術23鏡像文件存儲器部署服務器、監(jiān)控服務器調(diào)度服務器云計算關鍵技術:分布式文件系統(tǒng)文件劃分為64M的塊每一塊至少在三個服務器上保存(可靠性)其中某塊數(shù)據(jù)失效,會從其他塊訪問并恢復新的塊主機(Master)管理所有元數(shù)據(jù)信息(每個塊的具體大小、位置、起始)數(shù)據(jù)實際上直接在客戶端和塊服務器(Chunk Server)之間傳輸主機和塊服務

15、器之間保持通訊,以保證塊服務器和塊數(shù)據(jù)的有效性每次主機重啟,都會重新從塊服務器中刷新信息文件客戶端應用備份主機 MasterMasterC0C1C2C5塊服務器C0C2C5塊服務器C1塊服務器文件客戶端應用C5C3文件命名空間塊1 2ef7塊n . 塊m . 塊s . /foo/bar 時間200GB300GB500GB1TB傳統(tǒng)模式自動精簡配置模式1TB1TB減少預分配空間浪費達31%-50%資源利用率達到近100%不停機擴容快照空間自動擴展數(shù)據(jù)卷快照資源傳統(tǒng)快照技術數(shù)據(jù)卷快照資源新一代快照技術預留100%空間預留20%空間自動智能擴展初始空間節(jié)省80%按需擴展,提高存儲利用率無快照溢出問題

16、分級存儲與FC/SAS硬盤比較,SSD功耗降低近80%,訪問速度提升近100倍四級分層存儲,提高資源整體利用效率CacheSSDSASSATA性能提升第0層第1層第2層第3層典型功耗比較16W 2W 典型訪問時間比較6ms0.09ms11W 12ms自動精簡配置 關鍵技術:智能空間管理實現(xiàn)資源動態(tài)分配存儲資源管理計算資源管理網(wǎng)絡資源管理應用性能管理Executive DashboardService Level Reporting統(tǒng)一管理中心部署對計算、存儲、網(wǎng)絡的統(tǒng)一資源化管理平臺網(wǎng)絡,安全資源的觸發(fā)聯(lián)動技術部署實現(xiàn)存儲資源基于策略的動態(tài)調(diào)整機制云計算關鍵技術:統(tǒng)一管理云計算關鍵技術:并行計

17、算傳統(tǒng)的并行計算算法復雜,并行規(guī)模有限(1024個節(jié)點),Mapreduce通過若干優(yōu)化(本地化計算),簡化模型(Map和Reduce)高效地并發(fā)計算(擴展到5000個節(jié)點)Google的搜索要求在幾百毫秒內(nèi)得到結(jié)果,如果采用傳統(tǒng)的計算方式是不可能達到的。200多億個網(wǎng)頁,產(chǎn)生的索引是天文數(shù)據(jù)。2000年時2億個網(wǎng)頁,2005年是20億,2009年初是200億但這種模式只適合小眾應用,不具有普適性云計算時代的分布并行編程技術分布并行數(shù)據(jù)處理技術Google MapReduceHadoop MapReduce分布式文件系統(tǒng)Google File SystemHadoop Distributed

18、File System分布式數(shù)據(jù)庫Google BigTableHadoop HBase28云計算關鍵技術云計算中的數(shù)據(jù)并行處理技術Hadoop中將Job分成map和reduce兩種類型的任務,Job執(zhí)行流程如下圖:MapReduce示例:單詞計數(shù)案例:單詞記數(shù)問題(Word Count)給定一個巨大的文本(如1TB),如何計算單詞出現(xiàn)的數(shù)目?MapReduce示例:單詞計數(shù)使用MapReduce求解該問題Step 1: 自動對文本進行分割MapReduce示例:單詞計數(shù)使用MapReduce求解該問題Step 2:在分割之后的每一對進行用戶定義的Map進行處理,再生成新的對MapReduce

19、示例:單詞計數(shù)使用MapReduce求解該問題Step 3:對輸出的結(jié)果集歸攏(不同mapslot間copy到一起)、排序(sort)(系統(tǒng)自動完成)MapReduce示例:單詞計數(shù)使用MapReduce求解該問題Step 4:通過Reduce操作生成最后結(jié)果MapReduce示例:單詞計數(shù)使用MapReduce求解該問題定義Map和Reduce函數(shù)private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(Object key, Text va

20、lue, Context context) throws IOException,InterruptedException StringTokenizer itr = new StringTokenizer(value.toString();while (itr.hasMoreTokens() word.set(itr.nextToken();context.write(word, one);public void reduce(Text key, Iterable values, Context context) throws IOException,InterruptedException

21、 int sum = 0;for (IntWritable val : values) sum += val.get();result.set(sum);context.write(key, result); 互聯(lián)網(wǎng)公司的大數(shù)據(jù)處理框架Google:MapReduce、hadoop、GFSAmazon: Simple Storage Service (S3)、Twiter:StormFacebook: Apache Hive、 CassandraUCBerkeley:SparkIBM:StreamBaseTaobao:OceanBase,TFS講義大綱1云計算概述23云計算主要技術CloudS

22、tack+Hadoop生態(tài)系統(tǒng)ComputeHypervisorStorageBlock & ObjectNetworkNetwork & Network ServicesPrimary StorageSecondary StorageCloud平臺及技術支持HostsServers onto which services will be provisionedPrimary StorageVM storageClusterA grouping of hosts and their associated storagePodCollection of clustersNetworkLogica

23、l network associated with service offeringsSecondary StorageTemplate, snapshot and ISO storageZoneCollection of pods, network offerings and secondary storageManagement Server FarmResponsible for all management and provisioning tasksCore CloudStack ComponentsZonePodClusterNetworkPrimaryStorageHostHos

24、tVMVMPodClusterSecondaryStorage Pod 1.Cluster NAccess LayerHost 2Cluster 1Host 1Host是部署Hypervisor的物理主機Cluster由一組Host組成Cluster中的Host可訪問共享存儲 (Primary Storage)單個或多個Cluster組成Pod一個Pod通常配置一個2層交換機設備Availability Zone由一組Pod組成,配置二級存儲(Secondary Storage)整個云由單個或位于不同地理位置的多個Availability Zone構(gòu)成PrimaryStorageZone 1.

25、L3 switchSecondaryStoragePod NMgmt ServerInternetDeployment ArchitectureInternetInternet服務目錄 & 門戶用戶管理統(tǒng)計報表性能監(jiān)控和管理瀏覽器用戶用戶服務管理Telnet,VNC. 虛擬服務器虛擬存儲虛擬桌面虛擬網(wǎng)絡資源申請資源訪問物理資源的轉(zhuǎn)變資源管理服務器網(wǎng)絡存儲服務器和存儲刀片服務器資源管理資源管理模板管理服務實例管理web安全管理接口管理物理系統(tǒng)虛擬系統(tǒng)ZoneZonePodsClustersHostsPrimary StorageSecondary StorageZone資源池運營管理平臺時序用戶

26、應用資源池管理UI:幫助完成應用啟動和準備,允許用戶以自助方式完成添加、移動和修改等虛擬機操作Cloudstack的主要功能自動化管理:通過資源池管理UI,實現(xiàn)高度自動化操作提供系統(tǒng)級資源調(diào)度,支持用戶自定義資源調(diào)度策略,具通用調(diào)度引擎資源調(diào)度支持用戶自定義資源調(diào)度策略,資源調(diào)度引擎和監(jiān)控系統(tǒng)聯(lián)動動態(tài)資源調(diào)度通過定制模板的方式,支持操作系統(tǒng)介質(zhì)庫創(chuàng)建,支持Xen和VMware裸機操作系統(tǒng)安裝虛擬機創(chuàng)建、IP地址分配、用戶名密碼設定、系統(tǒng)鏡像部署、軟件安裝與配置虛擬機自動化部署通過門戶對虛擬服務器進行開機與關機、停止與恢復、重啟、刪除等操作虛擬機控制實現(xiàn)存儲層面的自動化功能存儲自動化自動化的為虛

27、擬機設置IP地址、機器名稱、子網(wǎng)掩碼、網(wǎng)關以及用戶名、密碼網(wǎng)絡自動化軟件自動化部署通過部署工具和應用模板兩種方式Cloudstack的主要功能什么是HDFS?Hadoop Distributed File SystemHadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications. HDFS creates multiple replicas of data blocks and distributes them on compute nodes throughout

28、 a cluster to enable reliable, extremely rapid computations.HDFS簡介HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(data blocks)的復制(replicas),并將它們放置在服務器群的計算節(jié)點中(compute nodes),MapReduce就可以在它們所在的節(jié)點上處理這些數(shù)據(jù)了。HDFS主要組件的功能 NameNodeDataNode 存儲元數(shù)據(jù) 存儲文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存中文件內(nèi)容保存在磁盤 保存文件,block ,datanode之間的映射關系維護了block id到datanode本地文件的映

29、射關系系統(tǒng)架構(gòu)文件文件切分成塊(默認大小64M),以塊為單位,每個塊有多個副本存儲在不同的機器上,副本數(shù)可在文件生成時指定(默認3)NameNode是主節(jié)點,存儲文件的元數(shù)據(jù)如文件名,文件目錄結(jié)構(gòu),文件屬性(生成時間,副本數(shù),文件權(quán)限),以及每個文件的塊列表以及塊所在的DataNode等等DataNode在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和可以創(chuàng)建、刪除、移動或重命名文件,當文件創(chuàng)建、寫入和關閉之后不能修改文件內(nèi)容。NameNodeNamenode是一個中心服務器,單一節(jié)點(簡化系統(tǒng)的設計和實現(xiàn)),負責管理文件系統(tǒng)的名字空間(namespace)以及客戶端對文件的訪問。文件操作,N

30、ameNode負責文件元數(shù)據(jù)的操作,DataNode負責處理文件內(nèi)容的讀寫請求,跟文件內(nèi)容相關的數(shù)據(jù)流不經(jīng)過NameNode,只會詢問它跟那個DataNode聯(lián)系,否則NameNode會成為系統(tǒng)的瓶頸NameNode副本存放在那些DataNode上由NameNode來控制,根據(jù)全局情況做出塊放置決定,讀取文件時NameNode盡量讓用戶先讀取最近的副本,降低帶塊消耗和讀取時延Namenode全權(quán)管理數(shù)據(jù)塊的復制,它周期性地從集群中的每個Datanode接收心跳信號和塊狀態(tài)報告(Blockreport)。接收到心跳信號意味著該Datanode節(jié)點工作正常。塊狀態(tài)報告包含了一個該Datanode上

31、所有數(shù)據(jù)塊的列表。 DataNode一個數(shù)據(jù)塊在DataNode以文件存儲在磁盤上,包括兩個文件,一個是數(shù)據(jù)本身,一個是元數(shù)據(jù)包括數(shù)據(jù)塊的長度,塊數(shù)據(jù)的校驗和,以及時間戳DataNode啟動后向NameNode注冊,通過后,周期性(1小時)的向NameNode上報所有的塊信息。 心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令如復制塊數(shù)據(jù)到另一臺機器,或刪除某個數(shù)據(jù)塊。如果超過10分鐘沒有收到某個DataNode 的心跳,則認為該節(jié)點不可用。集群運行中可以安全加入和退出一些機器Example:HDFS如何寫文件?Write packetCreate file Wri

32、te packetWrite packetSend ackSend ackSend ackClose fileExample:HDFS如何寫文件?寫一個數(shù)據(jù)塊Example:HDFS如何讀文件?Read blockOpen fileClose fileGet block location客戶端聯(lián)系NameNode,得到所有數(shù)據(jù)塊信息,以及數(shù)據(jù)塊對應的所有數(shù)據(jù)服務器的位置信息嘗試從某個數(shù)據(jù)塊對應的一組數(shù)據(jù)服務器中選出一個,進行連接數(shù)據(jù)被一個包一個包發(fā)送回客戶端,等到整個數(shù)據(jù)塊的數(shù)據(jù)都被讀取完了,就會斷開此鏈接,嘗試連接下一個數(shù)據(jù)塊對應的數(shù)據(jù)服務器,整個流程,依次如此反復,直到所有想讀的都讀取完了

33、為止讀文件流程節(jié)點失效是常態(tài)DataNode中的磁盤掛了怎么辦?DataNode所在機器掛了怎么辦?NameNode掛了怎么辦?DataNode的磁盤掛了怎么辦?DataNode正常服務壞掉的磁盤上的數(shù)據(jù)盡快通知NameNodeDataNode所在機器掛了怎么辦?問:NameNode怎么知道DataNode掛掉了?答:datanode每3秒鐘向namenode發(fā)送心跳,如果10分鐘datanode沒有向namenode發(fā)送心跳,則namenode認為該datanode已經(jīng)dead,namenode將取出該datanode上對應的block,對其進行復制。NameNode掛了怎么辦?持久化元數(shù)據(jù)

34、操作日志(edit log)記錄文件創(chuàng)建,刪除,修改文件屬性等操作Fsimage包含完整的命名空間File - Block的映射關系文件的屬性(ACL, quota, 修改時間等) NameNode掛了怎么辦?Secondary NameNode將NameNode的fsimage與edit log從Namenode復制到臨時目錄將fsimage同edit log合并,并產(chǎn)生新的fsimage (減少啟動時間)將產(chǎn)生的新的fsimage上傳給NameNode清除NameNode中的edit log注: Secondary NameNode僅僅對NameNode中元數(shù)據(jù)提供冷備方案Secondar

35、y NameNode進化MapReduce是offline應用基于HDFS的HBase是online應用HBaseHBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術來源于Chang et al所撰寫的Google論文“Bigtable:一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)”。HBase在Hadoop之上提供了類似于Bigtable的能力。 HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。HBase中的表一般有這樣的特點:1 大:一個表可以有上億行,上百萬列2 面向列:面向列(族)的存儲和權(quán)限控制,列(族)獨立檢索。3 稀

36、疏:對于為空(null)的列,并不占用存儲空間,因此,表可以設計的非常稀疏。Hbase系統(tǒng)框架圖通過client讀寫數(shù)據(jù)HMaster管理元數(shù)據(jù)(表分區(qū),管理分區(qū)的 HregionServer)HRegionServer負責Region的數(shù)據(jù)存取Hbase的所有數(shù)據(jù)都存放在HDFS上HDFS將文件分成64M的塊,并存儲多個副本hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行。 其優(yōu)點是學習成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapR

37、educe應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。HiveHive主要分為以下幾個部分:用戶接口,包括 CLI,Client,WUI。元數(shù)據(jù)存儲,通常是存儲在關系數(shù)據(jù)庫如 mysql, derby 中。解釋器、編譯器、優(yōu)化器、執(zhí)行器。Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算。Pig什么是pigPig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算。Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口。Pig的特點1、專注于于大量數(shù)據(jù)集分析(ad-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論