云計(jì)算(分布式計(jì)算)入門_第1頁(yè)
云計(jì)算(分布式計(jì)算)入門_第2頁(yè)
云計(jì)算(分布式計(jì)算)入門_第3頁(yè)
云計(jì)算(分布式計(jì)算)入門_第4頁(yè)
云計(jì)算(分布式計(jì)算)入門_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云端漫步云計(jì)算的基本概念世界為我們保存了多少數(shù)據(jù)?照片:5M*100張=500M視頻:50M*10部=500M微博記錄:10M*50條=500MQQ聊天記錄:1KB/文字*5000條+100KB/圖片*200張=25M各種賬號(hào)信息、各種成績(jī)信息、各種游戲信息、各種坑爹信息…數(shù)據(jù)!數(shù)據(jù)!2020年35.2ZB2001年1.8ZB增長(zhǎng)20倍??!數(shù)據(jù)太多,搞不定怎么辦?抬頭看天??!云?云——商業(yè)上的模型!IaaS(Infrastructure-as-a-Service)基礎(chǔ)設(shè)施即服務(wù)PaaS(Platform-as-a-Service)平臺(tái)即服務(wù)SaaS(Software-as-a-Service)軟件即服務(wù)云——“舊”的技術(shù)?下面的詞是不是很熟悉?網(wǎng)格計(jì)算高性能計(jì)算分布式計(jì)算虛擬化負(fù)載均衡…分布式計(jì)算神經(jīng)網(wǎng)絡(luò)網(wǎng)格技術(shù)廣播網(wǎng)絡(luò)Web2.0虛擬化各種開源框架新的瀏覽器技術(shù)……基礎(chǔ)技術(shù)支持按需服務(wù)無(wú)處不在的網(wǎng)絡(luò)快速計(jì)算反應(yīng)獨(dú)立的資源池標(biāo)準(zhǔn)服務(wù)基礎(chǔ)特征IaaSPaaSSaaS交互模式私有的、公共的、社區(qū)的、混合的部署模式云的實(shí)質(zhì)——

資源的共享將互聯(lián)網(wǎng)看作一個(gè)大的資源池,我們本地除了具有基本的終端設(shè)備(不限種類,可能是PC、手機(jī)、電視、甚至電冰箱洗衣機(jī)等)而這些終端只具備基本的功能(可視、可輸入、發(fā)聲、電力)之外,其余的能力,直接從互聯(lián)網(wǎng)上獲取,記?。∥覀儷@取的僅僅是我們需要的部分,并且我們也只為這部分付費(fèi)(運(yùn)氣好可能還免費(fèi))

IBM的創(chuàng)立者托馬斯·沃森: 全世界只需要5臺(tái)電腦就足夠了BillGates: 個(gè)人用戶的內(nèi)存只需640K足矣李開復(fù)先生的一個(gè)比喻: 銀行!!分布式計(jì)算的難點(diǎn)怎樣將資源有效而透明的整合起來(lái)怎樣存儲(chǔ)大數(shù)據(jù)怎樣建立編程模型Google三大論文GFSBigTableMap/Reduce其實(shí)現(xiàn)分別對(duì)應(yīng)于hadoop:HDFSHBaseMapReduceGFS(GoogleFileSystem)本質(zhì):一個(gè)面向大規(guī)模數(shù)據(jù)密集型應(yīng)用的、可伸縮的分布式文件系統(tǒng)效果:客戶云端主機(jī)主機(jī)主機(jī)..…存儲(chǔ)空間無(wú)限大?基本特征高容錯(cuò)性性能上的高穩(wěn)定性對(duì)大文件的處理進(jìn)行了優(yōu)化數(shù)據(jù)的更新不會(huì)刪除原數(shù)據(jù)靈活性高(應(yīng)用程序API)BigTable本質(zhì):數(shù)據(jù)庫(kù)不同點(diǎn):非關(guān)系型(NoSQL)分布式可擴(kuò)展服務(wù)可配置…架構(gòu)Map/Reduce本質(zhì):編程模型Or框架應(yīng)用場(chǎng)景:分布式大文件的并行計(jì)算貢獻(xiàn):通過(guò)簡(jiǎn)單的接口來(lái)實(shí)現(xiàn)自動(dòng)的并行化和大規(guī)模的并行計(jì)算MapReduce過(guò)程Map:映射簡(jiǎn)單說(shuō)來(lái),一個(gè)map函數(shù)就是對(duì)一些獨(dú)立元素組成的概念上的列表的每一個(gè)元素進(jìn)行指定的操作。Reduce:化簡(jiǎn)reduce操作指的是對(duì)一個(gè)列表的元素進(jìn)行適當(dāng)?shù)暮喜⒁粋€(gè)簡(jiǎn)單的例子:

統(tǒng)計(jì):ababccbaabacbacacaba的字符頻率ababccbaab------------------acbacacabaMap1:a:4b:4c:2Map2:a:5b:2c:3格式化輸出1:<a,4><b,4><c,2>格式化輸出2:<a,5><b,2><c,3>最終輸出:<4,9><b,6><c,5>Map過(guò)程Map/Reduce

框架Reduce過(guò)程云計(jì)算和Hadoop有幾毛錢關(guān)系? 云計(jì)算只是商業(yè)概念。它提出的是一種新的商業(yè)模式,是網(wǎng)格計(jì)算的進(jìn)化版。 Hadoop是云計(jì)算的產(chǎn)品。它是云計(jì)算在發(fā)展過(guò)程中應(yīng)運(yùn)而生的一個(gè)框架。Hadoop是什么?Hadoop,是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),簡(jiǎn)單說(shuō),就是一個(gè)可以簡(jiǎn)單快速運(yùn)行和處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。Hadoop的特點(diǎn):1.擴(kuò)容能力:可靠存儲(chǔ)和處理PB級(jí)數(shù)據(jù);2.成本低:普通機(jī)器即可搭建;3.高效率:并行計(jì)算;4.可靠性:自動(dòng)維護(hù)備份,失敗后自動(dòng)重新部署任務(wù)。Hadoop主要子項(xiàng)目HDFS:Hadoop分布式文件系統(tǒng)MapReduce:并行計(jì)算框架HBase:類似BigTable的分布式NoSQL列數(shù)據(jù)庫(kù)Hive:數(shù)據(jù)倉(cāng)庫(kù)工具Zookeeper:分布式鎖設(shè)施Avro:新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制分而治之!Hadoop的做法就是:大事化小,小事化了。將一個(gè)大任務(wù)分割成很多的小任務(wù),然后分別進(jìn)行處理。類似于分布式系統(tǒng)。對(duì)于大量任務(wù),我們一般的處理方法就是并行和串行兩種。但是串行處理過(guò)于緩慢!因此一般是并行處理。Hadoop的設(shè)計(jì)思想Hadoop結(jié)構(gòu)組成

Master:NameNode和JobTrackerSlave:DataNode和TaskTrackerMaster負(fù)責(zé)接收和調(diào)度任務(wù),并對(duì)下面的Slave進(jìn)行監(jiān)控,一般還有一個(gè)SecondaryNameNode。Slave主要負(fù)責(zé)對(duì)Client的任務(wù)進(jìn)行處理(計(jì)算或者存儲(chǔ))。結(jié)構(gòu)示意Hadoop平臺(tái)一般由一個(gè)Master和多個(gè)Slave組成。Master節(jié)點(diǎn)Slave節(jié)點(diǎn)心跳機(jī)制Master和Slave之間怎么進(jìn)行聯(lián)系的呢?它們是通過(guò)一種叫做HeartBeat的方式進(jìn)行通信的。Slave每隔一定的時(shí)間(可調(diào),默認(rèn)為3秒)向Master發(fā)送一個(gè)消息,報(bào)告自己當(dāng)前的狀態(tài),然后Master也通過(guò)這個(gè)心跳的返回值,向Slave傳達(dá)指令。HeartBeat是單向的,只能是Slave發(fā)送給Master。Hadoop的當(dāng)前應(yīng)用公司名稱集群機(jī)器數(shù)主要用途淘寶網(wǎng)1100臺(tái)9.3PB大作業(yè)處理阿里巴巴15臺(tái)數(shù)據(jù)排序,搜索引擎百度10-500個(gè)節(jié)點(diǎn)數(shù)據(jù)分析,數(shù)據(jù)挖掘Facebook兩個(gè)(1100/300)數(shù)據(jù)挖掘,日志統(tǒng)計(jì)HULU13臺(tái)日志存儲(chǔ)和分析TWITTER未知存儲(chǔ)數(shù)據(jù)雅虎25000臺(tái)支持廣告系統(tǒng)和搜索百度:Baidu對(duì)Hadoop中關(guān)鍵組件使用C++進(jìn)行了重寫(包括map,shuffler和reducer等),經(jīng)他們內(nèi)部測(cè)試(5nodes,40GBdata),效率提升了約20%。淘寶:淘寶針對(duì)自己集群特點(diǎn)(作業(yè)小,slot多,作業(yè)之間有依賴,集群共享,有些作業(yè)有時(shí)效性),對(duì)jobtracker和namenode進(jìn)行了優(yōu)化,據(jù)其官方博客稱,其jobtracker有較大性能提升,且namenode吞吐量提升了8+倍。但其具體優(yōu)化方法,未公開。一些公司對(duì)Hadoop的優(yōu)化Hadoop存在的不足1.采用Java實(shí)現(xiàn):對(duì)于CPU密集型任務(wù)來(lái)說(shuō),IO操作是致命缺點(diǎn);2.開源項(xiàng)目:開源是把雙刃劍,大家都可以修改,但是一些企業(yè)改進(jìn)后為了公司的技術(shù)利益,不予公布;3.性能還不穩(wěn)定:尚不成熟;4.HDFS小文件問(wèn)題:HDFS存儲(chǔ)文件的默認(rèn)大小是64MB;5.JobTracker同時(shí)監(jiān)控和調(diào)度,負(fù)載過(guò)大。

未來(lái),我來(lái)!深入理解HDFS為什么需要HDFS?在哪里存儲(chǔ)數(shù)據(jù)?什么是HDFS?為什么需要HDFS?HDFS的結(jié)構(gòu)-Namenode(名字節(jié)點(diǎn)):負(fù)責(zé)文件系統(tǒng)名稱,管理文件存儲(chǔ)和控制客戶端的訪問(wèn)。一般在一個(gè)單獨(dú)機(jī)器上運(yùn)行。-Datanode(數(shù)據(jù)節(jié)點(diǎn)):負(fù)責(zé)文件的操作(讀,寫,刪除)。他也一般在一個(gè)單獨(dú)機(jī)器上運(yùn)行。-SecondaryNamenode:當(dāng)名字節(jié)點(diǎn)出問(wèn)題,負(fù)責(zé)管理整個(gè)系統(tǒng)像名字節(jié)點(diǎn)。HDFS結(jié)構(gòu)Namenod

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論