云計(jì)算(分布式計(jì)算)入門

上傳人：宿*** IP屬地：廣東上傳時(shí)間：2022-11-09 格式：PPT 頁(yè)數(shù)：41 大?。?.27MB 積分：35 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩36頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云端漫步云計(jì)算的基本概念世界為我們保存了多少數(shù)據(jù)？照片：5M*100張=500M視頻：50M*10部=500M微博記錄：10M*50條=500MQQ聊天記錄：1KB/文字*5000條+100KB/圖片*200張=25M各種賬號(hào)信息、各種成績(jī)信息、各種游戲信息、各種坑爹信息…數(shù)據(jù)！數(shù)據(jù)！2020年35.2ZB2001年1.8ZB增長(zhǎng)20倍??！數(shù)據(jù)太多，搞不定怎么辦？抬頭看天??！云？云——商業(yè)上的模型！IaaS(Infrastructure-as-a-Service)基礎(chǔ)設(shè)施即服務(wù)PaaS(Platform-as-a-Service)平臺(tái)即服務(wù)SaaS(Software-as-a-Service)軟件即服務(wù)云——“舊”的技術(shù)？下面的詞是不是很熟悉？網(wǎng)格計(jì)算高性能計(jì)算分布式計(jì)算虛擬化負(fù)載均衡…分布式計(jì)算神經(jīng)網(wǎng)絡(luò)網(wǎng)格技術(shù)廣播網(wǎng)絡(luò)Web2.0虛擬化各種開源框架新的瀏覽器技術(shù)……基礎(chǔ)技術(shù)支持按需服務(wù)無(wú)處不在的網(wǎng)絡(luò)快速計(jì)算反應(yīng)獨(dú)立的資源池標(biāo)準(zhǔn)服務(wù)基礎(chǔ)特征IaaSPaaSSaaS交互模式私有的、公共的、社區(qū)的、混合的部署模式云的實(shí)質(zhì)——

資源的共享將互聯(lián)網(wǎng)看作一個(gè)大的資源池，我們本地除了具有基本的終端設(shè)備（不限種類，可能是PC、手機(jī)、電視、甚至電冰箱洗衣機(jī)等）而這些終端只具備基本的功能（可視、可輸入、發(fā)聲、電力）之外，其余的能力，直接從互聯(lián)網(wǎng)上獲取，記?。∥覀儷@取的僅僅是我們需要的部分，并且我們也只為這部分付費(fèi)（運(yùn)氣好可能還免費(fèi)）

IBM的創(chuàng)立者托馬斯·沃森：全世界只需要5臺(tái)電腦就足夠了BillGates：個(gè)人用戶的內(nèi)存只需640K足矣李開復(fù)先生的一個(gè)比喻：銀行！！分布式計(jì)算的難點(diǎn)怎樣將資源有效而透明的整合起來(lái)怎樣存儲(chǔ)大數(shù)據(jù)怎樣建立編程模型Google三大論文GFSBigTableMap/Reduce其實(shí)現(xiàn)分別對(duì)應(yīng)于hadoop：HDFSHBaseMapReduceGFS（GoogleFileSystem）本質(zhì)：一個(gè)面向大規(guī)模數(shù)據(jù)密集型應(yīng)用的、可伸縮的分布式文件系統(tǒng)效果：客戶云端主機(jī)主機(jī)主機(jī)..…存儲(chǔ)空間無(wú)限大?基本特征高容錯(cuò)性性能上的高穩(wěn)定性對(duì)大文件的處理進(jìn)行了優(yōu)化數(shù)據(jù)的更新不會(huì)刪除原數(shù)據(jù)靈活性高(應(yīng)用程序API)BigTable本質(zhì)：數(shù)據(jù)庫(kù)不同點(diǎn)：非關(guān)系型（NoSQL）分布式可擴(kuò)展服務(wù)可配置…架構(gòu)Map/Reduce本質(zhì)：編程模型Or框架應(yīng)用場(chǎng)景：分布式大文件的并行計(jì)算貢獻(xiàn)：通過(guò)簡(jiǎn)單的接口來(lái)實(shí)現(xiàn)自動(dòng)的并行化和大規(guī)模的并行計(jì)算MapReduce過(guò)程Map：映射簡(jiǎn)單說(shuō)來(lái)，一個(gè)map函數(shù)就是對(duì)一些獨(dú)立元素組成的概念上的列表的每一個(gè)元素進(jìn)行指定的操作。Reduce：化簡(jiǎn)reduce操作指的是對(duì)一個(gè)列表的元素進(jìn)行適當(dāng)?shù)暮喜⒁粋€(gè)簡(jiǎn)單的例子：

統(tǒng)計(jì)：ababccbaabacbacacaba的字符頻率ababccbaab------------------acbacacabaMap1:a:4b:4c:2Map2:a:5b:2c:3格式化輸出1：<a,4><b,4><c,2>格式化輸出2：<a,5><b,2><c,3>最終輸出：<4,9><b,6><c,5>Map過(guò)程Map/Reduce

框架Reduce過(guò)程云計(jì)算和Hadoop有幾毛錢關(guān)系？云計(jì)算只是商業(yè)概念。它提出的是一種新的商業(yè)模式，是網(wǎng)格計(jì)算的進(jìn)化版。 Hadoop是云計(jì)算的產(chǎn)品。它是云計(jì)算在發(fā)展過(guò)程中應(yīng)運(yùn)而生的一個(gè)框架。Hadoop是什么？Hadoop，是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)，簡(jiǎn)單說(shuō)，就是一個(gè)可以簡(jiǎn)單快速運(yùn)行和處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。Hadoop的特點(diǎn)：1.擴(kuò)容能力：可靠存儲(chǔ)和處理PB級(jí)數(shù)據(jù)；2.成本低：普通機(jī)器即可搭建；3.高效率：并行計(jì)算；4.可靠性：自動(dòng)維護(hù)備份，失敗后自動(dòng)重新部署任務(wù)。Hadoop主要子項(xiàng)目HDFS：Hadoop分布式文件系統(tǒng)MapReduce：并行計(jì)算框架HBase：類似BigTable的分布式NoSQL列數(shù)據(jù)庫(kù)Hive：數(shù)據(jù)倉(cāng)庫(kù)工具Zookeeper：分布式鎖設(shè)施Avro：新的數(shù)據(jù)序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機(jī)制分而治之！Hadoop的做法就是：大事化小，小事化了。將一個(gè)大任務(wù)分割成很多的小任務(wù)，然后分別進(jìn)行處理。類似于分布式系統(tǒng)。對(duì)于大量任務(wù)，我們一般的處理方法就是并行和串行兩種。但是串行處理過(guò)于緩慢！因此一般是并行處理。Hadoop的設(shè)計(jì)思想Hadoop結(jié)構(gòu)組成

Master：NameNode和JobTrackerSlave：DataNode和TaskTrackerMaster負(fù)責(zé)接收和調(diào)度任務(wù)，并對(duì)下面的Slave進(jìn)行監(jiān)控，一般還有一個(gè)SecondaryNameNode。Slave主要負(fù)責(zé)對(duì)Client的任務(wù)進(jìn)行處理（計(jì)算或者存儲(chǔ)）。結(jié)構(gòu)示意Hadoop平臺(tái)一般由一個(gè)Master和多個(gè)Slave組成。Master節(jié)點(diǎn)Slave節(jié)點(diǎn)心跳機(jī)制Master和Slave之間怎么進(jìn)行聯(lián)系的呢？它們是通過(guò)一種叫做HeartBeat的方式進(jìn)行通信的。Slave每隔一定的時(shí)間（可調(diào)，默認(rèn)為3秒）向Master發(fā)送一個(gè)消息，報(bào)告自己當(dāng)前的狀態(tài)，然后Master也通過(guò)這個(gè)心跳的返回值，向Slave傳達(dá)指令。HeartBeat是單向的，只能是Slave發(fā)送給Master。Hadoop的當(dāng)前應(yīng)用公司名稱集群機(jī)器數(shù)主要用途淘寶網(wǎng)1100臺(tái)9.3PB大作業(yè)處理阿里巴巴15臺(tái)數(shù)據(jù)排序，搜索引擎百度10-500個(gè)節(jié)點(diǎn)數(shù)據(jù)分析，數(shù)據(jù)挖掘Facebook兩個(gè)(1100/300)數(shù)據(jù)挖掘，日志統(tǒng)計(jì)HULU13臺(tái)日志存儲(chǔ)和分析TWITTER未知存儲(chǔ)數(shù)據(jù)雅虎25000臺(tái)支持廣告系統(tǒng)和搜索百度：Baidu對(duì)Hadoop中關(guān)鍵組件使用C++進(jìn)行了重寫（包括map,shuffler和reducer等），經(jīng)他們內(nèi)部測(cè)試（5nodes，40GBdata），效率提升了約20%。淘寶：淘寶針對(duì)自己集群特點(diǎn)（作業(yè)小，slot多，作業(yè)之間有依賴，集群共享，有些作業(yè)有時(shí)效性），對(duì)jobtracker和namenode進(jìn)行了優(yōu)化，據(jù)其官方博客稱，其jobtracker有較大性能提升，且namenode吞吐量提升了8+倍。但其具體優(yōu)化方法，未公開。一些公司對(duì)Hadoop的優(yōu)化Hadoop存在的不足1.采用Java實(shí)現(xiàn)：對(duì)于CPU密集型任務(wù)來(lái)說(shuō)，IO操作是致命缺點(diǎn)；2.開源項(xiàng)目：開源是把雙刃劍，大家都可以修改，但是一些企業(yè)改進(jìn)后為了公司的技術(shù)利益，不予公布；3.性能還不穩(wěn)定：尚不成熟；4.HDFS小文件問(wèn)題：HDFS存儲(chǔ)文件的默認(rèn)大小是64MB；5.JobTracker同時(shí)監(jiān)控和調(diào)度，負(fù)載過(guò)大。

未來(lái)，我來(lái)！深入理解HDFS為什么需要HDFS？在哪里存儲(chǔ)數(shù)據(jù)？什么是HDFS？為什么需要HDFS？HDFS的結(jié)構(gòu)-Namenode(名字節(jié)點(diǎn))：負(fù)責(zé)文件系統(tǒng)名稱，管理文件存儲(chǔ)和控制客戶端的訪問(wèn)。一般在一個(gè)單獨(dú)機(jī)器上運(yùn)行。-Datanode(數(shù)據(jù)節(jié)點(diǎn))：負(fù)責(zé)文件的操作（讀，寫，刪除）。他也一般在一個(gè)單獨(dú)機(jī)器上運(yùn)行。-SecondaryNamenode：當(dāng)名字節(jié)點(diǎn)出問(wèn)題，負(fù)責(zé)管理整個(gè)系統(tǒng)像名字節(jié)點(diǎn)。HDFS結(jié)構(gòu)Namenod

人人文庫(kù)> 全部分類> 辦公材料 > 對(duì)照材料

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

云計(jì)算(分布式計(jì)算)入門

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

云計(jì)算(分布式計(jì)算)入門

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔