網(wǎng)絡(luò)計(jì)算答案版_第1頁
網(wǎng)絡(luò)計(jì)算答案版_第2頁
網(wǎng)絡(luò)計(jì)算答案版_第3頁
網(wǎng)絡(luò)計(jì)算答案版_第4頁
網(wǎng)絡(luò)計(jì)算答案版_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、學(xué)生的課程總評成績由平時(shí)成績(占50%)和期末考試成績(50%)兩部分構(gòu)成。1、平時(shí)成績依據(jù)課上小測驗(yàn) 2次,每次占10%;2、3、4、提交創(chuàng)新性報(bào)告2份,每份10%;提交1次小論文,占10%。最后的開卷考試,成績占 50%。網(wǎng)絡(luò)計(jì)算基本概念分布式對象計(jì)算Web計(jì)算XMLWeb Services無線與移動計(jì)算云計(jì)算大數(shù)據(jù)及分析要求:8個(gè)主1、請同學(xué)們提交2份創(chuàng)新報(bào)告,每份不少于 800字,打印簽名及學(xué)號。內(nèi)容以上面 題為目標(biāo),自選題目。2、 請同學(xué)們提交1份小論文,字?jǐn)?shù)不少于1500字,打印簽名及學(xué)號。內(nèi)容以上面8個(gè)主題 為目標(biāo),自選題目,不要與創(chuàng)新報(bào)告內(nèi)容重復(fù)。3、 按時(shí)參加考試,注意考試時(shí)

2、間與地點(diǎn),考試當(dāng)天每人交來 3份報(bào)告(打印、簽名及學(xué)號)。 開卷考試,自帶資料,要求字跡工整,內(nèi)容詳實(shí),認(rèn)真書寫。一:將會從以下簡述題中選擇部分。1、闡述分布式核心技術(shù)中的分布式計(jì)算、并行計(jì)算、云計(jì)算的基本概念,以及各自的技術(shù) 核心特點(diǎn)?分布式計(jì)算:將需要巨大計(jì)算能力的問題分成許多小部分分布到多臺計(jì)算機(jī)進(jìn)行處 理,最后綜合結(jié)果。并行計(jì)算:同時(shí)使用多種計(jì)算資源解決計(jì)算問題的過程。云計(jì)算:云計(jì)算是一種商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源 池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲空間和信息服務(wù)。核心特點(diǎn):(1)(2)概念:(1)分布式計(jì)算:需要多臺聯(lián)網(wǎng)的分布在各處的計(jì)算機(jī)協(xié)同

3、處理。并行的主體是計(jì)算機(jī) 并行計(jì)算:一般而言,指時(shí)間或者空間上并行。如流水線技術(shù)或強(qiáng)調(diào)單計(jì)算機(jī)多核 處理。并行的主體是處理器。云計(jì)算:云計(jì)算是上述兩種計(jì)算的商業(yè)發(fā)展。關(guān)鍵在能夠?qū)υ苾?nèi)的基礎(chǔ)設(shè)施等資源 (資源池)進(jìn)行動態(tài)按需分配與管理。2、3、Chubby是Google設(shè)計(jì)的提供粗粒度鎖服務(wù)的一個(gè)文件系統(tǒng),它基于松耦合分布式系統(tǒng),解決了分布的一致性問題。設(shè)計(jì)目標(biāo)如下:(1)(2)(3)(4)(5)(6)闡述移動計(jì)算的基本概念與技術(shù)特點(diǎn)?移動計(jì)算與分布式計(jì)算有何區(qū)別?概念:移動計(jì)算是使得人們可以在任何時(shí)間地點(diǎn)以任何方式接入網(wǎng)絡(luò)服務(wù)的技術(shù)集。它使計(jì)算機(jī)或其它信息智能終端設(shè)備在無線環(huán)境下實(shí)現(xiàn)數(shù)據(jù)傳輸及

4、資源共享,它的作用是將有用、準(zhǔn)確、及時(shí)的信息提供給任何時(shí)間地點(diǎn)的任何客戶。區(qū)別:與分布計(jì)算相比,移動計(jì)算具有以下一些主要特點(diǎn):(1) 移動性:移動計(jì)算機(jī)在移動過程中可以通過所在無線單元與固定網(wǎng)絡(luò)的節(jié)點(diǎn)或其他移 動計(jì)算機(jī)連接。(2) 網(wǎng)絡(luò)條件多樣性:移動計(jì)算機(jī)在移動過程中所使用的網(wǎng)絡(luò)一般是變化的。(3) 頻繁斷接性:由于受電源、無線通信費(fèi)用、網(wǎng)絡(luò)條件等因素的限制,移動計(jì)算機(jī)是主 動或被動地間連、斷接。,下行鏈路和上行鏈路的通信網(wǎng)絡(luò)通信的非對稱性:移動節(jié)點(diǎn)的發(fā)送能力較弱。因此帶寬和代價(jià)相差較大。(5) 移動計(jì)算機(jī)的電源能力有限(6) 可靠性低:這與無線網(wǎng)絡(luò)本身的可靠性及移動計(jì)算環(huán)境的易受干擾和不安

5、全等因素有 關(guān)。闡述Google云計(jì)算原理中的 Chubby的設(shè)計(jì)目標(biāo)是什么?高可用性和高可靠性;首要目標(biāo),在保證這一目標(biāo)的基礎(chǔ)上再考慮系統(tǒng)的吞吐量和存儲能力;高擴(kuò)展性;將數(shù)據(jù)存儲在價(jià)格較為低廉的RAM,支持大規(guī)模用戶訪問文件支持粗粒度的建議性鎖服務(wù);提供這種服務(wù)的根本目的是提高系統(tǒng)的性能 服務(wù)信息的直接存儲;可直接存儲包括元數(shù)據(jù)、系統(tǒng)參數(shù)在內(nèi)的有關(guān)服務(wù)信息 支持通報(bào)機(jī)制;客戶可以及時(shí)地了解到事件發(fā)生支持緩存機(jī)制;通過一致性緩存將常用信息保存在客戶端,避免了頻繁地訪問 主服務(wù)器闡述Paxos算法在Chubby中起什么作用?簡述 Paxos算法的原理?作用:Chubby設(shè)計(jì)者借鑒了 Paxos的

6、兩種解決機(jī)制:給協(xié)調(diào)者指派序號或限制協(xié)調(diào)者可 以選擇的值。原理:1、選擇一副本為協(xié)調(diào)者。2、 協(xié)調(diào)者從客戶提交的值中選擇一個(gè),accept消息廣播給所有的副本,其他的 副本收到廣播后,選擇接受或者拒絕這個(gè)值,并將決定結(jié)果反饋。3、協(xié)調(diào)者收到大多數(shù)副本接受信息后,認(rèn)為達(dá)到了一致性,接著向相關(guān)副本發(fā) 送一個(gè)commit消息 。4、5、闡述Google云計(jì)算原理中的Bigtable數(shù)據(jù)模型和系統(tǒng)架構(gòu)?數(shù)據(jù)模型Bigtable是一個(gè)分布式多維映射表,表中的數(shù)據(jù)通過一個(gè)行關(guān)鍵字( Row Key )、 一個(gè)列關(guān)鍵字(Column Key )以及一個(gè)時(shí)間戳(Time Stamp)進(jìn)行索引Bigtable對

7、存儲在其中的數(shù)據(jù)不做任何解析,一律看做字符串 Bigtable的存儲邏輯可以表示為:T stri ng(row:stn ng, colu mn: stri ng, time:i nt64)II|Illk t9“CNN ”“CNN.com ”“ <html> ” _t3 "vhtml> ” 't5 vhtml> "” I<-Tt6"錨點(diǎn): my.look.ca"com.c nn .www"錨點(diǎn):cnn ”“內(nèi)容:”2211 .111系統(tǒng)架構(gòu)處理數(shù)據(jù)處理數(shù)據(jù)處理數(shù)據(jù)Google WorkQueueGFSChub

8、by負(fù)責(zé)故障處理及監(jiān)控保存子表數(shù)據(jù)及日志負(fù)責(zé)元數(shù)據(jù)存儲及 主服務(wù)器的選擇Bigtable主要由三個(gè)部分組成:客戶端程序庫、一個(gè)主服務(wù)器和多個(gè)子表服務(wù)器客戶訪問Bigtable服務(wù)時(shí),首先要利用其庫函數(shù)執(zhí)行Open()操作來打開一個(gè)鎖(實(shí)際上就是獲取了文件目錄),鎖打開以后客戶端就可以和子表服務(wù)器進(jìn)行通信和許多具有單個(gè)主節(jié)點(diǎn)分布式系統(tǒng)一樣,客戶端主要與子表服務(wù)器通信,幾乎不 和主服務(wù)器進(jìn)行通信,這使得主服務(wù)器的負(fù)載大大降低主服務(wù)主要進(jìn)行一些元數(shù)據(jù)操作以及子表服務(wù)器之間負(fù)載調(diào)度問題,實(shí)際數(shù)據(jù)是存儲在子表服務(wù)器上6、闡述Google云計(jì)算原理中的分布式存儲系統(tǒng)Megastore的核心技術(shù)是什么?核心

9、技術(shù)是復(fù)制。簡述如下:Megastore的數(shù)據(jù)復(fù)制是通過 paxos進(jìn)行同步復(fù)制的,也就是如果更新一個(gè)數(shù)據(jù),所有 機(jī)房都會進(jìn)行同步更新,因?yàn)槭褂肞axos進(jìn)行復(fù)制,所以不同機(jī)房針對同一條數(shù)據(jù)的更新復(fù)制到所有機(jī)房的更新順序都是一致的,同步復(fù)制保證數(shù)據(jù)的實(shí)時(shí)可見性,采用Paxos算法則保證了所有機(jī)房更新的一致性,所以個(gè)人認(rèn)為megastore的更新可能會比較慢,而所有讀都是實(shí)時(shí)讀(對于不同機(jī)房是一致的),因?yàn)椴渴鹩卸鄠€(gè)機(jī)房,并且數(shù)據(jù)總是最新。7、闡述Google云計(jì)算原理中大規(guī)模分布式系統(tǒng)的監(jiān)控基礎(chǔ)架構(gòu)關(guān)鍵技術(shù)是實(shí)現(xiàn)應(yīng)用級的透明。對于應(yīng)用的程序員來說,是不需要知道有跟蹤系統(tǒng)這回事的。如果一個(gè)跟蹤系

10、統(tǒng)想生效,就必須需要依賴應(yīng)用的開發(fā)者主動配合,那么這個(gè)跟蹤系統(tǒng)也太脆弱了,Dapper關(guān)鍵技術(shù)是什么?在應(yīng)用中植入代碼的 bug或疏忽導(dǎo)致應(yīng)用出問題,這樣才是無法滿足對跟蹤系統(tǒng)的部署”這個(gè)需求。(這一段可以不要)做到這一點(diǎn)需要實(shí)現(xiàn)輕量級的核心功能庫和二次抽樣技術(shù)。輕量級核心功能庫:將Dapper的核心監(jiān)控實(shí)現(xiàn)限制在一個(gè)由通用線程(往往由于跟蹤系統(tǒng)"無所不在UbiquitousThreading )、控制流(Control Flow )和RPC代碼庫(RPC Library Code )組成的小規(guī)模庫基 礎(chǔ)上。二次抽樣技術(shù):第一次抽樣一一實(shí)踐中,設(shè)計(jì)人員發(fā)現(xiàn)當(dāng)抽樣率低至1/1024時(shí)也

11、能夠產(chǎn)生足夠多的有效監(jiān)控?cái)?shù)據(jù),即在1024個(gè)請求中抽取1個(gè)進(jìn)行監(jiān)控也是可行的,從而可以捕獲有效數(shù)據(jù)第二次抽樣發(fā)生在數(shù)據(jù)寫入 Bigtable前,具體方法是將監(jiān)控id散列成一個(gè)標(biāo)量z (0< z< 1),如果某個(gè)區(qū)間的z小于事先定義好的匯總抽樣系數(shù),則保留這個(gè)區(qū)間并將它寫入Bigtable,否則丟棄8、闡述Google App Engine提供了哪些服務(wù)?Google App Engine的沙盒對開發(fā)人員進(jìn)行哪些限制?服務(wù):網(wǎng)址獲取、郵件服務(wù)、Memcache服務(wù)、圖片操作、python程序框架、數(shù)據(jù)庫服務(wù)、用戶管理服務(wù)等等。限制:(1) 用戶應(yīng)用程序只能通過Google App E

12、ngine提供的網(wǎng)址抓取 API和電子郵件服務(wù)API來訪問互聯(lián)網(wǎng)中其他計(jì)算機(jī);只能在標(biāo)準(zhǔn)接口上通過HTTP或HTTPS來進(jìn)行(2) 應(yīng)用程序無法對 Google App Engine的文件系統(tǒng)進(jìn)行寫入操作,只能讀取應(yīng)用程序代碼上的文件,并且該應(yīng)用程序必須使用Data Store數(shù)據(jù)庫來存儲應(yīng)用程序運(yùn)行期間持續(xù)存在的數(shù)據(jù)(3)應(yīng)用程序只有在響應(yīng)網(wǎng)絡(luò)請求時(shí)才運(yùn)行,且響應(yīng)時(shí)間必須極短(幾秒之內(nèi)完成) 同時(shí),請求處理的程序不能在自己的響應(yīng)發(fā)送后產(chǎn)生子進(jìn)程或執(zhí)行代碼Google文件系統(tǒng)GFS特點(diǎn)體現(xiàn)9、闡述當(dāng)前主流分布式文件系統(tǒng)有哪些?各有什么優(yōu)缺點(diǎn)? 在哪? 第一問:目前幾個(gè)主流的分布式文件系統(tǒng)除GP

13、FS 外,還有Hadoop HDFS、Lustre、FastDFS等。第二問:1.Hado op HDFS優(yōu)點(diǎn):適合大數(shù)據(jù)處理(支持GB,TB,PB級別的數(shù)據(jù)存儲,支持百萬規(guī)模 以上的文件數(shù)量)-適合批處理(支持離線的批量數(shù)據(jù)處理,支持高吞吐率)-咼容錯性(以數(shù)據(jù)塊存儲,可以保存多個(gè)副本,容易實(shí)現(xiàn)負(fù)載均衡)缺點(diǎn):-小文件存?。ㄕ加胣ame node大量內(nèi)存,浪費(fèi)磁盤空間)-不支持并發(fā)寫入(同一時(shí)刻只能有一個(gè)進(jìn)程寫入,不支持隨機(jī)修改)2 Lustre支持動態(tài)擴(kuò)優(yōu)點(diǎn):是一個(gè)基于對象存儲的分布式文件系統(tǒng),比較成熟,適合大型集群, 展。缺點(diǎn):它只有兩個(gè)元數(shù)據(jù)管理節(jié)點(diǎn),當(dāng)系統(tǒng)達(dá)到一定的規(guī)模之后,管理節(jié)點(diǎn)

14、 會成為Lustre系統(tǒng)中的瓶頸。3.FastDFS優(yōu)點(diǎn):以文件為基本存儲單位,解決了大容量存儲的問題。特別適合以文件 為載體的在線服務(wù),簡化文件的存取功能。缺點(diǎn):難以并行化處理(一個(gè)節(jié)點(diǎn)只能處理一個(gè)文件,無法同時(shí)處理一個(gè)文 件);-難以實(shí)現(xiàn)負(fù)載均衡(文件大小不同,無法實(shí)現(xiàn)負(fù)載均衡,用戶需要自 己控制文件大?。┑谌龁枺篏PFS的主要優(yōu)點(diǎn)有以下三點(diǎn):1)使用分布式鎖管理和大數(shù)據(jù)塊策略支持更大規(guī)模的集群系統(tǒng),文件系統(tǒng)的令牌管理器為塊、in ode、屬性和目錄項(xiàng)建立細(xì)粒度的鎖,第一個(gè)獲得鎖的客戶將負(fù)責(zé)維護(hù)相應(yīng)共 享對象的一致性管理,這減少了元數(shù)據(jù)服務(wù)器的負(fù)擔(dān);2)擁有多個(gè)元數(shù)據(jù)服務(wù)器,元數(shù)據(jù)也是分布

15、式,使得元數(shù)據(jù)的管理不再是系統(tǒng)瓶頸;3)令牌管理以字節(jié)作為鎖的最小單位,也就是說除非兩個(gè)請求訪問的是同一文件的同一字節(jié)數(shù)據(jù),對于數(shù)據(jù)的訪問請求永遠(yuǎn)不會沖突.10、闡述Map Reduce與傳統(tǒng)的分布式程序設(shè)計(jì)相比有何優(yōu)點(diǎn)?例舉傳統(tǒng)分布式程序設(shè)計(jì)的優(yōu)缺點(diǎn)?(真心找不到,當(dāng)然我也沒怎么理解,感覺傳統(tǒng)的分布式應(yīng)該改為傳統(tǒng)的集中式, 知道答案的補(bǔ)充一下)(1)通過Map Reduce這個(gè)分布式處理框架,能用于處理大規(guī)模數(shù)據(jù)。(2) 能將很多繁瑣的細(xì)節(jié)隱藏起來,容錯率高。比如自動并行化、負(fù)載均衡和災(zāi)備管理等,這樣將極大地簡化程序員的開發(fā)工作;(3)Map Reduce的伸縮性非常好;也就是說每增加一臺服

16、務(wù)器,其就能將差不多的計(jì)算能力接入到集群中,傳統(tǒng)的在伸縮性方面都與Map Reduce相差甚遠(yuǎn)。二:將會從以下敘述題中選擇題目解答。1、參照以下 Map Reduce操作執(zhí)行流程圖,請敘述 Map Reduce操作過程?卜 I II forkMaJlerM塊,每塊大概16M64MB (可以通過參數(shù)決定),接著在集群的機(jī)器.富卯自襠唱n nduCr.(1)輸入文件分成上執(zhí)行分派處理程序(2) M個(gè)Map任務(wù)和R個(gè)Reduce任務(wù)需要分派,Master選擇空閑 Worker來分配這些 Map 或Reduce任務(wù)(3) Worker讀取并處理相關(guān)輸入塊,Map函數(shù)產(chǎn)生的中間結(jié)果key,value對暫

17、時(shí)緩沖到內(nèi) 存(4) 中間結(jié)果定時(shí)寫到本地硬盤,分區(qū)函數(shù)將其分成R個(gè)區(qū)。中間結(jié)果在本地硬盤的位置信息將被發(fā)送回 Master,然后Master負(fù)責(zé)把這些位置信息傳送給Reduce Worker(5) 當(dāng)Master通知執(zhí)行Reduce的Worker關(guān)于中間key,value對的位置時(shí),它調(diào)用遠(yuǎn)程過程,從Map Worker的本地硬盤上讀取緩沖的中間數(shù)據(jù)。當(dāng)Reduce Worker讀到所有的中間數(shù)據(jù),它就使用中間 key進(jìn)行排序,這樣可使相同key的值都在一起。(6) Reduce Worker根據(jù)每一個(gè)唯一中間 key來遍歷所有的排序后的中間數(shù)據(jù),并且把 key 和相關(guān)的中間結(jié)果值集合傳遞給

18、用戶定義的Reduce函數(shù)。Reduce函數(shù)的結(jié)果寫到一個(gè)最終 的輸出文件(7) 當(dāng)所有的Map任務(wù)和Reduce任務(wù)都完成的時(shí)候,Master激活用戶程序。此時(shí)MapReduce 返回用戶程序的調(diào)用點(diǎn)2、請參照以下“云計(jì)算仿真器cloudsim ”的體系結(jié)構(gòu),敘述其技術(shù)實(shí)現(xiàn)及使用方法?用戶代碼用戶請求用戶或數(shù)據(jù)屮心代理CloudSiin用戶接n虛擬機(jī)服務(wù)仟務(wù)單元底擬機(jī)云服符云資源技術(shù)實(shí)現(xiàn):任務(wù)m兀執(zhí)行虛擬機(jī)管埋半件處理件感器網(wǎng)絡(luò)拓?fù)鋬?nèi)匸分配云協(xié)訓(xùn)器涓息延遲計(jì)算帶寬分配數(shù)抓|心C loudSi m檢心模擬引繁1) BwProvisioner用于模擬虛擬機(jī)的帶寬分配策略??梢酝ㄟ^擴(kuò)展這個(gè)類反映其

19、應(yīng)用需求的變化,策略(基于優(yōu)先級或服務(wù)質(zhì)量)2) CloudCoordinator整合了云數(shù)據(jù)中心,負(fù)責(zé)周期性地監(jiān)控?cái)?shù)據(jù)中心資源的內(nèi)部狀態(tài)和執(zhí)行動態(tài)負(fù)載均衡的決策3) Cloudlet模擬了云應(yīng)用服務(wù)(如內(nèi)容分發(fā)、社區(qū)網(wǎng)絡(luò)和業(yè)務(wù)工作流等) 個(gè)預(yù)分配的指令長度和其生命周期內(nèi)所需的數(shù)據(jù)傳輸開銷實(shí)現(xiàn)自己的。每一個(gè)應(yīng)用服務(wù)都會擁有一4)CloudletScheduler擴(kuò)展實(shí)現(xiàn)了多種策略,用于決定虛擬機(jī)內(nèi)的應(yīng)用服務(wù)如何共享處理器能力。支持兩種調(diào)度策略:空間共享(CloudletSchedulerSpaceShared)和時(shí)間共享(CloudletSchedulerTimeShared) 策略7) Da

20、tacenterCharacteristics包含了數(shù)據(jù)中心資源的配置信息8)Host模擬如計(jì)算機(jī)、存儲服務(wù)器等物理資源。它封裝了一些重要信息,如內(nèi)存 處理器內(nèi)核列表及類型(多核機(jī)器)、虛擬機(jī)之間共享處理能力的分配策略、內(nèi)存和帶寬的策略等/存儲器的容量、為虛擬機(jī)分配9) NetworkTopology包含模擬網(wǎng)絡(luò)行為(延時(shí))的信息。它里面保存了網(wǎng)絡(luò)拓?fù)湫畔?,該信息?器生成BRITE拓?fù)渖?0) RamProvisioner代表為虛擬機(jī)分配主存的策略11)SanStorage模擬了云數(shù)據(jù)中心的存儲區(qū)域網(wǎng),主要用于存儲大量數(shù)據(jù),類似于Amazon S3、Azure blobstorage 等1

21、2)Sensor用于監(jiān)控特定的性能該接口的實(shí)現(xiàn)必須通過實(shí)例化一個(gè)能夠被云協(xié)調(diào)器使用的傳感器組件, 參數(shù)(能量消耗、資源利用)。該接口定義了如下方法:(1)為性能參數(shù)設(shè)置最小值和最大值。(2 )周期性地更新測量值。(3 )該類能夠用于模擬由主流云提供商提供的真實(shí)服務(wù)13)Vm模擬由主機(jī)組件托管和管理的虛擬機(jī)14)VmAllocationPolicy代表虛擬機(jī)監(jiān)視器使用的調(diào)度策略,該策略用于將虛擬機(jī)分配給主機(jī)15)VmSheduler由一個(gè)主機(jī)組件實(shí)現(xiàn),模擬為虛擬機(jī)分配處理核所用的策略(空間共享和時(shí)間共享) 使用方法:(1)初始化 CloudSim包(2)創(chuàng)建數(shù)據(jù)中心(3)創(chuàng)建數(shù)據(jù)中心代理數(shù)據(jù)中心

22、代理負(fù)責(zé)在云計(jì)算中根據(jù)用戶的QoS要求協(xié)調(diào)用戶及服務(wù)供應(yīng)商和部署服務(wù)任務(wù)(4)創(chuàng)建虛擬機(jī)對虛擬機(jī)的參數(shù)進(jìn)行設(shè)置,主要包括ID、用戶ID、MIPS、CPU數(shù)量、內(nèi)存、帶寬、外存、虛擬機(jī)監(jiān)控器、調(diào)度策略,并提交給任務(wù)代理(5)創(chuàng)建云任務(wù)ID,并提交給任務(wù)代理。在這一步可以設(shè)置需要創(chuàng)建指定參數(shù)的云任務(wù),設(shè)定任務(wù)的用戶 創(chuàng)建的云任務(wù)數(shù)量以及任務(wù)長度等信息(6 )在這一步調(diào)用自定義的任務(wù)調(diào)度策略,分配任務(wù)到虛擬機(jī)(7 )啟動仿真(8 )在仿真結(jié)束后統(tǒng)計(jì)結(jié)果3、技術(shù)應(yīng)用題:假設(shè)有一批海量的數(shù)據(jù),每個(gè)數(shù)據(jù)都是由26個(gè)字母組成的字符串,原始的數(shù)據(jù)集合是完全無序的,怎樣通過 MapReduce完成排序工作,使其

23、有序(字典序)呢?解答:對原始的數(shù)據(jù)進(jìn)行分割(Split),得到N個(gè)不同的數(shù)據(jù)分塊,(做題畫最終的圖就好, 三張圖可以融合畫)Split 1:nklklacdcdd gfgdfsdfdfdannnbnbvghSplits*dfgmdlijydf kghfgcxnkilgjgbyotcwgbbSplitN:hjlo snTb hjcvcvxcdhbviivcxef每一個(gè)數(shù)據(jù)分塊都啟動一個(gè)Map進(jìn)行處理。采用桶排序的方法,每個(gè)字符串分配到26個(gè)不同的桶中,Map中按照首字母將Map輸出aaabtazxGWbaasnbzzvvvi26-t 桶nklklacdcddSpliiL. gfgdfsdfdf

24、d+artnnbnb、妙Map IZZYCZajgfTiaz7HgaSplil2:dfjjjndhjydf 聽h 龜cxnkilgjghyotcwgbbMap2bandfbzxkk加個(gè)輔zakhuSplighjlolsnvrb hjcvcvxcdlibvnvcKefMapN哉iyfabhju+卜I卜azd 菖hybahrtrbzhyhy26nTi+zzukit按照首字母將 Map中不同桶中的字符串集合放置到相應(yīng)的Reduce中進(jìn)行處理。具體來說就是首字母為a的字符串全部放在 Reducel中處理,首字母為 b的字符串全部放在 Reduce2, 以此類推,aaabcaacwDaasnzavjgZ

25、ZVIZ 疋aagfhgbandfbakkzakhuzzjiyfaUijuazdghybahttrbzhyhYReduce!2竹楠RedLice26Reduce2azzbvbsjhbarmacdaabacfdfdbzJighhgjzsactheererrzbyiiireterh H h Hzzkeslizzukit4、基于分布式計(jì)算程序的Hadoop可以運(yùn)行于大型計(jì)算機(jī)集群上,請參照自己的理解與應(yīng)用經(jīng)歷描述Hadoop集群的體系結(jié)構(gòu)與方法、安裝配置主要支撐技術(shù)平臺等(可以圖形+解釋進(jìn)行描述)?HadooP 概述:? 基于Apache基金會下的一個(gè)開源項(xiàng)目,致力于開發(fā)一個(gè)可靠的、大規(guī)模的分布式計(jì)

26、算框架? 用戶可采用簡單的計(jì)算模型在計(jì)算機(jī)集群下對大規(guī)模的數(shù)據(jù)進(jìn)行分布式處理體系結(jié)構(gòu)Hadoop ClusterERAD HEDLUND .±emswitchWorldDM * TTOWt TTUN+ nDN+ TTDNt TTRackMONt TT方法:在HadooP部署中,有三種服務(wù)器角色,他們分別是客戶端、Masters節(jié)點(diǎn)以及Slave節(jié)點(diǎn)。Master節(jié)點(diǎn),Masters節(jié)點(diǎn)又稱主節(jié)點(diǎn),主節(jié)點(diǎn)負(fù)責(zé)監(jiān)控兩個(gè)核心功能:大數(shù)據(jù)存儲(HDFS )以及數(shù)據(jù)并行計(jì)算(Map Reduce )。其中,Name Node負(fù)責(zé)監(jiān)控以及協(xié)調(diào)數(shù)據(jù)存儲(HDFS)的工作,Job Tracker則負(fù)

27、責(zé)監(jiān)督以及協(xié)調(diào)Map Reduce的并行計(jì)算。而Slave節(jié)點(diǎn)則負(fù)責(zé)具體的工作以及數(shù)據(jù)存儲。每個(gè)Slave運(yùn)行一個(gè) Data Node和一個(gè) Task Tracker守護(hù)進(jìn)程。這兩個(gè)守護(hù)進(jìn)程負(fù)責(zé) 與 Master節(jié)點(diǎn)通信。Task Tracker守護(hù)進(jìn)程與 Job Tracker相互作用,而 Data Node守護(hù) 進(jìn)程則與Name Node相互作用。上圖是一個(gè)典型的HadooP集群架構(gòu)。這張圖中,Hadoop集群以機(jī)架為單位存在,而每個(gè)機(jī)架頂部都會有一個(gè)交換機(jī)通過千兆網(wǎng)(或萬兆網(wǎng))與外部關(guān)聯(lián)。我們通過上行鏈路將所有的機(jī)架鏈接在一起形成一個(gè)集群。在一個(gè)機(jī)架中,有些服務(wù)器作為Master節(jié)點(diǎn),例如Name Node等等,而更多的則是 Slave Node。下一個(gè)問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論