hadoop常見筆試題答案

上傳人：9*** IP屬地：貴州上傳時間：2022-03-22 格式：DOCX 頁數(shù)：7 大?。?1.79KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上Hadoop測試題一填空題，1分（41空），2分（42空）共125分1. (每空1分) datanode 負(fù)責(zé)HDFS數(shù)據(jù)存儲。2. (每空1分)HDFS中的block默認(rèn)保存 3 份。3. (每空1分) ResourceManager 程序通常與 NameNode 在一個節(jié)點啟動。4. (每空1分)hadoop運行的模式有：單機模式、偽分布模式、完全分布式。5. (每空1分)Hadoop集群搭建中常用的4個配置文件為： core-site.xml 、 hdfs-site.xml 、 mapred-site.xml 、 yarn-site.xml 。6.

2、(每空2分)HDFS將要存儲的大文件進行分割，分割后存放在既定的存儲塊中，并通過預(yù)先設(shè)定的優(yōu)化處理，模式對存儲的數(shù)據(jù)進行預(yù)處理，從而解決了大文件儲存與計算的需求。7. (每空2分)一個HDFS集群包括兩大部分，即 namenode 與 datanode 。一般來說，一個集群中會有一個 namenode 和多個 datanode 共同工作。8. (每空2分) namenode 是集群的主服務(wù)器，主要是用于對HDFS中所有的文件及內(nèi)容數(shù)據(jù)進行維護，并不斷讀取記錄集群中 datanode 主機情況與工作狀態(tài)，并通過讀取與寫入鏡像日志文件的方式進行存儲。9. (每空2分) datanode

3、在HDFS集群中擔(dān)任任務(wù)具體執(zhí)行角色，是集群的工作節(jié)點。文件被分成若干個相同大小的數(shù)據(jù)塊，分別存儲在若干個 datanode 上， datanode 會定期向集群內(nèi) namenode 發(fā)送自己的運行狀態(tài)與存儲內(nèi)容，并根據(jù) namnode 發(fā)送的指令進行工作。10. (每空2分) namenode 負(fù)責(zé)接受客戶端發(fā)送過來的信息，然后將文件存儲位置信息發(fā)送給 client ，由 client 直接與 datanode 進行聯(lián)系，從而進行部分文件的運算與操作。11. (每空1分) block 是HDFS的基本存儲單元，默認(rèn)大小是 128M 。12. (每空1分)HDFS還可以對已經(jīng)存儲的Block進

4、行多副本備份，將每個Block至少復(fù)制到 3 個相互獨立的硬件上，這樣可以快速恢復(fù)損壞的數(shù)據(jù)。 13. (每空2分)當(dāng)客戶端的讀取操作發(fā)生錯誤的時候，客戶端會向 namenode 報告錯誤，并請求 namenode 排除錯誤的 datanode 后，重新根據(jù)距離排序，從而獲得一個新的的讀取路徑。如果所有的 datanode 都報告讀取失敗，那么整個任務(wù)就讀取失敗。14. (每空2分)對于寫出操作過程中出現(xiàn)的問題， FSDataOutputStream 并不會立即關(guān)閉。客戶端向Namenode報告錯誤信息，并直接向提供備份的 datanode 中寫入數(shù)據(jù)。備份 datanode 被升級為首選

5、datanode ，并在其余2個 datanode 中備份復(fù)制數(shù)據(jù)。NameNode對錯誤的DataNode進行標(biāo)記以便后續(xù)對其進行處理。15. (每空1分)格式化HDFS系統(tǒng)的命令為： hdfs namenode format 。 16. (每空1分)啟動hdfs的shell腳本為： start-dfs.sh 。17. (每空1分)啟動yarn的shell腳本為： start-yarn.sh 。18. (每空1分)停止hdfs的shell腳本為： stop-dfs.sh 。19. (每空1分)hadoop創(chuàng)建多級目錄（如：/a/b/c）的命令為： hadoop fs mkdir p /a/b

6、/c 。20. (每空1分)hadoop顯示根目錄命令為： hadoop fs lsr 。21. (每空1分)hadoop包含的四大模塊分別是： Hadoop common 、 HDFS 、 Mapreduce 、 yarn 。22. (每空1分)namenode默認(rèn)的WebUI訪問端口號為： 50070 。23. (每空1分)ResourceManager默認(rèn)的WebUI訪問端口號為： 8088 。24. (每空1分)historyServer默認(rèn)的WebUI訪問端口號為： 19888 。25. (每空1分)修改blocksize大小的屬性是： dfs.blocksize ，在 hdfs-s

7、ite.xml 配置文件里。26. (每空1分)HDFS中namenode的RPC端口號為： 8021 ，其作用是：接收Client連接的RPC端口，用于獲取文件系統(tǒng)metadata信息。27. (每空2分)Mapper類中有 4 個函數(shù)。28. (每空1分)默認(rèn)NameNode周期性從DataNode接收心跳信號的時間間隔為： 3s 。29. (每空1分)hadoop集群默認(rèn)機架感知是啟用的。是否正確：錯誤。30. (每空2分)Hadoop Map/Reduce Shuffle過程： inputsplit->map函數(shù)>內(nèi)存緩沖區(qū)à Partitionà

8、;sortàcombineàspill-> map端merge ->reduce端copy>mergeàreduce函數(shù)。31. (每空2分)一個NodeManager能夠同時運行最大reduce任務(wù)數(shù)（默認(rèn)）： 2 。32. (每空2分)默認(rèn)情況下，一個同時運行了namenode，secondarynamenode和ResourceManager的主節(jié)點，所使用的內(nèi)存容量為 3000 M。33. (每空2分)Hadoop集群中有三種作業(yè)調(diào)度，分別為 FIFO調(diào)度，計算能力調(diào)度和公平調(diào)度。34. (每空1分)HA產(chǎn)生的背景是：為了解決

9、單NN可能出現(xiàn)宕機導(dǎo)致集群不可用或數(shù)據(jù)丟失的問題。35. (每空1分)通過 Zookeeper 管理兩個或者多個NameNode，使一個NameNode為 active 狀態(tài)，并且同步每個NN的元數(shù)據(jù)，如果 active 狀態(tài)的NN宕機后馬上啟用狀態(tài)為 standby 狀態(tài)的備用節(jié)點。36. (每空1分) job 是客戶端需要執(zhí)行的一個工作單元。37. (每空1分)Hadoop將作業(yè)分成若干個 task 來執(zhí)行，其中包括： maptask 和 reducetask 。38. (每空2分)combiner是通過 Reducer 類來定義的。39. (每空2分)map任務(wù)將其輸出寫入到本地磁盤

10、。40. (每空2分)reduce的輸出通常存儲在 HDFS 中以實現(xiàn)可靠存儲。41. (每空2分)HDFS會對寫入的所有數(shù)據(jù)計算校驗和，并在讀取數(shù)據(jù)時驗證校驗和。42. (每空2分)序列化用于分布式數(shù)據(jù)處理的兩大領(lǐng)域為：進程間通信和永久存儲。43. (每空2分)hadoop使用自己的序列化格式為： Writable 。二簡答題，3分（17題），5分（5題）共75分1. (3分)簡要描述如何安裝配置apache的一個開源hadoop，只描述即可，無需列出具體步驟，列出具體步驟更好。答：1使用root賬戶登錄2 修改IP3 修改host主機名4 配置SSH免密碼登錄5 關(guān)閉防火

11、墻6 安裝JDK7 解壓hadoop安裝包8 配置hadoop的核心文件 hadoop-env.sh，core-site.xml , mapred-site.xml ， hdfs-site.xml9 配置hadoop環(huán)境變量10 格式化 hadoop namenode -format11 啟動節(jié)點 start-all.sh2. (3分)請列出正常的hadoop集群中hadoop都分別需要啟動哪些進程，他們的作用分別都是什么，請盡量列的詳細(xì)一些。答：namenode：管理集群，存儲數(shù)據(jù)的原信息，并管理記錄datanode中的文件信息。 secondarynamenode：它是namenode的一

12、個快照，會根據(jù)configuration中設(shè)置的值來決定多少時間周期性的去cp一下namenode，記錄namenode中的metadata及其它數(shù)據(jù)。Datanode：存儲數(shù)據(jù)ResourceManager：ResourceManager負(fù)責(zé)集群中所有資源的統(tǒng)一管理和分配，它接收來自各個節(jié)點（NodeManager）的資源匯報信息，并把這些信息按照一定的策略分配給各個應(yīng)用程序（實際上是ApplicationManager）NodeManager：是YARN中每個節(jié)點上的代理，它管理集群中單個計算節(jié)點 (3分)請寫出以下的shell命令（1）殺死一個job

13、（2）刪除hdfs上的 /tmp/aaa目錄（3）加入一個新的存儲節(jié)點和刪除一個節(jié)點需要執(zhí)行的命令答：（1）mapred job -list得到j(luò)ob的id，然后執(zhí)行mapred job kill jobId就可以殺死一個指定jobId的job工作了。（2）hadoop fs -rmr /tmp/aaa或者h(yuǎn)dfs dfs rmr /tmp/aaa（3）增加一個新的節(jié)點在新的節(jié)點上執(zhí)行 hadoop-daemon.sh start datanode 然后在主節(jié)點中執(zhí)行 hdfs dfsadmin -refreshNodes刪除一個節(jié)點的時候，只需要在主節(jié)點執(zhí)行 hdfs dfsadmin re

14、freshnodes3. (3分)請簡述mapreduce中的combine和partition的作用答：combiner是發(fā)生在map的最后一個階段，其原理也是一個小型的reducer，主要作用是減少輸出到reduce的個數(shù)，減少reducer的輸入，提高reducer的執(zhí)行效率。Partition的主要作用就是指定輸出到reduce的個數(shù)的。4. (3分)hdfs的體系結(jié)構(gòu)答：HDFS采用了主從（Master/Slave）結(jié)構(gòu)模型，一個HDFS集群是由一個NameNode和若干個DataNode組成的。其中NameNode作為主服務(wù)器，管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作；集群中

15、的DataNode管理存儲的數(shù)據(jù)5. (3分)三個datanode中當(dāng)有一個datanode出現(xiàn)錯誤時會怎樣？答：當(dāng)有一個datanode出現(xiàn)錯誤的時候，namenode會將那個datanode上的數(shù)據(jù)拷貝到其他的節(jié)點去進行存儲。6. (3分)文件大小默認(rèn)為 64M，改為 128M 有什么影響？答：更改文件的block塊大小，需要根據(jù)我們的實際生產(chǎn)中來更改block的大小，如果block定義的太小，大的文件都會被切分成太多的小文件，減慢用戶上傳效率，如果block定義的太大，那么太多的小文件可能都會存到一個block塊中，雖然不浪費硬盤資源，可是還是會增加namenode的管理內(nèi)存壓力。7.

16、(3分)NameNode與SecondaryNameNode的區(qū)別與聯(lián)系？答：secondaryNameNode更像是Namenode的一個冷備份，當(dāng)namenode宕機之后，可以從SecondaryNamenode上面恢復(fù)部分?jǐn)?shù)據(jù)。8. (5分)在一個運行的hadoop任務(wù)中，什么是InputSplit？答： InputSplit是MapReduce對文件進行處理和運算的輸入單位，只是一個邏輯概念，每個InputSplit并沒有對文件實際的切割，只是記錄了要處理的數(shù)據(jù)的位置(包括文件的path和hosts)和長度(由start和length決定)，默認(rèn)情況下與block一樣大。9. (3分)

17、參考下列M/R系統(tǒng)的場景：hdfs塊大小為64MB，輸入類為FileInputFormat，有3個文件的大小分別為64KB, 65MB, 127MB，Hadoop框架會把這些文件拆分為多少塊？答：64k->一個block65MB->兩個文件：64MB是一個block，1MB是一個block127MB->兩個文件：64MB是一個block,63MB是一個block10. (5分)hadoop中RecordReader的作用是什么？答：RecorderReader是一個接口，主要是用來讀取文件的輸入鍵值對的，我們也可以自定義輸入的key,value對的讀取規(guī)則。屬于split和m

18、apper之間的一個過程，將inputsplit輸出的行為一個轉(zhuǎn)換記錄，成為key-value的記錄形式提供給mapper11. (3分)Map階段結(jié)束后，Hadoop框架會處理：Partitioning, Shuffle和Sort，在這幾個階段都發(fā)生了什么？答：Partition是對輸出的key,value進行分區(qū)，可以自定義分區(qū)，按照業(yè)務(wù)需求，將map的輸出歸分到多個不同的文件中將map的輸出作為輸入傳給reducer 稱為shufflesort是排序的過程，將map的輸出，作為reduce的輸入之前，我們可以自定義排序，按照key來對map的輸出進行排序12. (5分)如果沒有定義par

19、titioner，那數(shù)據(jù)在被送達reducer前是如何被分區(qū)的？答：Partitioner是在map函數(shù)執(zhí)行context.write()時被調(diào)用。用戶可以通過實現(xiàn)自定義的Partitioner來控制哪個key被分配給哪個Reducer。 hadoop有一個默認(rèn)的分區(qū)類，HashPartioer類，通過對輸入的k2去hash值來確認(rèn)map輸出的k2，v2送到哪一個reduce中去執(zhí)行。13. (3分)什么是combiner？答：combiner就是規(guī)約操作，通過對map輸出的數(shù)量進行規(guī)約，可以減少reduce的數(shù)量，提高執(zhí)行效率。combiner的輸入輸出類型必須和mapper的輸出以及red

20、ucer的輸入類型一致14. (3分)分別舉例什么情況要使用 combiner，什么情況不使用？答：求平均數(shù)的時候就不需要用combiner，因為不會減少reduce執(zhí)行數(shù)量。在其他的時候，可以依據(jù)情況，使用combiner，來減少map的輸出數(shù)量，減少拷貝到reduce的文件，從而減輕reduce的壓力，節(jié)省網(wǎng)絡(luò)開銷，提升執(zhí)行效率15. (5分)簡述Hadoop中replication（復(fù)本）放置策略？答：Hadoop的默認(rèn)布局策略是在運行客戶端的節(jié)點上放第一個復(fù)本；第二個復(fù)本放在與第一個不同且隨機另外選擇的機架中的節(jié)點上（離架）；第三個復(fù)本與第二個復(fù)本放在同一個機架上，且隨機選擇另一個節(jié)點

21、。16. (5分)如何為一個hadoop任務(wù)設(shè)置mappers的數(shù)量？答：map的數(shù)量通常是由hadoop集群的DFS塊大小確定的，也就是輸入文件的總塊數(shù)，正常的map數(shù)量的并行規(guī)模大致是每一個Node是10100個，對于CPU消耗較小的作業(yè)可以設(shè)置Map數(shù)量為300個左右，但是由于hadoop的沒一個任務(wù)在初始化時需要一定的時間，因此比較合理的情況是每個map執(zhí)行的時間至少超過1分鐘。具體的數(shù)據(jù)分片是這樣的，InputFormat在默認(rèn)情況下會根據(jù)hadoop集群的DFS塊大小進行分片，每一個分片會由一個map任務(wù)來進行處理，當(dāng)然用戶還是可以通過參數(shù)mapred.min.split.size

22、參數(shù)在作業(yè)提交客戶端進行自定義設(shè)置。還有一個重要參數(shù)就是mapred.map.tasks，這個參數(shù)設(shè)置的map數(shù)量僅僅是一個提示，只有當(dāng)InputFormat 決定了map任務(wù)的個數(shù)比mapred.map.tasks值小時才起作用。同樣，Map任務(wù)的個數(shù)也能通過使用JobConf 的conf.setNumMapTasks(int num)方法來手動地設(shè)置。這個方法能夠用來增加map任務(wù)的個數(shù)，但是不能設(shè)定任務(wù)的個數(shù)小于Hadoop系統(tǒng)通過分割輸入數(shù)據(jù)得到的值。當(dāng)然為了提高集群的并發(fā)效率，可以設(shè)置一個默認(rèn)的map數(shù)量，當(dāng)用戶的map數(shù)量較小或者比本身自動分割的值還小時可以使用一個相對交大的默認(rèn)值，從而提高整體hadoop集群的效率。17. (3分)hdfs文件寫入的流程？答：1) Clien

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

hadoop常見筆試題答案

文檔簡介

溫馨提示

最新文檔

評論

hadoop常見筆試題答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔