hadoop常見筆試題答案_第1頁
hadoop常見筆試題答案_第2頁
hadoop常見筆試題答案_第3頁
hadoop常見筆試題答案_第4頁
hadoop常見筆試題答案_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、精選的文件Hadoop測試問題1 .填補(bǔ)問題,1分(41空),2分(42空)的訂正125分datanode (每個空白點(diǎn))負(fù)責(zé)HDFS數(shù)據(jù)存儲。2 .默認(rèn)情況下,HDFS block (每隔1分鐘可用)保存3份。3.(每隔1分鐘可用)資源管理器程序通常在與NameNode相同的節(jié)點(diǎn)上啟動。4.(每個空閑點(diǎn)) hadoop操作的模式是獨(dú)立模式、偽分散模式和完全分散。5 .構(gòu)建Hadoop群集時經(jīng)常使用的四個配置文件是core-site.xml和hdfs-site.xml、映射站點(diǎn). XML、yarn站點(diǎn). XML。6.(每2分鐘空閑)分割HDFS蓄積的大文件,分割后保存在既定的存儲器塊中,通過預(yù)

2、先設(shè)定的優(yōu)化處理,在模式下對蓄積的數(shù)據(jù)進(jìn)行預(yù)處理,解決了大文件的蓄積和糾正運(yùn)算的需要。7 .一個HDFS群集(每隔兩分鐘可用)包含namenode和datanode兩大部分。 通常,一個namenode和多個datanode在一個群集中協(xié)同工作。8.(每2分鐘空閑) namenode是集群的主服務(wù)器,主要維護(hù)HDFS的所有文件和內(nèi)容數(shù)據(jù),不斷讀取記錄集群的datanode主機(jī)的狀態(tài)和動作狀態(tài),鏡像日志文件的讀取和寫入9.(每2分鐘空閑時間) datanode在HDFS群集中負(fù)責(zé)執(zhí)行任務(wù)的具體角色,是群集的工作節(jié)點(diǎn)。 文件被分割為相同大小的數(shù)據(jù)塊,每個塊存儲在多個datanode中,datano

3、de定期向群集中的namenode發(fā)送自己的運(yùn)行狀態(tài)和存儲內(nèi)容,并按照來自namnode的命令進(jìn)行運(yùn)行。10.(空閑每2分鐘) namenode接收從客戶端發(fā)送來的信息,將文件存儲位置信息發(fā)送給客戶端,從客戶端直接與datanode取得聯(lián)系,進(jìn)行部分文件的運(yùn)算和操作。11.(空閑每分鐘) block是HDFS的基本存儲單元,默認(rèn)大小為128M。12.(每隔一分鐘可用) HDFS還可以多副本備份已存儲的Block,并至少復(fù)制每個Block三個獨(dú)立的硬件可以快速恢復(fù)損壞的數(shù)據(jù)。13 .如果客戶端讀取操作發(fā)生錯誤(每2分鐘可用),客戶端將向namenode報告錯誤,請求namenode排除有錯誤的d

4、atanode,然后按距離排序,以獲取新的讀取路徑。 如果所有datanode都報告讀取失敗,則整個任務(wù)將失敗。14.fsdata output stream不會立即關(guān)閉寫入操作期間遇到的問題(每2分鐘可用)。 客戶端向Namenode報告錯誤消息,并將數(shù)據(jù)直接寫入提供備份的datanode。 備份程式datanode升級到首選datanode,并將復(fù)制數(shù)據(jù)備份到兩個其他datanode。 NameNode標(biāo)記了錯誤的DataNode,以便以后處理。15.hdfsnamenode-format是用于格式化HDFS系統(tǒng)的命令(每隔一分鐘可用)。16.(每分鐘)啟動hdfs的shell腳本是sta

5、rt-dfs.sh。17.(每分鐘)啟動yarn的shell腳本是start-yarn.sh。18.(每分鐘)停止hdfs的shell腳本是stop-dfs.sh。19.Hadoop創(chuàng)建多級目錄(例如,/a/b/c )的命令是hadoopfs-mkdir-p/a/b/c。20.Hadoop顯示根命令(每隔一分鐘可用)是hadoopfs-lsr。21.(每個可用點(diǎn)) hadoop中包括的四個大模塊分別是hadoop公用、HDFS、Mapreduce和yarn。22.(每分鐘) namenode的默認(rèn)WebUI訪問端口號為50070。23 .資源管理器的默認(rèn)WebUI訪問端口號為8088 (每隔1

6、分鐘可用)。24.history server的默認(rèn)WebUI訪問端口號為19888 (每隔一分鐘可用)。25 .更改塊大小的屬性(每分鐘)位于hdfs-site.xml配置文件的dfs.blocksize中。26.HDFS的namenode的RPC端口號(每隔一分鐘可用)是: 8021,用于接收客戶端連接的RPC端口并獲取文件系統(tǒng)的元數(shù)據(jù)信息。27.(每空閑2分鐘) Mapper類有4個函數(shù)。28.(每分鐘)缺省NameNode周期性地從DataNode接收心跳信號的時間間隔為3s。29 .已為hadoop群集啟用默認(rèn)機(jī)架準(zhǔn)備(每隔一分鐘可用)。 正確與否:錯誤。30.(每隔2分鐘可用)硬件

7、映射/降級安全過程:輸入剝離- -映射函數(shù)-內(nèi)存緩沖區(qū)partitionsortcombinespill-映射側(cè)合并- -反射側(cè)復(fù)制-合并反射函數(shù)。31.(每2分鐘可用)一個節(jié)點(diǎn)管理器可以同時執(zhí)行的最大reduce任務(wù)數(shù)(默認(rèn)值):2。32.(每2分鐘可用)默認(rèn)情況下,在同時運(yùn)行namenode、secondarynamenode和ResourceManager的主節(jié)點(diǎn)上使用的內(nèi)存為3000 M。33.(每空閑2分鐘) Hadoop集群有三種作業(yè)調(diào)度算法,分別是FIFO調(diào)度、校正能力調(diào)度和公平調(diào)度。34.(每個可用點(diǎn)) HA的背景是為了解決單個NN宕機(jī)可能導(dǎo)致群集不可用或數(shù)據(jù)丟失的問題。35.

8、(每個空白點(diǎn))使用Zookeeper管理兩個以上的NameNode,將一個NameNode在活動狀態(tài)下,使各NN的元數(shù)據(jù)同步,在活動狀態(tài)的NN一旦癱瘓后,使?fàn)顟B(tài)為待機(jī)狀態(tài)的代替節(jié)點(diǎn)有效。36.(每隔1分鐘空閑) job是客戶端需要運(yùn)行的工作單位。37.(每分鐘) Hadoop將作業(yè)分割為多個任務(wù)來執(zhí)行,包括映射任務(wù)和遞送任務(wù)。38 .組合器(每兩分鐘可用)由Reducer類定義。39.(每2分鐘可用) map任務(wù)將其輸出寫入本地磁盤。40.(每2分鐘可用) reduce輸出通常存儲在HDFS中,以提供可靠的存儲。41.(每2分鐘空閑時間) HDFS校正所有寫入數(shù)據(jù)的校驗(yàn)和,并在讀取數(shù)據(jù)時驗(yàn)證校

9、驗(yàn)和。42 .針對分布式數(shù)據(jù)處理(每隔兩個可用分鐘)被串行化的兩個領(lǐng)域是進(jìn)程間通信和持久性存儲。43.(每2個空白點(diǎn)) hadoop使用自己的序列化格式作為Writable。2 .簡單解答,3分(17題),5分(5題)的訂正75分1. (3點(diǎn))簡要說明如何安裝構(gòu)成apache的開源的hadoop。 只要說明就可以。 不必列舉具體的步驟,列舉具體的步驟比較好。答案:以超級用戶帳戶登錄2ip的變更更改主機(jī)主機(jī)名配置SSH無密碼登錄5關(guān)閉防火墻安裝JDK解壓縮hadoop安裝軟件包配置hadoop核心文件hadoop-env.sh、核心站點(diǎn). XML、映射站點(diǎn). XML和HDFS -站點(diǎn). XML設(shè)

10、置hadoop環(huán)境變量10格式化硬件名稱格式11啟動節(jié)點(diǎn)start-all.sh2. (3點(diǎn))列出在已知良好的hadoop群集中,每個hadoop需要啟動哪個進(jìn)程,每個進(jìn)程的角色是什么。 請盡量詳細(xì)列舉。答案:namenode :管理集群、保存數(shù)據(jù)的原始信息,并管理datanode中記錄的文件信息。輔助名稱:這是名稱的快照,基于在配置中設(shè)置的值多長時間周期性地去cp去namenode,決定記錄namenode中的元數(shù)據(jù)及其數(shù)據(jù)。Datanode :存儲數(shù)據(jù)資源管理器資源管理器負(fù)責(zé)集群中所有資源的集成管理和分配,從每個節(jié)點(diǎn)(節(jié)點(diǎn)管理器)接收資源報告信息,并根據(jù)特定策略對每個應(yīng)用程序(執(zhí)行節(jié)點(diǎn)管理

11、器: yarn中每個節(jié)點(diǎn)上的代理,用于管理Hadoop群集中的各個計算節(jié)點(diǎn)(3分)請寫下面的shell命令(1)殺死任務(wù)(刪除hdfs上的/tmp/aaa目錄(3)添加新的存儲節(jié)點(diǎn),刪除節(jié)點(diǎn)需要執(zhí)行的命令答案:(1)mapred job -list獲得作業(yè)的id,執(zhí)行mapred job -kill jobId,可以殺死指定了作業(yè)id的作業(yè)作業(yè)。(2)硬件式fs-rmr/tmp/AAA或硬件式DFS-rmr/tmp/AAA(3)添加新節(jié)點(diǎn),在新節(jié)點(diǎn)上運(yùn)行硬件日程. sh開始日程然后在主節(jié)點(diǎn)上運(yùn)行HDFS DFS管理更新節(jié)點(diǎn)如果要刪除節(jié)點(diǎn),只需在主節(jié)點(diǎn)上運(yùn)行hdfsdfsadmin-refres

12、hnodes即可3. (3點(diǎn))請簡要敘述組合和分區(qū)在mapreduce中的作用答案:combiner發(fā)生在map的最后階段,其原理也是小型的reducer,主要的作用是減少輸出到reduce的個數(shù),減少reducer的輸入,提高reducer的執(zhí)行效率。Partition的主要作用是指定輸出到reduce的個數(shù)。4. (3點(diǎn)) hdfs的體系結(jié)構(gòu)答案:HDFS采用主從(Master/Slave )結(jié)構(gòu)模型,一個HDFS集群由一個NameNode和多個DataNode構(gòu)成。 其中,NameNode管理作為主服務(wù)的文件系統(tǒng)名稱空間和對客戶端文件的訪問操作,群集中的DataNode管理存儲的數(shù)據(jù)5.

13、 (3點(diǎn)) 3個datanode中的1個datanode發(fā)生錯誤時會怎么樣?答案:一個datanode發(fā)生錯誤時,namenode會將該datanode上的數(shù)據(jù)復(fù)制并保存到另一個節(jié)點(diǎn)。6. (3點(diǎn))文件大小默認(rèn)為64M,更改為128M會產(chǎn)生什么影響?答案:要更改文件的塊大小,必須根據(jù)我們的實(shí)際生產(chǎn)來更改塊大小。 如果block定義過小,則過大的文件會被分割成過小的文件,從而降低用戶的上傳效率。 如果block定義過大,則會將過小的文件保存在一個block塊中7. (3分) NameNode和SecondaryNameNode的區(qū)別和聯(lián)系?答案:輔助名稱類似于Namenode的冷備份,可以在Na

14、menode停機(jī)后從輔助名稱上恢復(fù)部分?jǐn)?shù)據(jù)。8. (5分)正在執(zhí)行的hadoop任務(wù)中,InputSplit是什么?答案:InputSplit是MapReduce進(jìn)行文件處理和運(yùn)算的輸入單位,只是邏輯概念,各InputSplit不是實(shí)際切割文件,而是要處理的數(shù)據(jù)的位置(包含文件的path和hosts )和長度(start和9. (3點(diǎn)) hdfs塊大小為64MB,輸入類為FileInputFormat,三個文件大小分別為64KB、65MB、127MB,Hadoop框架將這些文件分割成多少塊?答案:64k-兩個封鎖65MB-個文件: 64MB為阻塞,1MB為阻塞127MB-個文件: 64MB為阻塞,63MB為阻塞10. (5分) RecordReader在hadoop中的作用是什么?答案:RecorderReader是一個接口,主要用于讀取文件的輸入鍵值對。 您也可以自定義輸入的key、value對的讀取規(guī)則。 屬于split和mapper之間的過程,變換記錄inputsplit輸出的行為,作為key-value的記錄形式提供給mapper11. (3點(diǎn)) Map階段結(jié)束后,Hadoop框架將處理分區(qū)、縮小和Sort。 在這些階段發(fā)生了什么?答案:Partition可以對輸出的key、value進(jìn)行分區(qū),定制分區(qū),并根據(jù)業(yè)務(wù)需要將map的輸出合并到多個不同的文件中將m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論