單元2 任務2-1 搭建Hadoop偽分布式

上傳人：h*** IP屬地：山東上傳時間：2023-12-27 格式：PPTX 頁數(shù)：27 大?。?.07MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

《大數(shù)據(jù)平臺部署與運維》單元2Hadoop偽分布式安裝部署任務2.1搭建Hadoop偽分布式01Hadoop的發(fā)展歷程與應用現(xiàn)狀02Hadoop優(yōu)勢與核心組成學習目標03Hadoop安裝方式04Hadoop各版本選擇05Hadoop偽分布式搭建基本流程搭建Hadoop偽分布式【任務場景】經(jīng)理：我們公司現(xiàn)在數(shù)據(jù)量不斷上升，現(xiàn)有的架構(gòu)需要升級，小張你有什么意見？小張：Hadoop適合應用于大數(shù)據(jù)存儲和大數(shù)據(jù)分析的應用，適合于服務器幾千臺到幾萬臺的集群運行，支持PB級的存儲容量。Hadoop典型應用有：搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。經(jīng)理：對，Hadoop目前已經(jīng)取得了非常突出的成績。隨著互聯(lián)網(wǎng)的發(fā)展，新的業(yè)務模式還將不斷涌現(xiàn)，Hadoop的應用會從互聯(lián)網(wǎng)領(lǐng)域向電信、電子商務、銀行、生物制藥等領(lǐng)域拓展。小張：好的，那我先部署一套偽分布式環(huán)境。搭建Hadoop偽分布式【任務布置】Hadoop是由Java語言開發(fā)的，所以Hadoop的部署和運行都依賴JDK，因此必須先將部署前基礎(chǔ)環(huán)境準備完成。本次任務要求在單節(jié)點上部署偽分布式Hadoop。一般在測試場景下經(jīng)常會部署單節(jié)點的偽分布式Hadoop，理解并掌握Hadoop偽分布式的安裝部署，可以為后續(xù)生產(chǎn)環(huán)境下部署Hadoop分布式集群打下基礎(chǔ)。Hadoop的發(fā)展歷程與應用現(xiàn)狀Hadoop是Apache軟件基金會旗下的一個開源分布式存儲和計算平臺，是基于Java語言開發(fā)的，有很好的跨平臺性。Hadoop以分布式文件系統(tǒng)（HadoopDistributedFileSystem,HDFS）和MapReduce（GoogleMapReduce的開源實現(xiàn)）為核心，為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上，形成分布式系統(tǒng)；MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應用程序。Hadoop概述Hadoop這個名字不是一個縮寫，它是一個虛構(gòu)的名字。該項目的創(chuàng)建者DougCutting解釋Hadoop的得名：“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短，容易發(fā)音和拼寫，沒有太多的意義，并且不會被用于別處，小孩子恰恰是這方面的高手?！盚adoop的發(fā)音是[h?du:p]。ApacheHadoop官方網(wǎng)站Inpioneerdaystheyusedoxenforheavypulling,andwhenoneoxcouldn’tbudgealog,theydidn’ttrytogrowalargerox.Weshouldn’tbetryingforbiggercomputers,butformoresystemsofcomputers.（在拓荒時期，他們用牛來拉重物，當一頭牛不能移動一根原木時，他們就不會試圖讓一頭牛長得更大。我們不應該嘗試更大的計算機，而是嘗試更多的計算機系統(tǒng)。）—GraceHopperHadoop優(yōu)勢與核心組成Hadoop發(fā)展：2002年Hadoop的源頭是ApacheNutch搜索引擎項目2003年Google發(fā)布了關(guān)于GFS的論文20042005年2006年2007年Nutch的開發(fā)者發(fā)布了NDFSGoogle公司發(fā)表了MapReduce，最初版本問世Nutch移植到新的框架，Hadoop在20個節(jié)點上穩(wěn)定運行DougCutting加入Yahoo，ApacheHadoop項目正式啟動以支持MapReduce和HDFS從Nutch中獨立處理發(fā)展。研究集群達到兩個1000個節(jié)點的集群2009年Cloudera推出CDHMapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項目的獨立子項目2011年Hadoop1.0問世，標志著Hadoop已經(jīng)初具生成規(guī)模2016年Hadoop3.0問世，正式進入3.x時代2008年Hadoop成為Apache頂級項目。Hive成為Apache子項目2010年Avro、Hbase、Hive、Pig脫離Hadoop項目，成為Apache頂級項目2013年Hadoop2.0問世，正式進入2.x時代Hadoop優(yōu)勢與核心組成Hadoop優(yōu)點：Hadoop是一個能讓用戶輕松開發(fā)和運行處理大數(shù)據(jù)的分布式平臺。它主要是有以下幾個優(yōu)點：（1）高可靠性；Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。（2）高擴展性；Hadoop是在可用的計算機集群間分配數(shù)據(jù)并完成計算任務的，這些集群可以方便地擴展到數(shù)以千計的節(jié)點中。（3）高效性；Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點的動態(tài)平衡，因此處理速度非?？?。（4）高容錯性；Hadoop能夠自動保存數(shù)據(jù)的多份副本，并且能夠自動將失敗的任務重新分配。Hadoop優(yōu)勢與核心組成Hadoop核心組成：在當下，Hadoop已經(jīng)形成了一個龐大的體系，有數(shù)據(jù)的地方基本都會看到Hadoop的身影。目前的Hadoop逐漸演化出來兩種分類，廣義的Hadoop和狹義的Hadoop。狹義的Hadoop主要包括三大部分：HDFS（分布式文件系統(tǒng)），MapReduce（分布式計算系統(tǒng)），YARN（資源管理器）。廣義的Hadoop是指Hadoop的生態(tài)系統(tǒng)，是一個龐大的體系，Hadoop只是其中最重要最基礎(chǔ)的部分，生態(tài)系統(tǒng)中的每個子系統(tǒng)只負責解決某個特定的問題域。Hadoop生態(tài)系統(tǒng)圖Hadoop優(yōu)勢與核心組成項目介紹分布式文件系統(tǒng)HDFSHDFS是Hadoop的存儲系統(tǒng)，采用了主從（Master/Worker）結(jié)構(gòu)模型，一個HDFS集群環(huán)境是由一個NameNode和若干的DataNode組成的。HDFS能夠?qū)崿F(xiàn)對文件的操作，如刪除文件、移動文件等功能。HDFS提供了高可靠性（多副本實現(xiàn)）、高擴展性（添加機器進行線性擴展）、高吞吐率的數(shù)據(jù)存儲服務。分布式計算框架MapReduceMapReduce是一個分布式、并行處理的編程模型，他方便了編程人員將自己的程序部署到分布式系統(tǒng)中，MapReduce采用了“分而治之”的基本思想，他將一個大的任務分解成多個小的任務，分發(fā)到集群中不同計算機中，提高完成效率YARN（資源管理器）YARN是在Hadoop2.x中誕生的，他對Hadoop1.x中JobTracker和TaskTracker模型的優(yōu)化而誕生的，主要負責整個系統(tǒng)化的資源管理和調(diào)度，并且在YARN上能夠運行不同類型的執(zhí)行框架。Hive基于Hadoop的數(shù)據(jù)倉庫Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，由Facebook開源。Hive讓不熟悉MapReduce的開發(fā)人員編寫數(shù)據(jù)查詢語句（SQL語句），它會將其翻譯為Hadoop中的MapReduce作業(yè)，并提交到Hadoop集群中運行。HBase(分布式數(shù)據(jù)庫)HBase是建立在HDFS之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。HBase是谷歌BigTable的開源實現(xiàn)，通過Java語言進行編程，主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。ZooKeeper（分布式協(xié)作服務）ZooKeeper是Hadoop的分布式應用程序協(xié)調(diào)服務，是Hadoop和HBase的重要組件，提供的功能包括：配置維護、域名服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關(guān)鍵服務，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop優(yōu)勢與核心組成項目介紹Sqoop（數(shù)據(jù)同步工具）Sqoop是一個連通性工具，用于在關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫（Hive）與Hadoop之間數(shù)據(jù)轉(zhuǎn)移框架Pig（基于Hadoop的數(shù)據(jù)流系統(tǒng)）Pig是用于并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。他是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫，定義了一種數(shù)據(jù)流語言–PigLatin。Pig突出的特點就是它的結(jié)構(gòu)經(jīng)得起大量并行任務的檢驗，這使得它能夠處理大規(guī)模數(shù)據(jù)集。Mahout（數(shù)據(jù)挖掘算法庫）Mahout是機器學習和數(shù)據(jù)挖掘的庫。它實現(xiàn)了三大算法：推薦、聚類、分類。Flume（日志收集工具）Flume是Cloudera開源的日志收集系統(tǒng)，他具有分布式、高可靠、高容錯、易于定制和擴展的特點，是基于流式數(shù)據(jù)流的簡單而靈活的架構(gòu)。它具有可靠的可靠性機制以及許多故障轉(zhuǎn)移和恢復機制，具有強大的容錯性和容錯能力。Oozie（作業(yè)流調(diào)度系統(tǒng)）Oozie是一個用于管理ApacheHadoop作業(yè)的工作流調(diào)度程序系統(tǒng)，能夠提供對HadoopMapReduce和PigJobs的任務調(diào)度與協(xié)調(diào)。Oozie工作流是放置在控制依賴DAG（有向無環(huán)圖）中的一組動作，需要部署到JavaServlet容器中運行。Hadoop優(yōu)勢與核心組成3.Hadoop安裝方式Hadoop安裝部署有以下三種模式：1.單機部署，Hadoop默認模式、即非分布式模式（本地模式），沒有守護進程，不分主從節(jié)點，這種部署方式非常少用。2.偽分布式部署，主從節(jié)點都在一臺主機上，可用在本機模擬一個主節(jié)點、一個從節(jié)點的集群。本單元以偽分布式模式進行Hadoop搭建。3.完全分布式集群部署，有多個節(jié)點，主從進程分別在不同的機器上運行。Hadoop各版本選擇1.Hadoop1.02011年，Hadoop1.0問世，由分布式存儲系統(tǒng)HDFS和分布式計算框架MapReduce組成。其中HDFS由一個NameNode和多個DateNode組成，MapReduce由一個JobTracker和多個TaskTracker組成。在實際的使用過程中，Hadoop1.x逐漸的暴露出許多問題：（1）主節(jié)點故障問題，HDFS和MapReduce都是主從結(jié)構(gòu)，他們的主節(jié)點都是單節(jié)點結(jié)構(gòu)，一旦主節(jié)點出現(xiàn)問題，導致集群癱瘓。（2）注銷速度問題，MapReduce的主節(jié)點JobTracker完成太多任務，當MapReduce任務非常多時，造成非常大的內(nèi)存開銷。（3）服務器利用率不高，MapReduce主要分為兩個階段，一個為Map，一個為Reduce。在MapReduce時執(zhí)行時，大部分Reduce任務需要等待Map任務完成計算才能開始。（4）存儲文件格式單一問題，HDFS存儲的數(shù)據(jù)都是按照Block來存儲的，整個存儲只有這一個格式，而企業(yè)的數(shù)據(jù)是多種多樣的，存儲起來不但麻煩還造成資源的浪費。Hadoop各版本選擇MapReduce1.0架構(gòu)圖關(guān)鍵詞含義Client

客戶端JobTrackerMaster節(jié)點，責資源監(jiān)控和作業(yè)調(diào)度，并監(jiān)管所有的TaskTrackerTaskTrackerWorker節(jié)點，接收JobTracker發(fā)送過來的命令并執(zhí)行相應的操作TaskScheduler任務調(diào)度器Hearbeat心跳機制MapTask解析每條數(shù)據(jù)記錄，傳遞給用戶編寫的map()，并執(zhí)行，將輸出結(jié)果寫入本地磁盤(如果為map-only作業(yè)，直接寫入HDFS)ReduceTask從MapTask的執(zhí)行結(jié)果中，遠程讀取輸入數(shù)據(jù)，對數(shù)據(jù)進行排序，將數(shù)據(jù)按照分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行Hadoop各版本選擇關(guān)鍵詞含義NameNode名字節(jié)點，管理文件系統(tǒng)命名空間的主服務器。DataNode數(shù)據(jù)節(jié)點，存儲文件塊replication文件塊的副本，目的是確保數(shù)據(jù)存儲的可靠性Rack機架，可以理解為兩個處于不同地方的機群，每個機群內(nèi)部有自己的連接方式Client通過指令或代碼操作的一端都是客戶端Client的Read從HDFS下載文件到本地Client的Write上傳文件到HDFS上HDFS1.0架構(gòu)圖Hadoop各版本選擇Hadoop2.0Hadoop1.0到Hadoop2.0架構(gòu)變化圖2013年，Hadoop2.0問世，Hadoop2.0是為了解決Hadoop1.0中的出現(xiàn)的問題而提出的,內(nèi)核主要由HDFS、MapReduce和YARN三個系統(tǒng)組成。針對Hadoop1.0中HDFS主節(jié)點故障問題，提出了HDFSFederation，兼容多個NameNode，讓多個NameNode分管不同的目錄來進行訪問的隔離和節(jié)點的橫向擴展，這樣就解決了HDFS單節(jié)點問題。針對MapReduce主節(jié)點故障和框架支持問題，將MapReduce的功能分開了，只保留了數(shù)據(jù)處理，將集群資源管理放到了Yarn中，誕生了全新的通用資源管理框架YARN。在MapReduce2.0中，具有和MapReduce1.0相同的編程模型和數(shù)據(jù)引擎處理，但是在運行時環(huán)境上引入全新的資源管理框架YARN，MapReduce變成了一個純粹的計算框架，不再負責管理。YARN是Hadoop2.0中資源管理系統(tǒng)，負責資源管理和調(diào)度。他將JobTracker的資源管理和作業(yè)調(diào)度拆分成兩個獨立的進程，ApplicationMaster和ResourceManager。在Hadoop2.x中對HDFS做了改進，可以使NameNode橫向擴展成多個，每個NameNode分管部分目錄，誕生了HDFSFederation。組件Hadoop1.0問題Hadoop2.0改進HDFS單一名稱節(jié)點，存在單點失效問題設計了HDFSHA，提供名稱節(jié)點熱備機制HDFS單一命名空間，無法實現(xiàn)資源隔離設計了HDFSFederation，管理多個命名空間MapReduce資源管理效率低設計了新的資源管理框架YARNHadoop各版本選擇Hadoop3.02016年，Hadoop3.0問世,Hadoop3.0中引入了一些重要的功能和優(yōu)化，包括HDFS可擦除編碼、多Namenode支持、MRNativeTask優(yōu)化、YARN基于cgroup的內(nèi)存和磁盤IO隔離、YARNcontainerresizing等。Hadoop3.0新特性：Java版本升級Hadoop3.0要求Java版本最低版本不低于1.8，有以往的Java版本不再支持Hadoop版本JDK1.6JDK1.7JDK1.8Hadoop1.x√××Hadoop2.x√√×Hadoop3.x××√2.部分服務默認端口修改在以往版本中，多個Hadoop服務的默認端口在Linux臨時端口范圍內(nèi)(32768-61000)。這意味著在啟動時，服務有時會由于與另一個應用程序沖突而無法綁定到端口分類應用Haddop2.xportHaddop3.xportNNportsNameNode8020/90009820NNHTTPUI500709870NNHTTPSUI504709871SNNportsSNNHTTP500919869SNNHTTPUI500909868DNportsDNIPC500209867DN500109866DNHTTPUI500759864DNHTTPSUI504759865Hadoop各版本選擇HDFS支持糾刪碼YARN時間線服務v.2Shell腳本重寫重構(gòu)HadoopClientJar包MapReduce任務級原生優(yōu)化支持兩個以上的NameNode支持與MicrosoftAzureDataLake和Aliyun對象存儲系統(tǒng)進行集成DataNode內(nèi)平衡器重新設計的守護進程和任務堆管理S3Guard：S3A文件系統(tǒng)客戶端的一致性和元數(shù)據(jù)緩存基于HDFS路由器的聯(lián)合基于API的CapacityScheduler隊列配置配置YARN資源類型Hadoop偽分布式搭建基本流程Hadoop偽分布式安裝，是指在一個節(jié)點（即一臺主機或服務器）上安裝和部署HDFS和MapReduce+Yarn。實際上，偽分布式模式可以看成是單節(jié)點的完全分布式模式。Hadoop偽分布式搭建基本流程1.防火墻配置

Centos7使用Firewalld命令來操作防火墻，在Hadoop偽分布式搭建中，一般都選在局域網(wǎng)中進行搭建，沒有安全性考慮，因此關(guān)閉防火墻一般也不會存在安全隱患。2.SELinux配置

SELinux是安全增強型Linux（Security-EnhancedLinux）簡稱，它是一個Linux內(nèi)核模塊，也是Linux的一個安全子系統(tǒng)。為了避免安裝過程出現(xiàn)各種錯誤，建議關(guān)閉。主機名配置

為了更方便的管理項目，建議對每個節(jié)點的主機名進行修改。4.SSH（secureshell）免密碼登錄配置

不管是Hadoop的偽分布還是全分布，Hadoop的名稱結(jié)點（NameNode）都需要啟動集群中所有機器的Hadoop守護進程，而這個過程可以通過SSH登錄來實現(xiàn)。由于Hadoop并沒有提供SSH輸入密碼登錄的形式，因此，為了能夠順利登錄每臺機器，就需要對其進行SSH的免密登錄配置。Hadoop偽分布式搭建基本流程5.JDK1.8配置 Hadoop是基于Java語言開發(fā)的，使用Java首先要安裝JDK(JavaDevelopmentKit)，即Java開發(fā)工具，安裝完JDK還需要進行配置環(huán)境變量(PATH，CLASSPATH，JAVA_HOME)。6.Hadoop3.1.1偽分布式安裝配置 Hadoop3可以通過Hadoop官網(wǎng)下載，請下載hadoop-3.1.1.tar.gz格式文件，這種格式已經(jīng)編譯好，另一個包含src的則是Hadoop源代碼，需要進行編譯才可使用。 Hadoop目錄，一共有7個目錄和3個txt說明文件，bin和sbin是可執(zhí)行文件的目錄，etc放的是配置文件目錄，include、lib和libexec均是放一些類庫的目錄，share是放一些共享類庫和jar包的。

在安裝Hadoop后，需要對Hadoop進行配置，這些配置文件存放在Hadoop目錄下的./etc/hadoop文件夾中。7.HDFS格式化配置

首次啟動前需要進行格式化。格式化本質(zhì)是進行文件系統(tǒng)的初始化操作，創(chuàng)建一些Hadoop自己所需要的文件。格式化之后且啟動成功后，后續(xù)再也不需要進行格式化。格式化的操作在HDFS集群的主角色（NameNode）所在機器上操作。8.啟動偽分布Hadoop

Hadoop在格式化成功以后，接著開啟NameNode和DataNode守護進程，在Hadoop目錄下通過./sbin/start-dfs.sh命令啟動。通過WebUI監(jiān)控Hadoop平臺

當Hadoop成功啟動并通過jps可以看到指定進程后，可以訪問Web界面來查看HDFS和MapReduce相關(guān)信息。10.常見問題匯總搭建Hadoop偽分布式【工作流程】搭建偽分布式Hadoop的基本工作流程包括：關(guān)閉防火墻關(guān)閉SELinux修改主機名配置SSH（secureshell）免密碼登錄安裝配置JDK1.8安裝配置Hadoop搭建Hadoop偽分布式【操作步驟】1.關(guān)閉防火墻[root@localhost/]#/usr/sbin/sestatus-vSELinuxstatus:enforcing#臨時關(guān)閉SELinux[root@localhost/]#setenforce02.關(guān)閉SELinux[root@localhost

/]#systemctlstatusfirewalld●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr/lib/systemd/system/firewalld.service;disabled;vendorpreset:enabled)Active:active(running)sinceThu2021-11-1812:39:24UTC;1sagoDocs:man:firewalld(1)MainPID:31240(firewalld)Tasks:2Memory:28.1MCGroup:/system.slice/firewalld.service└─31240/usr/bin/python2-Es/usr/sbin/firewalld--nofork--nopid#關(guān)閉防火墻[root@localhost

/]#systemctlstopfirewalld#禁止開啟啟動[root@localhost

/]#systemctldisablefirewalld搭建Hadoop偽分布式4.配置SSH（secureshell）免密碼登錄[root@localhost/]#hostnamelocalhost#臨時修改主機名稱[root@localhost/]#hostnamectlset-hostname主機名#配置主機名與IP地址的映射,在文件末尾添加主機名與IP之間的映射關(guān)系[root@localhost/]#gedit

/etc/hosts當前主機IPlocalhost3.修改主機名稱,并配置主機名和IP地址的映射#生成秘鑰[root@localhost/]ssh-keygen-trsa#輸入后按照提示回車，直到完成命令Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):#直接回車Enterpassphrase(emptyfornopassphrase):#直接回車Entersamepassphraseagain:#直接回車Youridentificationhasbeensavedin/root/.ssh/id_rsa.Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.Thekeyfingerprintis:SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38root@node1Thekey'srandomartimageis:+---[RSA2048]----+|+*O*=.||.o=+=o+||...O+=||..**.%o||Soo%o+||.++.||.+.||.+E||o.o|+----[SHA256]-----+#拷貝id_rsa.pub，創(chuàng)建密鑰文件authorized_keys[root@localhost/]#cp~/.ssh/id_rsa.pub~/.ssh/authorized_keys#驗證免密登錄，可以正常進入，無需輸入免密視為配置成功[root@localhost/]#ssh

主機名搭建Hadoop偽分布式5.安裝配置JDK1.8#檢查JDK是否安裝[root@localhost/]#java-version#上傳已下載好的JKD壓縮包到/usr/local目錄下[root@localhost/]#cd/usr/local#解壓JDK壓縮包[root@localhost/]#tarzxvfjdk-8u112-linux-x64.tar.gz#修改文件名稱,方便填寫[root@localhost/]#mvjdk1.8.0_112jdk#設置環(huán)境變量，添加2行內(nèi)容[root@localhost/]#vim/etc/profileexportJAVA_HOME=/usr/local/jdkexportPATH=.:$JAVA_HOME/bin:$PATH#使配置的環(huán)境變量生效[root@localhost/]#source/etc/profile[root@localhost/]#java-versionjavaversion"1.8.0_112"Java(TM)SERuntimeEnvironment(build1.8.0_112-b15)JavaHotSpot(TM)64-BitServerVM(build25.112-b15,mixedmode)6.安裝Hadoop3.1.1#上傳Hadoop壓縮包到/usr/local目錄下并解壓Hadoop壓縮包[root@localhost

/]#tar-zxvfhadoop-3.1.1.tar.gz-C/usr/local/[root@localhost

/]#mvhadoop-3.1.1hadoop#設置環(huán)境變量，添加以下幾行內(nèi)容[root@ocalhost

/]#vim/etc/profileexportHADOOP_HOME=/usr/local/hadoopexportPATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH#hadoop-3.1.1必須添加如下5個變量否則啟動報錯exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root[root@localhost

/]#source/etc/profile[root@localhost

/]#hadoopversionHadoop3.1.1Sourcecoderepository/apache/hadoop-r2b9a8c1d3a2caf1e733d57f346af3ff0d5ba529cCompiledbyleftnoteasyon2018-08-02T04:26ZCompiledwithprotoc2.5.0Fromsourcewithchecksumf76ac55e5b5ff0382a9f7df36a3ca5a0Thiscommandwasrunusing/usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.1.jar搭建Hadoop偽分布式6.安裝Hadoop3.1.1修改Hadoop配置文件,這些配置文件都放在/usr/local/hadoop/etc/hadoop目錄下第一個：配置hadoop-env.sh文件#編輯文件，設置JAVA_HOME絕對路基（JDK1.8安裝路徑）[root@localhos

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

單元2 任務2-1 搭建Hadoop偽分布式

文檔簡介

溫馨提示

最新文檔

評論

單元2 任務2-1 搭建Hadoop偽分布式

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔