《大數(shù)據(jù)技術導論》課件-項目三_第1頁
《大數(shù)據(jù)技術導論》課件-項目三_第2頁
《大數(shù)據(jù)技術導論》課件-項目三_第3頁
《大數(shù)據(jù)技術導論》課件-項目三_第4頁
《大數(shù)據(jù)技術導論》課件-項目三_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本項目學習內容包括:1.安裝Vmware虛擬機2.在Vmware上安裝UbuntuLinux操作系統(tǒng)并進行網絡設置3.在Ubuntu安裝Hadoop并進行偽分布式配置4.利用Hadoop運行簡單數(shù)據(jù)處理任務本項目學習主要內容本項目思維導圖VMware虛擬機詳細安裝步驟請參考配套教材項目三的任務3-1。安裝時請注意以下事項:1.本書提供VMware14安裝文件,讀者不必從官網下載。2.安裝完VMware虛擬機可能需要重啟計算機,請按照提示操作。任務3-1安裝Vmware虛擬機Ubuntu系統(tǒng)詳細安裝步驟請參考配套教材項目三的任務3-2。安裝注意事項1.本書提供ubuntukylin-16.04版本的安裝文件,讀者不必從官網下載。2.安裝完Ubuntu需要進行網絡設置。網絡設置分為動態(tài)ip設置和靜態(tài)ip設置,建議設置靜態(tài)ip3.如偶爾發(fā)生虛擬機無法啟動黑屏的現(xiàn)象,請按如下步驟處理。(1)windows下輸入cmd,右鍵命令提示符,點擊管理員運行,進入windows命令行窗口。(2)命令行窗口輸入netshwinsockreset,然后重啟計算機即可。任務3-2VMware上安裝和配置Ubuntu系統(tǒng)

由于Hadoop運行需要依賴java環(huán)境。所以我們需要先安裝java。本書提供jdk1.8版本的java安裝文件。安裝java的詳細步驟如下。(1)在/usr/local目錄下新建一個文件夾jvm用于安裝java??刂婆_中輸入命令:sudomkdir/usr/local/java。(2)把jdk-8u162-linux-x64.tar.gz文件解壓到/usr/lib/java文件夾下。輸入命令:sudotar-zxvfjdk-8u162-linux-x64.tar.gz-C/usr/lib/java。(3)配置java環(huán)境變量。輸入命令:cd/,回到根目錄。然后輸入命令:sudogedit~/.bashrc。進入環(huán)境變量編輯文件。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop3.3.1安裝配置java環(huán)境在文件最后加上如下語句,然后保存關閉文件。exportJAVA_HOME=/usr/lib/java/jdk1.8.0_162exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop(4)執(zhí)行命令:source~/.bashrc,重啟設置,讓.bashrc文件的配置生效。(5)輸入以下命令:java-version驗證java是否正常運行。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

SSH和免密碼登錄一般用于完全分布式集群,為什么單機偽分布式Hadoop也要進行SSH?

Hadoop集群運行時,NameNode要遠程啟動DataNode守護進程,NameNode和DataNode之間需要遠程SSH通信。所以我們需要安裝SSH。但是Hadoop沒有區(qū)分完全分布式和偽分布式,對于偽分布式Hadoop仍然會采用與集群相同的處理方式,按次序啟動DataNode進程,只不過在偽分布式中NameNode和DataNode都為localhost,所以對于偽分布式,也必須要安裝SSH。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop3.3.2安裝SSH以及免密碼登錄設置Ubuntu默認已安裝了SSHclient,我們只需再安裝SSHserver即可。SSHserver安裝步驟如下。(1)重新打開一個命令行終端,輸入命令:sudoapt-getinstallopenssh-server,安裝SSHserver。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(2)安裝后,可以輸入命令:sshlocalhost,驗證登陸本機。如果出現(xiàn)如圖3-53所示的提示,則輸入yes。

(3)然后輸入密碼,就可以登陸本機了。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

為什么又要設置免密碼登陸呢?

Hadoop有三種運行模式,本地模式、偽分布式模式、完全分布式模式。在Hadoop完全分布式運行時,NameNode要遠程啟動DataNode守護進程,需要依次輸入密碼,如果節(jié)點太多,則啟動非常麻煩。而偽分布式配置Hadoop,NameNode一樣要遠程啟動DataNode守護進程。只不過NameNode和DataNode都是localhost,所以只需要設置sshlocalhost免密登陸就行。

設置免密碼的登陸的具體做法如下。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop(1)我們輸入命令:exit,退出已登錄的ssh,然后輸入以下命令:cd~/.ssh/,進入ssh目錄。(2)然后輸入命令:ssh-keygen-trsa,生成密鑰,期間要按3次enter鍵。再輸入命令:cat./id_rsa.pub>>./authorized_keys,將密鑰加入到授權。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(3)這時我們再輸入命令:sshlocalhost,驗證登陸本機。此時就不需要輸入密碼,直接登錄了。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop本書提供hadoop2.7.1版本的安裝文件,安裝配置Hadoop的步驟如下。(1)在/usr/local目錄下新建一個文件夾hadoop用于安裝hadoop。我們在home/soft目錄下,把本書提供的hadoop-2.7.1.tar.gz文件拷貝過來。然后在soft目錄下空白處點擊“右鍵”,在彈出的窗口中點擊“在終端打開”,打開命令行控制臺。在控制臺中輸入命令:sudomkdir/usr/local/hadoop,按回車,如果需要則輸入密碼,然后可以看到在/usr/local目錄下有一個hadoop文件夾。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop3.3.3安裝配置Hadoop

(2)把hadoop-2.7.1.tar.gz文件解壓到/usr/local/hadoop文件夾下。輸入命令:cdhome/person/soft,切換到soft目錄下。然后輸入命令sudotar-zxvfhadoop-2.7.1.tar.gz-C/usr/local/hadoop。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(3)Hadoop解壓后即可使用。我們可以輸入如下命令來檢查Hadoop是否可以正常運行,輸入命令:cd/usr/local/hadoop/hadoop-2.7.1,將目錄切換到hadoop-2.7.1文件夾下面,然后再輸入命令:./bin/hadoopversion,如果正常會顯示Hadoop版本信息。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(4)此時的Hadoop即可使用,默認為本地模式,無需進行其他配置。本地模式下Hadoop運行只有一個Java進程。下面我們再進行Hadoop的偽分布式配置。Hadoop偽分布式配置需要修改兩個配置文件core-site.xml和hdfs-site.xml。這兩個配置文件位于/usr/local/hadoop/etc/hadoop/目錄下。我們繼續(xù)再命令行輸入命令:sudogedit./etc/hadoop/core-site.xml,修改core-site.xml文件。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(5)在core-site.xml文件<configuration>標簽下輸入如下內容。輸入完畢后點擊保存,關閉文件。<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop//hadoop-2.7.1/tmp</value><description>Abaseforothertemporarydirectories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop(6)輸入命令:gedit./etc/hadoop/hdfs-site.xml,修改hdfs-site.xml文件。(7)在hdfs-site.xml文件<configuration>標簽下輸入如下內容。輸入完畢后點擊保存,關閉文件。<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/data</value></property></configuration>任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(8)然后執(zhí)行NameNode的格式化,輸入命令:sudo./bin/hdfsnamenode-format。這時候我們發(fā)現(xiàn)格式化失敗,報錯了。具體報錯如下圖,status為1。報錯不能在namenode目錄新建文件。這是由于我們當前用戶權限不夠,同時這里sudo也不起作用。我們需要給當前用戶設置權限。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(9)輸入命令:sudosu,切換當前用戶為root。然后輸入命令:sudochmod-Ra+w/usr/local/hadoop/hadoop-2.7.1/設置用戶權限。然后輸入命令:superson切換回原來的用戶。再輸入命令:./bin/hdfsnamenode-format。我們看到status為0,則成功。格式化namenode成功后,下一次只需要直接輸入命令:./sbin/start-dfs.sh啟動Hadoop,不需要再次格式化。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(10)輸入命令:sudogedit./etc/hadoop/hadoop-env.sh,打開hadoop-env.sh文件編輯JAVA_HOME,把值改為jdk所在路徑:/usr/lib/java/jdk1.8.0_162。如果不做這一步,Hadoop啟動可能會報錯。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(12)接著我們輸入命令:./sbin/start-dfs.sh,啟動HDFS,若啟動成功可以輸入jps命令查看進程。成功啟動后,我們可以通Web界面訪問Hadoop,網址為http://localhost:50070,查看NameNode、Datanode和HDFS的信息。如果要關閉Hadoop,則輸入:命令stop-dfs.sh。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

(13)配置環(huán)境變量使得Hadoop相關命令能在任意目錄運行。之前我們啟動Hadoop都是先進到/usr/local/hadoop/hadoop-2.7.1目錄中,再輸入./sbin/start-dfs.sh,這樣不太方便,我們想要在任意目錄輸入start-dfs.sh就能開啟Hadoop和執(zhí)行Hadoop相關命令。這就需要把Hadoop加入環(huán)境變量。具體做法為:首先關閉Hadoop。重新開啟一個命令行終端,輸入命令:sudogedit~/.bashrc,打開.bashrc文件。在文件最后添加:exportPATH=$PATH:/usr/local/hadoop/hadoop-2.7.1/sbin:/usr/local/hadoop/hadoop-2.7.1/bin,保存并關閉.bashrc文件。

(14)然后輸入命令:source~/.bashrc,更新環(huán)境變量配置。這時我們試著輸入命令:start-dfs.sh,Hadoop集群能夠正常啟動,以后我們就可以在任意目錄運行hadoop相關命令了。任務3-3在Ubuntu系統(tǒng)上安裝配置Hadoop

本任務為在Hadoop運行wordcount程序對HDFS上的文件進行詞頻統(tǒng)計,任務步驟如下。(1)在HDFS新建input目錄,并查看結果。輸入如下命令:hadoopfs-mkdir/input,新建input目錄。然后輸入命令:hadoopfs-ls-R/,查看input目錄是否創(chuàng)建完畢。任務3-4在Hadoop上運行wordcount程序對文件進行詞頻統(tǒng)計任務3-4在Hadoop上運行wordcount程序對文件進行詞頻統(tǒng)計

(2)上傳xml文件到HDFS的input目錄下。輸入命令:hadoopfs-put/usr/local/hadoop/hadoop-2.7.1/etc/hadoop/*.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論