Windows下使用Hadoop實例

上傳人：活*** IP屬地：寧夏上傳時間：2021-11-27 格式：PDF 頁數(shù)：17 大小：2MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、1 windows 下使用 hadoop 實例1.1 windows 下使用 hadoop 的環(huán)境配置（1）安裝 hadoop 前，首先需要安裝cygwin 首先下載 cygwin，當(dāng) setup.exe 下載成功后，直接運行，在彈出的“cygwin net release setup program ”的對話框中直接點擊 “下一步”，選擇“download source ”如下：選擇“ install from internet” ，進入下圖所示對話框: 設(shè)置 cygwin 的安裝目錄， install for 選擇“ all users” ，default text file type 選

2、擇“ unix/binary” 。 “下一步”之后，設(shè)置cygwin 安裝包存放目錄：2 設(shè)置“ internet connection”的方式，選擇“ direct connection” ：之后選擇“ download site” ：選擇最好選 .cn結(jié)尾的，若無可以隨意選擇，若安裝失敗可多嘗試幾個。3 “下一步”之后，可能會彈出下圖的“setup alert”對話框，直接“確定”即可。在上圖所示的對話框過程中，可能會彈出如下圖所示的“setup alert”對話框，直接點擊“確定”即可。進入“select packages ”對話框，必須保證“ net category”下的“ open

3、ssl”被安裝：安裝中需要選中 net category 中的 openssh ，如下圖所示：如果還打算在eclipse上編譯 hadoop，則還必須安裝“base category ” 下的“sed” ，如下圖所示：4 另外，安裝 “editors category ”下的vim，以方便在 cygwin上直接修改配置文件；“devel category ”下的subversion 建議安裝，如下圖所示：安裝完成后進行環(huán)境變量的配置。（2）安裝 jdk （3）配置 windows 系統(tǒng)變量新建系統(tǒng)變量 cygwin ，變量值為 ntsec tty 編輯系統(tǒng)變量里的 path 變量，將 jdk

4、的 bin 目錄、 cygwin 的 bin 目錄以及 cygwin5 的 usrbin 目錄加入到 path變量中。新建系統(tǒng)變量 java_home ，變量指向 jre安裝目錄。（4）安裝配置 ssh 啟動 cygwin，執(zhí)行命令： $ ssh-host-config 。當(dāng)詢問 should privilege separation be used 時，輸入 no；當(dāng)詢問 do you want to install sshd as a service？選 yes；當(dāng)提示 enterthe value of cygwin for the daemon ： ntsec時，選擇 ntse

5、c。當(dāng)看到“ have fun”時，一般表示sshd 服務(wù)安裝成功了。輸入命令 $ net start sshd ，啟動 ssh，或者在 windows 服務(wù)項里啟動 cygwin sshd。然后執(zhí)行 $ ssh-keygen來生成密鑰對，然后一直回車鍵確定。這樣會把生產(chǎn)的密鑰對保存在ssh 目錄下。使用命令將rsa 公鑰加入到公鑰授權(quán)文件authorizedkeys 中：$ cd.ssh $ cat id_rsa.pub authorized_keys 最后執(zhí)行 $ ssh localhost ，就可以實現(xiàn)無需密碼的ssh 連接。6 完成上述操作后，執(zhí)行 exit命令先退出 cygw

6、in窗口。執(zhí)行ssh localhost 時，會有如下圖所示的提示，輸入yes，然后回車即可：如果不是第一次執(zhí)行則會出現(xiàn)如下對話框：7 成功啟動 ssh服務(wù)。1.2 安裝 hadoop 將 hadoop安裝包（在此使用的是 hadoop-0.20.2 ）解壓到你自己選擇的目錄，然后需要修改 hadoop 的配置文件，它們位于conf 子目錄下，分別是hadoop-env.sh 、core-site.xml、hdfs-site.xml 和 mapred-site.xml 共四個文件。1.2.1修改 hadoop-env.sh 只需要將 java_home

7、修改成 jdk 的安裝目錄即可，需要注意兩點：(1) jdk 必須是 1.6 或以上版本；(2) 設(shè)置jdk 的安裝目錄時，路徑不能是windows 風(fēng)格的目錄例如：c:javajdk1.6.0_22 ，而是 linux 風(fēng)格： /cygdrive/d/program/java/jdk1.6.0_22 。因此在 hadoop-env.sh 中設(shè)定 jdk 的安裝目錄：export java_home=/cygdrive/c/java/jdk1.6.0_22(注意刪除 -sun 和 export 前面的注釋“ #”) 1.2.2 修改 core-site.xml 為簡化 core-site.x

8、ml 配置，將 srccore 目錄下的 core-default.xml 文件復(fù)制到conf 目錄下，并將 core-default.xml 文件名改成 coresite.xml。修改： hdfs:/localhost:9000 1.2.3 修改 hdfs-site.xml 為簡化 hdfs-site.xml 配置，將 srchdfs 目錄下的 hdfs-default.xml 文件復(fù)制到conf 目錄下，并將 hdfs-default.xml 文件名改成 hdf-site.xml。8 修改： dfs.replication 1 1.2.4 修改 mapred

9、-site.xml 為簡化 mapred-site.xml 配置，將 srcmapred 目錄下的 mapreddefault.xml 文件復(fù)制到 conf 目錄下，并將 mapred-default.xml 文件名改成 mapred-site.xml。修改： mapred.job.tracker localhost:9001 到此修改完成，然后啟動hadoop。1.3 啟動 hadoop 在 cygwin 中，進入 hadoop 的 bin 目錄，運行./start-all.sh 啟動 hadoop，在啟動成功之后，可以執(zhí)行 ./hadoop fs -ls /命令，查看 hadoop 的根目

10、錄，如下圖所示：首先我們要先啟動sshd服務(wù)，然后登錄：然后啟動 hadoop：9 我們可以驗證是否啟動成功：有時在啟動的時候會遇到一些問題，可能會出現(xiàn)10 這時可能我們需要格式化，用命令：./hadoop namenode format 進行格式化。至此，我們的 hadoop安裝成功。1.4 hadoop運行 wordcount實例運行 wordcount 實例。在本地文件系統(tǒng)上建立input 目錄，放入若干文件，文件為由多個單詞組成（單詞由空格分隔）的文本。將文件復(fù)制到 hdfs 的目錄下，命名為input，并運行：$ bin/hadoop dfs -put input input 11

11、沒有內(nèi)容輸出就說明上傳至文件系統(tǒng)成功。運行： $ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount input output output 為數(shù)據(jù)處理完成后輸出目錄，默認在 hadoop 根目錄下。任務(wù)執(zhí)行完，用以下命令查看分布式文件系統(tǒng)上數(shù)據(jù)處理的結(jié)果：$ bin/hadoop dfs -cat output /* 12 至此，完成 wordcount 實例的運行。1.5 使用 eclipse編寫 hadoop應(yīng)用程序在此，用 eclipse編寫了一個簡單的程序。1）在 eclipse下創(chuàng)建一個 java工程 dfsoperator，并

12、創(chuàng)建相應(yīng)的類。2）配置編譯參數(shù)配置 “build path” ，選中“dfsoperator” ，單擊右鍵，點擊下圖所示菜單 “build path - configure build path” ，進入“java build path ”配置界面。選擇“l(fā)ibraries”標簽頁，點擊右側(cè)的“add external jar” 按鈕，將安裝好的“hadoop-0.20.2-core.jar ”添加進來。13 3）編輯源代碼4）編譯生成 jar 包右鍵“ dfsoperator”項目，選擇“build project” ，編譯項目工程，編譯“dfsoperator.java ”后，生成

13、下圖所示的dfsoperator.class 文件：14 右鍵項目，選擇“ export” ，導(dǎo)出“ jar file” ，也就是 jar 包。然后將導(dǎo)出的jar 文件上傳到 hadoop master 節(jié)點。5）運行導(dǎo)出的 jar 文件放到 hadoop的 bin 文件下，進入 hadoop 的 bin 目錄，用以下命令進行測試運行：(1) ls：查看當(dāng)前目錄，檢查dfs_operator.jar是否存在；(2) ./hadoop fs -ls /：查看 hadoop根目錄下是否存在dfs_operator.txt文件；(3) ./hadoop jar ./dfs_operator.jar

14、dfsoperator：運行 dfs_operator.jar ，以生成dfs_operator.txt 文件；(4) ./hadoop fs -ls /：再查看 hadoop根目錄下是否存在dfs_operator.txt文件；(5) ./hadoop fs -cat /dfs_operator.txt ：檢查 dfs_operator.txt文件的內(nèi)容。該程序完成的功能簡單，但從中可以學(xué)到如何在windows 下利用 eclipse進行hadoop編程。15 1.6 使用 ibm mapreduce tools for eclipse進行 hadoop編程（完成wordcount）使用

15、ibm mapreduce tools for eclipse，使用這個 eclipse plugin 可以簡化開發(fā)和部署hadoop 并行程序的過程。基于這個 plugin，可以在 eclipse 中創(chuàng)建一個 hadoop mapreduce 應(yīng)用程序，并且提供了一些基于mapreduce 框架的類開發(fā)的向?qū)В梢源虬蒵ar 文件，部署一個hadoop mapreduce 應(yīng)用程序到一個 hadoop 服務(wù)器 (本地和遠程均可 )，可以通過一個專門的視圖( perspective ) 查看 hadoop 服務(wù)器、 hadoop 分布式文件系統(tǒng)（dfs ）和當(dāng)前運行的任務(wù)的狀態(tài)。1）安裝插件 ibm mapreduce tools for eclipse 安裝插件，然后點擊eclipse 主菜單上windows-preferences ，然后在左側(cè)選擇 hadoop home directory，設(shè)定 hadoop 主目錄：2）創(chuàng)建 mapreduce project 點擊 eclipse主菜單上 file-new-project，在彈出的對話框中選擇mapreduce project。然后就可以一個普通的eclipse java project那樣，添加入 ja

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Windows下使用Hadoop實例

文檔簡介

溫馨提示

最新文檔

評論

Windows下使用Hadoop實例

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔