Windows下使用Hadoop實例_第1頁
Windows下使用Hadoop實例_第2頁
Windows下使用Hadoop實例_第3頁
Windows下使用Hadoop實例_第4頁
Windows下使用Hadoop實例_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1 windows 下使用 hadoop 實例1.1 windows 下使用 hadoop 的環(huán)境配置(1)安裝 hadoop 前,首先需要安裝cygwin 首先下載 cygwin,當(dāng) setup.exe 下載成功后,直接運行,在彈出的“cygwin net release setup program ”的對話框中直接點擊 “下一步”,選擇“download source ”如下:選擇“ install from internet” ,進入下圖所示對話框: 設(shè)置 cygwin 的安裝目錄, install for 選擇“ all users” ,default text file type 選

2、擇“ unix/binary” 。 “下一步”之后,設(shè)置cygwin 安裝包存放目錄:2 設(shè)置“ internet connection”的方式,選擇“ direct connection” :之后選擇“ download site” :選擇最好選 .cn結(jié)尾的,若無可以隨意選擇,若安裝失敗可多嘗試幾個。3 “下一步”之后,可能會彈出下圖的“setup alert”對話框,直接“確定”即可。在上圖所示的對話框過程中,可能會彈出如下圖所示的“setup alert”對話框,直接點擊“確定”即可。進入“select packages ”對話框,必須保證“ net category”下的“ open

3、ssl”被安裝:安裝中需要選中 net category 中的 openssh ,如下圖所示:如果還打算在eclipse上編譯 hadoop,則還必須安裝“base category ” 下的“sed” ,如下圖所示:4 另外,安裝 “editors category ”下的vim,以方便在 cygwin上直接修改配置文件;“devel category ”下的subversion 建議安裝,如下圖所示:安裝完成后進行環(huán)境變量的配置。(2)安裝 jdk (3)配置 windows 系統(tǒng)變量新建系統(tǒng)變量 cygwin ,變量值為 ntsec tty 編輯系統(tǒng)變量里的 path 變量, 將 jdk

4、 的 bin 目錄、 cygwin 的 bin 目錄以及 cygwin5 的 usrbin 目錄加入到 path變量中。新建系統(tǒng)變量 java_home ,變量指向 jre安裝目錄。(4)安裝配置 ssh 啟動 cygwin,執(zhí)行命令: $ ssh-host-config 。當(dāng)詢問 should privilege separation be used 時, 輸入 no; 當(dāng)詢問 do you want to install sshd as a service? 選 yes;當(dāng)提示 enterthe value of cygwin for the daemon : ntsec時,選擇 ntse

5、c。當(dāng)看到“ have fun”時,一般表示sshd 服務(wù)安裝成功了。輸入命令 $ net start sshd , 啟動 ssh, 或者在 windows 服務(wù)項里啟動 cygwin sshd。然后執(zhí)行 $ ssh-keygen來生成密鑰對, 然后一直回車鍵確定。 這樣會把生產(chǎn)的密鑰對保存在ssh 目錄下。使用命令將rsa 公鑰加入到公鑰授權(quán)文件authorizedkeys 中:$ cd.ssh $ cat id_rsa.pub authorized_keys 最后執(zhí)行 $ ssh localhost ,就可以實現(xiàn)無需密碼的ssh 連接。6 完成上述操作后,執(zhí)行 exit命令先退出 cygw

6、in窗口。執(zhí)行ssh localhost 時,會有如下圖所示的提示,輸入yes,然后回車即可:如果不是第一次執(zhí)行則會出現(xiàn)如下對話框:7 成功啟動 ssh服務(wù)。1.2 安裝 hadoop 將 hadoop安裝包(在此使用的是 hadoop-0.20.2 ) 解壓到你自己選擇的目錄,然 后 需 要 修 改 hadoop 的 配 置 文 件 , 它 們 位 于conf 子 目 錄下 , 分 別 是hadoop-env.sh 、core-site.xml、hdfs-site.xml 和 mapred-site.xml 共四個文件。1.2.1修改 hadoop-env.sh 只需要將 java_home

7、 修改成 jdk 的安裝目錄即可,需要注意兩點:(1) jdk 必須是 1.6 或以上版本;(2) 設(shè)置jdk 的安裝目錄時,路徑不能是windows 風(fēng)格的目錄例如:c:javajdk1.6.0_22 ,而是 linux 風(fēng)格: /cygdrive/d/program/java/jdk1.6.0_22 。因此在 hadoop-env.sh 中設(shè)定 jdk 的安裝目錄:export java_home=/cygdrive/c/java/jdk1.6.0_22(注意刪除 -sun 和 export 前面的注釋“ #”) 1.2.2 修改 core-site.xml 為簡化 core-site.x

8、ml 配置,將 srccore 目錄下的 core-default.xml 文件復(fù)制到conf 目錄下,并將 core-default.xml 文件名改成 coresite.xml。修改: hdfs:/localhost:9000 1.2.3 修改 hdfs-site.xml 為簡化 hdfs-site.xml 配置,將 srchdfs 目錄下的 hdfs-default.xml 文件復(fù)制到conf 目錄下,并將 hdfs-default.xml 文件名改成 hdf-site.xml。8 修改: dfs.replication 1 1.2.4 修改 mapred

9、-site.xml 為簡化 mapred-site.xml 配置,將 srcmapred 目錄下的 mapreddefault.xml 文件復(fù)制到 conf 目錄下,并將 mapred-default.xml 文件名改成 mapred-site.xml。修改: mapred.job.tracker localhost:9001 到此修改完成,然后啟動hadoop。1.3 啟動 hadoop 在 cygwin 中,進入 hadoop 的 bin 目錄,運行./start-all.sh 啟動 hadoop,在啟動成功之后,可以執(zhí)行 ./hadoop fs -ls /命令,查看 hadoop 的根目

10、錄,如下圖所示:首先我們要先啟動sshd服務(wù),然后登錄:然后啟動 hadoop:9 我們可以驗證是否啟動成功:有時在啟動的時候會遇到一些問題,可能會出現(xiàn)10 這時可能我們需要格式化, 用命令:./hadoop namenode format 進行格式化。至此,我們的 hadoop安裝成功。1.4 hadoop運行 wordcount實例運行 wordcount 實例。在本地文件系統(tǒng)上建立input 目錄,放入若干文件,文件為由多個單詞組成(單詞由空格分隔)的文本。將文件復(fù)制到 hdfs 的目錄下,命名為input,并運行:$ bin/hadoop dfs -put input input 11

11、 沒有內(nèi)容輸出就說明上傳至文件系統(tǒng)成功。運行: $ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount input output output 為數(shù)據(jù)處理完成后輸出目錄,默認在 hadoop 根目錄下。任務(wù)執(zhí)行完,用以下命令查看分布式文件系統(tǒng)上數(shù)據(jù)處理的結(jié)果:$ bin/hadoop dfs -cat output /* 12 至此,完成 wordcount 實例的運行。1.5 使用 eclipse編寫 hadoop應(yīng)用程序在此,用 eclipse編寫了一個簡單的程序。1)在 eclipse下創(chuàng)建一個 java工程 dfsoperator,并

12、創(chuàng)建相應(yīng)的類。2)配置編譯參數(shù)配置 “build path” , 選中“dfsoperator” , 單擊右鍵,點擊下圖所示菜單 “build path - configure build path” ,進入“java build path ”配置界面。選擇“l(fā)ibraries”標簽頁, 點擊右側(cè)的“add external jar” 按鈕, 將安裝好的“hadoop-0.20.2-core.jar ”添加進來。13 3)編輯源代碼4)編譯生成 jar 包右鍵“ dfsoperator”項目,選擇“build project” ,編譯項目工程,編譯“dfsoperator.java ”后,生成

13、下圖所示的dfsoperator.class 文件:14 右鍵項目,選擇“ export” ,導(dǎo)出“ jar file” ,也就是 jar 包。然后將導(dǎo)出的jar 文件上傳到 hadoop master 節(jié)點。5)運行導(dǎo)出的 jar 文件放到 hadoop的 bin 文件下,進入 hadoop 的 bin 目錄,用以下命令進行測試運行:(1) ls:查看當(dāng)前目錄,檢查dfs_operator.jar是否存在;(2) ./hadoop fs -ls /:查看 hadoop根目錄下是否存在dfs_operator.txt文件;(3) ./hadoop jar ./dfs_operator.jar

14、dfsoperator:運行 dfs_operator.jar ,以生成dfs_operator.txt 文件;(4) ./hadoop fs -ls /:再查看 hadoop根目錄下是否存在dfs_operator.txt文件;(5) ./hadoop fs -cat /dfs_operator.txt :檢查 dfs_operator.txt文件的內(nèi)容。該程序完成的功能簡單, 但從中可以學(xué)到如何在windows 下利用 eclipse進行hadoop編程。15 1.6 使用 ibm mapreduce tools for eclipse進行 hadoop編程(完成wordcount)使用

15、ibm mapreduce tools for eclipse,使用這個 eclipse plugin 可以簡化開發(fā)和部署hadoop 并行程序的過程。 基于這個 plugin,可以在 eclipse 中創(chuàng)建一個 hadoop mapreduce 應(yīng)用程序,并且提供了一些基于mapreduce 框架的類開發(fā)的向?qū)В梢源虬蒵ar 文件,部署一個hadoop mapreduce 應(yīng)用程序到一個 hadoop 服務(wù)器 (本地和遠程均可 ),可以通過一個專門的視圖( perspective ) 查看 hadoop 服務(wù)器、 hadoop 分布式文件系統(tǒng)(dfs )和當(dāng)前運行的任務(wù)的狀態(tài)。1)安裝插件 ibm mapreduce tools for eclipse 安裝插件,然后點擊eclipse 主菜單上windows-preferences ,然后在左側(cè)選擇 hadoop home directory,設(shè)定 hadoop 主目錄:2)創(chuàng)建 mapreduce project 點擊 eclipse主菜單上 file-new-project, 在彈出的對話框中選擇mapreduce project。然后就可以一個普通的eclipse java project那樣,添加入 ja

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論