2023國(guó)家開(kāi)放大學(xué)《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告1-5_第1頁(yè)
2023國(guó)家開(kāi)放大學(xué)《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告1-5_第2頁(yè)
2023國(guó)家開(kāi)放大學(xué)《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告1-5_第3頁(yè)
2023國(guó)家開(kāi)放大學(xué)《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告1-5_第4頁(yè)
2023國(guó)家開(kāi)放大學(xué)《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告1-5_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

國(guó)家開(kāi)放大學(xué):《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告1-5《大數(shù)據(jù)技術(shù)導(dǎo)論》實(shí)驗(yàn)報(bào)告

文末有全文檔下載鏈接(百度網(wǎng)盤(pán))實(shí)驗(yàn)1

Linux操作系統(tǒng)部署內(nèi)容描述.實(shí)驗(yàn)1Linux操作系統(tǒng)部署Linux操作系統(tǒng)應(yīng)用日益廣泛,現(xiàn)已成為主流的網(wǎng)絡(luò)操作系統(tǒng)。云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和大數(shù)據(jù)等研究熱點(diǎn)與應(yīng)用領(lǐng)域的出現(xiàn)與發(fā)展,都應(yīng)用了Linux操作系統(tǒng)。隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,Linux用戶也迅速擴(kuò)展,Linux操作系統(tǒng)發(fā)揮出越來(lái)越大的作用。1.實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)Linux操作系統(tǒng)部署的實(shí)驗(yàn),學(xué)生可以掌握虛擬機(jī)平臺(tái)VirtualBox及擴(kuò)展包安裝方法、創(chuàng)建Linux虛擬機(jī)方法、安裝Linux操作系統(tǒng)方法,進(jìn)而為大數(shù)據(jù)Hadoop環(huán)境部署奠定基礎(chǔ)。2.實(shí)驗(yàn)要求在了解Linux操作系統(tǒng)安裝的相關(guān)知識(shí)基礎(chǔ)之上,通過(guò)實(shí)例完成下述任務(wù)。(1)虛擬機(jī)平臺(tái)VirtualBox及擴(kuò)展包安裝。(2)創(chuàng)建虛擬機(jī)。(3)安裝Ubuntu操作系統(tǒng)。3.實(shí)驗(yàn)內(nèi)容(1)制訂實(shí)驗(yàn)計(jì)劃。(2)虛擬機(jī)平臺(tái)VirtualBox及擴(kuò)展包安裝。(3)創(chuàng)建虛擬機(jī)。(4)安裝Ubuntu操作系統(tǒng)。(5)熟悉操作系統(tǒng)的基本命令使用方法。4.實(shí)驗(yàn)總結(jié)通過(guò)本實(shí)驗(yàn),使學(xué)生了解Linux操作系統(tǒng)的特點(diǎn)和過(guò)程,理解其基本命令使用方法,掌握虛擬機(jī)平臺(tái)VirtualBox及擴(kuò)展包安裝方法,以及安裝Linux操作系統(tǒng)的方法。5.思考拓展(1)為什么Linux操作系統(tǒng)得到了廣泛的應(yīng)用?(2)說(shuō)明Linux操作系統(tǒng)的安裝步驟和簡(jiǎn)單配置方法。(3)什么是虛擬機(jī)?在Linux操作系統(tǒng)安裝過(guò)程中為什么使用虛擬機(jī)?(4)Java虛擬機(jī)與在安裝Linux操作系統(tǒng)中所創(chuàng)建的虛擬機(jī)有何區(qū)別?答:Linux操作系統(tǒng)部署如下1.添加virtualbox虛擬機(jī)首先,下載ubuntu系統(tǒng)鏡像:官方網(wǎng)站進(jìn)入VirtualBox,點(diǎn)擊新建,隨便起個(gè)名字2.內(nèi)存大小綠色部分即可。需要注意的是,開(kāi)啟多個(gè)虛擬機(jī)時(shí),分配給這些虛擬機(jī)的內(nèi)存之和不要超過(guò)此處紅綠分界線對(duì)應(yīng)的額度,否則使用的內(nèi)存總和過(guò)高容易導(dǎo)致電腦藍(lán)屏…虛擬硬盤(pán)創(chuàng)建虛擬硬盤(pán)第一次使用選擇創(chuàng)建虛擬硬盤(pán)(如果已有硬盤(pán)可以使用已有的硬盤(pán)文件)虛擬硬盤(pán)文件類型建議選VDI(VDI是VirtualBox自己設(shè)計(jì)的磁盤(pán)文件類型,沒(méi)有特殊需求的話用這個(gè)就行。)存儲(chǔ)在物理硬盤(pán)上建議選動(dòng)態(tài)分配。(兩種都可以,看文字介紹自行選擇就行。)文件位置和大小按需求設(shè)置即可。建議10GB以上。設(shè)置常規(guī)-高級(jí)共享粘貼板和拖放設(shè)為雙向,允許虛擬機(jī)和桌面之間雙向的復(fù)制粘貼和拖放。(需要安裝增強(qiáng)功能后才可以使用,詳見(jiàn)安裝增強(qiáng)功能章節(jié))系統(tǒng)-處理器處理器數(shù)量建議設(shè)為紅綠交界處。(同樣注意多臺(tái)虛擬機(jī)同時(shí)使用時(shí),總處理器數(shù)量最好不要超過(guò)電腦的實(shí)際邏輯處理器數(shù)量)存儲(chǔ)點(diǎn)擊選擇虛擬盤(pán),然后找到下載的ubuntu系統(tǒng)鏡像文件(.iso結(jié)尾)。添加完后如下圖點(diǎn)擊ok保存退出。2.安裝Ubuntu系統(tǒng)點(diǎn)擊啟動(dòng),開(kāi)啟虛擬機(jī)。后面跟著教程即可。三、虛擬電腦中安裝ubuntu系統(tǒng)1、啟動(dòng)虛擬電腦后,會(huì)進(jìn)入安裝Ubuntu系統(tǒng)界面,選擇中文,選擇【安裝Ubuntu】。2、選擇適合的鍵盤(pán)。3、如下選擇。4、選擇【清除整個(gè)磁盤(pán)并安裝Ubuntu】->【現(xiàn)在安裝】。5、選擇【繼續(xù)】。6、選擇系統(tǒng)時(shí)間,根據(jù)大家實(shí)際需求選擇,然后點(diǎn)擊【繼續(xù)】。7、選擇完時(shí)間后,會(huì)有一個(gè)設(shè)置用戶名和密碼的界面,大家根據(jù)自己實(shí)際情況完成設(shè)置即可。8、然后就進(jìn)入等待安裝過(guò)程。安裝完成后重啟虛擬電腦,就完成Ubuntu系統(tǒng)的安裝了。實(shí)驗(yàn)2Hadoop開(kāi)發(fā)環(huán)境部署內(nèi)容描述.實(shí)驗(yàn)2Hadoop開(kāi)發(fā)環(huán)境部署Hadoop是一個(gè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行分布式處理的軟件架構(gòu),其可以通過(guò)可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。Hadoop技術(shù)是推動(dòng)大數(shù)據(jù)應(yīng)用的重要引擎之一,可以使用該技術(shù)收集、清洗和分析大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。運(yùn)行環(huán)境部署是一項(xiàng)技術(shù)要求較高,但必須掌握的技術(shù)。Hadoop是大數(shù)據(jù)分布式處理平臺(tái),在大數(shù)據(jù)離線處理方面,尤其是批處理中得到了廣泛的應(yīng)用。1.實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)Hadoop環(huán)境部署實(shí)驗(yàn)練習(xí),學(xué)生可以掌握Hadoop系統(tǒng)安裝方法、偽分布式Hadoop的安裝方法和Eclipse開(kāi)發(fā)環(huán)境的安裝具體過(guò)程與使用方法,并能夠靈活運(yùn)用,進(jìn)而為解決大數(shù)據(jù)分析問(wèn)題奠定環(huán)境構(gòu)建與部署的基礎(chǔ),不僅為后續(xù)的基于Hadoop環(huán)境的各個(gè)實(shí)驗(yàn)建立基礎(chǔ),而且可以提高工程實(shí)踐能力。2.實(shí)驗(yàn)要求在理解本實(shí)驗(yàn)相關(guān)理論的基礎(chǔ)上制訂安裝計(jì)劃,獨(dú)立完成Hadoop開(kāi)發(fā)環(huán)境部署過(guò)程,主要內(nèi)容如下所述。(1)制訂安裝計(jì)劃。(2)安裝SSH協(xié)議。(3)安裝OpenJDK1.8開(kāi)發(fā)環(huán)境。(4)Hadoop系統(tǒng)部署。(5)偽分布式Hadoop環(huán)境部署。(6)Eclipse開(kāi)發(fā)環(huán)境的安裝。3.實(shí)驗(yàn)內(nèi)容(1)制訂實(shí)驗(yàn)計(jì)劃。(2)完成SSH協(xié)議安裝。(3)完成OpenJDK1.8安裝。(4)完成Hadoop系統(tǒng)部署。(5)完成偽分布式Hadoop環(huán)境部署。(6)完成Eclipse開(kāi)發(fā)環(huán)境的安裝。4.實(shí)驗(yàn)總結(jié)通過(guò)本實(shí)驗(yàn),使學(xué)生了解Hadoop的特點(diǎn)和總體結(jié)構(gòu),理解MapReduce程序的執(zhí)行過(guò)程,掌握偽分布式Hadoop的安裝方法和Eclipse開(kāi)發(fā)環(huán)境的安裝與使用方法。5.思考拓展(1)為什么需要安裝SSH協(xié)議?說(shuō)明SSH協(xié)議功能及安裝方法。(2)為什么需要安裝OpenJDK1.8軟件?說(shuō)明OpenJDK1.8功能及安裝方法。(3)結(jié)合MapReduce程序執(zhí)行過(guò)程,說(shuō)明其并行處理的特性。(4)結(jié)合Hadoop的處理過(guò)程,說(shuō)明其離線處理特點(diǎn)。(5)說(shuō)明分布式Hadoop處理與偽分布式Hadoop處理的區(qū)別。(6)說(shuō)明Eclipse開(kāi)發(fā)環(huán)境的優(yōu)勢(shì)。答:Hadoop開(kāi)發(fā)環(huán)境部署方法如下Hadoop偽分布式配置創(chuàng)建Hadoop用戶:sudouseradd-mhadoop-s/bin/bash

#創(chuàng)建hadoop用戶sudopasswdhadoop

#修改密碼sudoadduserhadoopsudo

#增加管理員權(quán)限Shell命令注銷并使用Hadoop用戶登錄,接著更新apt并且安裝vim:sudoapt-getupdate

#更新aptsudoapt-getinstallvim

#安裝vimShell命令安裝SSH,配置無(wú)密碼登錄:sudoapt-getinstallopenssh-servercd~mkdir.ssh

#可能該文件已存在,不影響cd~/.ssh/ssh-keygen-trsa

#會(huì)有提示,都按回車就可以catid_rsa.pub>>authorized_keys

#加入授權(quán)Shell命令安裝Java環(huán)境:sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdkvim~/.bashrc

#設(shè)置JAVA_HOMEShell命令在文件最前面添加如下單獨(dú)一行:exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64使JAVA_HOME變量生效:source~/.bashrc

#使變量設(shè)置生效Shell命令安裝Hadoop2:cd~/下載sudotar-zxvf./hadoop-2.6.0.tar.gz-C/usr/local

#解壓到/usr/local中cd/usr/local/sudomv./hadoop-2.6.0/./hadoop

#將文件夾名改為hadoopsudochown-Rhadoop./hadoop

#修改文件權(quán)限Shell命令進(jìn)行偽分布式配置:修改配置文件

core-site.xml

(vim/usr/local/hadoop/etc/hadoop/core-site.xml):<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>修改配置文件

hdfs-site.xml:<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>啟動(dòng)Hadoop:cd/usr/local/hadoopbin/hdfsnamenode-format

#namenode格式化sbin/start-dfs.sh

#開(kāi)啟守護(hù)進(jìn)程jps

#判斷是否啟動(dòng)成功Shell命令若成功啟動(dòng)則會(huì)列出如下進(jìn)程:

NameNode、DataNode和SecondaryNameNode。運(yùn)行WordCount實(shí)例:bin/hdfsdfs-mkdir-p/user/hadoop

#創(chuàng)建HDFS目錄bin/hdfsdfs-mkdirinputbin/hdfsdfs-putetc/hadoop/*.xmlinput

#將配置文件作為輸入bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrepinputoutput'dfs[a-z.]+'bin/hdfsdfs-catoutput/*

#查看輸出Shell命令1.3安裝SSH

Ubuntu默認(rèn)已安裝了SSH客戶端,因此,這里還需要安裝SSH服務(wù)端1.3.1安裝SSH服務(wù)端

請(qǐng)?jiān)贚inux的終端中執(zhí)行以下命令:

下載安裝包:拷貝代碼sudowget/fileserver/big_data_common/data/openssh-client_7.2p2-4_amd64.debsudowget/fileserver/big_data_common/data/openssh-server_7.2p2-4_amd64.deb

安裝軟件:

拷貝代碼sudodpkg-iopenssh-client_7.2p2-4_amd64.deb

拷貝代碼sudodpkg-iopenssh-server_7.2p2-4_amd64.deb

或者也可用下面方法:∥安裝Java環(huán)境

Java環(huán)境可選擇Oracle的JDK,或是OpenJDK,需要安裝1.7以上的版本,這里直接通過(guò)命令安裝OpenJDK8:

拷貝代碼cd/home/user/Downloadssudotar-vxfjdk-8u11-linux-x64.tar.gz安裝好JDK后,需要找到相應(yīng)的安裝路徑,這個(gè)路徑是用于配置JAVA_HOME環(huán)境變量的。

拷貝代碼vim~/.bashrc在文件最前面添加如下單獨(dú)一行(注意=號(hào)前后不能有空格):拷貝代碼exportJAVA_HOME=/home/user/Downloads/jdk1.8.0_11接著還需要讓該環(huán)境變量生效,執(zhí)行如下代碼:

拷貝代碼source~/.bashrc設(shè)置好后需要檢驗(yàn)一下是否設(shè)置正確:檢驗(yàn)變量值拷貝代碼echo$JAVA_HOME

拷貝代碼java-version#與直接執(zhí)行java-version一樣拷貝代碼$JAVA_HOME/bin/java-version

如果設(shè)置正確的話,java-version會(huì)輸出java的版本信息。

2安裝Hadoop

Hadoop包括三種安裝模式:

①單機(jī)模式:只在一臺(tái)機(jī)器上運(yùn)行,存儲(chǔ)是采用本地文件系統(tǒng),沒(méi)有采用分布式文件系統(tǒng)HDFS;

②偽分布式模式:存儲(chǔ)采用分布式文件系統(tǒng)HDFS,但是,HDFS的名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都在同一臺(tái)機(jī)器上;

③分布式模式:存儲(chǔ)采用分布式文件系統(tǒng)HDFS,而且,HDFS的名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)位于不同機(jī)器上。

本節(jié)介紹Hadoop的具體安裝方法,包括下載安裝文件、單機(jī)模式配置、偽分布式模式配置、分布式模式配置等。

2.1下載安裝文件

2.1.1下載文件打開(kāi)瀏覽器,訪問(wèn)如下鏈接進(jìn)行下載:

拷貝代碼/fileserver/big_data_common/data/hadoop-2.7.1.tar.gz文件將會(huì)下載到/home/user/Downloads目錄下

2.1.2安裝文件

下載完安裝文件以后,需要對(duì)文件進(jìn)行解壓。按照Linux系統(tǒng)使用的默認(rèn)規(guī)范,用戶安裝的軟件一般都是存放在“/usr/local/”目錄下。請(qǐng)使用hadoop用戶登錄Linux系統(tǒng),打開(kāi)一個(gè)終端,進(jìn)行以下操作:解壓

解壓到/usr/local中拷貝代碼sudotar-zxf/home/user/Downloads/hadoop-2.7.1.tar.gz-C/u

將文件夾名改為hadoop

拷貝代碼cd/usr/localsudomv./hadoop-2.7.1/./hadoop修改文件權(quán)限

拷貝代碼sudochown-Rhadoop./hadoop

檢查Hadoop是否可用

Hadoop解壓后即可使用,可以輸入如下命令來(lái)檢查Hadoop是否可用,成功則會(huì)顯示Hadoop版本信息:拷貝代碼cd/usr/local/hadoop./bin/hadoopversion

2.2單機(jī)模式配置

Hadoop默認(rèn)模式為非分布式模式(本地模式),只需配置好hadoop-env.sh文件中的JAVA_HOME,無(wú)需進(jìn)行其他配置即可運(yùn)行。

配置hadoop-env.sh文件中的JAVA_HOME步驟如下:

先輸入echo$JAVA_HOME命令查看JAVA_HOME的路徑拷貝代碼vi/usr/local/hadoop/etc/hadoop/hadoop-env.sh

進(jìn)入編輯界面后找到exoortJAVA_HOME=${JAVA_HOME}

將${JAVA_HOME}替換為真正的JAVA_HOME路徑即可,然后保存退出。

以下是真實(shí)的JAVA_HOME:拷貝代碼/usr/share/jdk1.8.0_181

可以直接替換,直接把前一行注釋掉,然后粘貼后一行

:wq!保存并且退出2.2.1查看所有例子

Hadoop附帶了豐富的例子,運(yùn)行如下命令可以查看所有例子:

拷貝代碼cd/usr/local/hadoopsudo./bin/hadoopjar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar

上述命令執(zhí)行后,會(huì)顯示所有例子的簡(jiǎn)介信息,包括grep、join、wordcount等。

2.2.2運(yùn)行g(shù)rep例子

這里選擇運(yùn)行g(shù)rep例子,可以先在“/usr/local/hadoop”目錄下創(chuàng)建一個(gè)文件夾input,并復(fù)制一些文件到該文件夾下,然后,運(yùn)行g(shù)rep程序,將input文件夾中的所有文件作為grep的輸入,讓grep程序從所有文件中篩選出符合正則表達(dá)式“dfs[a-z.]+”的單詞,并統(tǒng)計(jì)單詞出現(xiàn)的次數(shù),最后,把統(tǒng)計(jì)結(jié)果輸出到“/usr/local/hadoop/output”文件夾中。配置hosts

實(shí)驗(yàn)第一步我們已經(jīng)配置過(guò)hosts了。將配置文件復(fù)制到input目錄下

拷貝代碼cd/usr/local/hadoopmkdirinputcp./etc/hadoop/*.xml./input

運(yùn)行

拷貝代碼./bin/hadoopjar./share/hadoop/mapreduce/hadoop-mapreduc

查看運(yùn)行結(jié)果

拷貝代碼cat./output/*

執(zhí)行成功后,輸出了作業(yè)的相關(guān)信息,輸出的結(jié)果是符合正則表達(dá)式的單詞“dfsadmin”出現(xiàn)了1次。

刪除output文件

需要注意的是,Hadoop默認(rèn)不會(huì)覆蓋結(jié)果文件,因此,再次運(yùn)行上面實(shí)例會(huì)提示出錯(cuò)。如果要再次運(yùn)行,需要先使用如下命令把output文件夾刪除:拷貝代碼rm-r./output

3偽分布式模式配置

Hadoop可以在單個(gè)節(jié)點(diǎn)(一臺(tái)機(jī)器)上以偽分布式的方式運(yùn)行,同一個(gè)節(jié)點(diǎn)既作為名稱節(jié)點(diǎn)(NameNode),也作為數(shù)據(jù)節(jié)點(diǎn)(DataNode),讀取的是分布式文件系統(tǒng)HDFS中的文件。3.1修改配置文件

需要配置相關(guān)文件,才能夠讓Hadoop在偽分布式模式下順利運(yùn)行。Hadoop的配置文件位于“/usr/local/hadoop/etc/hadoop/”中,進(jìn)行偽分布式模式配置時(shí),需要修改2個(gè)配置文件,即core-site.xml和hdfs-site.xml。3.1.1修改core-site.xml文件

可以使用vim編輯器打開(kāi)core-site.xml文件,它的初始內(nèi)容如下:

修改以后,core-site.xml文件的內(nèi)容如下:

拷貝代碼<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>在上面的配置文件中,hadoop.tmp.dir用于保存臨時(shí)文件,若沒(méi)有配置hadoop.tmp.dir這個(gè)參數(shù),則默認(rèn)使用的臨時(shí)目錄為“/tmp/hadoo-hadoop”,而這個(gè)目錄在Hadoop重啟時(shí)有可能被系統(tǒng)清理掉,導(dǎo)致一些意想不到的問(wèn)題,因此,必須配置這個(gè)參數(shù)。fs.defaultFS這個(gè)參數(shù),用于指定HDFS的訪問(wèn)地址,其中,9000是端口號(hào)。3.1.2修改hdfs-site.xml文件

修改配置文件hdfs-site.xml,修改后的內(nèi)容如下:

刪除原來(lái)兩個(gè)configuration,然后直接粘貼下面的代碼。拷貝代碼<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>3.2執(zhí)行名稱節(jié)點(diǎn)格式化

修改配置文件以后,要執(zhí)行名稱節(jié)點(diǎn)的格式化,命令如下:

拷貝代碼cd/usr/local/hadoop./bin/hdfsnamenode-format

如果格式化成功,會(huì)看到“successfullyformatted”和“Exittingwithstatus0”的提示信息,若為“Exittingwithstatus1”,則表示出現(xiàn)錯(cuò)誤。

配置hadoop-env.sh,vimhadoop-env.sh

找到文件中的“exportJAVA_HOME=${JAVA_HOME}”,

將等號(hào)右邊的內(nèi)容替換為我們剛剛安裝的真實(shí)的JAVA_HOME,即/home/user/Downloads/jdk1.8.0_11配置hosts,輸入以下命令即可配置hosts

echo""$HOSTNAME|sudotee-a/etc/hosts配置完成后,需要執(zhí)行NameNode的格式化(這一步比較重要,在格式化之前一定要保證,自己前面的都配置好了,如果格式化之后,啟動(dòng)hadoop還沒(méi)成功,就需要重新配置JAVA環(huán)境或者是hadoop重新安裝),命令如下:

cd/usr/local/hadoop

./bin/hdfsnamenode-format接著開(kāi)啟NameNode和DataNode守護(hù)進(jìn)程,命令如下:

拷貝代碼

cd/usr/local/hadoop

./sbin/start-dfs.sh拷貝代碼

cd/usr/local/hadoop

./bin/hdfsnamenode-format3.3啟動(dòng)Hadoop

3.3.1啟動(dòng)

執(zhí)行下面命令啟動(dòng)Hadoop:

拷貝代碼cd/usr/local/hadoop./sbin/start-dfs.shstart-dfs.sh

是個(gè)完整的可執(zhí)行文件,中間沒(méi)有空格,啟動(dòng)過(guò)程中有需要輸入“yes”的地方需要輸入“yes”。

啟動(dòng)時(shí)可能會(huì)出現(xiàn)如下警告信息:WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform…usingbuiltin-javaclasseswhereapplicableWARN

這個(gè)警告提示信息可以忽略,并不會(huì)影響Hadoop正常使用

3.3.2判斷是否成功啟動(dòng)

Hadoop啟動(dòng)完成后,可以通過(guò)命令jps來(lái)判斷是否成功啟動(dòng),命令如下:

拷貝代碼jps

若成功啟動(dòng),則會(huì)列出如下進(jìn)程:NameNode、DataNode和SecondaryNameNode。

通過(guò)start-dfs.sh命令啟動(dòng)Hadoop以后,就可以運(yùn)行MapReduce程序處理數(shù)據(jù),此時(shí)是對(duì)HDFS進(jìn)行數(shù)據(jù)讀寫(xiě),而不是對(duì)本地文件進(jìn)行讀寫(xiě)。

如果能夠看到SecondaryNameNode、NameNode和DataNode三個(gè)進(jìn)程,就說(shuō)明啟動(dòng)成功了。如果要停止Hadoop執(zhí)行,可以執(zhí)行如下命令:

/usr/local/hadoop

./sbin/stop-dfs.sh

3.4使用Web界面查看HDFS信息

Hadoop成功啟動(dòng)后,可以在Linux系統(tǒng)中(不是Windows系統(tǒng))打開(kāi)一個(gè)瀏覽器,在地址欄輸入如下地址,就可以查看名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)信息,還可以在線查看HDFS中的文件。

拷貝代碼http://localhost:500703.5運(yùn)行Hadoop偽分布式實(shí)例

上面的單機(jī)模式中,grep例子讀取的是本地?cái)?shù)據(jù),偽分布式模式下,讀取的則是分布式文件系統(tǒng)HDFS上的數(shù)據(jù)。3.5.1HDFS中創(chuàng)建用戶目錄

要使用HDFS,首先需要在HDFS中創(chuàng)建用戶目錄(本教程全部統(tǒng)一采用hadoop用戶名登錄Linux系統(tǒng)),命令如下:

拷貝代碼cd/usr/local/hadoop./bin/hdfsdfs-mkdir-p/user/hadoop3.5.2復(fù)制文件

接著需要把本地文件系統(tǒng)的“/usr/local/hadoop/etc/hadoop”目錄中的所有xml文件作為輸入文件,復(fù)制到分布式文件系統(tǒng)HDFS中的“/user/hadoop/input”目錄中,命令如下:

拷貝代碼cd/usr/local/hadoop./bin/hdfsdfs-mkdirinput在HDFS中創(chuàng)建hadoop用戶對(duì)應(yīng)的input目錄

拷貝代碼./bin/hdfsdfs-put./etc/hadoop/*.xmlinput

把本地文件復(fù)制到HDFS中3.5.3查看HDFS中的文件列表

復(fù)制完成后,可以通過(guò)如下命令查看HDFS中的文件列表:

拷貝代碼./bin/hdfsdfs-lsinput

執(zhí)行上述命令以后,可以看到input目錄下的文件信息。3.5.4運(yùn)行g(shù)rep程序

現(xiàn)在就可以運(yùn)行Hadoop自帶的grep程序,命令如下:

拷貝代碼./bin/hadoopjar./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jargrepinputoutput'dfs[a-z.]+'3.5.5查看HDFS中的結(jié)果

運(yùn)行結(jié)束后,可以通過(guò)如下命令查看HDFS中的output文件夾中的內(nèi)容:拷貝代碼./bin/hdfsdfs-catoutput/*

需要強(qiáng)調(diào)的是,Hadoop運(yùn)行程序時(shí),輸出目錄不能存在,否則會(huì)提示如下錯(cuò)誤信息:

org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectoryhdfs://localhost:9000/user/hadoop/outputalreadyexists

因此,若要再次執(zhí)行g(shù)rep程序3.5.6刪除HDFS中的output文件夾

需要執(zhí)行如下命令刪除HDFS中的output文件夾:

拷貝代碼./bin/hdfsdfs-rm-routput

刪除output文件夾3.6關(guān)閉Hadoop

如果要關(guān)閉Hadoop,可以執(zhí)行下面命令:

拷貝代碼cd/usr/local/hadoop./sbin/stop-dfs.sh

下次啟動(dòng)Hadoop時(shí),無(wú)需進(jìn)行名稱節(jié)點(diǎn)的初始化(否則會(huì)出錯(cuò)),也就是說(shuō),不要再次執(zhí)行“hdfsnamenode-format”命令,每次啟動(dòng)Hadoop只需要直接運(yùn)行start-dfs.sh命令即可。3.7配置PATH變量

前面在啟動(dòng)Hadoop時(shí),都要加上命令的路徑,比如,“./sbin/start-dfs.sh”這個(gè)命令中就帶上了路徑,實(shí)際上,通過(guò)設(shè)置PATH變量,就可以在執(zhí)行命令時(shí),不用帶上命令本身所在的路徑。具體操作方法是,首先使用vim編輯器打開(kāi)“~/.bashrc”這個(gè)文件,然后,在這個(gè)文件的最后面位置加入如下單獨(dú)一行:拷貝代碼exportHADOOP_HOME=/usr/local/hadoopexportPATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

添加后,執(zhí)行命令“source~/.bashrc”使設(shè)置生效。設(shè)置生效后,在任何目錄下啟動(dòng)Hadoop,都只要直接輸入start-dfs.sh命令即可,同理,停止Hadoop,也只需要在任何目錄下輸入stop-dfs.sh命令即可。實(shí)驗(yàn)3網(wǎng)頁(yè)數(shù)據(jù)獲取內(nèi)容描述.實(shí)驗(yàn)3網(wǎng)頁(yè)數(shù)據(jù)獲取數(shù)據(jù)獲取是數(shù)據(jù)生命周期中的第一個(gè)環(huán)節(jié),數(shù)據(jù)抽取過(guò)程是搜索全部數(shù)據(jù)源,按照某種標(biāo)準(zhǔn)選擇合乎要求的數(shù)據(jù),并將其進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)換之后,傳送到目的地中存儲(chǔ)。為了克服被抽取的數(shù)據(jù)源分布廣泛、異構(gòu)、非結(jié)構(gòu)化等問(wèn)題,數(shù)據(jù)抽取技術(shù)和抽取工具應(yīng)運(yùn)而生。學(xué)習(xí)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)不僅需要掌握其理論,更重要的是能夠運(yùn)用工具和方法來(lái)完成數(shù)據(jù)的獲取。1.實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)網(wǎng)頁(yè)數(shù)據(jù)獲取的實(shí)驗(yàn),學(xué)生可以理解網(wǎng)絡(luò)爬蟲(chóng)的工作過(guò)程,掌握網(wǎng)頁(yè)數(shù)據(jù)獲取的方法,并能夠靈活運(yùn)用,進(jìn)而解決網(wǎng)頁(yè)數(shù)據(jù)獲取的實(shí)際問(wèn)題。2.實(shí)驗(yàn)要求理解爬蟲(chóng)軟件的原理與方法,獨(dú)立完成網(wǎng)頁(yè)數(shù)據(jù)獲取的實(shí)驗(yàn),主要內(nèi)容如下。(1)前嗅ForeSpider爬蟲(chóng)軟件安裝。(2)選擇頻道。(3)網(wǎng)頁(yè)數(shù)據(jù)采集過(guò)程。3.實(shí)驗(yàn)內(nèi)容(1)制訂實(shí)驗(yàn)計(jì)劃。(2)完成爬蟲(chóng)軟件安裝。(3)選擇網(wǎng)頁(yè)。(4)完成爬蟲(chóng)軟件數(shù)據(jù)采集過(guò)程。4.實(shí)驗(yàn)總結(jié)通過(guò)本實(shí)驗(yàn),使學(xué)生了解爬蟲(chóng)軟件的特點(diǎn)、總體結(jié)構(gòu)和分類,理解爬蟲(chóng)軟件程序的執(zhí)行過(guò)程,掌握應(yīng)用爬蟲(chóng)軟件獲取網(wǎng)頁(yè)數(shù)據(jù)的方法。5.思考拓展(1)結(jié)合爬蟲(chóng)軟件的結(jié)構(gòu)說(shuō)明其主要功能。(2)通過(guò)舉例,說(shuō)明csv格式文件的特點(diǎn)。(3)應(yīng)用前嗅ForeSpider爬蟲(chóng)軟件能夠采集非結(jié)構(gòu)化數(shù)據(jù)嗎?為什么?(4)我們能夠在網(wǎng)絡(luò)上爬取什么數(shù)據(jù)?答:網(wǎng)頁(yè)數(shù)據(jù)獲取方法如下實(shí)驗(yàn)4大數(shù)據(jù)去重內(nèi)容描述.實(shí)驗(yàn)4大數(shù)據(jù)去重1.實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)Hadoop數(shù)據(jù)去重實(shí)驗(yàn),學(xué)生可以掌握準(zhǔn)備數(shù)據(jù)、偽分布式文件系統(tǒng)配置方法,以及在集成開(kāi)發(fā)環(huán)境Eclipse中實(shí)現(xiàn)Hadoop數(shù)據(jù)去重方法。2.實(shí)驗(yàn)要求了解基于Hadoop處理平臺(tái)的大數(shù)據(jù)去重過(guò)程,理解其主要功能,并能夠在Hadoop環(huán)境下獨(dú)立完成。(1)制訂實(shí)驗(yàn)計(jì)劃。(2)準(zhǔn)備數(shù)據(jù)。(3)偽分布式文件系統(tǒng)配置。(4)在集成開(kāi)發(fā)環(huán)境Eclipse中實(shí)現(xiàn)Hadoop數(shù)據(jù)去重。3.實(shí)驗(yàn)內(nèi)容(1)制訂實(shí)驗(yàn)計(jì)劃。(2)進(jìn)入“/usr/local/hadoop”目錄。(3)準(zhǔn)備數(shù)據(jù)。(4)修改“/usr/local/hadoop/etc/hadoop/”目錄下的Hadoop配置文件。(5)NameNode格式化。(6)在集成開(kāi)發(fā)環(huán)境Eclipse中實(shí)現(xiàn)Hadoop數(shù)據(jù)去重。4.實(shí)驗(yàn)總結(jié)通過(guò)本實(shí)驗(yàn),使學(xué)生了解Hadoop數(shù)據(jù)去重的特點(diǎn)和過(guò)程、理解MapReduce程序的執(zhí)行過(guò)程,掌握NameNode的格式化方法、Hadoop的配置文件的修改和Eclipse開(kāi)發(fā)環(huán)境下實(shí)現(xiàn)Hadoop數(shù)據(jù)去重的方法。5.思考拓展(1)為什么需要NameNode格式化?說(shuō)明NameNode格式化方法。(2)為什么需要數(shù)據(jù)去重?說(shuō)明Hadoop數(shù)據(jù)去重的主要優(yōu)勢(shì)。(3)結(jié)合MapReduce程序執(zhí)行過(guò)程,說(shuō)明Hadoop數(shù)據(jù)去重是離線處理還是在線處理。(4)說(shuō)明在集成開(kāi)發(fā)環(huán)境Eclipse中實(shí)現(xiàn)Hadoop數(shù)據(jù)去重的主要過(guò)程。答:數(shù)據(jù)去重方法如下【Hadoop學(xué)習(xí)項(xiàng)目】---數(shù)據(jù)去重0.項(xiàng)目結(jié)構(gòu)數(shù)據(jù)處理過(guò)程圖1.DupDriver2.DupMapper3.DupReducer方法2:

4、設(shè)置程序輸入?yún)?shù),myeclipse設(shè)置。運(yùn)行,得到結(jié)果:14/06/1522:01:32INFOmapred.JobClient:

map100%reduce100%

14/06/1522:01:32INFOmapred.JobClient:Jobcomplete:job_local_0001

14/06/1522:01:32INFOmapred.JobClient:Counters:19

14/06/1522:01:32INFOmapred.JobClient:

FileOutputFormatCounters

14/06/1522:01:32INFOmapred.JobClient:

BytesWritten=9

14/06/1522:01:32INFOmapred.JobClient:

FileSystemCounters

14/06/1522:01:32INFOmapred.JobClient:

FILE_BYTES_READ=81479

14/06/1522:01:32INFOmapred.JobClient:

HDFS_BYTES_READ=43

14/06/1522:01:32INFOmapred.JobClient:

FILE_BYTES_WRITTEN=279482

14/06/1522:01:32INFOmapred.JobClient:

HDFS_BYTES_WRITTEN=9

14/06/1522:01:32INFOmapred.JobClient:

FileInputFormatCounters

14/06/1522:01:32INFOmapred.JobClient:

BytesRead=17

14/06/1522:01:32INFOmapred.JobClient:

Map-ReduceFramework

14/06/1522:01:32INFOmapred.JobClient:

Mapoutputmaterializedbytes=31

14/06/1522:01:32INFOmapred.JobClient:

Mapinputrecords=9

14/06/1522:01:32INFOmapred.JobClient:

Reduceshufflebytes=0

14/06/1522:01:32INFOmapred.JobClient:

SpilledRecords=10

14/06/1522:01:32INFOmapred.JobClient:

Mapoutputbytes=17

14/06/1522:01:32INFOmapred.JobClient:

Totalcommittedheapusage(bytes)=492109824

14/06/1522:01:32INFOmapred.JobClient:

SPLIT_RAW_BYTES=190

14/06/1522:01:32INFOmapred.JobClient:

Combineinputrecords=9

14/06/1522:01:32INFOmapred.JobClient:

Reduceinputrecords=5

14/06/1522:01:32INFOmapred.JobClient:

Reduceinputgroups=5

14/06/1522:01:32INFOmapred.JobClient:

Combineoutputrecords=5

14/06/1522:01:32INFOmapred.JobClient:

Reduceoutp

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論