版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)處理技術(shù)簡介
三、大數(shù)據(jù)開源軟件Hadoop簡介
二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
一、大數(shù)據(jù)背景目錄1.Hadoop簡介2.實(shí)例演示1.定義2.數(shù)據(jù)的來源1.分布式儲存系統(tǒng)(GFS/HDFS)2.分布式計(jì)算模型(MapReduce)一、大數(shù)據(jù)背景我們正處在信息爆炸的年代2000年數(shù)字?jǐn)?shù)據(jù)只占全球數(shù)據(jù)量的1/42007年所有數(shù)據(jù)中只有7%是存儲在報(bào)紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余93%全是數(shù)字?jǐn)?shù)據(jù)(二進(jìn)制數(shù)據(jù))Google
單日數(shù)據(jù)處理量超過24PBFacebook
單日照片更新量超過1千萬張?zhí)詫毦W(wǎng)單日數(shù)據(jù)產(chǎn)生量超過5萬GB大數(shù)據(jù)背景
——定義大數(shù)據(jù)定義“大數(shù)據(jù)”是指一個(gè)數(shù)據(jù)集(Datasets),它的尺寸大到已經(jīng)無法由傳統(tǒng)的數(shù)據(jù)庫軟件去采集、儲存、管理和分析。大數(shù)據(jù)背景
——定義數(shù)據(jù)的分類結(jié)構(gòu)化數(shù)據(jù):行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。例如:二維表半結(jié)構(gòu)化數(shù)據(jù):自描述,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容混雜在一起的數(shù)據(jù)。例如:XML、HTML等。非結(jié)構(gòu)化數(shù)據(jù):除去以上兩種類型例如:音視頻、圖片等。大數(shù)據(jù)背景
——定義2000年以后非結(jié)構(gòu)化數(shù)據(jù)占絕大部分大數(shù)據(jù)背景
——
數(shù)據(jù)的來源從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)行業(yè)技術(shù)結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)視頻、音頻識別技術(shù)等大數(shù)據(jù)背景
——
數(shù)據(jù)的來源網(wǎng)頁爬蟲視頻識別語音識別等大數(shù)據(jù)背景
——
數(shù)據(jù)的來源傳統(tǒng)關(guān)系數(shù)據(jù)庫,如:Oracle、MYSQL無法儲存幾億行長,幾百萬行寬的表格,巨大的數(shù)據(jù)直接導(dǎo)致數(shù)據(jù)庫崩潰半結(jié)構(gòu)化數(shù)據(jù)和臟數(shù)據(jù)將會導(dǎo)致出錯(cuò)(類型不嚴(yán)格)傳統(tǒng)方法失效!如何解決?大數(shù)據(jù)處理技術(shù)的解決辦法:存成文件(FileSystem)大數(shù)據(jù)背景
——
數(shù)據(jù)的來源某搜索引擎搜索日志大數(shù)據(jù)背景
——
數(shù)據(jù)的來源
二、大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)大數(shù)據(jù)處理技術(shù)面對的第一個(gè)問題
如何高效存儲大規(guī)模文件?大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS數(shù)據(jù)讀取問題1T100M/SOHNO!!!大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS2.5小時(shí)谷歌文件系統(tǒng)(GFS)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS分而治之大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS谷歌文件系統(tǒng)(GFS)解決方案……..10G1分30秒100M/S大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS10G10G10G10G可靠性問題
大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS大數(shù)據(jù)處理技術(shù)面對的第二個(gè)問題99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%備份一份數(shù)據(jù)至少做三個(gè)備份大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS谷歌解決方案……10G10G……10G10G10G10G10G10G……10G10G10G10G10G10G心跳(HeartBeat
)Master(主管)Secondarymaster(副主管)Client(用戶程序)讀取元數(shù)據(jù)讀取數(shù)據(jù)云(Cloud)Master作用:儲存元數(shù)據(jù)(數(shù)據(jù)位置信息)儲存節(jié)點(diǎn)的日常維護(hù)儲存節(jié)點(diǎn)10G10G10G10G數(shù)據(jù)位置信息讀取數(shù)據(jù)GoogleFileSystem架構(gòu)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduce大數(shù)據(jù)處理技術(shù)面對的第三個(gè)問題數(shù)據(jù)運(yùn)算問題分布式計(jì)算(并行計(jì)算)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式儲存系統(tǒng)GFS/HDFS谷歌解決方案谷歌提出Map/Reduce模型大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMap函數(shù):接受一個(gè)鍵值對(key-valuepair),產(chǎn)生一組中間鍵值對。map函數(shù)將中間鍵值對里鍵相同的值傳遞給Reduce函數(shù)。Reduce函數(shù):接受一個(gè)鍵,以及相關(guān)的一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個(gè)或零個(gè)值)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceKey-Value(鍵-值)模型
鍵(Key):鍵必須是唯一的,而值并不一定是唯一的每個(gè)值必須與鍵關(guān)聯(lián),但鍵可以沒有值必須對鍵進(jìn)行明確定義。他決定了計(jì)數(shù)是否區(qū)分大小寫(鍵由Hash值唯一確定)。鍵值對舉例:通訊錄中的姓名(Key)和聯(lián)系方式(Value)計(jì)算機(jī)中各種根據(jù)文件名(Key)訪問各類文件,如文本、圖片(Value)年份(Key)—溫度(value)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduce氣象站氣象數(shù)據(jù)的處理(找出最高氣溫)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceKey(年份)——Value(溫度)大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMapReduce計(jì)算架構(gòu)Map/Reduce特點(diǎn)開發(fā)簡單
無需處理線程或提供精細(xì)的同步邏輯規(guī)模大
無需修改程序即可在任意規(guī)模機(jī)器上運(yùn)行工作具備自動(dòng)并行和分發(fā)功能
用戶只需寫好Map和Reduce函數(shù)即可高容錯(cuò)失敗任務(wù)在新節(jié)點(diǎn)上會重新運(yùn)行大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduceMap/Reduce的局限對迭代算法無能為力不是所有算法都能并行大數(shù)據(jù)處理實(shí)現(xiàn)技術(shù)
——分布式計(jì)算模型MapReduce
三、大數(shù)據(jù)開源軟件Hadoop簡介谷歌技術(shù)開源實(shí)現(xiàn)
GFS
MapReduce開源實(shí)現(xiàn)大數(shù)據(jù)開源軟件Hadoop簡介HDFS
MapReduce2002年,DougCutting從做開源ApacheNutch引擎開始2003年,Doug在看到谷歌發(fā)表的GFS之后,開始開源實(shí)現(xiàn)NDFS(Nutch
DistributedFileSystem)。2004年,谷歌發(fā)表MapReduce,2005年,Nutch開發(fā)人員開源實(shí)現(xiàn)MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch項(xiàng)目,獨(dú)立形成獨(dú)立項(xiàng)目,命名Hadoop。Hadoop的得名(DougCutting的小孩給毛絨玩具象起的名字)2006年,
DougCutting加入雅虎(聘請),雅虎開始資助Hadoop發(fā)展。2008年,1月Hadoop成為Apache頂級項(xiàng)目,2月,雅虎宣布,Hadoop應(yīng)用在自家搜素引擎中(其搜索引擎的索引建立在擁有1萬個(gè)內(nèi)核的Hadoop集群上),4月,Hadoop在900個(gè)節(jié)點(diǎn)上運(yùn)行1TB排序測試僅需209秒,成為全球最快。大數(shù)據(jù)開源軟件Hadoop簡介Hadoop
分布式文件系統(tǒng)(HDFS)架構(gòu)大數(shù)據(jù)開源軟件Hadoop簡介安裝Hadoop1.系統(tǒng)要求:Linux(Ubuntu/CentOS/…)2.java運(yùn)行環(huán)境(安裝JDK)3.安裝SSH4.安裝Hadoop大數(shù)據(jù)開源軟件Hadoop簡介Hadoop啟動(dòng)HDFS演示大數(shù)據(jù)開源軟件Hadoop簡介——實(shí)例演示Hadoop云的實(shí)際操作1.啟動(dòng)HDFS命令:start-dfs.sh2.在eclipse中打開HDFS目錄(eclipse需安裝Map/Reduce插件)Map/Reduce
單詞統(tǒng)頻(Wordcount)示例大數(shù)據(jù)開源軟件Hadoop簡介——實(shí)例演示1.通過eclipse上傳文本至HDFS2.啟動(dòng)MapReduce計(jì)算框架,命令:start-yarn.shWordcountJava程序map部分
publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper<LongWritable,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(line);while(tokenizer.hasMoreTokens()){
word.set(tokenizer.nextToken());
output.collect(word,one);//輸出:<單詞>1}WordcountJava程序reduce部分
publicstaticclassReduceextendsMapReduceBaseimplementsReducer<Text,IntWritable,Text,IntWritable>{publicvoidreduce(Textkey,Iterator<IntWritable>values,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{intsum=0;while(values.hasNext()){
sum+=values.next().get();//累加統(tǒng)頻
}
output.collect(key,newIntWritable(sum));
}
}
3.運(yùn)行wordcount程序javajar包命令:hadoopjar<jar包位置><程序主類名>
<輸入文件夾位置>
<輸出文件夾位置>Hadoop的優(yōu)勢廉價(jià)
計(jì)算節(jié)點(diǎn)和儲存節(jié)點(diǎn)普通機(jī)器即可可伸縮性好
通過增加節(jié)點(diǎn)即擴(kuò)展容錯(cuò)性好
副本機(jī)制可編程
Map/Reduce框架適合一次寫入多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作總結(jié)之電銷頂崗實(shí)習(xí)總結(jié)
- 工作總結(jié)之車險(xiǎn)出單員實(shí)習(xí)總結(jié)
- 機(jī)器人操作系統(tǒng)(ROS2)入門與實(shí)踐 課件 第4章 ROS2機(jī)器人運(yùn)動(dòng)控制
- 銀行內(nèi)部審計(jì)工作評價(jià)制度
- 銀行合規(guī)管理制度培訓(xùn)
- 《風(fēng)景區(qū)方案分享》課件
- 文秘實(shí)踐報(bào)告
- 山東省濟(jì)南市濟(jì)陽區(qū)2024屆九年級上學(xué)期1月期末考試數(shù)學(xué)試卷(含解析)
- 第5周-七年級上冊數(shù)學(xué)華東師大版(2024)每周測驗(yàn)(含答案)
- 小學(xué)生食品安全知識主題班會模板
- 科學(xué)活動(dòng)會跳舞的鹽
- 第六單元除法 (單元測試)-2024-2025學(xué)年四年級上冊數(shù)學(xué) 北師大版
- 幼兒園手足口病教師培訓(xùn)
- 浦東機(jī)場使用手冊考試V7-R2
- 《企業(yè)內(nèi)部控制流程手冊》
- 2024時(shí)事政治考試100題及參考答案
- 2023-2024學(xué)年廣東省廣州市天河區(qū)八年級(上)期末英語試卷
- 2024年職業(yè)健康素養(yǎng)考試題庫及答案
- (新北師大版2024)2024-2025學(xué)年七年級數(shù)學(xué)上學(xué)期期中測試卷
- 塑造寵物食品品牌
- 2024年山東省青島市中考地理試題卷(含答案及解析)
評論
0/150
提交評論