




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《大數(shù)據(jù)平臺運維》課程介紹全套可編輯PPT課件《大數(shù)據(jù)平臺運維》課程整體介紹開設(shè)學期:大二上學期,專業(yè)核心課,64課時,4學分課程主要內(nèi)容:大數(shù)據(jù)概述、Hadoop偽分布式、完全分布式部署與運維,HDFS實現(xiàn)分布式存儲、MapReduce分布式計算框架應(yīng)用,Hadoop生態(tài)圈組件HBase、Hive、Spark、Flink等平臺部署與運維相關(guān)內(nèi)容。課程教學目標:知識目標:掌握Hadoop(HDFS+MapReduce)、HBase、Hive、Spark、Flink等大數(shù)據(jù)平臺的部署和運行維護方法。能力目標:具備分布式大數(shù)據(jù)平臺的部署能力;具備大數(shù)據(jù)平臺基礎(chǔ)運維能力;具備大數(shù)據(jù)集群的運行問題排查和解決的能力。素質(zhì)目標:具備良好的溝通和團隊合作能力;具備分析與解決問題的能力;具備嚴謹認真、精益求精的工匠精神、吃苦耐勞的勞動精神?!洞髷?shù)據(jù)平臺運維》本課程在人才培養(yǎng)方案的地位在人才培養(yǎng)方案中,本課程具有承上啟下的作用:《大數(shù)據(jù)平臺部署與運維》課程整體介紹考核辦法:過程性考核60%+期末考試40%考核模塊考核內(nèi)容考核形式成績比例實施策略過程性考核(60%)日??记谡n堂考勤10%突出學生的課堂表現(xiàn)和職業(yè)習慣,學生的每一次課堂突出表現(xiàn)都是其作為考核加分的機會,這有助于活躍課堂氣氛,激發(fā)學生的學習熱情和主動性。課堂表現(xiàn)學習的積極主動性、認真程度、團隊協(xié)作和解決問題的能力、專業(yè)學習研究能力、綜合應(yīng)用本課程專業(yè)知識能力20%階段性實驗任務(wù)的完成情況平時上機實驗表現(xiàn)和實驗報告的完成情況30%突出學生學習的過程性和階段性的評價,注重學生實際動手實踐能力和解決問題能力的評價,有效防止評價片面性。終結(jié)性考核(40%)本課程專業(yè)理論知識百分制考卷40%本課程知識的紙質(zhì)綜合性考核評價《大數(shù)據(jù)平臺部署與運維》單元1大數(shù)據(jù)簡介任務(wù)1.1認識大數(shù)據(jù)任務(wù)描述任務(wù)場景:中國古人有“結(jié)繩記事”“刻痕記數(shù)”,遠古時代人們需要準備石頭、樹木記載相應(yīng)的數(shù)據(jù);在公元前8000年至公元前3500年間,兩河流域有蘇美爾人的計數(shù)泥板,此時需要準備泥版;而后出現(xiàn)了紙張,出現(xiàn)了文檔;信息時代有了電子表格、數(shù)據(jù)庫,各類存儲介質(zhì)大顯身手。當今,在我們使用電商軟件購買商品的時候,你是否曾經(jīng)思考過,為什么每次自己瀏覽過的商品,就會出現(xiàn)在首頁推薦或者其他應(yīng)用軟件的廣告中呢?當我們在電商軟件上瀏覽商品時,軟件后臺會收集你的瀏覽記錄,包括用戶賬號、商品類別等信息。此刻,如果你是技術(shù)人員,你會如何將瀏覽數(shù)據(jù)存放起來?在傳統(tǒng)開發(fā)思維中很多人會選擇:關(guān)系型數(shù)據(jù)庫。但是一天幾百、幾千億的商品瀏覽數(shù)據(jù),主機需要多大的磁盤才能完成數(shù)據(jù)留存?關(guān)系型數(shù)據(jù)庫能處理這么多數(shù)據(jù)嗎?如何實時高效分析出用戶的瀏覽偏好?又如何實時反饋給用戶呢?本課程中我們將跟隨國內(nèi)某大型IT企業(yè)大數(shù)據(jù)服務(wù)部技術(shù)經(jīng)理和技術(shù)人員一起探索解決大數(shù)據(jù)平臺部署和運維相關(guān)知識。讓我們打開思維,融入大數(shù)據(jù)時代!任務(wù)描述學習內(nèi)容:(1)知大數(shù)據(jù)的概念和特點;(2)大數(shù)據(jù)的發(fā)展背景;(3)大數(shù)據(jù)技術(shù)發(fā)展歷程;(4)大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀;(5)大數(shù)據(jù)人才需求與崗位介紹;任務(wù)布置:本單元主要任務(wù)是對大數(shù)據(jù)及大數(shù)據(jù)技術(shù)有初步的了解,理解大數(shù)據(jù)的概念、大數(shù)據(jù)的發(fā)展歷程、大數(shù)據(jù)常用組件和大數(shù)據(jù)的應(yīng)用場景,樹立明確的學習目標,保持良好的學習態(tài)度,培養(yǎng)學生良好的職業(yè)定位和職業(yè)規(guī)劃能力,為后續(xù)更好的開展大數(shù)據(jù)技術(shù)學習和從事相關(guān)工作任務(wù)打下基礎(chǔ)。認識大數(shù)據(jù)知識點1大數(shù)據(jù)的概念近幾年來,隨著互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,大數(shù)據(jù)時代已經(jīng)來臨!??!下面我們觀察這么一組單位:?1970s:超大規(guī)模數(shù)據(jù)庫(VLDB)【GB=10^9字節(jié)】?21世紀初:海量數(shù)據(jù)(MassiveData)【TB=10^12字節(jié)】?2008年:Bigdata【PB=10^15字節(jié)】?現(xiàn)在實際的數(shù)據(jù)量已經(jīng)達到:ZB=10^3EB=10^6PB=10^21字節(jié)?新單位:1YB=10^3ZB=10^24字節(jié)?YB之后的單位:按順序BB、NB、DB【谷歌搜索】:Google搜索引擎包含30到500億個網(wǎng)頁。根據(jù)WebAlmanac所提供的信息,假設(shè)谷歌的年度平均頁面大小約為2.15MB,截至2021年,Google搜索引擎的數(shù)據(jù)總規(guī)模應(yīng)約為62PB。【新浪微博】2020年微博第二季度月活躍用戶數(shù)達到5.23億,同比增長3700萬用戶,其中移動端活躍用戶占月活躍用戶的94%。日活躍用戶達到2.29億,同比增加1800萬。每天微博數(shù)超過2500萬。每秒生成785條微博。知識點1:大數(shù)據(jù)的概念【大數(shù)據(jù)的概念-(維基百科)】一系列大規(guī)模、高復雜度的數(shù)據(jù)集合,它的規(guī)模和復雜程度已經(jīng)無法通過現(xiàn)有的數(shù)據(jù)庫管理工具或是傳統(tǒng)的數(shù)據(jù)處理應(yīng)用在合理的時間內(nèi)對其進行獲取、管理、存儲、檢索、分享、傳輸、分析和可視化?!究破罩袊看髷?shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)?!敬髷?shù)據(jù)技術(shù)-(IDC)】大數(shù)據(jù)技術(shù)作為新一代技術(shù)和體系架構(gòu),將能夠利用較低的成本,通過高速捕獲,發(fā)現(xiàn)并對超大量、眾多類型的數(shù)據(jù)進行分析,以獲得信息的價值。知識點1:大數(shù)據(jù)的概念大數(shù)據(jù)特點“4V”:知識點1:大數(shù)據(jù)的概念BigData格式多樣來源多樣
價值密度低據(jù)IDC預(yù)測:2025年全球數(shù)據(jù)總量將達到175ZB;中國產(chǎn)生的數(shù)據(jù)總量將達48.6ZB(澤字節(jié),簡稱ZB,1澤字節(jié)約等于10萬億億字節(jié)),占全球的27.8%;淘寶目前每天的活躍數(shù)據(jù)量已經(jīng)超過50TB,;每天超過6000萬人次訪問;每天大約要處理幾億次的用戶行為;結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化文本/音頻/圖片/視頻微博/郵件/機器日志/金融記錄/短信/通話/醫(yī)療設(shè)備/物聯(lián)網(wǎng)設(shè)備/傳感器/移動設(shè)備-沙里淘金-為了發(fā)現(xiàn)金子,要保存全部沙子速度快響應(yīng)速度快增長速度快-1秒鐘-18個月數(shù)據(jù)量大計算量大GB->TB->PB->EB->ZB認識大數(shù)據(jù)知識點2大數(shù)據(jù)的發(fā)展背景知識點2:大數(shù)據(jù)的發(fā)展背景大(巨)型機時代個人電腦時代互聯(lián)網(wǎng)時代云計算與大數(shù)據(jù)時代1945-19801980-19951995-20102010-計算模式發(fā)展過程中的四個時代:知識點2:大數(shù)據(jù)的發(fā)展背景大型機時代(1945-1980)大型計算機(巨型機) 起源于上世紀50年代。是一種超大型電子計算機,具有很強的計算和數(shù)據(jù)處理能力。優(yōu)點:高性能、大容量,配有多種外圍設(shè)備及豐富、高效的軟件系統(tǒng)。應(yīng)用尖端領(lǐng)域:國防,天氣預(yù)報,宇宙研究等。缺點:體積大、成本高、功耗大,需要投入大量的人力、物力和資金。知識點2:大數(shù)據(jù)的發(fā)展背景世界上第一臺計算機:ENIAC第一臺電子計算機終于在1946年2月14日問世由17468個電子管、6萬個電阻器、1萬個電容器和6千個開關(guān)組成,重達30噸,占地160平方米,耗電174千瓦,耗資45萬美元。這臺計算機每秒只能運行5千次加法運算,僅相當于一個電子數(shù)字積分計算機(ENIAC即"埃尼阿克")知識點2:大數(shù)據(jù)的發(fā)展背景個人電腦時代(1980-1995)優(yōu)點:成本低、功耗低,功能全,應(yīng)用軟件豐富。PC具備良好的人機交互界面,簡單易用,對計算機技術(shù)的普及,發(fā)揮了巨大的推動作用。缺點:性能較差知識點2:大數(shù)據(jù)的發(fā)展背景互聯(lián)網(wǎng)時代(1995-2010)1992年2月美國總統(tǒng)克林頓發(fā)表的國情咨文中提出:計劃用20年時間,耗資2000~4000億美元,建設(shè)美國國家信息基礎(chǔ)結(jié)構(gòu)(NII),作為美國發(fā)展政策的重點和產(chǎn)業(yè)發(fā)展的基礎(chǔ),即建設(shè)信息高速公路?;ヂ?lián)網(wǎng)時代到來。知識點2:大數(shù)據(jù)的發(fā)展背景云計算、大數(shù)據(jù)、人工智能時代(2010-至今)最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。云計算設(shè)施為海量數(shù)據(jù)的存儲和計算提供基礎(chǔ)資源。同時,大數(shù)據(jù)為人工智能的飛速發(fā)展提供數(shù)據(jù)支撐。2012年3月,我國科技部發(fā)布的“十二五國家科技計劃信息技術(shù)領(lǐng)域2013年度備選項目征集指南”把大數(shù)據(jù)研究列在首位。中國分別舉辦了第一屆(2011年)和第二屆(2012年)“大數(shù)據(jù)世界論壇”。IT時代周刊等舉辦了“大數(shù)據(jù)2012論壇”,中國計算機學會舉辦了“CNCC2012大數(shù)據(jù)論壇”。國家科技部,863計劃信息技術(shù)領(lǐng)域2015年備選項目包括超級計算機、大數(shù)據(jù)、云計算、信息安全、第五代移動通信系統(tǒng)(5G)等。2015年8月31日,國務(wù)院正式印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》。為貫徹落實《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》和《促進大數(shù)據(jù)發(fā)展行動綱要》,加快實施國家大數(shù)據(jù)戰(zhàn)略,推動大數(shù)據(jù)產(chǎn)業(yè)健康快速發(fā)展,2017年國家工信部編制了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》;2017年十九大報告中提出要推動大數(shù)據(jù)與實體經(jīng)濟深度融合。知識點2:大數(shù)據(jù)的發(fā)展背景2020年在《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》中,大數(shù)據(jù)被正式列為新型生產(chǎn)要素。
2021《“十四五”發(fā)展規(guī)劃》中,提出完善大數(shù)據(jù)標準體系建設(shè)。
2021年6月,我國正式發(fā)布《中華人民共和國數(shù)據(jù)安全法》,于2021年9月1日起正式施行?!稊?shù)據(jù)安全法》作為數(shù)據(jù)領(lǐng)域的基礎(chǔ)性法律,聚焦數(shù)據(jù)安全領(lǐng)域的風險隱患,確立了數(shù)據(jù)分類分級管理、數(shù)據(jù)安全審查、數(shù)據(jù)安全風險評估、監(jiān)測預(yù)警和應(yīng)急處置等基本制度,提升國家數(shù)據(jù)安全保障能力。
知識點2:大數(shù)據(jù)的發(fā)展背景認識大數(shù)據(jù)知識點3大數(shù)據(jù)技術(shù)的發(fā)展歷程知識點3:大數(shù)據(jù)技術(shù)的發(fā)展歷程
Hadoop被公認為行業(yè)大數(shù)據(jù)標準開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop。
Hadoop最初是由ApacheLucene項目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自于2002年的ApacheNutch項目——一個開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項目的一部分。在2004年,Nutch項目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS(NutchDistributedFileSystem),也就是HDFS的前身
2004年,谷歌公司又發(fā)表了另一篇具有深遠影響的論文,闡述了MapReduce分布式編程思想
2005年,Nutch開源實現(xiàn)了谷歌的MapReduce。知識點3:大數(shù)據(jù)技術(shù)的發(fā)展歷程
大數(shù)據(jù)技術(shù)的體系龐大且復雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、并行計算、可視化等各種技術(shù)范疇和不同的技術(shù)層面,例如:文件存儲:HadoopHDFS、Tachyon、KFS離線計算:HadoopMapReduce、Spark流式、實時計算:Storm、SparkStreaming、S4、HeronK-V、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB資源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ分布式協(xié)調(diào)服務(wù):Zookeeper集群管理與監(jiān)控:Ambari、Ganglia、Nagios、ClouderaManager數(shù)據(jù)挖掘、機器學習:Mahout、SparkMLLib數(shù)據(jù)同步:Sqoop任務(wù)調(diào)度:Oozie查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid知識點3:大數(shù)據(jù)技術(shù)的發(fā)展歷程Hadoop生態(tài)圈及其核心組件知識點3:大數(shù)據(jù)技術(shù)的發(fā)展歷程時間主流大數(shù)據(jù)技術(shù)發(fā)展歷程2003年10月Google發(fā)表GoogleFileSystem論文2004年10月Google發(fā)表了MapReduce論文2006年2月Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展2006年11月Google發(fā)表了Bigtable論文,這最終激發(fā)了Hbase的創(chuàng)建2007年10月第一個Hadoop用戶組會議召開,社區(qū)貢獻開始急劇上升2008年1月Hadoop成為Apache頂級項目2008年6月Hadoop的第一個SQL框架——Hive成為了Hadoop的子項目2008年11月ApachePig的最初版本發(fā)布2009年10月首屆HadoopWorld大會在紐約召開2010年5月HBase脫離Hadoop項目,成為Apache頂級項目2010年9月Hive(Facebook)脫離Hadoop,成為Apache頂級項目2010年9月Pig脫離Hadoop,成為Apache頂級項目2010-2011年擴大的Hadoop社區(qū)忙于建立大量的新組件(Crunch,Sqoop,F(xiàn)lume,Oozie等)來擴展Hadoop的使用場景和可用性2011年1月ZooKeeper脫離Hadoop,成為Apache頂級項目2012年3月重要功能HDFSNameNodeHA被加入Hadoop主版本2012年8月另外一個重要的企業(yè)適用功能YARN成為Hadoop子項目2012年10月第一個Hadoop原生MPP查詢引擎Impala加入Hadoop生態(tài)2014年2月Spark逐漸代替MapReduce成為Hadoop的缺省執(zhí)行引擎,并成為Apache基金會頂級項目2017年12月繼Hadoop3.0.0的四個Alpha版本和一個Beta版本后,第一個可用的Hadoop3.0.0版本發(fā)布認識大數(shù)據(jù)知識點4大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀大數(shù)據(jù)是21世紀的鉆石礦,隨著經(jīng)濟的發(fā)展和科技的進步,大數(shù)據(jù)受到了越來越多行業(yè)的關(guān)注,應(yīng)用了大數(shù)據(jù)的行業(yè)和領(lǐng)域發(fā)展速度大幅提升,并且還大大提升了這些行業(yè)和領(lǐng)域的發(fā)展空間。大數(shù)據(jù)的應(yīng)用除了給人們的生產(chǎn)生活帶來便利之外,也有效促進了經(jīng)濟的發(fā)揮,提升了綜合國力。大數(shù)據(jù)最聞名于互聯(lián)網(wǎng)行業(yè)的應(yīng)用,目前已經(jīng)在金融、電信、政府、醫(yī)療、能源、零售等各行各業(yè)中得到了廣泛的應(yīng)用。金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀公司具體應(yīng)用阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。阿里的飛天大數(shù)據(jù)平臺由全球范圍的上百萬臺服務(wù)器組成集群百度HADOOP集群主要應(yīng)用日志分析,同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。Facebook主要用于存儲內(nèi)部日志的拷貝,作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。主要使用了2個集群:一個由1100臺節(jié)點組成的集群,包括8800核CPU(即每臺機器8核),和12000TB的原始存儲(即每臺機器12T硬盤),一個有300臺節(jié)點組成的集群,包括2400核CPU(即每臺機器8核),和3000TB的原始存儲(即每臺機器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項目:HIVETWITTER使用HADOOP用于存儲微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲壓縮后的數(shù)據(jù)文件(LZO格式)雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索集群機器數(shù):
4000
個節(jié)點
(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)技術(shù)應(yīng)用知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長迅速:隨著業(yè)務(wù)的迅猛增長,業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲、系統(tǒng)維護、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過從數(shù)據(jù)倉庫提取數(shù)據(jù),改進和推動有針對性的營銷活動。采用大數(shù)據(jù)方案后價值體現(xiàn)實時的商業(yè)智能可以結(jié)合實時、歷史數(shù)據(jù)進行全局分析,風險管理部門現(xiàn)在可以每天評估客戶的行為,并決定對客戶的信用額度在同一天進行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對的進行營銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進行了1286個宣傳活動,每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum金融行業(yè):中信銀行信用卡中心大數(shù)據(jù)應(yīng)用知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀
在中國移動“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲和分析平臺,在技術(shù)路線方面,選擇數(shù)據(jù)倉庫與Hadoop混搭的方式,借鑒關(guān)系型數(shù)據(jù)倉庫在傳統(tǒng)應(yīng)用支持方面以及在復雜查詢和分析方面的快速響應(yīng)能力,同時也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲的低成本。屏蔽Hadoop與數(shù)據(jù)倉庫的使用細節(jié),讓用戶在使用這些數(shù)據(jù)時盡量無感知;在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換效率,同時降低成本。
電信行業(yè):中國移動的大數(shù)據(jù)應(yīng)用知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀
2013年1月29日,住房和城鄉(xiāng)建設(shè)部公布了首批90個國家智慧城市試點名單,試點城市的公布標志著我國智慧城市發(fā)展進入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段,主要的應(yīng)用還處于對感知設(shè)備傳遞的信息進行簡單處理的水平,充分認識大數(shù)據(jù)對于智慧城市建設(shè)的關(guān)鍵作用,對于避免智慧城市建設(shè)中出現(xiàn)“重感知,輕智慧”的通病具有重要意義。
從智慧城市的體系結(jié)構(gòu)來看,由于智慧城市的基礎(chǔ)在于物聯(lián)網(wǎng)技術(shù),因此智慧城市體系架構(gòu)和物聯(lián)網(wǎng)的體系結(jié)構(gòu)相類似,也可分為四層,分別為感知層、傳輸層、平臺層、應(yīng)用層。智慧城市相對于之前數(shù)字城市概念,最大的區(qū)別在于對感知層獲取的信息進行了智慧的處理,因此也可以認為智慧城市是數(shù)字城市的升級版。由城市數(shù)字化到城市智慧化,關(guān)鍵是要實現(xiàn)對數(shù)字信息的智慧處理,其核心是大數(shù)據(jù)處理技術(shù)。政府:智慧城市建設(shè)的大數(shù)據(jù)應(yīng)用知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來自于PACS影像、B超、病理分析等業(yè)務(wù)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。人體不同部位、不同??朴跋竦臄?shù)據(jù)文件大小不一,PACS網(wǎng)絡(luò)存儲和傳輸要采取不同策略。面對大數(shù)據(jù),醫(yī)療行業(yè)遇到前所未有的挑戰(zhàn)和機遇。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景非常多,右圖僅以臨床操作和研發(fā)為例,展示醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景。對于公共衛(wèi)生部門,可以通過過覆蓋全國的患者電子病歷數(shù)據(jù)庫,快速檢測傳染病,進行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應(yīng)程序,快速進行響應(yīng)。比較效果研究臨床操作臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度遠程病人監(jiān)控研發(fā)預(yù)測建模提高臨床試驗設(shè)計的統(tǒng)計工具和算法疾病模式的分析醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀能源行業(yè)大數(shù)據(jù)應(yīng)用能源行業(yè)數(shù)據(jù)特征能源勘探開發(fā)數(shù)據(jù)的類型眾多,不同類型數(shù)據(jù)包含的信息各具特點,綜合各種數(shù)據(jù)所包含的信息才能得出地下真實的地質(zhì)狀況。能源行業(yè)面臨的大數(shù)據(jù)問題能源行業(yè)企業(yè)對大數(shù)據(jù)產(chǎn)品和解決方案的需求集中體現(xiàn)在:可擴展存儲、高帶寬、可處理不同格式數(shù)據(jù)的分析方案。知識點4:大數(shù)據(jù)的意義和應(yīng)用現(xiàn)狀第一:大數(shù)據(jù)自身能夠創(chuàng)造出更多的價值。大數(shù)據(jù)相關(guān)技術(shù)緊緊圍繞數(shù)據(jù)價值化展開,數(shù)據(jù)價值化將開辟出廣大的市場空間,重點在于數(shù)據(jù)本身將為整個信息化社會賦能。目前在互聯(lián)網(wǎng)領(lǐng)域,大數(shù)據(jù)技術(shù)已經(jīng)得到了較為廣泛的應(yīng)用。第二:大數(shù)據(jù)推動科技領(lǐng)域的發(fā)展。大數(shù)據(jù)的發(fā)展正在推動科技領(lǐng)域的發(fā)展進程,大數(shù)據(jù)的影響不僅僅體現(xiàn)在互聯(lián)網(wǎng)領(lǐng)域,也體現(xiàn)在金融、教育、醫(yī)療等諸多領(lǐng)域。在人工智能研發(fā)領(lǐng)域,大數(shù)據(jù)也起到了重要的作用,尤其在機器學習、計算機視覺和自然語言處理等方面,大數(shù)據(jù)正在成為智能化社會的基礎(chǔ)。第三:大數(shù)據(jù)產(chǎn)業(yè)鏈逐漸形成。經(jīng)過近些年的發(fā)展,大數(shù)據(jù)已經(jīng)初步形成了一個較為完整的產(chǎn)業(yè)鏈,包括數(shù)據(jù)采集、整理、傳輸、存儲、分析、呈現(xiàn)和應(yīng)用,眾多企業(yè)開始參與到大數(shù)據(jù)產(chǎn)業(yè)鏈中,并形成了一定的產(chǎn)業(yè)規(guī)模。
第四:產(chǎn)業(yè)互聯(lián)網(wǎng)將推動大數(shù)據(jù)落地。當前互聯(lián)網(wǎng)正在經(jīng)歷從消費互聯(lián)網(wǎng)向產(chǎn)業(yè)互聯(lián)網(wǎng)過渡,產(chǎn)業(yè)互聯(lián)網(wǎng)將利用大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等技術(shù)來賦能廣大的傳統(tǒng)產(chǎn)業(yè),可以說產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展空間非常大,而大數(shù)據(jù)則是產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展的一個重點,在產(chǎn)業(yè)互聯(lián)網(wǎng)階段,大數(shù)據(jù)將逐漸落地,也必然落地。認識大數(shù)據(jù)知識點5大數(shù)據(jù)人才需求與崗位介紹知識點5:大數(shù)據(jù)人才需求與崗位介紹大數(shù)據(jù)產(chǎn)業(yè)指以數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務(wù)為主的相關(guān)經(jīng)濟活動,包括數(shù)源建設(shè)、大數(shù)據(jù)軟硬件產(chǎn)品的開發(fā)、銷售和租賃活動,以及相關(guān)信息技術(shù)服務(wù)。大數(shù)據(jù)通過數(shù)據(jù)流引領(lǐng)及影響社會的組織分工,促進生產(chǎn)要素的變革,是推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力。同時其持續(xù)創(chuàng)新商業(yè)模式,不斷催生新業(yè)態(tài),已成為互聯(lián)網(wǎng)等新興領(lǐng)域促進業(yè)務(wù)創(chuàng)新增值、提升企業(yè)核心價值的重要驅(qū)動力。大數(shù)據(jù)產(chǎn)業(yè)正在成為新的經(jīng)濟增長點,將對未來信息產(chǎn)業(yè)格局產(chǎn)生重要影響。2020年全球大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模已達到560億美元,且增長率在10%以上。知識點5:大數(shù)據(jù)人才需求與崗位介紹根據(jù)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展情況,我國大數(shù)據(jù)技術(shù)職業(yè)崗位對人員的需求主要集中于互聯(lián)網(wǎng)服務(wù)、電子信息服務(wù)、軟件開發(fā)三大領(lǐng)域。按照調(diào)研企業(yè)提供的大數(shù)據(jù)崗位相關(guān)工作內(nèi)容,可以把大數(shù)據(jù)崗位分為初級分析、挖掘算法、開發(fā)運維、產(chǎn)品運營四大類,具體招聘崗位類的數(shù)量分布如下圖所示。其中開發(fā)運維類主要包括大數(shù)據(jù)開發(fā)工程師、大數(shù)據(jù)結(jié)構(gòu)工程師、大數(shù)據(jù)運維工程師、數(shù)據(jù)可視化工程師等。知識點5:大數(shù)據(jù)人才需求與崗位介紹從技術(shù)類崗位典型工作任務(wù)分析情況來看,平臺部署與配置、系統(tǒng)運維、數(shù)據(jù)分析和系統(tǒng)開發(fā)工作都是主要的典型工作任務(wù),并且這些任務(wù)的重要程度也較高;另外,系統(tǒng)設(shè)計工作和數(shù)據(jù)與網(wǎng)絡(luò)安全管理雖然占比相對不高,但非常重要程度較高,說明這類任務(wù)相對比較精、專,對相應(yīng)的技術(shù)技能要求也較高。技術(shù)類崗位典型工作任務(wù)如下圖所示:知識點5:大數(shù)據(jù)人才需求與崗位介紹從企業(yè)大數(shù)據(jù)專業(yè)相關(guān)崗位類型分布情況來看,如下圖所示,技術(shù)類崗位主要是大數(shù)據(jù)運維、數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)可視化和應(yīng)用開發(fā)類崗位;管理類崗位主要是項目管理、產(chǎn)品經(jīng)理、數(shù)據(jù)庫管理和系統(tǒng)管理類崗位;服務(wù)類崗位主要是運營類、客戶技術(shù)支持類崗位。知識點5:大數(shù)據(jù)人才需求與崗位介紹企業(yè)對大數(shù)據(jù)專業(yè)相關(guān)崗位需要的認證,綜合來看企業(yè)對編程語言Java、Python相關(guān)認證、數(shù)據(jù)庫運維與管理類的認證需求較高,對大數(shù)據(jù)平臺運維和數(shù)據(jù)分析等相關(guān)認證也有一定需求。結(jié)合企業(yè)關(guān)注的崗位類型和典型工作任務(wù)分析,這些認證對應(yīng)的技術(shù)技能都是崗位的基礎(chǔ)必備技術(shù)技能?!洞髷?shù)據(jù)平臺部署與運維》單元2Hadoop偽分布式安裝部署任務(wù)2.1搭建Hadoop偽分布式01Hadoop的發(fā)展歷程與應(yīng)用現(xiàn)狀02Hadoop優(yōu)勢與核心組成學習目標03Hadoop安裝方式04Hadoop各版本選擇05Hadoop偽分布式搭建基本流程搭建Hadoop偽分布式【任務(wù)場景】經(jīng)理:我們公司現(xiàn)在數(shù)據(jù)量不斷上升,現(xiàn)有的架構(gòu)需要升級,小張你有什么意見?小張:Hadoop適合應(yīng)用于大數(shù)據(jù)存儲和大數(shù)據(jù)分析的應(yīng)用,適合于服務(wù)器幾千臺到幾萬臺的集群運行,支持PB級的存儲容量。Hadoop典型應(yīng)用有:搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。經(jīng)理:對,Hadoop目前已經(jīng)取得了非常突出的成績。隨著互聯(lián)網(wǎng)的發(fā)展,新的業(yè)務(wù)模式還將不斷涌現(xiàn),Hadoop的應(yīng)用會從互聯(lián)網(wǎng)領(lǐng)域向電信、電子商務(wù)、銀行、生物制藥等領(lǐng)域拓展。小張:好的,那我先部署一套偽分布式環(huán)境。搭建Hadoop偽分布式【任務(wù)布置】Hadoop是由Java語言開發(fā)的,所以Hadoop的部署和運行都依賴JDK,因此必須先將部署前基礎(chǔ)環(huán)境準備完成。本次任務(wù)要求在單節(jié)點上部署偽分布式Hadoop。一般在測試場景下經(jīng)常會部署單節(jié)點的偽分布式Hadoop,理解并掌握Hadoop偽分布式的安裝部署,可以為后續(xù)生產(chǎn)環(huán)境下部署Hadoop分布式集群打下基礎(chǔ)。Hadoop的發(fā)展歷程與應(yīng)用現(xiàn)狀Hadoop是Apache軟件基金會旗下的一個開源分布式存儲和計算平臺,是基于Java語言開發(fā)的,有很好的跨平臺性。Hadoop以分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)和MapReduce(GoogleMapReduce的開源實現(xiàn))為核心,為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應(yīng)用程序。Hadoop概述Hadoop這個名字不是一個縮寫,它是一個虛構(gòu)的名字。該項目的創(chuàng)建者DougCutting解釋Hadoop的得名:“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短,容易發(fā)音和拼寫,沒有太多的意義,并且不會被用于別處,小孩子恰恰是這方面的高手?!盚adoop的發(fā)音是[h?du:p]。ApacheHadoop官方網(wǎng)站Inpioneerdaystheyusedoxenforheavypulling,andwhenoneoxcouldn’tbudgealog,theydidn’ttrytogrowalargerox.Weshouldn’tbetryingforbiggercomputers,butformoresystemsofcomputers.(在拓荒時期,他們用牛來拉重物,當一頭牛不能移動一根原木時,他們就不會試圖讓一頭牛長得更大。我們不應(yīng)該嘗試更大的計算機,而是嘗試更多的計算機系統(tǒng)。)—GraceHopperHadoop優(yōu)勢與核心組成Hadoop發(fā)展:2002年Hadoop的源頭是ApacheNutch搜索引擎項目2003年Google發(fā)布了關(guān)于GFS的論文20042005年2006年2007年Nutch的開發(fā)者發(fā)布了NDFSGoogle公司發(fā)表了MapReduce,最初版本問世Nutch移植到新的框架,Hadoop在20個節(jié)點上穩(wěn)定運行DougCutting加入Yahoo,ApacheHadoop項目正式啟動以支持MapReduce和HDFS從Nutch中獨立處理發(fā)展。研究集群達到兩個1000個節(jié)點的集群2009年Cloudera推出CDHMapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項目的獨立子項目2011年Hadoop1.0問世,標志著Hadoop已經(jīng)初具生成規(guī)模2016年Hadoop3.0問世,正式進入3.x時代2008年Hadoop成為Apache頂級項目。Hive成為Apache子項目2010年Avro、Hbase、Hive、Pig脫離Hadoop項目,成為Apache頂級項目2013年Hadoop2.0問世,正式進入2.x時代Hadoop優(yōu)勢與核心組成Hadoop優(yōu)點:Hadoop是一個能讓用戶輕松開發(fā)和運行處理大數(shù)據(jù)的分布式平臺。它主要是有以下幾個優(yōu)點:(1)高可靠性;Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。(2)高擴展性;Hadoop是在可用的計算機集群間分配數(shù)據(jù)并完成計算任務(wù)的,這些集群可以方便地擴展到數(shù)以千計的節(jié)點中。(3)高效性;Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁#?)高容錯性;Hadoop能夠自動保存數(shù)據(jù)的多份副本,并且能夠自動將失敗的任務(wù)重新分配。Hadoop優(yōu)勢與核心組成Hadoop核心組成:在當下,Hadoop已經(jīng)形成了一個龐大的體系,有數(shù)據(jù)的地方基本都會看到Hadoop的身影。目前的Hadoop逐漸演化出來兩種分類,廣義的Hadoop和狹義的Hadoop。狹義的Hadoop主要包括三大部分:HDFS(分布式文件系統(tǒng)),MapReduce(分布式計算系統(tǒng)),YARN(資源管理器)。廣義的Hadoop是指Hadoop的生態(tài)系統(tǒng),是一個龐大的體系,Hadoop只是其中最重要最基礎(chǔ)的部分,生態(tài)系統(tǒng)中的每個子系統(tǒng)只負責解決某個特定的問題域。Hadoop生態(tài)系統(tǒng)圖Hadoop優(yōu)勢與核心組成項目介紹分布式文件系統(tǒng)HDFSHDFS是Hadoop的存儲系統(tǒng),采用了主從(Master/Worker)結(jié)構(gòu)模型,一個HDFS集群環(huán)境是由一個NameNode和若干的DataNode組成的。HDFS能夠?qū)崿F(xiàn)對文件的操作,如刪除文件、移動文件等功能。HDFS提供了高可靠性(多副本實現(xiàn))、高擴展性(添加機器進行線性擴展)、高吞吐率的數(shù)據(jù)存儲服務(wù)。分布式計算框架MapReduceMapReduce是一個分布式、并行處理的編程模型,他方便了編程人員將自己的程序部署到分布式系統(tǒng)中,MapReduce采用了“分而治之”的基本思想,他將一個大的任務(wù)分解成多個小的任務(wù),分發(fā)到集群中不同計算機中,提高完成效率YARN(資源管理器)YARN是在Hadoop2.x中誕生的,他對Hadoop1.x中JobTracker和TaskTracker模型的優(yōu)化而誕生的,主要負責整個系統(tǒng)化的資源管理和調(diào)度,并且在YARN上能夠運行不同類型的執(zhí)行框架。Hive基于Hadoop的數(shù)據(jù)倉庫Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,由Facebook開源。Hive讓不熟悉MapReduce的開發(fā)人員編寫數(shù)據(jù)查詢語句(SQL語句),它會將其翻譯為Hadoop中的MapReduce作業(yè),并提交到Hadoop集群中運行。HBase(分布式數(shù)據(jù)庫)HBase是建立在HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng)。HBase是谷歌BigTable的開源實現(xiàn),通過Java語言進行編程,主要用來存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。ZooKeeper(分布式協(xié)作服務(wù))ZooKeeper是Hadoop的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Hadoop和HBase的重要組件,提供的功能包括:配置維護、域名服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標就是封裝好復雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Hadoop優(yōu)勢與核心組成項目介紹Sqoop(數(shù)據(jù)同步工具)Sqoop是一個連通性工具,用于在關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫(Hive)與Hadoop之間數(shù)據(jù)轉(zhuǎn)移框架Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))Pig是用于并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。他是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫,定義了一種數(shù)據(jù)流語言–PigLatin。Pig突出的特點就是它的結(jié)構(gòu)經(jīng)得起大量并行任務(wù)的檢驗,這使得它能夠處理大規(guī)模數(shù)據(jù)集。Mahout(數(shù)據(jù)挖掘算法庫)Mahout是機器學習和數(shù)據(jù)挖掘的庫。它實現(xiàn)了三大算法:推薦、聚類、分類。Flume(日志收集工具)Flume是Cloudera開源的日志收集系統(tǒng),他具有分布式、高可靠、高容錯、易于定制和擴展的特點,是基于流式數(shù)據(jù)流的簡單而靈活的架構(gòu)。它具有可靠的可靠性機制以及許多故障轉(zhuǎn)移和恢復機制,具有強大的容錯性和容錯能力。Oozie(作業(yè)流調(diào)度系統(tǒng))Oozie是一個用于管理ApacheHadoop作業(yè)的工作流調(diào)度程序系統(tǒng),能夠提供對HadoopMapReduce和PigJobs的任務(wù)調(diào)度與協(xié)調(diào)。Oozie工作流是放置在控制依賴DAG(有向無環(huán)圖)中的一組動作,需要部署到JavaServlet容器中運行。Hadoop優(yōu)勢與核心組成3.Hadoop安裝方式Hadoop安裝部署有以下三種模式:1.單機部署,Hadoop默認模式、即非分布式模式(本地模式),沒有守護進程,不分主從節(jié)點,這種部署方式非常少用。2.偽分布式部署,主從節(jié)點都在一臺主機上,可用在本機模擬一個主節(jié)點、一個從節(jié)點的集群。本單元以偽分布式模式進行Hadoop搭建。3.完全分布式集群部署,有多個節(jié)點,主從進程分別在不同的機器上運行。Hadoop各版本選擇1.Hadoop1.02011年,Hadoop1.0問世,由分布式存儲系統(tǒng)HDFS和分布式計算框架MapReduce組成。其中HDFS由一個NameNode和多個DateNode組成,MapReduce由一個JobTracker和多個TaskTracker組成。在實際的使用過程中,Hadoop1.x逐漸的暴露出許多問題:(1)主節(jié)點故障問題,HDFS和MapReduce都是主從結(jié)構(gòu),他們的主節(jié)點都是單節(jié)點結(jié)構(gòu),一旦主節(jié)點出現(xiàn)問題,導致集群癱瘓。(2)注銷速度問題,MapReduce的主節(jié)點JobTracker完成太多任務(wù),當MapReduce任務(wù)非常多時,造成非常大的內(nèi)存開銷。(3)服務(wù)器利用率不高,MapReduce主要分為兩個階段,一個為Map,一個為Reduce。在MapReduce時執(zhí)行時,大部分Reduce任務(wù)需要等待Map任務(wù)完成計算才能開始。(4)存儲文件格式單一問題,HDFS存儲的數(shù)據(jù)都是按照Block來存儲的,整個存儲只有這一個格式,而企業(yè)的數(shù)據(jù)是多種多樣的,存儲起來不但麻煩還造成資源的浪費。Hadoop各版本選擇MapReduce1.0架構(gòu)圖關(guān)鍵詞含義Client
客戶端JobTrackerMaster節(jié)點,責資源監(jiān)控和作業(yè)調(diào)度,并監(jiān)管所有的TaskTrackerTaskTrackerWorker節(jié)點,接收JobTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作TaskScheduler任務(wù)調(diào)度器Hearbeat心跳機制MapTask解析每條數(shù)據(jù)記錄,傳遞給用戶編寫的map(),并執(zhí)行,將輸出結(jié)果寫入本地磁盤(如果為map-only作業(yè),直接寫入HDFS)ReduceTask從MapTask的執(zhí)行結(jié)果中,遠程讀取輸入數(shù)據(jù),對數(shù)據(jù)進行排序,將數(shù)據(jù)按照分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行Hadoop各版本選擇關(guān)鍵詞含義NameNode名字節(jié)點,管理文件系統(tǒng)命名空間的主服務(wù)器。DataNode數(shù)據(jù)節(jié)點,存儲文件塊replication文件塊的副本,目的是確保數(shù)據(jù)存儲的可靠性Rack機架,可以理解為兩個處于不同地方的機群,每個機群內(nèi)部有自己的連接方式Client通過指令或代碼操作的一端都是客戶端Client的Read從HDFS下載文件到本地Client的Write上傳文件到HDFS上HDFS1.0架構(gòu)圖Hadoop各版本選擇Hadoop2.0Hadoop1.0到Hadoop2.0架構(gòu)變化圖2013年,Hadoop2.0問世,Hadoop2.0是為了解決Hadoop1.0中的出現(xiàn)的問題而提出的,內(nèi)核主要由HDFS、MapReduce和YARN三個系統(tǒng)組成。針對Hadoop1.0中HDFS主節(jié)點故障問題,提出了HDFSFederation,兼容多個NameNode,讓多個NameNode分管不同的目錄來進行訪問的隔離和節(jié)點的橫向擴展,這樣就解決了HDFS單節(jié)點問題。針對MapReduce主節(jié)點故障和框架支持問題,將MapReduce的功能分開了,只保留了數(shù)據(jù)處理,將集群資源管理放到了Yarn中,誕生了全新的通用資源管理框架YARN。在MapReduce2.0中,具有和MapReduce1.0相同的編程模型和數(shù)據(jù)引擎處理,但是在運行時環(huán)境上引入全新的資源管理框架YARN,MapReduce變成了一個純粹的計算框架,不再負責管理。YARN是Hadoop2.0中資源管理系統(tǒng),負責資源管理和調(diào)度。他將JobTracker的資源管理和作業(yè)調(diào)度拆分成兩個獨立的進程,ApplicationMaster和ResourceManager。在Hadoop2.x中對HDFS做了改進,可以使NameNode橫向擴展成多個,每個NameNode分管部分目錄,誕生了HDFSFederation。組件Hadoop1.0問題Hadoop2.0改進HDFS單一名稱節(jié)點,存在單點失效問題設(shè)計了HDFSHA,提供名稱節(jié)點熱備機制HDFS單一命名空間,無法實現(xiàn)資源隔離設(shè)計了HDFSFederation,管理多個命名空間MapReduce資源管理效率低設(shè)計了新的資源管理框架YARNHadoop各版本選擇Hadoop3.02016年,Hadoop3.0問世,Hadoop3.0中引入了一些重要的功能和優(yōu)化,包括HDFS可擦除編碼、多Namenode支持、MRNativeTask優(yōu)化、YARN基于cgroup的內(nèi)存和磁盤IO隔離、YARNcontainerresizing等。Hadoop3.0新特性:Java版本升級Hadoop3.0要求Java版本最低版本不低于1.8,有以往的Java版本不再支持Hadoop版本JDK1.6JDK1.7JDK1.8Hadoop1.x√××Hadoop2.x√√×Hadoop3.x××√2.部分服務(wù)默認端口修改在以往版本中,多個Hadoop服務(wù)的默認端口在Linux臨時端口范圍內(nèi)(32768-61000)。這意味著在啟動時,服務(wù)有時會由于與另一個應(yīng)用程序沖突而無法綁定到端口分類應(yīng)用Haddop2.xportHaddop3.xportNNportsNameNode8020/90009820NNHTTPUI500709870NNHTTPSUI504709871SNNportsSNNHTTP500919869SNNHTTPUI500909868DNportsDNIPC500209867DN500109866DNHTTPUI500759864DNHTTPSUI504759865Hadoop各版本選擇HDFS支持糾刪碼YARN時間線服務(wù)v.2Shell腳本重寫重構(gòu)HadoopClientJar包MapReduce任務(wù)級原生優(yōu)化支持兩個以上的NameNode支持與MicrosoftAzureDataLake和Aliyun對象存儲系統(tǒng)進行集成DataNode內(nèi)平衡器重新設(shè)計的守護進程和任務(wù)堆管理S3Guard:S3A文件系統(tǒng)客戶端的一致性和元數(shù)據(jù)緩存基于HDFS路由器的聯(lián)合基于API的CapacityScheduler隊列配置配置YARN資源類型Hadoop偽分布式搭建基本流程Hadoop偽分布式安裝,是指在一個節(jié)點(即一臺主機或服務(wù)器)上安裝和部署HDFS和MapReduce+Yarn。實際上,偽分布式模式可以看成是單節(jié)點的完全分布式模式。Hadoop偽分布式搭建基本流程1.防火墻配置
Centos7使用Firewalld命令來操作防火墻,在Hadoop偽分布式搭建中,一般都選在局域網(wǎng)中進行搭建,沒有安全性考慮,因此關(guān)閉防火墻一般也不會存在安全隱患。2.SELinux配置
SELinux是安全增強型Linux(Security-EnhancedLinux)簡稱,它是一個Linux內(nèi)核模塊,也是Linux的一個安全子系統(tǒng)。為了避免安裝過程出現(xiàn)各種錯誤,建議關(guān)閉。主機名配置
為了更方便的管理項目,建議對每個節(jié)點的主機名進行修改。4.SSH(secureshell)免密碼登錄配置
不管是Hadoop的偽分布還是全分布,Hadoop的名稱結(jié)點(NameNode)都需要啟動集群中所有機器的Hadoop守護進程,而這個過程可以通過SSH登錄來實現(xiàn)。由于Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺機器,就需要對其進行SSH的免密登錄配置。Hadoop偽分布式搭建基本流程5.JDK1.8配置 Hadoop是基于Java語言開發(fā)的,使用Java首先要安裝JDK(JavaDevelopmentKit),即Java開發(fā)工具,安裝完JDK還需要進行配置環(huán)境變量(PATH,CLASSPATH,JAVA_HOME)。6.Hadoop3.1.1偽分布式安裝配置 Hadoop3可以通過Hadoop官網(wǎng)下載,請下載hadoop-3.1.1.tar.gz格式文件,這種格式已經(jīng)編譯好,另一個包含src的則是Hadoop源代碼,需要進行編譯才可使用。 Hadoop目錄,一共有7個目錄和3個txt說明文件,bin和sbin是可執(zhí)行文件的目錄,etc放的是配置文件目錄,include、lib和libexec均是放一些類庫的目錄,share是放一些共享類庫和jar包的。
在安裝Hadoop后,需要對Hadoop進行配置,這些配置文件存放在Hadoop目錄下的./etc/hadoop文件夾中。7.HDFS格式化配置
首次啟動前需要進行格式化。格式化本質(zhì)是進行文件系統(tǒng)的初始化操作,創(chuàng)建一些Hadoop自己所需要的文件。格式化之后且啟動成功后,后續(xù)再也不需要進行格式化。格式化的操作在HDFS集群的主角色(NameNode)所在機器上操作。8.啟動偽分布Hadoop
Hadoop在格式化成功以后,接著開啟NameNode和DataNode守護進程,在Hadoop目錄下通過./sbin/start-dfs.sh命令啟動。通過WebUI監(jiān)控Hadoop平臺
當Hadoop成功啟動并通過jps可以看到指定進程后,可以訪問Web界面來查看HDFS和MapReduce相關(guān)信息。10.常見問題匯總搭建Hadoop偽分布式【工作流程】搭建偽分布式Hadoop的基本工作流程包括:關(guān)閉防火墻關(guān)閉SELinux修改主機名配置SSH(secureshell)免密碼登錄安裝配置JDK1.8安裝配置Hadoop搭建Hadoop偽分布式【操作步驟】1.關(guān)閉防火墻[root@localhost/]#/usr/sbin/sestatus-vSELinuxstatus:enforcing#臨時關(guān)閉SELinux[root@localhost/]#setenforce02.關(guān)閉SELinux[root@localhost
/]#systemctlstatusfirewalld●firewalld.service-firewalld-dynamicfirewalldaemonLoaded:loaded(/usr/lib/systemd/system/firewalld.service;disabled;vendorpreset:enabled)Active:active(running)sinceThu2021-11-1812:39:24UTC;1sagoDocs:man:firewalld(1)MainPID:31240(firewalld)Tasks:2Memory:28.1MCGroup:/system.slice/firewalld.service└─31240/usr/bin/python2-Es/usr/sbin/firewalld--nofork--nopid#關(guān)閉防火墻[root@localhost
/]#systemctlstopfirewalld#禁止開啟啟動[root@localhost
/]#systemctldisablefirewalld搭建Hadoop偽分布式4.配置SSH(secureshell)免密碼登錄[root@localhost/]#hostnamelocalhost#臨時修改主機名稱[root@localhost/]#hostnamectlset-hostname主機名#配置主機名與IP地址的映射,在文件末尾添加主機名與IP之間的映射關(guān)系[root@localhost/]#gedit
/etc/hosts當前主機IPlocalhost3.修改主機名稱,并配置主機名和IP地址的映射#生成秘鑰[root@localhost/]ssh-keygen-trsa#輸入后按照提示回車,直到完成命令Generatingpublic/privatersakeypair.Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):#直接回車Enterpassphrase(emptyfornopassphrase):#直接回車Entersamepassphraseagain:#直接回車Youridentificationhasbeensavedin/root/.ssh/id_rsa.Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.Thekeyfingerprintis:SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38root@node1Thekey'srandomartimageis:+---[RSA2048]----+|+*O*=.||.o=+=o+||...O+=||..**.%o||Soo%o+||.++.||.+.||.+E||o.o|+----[SHA256]-----+#拷貝id_rsa.pub,創(chuàng)建密鑰文件authorized_keys[root@localhost/]#cp~/.ssh/id_rsa.pub~/.ssh/authorized_keys#驗證免密登錄,可以正常進入,無需輸入免密視為配置成功[root@localhost/]#ssh
主機名搭建Hadoop偽分布式5.安裝配置JDK1.8#檢查JDK是否安裝[root@localhost/]#java-version#上傳已下載好的JKD壓縮包到/usr/local目錄下[root@localhost/]#cd/usr/local#解壓JDK壓縮包[root@localhost/]#tarzxvfjdk-8u112-linux-x64.tar.gz#修改文件名稱,方便填寫[root@localhost/]#mvjdk1.8.0_112jdk#設(shè)置環(huán)境變量,添加2行內(nèi)容[root@localhost/]#vim/etc/profileexportJAVA_HOME=/usr/local/jdkexportPATH=.:$JAVA_HOME/bin:$PATH#使配置的環(huán)境變量生效[root@localhost/]#source/etc/profile[root@localhost/]#java-versionjavaversion"1.8.0_112"Java(TM)SERuntimeEnvironment(build1.8.0_112-b15)JavaHotSpot(TM)64-BitServerVM(build25.112-b15,mixedmode)6.安裝Hadoop3.1.1#上傳Hadoop壓縮包到/usr/local目錄下并解壓Hadoop壓縮包[root@localhost
/]#tar-zxvfhadoop-3.1.1.tar.gz-C/usr/local/[root@localhost
/]#mvhadoop-3.1.1hadoop#設(shè)置環(huán)境變量,添加以下幾行內(nèi)容[root@ocalhost
/]#vim/etc/profileexportHADOOP_HOME=/usr/local/hadoopexportPATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH#hadoop-3.1.1必須添加如下5個變量否則啟動報錯exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root[root@localhost
/]#source/etc/profile[root@localhost
/]#hadoopversionHadoop3.1.1Sourcecoderepository/apache/hadoop-r2b9a8c1d3a2caf1e733d57f346af3ff0d5ba529cCompiledbyleftnoteasyon2018-08-02T04:26ZCompiledwithprotoc2.5.0Fromsourcewithchecksumf76ac55e5b5ff0382a9f7df36a3ca5a0Thiscommandwasrunusing/usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.1.jar搭建Hadoop偽分布式6.安裝Hadoop3.1.1修改Hadoop配置文件,這些配置文件都放在/usr/local/hadoop/etc/hadoop目錄下第一個:配置hadoop-env.sh文件#編輯文件,設(shè)置JAVA_HOME絕對路基(JDK1.8安裝路徑)[root@localhost/]#vimhadoop-env.shexportJAVA_HOME=/usr/local/jdk第二個:配置core-site.xml文件(HADOOP-HDFS系統(tǒng)內(nèi)核文件)[root@localhost/]#vimcore-site.xml<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop/tmp</value>
</property></configuration>第三個:配置hdfs-site.xml文件[root@localhost/]#vimmapred-site.xml<configuration><property>
<name></name>
<value>yarn</value></property></configuration>第四個:配置mapred-site.xml文件[root@localhost/]#vimhdfs-site.xml<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.http.address</name>
<value>localhost:50070</value>
</property></configuration>搭建Hadoop偽分布式第五個:配置yarn-site.xml文件[root@localhost/]#vimyarn-site.xml#將configuration標簽中修改成如下內(nèi)容<configuration><!--指定YARNResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>6.安裝Hadoop3.1.1任務(wù)總結(jié)了解Hadoop的發(fā)展歷程和生態(tài)系統(tǒng)中各組件的功能深入理解Hadoop的原理與體系架構(gòu)掌握Hadoop三種安裝方式掌握Hadoop偽分布式安裝步驟。《大數(shù)據(jù)平臺部署與運維》單元2Hadoop偽分布式安裝部署2-2啟動與訪問Hadoop01Hadoop啟動關(guān)閉等操作命令02基于WebUI監(jiān)控Hadoop平臺學習目標啟動與訪問Hadoop【任務(wù)場景】經(jīng)理:小張,Hadoop平臺搭建的怎么了?在搭建過程中有沒有遇到問題?小張:經(jīng)理,Hadoop平臺搭建好了,這次搭建的是偽分布式模式的,部署在了單節(jié)點。經(jīng)理:好,那你啟動訪問一下,向我們大家展示一下Hadoop的相關(guān)使用,并介紹下HadoopWebUI監(jiān)控頁面。小張:好的,經(jīng)理。啟動與訪問Hadoop【任務(wù)布置】在上一個任務(wù)中,我們已經(jīng)在單節(jié)點上部署了Hadoop的偽分布式模式,但是并沒有進行啟動測試。本次任務(wù)要格式化NameNode并啟動Hadoop。掌握Hadoop相關(guān)啟動命令,知道Hadoop常見問題處理方法,了解HadoopUI監(jiān)控相關(guān)功能,為后續(xù)生產(chǎn)環(huán)境下部署Hadoop分布式集群打下基礎(chǔ)。Hadoop啟動關(guān)閉等操作命令Hadoop啟動關(guān)閉等操作命令命令功能sbin/start-all.sh啟動所有的Hadoop守護進程。包括NameNode、SecondaryNameNode、DataNode、ResourceManager、NodeManagersbin/stop-all.sh停止所有的Hadoop守護進程。包括NameNode、SecondaryNameNode、DataNode、ResourceManager、NodeManagersbin/start-dfs.sh啟動HadoopHDFS守護進程NameNode、SecondaryNameNode、DataNodesbin/stop-dfs.sh停止HadoopHDFS守護進程NameNode、SecondaryNameNode和DataNodesbin/hadoop-daemons.shstartnamenode單獨啟動NameNode守護進程sbin/hadoop-daemons.shstopnamenode單獨停止NameNode守護進程sbin/hadoop-daemons.shstartdatanode單獨啟動DataNode守護進程sbin/hadoop-daemons.shstopdatanode單獨停止DataNode守護進程sbin/hadoop-daemons.shstartsecondarynamenode單獨啟動SecondaryNameNode守護進程sbin/hadoop-daemons.shstopsecondarynamenode單獨停止SecondaryNameNode守護進程sbin/start-yarn.sh啟動ResourceManager、NodeManagersbin/stop-yarn.sh停止ResourceManager、NodeManagersbin/yarn-daemon.shstartresourcemanager單獨啟動ResourceManagersbin/yarn-daemons.shstartnodemanager單獨啟動NodeManagersbin/yarn-daemon.shstopresourcemanager單獨停止ResourceManagersbin/yarn-daemons.shstopnodemanager單獨停止NodeManager基于WebUI監(jiān)控Hadoop平臺基于WebUI監(jiān)控Hadoop平臺1.HDFSUI監(jiān)控在任務(wù)2.1中,我們在hdfs-site.xml中配置HDFS的監(jiān)控頁面的地址為:localhost:50070,可以通過50070端口訪問到HDFS的監(jiān)控頁面。基于WebUI監(jiān)控Hadoop平臺(1)標題欄:名稱含義Overview集群概述Datanode數(shù)據(jù)節(jié)點datanode-volume-failures數(shù)據(jù)節(jié)點卷故障snapshot快照startup-progress啟動進度(2)概述:名稱含義Started啟動時間Version版本號Compiled編譯信息ClusterID群集IDBlockPoolID塊池ID基于WebUI監(jiān)控Hadoop平臺(3)總結(jié):名稱含義Safemodeisoff安全模式已關(guān)閉Securityisoff安全關(guān)閉ConfiguredCapacity集群配置的總的容量configuredRemoteCapacity配置遠程容量DFSUsed已使用的DFS集群總量NonDFSUsed已使用的非DFS的量DFSRemainingDFS未使用(剩余)的容量BlockPoolUsed數(shù)據(jù)塊使用的量DataNodesusages%(Min/Median/Max/stdDev)數(shù)據(jù)節(jié)點使用率(最小值/中間值/最大值/標準偏差)LiveNodes存活的節(jié)點(活動節(jié)點)DeadNodes宕機的節(jié)點(死節(jié)點)DecommissioningNodes已停用節(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 快遞員工培訓課件
- 寵物養(yǎng)殖租賃合同范本
- 金屬橋架合同范本
- 小學生食品安全課件
- 高低壓配電工程施工承包合同
- 檢驗滅火器合同書
- 關(guān)于采購辦公用品的申請報告與審批流程說明
- 民族局離婚協(xié)議書
- 中學生課外閱讀指南觀后感
- 法律咨詢行業(yè)法律建議免責
- 中職高教版(2023)語文職業(yè)模塊-第五單元:走近大國工匠(一)展示國家工程-了解工匠貢獻【課件】
- 物業(yè)管理車輛出入管理制度
- 家庭康復服務(wù)的商業(yè)價值與發(fā)展趨勢
- 2025年施工項目部《春節(jié)節(jié)后復工復產(chǎn)》工作實施方案 (3份)-75
- 礦山安全生產(chǎn)工作總結(jié)
- 小學教師培訓課件:做有品位的小學數(shù)學教師
- U8UAP開發(fā)手冊資料
- 監(jiān)護人考試20241208練習試題附答案
- 證券公司裝修施工合同工程
- 人教版PEP三年級到六年級單詞以及重點句型
- 中建總承包項目高支模專項施工方案含計算書
評論
0/150
提交評論