




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、技術(shù)創(chuàng)新,變革未來大數(shù)據(jù)技術(shù)簡介內(nèi)容Hadoop的起源與發(fā)展Hadoop是什么 主流大數(shù)據(jù)技術(shù)Hadoop應用現(xiàn)狀Hadoop偽分布式環(huán)境搭建Hadoop的起源與發(fā)展Hadoop的思想之源Google面對的數(shù)據(jù)存儲和計算難題大量的網(wǎng)頁怎么存儲搜索算法GoogleGFSMapReduceBigTableHadoop的起源與發(fā)展Doug CuttingHadoop是什么Hadoop是一個開源框架,可編寫和運行分布式 應用處理大規(guī)模數(shù)據(jù)Hadoop框架的核心是HDFS、MapReduce、YarnHDFS 是分布式文件系統(tǒng),提供海量數(shù)據(jù)的存儲MapReduce 是分布式數(shù)據(jù)處理模型,提供數(shù)據(jù) 計算Y
2、arn是資源管理和調(diào)度工具主流大數(shù)據(jù)技術(shù)主流大數(shù)據(jù)技術(shù)Hadoop已經(jīng)成長為一個龐大的生態(tài)體系只要和海量數(shù)據(jù)相關(guān)的領(lǐng)域,有 Hadoop 身影MapReduce是把一個大數(shù)據(jù)集上的任務(wù)分解,并 在并行的多個節(jié)點中處理Hive在Hadoop中扮演數(shù)據(jù)倉庫的角色,Hive使 用類SQL語法進行數(shù)據(jù)操作HBase是面向列的數(shù)據(jù)庫,運行在HDFS之上, HBase以BigTable為藍本,可以快速在數(shù)十億行數(shù) 據(jù)中隨機存取數(shù)據(jù)主流大數(shù)據(jù)技術(shù)Storm是流式計算Spark是內(nèi)存計算、流式計算、圖計算Sqoop是從關(guān)系數(shù)據(jù)庫導入數(shù)據(jù)到Hadoop,并可 直接導入到HDFS或HiveFlume是將流數(shù)據(jù)或日
3、志數(shù)據(jù)導入HDFSZooKeeper協(xié)調(diào)集群成員Oozie提供管理工作流程和依賴的功能,將多個MapReduce作業(yè)連接到一起,定制彼此間依賴Ambari可對Hadoop集群提供監(jiān)控、部署、配置、升級和管理等核心功能大數(shù)據(jù)技術(shù)特點針對大規(guī)模數(shù)據(jù)處理的需求一直存在,受限于系統(tǒng) 的處理能力和費用,一直沒有得到大規(guī)模使用健壯:在一般商用硬件上運行,必須考慮硬件會 頻繁失效,可以從容地處理大多數(shù)故障??蓴U展:通過增加集群節(jié)點,可以線性地擴展以 處理更大的數(shù)據(jù)集。簡單方便:允許用戶快速編寫高效的并行代碼。大數(shù)據(jù)技術(shù)能做什么大數(shù)據(jù)技術(shù)的簡單方便、可擴展性和健壯性讓其在 大數(shù)據(jù)處理方面占盡優(yōu)勢,其主要應用場
4、景有:搜索引擎,為大規(guī)模的網(wǎng)頁快速建立索引。大數(shù)據(jù)存儲,利用分布式存儲能力,建立數(shù)據(jù)備 份、數(shù)據(jù)倉庫等。大數(shù)據(jù)處理,利用分布式處理能力,例如數(shù)據(jù)挖掘、數(shù)據(jù)分析等。Hadoop的應用現(xiàn)狀Hadoop的應用現(xiàn)狀Yahoo:用戶行為分析、支持廣告系統(tǒng)、支持Web搜索、反垃圾郵件系統(tǒng)、個性化推薦Facebook:存儲內(nèi)部日志與多維數(shù)據(jù),并以此 做分析和機器學習百度:日志分析平臺、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與分 析、推薦系統(tǒng)阿里巴巴:廣告系統(tǒng)、推薦引擎、搜索排行、歷史訂單Hadoop偽分布式環(huán)境搭建(1)Hadoop發(fā)行版選擇: ApacheCDH HDPHadoop版本選擇: 0.2X1.X2.X(2.7.3
5、)我們的選擇:CDH Hadoop 2.6.0Hadoop偽分布式環(huán)境搭建(2)Hadoop安裝模式:單機模式:占用資源最少的模式完全運行在本地不使用Hadoop文件系統(tǒng)不加載任何守護進程偽分布模式:“單節(jié)點集群”模式所有的守護進程都運行在同一臺機子上代碼調(diào)試可以查看HDFS的輸入/輸出,以及各守護進程全分布模式:真正的分布式集群配置,用于生產(chǎn)環(huán)境Hadoop偽分布式環(huán)境搭建(3)Linux環(huán)境,我們使用的是centos6.5關(guān)閉防火墻,因為它會妨礙hadoop集群間相互通信sudo chkconfig iptables offsudo service iptables stopjdk安裝配置ssh免密碼登錄安裝Hadoop格式化NameNo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國聚酰亞胺(PI)薄膜行業(yè)運行現(xiàn)狀及發(fā)展前景分析報告
- 2025福建省建筑安全員C證考試題庫
- 南京師范大學《統(tǒng)計學專業(yè)前沿》2023-2024學年第二學期期末試卷
- 四川農(nóng)業(yè)大學《醫(yī)學論文寫作與學術(shù)誠信》2023-2024學年第二學期期末試卷
- 廣西體育高等??茖W校《地球物理學》2023-2024學年第二學期期末試卷
- 甘肅畜牧工程職業(yè)技術(shù)學院《研究型綜合》2023-2024學年第二學期期末試卷
- 哈爾濱工程大學《學前教育專業(yè)英語》2023-2024學年第二學期期末試卷
- 2024-2025學年山東省百師聯(lián)考高三上學期11月考試歷史試卷
- 上海民遠職業(yè)技術(shù)學院《服裝市場調(diào)研》2023-2024學年第二學期期末試卷
- 山西信息職業(yè)技術(shù)學院《秘書學》2023-2024學年第二學期期末試卷
- 上海市建設(shè)工程施工圖設(shè)計文件勘察設(shè)計質(zhì)量疑難問題匯編(2024 版)
- 《康復工程學》課件-第一講 康復工程概論
- 2025年度智慧醫(yī)療服務(wù)平臺建設(shè)合同范本
- 2024項目管理人員安全培訓考試題(審定)
- 2025四川宜賓市高縣縣屬國企業(yè)第一次招聘3人易考易錯模擬試題(共500題)試卷后附參考答案
- 2024 年國家公務(wù)員考試《申論》(地市級)真題及答案
- 2024年沈陽職業(yè)技術(shù)學院高職單招語文歷年參考題庫含答案解析
- 《榜樣9》觀后感心得體會一
- 2024年上海普陀區(qū)司法局招聘人民調(diào)解員考試真題
- 駕照考試題庫及答案(完整版)
- 2024年3、6、9月青少年軟件編程Python等級考試一級真題(全3套 含答案)
評論
0/150
提交評論