紅騰redoop大數(shù)據(jù)平臺解決方案白皮書_第1頁
紅騰redoop大數(shù)據(jù)平臺解決方案白皮書_第2頁
紅騰redoop大數(shù)據(jù)平臺解決方案白皮書_第3頁
紅騰redoop大數(shù)據(jù)平臺解決方案白皮書_第4頁
紅騰redoop大數(shù)據(jù)平臺解決方案白皮書_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃前言近年來,大數(shù)據(jù)技術(shù)逐漸成為企業(yè)在互聯(lián)網(wǎng)下發(fā)展的重點(diǎn)。對于運(yùn)營商來說,利用大數(shù)據(jù)共享平臺可將"數(shù)據(jù)金山"充分利用、分析,并提取高價(jià)值,最終提高企業(yè)經(jīng)營效益和市場競爭能力。本文通過對大數(shù)據(jù)平臺現(xiàn)狀及未來價(jià)值進(jìn)行分析,提出了多種應(yīng)用思路,為將來更實(shí)現(xiàn)精品應(yīng)用提供參考。文中列出了大數(shù)據(jù)平臺體系架構(gòu)(Level 1),并對其做了詳細(xì)的互聯(lián)網(wǎng)架構(gòu),引入成熟開源框架,基于 x86 平臺構(gòu)建分布式計(jì)算與,借鑒平臺,在保障系統(tǒng)可靠性(High-Availability)和可水平擴(kuò)展(Scale-Out)基礎(chǔ)上,同時(shí)大幅降低系統(tǒng)總擁有成本(TCO)。簡

2、單了技術(shù)架構(gòu)設(shè)計(jì)-SQL on Hadoop 企業(yè)級數(shù)據(jù)倉庫,商業(yè)智能解決方案,企業(yè)現(xiàn)有平臺+Redoop,SQL-on-Hadoop 數(shù)據(jù)倉庫-可視化,技術(shù)架構(gòu)的設(shè)計(jì),以及總體方案的概述。文中了 Hadoop 集群硬件系統(tǒng)拓?fù)湟约岸鄼C(jī)架-網(wǎng)絡(luò)拓?fù)鋱D,基于預(yù)期業(yè)務(wù)參數(shù),數(shù)據(jù)量級,估算集群規(guī)模,Datanode 節(jié)點(diǎn)總共 12 塊盤,其中 10 塊盤每塊 3T 容量;Linux 系統(tǒng) os 安裝在做了 raid1 的 2 塊 1T 磁盤。接下來本文中了大數(shù)據(jù)平臺硬件配置估算和建議,異構(gòu)集群-硬件配置,目前集群規(guī)劃中都有多重計(jì)算模型共生,比如:磁盤計(jì)算模型,內(nèi)存計(jì)算模型,分布式 nosql 數(shù)據(jù)庫

3、共生。根據(jù)業(yè)務(wù)場景,對硬件配置也有很大差別;如下:對實(shí)時(shí)響應(yīng)即席場景,多種計(jì)算模型混搭??蛻魴C(jī)-硬件配置,規(guī)劃,服務(wù)器配置,紅象 CRH 大數(shù)據(jù)平臺-解決方案。Hadoop 大數(shù)據(jù)平臺在當(dāng)今的 IT 業(yè)界是非常熱門的話題, 如果你關(guān)注它們的應(yīng)用場景,大多數(shù)情況是做 OLAP 智能分析以及數(shù)據(jù)挖掘。鮮有類似于傳統(tǒng)型數(shù)據(jù)庫擅長的 OLTP 事務(wù)處理場景。和大家一個(gè)在大數(shù)據(jù)平臺上應(yīng)用場景案例。文中了四個(gè)案例,智慧交通案例(實(shí)時(shí)流計(jì)算),分析了數(shù)據(jù)處理流程;Redoop-Databank 可視化,傳感器質(zhì)量(NoSQL),某市中心的數(shù)據(jù)檢索以及航天系統(tǒng)海量數(shù)據(jù)。最后提出了大數(shù)據(jù)平臺應(yīng)用場景實(shí)現(xiàn)方式以及

4、大數(shù)據(jù)平臺應(yīng)用場景資源匯總。紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃目錄紅騰Redoop 大數(shù)據(jù)平臺解決方案 白皮書錯(cuò)誤!未定義書簽。前言2一、傳統(tǒng)架構(gòu)跳起互聯(lián)網(wǎng)舞步,投入“大象”懷抱41、Redoop特色52、Redoop CRH 3.553、操作系統(tǒng)版本74、Redoop 平臺架構(gòu)75、棧8二、紅象大數(shù)據(jù)總體架構(gòu)(數(shù)據(jù)銀行+數(shù)據(jù)高鐵)91、大數(shù)據(jù)平臺體系架構(gòu)(Level 1)92、技術(shù)架構(gòu)設(shè)計(jì)-流計(jì)算場景離線分析混合(需求驅(qū)動)103、技術(shù)架構(gòu)設(shè)計(jì)-SQL on Hadoop 企業(yè)級數(shù)據(jù)倉庫124、商業(yè)智能解決方案,企業(yè)現(xiàn)有平臺Redoop135、SQL-on-Hadoop 數(shù)據(jù)

5、倉庫可視化136、技術(shù)架構(gòu)設(shè)計(jì)-機(jī)器學(xué)習(xí)147、ELK+Hadoop 海量數(shù)據(jù)搜索架構(gòu)148、SQL on Hadoop for Kylin OLAP分析架構(gòu)159、總體方案概述16三、網(wǎng)絡(luò)規(guī)劃171、Hadoop 集群硬件系統(tǒng)拓?fù)?82、多機(jī)架網(wǎng)絡(luò)拓?fù)鋱D18四、底層規(guī)劃180、主機(jī)內(nèi)置磁盤規(guī)劃181、Linux 目錄規(guī)劃202、Linux 主機(jī)名規(guī)劃21紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃3、hdfs 目錄規(guī)劃214、計(jì)算框架臨時(shí)目錄21四、基于預(yù)期業(yè)務(wù)參數(shù),數(shù)據(jù)量級,估算集群規(guī)模21五、大數(shù)據(jù)平臺硬件配置估算及建議221、異構(gòu)集群-硬件配置222、客戶機(jī)-硬件配置233、服務(wù)

6、器配置234、紅象 CRH 大數(shù)據(jù)平臺優(yōu)勢24六、案例. 241、案例一:智慧交通案例(實(shí)時(shí)流計(jì)算)242、案例二:Redoop - Databank 可視化 傳感器質(zhì)量管控(NOSQL)253、案例三:XX 市中心(海量數(shù)據(jù)檢索)254、案例四:航天系統(tǒng)(海量數(shù)據(jù)4800TB 容量)26七、大數(shù)據(jù)平臺應(yīng)用場景實(shí)現(xiàn)方式26八、大數(shù)據(jù)平臺應(yīng)用場景資源匯總27一、傳統(tǒng)架構(gòu)跳起互聯(lián)網(wǎng)舞步,投入“大象”懷抱紅騰系統(tǒng)技術(shù)基于傳統(tǒng)數(shù)據(jù)架構(gòu)完全基于開源的大數(shù)據(jù)架構(gòu)采購成本高難以運(yùn)維且服務(wù)成本高技術(shù)無法掌握,可用性, 擴(kuò)張性完全依賴服務(wù)商評估具備有限擴(kuò)展能力,但是擴(kuò)張成本高業(yè)務(wù)支撐能力有限,依賴供應(yīng)商支持采購

7、成本低技術(shù)完全可控,可運(yùn)維技術(shù)完全掌握,可自行制定容量管理等方案, 無需依賴第具備無限擴(kuò)張能力,擴(kuò)張成本低,時(shí)效高可完全按需支撐業(yè)務(wù)發(fā)展需要彈性擴(kuò)展,無限擴(kuò)容,計(jì)算能力無限擴(kuò)展。商業(yè)化硬件計(jì)算機(jī)解決方案基于封閉技術(shù)體系的操作系統(tǒng),虛擬化技術(shù)以 HP/為代表低端硬件資源組成的集群基于完全開放 x86 硬件服務(wù)器基于開源技術(shù)的操作系統(tǒng),虛擬化技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃1、Redoop特色集成的·在一個(gè)完整的、封裝Apache Hadoop 系統(tǒng)上快速啟動并運(yùn)行安全的·處理并敏感數(shù)據(jù),支持多租戶可擴(kuò)展及可延伸·支持多種應(yīng)用,與企業(yè)共同增長高可獲得性

8、83;輕松運(yùn)行關(guān)鍵性任務(wù)應(yīng)用及工作負(fù)載兼容的·擴(kuò)展并利用現(xiàn)有的基礎(chǔ)架構(gòu)投資開放的· 受益于快速創(chuàng)新,無專有廠商鎖定· 全面的 API2、Redoop CRH 3.5企業(yè) Hadoop 標(biāo)準(zhǔn),100%開源Redoop Hadoop版 (CRH) 是 100% 的開源平臺版本。它了 Apache Hadoop,旨在滿足企業(yè)級的需求。得到廣泛部署的 Hadoop版本,CRH 目前在各種生產(chǎn)環(huán)境中運(yùn)行,覆蓋銀行、電信、媒體、零售、等行業(yè)中最大的機(jī)構(gòu)。最大的集群是在航天領(lǐng)域近 200臺的規(guī)模,運(yùn)行 2 年沒有發(fā)生事故。CRH 由 Apache Hadoop 和十幾個(gè)領(lǐng)先的開

9、源項(xiàng)目組成,它將和計(jì)算融同一個(gè)可擴(kuò)展的系統(tǒng),提供了以往傳統(tǒng)解決方案在時(shí)間或成本上不能解決的大數(shù)據(jù)運(yùn)營所需的靈活性與經(jīng)紅騰系統(tǒng)技術(shù)商業(yè)化數(shù)據(jù)庫解決方案提供復(fù)雜的事物管理,數(shù)據(jù)高可用技術(shù)以 Oracle,mpp 為代表商業(yè)化數(shù)據(jù)解決方案提供高性能,高可用的數(shù)據(jù)技術(shù)以 EMC 為代表基于開源的以Hadoop 為的分布式架構(gòu)系統(tǒng)不依賴任何技術(shù),完全采用服務(wù)器本地完全基于 Hadoop 的分析性數(shù)據(jù)倉庫技術(shù)完全基于開源,可擴(kuò)展,海量,多類型數(shù)據(jù)統(tǒng)一平臺分析基于開源的操作系統(tǒng),虛擬化技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃濟(jì)性。CRH 幫助用戶實(shí)現(xiàn)數(shù)據(jù)運(yùn)營化,帶動業(yè)務(wù)朝普適分析發(fā)展,從而實(shí)現(xiàn):·

10、;··在同一組系統(tǒng)資源內(nèi),統(tǒng)一和計(jì)算以任何格式數(shù)據(jù),沒有苛刻的模式要求將多種多樣的分析性框架帶入一個(gè)簡單的數(shù)據(jù)池 批次處理,分析型 SQL, 互動式搜索, 機(jī)器學(xué)習(xí),流處理,以及多種第應(yīng)用程序···并行就地處理數(shù)據(jù),具備線性擴(kuò)展能力實(shí)時(shí)將數(shù)據(jù)傳輸給用戶和應(yīng)用與現(xiàn)有的數(shù)據(jù)管理和分析工具進(jìn)行集成作為 Redoop 企業(yè)版的一個(gè)關(guān)鍵組成部分和一個(gè)企業(yè)數(shù)據(jù)平臺架構(gòu),CRH 代表了 Hadoop的元素 可擴(kuò)展與分布式計(jì)算 以及必要的企業(yè)能力,比如安全性、高可用性以及與最廣泛的軟硬件解決方案的集成。 對于想要尋找一個(gè)的、經(jīng)過驗(yàn)證的開源大數(shù)據(jù)管理解決方案,不

11、愿被專有供應(yīng)商鎖定的企業(yè)來說,CRH 是理想的選擇。它是一個(gè)獨(dú)特的解決方案,企業(yè)在使用 Hadoop 于生產(chǎn)環(huán)境中的同時(shí),還能獲得來自開源社區(qū)的持續(xù)創(chuàng)新力。圖表 1:Redoop 企業(yè)版包含了企業(yè)級的 100% 開源的Hadoop版、系統(tǒng)和數(shù)據(jù)管理,以及對一個(gè)強(qiáng)大的數(shù)據(jù)管理平臺的全面支持?!皵?shù)據(jù)對我們的企業(yè)來說,CRH 是我們分析系統(tǒng)的?!弊钕冗M(jìn)的 Hadoop版,隨時(shí)可部署CRH 是國內(nèi)最完整的、經(jīng)過測試的、最受歡迎的適于企業(yè)的 Apache Hadoop版本。所有的封裝和集成工作都已經(jīng)完成,整套解決方案都已通過測試,并有完整文檔。從此 Hadoop部署無需東揣西測,CRH 提供了邁向大數(shù)據(jù)

12、解決真正業(yè)務(wù)問題的之路。紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃3、操作系統(tǒng)版本$cat /etc/-releaseEnterprise Linux Server release 6.5(Sago)4、Redoop 平臺架構(gòu)通過 八大類接口實(shí)現(xiàn)大數(shù)據(jù)平臺能力和計(jì)算能力的開放。紅騰系統(tǒng)技術(shù)版本Linux 版本CRH 3.5 6.5Hadoop 2.7.16.3紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃·Flexibility -任何類型的數(shù)據(jù),豐富的技術(shù)框架:批處理,交互式 SQL,文本搜索,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)計(jì)算!Security 敏感數(shù)據(jù),避免數(shù)據(jù)泄露,SQL 模塊權(quán)限·

13、;····!Scalabilit 無限擴(kuò)張能力,當(dāng)您遇到計(jì)算和瓶頸可以通過增加節(jié)點(diǎn)來擴(kuò)展集群能力!High availability 高可靠,節(jié)點(diǎn)宕機(jī)影響任何在線業(yè)務(wù)正常運(yùn)行!Compatibility 兼容性,非常方便的和你現(xiàn)有資源集成,利用現(xiàn)有基礎(chǔ)設(shè)施!RedHdoop Databank 自動化安裝集群,可視化操作集群,非常方便小白式入門,管理集群資產(chǎn),等強(qiáng)勁功能!5、棧紅騰系統(tǒng)技術(shù)Table 1. Components Supported by TLSComponentRolePortVersionAmbari ManagerAmbari Serv

14、er80802.2.0Ambari AgentAmbari Agent80102.2.0FlumeFlume agent90991.1.2HBaseMaster600101.1.2HDFSNameNode500702.7.1HDFSSecondary NameNode504952.7.1DatabankDatabank Server99991.0YARNResourceManager80882.7.1YARNJobHistory Server198902.7.1JDK1.7.0_67 or 1.7.0_75Apache HiveHiveserver2/Hivemetastore10000/90

15、831.2.1Kerberos1.10.3紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃集群組件:5.1. HDFS 模塊為分布式文件系統(tǒng),海量數(shù)據(jù)!5.2. Hive 主要通過 SQLhdfs 里面的數(shù)據(jù)!Hadoop 中數(shù)據(jù)倉庫概念!5.3. Databank,用于可視化 hdfs 文件系統(tǒng),以及些 SQL 預(yù)覽數(shù)據(jù)庫,服務(wù)器狀態(tài)等!5.4. Spark 和 hive 一起配合,提升 SQL 分析 HDFS 數(shù)據(jù)高效!高效數(shù)據(jù)!5.5. kettle,工作流調(diào)度系統(tǒng),可以調(diào)度各種 Hadoop 作業(yè),支持 SQL,SHELL,JAVA 調(diào)度!5.6. Kerberos,保證集群數(shù)據(jù)倉庫 hive,

16、impala權(quán)限,目前能做到基于庫的權(quán)限!5.7. Yarn,集群資源統(tǒng)一分配,管理框架,為各種應(yīng)用程序統(tǒng)一分配 cpu,mem,為實(shí)現(xiàn)多租戶資源分配等!5.8. zookeeper,動物園管理員,主要負(fù)責(zé)協(xié)調(diào)系統(tǒng)中各個(gè)框架協(xié)調(diào)工作,統(tǒng)一配置文件!二、紅象大數(shù)據(jù)總體架構(gòu)(數(shù)據(jù)銀行+數(shù)據(jù)高鐵)通過 八大類接口實(shí)現(xiàn)大數(shù)據(jù)平臺能力和計(jì)算能力的開放。下面主要redoop 架構(gòu)設(shè)計(jì)內(nèi)容,最后會有幾個(gè)典型案例來說明架構(gòu)相關(guān)實(shí)現(xiàn)。1、大數(shù)據(jù)平臺體系架構(gòu)(Level 1)(1). 基于 MR 模型,通過 MapReduce 模型開發(fā) JAVA 應(yīng)用程序!紅騰系統(tǒng)技術(shù)Apache ZooKeeperzkServ

17、er21813.4.6Apache Saprksaprk history server180801.5.2Ambari MetricsMetrics Collector/MetricsMonitors0.1.0紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃(2). 基于 MR 封裝的高級工具,如通過 Hive,Pig 工具編寫腳本!(3). 基于 RDD 內(nèi)存模型,如 JAVA,Scala,R 等 API 開發(fā)的應(yīng)用程序!(4). 基于 RDD 內(nèi)存模型,高度封裝,可視化R,SparkSQL 易于使用的工具!2、技術(shù)架構(gòu)設(shè)計(jì)-流計(jì)算場景離線分析混合(需求驅(qū)動)2.1 初步架構(gòu)借鑒互聯(lián)網(wǎng)架構(gòu),引入成熟開

18、源框架,基于 x86 平臺構(gòu)建分布式計(jì)算與平臺,在保障系統(tǒng)可靠性(High-Availability)和可水平擴(kuò)展(Scale-Out)基礎(chǔ)上,同時(shí)大幅降低系統(tǒng)總擁有成本(TCO)。1、實(shí)時(shí)流計(jì)算系統(tǒng)實(shí)時(shí)看大屏2、近似實(shí)時(shí)數(shù)據(jù)到 HDFS,離線處理系統(tǒng)定時(shí)分析建模技術(shù)選型及亮點(diǎn)1. 采用 Kafka 消息隊(duì)列框架,實(shí)現(xiàn)與,30120s 響應(yīng);2. 采用近似實(shí)時(shí)的 flume 框架對接 Kafka、實(shí)現(xiàn)位置實(shí)時(shí)入庫 Hadoop 集群,周期性數(shù)據(jù)。3. 在 1 個(gè)集群上承載批處理和流處理,基于 hadoop 資源管理可最大效率利用資源,實(shí)現(xiàn)消峰填谷,實(shí)現(xiàn)異構(gòu)集群架構(gòu)。4. 在 Hadoop 基礎(chǔ)

19、上,引入 Spark、Storm 計(jì)算框架,通過 Hive,mllib ,storm 實(shí)現(xiàn)海量數(shù)據(jù)算和離線歷史數(shù)據(jù)的統(tǒng)計(jì)分析;引入 Redis 內(nèi)存數(shù)據(jù)庫,結(jié)合 Storm,實(shí)現(xiàn)的實(shí)時(shí)動態(tài)感知用戶變化以及用戶統(tǒng)計(jì)行為數(shù)據(jù),通過推進(jìn)系統(tǒng),LDA 等模型,深度挖掘用戶價(jià)值。5. 提供 Open API(/ODBC/RestAPI),制定計(jì)算與資源共享與開放標(biāo)準(zhǔn),結(jié)合紅紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃富架構(gòu)和運(yùn)維經(jīng)驗(yàn),基于 Open API 構(gòu)建 OCI API,為后續(xù)數(shù)據(jù)資產(chǎn)運(yùn)營奠定基礎(chǔ)。6,基于echarts 的開源框架展現(xiàn)。7,支持彈性擴(kuò)展架構(gòu),可有效保護(hù)現(xiàn)有投資;同時(shí),積極

20、的引入 nosql 數(shù)據(jù)庫 hbase,利用分布式數(shù)據(jù)庫優(yōu)勢實(shí)現(xiàn)數(shù)據(jù)快速適用場景:,為未來技術(shù)替換縮減投資奠定基礎(chǔ)。1、流計(jì)算實(shí)時(shí)看大屏,20000 tupe/s, (每個(gè) tuple 大小為 1000 字節(jié))!延遲毫秒級!2、storm 系統(tǒng)本省的處理延遲為毫秒級3、在集群中橫向擴(kuò)展可以增加系統(tǒng)的處理能力,實(shí)測結(jié)果為 1.6 倍4、Storm 中大量的使用了線程,即使單條處理流水線的系統(tǒng),也有十幾個(gè)線程在同時(shí) 運(yùn)行,所以幾乎所有的 16 個(gè) CPU 都在運(yùn)行狀態(tài),load average 約為 3.55、 Jvm GC情況下對系統(tǒng)性能影響有限,但是內(nèi)存緊張時(shí),GC 會成為系統(tǒng)性能的瓶頸6、

21、使用外部處理程序性能下降明顯,所以在高性能要求下,盡量使用 storm 內(nèi)建的處理模式2.2 進(jìn)階架構(gòu)(1). 安全支付通過流計(jì)算,實(shí)現(xiàn)安全檢測系統(tǒng)!(2). 架構(gòu)變遷,唯一的變化 strom->sparkstrea,其余部分和初步架構(gòu)相似!(3). 相比初級架構(gòu),增加了一些新型分析框架,impala,spark,search 模塊!(4). 變遷后優(yōu)勢,更強(qiáng)的吞吐量,小批量流式處理海量數(shù)據(jù)!(5). 增加 sparkstrea模塊,讓離線處理更加高效!紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃適用場景:1、 高吞吐率,圖流合璧處理海量數(shù)據(jù)!2、 Strea+mllib 結(jié)合,流

22、式訓(xùn)練模型!3、 編程靈活,支持 saprksql,strea,mllib,graphx 結(jié)合做應(yīng)用,統(tǒng)一的流水線優(yōu)化!4、 Spark Strea是將流式計(jì)算分解成一系列短小的批處理作業(yè)!場景確定,運(yùn)行有 3-5s 中延遲的業(yè)務(wù)!5、 實(shí)時(shí)性:對于實(shí)時(shí)性的討論,會牽涉到流式處理框架的應(yīng)用場景。SparkStrea將流式計(jì)算分解成多個(gè) Spark Job,對于每一段數(shù)據(jù)的處理都會經(jīng)過Spark DAG 圖分解,以及 Spark 的任務(wù)集的調(diào)度過程。對于目前版本的 SparkStrea而言,其最小的 Batch Size 的選取在 0.52 秒鐘之間(Storm 目前最小的延遲是 100ms 左

23、右),所以 Spark Strea能夠滿足除對實(shí)時(shí)性要求非常高(如高頻實(shí)時(shí))之外的所有流式準(zhǔn)算場景。6、 擴(kuò)展性與吞吐量:Spark 目前在 EC2 上已能夠線性擴(kuò)展到 100 個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn) 4Core),可以以數(shù)秒的延遲處理 6GB/s 的數(shù)據(jù)量(60M records/s),其吞吐量也比流行的 Storm 高 25 倍,圖 4 是Berkeley 利用 WordCount 和Grep 兩個(gè)用例所做的測試,在 Grep 這個(gè)測試中,Spark Strea中的每個(gè)節(jié)點(diǎn)的吞吐量是 670k records/s,而 Storm 是 115k records/s。3、技術(shù)架構(gòu)設(shè)計(jì)-SQL on

24、Hadoop 企業(yè)級數(shù)據(jù)倉庫1、基于內(nèi)存計(jì)算模型秒級響應(yīng)方案2、基于 MapReduce 計(jì)算模型離線分析方案紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃圖 1 SQL on Hadoop && SQL on NOSQL4、商業(yè)智能解決方案,企業(yè)現(xiàn)有平臺Redoop5、SQL-on-Hadoop 數(shù)據(jù)倉庫可視化紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃6、技術(shù)架構(gòu)設(shè)計(jì)-機(jī)器學(xué)習(xí)紅象 CRH 平臺提供了主流的機(jī)器學(xué)習(xí)庫支持!拖拽式的可視化界面databank!7、ELK+Hadoop 海量數(shù)據(jù)搜索架構(gòu)ELK Stack 是 Elasticsearch、據(jù)檢索和分析場

25、合,三者通常是配合共用。、Kibana 三個(gè)開源的組合。在實(shí)時(shí)數(shù)ElasticSearch 已經(jīng)可以與 YARN、Hadoop、Hive、Pig、Spark、Flume 等大數(shù)據(jù)技術(shù)框架整合起來使用,尤其是在添加數(shù)據(jù)的時(shí)候,可以使用分布式任務(wù)來添加索引數(shù)據(jù),尤其是在數(shù)據(jù)平臺上,很多數(shù)據(jù)在 Hive 中,使用 Hive 操作 ElasticSearch 中的數(shù)據(jù),將極大的方便開發(fā)。紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃ELK Stack 具有如下幾個(gè)優(yōu)點(diǎn):1. 處理方式靈活。Elasticsearch 是實(shí)時(shí)全文索引,不需要像storm 那樣預(yù)先編程才能使用;2. 配置簡易上手。El

26、asticsearch 全部采用目前業(yè)界最通用的配置語法設(shè)計(jì);JSON 接口,是 Ruby DSL 設(shè)計(jì),都是3. 檢索性能高效。雖然每次都是算,但是優(yōu)秀的設(shè)計(jì)和實(shí)現(xiàn)基本可以達(dá)到全天數(shù)據(jù)的秒級響應(yīng);4. 集群線性擴(kuò)展。不管是 Elasticsearch 集群還是集群都是可以線性擴(kuò)展的;5. 前端操作炫麗。Kibana 界面上,只需要點(diǎn)擊鼠標(biāo),就可以完成搜索、聚合功能,生成炫麗的儀表板。ELKStack+Hadoop 可以讓數(shù)據(jù)可靠性和處理性能提升數(shù)倍,理由大數(shù)據(jù)的優(yōu)勢在一些搜索百億數(shù)據(jù)場景發(fā)揮重要作用。為數(shù)據(jù)分析提供強(qiáng)大的后端和可視化的能力。8、SQLonHadoopforKylinOLAP分

27、析架構(gòu)紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃Apache Kylin 旨在減少 Hadoop 在 10 億及百億規(guī)模以上數(shù)據(jù)級別的情況下的延遲,目前底層數(shù)據(jù)基于 HBase,具有較強(qiáng)的可伸縮性。可以支持主流 bi 報(bào)表可視化工具。度分析數(shù)據(jù),為數(shù)據(jù)分析實(shí)效性提供強(qiáng)的保證。9、總體方案概述采用新建大數(shù)據(jù)集群,無縫對接現(xiàn)有業(yè)務(wù)系統(tǒng),逐步替代分析性場景的業(yè)務(wù)系統(tǒng)數(shù)據(jù)倉庫?。?)、Hadoop 計(jì)算集群基礎(chǔ)架構(gòu)X86 服務(wù)器,100 個(gè)計(jì)算節(jié)點(diǎn)紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃彈性,總的空間約 3600TB(1 臺服務(wù)器 12 塊盤,一塊盤 3T,離線總量。不考慮 raid

28、/分區(qū)因素?fù)p失); 基于萬兆 的計(jì)算網(wǎng)絡(luò); Hadoop 計(jì)算集群管理平臺(2)、基于紅騰 CRH 的高性能計(jì)算集群管理平臺,新建大數(shù)據(jù)集群環(huán)境進(jìn)行高效率的統(tǒng)一管理;(3)、大容量數(shù)據(jù)平臺平臺 3600TB新建的數(shù)據(jù)庫注意: 如果數(shù)據(jù)量比較小,為了保證集群的性,最低要求 3 臺 datanode。三、網(wǎng)絡(luò)規(guī)劃網(wǎng)絡(luò)建議,使用萬兆交換機(jī),可以讓分布式架構(gòu)更加高效的發(fā)揮系統(tǒng)性能。這里的配置在后面異構(gòu)集群硬件配置有詳細(xì)。紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃1、Hadoop 集群硬件系統(tǒng)拓?fù)?、多機(jī)架網(wǎng)絡(luò)拓?fù)鋱D四、底層規(guī)劃1、主機(jī)內(nèi)置磁盤規(guī)劃HA 主節(jié)點(diǎn):紅騰系統(tǒng)技術(shù)紅騰-Redoop 大

29、數(shù)據(jù)平臺場景規(guī)劃Slave 節(jié)點(diǎn):底層數(shù)據(jù)規(guī)劃,這個(gè)模塊比較重要,由于前期建設(shè)規(guī)劃不合理,導(dǎo)致數(shù)據(jù)目錄規(guī)劃混亂,導(dǎo)致很多數(shù)據(jù)目錄很深,在hdfs空間的時(shí)候,造成了不小的麻煩,所以重新規(guī)劃了目錄分布!底層操作系統(tǒng)默認(rèn) raid5.浪潮服務(wù)器.后修改為系統(tǒng)盤 raid1(兩塊盤做 radi1),總共 11 塊盤一臺機(jī)器。其余盤做 JBOD!lv,vg 名稱規(guī)范:mount -loop /dev/mapper/vg_dfs01-lv_data01/data01mount -loop /dev/mapper/vg_dfs02-lv_data02/data02紅騰系統(tǒng)技術(shù)紅騰-Redoop 大數(shù)據(jù)平臺場

30、景規(guī)劃.略.2、Linux 目錄規(guī)劃Linux 系統(tǒng)分區(qū)方案說明:在很多業(yè)務(wù)服務(wù)器數(shù)量多且復(fù)雜的運(yùn)維場景,會有專門的系統(tǒng)安裝工程師,由于這些基礎(chǔ)系統(tǒng)安裝工程師無法確定服務(wù)器的業(yè)務(wù)需求,因此,會根據(jù)公司的要求只分出:/boot200M內(nèi)存*2Swap/(列如: 100G)然后剩余的分區(qū)保留不分,fdisk(不適合大于 2t 的分區(qū)),parted(適合大于 2T 的分區(qū))這樣后續(xù)使用的服務(wù)器的不同業(yè)務(wù)的運(yùn)維部門就可以根據(jù)具體的業(yè)務(wù)在規(guī)劃后面的分區(qū),這樣的也是值得推薦的分區(qū)思路!上面的/data1.10目錄,表示,如果有 10 塊硬盤,掛載點(diǎn)為 10 個(gè)目錄,取名/data1, /data2,/d

31、ata3, / data.這些目錄都用來hdfs 數(shù)據(jù)的數(shù)據(jù)目錄!有關(guān)根目錄/ ,主要是/var,/home,/tmp,/opt 等!紅騰系統(tǒng)技術(shù)目錄大小Linux 版本/boot500M6.5swap內(nèi)存大小*126.5/100G6.5/data1.10Hdfs 數(shù)據(jù)6.5紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃3、Linux 主機(jī)名規(guī)劃4、hdfs 目錄規(guī)劃以上就是 hdfs 規(guī)劃,后續(xù)增加應(yīng)用和其他數(shù)據(jù)在逐步增加規(guī)范,每個(gè)目錄可以分給不同部門,實(shí)現(xiàn)多租戶,所能使用硬件資源和資源的限制!5、算框架臨時(shí)目錄由于數(shù)據(jù)量越來越大,檢索數(shù)據(jù)太大,導(dǎo)致無法所有數(shù)據(jù)放入內(nèi)存,很多中間結(jié)果數(shù)據(jù)會寫到磁盤,

32、目前規(guī)劃總的 20%做為計(jì)算磁盤空間!如果低于 20%,計(jì)算的時(shí)候會導(dǎo)致磁盤空間不足的情況,或者很多任務(wù)出現(xiàn)警告和運(yùn)行緩慢等情況!五、基于預(yù)期業(yè)務(wù)參數(shù),數(shù)據(jù)量級,估算集群規(guī)模Datanode 節(jié)點(diǎn)總共 12 塊盤,其中 10 塊盤每塊 3T 容量;Linux 系統(tǒng) os 安裝在做了 raid1 的2 塊 1T 磁盤注意:1 塊盤3T 理論大小應(yīng)為=3096G實(shí)際大小 3000G,而我們實(shí)際計(jì)3*1024G紅騰系統(tǒng)技術(shù)周期數(shù) 據(jù)增量/ 天數(shù) 據(jù)格式Datanode 節(jié)點(diǎn)總存儲HDFS 總Total linux os主機(jī)數(shù)量N30 天3Tgz346T324TN*2*1T10*Datanode+2*

33、Namenode=1260 天3Tgz690T648TN*2*1T21*Datanode+2*Namenode=2390 天3Tgz860T810TN*2*1T27*Datanode+2*Namenode=29目錄含義Linux 版本/data/external外部抽取數(shù)據(jù)源路徑6.5/user/hive/waouse各種內(nèi)部表庫地址6.5/test測試數(shù)據(jù)目錄6.5/一些默認(rèn)自動生成的目錄6.5/appsApp 運(yùn)行所需 jar 包6.5目錄Linux 版本bigdata-server011006.5紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃算時(shí)使用的是 1024.例如:計(jì)算公式,30 天,每天

34、 3T 數(shù)據(jù)增量:HDFS 總=3T*3*30+(3T*3*30*20%) ;HDFS 總=324TDatanode 數(shù) n=324T/3T*10=10 臺;2 臺Namenode,1 臺客戶機(jī),總共 10+2+1=13 臺六、大數(shù)據(jù)平臺硬件配置估算及建議1、異構(gòu)集群-硬件配置目前集群規(guī)劃中都有多重計(jì)算模型共生,比如:磁盤計(jì)算模型,內(nèi)存計(jì)算模型,分布式 nosql數(shù)據(jù)庫共生。根據(jù)業(yè)務(wù)場景,對硬件配置也有很大差別;如下:對實(shí)時(shí)響應(yīng)即席多種計(jì)算模型混搭。場景,說明:群硬件規(guī)劃1、兩個(gè)主節(jié)點(diǎn)2、集群中主機(jī)實(shí)際上不需要很大,而是需要強(qiáng)大的 cpu 和內(nèi)存 !多種硬件配置,在做計(jì)算的時(shí)候無法完全發(fā)揮主機(jī)

35、性能,Hadoop 集群中要求硬件配置一致性,好消息是 Hadoop 社區(qū)已經(jīng)在基于 YARN 資源管理器增加新的調(diào)度算法解決此問題!紅騰系統(tǒng)技術(shù)集群角色CPU內(nèi)存硬盤Raid網(wǎng)卡2臺NameNode2 顆8P8處理器(3.8GHz)512GBDDR3-1600MHz內(nèi)存, 可擴(kuò)展至 512GB1T SAS 硬盤*2;500G SSD 硬盤*2八通道高性能 SAS RAID卡 (1G 緩存)* 12 個(gè)千兆網(wǎng)口,雙口萬兆網(wǎng)卡100臺DataNode1 顆8P8處理器(3.8GHz)128GB-256G DDR4-2133MH內(nèi)存3T SATA 硬盤*10;500G SSD 硬盤*2JBOD 安

36、裝, 無 RAID2 個(gè)千兆網(wǎng)口,雙口萬兆網(wǎng)卡小規(guī)模硬件推薦:4-10 個(gè)節(jié)點(diǎn)中等規(guī)模硬件配置推薦:20+個(gè)節(jié)點(diǎn)大規(guī)模硬件配置推薦:100 節(jié)點(diǎn)以上處理器 CPU1 顆 8P8 處理器(3.8GHz)(3.8GHz)2 顆 8P8 處理器(3.8GHz)2 顆 8P8 處理器(3.8GHz)內(nèi)存64G 或者以上內(nèi)存,DDR3L,RRECC64G 或者以上內(nèi)存,DDR3L,RRECC64G 或者以上內(nèi)存,DDR3L,RRECC系統(tǒng)盤2*500G SSD2*500G SSD2*500G SSD磁盤接口SAS 6GB/sSAS 6GB/sSAS 6GB/s磁盤12 個(gè) 2T 或者 6T 7200RP

37、M SATA 硬盤12 個(gè) 2T 或者 6T 7200RPM SATA 硬盤12 個(gè) 2T 或者 6T 7200RPM SATA 硬盤Raid1G 緩存支持 RAIDO,1,51G 緩存支持 RAIDO,1,51G 緩存支持 RAIDO,1,5網(wǎng)絡(luò)10Gb 以太網(wǎng)和若干兆以太網(wǎng)10Gb 以太網(wǎng)和若干兆以太網(wǎng)10Gb 以太網(wǎng)和若干兆以太網(wǎng)電源1+1 冗余電源1+1 冗余電源1+1 冗余電源紅騰-Redoop 大數(shù)據(jù)平臺場景規(guī)劃在最新的 hadoop 2.6.0 版本中,YARN 引入了一種新的調(diào)度策略:基于的調(diào)度機(jī)制。該機(jī)制的主要引入動機(jī)是更好地讓 YARN 運(yùn)行在異構(gòu)集群中,進(jìn)而更好地管理和調(diào)

38、度混合類型的應(yīng)用程序。為多租戶提供了一些資源分配解決方案,某些任務(wù)只能運(yùn)行在某些有關(guān) Hadoop 多租戶實(shí)現(xiàn),請參考紅象其他大數(shù)據(jù)解決方案文件!節(jié)點(diǎn)。Linux os 系統(tǒng):1、 Linux 系統(tǒng)所在磁盤制作Raid1,需要損失一塊盤,比如:12 快盤,2 塊盤做raid1 安裝 linux os,則 hdfs 使用 10 塊盤!注意:1 塊盤3T 理論大小應(yīng)為=3096G實(shí)際大小 3000G,而我們實(shí)際3*1024G計(jì)算時(shí)使用的是 1024.2、客戶機(jī)-硬件配置3、服務(wù)器配置紅騰系統(tǒng)技術(shù)集群角色CPU內(nèi)存硬盤Raid網(wǎng)卡客戶機(jī)( GateWay Node2 顆 8P8 處 理 器(3.8GHz)64GBD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論