




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 , Inc. All rights reserved.1XXX大數(shù)據(jù)平臺(tái)介紹提綱數(shù)據(jù)正在驅(qū)動(dòng)行業(yè)的發(fā)展以Hadoop為核心的大數(shù)據(jù)平臺(tái)企業(yè)數(shù)據(jù)平臺(tái)(Enterprise Data Hub)大數(shù)據(jù)安全平臺(tái)大數(shù)據(jù)管理平臺(tái)大數(shù)據(jù)技術(shù)支持總結(jié)無(wú)所不在的數(shù)據(jù)物聯(lián)網(wǎng)及智能終端數(shù)據(jù)用戶交互行為數(shù)據(jù)企業(yè)運(yùn)營(yíng)數(shù)據(jù)數(shù)據(jù)正成為企業(yè)的核心資產(chǎn),數(shù)據(jù)可以幫助企業(yè)實(shí)現(xiàn)商業(yè)價(jià)值。數(shù)據(jù)價(jià)值挖掘體量大速度快多樣性價(jià)值密度低日志社交數(shù)據(jù) 用戶行為 機(jī)器數(shù)據(jù) 圖片音頻 視頻 傳感器運(yùn)營(yíng)數(shù)據(jù)Value更好地理解并服務(wù)客 戶精細(xì)化運(yùn)營(yíng)管理個(gè)性化醫(yī)療健康服務(wù)公共事業(yè)服務(wù)安全和合規(guī)性檢查用戶標(biāo)簽行為分析文本分析情感分析圖片分析音頻分析軌
2、跡分析DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabases/ WarehouseOperationalApplicationsNew DataLimited DataNot efficient to keep existing data, let alone handle new data sources.Time consuming to transform datafor analysis in existing systems.Limited InsightsP
3、ower users struggle with data. Many users have no data.Compliance and PrivacyMore data, more users, and more tools create complexity.Need to balance business agilitywith security and governance.傳統(tǒng)架構(gòu)的劣勢(shì)DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabasesOperation
4、alApplicationsNew DataKeep Unlimited DataFrom disparate and limited views, to unlimited information access.Unlock Value from DataFrom analytics for some, to insights for all.Manage ComplianceFrom risk due to regulations and customer privacy concerns,to trust in a secure and compliant platform.Unlimi
5、ted StorageEnterprise Data HubProcessDiscoverModelServeSecurity and Administration亟需新的數(shù)據(jù)平臺(tái)架構(gòu)企業(yè)級(jí)數(shù)據(jù)平臺(tái)穩(wěn)定性嚴(yán)格的測(cè)試被客戶和開發(fā)者證明開源的模式易用性標(biāo)準(zhǔn)的API(Java, SQL, Python, Rest)標(biāo)準(zhǔn)的工具集成(MS, Qlikview, Tableau, Teradata,Netezza, Quest)一站式管理解決方案安全性企業(yè)安全標(biāo)準(zhǔn)集成統(tǒng)一的訪問安全控制全面的數(shù)據(jù)保護(hù),密鑰管理可管理性部署、管理、監(jiān)控、警告可治理性數(shù)據(jù)溯源數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)生命周期管理靈活性不同的問題可以有不同的
6、技術(shù)選擇性能高吞吐的NoSQL存儲(chǔ)原生的大規(guī)模數(shù)據(jù)處理引擎內(nèi)存計(jì)算為X86平臺(tái)做的原生優(yōu)化最具創(chuàng)新的開源核心CDH Distribution for Apache Hadoop100%開源且開放標(biāo) 準(zhǔn)的Hadoop核心數(shù)據(jù)采集多樣化的可擴(kuò)展存儲(chǔ)資源(負(fù)載)管理框架靈活多樣的處理引擎全面的安全技術(shù)體系易用的Hadoop交互界面Workload ManagementProcessIngest Sqoop, Flume,KafkaTransform MapReduce, Hive, Pig, SparkDiscoverAnalytic Database ImpalaSearch SolrModelM
7、achine Learning R, Spark Mlib, MahoutServeNoSQL DatabaseHBaseStreaming Spark StreamingUnlimited Storage HDFS, HBaseYARNSentryCDHCDH全球最流行的Hadoop發(fā)行版最完整且穩(wěn)定的版本,經(jīng)過嚴(yán)格的行業(yè)檢驗(yàn)具有最快的更新,更多新的功能方便開發(fā)者和集成商使用Hadoop和其他一些Hadoop發(fā)行版提供商對(duì)比做Hadoop開發(fā)的,其他廠商僅是做Hadoop集成或CDH集成和Hadoop trunk最快的同步,能保證業(yè)務(wù)的前向兼容性;其他廠商在Hadoop上做的定制優(yōu)化或修復(fù),
8、無(wú)法保證兼容性所有組件的開發(fā)和專業(yè)支持能力,其他廠商也僅僅跟隨包含的版本進(jìn)行集成,缺乏問題修復(fù)和專業(yè)支持能力HDFS分布式文件系統(tǒng)靈活性多樣化數(shù)據(jù)的統(tǒng)一存儲(chǔ)可擴(kuò)展性良好的線性可擴(kuò)展性高容錯(cuò)性設(shè)計(jì)之初就考慮了高容錯(cuò)性開放性存儲(chǔ)的數(shù)據(jù)格式和內(nèi)容完全可見適合大文件的順序讀寫, 寫一 次讀多次Unlimited StorageEnterprise Data HubProcessDiscoverModelServeSecurity and AdministrationApache HBase構(gòu)建在分布式存儲(chǔ)上的NoSQL數(shù)據(jù)庫(kù)和HDFS緊密結(jié)合,適合高并發(fā)隨機(jī)讀寫具有分布式存儲(chǔ)的所有優(yōu)點(diǎn)靈活性多樣化數(shù)據(jù)
9、的統(tǒng)一存儲(chǔ)可擴(kuò)展性良好的線性可擴(kuò)展性開放性存儲(chǔ)的數(shù)據(jù)格式和內(nèi)容完全可見+ 在線數(shù)據(jù)服務(wù)Security and AdministrationUnlimited StorageEnterprise Data HubProcessDiscoverModelServeApache Kafka每個(gè)節(jié)點(diǎn)稱為 Broker數(shù)據(jù)以 Topics方式寫入Kafka每一個(gè)Topic都可以被分片分片分布在Broker上分片可以有多個(gè)副本,其中一個(gè) 為L(zhǎng)eaderProducer, Consumer都與partition直接進(jìn)行數(shù)據(jù)交換Broker 1Broker 2Broker 3Partition 1 (Lea
10、der)Partition 2Partition 3Partition 2 (Leader)Partition 1Partition 3Partition 3(Leader)Partition 1Partition 2ProducerProducerConsumerConsumerKafka ClusterKafka + Apache FlumeKafka 可以被配置為 Flume 的ChannelFlume Sources 和 Sinks 可以配置成Kafka的Consumer和ProducerFlume Sources Consume from Kafka:Write data to HD
11、FS, HBase, or SearchFlume Sinks Write to Kafka:Read from logs, files, jms, http, rpc, thrift,etc and write events to Kafka多樣的工作引擎批處理引擎(MapReduce, Hive, Spark) - 適合長(zhǎng)時(shí)間的數(shù)據(jù)處理作業(yè),高度 成熟可靠實(shí)時(shí)數(shù)據(jù)處理(Spark Streaming)- 實(shí)時(shí)的數(shù)據(jù)同時(shí),異常檢測(cè),預(yù)測(cè)分析等自助BI分析/交互式SQL (Impala) 準(zhǔn)實(shí)時(shí)的分析作業(yè),高效的數(shù)據(jù)探索式 分析,高并發(fā)的自助BI功能搜索( Search) - 快速的跨應(yīng)用數(shù)據(jù)
12、搜索能力數(shù)據(jù)挖掘(Spark Mllib, R, Mahout)- 適合數(shù)據(jù)分析人員的快速模型創(chuàng)建,迭 代在線服務(wù)(HBase)- 提供實(shí)時(shí)的數(shù)據(jù)服務(wù)能力交互式分析引擎Impala構(gòu)建于HDFS上的原生的分析型SQL易用性利用現(xiàn)有的SQL語(yǔ)法,和絕大多數(shù)BI工具完美集成高并發(fā)為高并發(fā)的隨機(jī)分析而優(yōu)化, 用C+編寫交互性提供交互式的體驗(yàn)原生和Hadoop棧深度融合Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServeApache Spark適合數(shù)據(jù)科學(xué)家的分布式內(nèi)存計(jì)算引擎靈
13、活多種接口,多種算法高效內(nèi)存計(jì)算,適合迭代是計(jì)算易用好用且豐富的API安全集成和數(shù)據(jù)平臺(tái)的其他功能無(wú)縫集成適合批處理、流計(jì)算以及迭代 式計(jì)算Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServeSQL的實(shí)現(xiàn)途徑Hive是一個(gè)SQL解析和優(yōu)化層, 底層引擎可以是MapReduce或 是SparkSparkSQL是Spark生態(tài)系統(tǒng)的一 個(gè)SQL解析和優(yōu)化層,也需要借 助于Spark引擎Impala就是一個(gè)原生的SQL解析、 優(yōu)化以及內(nèi)存執(zhí)行引擎,直接 操縱HDFSUnlimi
14、ted Storage HDFSImpalaHiveMapReduceSparkSparkSparkSQL數(shù)據(jù)處理和分析多樣化的SQL解決方案不同的需求需要不同的技術(shù)互補(bǔ)而不是替代實(shí)時(shí)監(jiān)控交互式分析和探和分析索式分析批處理時(shí)延要求 秒級(jí)數(shù)秒到分鐘幾十分鐘以上數(shù)據(jù)源交互式SQL性能050100150250200300PrestoHive-on-TezTime (in seconds)350Single User vs 10 User Response Time/ImpalaTimes Faster(Lower bars = better)Single User, 510 Users, 11Sin
15、gle User, 2510 Users, 12010 Users, 30210 Users, 202Single User, 37Single User, 775.0 x10.6x7.4x27.4x15.4x18.3xImpalaSpark SQLIndependent validation by IBM Research SQL-on-Hadoop VLDB paper:“Impalas database architecture provides significant performance gains” Search大數(shù)據(jù)平臺(tái)內(nèi)的搜索引擎易用性實(shí)現(xiàn)了企業(yè)內(nèi)數(shù)據(jù)平臺(tái)的搜索引擎標(biāo)準(zhǔn)化基于
16、Solr的標(biāo)準(zhǔn)搜索實(shí)現(xiàn)靈活性實(shí)現(xiàn)了多種索引的構(gòu)建方式安全和集成和企業(yè)級(jí)功能的緊密集成|Search所有人都知道怎么搜索Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServe實(shí)時(shí)數(shù)據(jù)處理實(shí)時(shí)搜索HDFSOnline Streaming DataEnd User Client App (e.g.Hue)FlumeRaw, filtered, or annotated dataSolrCloud Cluster(s)Indexed dataMapReduce Batch Inde
17、xing w/ MorphlinesGoLive updatesHBase ClusterNRT Replication Events indexed w/ MorphlinesOLTP Data ManagerSearch queriesNRT Data indexed w/ Morphlines企業(yè)消息總線Hue專門為Hadoop打造的用戶界面HDFS的瀏覽以及管理HBase的管理作業(yè)流設(shè)計(jì),作業(yè)提交以及管理SQL操作前端定制化的搜索前端訪問權(quán)限配置界面CDH發(fā)布模式領(lǐng)先于開源的版本包含社區(qū)版本尚未發(fā)布的創(chuàng)新和穩(wěn)定性功能更快獲取問題的修復(fù) 強(qiáng)大的Committer團(tuán)隊(duì)保證客戶問題得到更快的
18、修復(fù)最廣泛的測(cè)試 活躍的開源社區(qū)能讓所有功能得到最全的測(cè)試CDH凝聚在開源的貢獻(xiàn)有89位Hadoop以及相關(guān)生態(tài)的Committer,涵蓋:Hadoop, HBase, Hive, Spark, Lucene/Solr, Flume, Sqoop等項(xiàng)目提供了最多的企業(yè)級(jí)Hadoop功能HDFS/YARN HA, Hadoop Secure Communication, HDFS Short-Circuit, HDFS Caching, HDFS Transparent EncryptionHBase snapshots, HBase multi-tenancyHiveServer 2, Hiv
19、e-on-SparkSpark Streaming exactly-once, Spark Shuffle OptimizationSolr + Hadoop Integration大數(shù)據(jù)安全安全的挑戰(zhàn)越來(lái)越多的開發(fā)人員和業(yè)務(wù)人員會(huì)使用大數(shù)據(jù)平臺(tái)企業(yè)數(shù)據(jù)平臺(tái)正成為黑客的主要目標(biāo)Hadoop及衍生的眾多項(xiàng)目缺乏統(tǒng)一的安全解決方案?jìng)鹘y(tǒng)的應(yīng)用層安全方案難以勝任新平臺(tái)平臺(tái)有多種接口給用戶使用傳統(tǒng)方案中各應(yīng)用系統(tǒng)相對(duì)獨(dú)立用戶一旦突破應(yīng)用層安全,數(shù)據(jù)平臺(tái)就完全暴露數(shù)據(jù)沒有任何保護(hù)訪問沒有任何限制全面的安全管控Apache Sentry, HDFS Encryption, Navigator, Key Tr
20、ustee數(shù)據(jù)平臺(tái)的安全不可或缺:多樣化的數(shù)據(jù)導(dǎo)入方式多種引擎的協(xié)同工作多業(yè)務(wù)的并發(fā)多用戶的訪問和企業(yè)的基礎(chǔ)設(shè)施集成符合行業(yè)的安全審查Perimeter Standards-based AuthenticationProcessDiscoverModelServeAccess Unified Role-based AuthorizationSecurity and AdministrationVisibility Auditing & GovernanceUnlimited StorageData Encryption & Key Management安全技術(shù)架構(gòu)認(rèn)證, 授權(quán), 審計(jì), 以及行
21、業(yè)監(jiān)管規(guī)范Perimeter限制什么樣的用戶可以訪問集群Technical Concepts: Authentication Network isolationAccess定義用戶或者應(yīng)用可以訪問什么數(shù)據(jù)Technical Concepts: Permissions Authorization ManagerApache SentryVisibility數(shù)據(jù)從什么地方來(lái) 以及數(shù)據(jù)是怎么被 用的Technical Concepts: Auditing Lineage NavigatorData敏感數(shù)據(jù)保護(hù)以防止為授權(quán)的訪問Technical Concepts: Encryption, Token
22、ization, Data maskingNavigator Encrypt & Key Trustee | Partners多層次的安全多層級(jí)的身份認(rèn)證( Manager, Kerberos, AD, Hue)管理平臺(tái),運(yùn)維人員,客戶端,BI工具統(tǒng)一的授權(quán)訪問控制(Apache Sentry)在平臺(tái)上提供統(tǒng)一的訪問安全控制策略數(shù)據(jù)保護(hù)(HDFS At-Rest Encryption, Navigator Encrypt, Navigator KeyTrustee)On-the-wire和at-rest數(shù)據(jù)保護(hù),并內(nèi)置有Key Management方案全面的審計(jì)( Navigator)不管以什
23、么方式進(jìn)行訪問集群,都會(huì)得到審計(jì)使用者視圖認(rèn)證和授權(quán)認(rèn)證和授權(quán)HiveServer2AuthNLDAPKerberosAuthZIdentityManagementKDCSentryBindingSentry ServicePolicy Definition/RetrievalEnforcementGroupGroup MappingLocalGroupMappingShellLDAPHadoop UserGroupMapping數(shù)據(jù)保護(hù)底層文件系統(tǒng)的數(shù)據(jù)保護(hù)(Navigator Encrypt, Navigator KeyTrustee)臨時(shí)文件,緩存到本地的中間計(jì)算結(jié)果,配置文件以及元數(shù)據(jù)
24、文件HDFS文件的保護(hù)(HDFS Data-At-Rest Encryption, Navigator KeyTrustee)只能保護(hù)HDFS的文件或目錄數(shù)據(jù)網(wǎng)絡(luò)傳輸?shù)陌踩裕═CP over SSL)基于SSL的節(jié)點(diǎn)間網(wǎng)絡(luò)通信Navigator Encrypt/KeyTrustee (Gazzang)Navigator Encrypt全面高效的數(shù)據(jù)保護(hù),Linux文件系統(tǒng)以下硬件指令加速(AES-NI)存儲(chǔ)節(jié)點(diǎn)上的加解密方案Navigator KeyTrustee集中化的秘鑰管理靈活的部署方式on-premise或者SaaS Navigator全面的審計(jì)功能對(duì)HDFS、Impala、Hive
25、、HBase和Sentry的審計(jì)追蹤提供集中式的配置管理接口查看用戶/用戶組對(duì)HDFS、Impala、Hive和HBase的訪問權(quán)限以保證對(duì)隱私及合規(guī)的正確 配置數(shù)據(jù)發(fā)現(xiàn)和探索快速檢索相關(guān)數(shù)據(jù),加速數(shù)據(jù)發(fā)現(xiàn)流程自動(dòng)發(fā)現(xiàn)元數(shù)據(jù)并允許用戶自定義可定制化標(biāo)簽與注釋,便于數(shù)據(jù)追蹤與歸類數(shù)據(jù)溯源幫助用戶直觀理解數(shù)據(jù)集的上下游血脈關(guān)系,驗(yàn)證數(shù)據(jù)源頭與數(shù)據(jù)演變過程可以導(dǎo)出數(shù)據(jù)溯源信息到其他的溯源信息管理系統(tǒng)中生命周期管理定義并自動(dòng)化復(fù)雜的數(shù)據(jù)生命周期管理工作,包括分類,保留及加解密策略 一切都基 于Navigator豐富的元數(shù)據(jù)管理能力大數(shù)據(jù)平臺(tái)-系統(tǒng)管理平臺(tái)系統(tǒng)管理平臺(tái) Manager Manager 專
26、注于 企業(yè)管理平臺(tái),而不只是一 個(gè)集群管理工具基于角色的管理視圖豐富且可定制化的監(jiān)控圖表展現(xiàn)LDAP/Kerberos/SNMP/Rest API集成零宕機(jī)安裝和升級(jí)復(fù)制和災(zāi)備多租戶資源管理自動(dòng)化的運(yùn)營(yíng)和診斷報(bào)告開放API可以集成第三方工具 滾動(dòng)重啟和升級(jí)集群災(zāi)備配置歷史版本回滾智能的配置警告智能決策配置過期需要重啟客戶端配置過期全局時(shí)間線控制方便診斷極方便的全局時(shí)間線控制啟用Kerberos啟用Kerberos啟用Kerberos啟用Kerberos通過 Manager管理用戶自定義服務(wù)/cm_ext/wiki Manager Rest API多租戶管理在多用戶的環(huán)境下共享相同的系統(tǒng)或程序組
27、件,且仍可確保各用戶間數(shù)據(jù)、 配置甚至計(jì)算資源的隔離性。各租戶的資源保障租戶間的細(xì)粒度的安全隔離租戶資源請(qǐng)求的快速響應(yīng)租戶資源使用的報(bào)告多租戶的優(yōu)勢(shì)數(shù)據(jù)共享方便運(yùn)營(yíng)提高資源使用率多租戶的挑戰(zhàn)開源版本已經(jīng)實(shí)現(xiàn)的YARN的資源管理平臺(tái),可以實(shí)現(xiàn)對(duì)MapReduce、Spark的動(dòng)態(tài)資源管理基于Queue的資源抽象描述基于Queue的用戶權(quán)限控制挑戰(zhàn)只支持批處理的引擎對(duì)有時(shí)延要求租戶的支持統(tǒng)一的權(quán)限控制模型沒有對(duì)租戶資源使用的詳細(xì)報(bào)告平臺(tái)的多租戶資源隔離和管理保障租戶對(duì)服務(wù)質(zhì)量的要求,且有效利用集群的資源安全和管治平臺(tái)提供了從身份驗(yàn)證、授權(quán)、審計(jì)和數(shù)據(jù)安全的全面保護(hù),確 保租戶之間的隔離性資源使用報(bào)
28、告統(tǒng)計(jì)租戶對(duì)資源的使用要求,優(yōu)化租戶的資源分配資源管理資源劃分動(dòng)態(tài)資源劃分按需給租戶提供滿足服務(wù)質(zhì)量的資源保障有效利用集群資源靜態(tài)資源劃分滿足關(guān)鍵負(fù)載的作業(yè)保障配額管理磁盤空間配額文件、目錄數(shù)量配額,以優(yōu)化文件系統(tǒng)元數(shù)據(jù)靜態(tài)資源管理通過Linux cgroup來(lái)靜態(tài)劃分各服務(wù)所占用的資源支持HBase, HDFS, Implala, YARN保障關(guān)鍵作業(yè)的資源占用YARN 30%HBase 20%HDFS 30%Impala20%Product 2Mkt 1Developer 3靜態(tài)資源管理配置HBase內(nèi)部的資源管理對(duì)某個(gè)用戶、某張表或某個(gè)表空間的訪問進(jìn)行限制(Throttling)將HBa
29、se上的作業(yè)按類型進(jìn)行調(diào)度分析或查詢讀或?qū)憚?dòng)態(tài)資源管理基于YARN的資源管理框架可以實(shí)現(xiàn)MapReduce, Spark以及Impala對(duì)資源的共 享通過Llama實(shí)現(xiàn)Impala和YARN資源的集成按租戶的資源使用狀況定期調(diào)整資源分配策略YARN/Impala 50%Product 1Business 3Developer 2Impala 4YARN/Impala 50%Product 1Business 1Developer 4Impala 4WeekdayWeekend資源使用狀況統(tǒng)計(jì)租戶對(duì)于資源的歷史使用統(tǒng)計(jì)和趨勢(shì),以更好滿足企業(yè)內(nèi)部的Showback和Chargeback模式大數(shù)據(jù)平
30、臺(tái)-技術(shù)支持技術(shù)支持專業(yè)服務(wù)近百人的專業(yè)技術(shù)支持團(tuán)隊(duì)豐富的知識(shí)庫(kù)基于大數(shù)據(jù)技術(shù)的預(yù)測(cè)支持及主動(dòng)支持嚴(yán)格的問題修復(fù)流程專業(yè)服務(wù)預(yù)定義的企業(yè)服務(wù)內(nèi)容駐場(chǎng)架構(gòu)師和專人技術(shù)支持集群部署及 調(diào)優(yōu)數(shù)據(jù)導(dǎo) 入及ETL 指導(dǎo)數(shù)據(jù)分 析指導(dǎo)安全指 導(dǎo)生產(chǎn)環(huán) 境就緒預(yù)測(cè)、主動(dòng)技術(shù)支持資源管理YARN在線NOSQLHBASESYSTEM MANAGEMENT MANAGER存儲(chǔ)各種類型數(shù)據(jù)批處理MAPREDUCE文件系統(tǒng)HDFS3RD PARTY APPSTABLEAU利用大數(shù)據(jù)平臺(tái)技術(shù),在客戶集群還沒發(fā)生問題之前就可以得到主動(dòng)的預(yù)警付費(fèi)客戶可以定期向支持中心發(fā)送集群診斷包以獲取主動(dòng)支持基于的EDH構(gòu)建日志文件客戶
31、節(jié)點(diǎn)數(shù)據(jù)集群描述命令輸出知識(shí)庫(kù)CRM數(shù)據(jù)支持記錄Apache郵件列表社區(qū)論壇AN分AL析YTICSSQQLLIMPALA搜SE索AR引C擎HENGINESOLR硬件配置嚴(yán)格的問題修復(fù)過程 工 程師修復(fù)問 題并進(jìn)行測(cè) 試客戶發(fā)現(xiàn)并 通過系統(tǒng)報(bào) 告問題 工 程師重現(xiàn)問 題 在Apache報(bào)告JIRA并提交 補(bǔ)丁committer 審查并提交補(bǔ) 丁到開源社 區(qū) 把 補(bǔ)丁放到下 一個(gè)版本發(fā) 布 給 客戶提供補(bǔ) 丁程序客戶通過的無(wú)宕機(jī)滾動(dòng) 升級(jí)打補(bǔ)丁客戶升級(jí)版 本總結(jié) Enterprise專注于開源Hadoop的開發(fā),保護(hù)用戶的投資(Open Standard)最具創(chuàng)新的Hadoop發(fā)行版 (Innov
32、ation)最好用的企業(yè)數(shù)據(jù)平臺(tái)(Usability)活躍的社區(qū)一站式的管理平臺(tái)最完善的安全架構(gòu)(Security)方便集成(Integration)全面可擴(kuò)展(Extensibility)最專業(yè)的、可持續(xù)的技術(shù)支持與Apache開源項(xiàng)目比集成性:包含了20多個(gè)開源項(xiàng)目,組 件版本的兼容,解決了組件內(nèi)部的配 置和組件間的配置集成12管理性:自動(dòng)化的安裝部署;智能的 配置優(yōu)化;超級(jí)易用的監(jiān)控診斷;企 業(yè)級(jí)的管理能力;基礎(chǔ)設(shè)施的集成安全性:全面的安全技術(shù)架構(gòu);獨(dú)有 的主數(shù)據(jù)管理能力幫助用戶快速發(fā)現(xiàn) 數(shù)據(jù)并理解數(shù)據(jù)處理流程34技術(shù)支持:開源項(xiàng)目的發(fā)布周期不 定,會(huì)定期發(fā)布問題修復(fù) 版,并提供快速的問
33、題修復(fù);同時(shí)開 源項(xiàng)目有時(shí)會(huì)破壞一些兼容性與社區(qū)版對(duì)比 Express Enterprise平臺(tái)核心CDHCDH包含數(shù)據(jù)采集、存儲(chǔ)、處理和分析等組件管理性基本的安裝、部署、監(jiān)控、 告警等管理功能還包含一系列企業(yè)級(jí)功能: 配置歷史修改和回退平臺(tái)運(yùn)營(yíng)歷史報(bào)告 零宕機(jī)重啟、升級(jí) 備份和復(fù)制定期診斷等等不需要花大把的時(shí)間去查看由于配置修 改導(dǎo)致的性能下降降低關(guān)鍵業(yè)務(wù)宕機(jī)的風(fēng)險(xiǎn)定期的診斷快照縮短解決問題的周期無(wú)意的數(shù)據(jù)損壞安全性有限的、松散的安全特性自動(dòng)化的Kerberos部署 統(tǒng)一訪問權(quán)限控制全面的審計(jì)整體的數(shù)據(jù)保護(hù)解決方案發(fā)現(xiàn)惡意的訪問防止系統(tǒng)管理員直接通過底層文件系統(tǒng) 去讀取敏感數(shù)據(jù)數(shù)據(jù)治理無(wú)集群
34、元數(shù)據(jù)的管理 數(shù)據(jù)溯源理解集群中有什么數(shù)據(jù),快速發(fā)現(xiàn)數(shù)據(jù)數(shù)據(jù)的依賴關(guān)系,理解報(bào)表依賴的數(shù)據(jù) 源技術(shù)支持無(wú)主動(dòng)的集群診斷、產(chǎn)品支持團(tuán)隊(duì)、客戶可以訪問的知識(shí)庫(kù)、專業(yè)技術(shù)服務(wù) 定期的平臺(tái)缺陷通知、路線圖需要花費(fèi)大量的時(shí)間來(lái)優(yōu)化集群來(lái)滿足業(yè)務(wù)需求系統(tǒng)持續(xù)穩(wěn)定運(yùn)行的技術(shù)保障與閉源廠商對(duì)比閉源平臺(tái) Enterprise平臺(tái)核心UnknownCDH閉源的組件或者功能缺乏和開源的持 續(xù)兼容;閉源特性沒有社區(qū)支持增加 了用戶使用代價(jià)管理性基本的安裝、部署、監(jiān)控、告警等 管理功能業(yè)界最好用,完全為Hadoop而開發(fā)的管 理工具 Manager安全性有限的、松散的安全特性全面的安全解決方案,業(yè)界唯一一個(gè)符 合PCI
35、 (Payment Card Industry)安全標(biāo)準(zhǔn)的 平臺(tái)數(shù)據(jù)治理無(wú)集群元數(shù)據(jù)的管理 數(shù)據(jù)溯源技術(shù)支持有但不可持續(xù)專業(yè)的產(chǎn)品支持團(tuán)隊(duì),嚴(yán)格的問題修復(fù) 流程,主動(dòng)的集群診斷和預(yù)測(cè)支持版本和服務(wù)免費(fèi)版( Express)和按年訂閱的付費(fèi)版( Enterprise)免費(fèi)版包含CDH和功能受限的 Manager付費(fèi)版可以使用 Enterprise的所有功能,但根據(jù)可以享受的服務(wù)內(nèi)容 不一樣Basic Edition:只提供Hadoop核心和 Director的服務(wù)Flex Edition:HBase/Search/Impala/Spark/Navigator選擇其一Data Hub Editio
36、n:所有組件都有服務(wù)提供Basic Edition只有5x8或7x24的標(biāo)準(zhǔn)支持Flex Edition和Data Hub Edition有5x8或7x24 Premium支持可選許可證模式不提供永久的許可證產(chǎn)品采取的是按年訂閱許可證模式,假設(shè)用戶訂閱了三年的,則具 體的付費(fèi)方式根據(jù)客戶要求:一次性付費(fèi)按三年平均,分三次付第一年可以付大部分費(fèi)用,后兩年以維保的名義付費(fèi)訂閱期結(jié)束之后,如果用戶不再續(xù)訂,則原有的功能都可以繼續(xù)使用(包括 付費(fèi)版才有的功能)訂閱期結(jié)束之后,如果用戶需要續(xù)訂,則視為一次新的訂閱期,此次訂閱的 價(jià)格會(huì)視前次訂閱的周期和本次訂閱的周期酌情考慮迅速體驗(yàn) Express 完全
37、免費(fèi)全功能數(shù)據(jù)平臺(tái)(CDH),無(wú)存儲(chǔ)容量和節(jié)點(diǎn)數(shù)限制一站式的管理工具( Manager)獲取社區(qū)支持 Community Enterprise Trial企業(yè)版60天的試用獲取試用版許可證,得到專業(yè)的技術(shù)支持 Live在線的數(shù)據(jù)分析體驗(yàn)(Hue,Tableau,Zoomdata,Trifacta)開源模式可以防止被某一個(gè)提供商綁定,在后期可能需要付出高昂的維護(hù)和技術(shù)支持費(fèi)用產(chǎn)品的穩(wěn)定性更好,有更多的用戶參與產(chǎn)品的使用和測(cè)試,使得產(chǎn)品存在的問題 更少安全性更好,有更多的人可以審查代碼,任何代碼的安全漏洞可以被很快地發(fā)現(xiàn) 和修復(fù)匯聚全球智慧,加速產(chǎn)品創(chuàng)新;沒有任何一個(gè)提供商能夠提供比社區(qū)更快、更全
38、 的產(chǎn)品更新開源比閉源能更好地遵守開放標(biāo)準(zhǔn),不受專有的數(shù)據(jù)存儲(chǔ)和處理引擎限制,方便 業(yè)務(wù)部門、企業(yè)間的互操作企業(yè)可以通過多種渠道快速解決問題,培養(yǎng)團(tuán)隊(duì)的自我技能企業(yè)需要開源Hadoop平臺(tái)Hadoop及其生態(tài)的項(xiàng)目屬性決定核心平臺(tái)要開源,任何定制化開發(fā)最終損 壞的是客戶利益開源是幫助客戶解決問題的手段,不是目的對(duì)于任何開源項(xiàng)目的問題都能夠以開源的方式解決,否則長(zhǎng)此以往會(huì)和社區(qū)主流差異化越來(lái)越大,或者只能等下一個(gè)開源版本的發(fā)布有足夠的解決開源問題的能力,這樣可以更快的滿足客戶的需求領(lǐng)導(dǎo)Hadoop作為企業(yè)級(jí)應(yīng)用的缺陷功能定義和開發(fā)- HDFS HA, Short-circuit read, Ne
39、twork Encryption, HBase snapshots, Hive authentication, HDFS Caching, At-rest HDFS Encryption,Thank you大數(shù)據(jù)分析平臺(tái)幫助客戶實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)大型數(shù)據(jù)存儲(chǔ)計(jì)算平臺(tái)開放、融合、跨平臺(tái)、全過程按需組裝產(chǎn)品定位大數(shù)據(jù)分析平臺(tái)支撐多種數(shù)據(jù)源接入,可與RDBMS、JAVAAPI,工業(yè)OPC等接入,可制成企業(yè)級(jí)大數(shù)據(jù)存儲(chǔ)架構(gòu)在原有大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)HIVE和列式數(shù)據(jù)庫(kù)HBASE的基礎(chǔ)上,自主研發(fā)實(shí)時(shí)、離線大數(shù)據(jù)存儲(chǔ)同一企業(yè)、行業(yè)、領(lǐng)域和產(chǎn)業(yè)鏈內(nèi)進(jìn)行遷移、共享、靈活擴(kuò)展,大大降低應(yīng)用成本滿足分析應(yīng)用實(shí)時(shí)性要求,提升
40、企業(yè)管理和業(yè)務(wù)分析決策的敏捷反應(yīng)能力,提高企業(yè)運(yùn)營(yíng)效率 支撐大數(shù)據(jù)實(shí)時(shí)處理與分析,充分滿足企業(yè)科學(xué)和快速精準(zhǔn)決策對(duì)于 信息的時(shí)效性和完整性要求作為平臺(tái)級(jí)產(chǎn)品方案,可有效規(guī)避項(xiàng)目級(jí)方案應(yīng)用交付和運(yùn)維模式高成本的風(fēng)險(xiǎn)和問題3大核心功能模塊存儲(chǔ)與計(jì)算大數(shù)據(jù)可視化數(shù)據(jù)挖掘開放式API和協(xié)議實(shí)時(shí)監(jiān)控信息實(shí)時(shí)歷史信息歷史分析信息歷史存儲(chǔ)信息MPP分析計(jì)算集群NO-SQL搜索數(shù)據(jù)存儲(chǔ)數(shù)據(jù)獲取數(shù)據(jù)組織數(shù)據(jù)分析數(shù)據(jù)應(yīng)用實(shí)時(shí)數(shù)據(jù)流處理服務(wù)器聯(lián)合訪問大數(shù)據(jù)平臺(tái)產(chǎn)品創(chuàng)新故障診斷均質(zhì)生產(chǎn)能源測(cè)算實(shí)時(shí)監(jiān)控問題評(píng)價(jià)透明感知企業(yè)級(jí)報(bào)告工具Ad hoc 即時(shí)查詢例外分析實(shí)時(shí)數(shù)據(jù)分析預(yù)測(cè)與挖掘數(shù)據(jù)集群處理ETL處理服務(wù)器RDBMSHiveHbase社交媒體RSSWEB日志JavaOpc數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)濃縮數(shù)據(jù)聚合數(shù)據(jù)分析數(shù)據(jù)挖掘hadoopspark大數(shù)據(jù)分析應(yīng)用平臺(tái)架構(gòu)內(nèi)嵌一站式數(shù)據(jù)存儲(chǔ)平臺(tái)核心的一站式數(shù)據(jù)存儲(chǔ)平臺(tái),存儲(chǔ)能支撐HADOOP,SPARK,HBASE,IMPALA等大數(shù)據(jù)平臺(tái)。通過內(nèi)存計(jì)算技術(shù)、高效索引、執(zhí)行計(jì)劃優(yōu)化和高度容錯(cuò)的技術(shù),使得一個(gè)平臺(tái)能夠處理從GB到PB的數(shù)據(jù),并且在每個(gè)數(shù)量級(jí)上,都能比現(xiàn)有技術(shù)提供更快的性能;可以連接多種大數(shù)據(jù)存儲(chǔ)平臺(tái)廣泛支持連接各種
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二項(xiàng)式定理專項(xiàng)訓(xùn)練解析版
- 2025年婦幼保健員考試中的重點(diǎn)領(lǐng)域試題及答案
- 二零二五年度房屋翻新項(xiàng)目裝修工人雇傭合同
- 二零二五年度房屋買賣合同解除與房地產(chǎn)交易糾紛解決協(xié)議
- 二零二五年度特色茶樓入股經(jīng)營(yíng)管理合同
- 2025年度旅游大巴車租賃及景區(qū)導(dǎo)覽服務(wù)合同
- 2025年度茶樓轉(zhuǎn)讓與茶葉經(jīng)營(yíng)服務(wù)協(xié)議
- 二零二五年度上市公司股權(quán)轉(zhuǎn)讓與工商變更服務(wù)協(xié)議
- 二零二五年度吊裝作業(yè)風(fēng)險(xiǎn)評(píng)估與管理協(xié)議合同
- 二零二五年度土地使用權(quán)出讓合同主體變更及土地規(guī)劃調(diào)整協(xié)議
- 廣東省茂名市2025屆高三第二次調(diào)研數(shù)學(xué)試卷含解析
- 環(huán)境監(jiān)測(cè)試題庫(kù)與參考答案
- 公司安全生產(chǎn)事故隱患內(nèi)部報(bào)告獎(jiǎng)勵(lì)工作制度
- 開封市第二屆職業(yè)技能大賽無(wú)人機(jī)裝調(diào)檢修項(xiàng)目技術(shù)文件(國(guó)賽項(xiàng)目)
- 2024-2025學(xué)年地質(zhì)版體育與健康一年級(jí)全一冊(cè)教案
- 【MOOC】人工智能與信息社會(huì)-北京大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 人美版六年級(jí)美術(shù)教案下冊(cè)全冊(cè)
- 知識(shí)產(chǎn)權(quán)侵權(quán)案例課件
- 14 三級(jí)等保整體設(shè)計(jì)方案、網(wǎng)絡(luò)安全等級(jí)保護(hù)方案
- 第二十四章 流行性感冒課件
- 教育科學(xué)研究方法學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評(píng)論
0/150
提交評(píng)論