大數(shù)據(jù)平臺解決方案_第1頁
大數(shù)據(jù)平臺解決方案_第2頁
大數(shù)據(jù)平臺解決方案_第3頁
大數(shù)據(jù)平臺解決方案_第4頁
大數(shù)據(jù)平臺解決方案_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)平臺技術(shù)方案大數(shù)據(jù)平臺技術(shù)方案3技術(shù)路線3動靜態(tài)信息交換4系統(tǒng)概述4數(shù)據(jù)采集服務(wù)4數(shù)據(jù)采集服務(wù)配置5平臺認(rèn)證服務(wù)5動靜態(tài)數(shù)據(jù)發(fā)布訂閱服務(wù)5負(fù)載均衡服務(wù)6協(xié)議分析轉(zhuǎn)換功能6動靜態(tài)數(shù)據(jù)分發(fā)服務(wù)6數(shù)據(jù)分發(fā)服務(wù)配置6數(shù)據(jù)緩存服務(wù)7數(shù)據(jù)交換信息日志7大數(shù)據(jù)存儲7數(shù)據(jù)倉庫工具8大數(shù)據(jù)在線存儲8大數(shù)據(jù)離線存儲10數(shù)據(jù)清洗轉(zhuǎn)換12流數(shù)據(jù)處理框架12分布式ETL工具12ETL功能介紹13大數(shù)據(jù)處理15實(shí)時數(shù)據(jù)流處理15數(shù)據(jù)挖掘分析引擎15大數(shù)據(jù)服務(wù)引擎16大數(shù)據(jù)配置服務(wù)管理16大數(shù)據(jù)在線分析16大數(shù)據(jù)離線分析17大數(shù)據(jù)可視化管理20大數(shù)據(jù)全文檢索21PAGEPAGE7/23調(diào)度與業(yè)務(wù)監(jiān)控21資源與安全22租戶管理22資源分配23權(quán)限管理23接口封裝23大數(shù)據(jù)平臺技術(shù)方案概述大數(shù)據(jù)平臺必須具有高度可擴(kuò)展性、實(shí)時性、高性能、低延遲分析、高度容錯性、可用性、支持異構(gòu)環(huán)境、開放性、易用性,同時也希望具有較低成本;其核心技術(shù)包括大規(guī)模數(shù)據(jù)流處理技術(shù)以與大規(guī)模數(shù)據(jù)管理、分析技術(shù)。系統(tǒng)技術(shù)架構(gòu)采用面向服務(wù)的體系結(jié)構(gòu)(Service-OrientedArchitecture,SOA),遵循分層原則,每一層為上層提供服務(wù)。將大數(shù)據(jù)平臺進(jìn)行逐層解析,從下至上分別是數(shù)據(jù)接口層、文件存儲層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層、數(shù)據(jù)層、業(yè)務(wù)控制層、表現(xiàn)層、系統(tǒng)監(jiān)控層。數(shù)據(jù)接口層為保證數(shù)據(jù)接入層的接口靈活性采用Restful風(fēng)格接口實(shí)現(xiàn)方式,Restful有輕量級以與通過 直接傳輸數(shù)據(jù)的特性,Web服務(wù)的RESTful方法已經(jīng)成為最常見的方法。同時數(shù)據(jù)的接入與交換采用Kafka集群和WebService方式,Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)可以滿足系統(tǒng)與大數(shù)據(jù)平臺的高并發(fā)量數(shù)據(jù)交換。WebService是一個平臺獨(dú)立的,低耦合的,自包含的、基于可編程的web的應(yīng)用程序,可使用開放的XM標(biāo)準(zhǔn)來描述、發(fā)布、發(fā)現(xiàn)、協(xié)調(diào)和配置這些應(yīng)用程序,用于開發(fā)分布式的互操作的應(yīng)用程序。HDFS(HDFS)是一個高度容錯性的系統(tǒng),適合部署在廉價HDFSRedis、分布式大數(shù)據(jù)存儲。數(shù)據(jù)分析層:采用Storm分布式的、容錯的實(shí)時計算系統(tǒng)??梢苑奖愕卦谝粋€計算機(jī)集群中編寫與擴(kuò)展MapReduceSparkSparkHadoopMapReduceMapReduceJDBCHibernateHibernateJDBCPOJOorm框架,hibernateSQLJava業(yè)務(wù)控制層:采用當(dāng)今最流行的輕量級JavaSpring,同時SpringMVCSpringAOPEasyUI,Ajax,F(xiàn)reeMarker,JavaScript技術(shù)能極大提高開發(fā)效率,同時能滿足工程中各種復(fù)雜的前端展現(xiàn)要求。Zookeeper分布式服務(wù)框架。主要是用來解決分布式集群管理。動靜態(tài)信息交換系統(tǒng)概述動靜態(tài)信息交換建立目的是通過標(biāo)準(zhǔn)的規(guī)性數(shù)據(jù)接口定義,實(shí)現(xiàn)采集各類動態(tài)和靜態(tài)數(shù)據(jù),實(shí)現(xiàn)與接入平臺的數(shù)據(jù)通信與交換共享。理機(jī)構(gòu)等。數(shù)據(jù)交換平臺包含一系列的服務(wù),如:數(shù)據(jù)采集服務(wù)、平臺認(rèn)證服務(wù)、發(fā)布訂閱服務(wù)等。數(shù)據(jù)采集服務(wù)數(shù)據(jù)采集服務(wù)采集各級行業(yè)管理部門、各行業(yè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)信息,對這些靜動態(tài)數(shù)據(jù)進(jìn)行收集,用以進(jìn)行后續(xù)操作。數(shù)據(jù)采集模塊按照定義的接口規(guī)進(jìn)行連接、響應(yīng)、接收、發(fā)送處理。接收各級行業(yè)管理部門報送的數(shù)據(jù)。數(shù)據(jù)采集服務(wù)配置針對上報大數(shù)據(jù)管理平臺的信息,靈活配置其可采集的服務(wù)種類,來源,IP地址,采集的數(shù)據(jù)類型以與服務(wù)方式,使數(shù)據(jù)的采集更加靈活可控。數(shù)據(jù)采集服務(wù)配置模塊的主要功能有:IP、數(shù)據(jù)類型和服務(wù)方式對服務(wù)進(jìn)行動態(tài)配置。(2)入數(shù)據(jù)。平臺認(rèn)證服務(wù)為了保障數(shù)據(jù)服務(wù)的安全性,在傳輸數(shù)據(jù)之前,需要先通過接口進(jìn)行登錄認(rèn)證,從而確定數(shù)據(jù)交換平臺與權(quán)限,以與平臺接入的有效期。平臺認(rèn)證模塊主要功能有:根據(jù)平臺信息進(jìn)行登錄認(rèn)證。根據(jù)申請接入的其他平臺或者系統(tǒng)的相關(guān)信息,對該平臺或者系統(tǒng)進(jìn)行身份驗(yàn)證。根據(jù)認(rèn)證結(jié)果獲取登錄權(quán)限和有效期等信息。如果驗(yàn)證通過,則允許接入系統(tǒng),如果驗(yàn)證不通過,則不允許接入。動靜態(tài)數(shù)據(jù)發(fā)布訂閱服務(wù)發(fā)布訂閱服務(wù)根據(jù)分發(fā)調(diào)度策略,判斷采集動靜態(tài)數(shù)據(jù)屬于某個地市,發(fā)布到該地市的主題,存儲到消息隊列,記錄日志。動靜態(tài)數(shù)據(jù)發(fā)布訂閱模塊的主要功能有:的信息。記錄日志信息。將信息下發(fā)到相應(yīng)的消息隊列,并記錄日志信息。負(fù)載均衡服務(wù)根據(jù)數(shù)據(jù)采集服務(wù)和分發(fā)服務(wù)進(jìn)行負(fù)載分析與數(shù)據(jù)的多路徑流向調(diào)整,用以減小平臺壓力,提高平臺的運(yùn)行效率。負(fù)載均衡模塊的主要功能是根據(jù)采集服務(wù)和分發(fā)服務(wù)進(jìn)行負(fù)載均衡處理。協(xié)議分析轉(zhuǎn)換功能按協(xié)議規(guī)對上報數(shù)據(jù)進(jìn)行解析,對分發(fā)的數(shù)據(jù)進(jìn)行封裝,實(shí)現(xiàn)與其他平臺的數(shù)據(jù)準(zhǔn)確對接。協(xié)議分析轉(zhuǎn)換模塊的主要功能有:解析,方便在系統(tǒng)中的處理和流通。將數(shù)據(jù)進(jìn)行打包封裝,然后下發(fā)到其他平臺或者系統(tǒng)。動靜態(tài)數(shù)據(jù)分發(fā)服務(wù)根據(jù)各級數(shù)據(jù)請求,按照定義的接口規(guī)進(jìn)行連接、響應(yīng)、按主題分發(fā)處理。分發(fā)各類動靜態(tài)信息。按照定義的接口規(guī)進(jìn)行連接響應(yīng)。數(shù)據(jù)分發(fā)服務(wù)配置針對分發(fā)平臺的信息,靈活配置分發(fā)的服務(wù)種類,分發(fā)的數(shù)據(jù)類型以與服務(wù)方式,實(shí)現(xiàn)分發(fā)的靈活可控性。數(shù)據(jù)分發(fā)服務(wù)配置模塊的主要功能有:取將要分發(fā)的平臺的相關(guān)信息,方便后續(xù)數(shù)據(jù)的分發(fā)。據(jù),對平臺的服務(wù)信息進(jìn)行配置。數(shù)據(jù)緩存服務(wù)數(shù)據(jù)緩存服務(wù)主要提供本項(xiàng)目動態(tài)信息存緩存、持久化存儲當(dāng)前點(diǎn)以與緩存預(yù)處理的數(shù)據(jù),向數(shù)據(jù)應(yīng)用提供快速訪問中間數(shù)據(jù)源。數(shù)據(jù)緩存模塊的主要功能是進(jìn)行數(shù)據(jù)緩存,如存緩存、持久化存儲當(dāng)前點(diǎn)以與緩存預(yù)處理網(wǎng)格信息等數(shù)據(jù)。數(shù)據(jù)交換信息日志記錄數(shù)據(jù)采集以與分發(fā)的數(shù)據(jù)量,為驗(yàn)證數(shù)據(jù)交換的完整性、可追溯性以與可視性打下基礎(chǔ)。數(shù)據(jù)交換信息日志模塊的主要功能有:量信息。信息。大數(shù)據(jù)存儲根據(jù)業(yè)務(wù)類型,數(shù)據(jù)劃分為基礎(chǔ)信息數(shù)據(jù)庫、主題數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫三大數(shù)據(jù)庫。其中基礎(chǔ)數(shù)據(jù)庫存儲行業(yè)的靜態(tài)數(shù)據(jù)以實(shí)現(xiàn)與實(shí)時數(shù)據(jù)的快速擬合;主題數(shù)據(jù)庫各類主題數(shù)據(jù);業(yè)務(wù)庫存儲實(shí)時的業(yè)務(wù)數(shù)據(jù)。根據(jù)數(shù)據(jù)的使用時效分為在線存儲、離線存儲。數(shù)據(jù)倉庫工具據(jù)層,比如:數(shù)據(jù)緩沖層(存放當(dāng)日增量數(shù)據(jù))、數(shù)據(jù)明細(xì)層(存放最全的明細(xì)數(shù)據(jù))、數(shù)據(jù)模型層(輕粒度的數(shù)據(jù)匯總以與模型設(shè)計,這個時候需要設(shè)計相應(yīng)的主題)、數(shù)據(jù)集市層(一般就是一些寬表,包含多維度和指標(biāo),方便用來做多維分析)、數(shù)據(jù)應(yīng)用層(主要是開放給業(yè)務(wù)側(cè)使用,多存放粗粒度的數(shù)據(jù)報表)據(jù)倉庫模型為各類應(yīng)用提供數(shù)據(jù)支撐。大數(shù)據(jù)在線存儲大數(shù)據(jù)在線存儲存儲臨時性的數(shù)據(jù),提供高效數(shù)據(jù)索引,面向列的高可靠性、高性能、可伸縮的分布式存儲,以與面向RMDB的數(shù)據(jù)導(dǎo)入與導(dǎo)出功能。大數(shù)據(jù)在線存儲子系統(tǒng)提供簡化編程模型支持、容錯、橫向線性擴(kuò)展等特性。在線存儲主要利用Hbase列式數(shù)據(jù)庫做為主在線存儲。在線存儲的技術(shù)架構(gòu)如上圖所示,其中:8/23PAGEPAGE17/23HBaseClientHBaseRPCHMasterHRegionServer對于管理類操作(如建表,刪表等),ClientHMasterRPC;對于數(shù)據(jù)讀寫類操作,ClientHRegionServerRPC。HRegionServerHMasterHRegionServerHRegionHRegionServer到HMasterHMasterHRegion會把它負(fù)責(zé)的HRegionHRegionHBaseHMasterZookeeperHMaster障問。HMasterTableRegionHRegionServerI/OHDFSHBaseHBase能提供實(shí)時計算服務(wù)是由其架構(gòu)和底層的數(shù)據(jù)結(jié)構(gòu)決定的,即由LSM-Tree(Log-StructuredMerge-Tree)+HTable(region分區(qū))+Cache決定—HRegionserver務(wù)器的一個regioncache包括以下功能:高效數(shù)據(jù)索引HBaseLRU(最近最少使用算法),緩存中沒找到,會從存中的MemStoreHFileLSMHFile分布式存儲HBaseHDFSHRegion(就要被分割成兩個。HRegionServerHRegionStoreStore0StoreFileStoreFileHFile,HFile大數(shù)據(jù)離線存儲大數(shù)據(jù)離線存儲通過HDFS分布式文件系統(tǒng)技術(shù)為平臺提供穩(wěn)定可靠的存儲支持。離線存儲保存了所有歷史數(shù)據(jù)。大數(shù)據(jù)離線存儲提供的功能包括:容錯機(jī)制、集群資源管理、存儲資源的訪問隔離和橫向擴(kuò)展、數(shù)據(jù)的鏡像和冗余等功能。容錯機(jī)制HDFS通過多方面保證數(shù)據(jù)的可靠性,實(shí)現(xiàn)了高容錯功能:多份復(fù)制并且分布到物理位置的不同服務(wù)器上、數(shù)據(jù)校驗(yàn)功能、后臺的連續(xù)自檢數(shù)據(jù)一致性功能。集群資源管理① 存儲數(shù)據(jù)的地方,其周期性的向元數(shù)據(jù)節(jié)點(diǎn)回報其存儲的數(shù)據(jù)塊信息。② HDFSFSCKHDFS③ 一旦數(shù)據(jù)發(fā)生異常,NameNode④ 每一個DataNode修復(fù)命令來修復(fù)壞塊或丟失的數(shù)據(jù)塊。存儲資源的訪問隔離①用戶提交作業(yè)時,JobTrackerJobC一致。②然后會檢查ACL(AccessControlList)配置文件(由管理員配置)看你是否有提交作業(yè)的權(quán)限。一旦你通過驗(yàn)證,會獲取HDFS或者mapreduce授予的delegationtoken(訪問不同模塊有不同的delegationtoken)。③之后的任何操作,比如訪問文件,均要檢查該token是否存在,且使用者跟之前注冊使用該token的人是否一致。HDFSFederationHDFSnamespace(4)存儲資源的橫向擴(kuò)展HDFSHDFS以通過簡單操作即可完成。新增或刪除DataNodebalanceDataNode②HDFSFederation方案使用了多個獨(dú)立的Namenode/namespace來使得HDFS的命名服務(wù)能夠水平擴(kuò)展成聯(lián)合集群(5)數(shù)據(jù)的鏡像和冗余① 冗余備份:HDFS64MB(可以自定義配置)。為了容錯,文件的所有數(shù)據(jù)塊都可以有副本(3)DataNode統(tǒng),產(chǎn)生一份HDFS數(shù)據(jù)塊和本地文件對應(yīng)關(guān)系的列表,并把這個報告發(fā)送給NameNode,這就是報告塊(BlockReport),DataNode的列表。② 副本存放:HDFS要通過交換機(jī)。通常情況下,副本的存放策略很關(guān)鍵,機(jī)架節(jié)點(diǎn)之間的帶寬比跨機(jī)架節(jié)點(diǎn)之間的帶寬要大,它能影響HDFSHDFS在大多數(shù)情況下,HDFS3,HDFS在本地機(jī)架節(jié)點(diǎn)上,一個副本存放在同一個機(jī)架的另一個節(jié)點(diǎn)上,最后一個副本放在不同機(jī)架的節(jié)點(diǎn)上。這種策略減少了機(jī)架間的數(shù)據(jù)傳輸,提高了寫操作的效率。機(jī)架整體出現(xiàn)錯誤的幾率遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的少,所以這種策略不會影響到數(shù)據(jù)的可靠性和可用性。數(shù)據(jù)清洗轉(zhuǎn)換大數(shù)據(jù)平臺提供數(shù)據(jù)清洗轉(zhuǎn)換工具,提供了一個強(qiáng)健、高效的數(shù)據(jù)處理引行處理的技術(shù),實(shí)現(xiàn)流程中的每個組件多線程并行高效處理;支持集群部署方行,從而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_服務(wù)器上,從而提高數(shù)據(jù)處理效率。流數(shù)據(jù)處理框架流數(shù)據(jù)處理框架是針對流式數(shù)據(jù)提供的可在分布式環(huán)境下運(yùn)行的組件和程序框架,將針對實(shí)時數(shù)據(jù)的清洗、轉(zhuǎn)換、計算程序在此框架下編寫,運(yùn)行在流數(shù)據(jù)處理組件中,從分布式消息隊列中獲取相應(yīng)的實(shí)時數(shù)據(jù),經(jīng)過程序的處理后,推送到相應(yīng)的位置中。例如實(shí)時流數(shù)據(jù)、路況數(shù)據(jù)等,經(jīng)過清洗轉(zhuǎn)換后,根據(jù)業(yè)務(wù)的需要推送到分布式文件系統(tǒng)、數(shù)據(jù)庫或者其他的存儲中。ETL工具將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目SQL操作簡單容易上手,對抽取、轉(zhuǎn)換、加載過程可監(jiān)控。工具從開放的數(shù)據(jù)庫接口中將路網(wǎng)道路地理數(shù)據(jù)抽取出來,經(jīng)過工具轉(zhuǎn)換后,存入到分布式文件系統(tǒng)中。ETL功能介紹ETL引擎提供任務(wù)引擎和轉(zhuǎn)換引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運(yùn)行,為大塊、大批量、異構(gòu)的數(shù)據(jù)的整合提供堅實(shí)保障。數(shù)據(jù)處理組件大量的任務(wù)組件和轉(zhuǎn)換組件,用戶可以通過拖拽的方式快速完成各種復(fù)雜數(shù)據(jù)集成需求和集成的調(diào)度控制。提供的轉(zhuǎn)換組件覆蓋數(shù)據(jù)映射、數(shù)據(jù)豐富、數(shù)據(jù)計算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)排序、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)生成、數(shù)據(jù)去重、數(shù)據(jù)分組、行列轉(zhuǎn)換等復(fù)雜處理,提供的任務(wù)組件涵蓋定時調(diào)度、周期循環(huán)調(diào)度等調(diào)度模式組件、以與數(shù)據(jù)處理的一些前置、后置檢查操作等。數(shù)據(jù)抽取模式CDC(間戳、全表比對、基于數(shù)據(jù)庫日志分析)、單向同步、雙向同步、文件目錄同步等。基于數(shù)據(jù)庫日志分析的增量抽取支持?jǐn)?shù)據(jù)庫:Oracle,SqlServer2008,Mysql5。圖形化操作通過大量組件和可視化圖形界面,使用人員無需編碼,既可以靈活、方便地定制出各種數(shù)據(jù)集成流程,又能夠減少手工代碼的錯誤,還可以利用調(diào)試預(yù)覽與ETL高集成速度。高效數(shù)據(jù)處理采用異步并行處理的方式實(shí)現(xiàn)數(shù)據(jù)的高效處理,每經(jīng)過一個組件就被加工成一個既定格式的中間狀態(tài)。數(shù)據(jù)經(jīng)過一個組件的處理后被迅速交給下一個組件處理,同時當(dāng)前的組件已經(jīng)開始處理新的數(shù)據(jù)。提供集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時的數(shù)據(jù)處理組件部署在多臺服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_服務(wù)器上,提高數(shù)據(jù)處理效率。異?;謴?fù)和數(shù)據(jù)一致性任務(wù)流程提供多個調(diào)度機(jī)制和異常恢復(fù)機(jī)制,在異常后,支持自動和手動恢復(fù)。異?;謴?fù)可以保證恢復(fù)的流程從異常點(diǎn)開始重新同步,保證數(shù)據(jù)的最終完整性和一致性。監(jiān)控管理JS+REST臺,界面風(fēng)格符合扁平化設(shè)計潮流。提供對分布式網(wǎng)絡(luò)環(huán)境中部署的服務(wù)器運(yùn)行實(shí)例集中統(tǒng)一管理,包括對服務(wù)器、流程的運(yùn)行狀態(tài)、運(yùn)行日志、執(zhí)行性能的查看,以與遠(yuǎn)程的啟動、停止、暫停、恢復(fù)等管理操作,支持統(tǒng)一的權(quán)限管理配置、錯誤告警等功能。一個視圖中集中展示自己關(guān)注的容。Java、、REST監(jiān)控管理功能集成到自己的平臺中。插件式組件管理和可擴(kuò)展性提供插件式的組件管理機(jī)制,對于特殊的場景,可以方便的進(jìn)行擴(kuò)展開發(fā),如客戶自定義結(jié)構(gòu)的文本進(jìn)行轉(zhuǎn)換組件的定制開發(fā)、專有的應(yīng)用系統(tǒng)進(jìn)行適配器的定制開發(fā)等,并以插件的方式集成使用。大數(shù)據(jù)處理實(shí)時數(shù)據(jù)流處理實(shí)時性是數(shù)據(jù)處理的關(guān)鍵也是其價值得以實(shí)現(xiàn)的基礎(chǔ)。如流的實(shí)時監(jiān)控、擁堵狀況的實(shí)時信息、誘導(dǎo)等應(yīng)用均要求系統(tǒng)能夠返回當(dāng)前的狀態(tài);在另一些場景則需要進(jìn)行連續(xù)監(jiān)控,在技術(shù)上涉與連續(xù)查詢。這方面的功能需求已在第二節(jié)講述。在構(gòu)建大數(shù)據(jù)處理平臺中,實(shí)時數(shù)據(jù)流處理子系統(tǒng)是關(guān)鍵系統(tǒng)之一。該系統(tǒng)中涉與的關(guān)鍵技術(shù)包括:高速數(shù)據(jù)轉(zhuǎn)換,將獲取的事件數(shù)據(jù)流由隨機(jī)訪問格式轉(zhuǎn)換為分布式并行分析格式,將幾分鐘前獲取的數(shù)據(jù)即時處理呈現(xiàn)最新分析結(jié)果;靈活的資源分配方案,不同類型的數(shù)據(jù)處理組件(即事件處理服務(wù))與可伸縮分布式鍵值存儲靈活連接,可以便捷地構(gòu)造新的服務(wù)而不影響現(xiàn)有系統(tǒng)的運(yùn)行;基于滑動窗口的連續(xù)計算技術(shù);自適應(yīng)負(fù)載平衡與資源分配優(yōu)化。實(shí)時流數(shù)據(jù)處理基于流計算框架為平臺提供一個分布式的、容錯的實(shí)時計行政區(qū)劃分級聚合(到地區(qū)級)指標(biāo)實(shí)時計算等業(yè)務(wù)。實(shí)時流數(shù)據(jù)處理提供簡化編程模型支持、容錯、水平擴(kuò)展、可靠消息處理等功能。數(shù)據(jù)挖掘分析引擎數(shù)據(jù)挖掘分析是對清洗后的數(shù)據(jù),運(yùn)用數(shù)學(xué)算法,對其進(jìn)行數(shù)據(jù)運(yùn)行,并把運(yùn)算后的結(jié)果模型保存起來,供業(yè)務(wù)程序的調(diào)用。支持多種數(shù)據(jù)挖掘算法分析,可以生成分類、聚集、回歸模型,適應(yīng)在多種行業(yè)的機(jī)器學(xué)習(xí)場景提供挖掘分析功能。多種分布式機(jī)器學(xué)習(xí)、智能挖掘、統(tǒng)計分析計算框架析模型。大數(shù)據(jù)服務(wù)引擎大數(shù)據(jù)配置服務(wù)管理根據(jù)各類業(yè)務(wù)系統(tǒng)的需求,進(jìn)行大數(shù)據(jù)配置服務(wù),支持方便靈活的數(shù)據(jù)應(yīng)用。大數(shù)據(jù)在線分析大數(shù)據(jù)在線分析分析耗時較短的業(yè)務(wù)功能提供支撐。該模塊集成大數(shù)據(jù)分析算法組件,面向用戶提供對業(yè)務(wù)的遠(yuǎn)程分析能力。用戶通過界面提交分析的需求、參數(shù)或者是符合規(guī)約的算法,在大數(shù)據(jù)在線分析上完成大數(shù)據(jù)的搜索、分析、挖掘和運(yùn)算,最終展示給用戶。具體功能包括:面向海量數(shù)據(jù)的全局掃描抽取、多維視圖展示、信息挖掘與關(guān)聯(lián)分析、實(shí)時數(shù)據(jù)融合。在技術(shù)上使用 快速數(shù)據(jù)處理框架實(shí)現(xiàn)。在線分析系統(tǒng)主要是面向海量數(shù)據(jù)的全局掃描抽取、多維視圖展示、信息挖掘與關(guān)聯(lián)分析、實(shí)時數(shù)據(jù)融合等分析工作。SparkSQL可以實(shí)現(xiàn)多維度統(tǒng)計分析。SparkMlib可以實(shí)現(xiàn)信息發(fā)掘和關(guān)聯(lián)分析。SparkonYarnSparkAppMasterReceiverTask給某一個SparkExecutor;Receive啟動后輸入數(shù)據(jù),生成數(shù)據(jù)塊,然后通知SparkAppMaster;SparkAppMasterJob,JobTaskSparkExecutor輸入數(shù)據(jù)流可以是磁盤、網(wǎng)絡(luò)和HDFS等,輸出可以是HDFS,數(shù)據(jù)庫等。Streaming(秒級類似批處理的方式處理每個時間片數(shù)據(jù)。SparkStreamingSparkJobSparkDAGSparkSparkStreamingBatchSize0.5~2100ms),SparkStreaming求非常高(如高頻實(shí)時交易)之外的所有流式準(zhǔn)實(shí)時計算場景。大數(shù)據(jù)離線分析HDFSHadoopMapReduce是支持大數(shù)據(jù)分析系統(tǒng)高效檢索和快速處理的基礎(chǔ),例如可以對車輛訂單和軌跡序列進(jìn)行多要素、多層次、多時次、多圍檢索分析和計算;針對跨年度、跨區(qū)域的大規(guī)模車輛軌跡等歷史數(shù)據(jù)進(jìn)行離線分析,并能夠?qū)y(tǒng)計結(jié)果進(jìn)行在線展示和下載。大數(shù)據(jù)離線分析提供數(shù)據(jù)查詢系統(tǒng)、行業(yè)管理相關(guān)功能提供底層數(shù)據(jù)和計算的支持。大數(shù)據(jù)離線分析的技術(shù)架構(gòu)圖如下:MapReduce設(shè)計上具有以下主要的技術(shù)特征向“外”橫向擴(kuò)展,而非向“上”縱向擴(kuò)展即MapReduce集群的構(gòu)建完全選用價格便宜、易于擴(kuò)展的低端商用服務(wù)器。失效被認(rèn)為是常態(tài)MapReduce節(jié)點(diǎn)的檢測和恢復(fù)。把處理向數(shù)據(jù)遷移為了減少大規(guī)模數(shù)據(jù)并行計算系統(tǒng)中的數(shù)據(jù)通信開銷,代之以把數(shù)據(jù)傳送到處理節(jié)點(diǎn)(數(shù)據(jù)向處理器或代碼遷移),應(yīng)當(dāng)考慮將處理向數(shù)據(jù)靠攏和遷移。MapReduce采用了數(shù)據(jù)/代碼互定位的技術(shù)方法,計算節(jié)點(diǎn)將首先盡量負(fù)責(zé)計算其18/23PAGEPAGE23/23本地存儲的數(shù)據(jù),以發(fā)揮數(shù)據(jù)本地化特點(diǎn),僅當(dāng)節(jié)點(diǎn)無法處理本地數(shù)據(jù)時,再采用就近原則尋找其他可用計算節(jié)點(diǎn),并把數(shù)據(jù)傳送到該可用計算節(jié)點(diǎn)。順序處理數(shù)據(jù)、避免隨機(jī)訪問數(shù)據(jù)群中的大量數(shù)據(jù)存儲節(jié)點(diǎn)同時訪問數(shù)據(jù),以此利用分布集群量節(jié)點(diǎn)上的磁盤集合提供高帶寬的數(shù)據(jù)訪問和傳輸。為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)MapReducetocompute),而具體怎么去計算(Howto就交由系統(tǒng)的執(zhí)行框架處理。平滑無縫的可擴(kuò)展性這里指出的可擴(kuò)展性主要包括兩層意義上的擴(kuò)展性:數(shù)據(jù)擴(kuò)展和系統(tǒng)規(guī)模擴(kuò)展性。①①M(fèi)apReduceHDFS中數(shù)據(jù)非結(jié)構(gòu)化的特征,采集來的數(shù)據(jù)本身就是包含大量冗余信息的。同時HDFS中數(shù)據(jù)非結(jié)構(gòu)化的特征,采集來的數(shù)據(jù)本身就是包含大量冗余信息的。同時也可以將大量冗余的維度信息整合到事實(shí)表中,這樣可以在冗余維度下靈活地改也可以將大量冗余的維度信息整合到事實(shí)表中,這樣可以在冗余維度下靈活地改變問題分析的角度。變問題分析的角度。②MapReduceOLAP少,開銷并不顯著增長。換言之,HadoopCube,包含了無數(shù)你想到或者想不到的維度,而且每次多維分析,都可以支持成千上百個維度,并不會顯著影響分析的性能。對于很多計算問題,基于MapReduce的計算性能可隨節(jié)點(diǎn)數(shù)目增長保持近似于線性的增長。大數(shù)據(jù)可視化管理數(shù)據(jù)可視化是將統(tǒng)計分析結(jié)果以報表、圖表、與位置數(shù)據(jù)的地圖顯示方式(如折線圖、直方圖、用散點(diǎn)圖等)進(jìn)行可視化表達(dá)。包括統(tǒng)計分析結(jié)果可視化顯示和可視化配置??梢暬@示:包括對數(shù)據(jù)的統(tǒng)計分析結(jié)果的報表展示、圖形化展示,以與在線對比??梢暬渲茫罕灸K根據(jù)用戶需求可視化顯示各類數(shù)據(jù)和產(chǎn)品,用戶輸入所需的數(shù)據(jù)信息如數(shù)據(jù)生成時間、數(shù)據(jù)類型等,獲得符合條件的數(shù)據(jù)列表,并根據(jù)需要進(jìn)行可視化顯示?;诘貓D的位置相關(guān)信息與屬性的顯示。數(shù)據(jù)可視化管理子系統(tǒng)可以通過多種方法來實(shí)現(xiàn),比如多角度展示數(shù)據(jù)、聚焦大量數(shù)據(jù)中的動態(tài)變化,以與篩選信息(包括動態(tài)問詢篩選,星圖展示,和緊密耦合)等。以下一些可視化方法是按照不同的數(shù)據(jù)類型(大規(guī)模體數(shù)據(jù)、變化數(shù)據(jù)和動態(tài)數(shù)據(jù))來進(jìn)行分析和分類的:樹狀圖式:基于分層數(shù)據(jù)的空間填充可視化方法。并能從更高級的分層結(jié)構(gòu)中引入更多的圓形。由寬和高變成半徑和弧長。開來。隨流動與有機(jī)形態(tài)。循環(huán)網(wǎng)絡(luò)圖式:數(shù)據(jù)圍繞一個圓形排列,并按照它們自身的相關(guān)性比率由曲線相互連接。通常用不同的線寬或色彩飽和度測量數(shù)據(jù)對象的相關(guān)性。大數(shù)據(jù)全文檢索大數(shù)據(jù)平臺,提供數(shù)據(jù)全文檢索功能,需滿足檢索響應(yīng)快、實(shí)時性等要求。SolrJava5Lucene的全文搜索服務(wù)器。SolrXML加到一個搜索集XML/JSON響應(yīng)來實(shí)現(xiàn)。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結(jié)果,通過索引DataSchemaWeb的管理界面等。調(diào)度與業(yè)務(wù)監(jiān)控大數(shù)據(jù)平臺量的業(yè)務(wù)統(tǒng)計分析是基于大數(shù)據(jù)的分布式處理框架,在該框架上需要提供一套針對各流程和任務(wù)的管理、調(diào)度服務(wù)與系統(tǒng)運(yùn)行環(huán)境的監(jiān)控告警功能,以保障平臺的長期穩(wěn)定運(yùn)行。主要功能包括:任務(wù)管理包含任務(wù)的創(chuàng)建、任務(wù)的中斷、過期任務(wù)的清理、任務(wù)執(zhí)行歷史的記錄。調(diào)度服務(wù)根據(jù)任務(wù)執(zhí)行安排,進(jìn)行相應(yīng)的調(diào)度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論