數據中心相關技術與應用大數據相關_第1頁
數據中心相關技術與應用大數據相關_第2頁
數據中心相關技術與應用大數據相關_第3頁
數據中心相關技術與應用大數據相關_第4頁
數據中心相關技術與應用大數據相關_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據中心相關技術與應用2013-12-02目錄MPP數據庫在數據中心的應用企業(yè)級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統(tǒng)數據中心的集成傳統(tǒng)的數據倉庫的架構數據源抽取、轉換、加載業(yè)務數據集市企業(yè)數據倉庫ETL元數據前端分析展現工具查詢工具、應用新一代數據中心定義企業(yè)數據中心是指建立在數據倉庫與數據倉庫之上的決策分析應用,應包括數據源、數據ETL、ODS數據庫、數據倉庫、數據集市、商務智能應用、數據管理等功能。數據中心應該具備常見數據的處理與管理能力,具備對結構化、半結構化、非結構化等數據的處理能力,同時支持RDB、MPP、NoSQL,同時具備數據的通用管理能力,以數據為中心進行平臺建設。數據中心數據平臺在接口層要豐富又簡單,可以提供各種應用所需接口,最大程度匹配已有接口,對應用改動需求力求最低。一個合理的數據平臺,不能等同于Hadoop或者其他某項單一技術建設;整體數據中心的建設,從數據采集層、存儲層、應用層都有完整的解決方案,同時具備平臺運維管理、接口管理、數據管理功能;數據中心數據管理能力至少應包含:1.元數據管理,2.數據質量管理,3.數據安全管理,4.數據可視化管理,5.數據生命周期管理。數據平臺必須針對數據提供完整方案,同時兼顧應用接口、其他平臺接入,系統(tǒng)管理、系統(tǒng)調度等功能。任何一種單一技術都難以適應數據中心數據采集、存儲、處理和對外服務的需求,多種技術并存才是發(fā)展趨勢。RDB、MPP、Hadoop采集處理層數據抽取/加載/檢查ETL調度數據交互、轉換數據映射數據層數據存儲數據聚合服務數據處理服務數據查詢服務事件通知服務信息子層KPI報表統(tǒng)一視圖知識庫接口層服務管理資料類數據服務指標類數據服務配置類數據服務清單累數據服務日志類數據服務OPENAPI數據管理功能數據生命周期管理數據可視化管理數據質量管理采集層數據質量管理數據質量規(guī)則、知識庫數據質量稽核指標運維數據安全管理4A認證隱私信息保護權限管控、審計追蹤元數據管理元數據獲取管理元數據存儲與模型管理元數據分析、展現、服務技術、業(yè)務元數據管理ODW-RDBODW-MPP分布式文件系統(tǒng)分布式關系數據庫分布式計算數據分發(fā)同步處理用戶管理權限管理備份與恢復日志管理設備監(jiān)控指標資源池指標數據庫指標分布式系統(tǒng)指標指標匯總存儲管理資源池管理設備管理作業(yè)調度管理事件自動化規(guī)則配置執(zhí)行引擎性能預警調度異??刂票毕蚪涌诠芾頂祿杉涌诠芾頂祿蚕砼渲猛ㄓ媒涌谂渲闷脚_管理功能數據服務功能綜合分析系統(tǒng)A+ABIS應用無線網優(yōu)綜合監(jiān)控系統(tǒng)信令監(jiān)測系統(tǒng)日志上層應用其他應用新一代數據中心功能視圖數據中心整體功能視圖可以分為數據服務功能模塊、平臺管理功能模塊,數據管理功能模塊,共同數據中心的應用。采集處理層數據抽取/加載/檢查ETL調度數據交互、轉換數據映射數據層數據存儲數據聚合服務數據處理服務數據查詢服務數據集市、OLAP接口層服務管理資料類數據服務指標類數據服務配置類數據服務清單累數據服務日志類數據服務OPENAPI數據管理功能數據生命周期管理數據可視化管理數據質量管理采集層數據質量管理數據質量規(guī)則、知識庫數據質量稽核指標運維數據安全管理4A認證隱私信息保護權限管控、審計追蹤元數據管理元數據獲取管理元數據存儲與模型管理元數據分析、展現、服務技術、業(yè)務元數據管理DW-RDBDW-MPP分布式文件系統(tǒng)非關系數據庫分布式計算數據分發(fā)同步處理數據服務功能用戶管理權限管理備份與恢復日志管理設備監(jiān)控指標資源池指標數據庫指標分布式系統(tǒng)指標指標匯總存儲管理資源池管理設備管理作業(yè)調度管理事件自動化規(guī)則配置執(zhí)行引擎性能預警調度異??刂票毕蚪涌诠芾頂祿杉涌诠芾頂祿蚕砼渲猛ㄓ媒涌谂渲闷脚_管理功能應用展示層企業(yè)數據中心元數據獲取采集層數據質量定義、稽核存儲庫模型定義采集數據分發(fā)目錄MPP數據庫在數據中心的應用企業(yè)級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統(tǒng)數據中心的集成數據中心引入大數據的意義與原則隨著半結構化、非結構化數據、互聯網數據等新型數據源的引入以及分析需求對分析深度和廣度的增加,以移動運營商行業(yè)為例,越來越需要大數據。主要包括如下:1、數據規(guī)模方面:GPRS流量話單的條數和數據量已經超過了語音詳單,而位置信令、Gn信令、客服語音、互聯網外部數據等規(guī)模更大,且還處在不斷增長的趨勢。2、數據類型方面:逐步從OLTP系統(tǒng)中獲得的結構化數據,過渡到結構化數據和互聯網網頁、上網日志等非結構化數據和半結構化數據共存。3、對數據的使用方面:不僅有批量的數據加工和前臺界面的訪問,臨時統(tǒng)計、數據挖掘等訪問需求也逐步增多。對歷史明細數據的訪問增多。對數據訪問的及時性增強。隨著數據中心越來越具備大數據平臺的特征,利用傳統(tǒng)的單一數據倉庫技術就難以滿足高效低成本的需求,需要引入相應的大數據技術。新技術的引入不能影響原有的使用感知,需要按照分階段逐步引入的方式??梢詤⒖既缦碌膸讉€引入原則:1、先增量后存量?,F有的數據處理系統(tǒng)引入大數據處理技術,面臨著模型改造、流程改造等一系列的問題,可以首先在新上線應用引入大數據處理技術。2、先邊緣后核心。對于原有功能的遷移,可以先遷移非關鍵的應用。這些應用不涉及到關鍵生產任務,可以忍受數據處理延遲和故障修復時間較高等可能出現的風險。3、先簡單后復雜。數據處理邏輯較簡單的應用也可以首先嘗試引入大數據處理技術,降低實施的復雜度,積累運維經驗。通過在大數據處理技術的規(guī)劃、實施及運維過程中積累經驗及教訓,不斷提升和完善大數據技術的應用水平,逐步拓展大數據技術應用領域。大數據在數據中心的應用場景大數據技術可以應用在以下場景(包括但不限于):1、原數據倉庫底層結構化數據處理(ETL或ELT)。底層結構化數據處理計算任務重但復雜性不高,不涉及多表關聯,適合引入大數據技術實現高效低成本。例如:對運營商的清單(語音詳單、GPRS清單、WLAN清單等)的清洗、轉換、匯總等。2、半結構和非結構數據處理與分析。例如對上網日志、網絡信令、客服語音等數據的處理和分析,這些數據難以利用傳統(tǒng)數據倉庫技術進行處理和分析。3、數據集市。地數據集市應用較為獨立,且對可靠性的要求并不是十分嚴格,適合作為引入大數據技術形成資源池,以移動運營商為例,可實現各地市、各部門數據集市的云化、池化和虛擬化,最終實現資源動態(tài)調配,達到高效低成本。4、數據倉庫數據分級存儲。對低價值的細節(jié)數據以及長周期的歷史數據(冷數據)訪問頻率較低,也能容忍相對較長的響應時間,可以存儲在成本更低的平臺上。5、數據挖掘。某些數據挖掘設計長周期的數據,計算時間很長(數天),占用很多數據倉庫資源。還有一些數據挖掘算法超出了關系代數計算范疇,需要抽取數據到獨立的計算平臺(例如SAS統(tǒng)計分析系統(tǒng))中進行計算。這些數據挖掘任務可以遷移到大數據平臺之上進行計算。例如交往圈的計算,因其僅涉及單一數據,但數據量非常大,且需要多次迭代計算。6、對外查詢。數據中心不僅僅是數據處理,也需要將數據處理的結果對外提供查詢,而這些查詢一部分是海量的OLAP性質的查詢,另外還有一部分OLTP性質的查詢,即數量眾多但每次查詢量較少的。比如數據中心前端庫、與生產系統(tǒng)互動的數據庫以及提供流量詳單查詢的數據庫。這些查詢任務不能很好地運行在OLAP類數據庫之上,可以遷移到大數據平臺上。針對這些應用場景,可以看到,主要需要引入的是Hadoop和MPP技術,然后逐步考慮NoSQL、流計算和內存計算等技術的引入。Hadoop技術與MPP技術的比較

HadoopMPP傳統(tǒng)數據倉庫平臺開放性高低低運維復雜度高,與運維人員能力相關中中擴展能力高中低擁有成本低中高系統(tǒng)和數據管理成本高中中應用開發(fā)維護成本高中中SQL支持低高高數據規(guī)模PB級別部分PBTB級別計算性能對非關系型操作效率高對關系型操作效率高對關系型操作效率中數據結構結構化、半結構化和非結構數據結構化數據結構化數據Hadoop在處理非結構數據和半結構數據上具備優(yōu)勢,尤其適合海量數據批處理等應用需求。當然隨著Hadoop技術的成熟,基于Hadoop的即席查詢技術也逐漸嶄露頭角。比如仿照Dremel的開源項目ApacheDrill以及ClouderaImpala。MPP適合替代現有關系數據結構下的大數據處理,具有較高的效率,但其在大規(guī)模集群(超過100個節(jié)點)下的可用性還有待試點證實。MPP數據庫場景下經常需要掃描大量的數據,所以對磁盤存儲系統(tǒng)的I/O性能要求非常高,在測試和日常運行中,I/O多大情況下是瓶頸,這點與Hadoop平臺可以明顯區(qū)分開來。目錄MPP數據庫在數據中心的應用企業(yè)級數據中心定義數據中心中的大數據數據中心BI技術規(guī)劃選型Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統(tǒng)數據中心的集成MPP數據庫在在數據中中心的應應用場景景MPP數據庫適合結結構化數據的的深度分析、、復雜查詢以以及多變的自自助分析類應應用。它提供供了統(tǒng)一的標標準訪問接口口(SQL),而無需像像Hadoop一樣需要定制制開發(fā)。MPP數據庫一般構構建在X86平臺上,并使使用本地盤而而不用陣列,,而且產品眾眾多,因為可可以降低擁有有成本。MPP數據庫產品在數據中心中可以用于以下下場景(包括括但不限于)):數據集市:數據集市定位位于以企業(yè)數數據倉庫數據據為基礎,結結合其他相關關數據,支撐撐特定業(yè)務場場景或者業(yè)務務部門需求的的IT平臺。目前運營商數數據中心中已經存在地市市數據集市和和部門數據集集市。隨著新新業(yè)務平臺分分析需求的出出現、不同分分析特征的需需求的出現,,還有一些分分析需求可以以通過數據集集市的方式進進行承載,比比如深度分析析(AdvancedAnalysis)和自助分析析(Self-ServiceAnalysis)。數據分級存儲(歷歷史庫或者明明細庫):數據中心中數數據存儲周期分為為在線數據、、近線數據、、歸檔數據。。目前在線數數據及近線數數據存放在數數據倉庫,歸歸檔數據使用用磁帶庫存放放。帶來的問問題是在線數數據中不常訪訪問的數據占占據數據倉庫庫寶貴的資源源,針對歸檔檔數據的數據據分析需求增增加,而數據據從磁帶庫恢恢復的時間無無法滿足需求求。數據中心數據據倉庫的數據在完成近近期數據支撐撐任務后,轉轉移到歷史庫庫中進行長周周期存儲,支支持后續(xù)數據據訪問和長周周期數據分析析需求,同時時可作為核心心數據倉庫的的備份,提升升整體架構及及數據的高可可用性。MPP架構基于x86平臺構建,可可高效低成本本的實現歷史史庫的建設需求。ETL:通過將數據的的關聯匯總卸卸載到MPP數據庫上,可可降低數據倉倉庫的負載,,提高數據關關聯匯總的性性能,同時可可以滿足后續(xù)續(xù)數據量增長長情況下的平平滑擴容的需需求。這部分的計算算任務可以定定位于數據倉倉庫外的復雜雜數據加工、、數據匯總任任務,其源數數據可以來自自業(yè)務系統(tǒng),,也可以來自自ETL(專業(yè)ETL工具或者Hadoop)清洗、轉換換后的話單或或者經過ETL輕度匯總過的的數據。其結結果數據導入入到基礎數據據倉庫中供上上層應用訪問問。MPP平臺選型建議議對比項目TeradataEMC南大通用IBMHPAsterDataGreenPlumGBase8ADB2DPFOverGPFSVertica無共享MPP架構

-無主控節(jié)點

??*

?無共享MPP架構

-有主控節(jié)點??

支持行存儲??

?

支持列存儲???(10.5版本發(fā)布后)?當前構建在X86平臺上的新型型MPP數據庫產品眾眾多,Garnter每年會發(fā)布一一版數據倉庫庫魔力象限可可以供參考。。在大陸地區(qū)區(qū)可以獲得技技術支持的MPP產品及其特性性如下(包括括但不限于)):不同架構的數數據倉庫各有有優(yōu)缺點。比比如帶主控節(jié)節(jié)點(Master)的數據庫會會存在單點故故障,但各節(jié)節(jié)點分工明確確;無主控節(jié)節(jié)點的數據庫庫不存在單點點故障,但可可能某各節(jié)點點承擔的任務務不平均。行行存儲裝載數數據快、壓縮縮率低、查詢詢速度稍慢;;列存儲裝載載數據滿、壓壓縮率高、查查詢速度快,,但部分產品品的列存儲方方式無法支持持更新、刪除除數據。硬件平臺的選選型參考各廠廠家的指導文文檔。MPP數據分布規(guī)劃劃得益于Share-Nothing的架構,MPP數據庫的所有有表都是分布布式存儲的,,所以在創(chuàng)建建表時都需要要指定分布鍵鍵,分布鍵可可以是單一字字段,也可以以是復合字段段,然后通過過Hash方式去分布。。合理的分布鍵鍵設計可以使使得大部分的的表關聯操作作在一個節(jié)點點內完成,不不需要跨節(jié)點點進行數據交交互,這是MPP數據庫產品((按行Hash分布)與Hadoop(選擇按照塊塊隨機分布))的根本差別別。注意:在某個節(jié)點發(fā)生生故障無法為為整個MPP數據庫集群提提供服務的情情況下,數據據庫會自動切切換到副本機機制,利用副副本所在的服服務器來提供供服務。但是是副本所在的的服務器本身身就要承擔自自己正常的工工作任務,這這樣一來相當當于負荷加重重了一倍。所所以故障情況況下雖然整個個數據庫集群群可用,但是理論上的的性能將下降降到原來的一一半,而不是是按照退服節(jié)節(jié)點比例的性性能下降。目錄MPP數據庫在數據據中心的應用用企業(yè)級數據中中心定義數據中心中的的大數據數據中心BI技術選型描述述Hadoop在數據中心的的應用數據中心ESB技術研究大數據技術與與傳統(tǒng)數據中中心的集成Hadoop在數據中心的的應用場景分分析場景為什么采用Hadoop采用的組件ETL1、降低原始數據存儲壓力

2、降低數據倉庫處理壓力

3、降低存儲和處理成本Hive/MR/Pig清單查詢1、快速響應海量數據查詢

2、降低查詢成本HBase機器學習和數據挖掘1、降低海量數據挖掘成本

2、縮短計算時間

3、實現更加靈活的算法mahout/R/MR冷數據存儲降低冷數據存儲成本降低冷數據查詢成本HiveOverHDFSHadoop在數據中心的的應用場景-ETLHadoop平臺負責從接接口機采集數數據入HDFS分布式文件系系統(tǒng),并進行行清洗、關聯聯、轉換、匯匯總、邏輯增增強等,實現現原始數據、、明細數據和和匯總數據的的處理加工工工作。具體實實現上可以采采用Hive或Pig用腳本來實現現數據處理,,也可以編寫寫Java或其他語言的的程序(用到到Hadoop流的功能),,直接利用MapReduce框架來進行處處理。Hadoop在數據中心的的應用場景-詳單查詢Oracle/DB2用戶詳單文件庫數據存儲服務接口話單查詢數據抽取數據解析數據翻譯用戶詳單統(tǒng)計分析收入保障呼叫中心飛信短信彩信WAPEmail網廳統(tǒng)一接入網關平臺用戶賬單HBase分布式數據庫(基于HDFS)……Hive分布式數據倉庫(基于HDFS)……前端查詢業(yè)務服務器集群……ETL服務器集群……清賬單數據抽取和轉換計費數據庫清賬單數據裝載入HBase歷史清賬單數據可從HBase導出裝載入Hive(可選)負載均衡設備查詢清單互聯網用戶清單云平臺采采用基于大數數據的Hadoop云架構,以PC服務器搭建大大規(guī)模存儲集集群。在數據處理方方面:引入數數據抽取、轉轉換、加載工工具ETL,在入庫前對對詳單中的各各個字段含義義進行翻譯,,服務接口不不再進行翻譯譯,提升查詢詢效率;在分布式存儲儲方面:引入入基于x86服務器的分布布式存儲技術術,主要由Hbase、Hive、數據庫集成成等功能組成成,在提高系系統(tǒng)的擴展性性和彈性的同同時,可以方方便、快速地地為應用增加加或減少資源源。某運營商省份份的應用效果果:應用前數據導入性性能指標1M/秒,應用后達達到45M/秒,性能提升升44倍。應用前數據據加載性能能指標3萬條/秒,應用后后達到17萬條/秒,性能提提升4.67倍。應用前用戶戶查詢性能能指標30個并發(fā)查詢詢/秒,應用后后達到100個并發(fā)查詢詢/秒,性能提提升233%。應用前并發(fā)發(fā)查詢性能能指標35.81毫秒/筆,應用后后達到8.09毫秒/筆,性能提提升77.4%。Hadoop在數據中心心的應用場景-機器學習與與數據挖掘掘、冷數據據存儲Hadoop可以承載數數據量較大大、需要多多次迭代關關聯、涉及及數據對象象較為單一一的數據挖挖掘計算。。Hadoop上開源數據據挖掘分析析專題工具具有mahout和R,也可通過過MR接口編程實實現所需的的挖掘算法法,可以實實現以下數數據挖掘::互聯網內容容分析專題題:客戶上上網行為分分析,關鍵鍵詞排序,,爬蟲,非非結構化數數據識別WLAN運營分析專專題:WLAN終端分析,,WLAN位置分析,,WLAN與GPRS關聯分析,,WLAN用戶群分析析用戶交友圈圈分析專題題:用戶個個人語音交交友圈分析析,用戶個個人短信交交友圈分析析,交友圈圈特征分析Hadoop可以承載歷歷史性、訪訪問頻率較較低的數據據,存放在在Hadoop上仍然能夠夠實現通過過Hive或者其他軟軟件,實現現類SQL或者其他API的數據訪問問。而在配配置策略時時,為了節(jié)節(jié)省空間,,可選擇進進行壓縮、、糾刪碼((HDFSRaid)或者降低低副本個數數,例如2。冷數據例例如:超過一定周周期的(12個月以上))的詳單信信息。上網日志信信息和原始始網頁信息息。其他價值低低、優(yōu)先級級低、數據據量大的數數據。Hadoop選型建議產品包基線版本產品包基線版本Hadoop2.0.0HBase0.94.6Hive0.10.0ClouderaImpala1.0ZooKeeper3.4.3

總體來看,,目前ApacheHadoop開源社區(qū)主主要在Hadoop1.0和2.0兩個版本上上分別進行行持續(xù)更新新優(yōu)化。而而Cloudera公司的Hadoop版本CDH3和CDH4也分別基于于Hadoop1.0和2.0版本進行封封裝。下圖開源社區(qū)發(fā)發(fā)布的各個個版本以及及與Cloudera發(fā)布的CDH軟件包的對對應關系如如下圖所示,以及對應應CDH4.3版本的描述述:Hadoop服務器配置置建議項目主節(jié)點配置建議數據處理(MR/hive)的數據節(jié)點數據查詢(HBase)的數據節(jié)點,可以與數據處理的數據節(jié)點合設zk節(jié)點CPU個數及核心數2路8核以上2路8核以上,如果壓縮數據或者處理比較復雜,可以考慮更多路多核的2路6核以上2路8核以上硬盤數硬盤數可以不同太多,4-6塊6、8或者12塊,數據處理時IO一般不是瓶頸,但更多的磁盤可以存儲更多的數據6、8或者12塊,取決于存儲量(主要靠緩存)硬盤數2-4塊內存128G或更高48G或更高64G或更高,太高GC可能成為負擔48G或更高網絡雙口萬兆或千兆網卡雙口萬兆或千兆網卡,主要影響裝載速度和節(jié)點間數據交換效率雙口千兆網卡雙口萬兆或千兆網卡,對網絡延時有高要求,如果可以,建議單獨設立奇數個集群,3-5個Hadoop被設計運行行在大規(guī)模模通用X86硬件平臺之之上,使用用本地存儲儲(DAS)來實現ScaleOut。所以其對對硬件的要要求較低,,一般的PC服務器也可可以運行,,只要滿足足發(fā)行版所所要求的操操作系統(tǒng)和和JDK需求即可。但是在實際際使用中需需要根據Hadoop的應用環(huán)境境來合理配配置硬件,,充分發(fā)揮揮每個部件件的效率。。在前期試試點中,發(fā)現如果執(zhí)行MapReduce,特別是在在壓縮文件件上執(zhí)行,,其對CPU的消耗較高高,CPU成為了瓶頸頸;而在運運行Hbase的時候,更更多的內存存會緩存更更多的數據據,提高查查詢吞吐率率并縮短響響應時間。。所以建議議這兩種情情況下,可可以考慮按按照如右表格配比來配置硬件件:Hbase配置建議Rowkey設計:HBase表的rowkey設計,一般般是將關系系數據庫中中的候選key拼接形成。。但是要注注意熱點問問題,比如如rowkey開始的幾位位是時間排排序,那么么在插入的的時候,最最近幾天的的數據很可可能是熱點點數據,這這樣所有的的查詢可能能都指向了了一個regionserver導致了HBase的性能瓶頸頸。盡量避避免使用單單調遞增的的rowkey,因為在添添加數據的的時候,所所有的新數數據都添加加到最后一一個region,前面的region沒有或者很很少有請求求,也是熱熱點問題。。熱點問題的的處理方式式一般是"加鹽",即在rowkey前面添加hash數,來對數數據進行hash劃分。列簇設計:HBase表的ColumnFamily最好少于4,一般少于于3,對于一般般數據放入入一個列簇簇中即可。。對于一些些強關聯,,頻繁訪問問的數據可可以放一列列,這樣在在取數據時時,熱點訪訪問只用取取這一列數數據,可以以節(jié)省IO。多個列簇簇有各自memstore,memstore開銷大,而而且flush一個列簇,,其他的類類簇也會flush,會造成不不必要的開銷。Region劃分:HBase在導入大量量數據前最最好預先劃劃分region,這樣可以以加快導入入效率。同同時也要避避免使用HBase自動劃分region,在一種情情況下,HBase面臨大量寫寫入或者scan請求,同時時它的region中的數據又又達到了閥閥值,那么么它會啟動動自動劃分分region,有可能導導致region劃分風暴,,大量的請請求會使regionserver和namenode的壓力過大大而導致regiondead或者namenodedead。TTL設計:TTL(timetolive),它一般般可以用來來控制數據據的生存時時間。一些些數據比如如客戶幾年年以前的數數據,幾年年以后已經經不關心這這些數據,,可以使用用TTL刪除。如果果數據沒有有這些要求求,可以不不使用。目錄MPP數據庫在數數據中心的的應用企業(yè)級數據據中心定義義數據中心中中的大數據據數據中心BI技術選型描描述Hadoop在數據中心心的應用數據中心ESB技術研究大數據技術術與傳統(tǒng)數數據中心的的集成數據中心系系統(tǒng)集成建建議在引入Hadoop和MPP數據庫后,數據中心建建設將會在現有傳統(tǒng)數據倉倉庫平臺與新技術之之間形成混搭。經典典數據倉庫庫中的OneSingleViewofTruth將難難以以維維持持。。主主要要會會面面臨臨如如下下的的問問題題::數據據互互通通::數數據據需需要要跨跨Hadoop和和多個個數據據庫庫進行行交交互互,,如何何實現現高效效的的數數據據同同步步或數據據調調用用??透明明訪訪問問::是否否有有必必要要對對上上層層應應用用屏屏蔽蔽底底層層不不同同數數據據平平臺臺的的細細節(jié)節(jié),,提提供供統(tǒng)統(tǒng)一一的的數數據據訪訪問問方方式式??統(tǒng)一一管管理理::如何何進進行行多多套套數數據據平平臺臺的的元元數數據據、、數數據據質質量量管管理理,,如如何何實實現現統(tǒng)統(tǒng)一一的的調調度度和和運運維維監(jiān)監(jiān)控控?數據據互互通通機機制制是是多多個個數數據據庫庫與與Hadoop之間間的的橋橋梁梁。。通通過過數數據據互互通通,,我我們們可可以以將將數數據據快快速速從從一一個個平平臺臺遷遷移移到到另另外外一一個個平平臺臺或或從從一一個個平平臺臺方方便便地地訪訪問問另另外外一一個個平平臺臺中中的的數數據據。。數據互通通機制的的主要難難點是要要保障數數據在兩兩個平臺臺間流轉轉時的高高效性和和可靠性性。數據中心心系統(tǒng)互互通的建建議實現數據據互通機機制有2種方法::數據同同步、數數據調用數據同步步:數據同步步的主要要是實現現數據庫庫與Hadoop之間雙向向數據復復制功能能,數據據同步的的目的包包括這些些的場景景:不同同系統(tǒng)上上的數據據需要進進行關聯聯分析、、數據生生命周期期管理要要求進行行數據歸歸檔或備備份、ETL分節(jié)點部部署需要要同步數數據等。??梢圆扇∪∪缦聰禂祿讲椒桨福海涸贖adoop端發(fā)起的的雙向數數據同步步在數據庫端端發(fā)起的的雙向數數據同步步在第三方發(fā)發(fā)起的雙雙向數據據同步數據調用:數據調用用指的是是:不移移動數據據,通過過接口調調用實現現對另外外一個平平臺上數數據的訪訪問,被被調用平平臺承擔擔運算任任務。數數據調用用方法根根據調用用方的不不同,又又分為““從數據據庫側調調用Hadoop數據”及及“從Hadoop側調用數數據庫數數據”兩兩種情況況。數據調用用方法適適用的場場景原則則:低頻頻度(如如:每月月/季度/年一次))或臨時時(如::臨時訪訪問5次以下))需要使使用其他他平臺中中存儲的的數據。數據中心心互通的的技術實實現連接器方方式通過設計計專用的的軟件或或硬件連連接器模模塊,實實現數據據庫與Hadoop之間高速速的數據據傳輸,,其一般般具備以以下特點點: 雙向向連接器器 并行行連接數數據庫節(jié)節(jié)點到的的Hadoop數據節(jié)點點 支持持UTF-8編碼和常常見的數數據類型型 通過過動態(tài)工工作負載載管理的的資源控控制 融合合系統(tǒng)中中的角色色/用戶提供供認證 為數數據庫域域提供的的數據節(jié)節(jié)點,主主要實現現以下按按照源表表進行任任務分工工,可以以為表間間并行以以及表內內并行 建立立分區(qū)、、索引及及裝載,,根據分分區(qū)原則則以及索索引等策策略,裝裝載節(jié)點點將數據據直接發(fā)發(fā)送給相相應的MPP數據庫節(jié)節(jié)點上 裝載載節(jié)點處處理過程程中數據據不落地地 裝載載節(jié)點可可以是MPP數據庫中中的部分分節(jié)點也也可以獨獨立設置置通過連接接器的方方式,可可以實現現數據庫庫與Hadoop系統(tǒng)之間間的高速速和可靠靠的數據據互通,,非常適適合數據據同步的的計算場場景。外部表方式::數據庫可以通過過外部表表的方式式,直接接訪問存存儲在HDFS上的文件件。在使使用外部部表時,,數據庫庫可以像像訪問內內部數據據一樣,,將文件件當作表表insert到數據庫庫內其他他表中,,或將HDFS上的文件件和數據據庫內的的表進行行關聯操操作。同同時也可可以將RDBMS內的數據據,通過過外部表表的形式式,寫入入到HDFS上去。例例如如下下操作:Selectcount(*)fromHDFS_datah,RDBMS_datagwhereh.key=g.key;InsertintoHDFS_dataselect*fromRDBMS_data;數據中心心透明訪訪問HADOOP+MPP的混搭架架構在解解決大數數據處理理問題的的同時也也加大了了上層應應用的數數據訪問問復雜度度。主要要問題體體現在::多種數據據實例::數據可可能分布布在關系系型數據據庫、Hadoop分布式計計算集群群以及HBase庫中。多種訪問問接口::不同類類型的數數據實例例的技術術實現方方式差異異大,如如關系型型數據提提供了標標準SQL,Hadoop、HBase提供開放放API或Hive方式訪問問,這同同樣對上上層訪問問增加了了難度。??鐢祿崒嵗臄禂祿嬎闼悖翰煌愋偷牡臄祿崒嵗牡椎讓訑祿鎯Y結構不同同,如關關系型數數據庫存存儲結構構化數據據,而Hadoop計算集群群多存儲儲半結構構化數據據,如果果需要涉涉及到兩兩種類型型數據實實例中的的數據關關聯(join)計算,,目前還還難以直直接實現現,需要要做一系系列數據據互通調調度,然然后在單單實例上上完成關關聯計算算,整個個過程復復雜度高高、工作作量大。針對目前前出現的的這些問問題,可可以考慮慮構建數數據透明明訪問能能力。也也就是提提供統(tǒng)一一的數據據訪問接接口,對對上層屏屏蔽底層層數據處處理實現現細節(jié),,提升上上層應用用的開發(fā)發(fā)效率。。主要需需要解決決兩個方方面的問問題:1、通過統(tǒng)統(tǒng)一的語語言或服服務接口口訪問到到不同的的數據庫庫實例,,包括數數據查詢詢、數據據處理操操作等。。2、針對跨跨數據實實例的數數據互通通、關聯聯操作等等,可以以通過統(tǒng)統(tǒng)一的的的語言、、服務接接口或管管理工具具等技術術來實現現。目錄MPP數據庫在在數據中中心的應應用企業(yè)級數數據中心心定義數據中心心中的大大數據數據中心心BI技術選型型描述Hadoop在數據中中心的應應用數據中心心ESB技術研究究大數據技技術與傳傳統(tǒng)數據據中心的的集成BI集成工具具選型問問題這些眾多多的BI項目從規(guī)規(guī)模和對對BI系統(tǒng)支撐撐的完善善程度上上來說,,大體可可以分為為Framework、Stand-aloneTools和BISuite三種類型型。Framework:開源框架,,這是在在商業(yè)BI系統(tǒng)中所所沒有的的。我們們可以使使用它們們來構建建自己的的BI工具,或或者增強強和擴展展我們的的BI解決方案案。Stand-aloneTools:獨立立的BI工具,,這是是開源源項目目中數數量最最多的的一類類。很很多工工具只只側重重BI系統(tǒng)中中的某某個環(huán)環(huán)節(jié)和和方面面,如如ETL、Report、OLAP和Database等等。。BISuite:在統(tǒng)一的的架構構下提提供了了多種種BI系統(tǒng)的的特性性的工工具集集合。。就目目前的的情況況看,,不管管是商商業(yè)軟軟件還還是開開源軟軟件,,還沒沒有任任何一一個套套件提提供了了完整整的端端到端端的BI解決方方案。。這些些開源源的BISuit是通過過連接接多個個其他他的組組件和和工具具的方方式形形成套套件的的,由由于BI系統(tǒng)涉涉及到到的工工具是是非常常多的的,所所以整整合一一套完完整的的BI解決方方案是是很困困難的的。開源BI的重要要項目目:Pentaho、spagoBi是兩個個比較較大的的框架架,集集成了了相當當多的的開源源項目目,JfreeReport、Mondrian、Kettle、Weka基本都都使用用。適適合大大型復復雜項項目的的開發(fā)發(fā)。Pentaho:是一個以以工作作流為為核心心的、、強調調面向向解決決方案案而非非工具具組件件的BI套件,,整合合了多多個開開源項項目,,目標標是和和商業(yè)業(yè)BI相抗衡衡。SpagoBI集成了OLAPServerMondrain和OLAP展示JProvit,能夠夠通過過OpenLaszlo產生實實時報報表。。SpagoBI使用java開發(fā),,不依依賴于于具體體的操操作系系統(tǒng),,有很很強的的擴展展能力力。開源BI工具之之SpagoBISpagoBI集成了了Mondrain和JProvit,能夠夠通過過OpenLaszlo產生實實時報報表。。SpagoBI使用java開發(fā),,不依依賴于于具體體的操操作系系統(tǒng),,有很很強的的擴展展能力力。它它主要要包括括:1、報報表工工具::JasperReports/EclipseBIRT/iReport2、OLAPServer:Mondrian3、OLAP展示::JPivot4、數數據挖挖掘組組件::Weka5、Map引擎::Geo6、ETL:BIE7、搜搜索引引擎::Lucene8、Dashboard:OpenLaszlo9、PortalServer:JBoss/Tomcat/JOnAS開源BI工具之之PentahoPentaho是一個以工工作流為核核心的、強強調面向解解決方案而而非工具組組件的BI套件,整合合了多個開開源項目,,目標是和和商業(yè)BI相抗衡。它它包括如下下開源組件件:1、工作流流引擎:SharkandJaWE2、數據庫庫:FirebirdRDBMS3、集成管管理和開發(fā)發(fā)環(huán)境:Eclipse4、報表工工具:EclipseBIRT5、ETL工具:Enhydra/Kettle6、OLAPServer:Mondrian7、OLAP展示:JPivot8、數據挖挖掘組件::Weka9、應用服服務器和Portal服務器:JBoss10、單點登登陸服務及及LDap認證:JOSSO11、自定義義腳本支持持:MozillaRhinoJavascript腳本處理器器Pentaho是一個很完完善的BI解決方案。。Pentaho偏向于與業(yè)業(yè)務流程相相結合的BI解決方案,,側重于大大中型企業(yè)業(yè)應用。Pentaho與Spago對比From張軼總:目前看Pentaho基本符合我我們對數據據平臺功能能的要求。。其中,PentahoDataIntergration(PDI)可以用作作我們的數數據平臺集集成,并且且其支持與與Hadoop及周邊軟件件集成。同同時也支持持絕大多數數NoSQL。還有,對對于Map/Reducejob也有很好支支持。PentahoBusinessAnalytics(PBA)是一個數數據分析、、展示平臺臺,可以生生成報表,,做數據可可視化,具具有數據挖挖掘功能。。Pentaho集成了很多多第三方開開源項目,,這種集成成是無縫的的。Pentaho也有很好的的Metadata管理功能。。總之,它它是一個很很好的BI系統(tǒng)框架且且完全開源源。相信通過Pentaho,我們可以搭出一個PoC演示環(huán)境。。后續(xù)我們們還會做更更進一步的的研究。目錄MPP數據庫在數數據中心的的應用企業(yè)級數據據中心定義義數據中心中中的大數據據數據中心BI技術選型描描述Hadoop在數據中心心的應用數據中心ESB技術研究大數據技術術與傳統(tǒng)數數據中心的的集成企業(yè)應用集集成EAI與ESB企業(yè)應用集成(EAI)是集成應用之之間數據和和服務的一一種應用技技術。它解解決無限的的問題,解解決方案也也幾乎沒有有窮盡。目前前常見的四種集成風格格:1.文件傳輸::兩個系統(tǒng)統(tǒng)生成文件件,文件的的有效負載載就是由另另一個系統(tǒng)統(tǒng)處理的消消息。該類類風格的例例子之一是是針對文件件輪詢目錄錄或FTP目錄,并處處理該文件件。2.共享數據庫庫:兩個系系統(tǒng)查詢同同一個數據據庫以獲取取要傳遞的的數據。一一個例子是是你部署了了兩個EAR應用,它們們的實體類類(JPA、Hibernate等)共用同同一個表。。3.遠程過程調調用:兩個個系統(tǒng)都暴暴露另一個個能調用的的服務。該該類例子有有EJB服務,或SOAP和REST服務。4.消息:兩個個系統(tǒng)連接接到一個公公用的消息息系統(tǒng),互互相交換數數據,并利利用消息調調用行為。。該風格的的例子就是是眾所周知知的中心輻輻射式的((hub-and-spoke)JMS架構。這些風格迥迥然不同,,因為沒有有一種解決決辦法能在在任何情況況下都良好好運轉。這這導致整個個中間件領領域都在基基于這些模模式尋求可可用的解決決辦法,通通常被稱為為企業(yè)服務務總線(ESB)。ESB是最終的的中間人人:它知知道如何何使用各各種語言言在各種種協(xié)議上上調解傳傳遞的消消息。ESB定義與主主要功能能:ESB全稱為EnterpriseServiceBus,即企業(yè)業(yè)服務總總線。它它是傳統(tǒng)統(tǒng)中間件件技術與與XML、Web服務等技技術結合合的產物物。ESB提供了網網絡中最最基本的的連接中中樞,是是構筑企企業(yè)神經經系統(tǒng)的的必要元素。Invocation———同步和異步的的傳輸協(xié)議的的支持、服務務的定位和綁綁定Routing——靜態(tài)和動態(tài)路路由、基于內內容路由、基基于策略路由由、基于規(guī)則則路由Mediation———適配、協(xié)議轉轉換、服務映映射Messaging———消息處理、轉轉換、增強Processchoreography———負責業(yè)務邏輯輯的實現Serviceorchestration——服務編排Complexeventprocessing———事件解釋、事事件關聯、模模式適配Otherqualityofservice———安全、可靠傳傳輸、事務Management———監(jiān)視、audit、日志、計量量、管理、BAMESB實施探討不推薦的實施施:1、用ESB實現大數據傳輸:ESB并不適合完成成該項功能,,雖然它可以以實現這一功功能,但這并并非最佳實踐踐。ESB作為企業(yè)級的的服務聯通、、管理平臺,,需要穿透ESB的服務應該是是企業(yè)內重用用可能最大、、價值最大的的那些服務,,應用程序對對這類服務的的訪問應該非非常頻繁,因因此同一時刻刻需要ESB支撐的業(yè)務可可能非常繁重重。所以,ESB產品的設計初初衷是實現一一個無狀態(tài)、、高吞吐的服服務總線,為為企業(yè)內重要要的業(yè)務服務務提供透明、、標準、開放放的接入能力力。這種實踐的原原因是過分放放大了ESB對數據的傳輸輸能力,如果果在ESB傳輸巨大的信信息,可能會會導致ESB整體性能的下下降,損害其其他重要服務務的QoS。2、挾ESB以令外圍應用:ESB的架構師在ESB上設計一套標標準的數據接接口(通用的的XML格式),規(guī)定定使用統(tǒng)一的的協(xié)議(如WebService/HTTP)。所有的ESB服務消費者和和接入ESB的服務必須符符合該標準。。其目的是為為了簡化ESB上的開發(fā)工作作。這就是一一種“挾天子子以令諸侯””的做法。ESB針對的是一個個個功能各異異的整合邏輯輯,服務之間間的整合邏輯輯也是迥異的的。所以,一一勞永逸的ESB之上的架構是是不存在的。。3、用ESB實現業(yè)務流程:有些架構師看看到ESB支持服務組合合(ServiceComposition)模式,進而而認為可用該該模式來實現現業(yè)務流程。。因此,ESB產品就演變成成了BPM產品。讓ESB實現BPM,特別是長運運行的流程時時,雖然在技技術上可以實實現,但是這這違背了ESB產品的設計理理念,會大大大影響其ESB運行時的整體體運行效率。推薦的實施::1、服務要管理起來:ESB的一個重要功功能是將企業(yè)業(yè)內/合作伙伴處的的服務以開放放的、標準的的服務方式暴暴露出來,使使得服務消費費者能夠便利利地查找到服服務,以促進進服務的重用用、管理。2、復雜的動態(tài)態(tài)路由規(guī)則應應服務化:路由是ESB中非常重要的的仲裁邏輯之之一。路由場場景是非常普普遍的。譬如如,針對不同同的客戶提供供不同QoS的場景,執(zhí)行行時需根據客客戶的類型將將其路由到不不同執(zhí)行能力力的服務提供供者;再比如如當響應消息息到達ESB時,總是需要要將該響應消消息送回最初初的服務請求求者處。對于于復雜的路由由,推薦將路路由規(guī)則的邏邏輯外部化,,并將它服務化。開源ESB之ServiceMix(SM)產品簡介:它它是JBI規(guī)范的一種實實現;包含很很熟JBI組件。這些組組件支持多種種協(xié)議,比如如JMS,HTTP,FTP,FILE等。同時也實實現了EIP,規(guī)則和調度度。SM也整合了其他他的開源項目目,比如Apache、ActiveMQCXF,ApaheCamel,ApacheODE以及ApacheGeronimo。優(yōu)點:1、無縫集成CXF,ActiveMQ,Camel和ODE,因為ServiceMix,ActiveMQ,CXF,Camel都是FUSE的開源產品2、JBI的優(yōu)勢,組件件BC,SE可以在任何JBI容器中直接運運行,復用性性強3、基于OSGi,具備OSGi的優(yōu)勢:模塊塊化,熱部署署,易擴展缺點:1、基于JBI但JBI規(guī)范太復雜,,已被主流中中間件廠商拋拋棄,沒有受到業(yè)界界的青睞,前前途未卜。2、架構復雜,,由于JBI的復雜性所致致,其架構并并非輕量級,,過多依賴XML的配置。如果果要做進一步步的總線上的的擴展,則需需要對源代碼碼和例子進行行較為深入的的學習和研究究。3、由于所有消消息要進行標標準化處理,,即生成和解解析XML文件,所以會會導致性能下下降;4、開發(fā)過程中中需要實現框框架特定接口口(MessageExchangeListener)接收和處理上上述標準消息息,侵入性強強(侵入業(yè)務務系統(tǒng))其他:JBI(JavaBusinessIntegration)是SUN公司解決SOA的方案,但JBI沒有得到IBM與BEA的承認(IBM與BEA等公司推薦SCA和SDO)。開源ESB之WSO2產品簡介:WSO2是基于ApacheSynapse產品的,通過過它可以在web服務,REST/POX服務以及遺留留系統(tǒng)間連接接,管理和轉轉換服務交互互。它還提供供了一個基于于AJAX的ESB管理控制臺對對其配置文件件進行統(tǒng)計分分析,管理((添加,刪除除以及修改等等),和指定定執(zhí)行相應的的配置文件。。這在開源ESB中是非常少見見的。優(yōu)點:1、基于Axis(axis全稱ApacheEXtensibleInteractionSystem即阿帕奇可擴擴展交互系統(tǒng)統(tǒng)),借助于Axis的特性,能非非常好的支持持ws規(guī)范,ws-*。因此非常適適合WebService

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論