




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息資源服務(wù)(金融云)大數(shù)據(jù)平臺(tái)建設(shè)方案第34頁(yè)共68頁(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案2015年4月目錄1 項(xiàng)目概述 41.1 項(xiàng)目背景 41.2 建設(shè)目標(biāo) 41.3 建設(shè)原則 51.4 建設(shè)思路 51.5 建設(shè)內(nèi)容 62 需求分析 72.1 現(xiàn)狀分析 72.2 數(shù)據(jù)分析 82.3 需求總結(jié) 103 技術(shù)方案 113.1 設(shè)計(jì)原則 113.2 設(shè)計(jì)思路 123.3 架構(gòu)體系 143.3.1 整體架構(gòu)設(shè)計(jì) 143.3.2 技術(shù)架構(gòu)設(shè)計(jì) 153.3.3 網(wǎng)絡(luò)拓?fù)浼軜?gòu) 173.4 數(shù)據(jù)流向 193.5 建設(shè)內(nèi)容 203.5.1 前置系統(tǒng) 203.5.2 ETL平臺(tái) 203.5.3 數(shù)據(jù)倉(cāng)庫(kù) 213.5.4 統(tǒng)一數(shù)據(jù)服務(wù)接口 243.6 技術(shù)選型 263.6.1 MPP數(shù)據(jù)庫(kù) 263.6.2 Hadoop平臺(tái) 283.6.3 傳統(tǒng)數(shù)據(jù)庫(kù) 313.6.4 傳統(tǒng)ETL 313.6.5 云化ETL 313.6.6 混搭架構(gòu)融合管理 323.6.7 數(shù)據(jù)集成 373.7 產(chǎn)品選型 403.8 配置清單 423.8.1 軟件配置清單 423.8.2 硬件配置清單 423.8.3 MPP數(shù)據(jù)庫(kù)配置部署 433.8.4 Hadoop集群配置部署 444 方案優(yōu)勢(shì)特點(diǎn) 464.1 混搭架構(gòu)的大數(shù)據(jù)平臺(tái) 464.2 數(shù)據(jù)資源統(tǒng)一管理、高度共享 464.3 海量數(shù)據(jù)低成本存儲(chǔ)管理 464.4 高可用、動(dòng)態(tài)擴(kuò)展 474.5 深度精細(xì)化的業(yè)務(wù)數(shù)據(jù)支撐 475 大數(shù)據(jù)區(qū)金融應(yīng)用推薦建設(shè) 475.1 金融云大布控及大搜索建設(shè) 475.2 視偵系統(tǒng) 475.3 經(jīng)偵實(shí)戰(zhàn)化情報(bào)分析 476 附錄一:H3CDataEngineMPPCluster產(chǎn)品簡(jiǎn)介 486.1 系統(tǒng)技術(shù)架構(gòu) 496.2 系統(tǒng)技術(shù)特點(diǎn) 516.3 系統(tǒng)功能簡(jiǎn)介 526.4 H3CDataEngineMPPCluster工具 536.4.1 圖形化企業(yè)管理工具 536.4.2 圖形化監(jiān)控工具 536.4.3 數(shù)據(jù)備份/恢復(fù) 556.4.4 gcadmin工具 566.4.5 數(shù)據(jù)重分布工具 566.5 系統(tǒng)核心技術(shù) 566.5.1 MPP+SharedNothing架構(gòu) 566.5.2 列存儲(chǔ) 576.5.3 高效的透明壓縮 586.5.4 高可用 596.5.5 高并發(fā) 596.5.6 高性能在線擴(kuò)展 626.5.7 高性能數(shù)據(jù)加載 636.5.8 OLAP函數(shù) 656.5.9 行列混合存儲(chǔ) 656.5.10 智能索引 656.5.11 全文檢索 666.6 系統(tǒng)運(yùn)行環(huán)境 666.6.1 網(wǎng)絡(luò)環(huán)境 666.6.2 硬件環(huán)境 666.6.3 操作平臺(tái) 666.7 系統(tǒng)開(kāi)發(fā)接口 676.7.1 H3CDataEngineMPPClusterODBC 676.7.2 H3CDataEngineMPPClusterJDBC 676.7.3 H3CDataEngineMPPClusterADO.NET 686.7.4 H3CDataEngineMPPClusterCAPI 687 附錄二:H3CDataEngineHDP產(chǎn)品簡(jiǎn)介 69項(xiàng)目概述項(xiàng)目背景XX“XXX”經(jīng)過(guò)多年建設(shè),取得了較大成績(jī),有力支撐了業(yè)務(wù)工作開(kāi)展,促進(jìn)了工作體制機(jī)制變革。XX信息化的高速發(fā)展積累了豐富的業(yè)務(wù)數(shù)據(jù),種類(lèi)不斷豐富、結(jié)構(gòu)不斷異化、總量急速增長(zhǎng),行業(yè)的大數(shù)據(jù)體系已初見(jiàn)雛形。目前,省內(nèi)各級(jí)機(jī)關(guān)快速積累并不斷增長(zhǎng)的信息數(shù)據(jù)已成為繼警力資源、裝備資源之后的新一類(lèi)核心資源。如何快速挖掘其內(nèi)在價(jià)值,轉(zhuǎn)化為現(xiàn)實(shí)戰(zhàn)斗力,在更高更深層次服務(wù)保障工作開(kāi)展,已成為XX信息化迫切需要解決的關(guān)鍵問(wèn)題。當(dāng)前,伴隨著XX信息資源的快速增長(zhǎng),數(shù)據(jù)質(zhì)量不高、處理能力不強(qiáng)、標(biāo)準(zhǔn)規(guī)范不足、專(zhuān)業(yè)應(yīng)用不深等問(wèn)題開(kāi)始全面顯現(xiàn),迫切需要以新的思路、新的方法、新的技術(shù),逐步解決數(shù)據(jù)資源海量化、異構(gòu)化,應(yīng)用需求多樣化、復(fù)雜化等現(xiàn)實(shí)問(wèn)題。為強(qiáng)力推動(dòng)“大情報(bào)”工作建設(shè),打牢“大情報(bào)”系統(tǒng)根基,做強(qiáng)情報(bào)信息數(shù)據(jù)支撐,強(qiáng)化實(shí)戰(zhàn)應(yīng)用效能,按照部、省廳“大情報(bào)”體系建設(shè)的要求,XX著力建設(shè)信息資源服務(wù)平臺(tái)。該平臺(tái)以解決當(dāng)前面臨的具體問(wèn)題為出發(fā)點(diǎn),以云計(jì)算、大數(shù)據(jù)等新技術(shù)為關(guān)鍵支撐,以服務(wù)實(shí)戰(zhàn)應(yīng)用為根本目標(biāo),逐步建立信息化新的技術(shù)架構(gòu)、開(kāi)發(fā)模式,強(qiáng)化信息資源梳理整合,建設(shè)便捷高效的應(yīng)用功能,有效構(gòu)建信息資源應(yīng)用服務(wù)新體系。建設(shè)目標(biāo)基于云計(jì)算、列存儲(chǔ)、大規(guī)模并行處理(MassivelyParallelProcessing,簡(jiǎn)稱MPP)、Hadoop等先進(jìn)技術(shù)與理念,構(gòu)建XX信息資源服務(wù)平臺(tái)的數(shù)據(jù)資源服務(wù)支撐體系。開(kāi)發(fā)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三類(lèi)信息資源,建立具有海量數(shù)據(jù)處理能力的大數(shù)據(jù)平臺(tái),健全數(shù)據(jù)采集渠道,增加信息總量,加強(qiáng)統(tǒng)籌規(guī)劃,改善內(nèi)容結(jié)構(gòu),加大整合力度,統(tǒng)一標(biāo)準(zhǔn)規(guī)范,初步形成大數(shù)據(jù)統(tǒng)一存、管、用系統(tǒng)框架。有效匯總整合內(nèi)外部數(shù)據(jù)資源,實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的統(tǒng)一管理、高度共享和高效利用,解決數(shù)據(jù)資源海量化、異構(gòu)化,應(yīng)用需求多樣化、復(fù)雜化等現(xiàn)實(shí)問(wèn)題,進(jìn)一步提升信息資源開(kāi)發(fā)利用水平,提升信息資源服務(wù)的能力和服務(wù)品質(zhì),深層次滿足上層業(yè)務(wù)應(yīng)用、管理決策支持和信息再生應(yīng)用的需要,達(dá)到強(qiáng)化情報(bào)信息數(shù)據(jù)支撐,服務(wù)實(shí)戰(zhàn)應(yīng)用的目的。同時(shí),在平臺(tái)不斷成熟發(fā)展的過(guò)程中,形成配套的管理機(jī)制,平臺(tái)也將進(jìn)一步向下開(kāi)放,從而實(shí)現(xiàn)合理調(diào)整警力、科學(xué)配置資源、改進(jìn)金融模式的目的,進(jìn)而逐步建立一套與形勢(shì)發(fā)展相適應(yīng)的現(xiàn)代金融新機(jī)制,使機(jī)關(guān)指揮體系、情報(bào)研判及工作機(jī)制更加適應(yīng)未來(lái)信息化建設(shè)的要求。建設(shè)原則本項(xiàng)目要從項(xiàng)目建設(shè)所采用的技術(shù)、建成后系統(tǒng)的特性等幾個(gè)方面充分考慮項(xiàng)目建設(shè)原則,具體如下:先進(jìn)性與前瞻性原則——項(xiàng)目需采用先進(jìn)、成熟的技術(shù),并兼顧數(shù)據(jù)分析系統(tǒng)未來(lái)的發(fā)展要求。實(shí)用性和擴(kuò)展性原則——系統(tǒng)功能實(shí)用,操作簡(jiǎn)便,運(yùn)行快捷,并具備良好的可擴(kuò)展性??煽啃院头€(wěn)定性原則——系統(tǒng)設(shè)計(jì)要保證軟硬件及網(wǎng)絡(luò)系統(tǒng)等均符合系統(tǒng)可用性使用要求,保障系統(tǒng)可靠、穩(wěn)定運(yùn)行。統(tǒng)一性和標(biāo)準(zhǔn)化原則——系統(tǒng)開(kāi)發(fā)各項(xiàng)功能必須遵循國(guó)家信息化建設(shè)標(biāo)準(zhǔn),實(shí)現(xiàn)系統(tǒng)的統(tǒng)一性和標(biāo)準(zhǔn)化。建設(shè)思路項(xiàng)目在建設(shè)中將遵循如下設(shè)計(jì)原則:1、以數(shù)據(jù)為核心XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)的建設(shè)核心是對(duì)來(lái)源廣泛、海量化、異構(gòu)化的數(shù)據(jù)進(jìn)行全面的匯集整合,并在此基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)挖掘。能否最終建設(shè)形成一個(gè)信息量豐富、實(shí)時(shí)性強(qiáng)、來(lái)源可靠的信息庫(kù),決定了系統(tǒng)最終上層應(yīng)用的功能,也決定了系統(tǒng)能否持續(xù)發(fā)展、能否對(duì)周邊系統(tǒng)提供有力的支撐。2、以平臺(tái)為基礎(chǔ)基于平臺(tái)面向各警種部門(mén)的上層應(yīng)用建立數(shù)據(jù)統(tǒng)一存、管、用的生態(tài)環(huán)境,一方面實(shí)現(xiàn)數(shù)據(jù)資源的統(tǒng)一存儲(chǔ)、統(tǒng)一管理和高度共享,另外一方面提供統(tǒng)一的數(shù)據(jù)資源服務(wù)接口,實(shí)現(xiàn)數(shù)據(jù)和服務(wù)的高效利用,基于平臺(tái)形成一個(gè)生態(tài)體系,繁榮信息化。3、注重持續(xù)發(fā)展項(xiàng)目的建設(shè)不是要完全替換現(xiàn)有的數(shù)據(jù)和系統(tǒng),而是在現(xiàn)有基礎(chǔ)上,充分利用已有的成果,經(jīng)過(guò)對(duì)現(xiàn)有數(shù)據(jù)的再分析和深度挖掘,產(chǎn)生新的有價(jià)值信息,滿足應(yīng)用需求多樣化、復(fù)雜化的需求。項(xiàng)目不但要利用現(xiàn)有項(xiàng)目的成果,而且還要將自身的成果提供給其它系統(tǒng)使用。4、側(cè)重創(chuàng)新XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)是一個(gè)具有創(chuàng)新性的平臺(tái),其以云計(jì)算、MPP、Hadoop等新技術(shù)為關(guān)鍵支撐,以服務(wù)實(shí)戰(zhàn)應(yīng)用為根本目標(biāo),逐步建立信息化新的技術(shù)架構(gòu)、開(kāi)發(fā)模式,強(qiáng)化信息資源梳理整合,建設(shè)便捷高效的應(yīng)用功能,有效構(gòu)建信息資源應(yīng)用服務(wù)新體系。建設(shè)內(nèi)容根據(jù)項(xiàng)目需求,本期項(xiàng)目需要建設(shè)能夠支撐信息資源服務(wù)平臺(tái),對(duì)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行整合和統(tǒng)一管理的的大數(shù)據(jù)平臺(tái),并通過(guò)對(duì)大數(shù)據(jù)的分析,成功有效地完成決策支持,推動(dòng)各業(yè)務(wù)的有序運(yùn)行。整個(gè)信息資源服務(wù)大數(shù)據(jù)平臺(tái)的建設(shè)內(nèi)容主要分為四部分:前置系統(tǒng)、ETL平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和統(tǒng)一數(shù)據(jù)服務(wù)接口。需求分析根據(jù)當(dāng)?shù)貢r(shí)間遇到問(wèn)題、數(shù)據(jù)內(nèi)容、新需求來(lái)進(jìn)行分析。需本地修改。根據(jù)當(dāng)?shù)貢r(shí)間遇到問(wèn)題、數(shù)據(jù)內(nèi)容、新需求來(lái)進(jìn)行分析。需本地修改。按照橫向物理整合、縱向邏輯集成的總體思路,基于XX各類(lèi)業(yè)務(wù)應(yīng)用系統(tǒng)生產(chǎn)的業(yè)務(wù)數(shù)據(jù)、社會(huì)面采集的各類(lèi)人、財(cái)、物的流動(dòng)及管理數(shù)據(jù)、互聯(lián)網(wǎng)應(yīng)用產(chǎn)生的各類(lèi)實(shí)名數(shù)據(jù),通過(guò)整合匯聚和服務(wù)集成,建設(shè)形成信息服務(wù)綜合資源庫(kù),通過(guò)對(duì)該庫(kù)中各類(lèi)數(shù)據(jù)的關(guān)聯(lián)分析和深度挖潛,為各類(lèi)業(yè)務(wù)應(yīng)用提供諸如同案分析、串并比對(duì)、研判布控等復(fù)雜分析功能,為一線實(shí)戰(zhàn)提供更為豐富的信息資源應(yīng)用服務(wù)?,F(xiàn)狀分析經(jīng)過(guò)長(zhǎng)期的實(shí)際應(yīng)用,XX信息資源庫(kù)無(wú)論是在數(shù)據(jù)資源利用以及對(duì)外提供數(shù)據(jù)服務(wù),還是在管理運(yùn)維中的問(wèn)題,也逐漸的顯現(xiàn)出來(lái)。隨著信息化建設(shè)工作的不斷推進(jìn),越發(fā)成為制約整個(gè)工作發(fā)展的瓶頸,也漸漸暴露出數(shù)據(jù)資源、手段建設(shè)等沒(méi)有充分利用等問(wèn)題,導(dǎo)致在實(shí)際工作中實(shí)戰(zhàn)效能不高,一定程度上影響了手段作用的發(fā)揮,具體問(wèn)題如下:1、信息資源的開(kāi)發(fā)和整合力度不夠,共享程度低從總體看,目前已有的采集渠道基本沿襲傳統(tǒng)模式,信息源少、覆蓋面小、代表性不強(qiáng);統(tǒng)計(jì)周期長(zhǎng),信息時(shí)效性差;大量的信息處于部門(mén)所有、相對(duì)封閉的分散狀態(tài),缺乏有效整合,共享程度低。這種狀況在宏觀上難以為決策層提供有力的支撐,微觀上難以為各警種業(yè)務(wù)提供有效的信息引導(dǎo)。2、無(wú)法實(shí)現(xiàn)跨域數(shù)據(jù)的融合匯總和管理XX信息資源服務(wù)平臺(tái)涉及面廣,信息源寬泛,不僅涉及八大基礎(chǔ)庫(kù)等結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù),還包括從民政、工商等部門(mén)交換來(lái)的社會(huì)數(shù)據(jù),以及微博、微信、網(wǎng)頁(yè)、論壇等互聯(lián)網(wǎng)數(shù)據(jù)。大數(shù)據(jù)時(shí)代,XX急需構(gòu)建信息資源服務(wù)大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)對(duì)各類(lèi)業(yè)務(wù)多樣性的海量信息進(jìn)行一致性管理,為上層業(yè)務(wù)應(yīng)用和數(shù)據(jù)挖掘提供基礎(chǔ)支撐。3、資源服務(wù)能力差,海量數(shù)據(jù)的管理和服務(wù)存在瓶頸基于各警種部門(mén)業(yè)務(wù)對(duì)數(shù)據(jù)資源的需求,這要求一方面要提供高效的數(shù)據(jù)資源服務(wù),另外一方面要提供靈活多變的業(yè)務(wù)資源服務(wù)。而目前現(xiàn)有系統(tǒng)面向業(yè)務(wù)操作OLTP場(chǎng)景,面對(duì)來(lái)源廣泛、類(lèi)型各異的海量數(shù)據(jù),現(xiàn)有系統(tǒng)無(wú)法有效的存儲(chǔ)和管理,特別是面對(duì)大數(shù)據(jù)對(duì)象的深度解析和關(guān)聯(lián)處理,以及海量的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)處理,無(wú)法實(shí)時(shí)高效的檢索出關(guān)鍵信息,現(xiàn)有系統(tǒng)的數(shù)據(jù)資源服務(wù)能力已經(jīng)阻礙了基層民警業(yè)務(wù)實(shí)戰(zhàn)應(yīng)用。4、決策、管理和服務(wù)職能缺乏有力支撐隨著大數(shù)據(jù)時(shí)代的到來(lái)以及XX信息化的發(fā)展,對(duì)于海量業(yè)務(wù)數(shù)據(jù)的處理需求驟然增加,但沒(méi)有建立起完善的以大數(shù)據(jù)平臺(tái)為核心的決策支持系統(tǒng)和管理服務(wù)系統(tǒng)等系統(tǒng),各業(yè)務(wù)的決策、管理和信息服務(wù)缺乏現(xiàn)代信息技術(shù)支持手段,無(wú)法滿足各業(yè)務(wù)的實(shí)際需要。數(shù)據(jù)分析數(shù)據(jù)的屬性或特征從不同角度看有不同的特點(diǎn),可以按照如下不同的分類(lèi)方法進(jìn)行歸類(lèi):按數(shù)據(jù)類(lèi)型分類(lèi)中既包含結(jié)構(gòu)化數(shù)據(jù),又包含半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù):系統(tǒng)中包含八大基礎(chǔ)庫(kù)等業(yè)務(wù)數(shù)據(jù),以及從民政、工商等部門(mén)交換來(lái)的社會(huì)數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù):業(yè)務(wù)系統(tǒng)等產(chǎn)生的大量的網(wǎng)頁(yè)、word、pdf、xml、報(bào)表等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):業(yè)務(wù)系統(tǒng)中存在大量的監(jiān)測(cè)音視頻、圖片、文檔、文本等數(shù)據(jù)。按數(shù)據(jù)應(yīng)用類(lèi)型分類(lèi)數(shù)據(jù)應(yīng)用類(lèi)型分為:事務(wù)型操作、分析型操作。事務(wù)型操作:指主要進(jìn)行增加、刪除或修改操作,這類(lèi)的應(yīng)用主要是業(yè)務(wù)系統(tǒng)中的操作。分析型操作:業(yè)務(wù)中還有一部分操作室進(jìn)行大量的查詢、統(tǒng)計(jì),即為分析型操作,分析類(lèi)操作又分為關(guān)系型操作和非關(guān)系型操作。關(guān)系型操作對(duì)關(guān)系型數(shù)據(jù)進(jìn)行復(fù)雜的關(guān)聯(lián)查詢、統(tǒng)計(jì);非關(guān)系型操作基于非關(guān)系型數(shù)據(jù)按照關(guān)鍵字進(jìn)行內(nèi)容分類(lèi)檢索。按數(shù)據(jù)價(jià)值密度分類(lèi)數(shù)據(jù)按照其價(jià)值密度分為:高價(jià)值密度數(shù)據(jù)和低價(jià)值密度數(shù)據(jù)。高價(jià)值密度數(shù)據(jù):在的警員、刑偵等業(yè)務(wù)系統(tǒng)中產(chǎn)生了大量的具備高使用價(jià)值的結(jié)構(gòu)化數(shù)據(jù),在各業(yè)務(wù)系統(tǒng)中被精確頻繁的使用,這些數(shù)據(jù)位高價(jià)值密度數(shù)據(jù)。低價(jià)值密度數(shù)據(jù):業(yè)務(wù)系統(tǒng)中會(huì)產(chǎn)生大量的監(jiān)控音視頻、抓取圖片等非結(jié)構(gòu)化數(shù)據(jù)和網(wǎng)頁(yè)等半結(jié)構(gòu)化數(shù)據(jù),以及在監(jiān)測(cè)、登記等業(yè)務(wù)中大量的日志類(lèi)結(jié)構(gòu)化數(shù)據(jù),但是價(jià)值松散,這類(lèi)數(shù)據(jù)是低價(jià)值密度數(shù)據(jù)。按數(shù)據(jù)職能分類(lèi)數(shù)據(jù)按數(shù)據(jù)職能分為:基礎(chǔ)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、交換數(shù)據(jù)、共享數(shù)據(jù)和管理數(shù)據(jù)等?;A(chǔ)數(shù)據(jù):指業(yè)務(wù)采集或產(chǎn)生的的基礎(chǔ)信息,包括警員、在逃人員、出入境等基礎(chǔ)業(yè)務(wù)數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù):為了實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)、快速查詢、綜合分析,將基礎(chǔ)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)模型進(jìn)行組織而產(chǎn)生的數(shù)據(jù),主要指針對(duì)專(zhuān)題產(chǎn)生的統(tǒng)計(jì)結(jié)果信息及匯總信息等。交換數(shù)據(jù):指從民政、社保等外部單位交換采集的社會(huì)數(shù)據(jù)。共享數(shù)據(jù):根據(jù)必要的訪問(wèn)權(quán)限和數(shù)據(jù)密級(jí),供內(nèi)部或外部人員或單位訪問(wèn)的數(shù)據(jù)。管理數(shù)據(jù):主要包括運(yùn)維管理數(shù)據(jù)、交換管理數(shù)據(jù)、工作流配置數(shù)據(jù)、規(guī)則數(shù)據(jù)以及系統(tǒng)運(yùn)行監(jiān)控?cái)?shù)據(jù)等,在系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生的,用于維持系統(tǒng)正常運(yùn)行而產(chǎn)生的數(shù)據(jù)。需求總結(jié)XX金融工作需要逐步建立一套與形勢(shì)發(fā)展相適應(yīng)、面向各業(yè)務(wù)、具有海量數(shù)據(jù)處理能力的大數(shù)據(jù)平臺(tái),深層次滿足上層業(yè)務(wù)應(yīng)用、管理決策支持和信息再生應(yīng)用的需要,使機(jī)關(guān)指揮體系、情報(bào)研判及工作機(jī)制更加適應(yīng)未來(lái)信息化建設(shè)的要求。具體需求如下:1、數(shù)據(jù)整合共享需求:面向多信息資源源頭以及多種數(shù)據(jù),需要合理布局資源結(jié)構(gòu),并按照統(tǒng)一的標(biāo)準(zhǔn)體系,匯總整合內(nèi)外部結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及圖像、視頻等多種類(lèi)數(shù)據(jù)信息,對(duì)各類(lèi)業(yè)務(wù)多樣性的海量信息進(jìn)行一致性管理,形成統(tǒng)一、高性能、高可擴(kuò)展、高可靠的綜合大數(shù)據(jù)平臺(tái),為上層業(yè)務(wù)應(yīng)用和數(shù)據(jù)挖掘提供基礎(chǔ)支撐。2、海量數(shù)據(jù)存儲(chǔ)管理需求:信息資源服務(wù)平臺(tái)的數(shù)據(jù)主要包括八大基礎(chǔ)庫(kù)等業(yè)務(wù)數(shù)據(jù),從民政、工商等部門(mén)交換來(lái)的社會(huì)數(shù)據(jù),以及微博、微信、網(wǎng)頁(yè)、論壇等互聯(lián)網(wǎng)數(shù)據(jù),現(xiàn)有的傳統(tǒng)的數(shù)據(jù)存儲(chǔ)系統(tǒng)不能解決數(shù)據(jù)規(guī)模日益增長(zhǎng)的問(wèn)題,因此對(duì)海量數(shù)據(jù)存儲(chǔ)管理有迫切需求。3、高效即席查詢需求:采用新型數(shù)據(jù)庫(kù)對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ),并提供SQL查詢語(yǔ)言對(duì)各類(lèi)業(yè)務(wù)統(tǒng)計(jì)信息進(jìn)行快速查詢,從而提升業(yè)務(wù)處理效率。4、數(shù)據(jù)分析性能需求:隨著數(shù)據(jù)量的不斷增加,需要數(shù)據(jù)平臺(tái)具備線性擴(kuò)展能力和強(qiáng)大的分析能力,支撐不斷增長(zhǎng)的數(shù)據(jù)量,滿足未來(lái)性各類(lèi)業(yè)務(wù)工作的發(fā)展需要,確保業(yè)務(wù)系統(tǒng)的不間斷且有效地工作。5、大數(shù)據(jù)分析挖掘需求:目前的管理方式正在從“業(yè)務(wù)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變,各管理部門(mén)迫切需要掌握業(yè)務(wù)基礎(chǔ)概況、發(fā)展?fàn)顩r、發(fā)展歷史和發(fā)展趨勢(shì)等,從而更好的引導(dǎo)各項(xiàng)業(yè)務(wù)合理發(fā)展。目前,這些數(shù)據(jù)的獲取沒(méi)有完整的解決方案,現(xiàn)有系統(tǒng)只能統(tǒng)計(jì)分析出部分?jǐn)?shù)據(jù)報(bào)告,并且在運(yùn)用數(shù)據(jù)發(fā)現(xiàn)網(wǎng)絡(luò)活動(dòng)內(nèi)在規(guī)律的時(shí)候,往往力不從心,迫切需要運(yùn)用大數(shù)據(jù)技術(shù),分析挖掘“潛在”價(jià)值,幫助政府相關(guān)部門(mén)準(zhǔn)確決策、合理調(diào)配資源。6、海量數(shù)據(jù)快速全文檢索需求:為提高用戶查詢、檢索信息的速度與靈活性,實(shí)現(xiàn)人、案、物全息搜索以及關(guān)聯(lián)搜索,需要大數(shù)據(jù)平臺(tái)提供海量數(shù)據(jù)快速全文檢索服務(wù),滿足各警種情報(bào)分析與案件辦理等的需要。技術(shù)方案設(shè)計(jì)原則項(xiàng)目在開(kāi)發(fā)的過(guò)程中應(yīng)注重實(shí)用性、易用性和安全性的要求。切實(shí)把握各類(lèi)業(yè)務(wù)工作的特點(diǎn)和未來(lái)發(fā)展的方向,使平臺(tái)能夠充分發(fā)揮效用,為相關(guān)業(yè)務(wù)人員和管理人員提供準(zhǔn)確的指導(dǎo)和有價(jià)值的決策參考依據(jù)。XX廳信息資源服務(wù)平臺(tái)中的數(shù)據(jù)和信息屬于涉密范疇,系統(tǒng)應(yīng)注重安全性要求,充分考慮信息防泄漏、防盜取的問(wèn)題。先進(jìn)性和實(shí)用性信息資源服務(wù)大數(shù)據(jù)平臺(tái)所采用的技術(shù)具有先進(jìn)性和實(shí)用性。即采用的存儲(chǔ)設(shè)備平臺(tái)、服務(wù)器主機(jī)平臺(tái)、系統(tǒng)軟件平臺(tái)及相關(guān)應(yīng)用系統(tǒng)平臺(tái)所采用的技術(shù)應(yīng)符合當(dāng)前技術(shù)發(fā)展的方向。與此同時(shí),為了保證系統(tǒng)的穩(wěn)定性,在采用先進(jìn)的技術(shù)的同時(shí)考慮到成熟技術(shù)的性能,以保證在系統(tǒng)建設(shè)過(guò)程中采用的能跟蹤先進(jìn)的技術(shù)的同時(shí)兼顧項(xiàng)目的可實(shí)施性。可靠性信息資源服務(wù)大數(shù)據(jù)平臺(tái)穩(wěn)定、可靠,具備高可用性,能夠滿足“數(shù)據(jù)集中”系統(tǒng)業(yè)務(wù)的要求。大數(shù)據(jù)平臺(tái)的可靠性同時(shí)也包括系統(tǒng)所具有的具體功能、系統(tǒng)所能支持的大數(shù)據(jù)容量和在復(fù)雜的運(yùn)行環(huán)境里穩(wěn)定、可靠地運(yùn)行,在出現(xiàn)異常的情況下,系統(tǒng)具有相應(yīng)的規(guī)避措施等,保證系統(tǒng)服務(wù)的不間斷運(yùn)行??蓴U(kuò)展性隨著信息資源服務(wù)平臺(tái)的實(shí)施,各類(lèi)信息數(shù)據(jù)不斷地增多和業(yè)務(wù)應(yīng)用系統(tǒng)的覆蓋面的不斷擴(kuò)大,大數(shù)據(jù)平臺(tái)將承擔(dān)更大的數(shù)據(jù)管理和數(shù)據(jù)支撐任務(wù),為此,系統(tǒng)平臺(tái)必須提供足夠的擴(kuò)展能力以滿足將來(lái)業(yè)務(wù)增長(zhǎng)的需要。其主要表現(xiàn)在在業(yè)務(wù)和數(shù)據(jù)系統(tǒng)需要擴(kuò)展空間時(shí),只增加相應(yīng)的硬件,不用改動(dòng)整體的架構(gòu),實(shí)現(xiàn)容量和性能的線性提升,同時(shí),新增的硬件可平滑地接入正在運(yùn)行的系統(tǒng)。易管理性由于信息資源服務(wù)平臺(tái)所服務(wù)的對(duì)象的廣泛性,以及應(yīng)用系統(tǒng)的復(fù)雜性,因此,為保證信息資源服務(wù)平臺(tái)工程的順利實(shí)施,在大數(shù)據(jù)平臺(tái)建設(shè)時(shí)充分考慮這些特點(diǎn)。大數(shù)據(jù)平臺(tái)用戶界面友好,各項(xiàng)功能使用簡(jiǎn)單、方便、快捷。系統(tǒng)配置和管理體現(xiàn)圖形化、直觀化,盡量避免復(fù)雜的系統(tǒng)配置文件??晒芾硇猿浞煮w現(xiàn)在系統(tǒng)軟、硬件平臺(tái)的管理工具應(yīng)提供豐富的、圖形化的管理工具,以便于管理及系統(tǒng)問(wèn)題的判斷。安全性考慮到各類(lèi)業(yè)務(wù)工作會(huì)涉及到諸多敏感及涉密信息,系統(tǒng)需要具備信息安全防護(hù)機(jī)制,防止信息泄漏和惡意入侵,保障信息數(shù)據(jù)的私密性和安全性。信息資源服務(wù)大數(shù)據(jù)平臺(tái)運(yùn)行系統(tǒng)的安全性包括硬件平臺(tái)的安全、系統(tǒng)安全、業(yè)務(wù)應(yīng)用系統(tǒng)的安全和網(wǎng)絡(luò)通訊的安全。大數(shù)據(jù)平臺(tái)建設(shè)首先遵循安全可靠的原則,最大可能減少因信息基礎(chǔ)設(shè)施故障而造成的業(yè)務(wù)無(wú)法正常進(jìn)行的現(xiàn)象的發(fā)生;同時(shí),建設(shè)中注重信息安全體系的建設(shè),提高數(shù)據(jù)的整體安全性,進(jìn)一步保證數(shù)據(jù)安全。設(shè)計(jì)思路當(dāng)前,XX積累了豐富的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)種類(lèi)不斷豐富,數(shù)據(jù)總量急速增長(zhǎng),數(shù)據(jù)資源呈現(xiàn)海量化、異構(gòu)化等特點(diǎn),行業(yè)的大數(shù)據(jù)體系已初見(jiàn)雛形,迫切需要以新的思路、新的方法、新的技術(shù),逐步解決。XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)整合優(yōu)化內(nèi)外各類(lèi)信息資源,形成基礎(chǔ)資源庫(kù),并在基礎(chǔ)數(shù)據(jù)資源庫(kù)建設(shè)的基礎(chǔ)上,通過(guò)二次抽取、索引化整合、邏輯關(guān)聯(lián)等方式,建設(shè)形成應(yīng)用服務(wù)資源庫(kù)。一是實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)資源的關(guān)聯(lián)融合,對(duì)不同來(lái)源、不同類(lèi)型的基礎(chǔ)數(shù)據(jù),按要素提取關(guān)鍵字段,建立要素內(nèi)的關(guān)聯(lián)關(guān)系;二是實(shí)現(xiàn)專(zhuān)題應(yīng)用數(shù)據(jù)的整合建庫(kù),按照業(yè)務(wù)應(yīng)用具體需要,基于專(zhuān)業(yè)應(yīng)用業(yè)務(wù)模型,通過(guò)二次抽取整合的方法,建立專(zhuān)題應(yīng)用資源庫(kù),滿足專(zhuān)業(yè)應(yīng)用需要。應(yīng)用服務(wù)資源庫(kù)要求庫(kù)內(nèi)要進(jìn)行大量的統(tǒng)計(jì)分析和多表關(guān)聯(lián)運(yùn)算,這就對(duì)大數(shù)據(jù)處理的性能提出了更高的要求。按照數(shù)據(jù)特征和數(shù)據(jù)處理要求,XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)需要以混搭模式構(gòu)建,最優(yōu)的解決方案應(yīng)包括:用MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群處理PB級(jí)別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)為應(yīng)用提供豐富的SQL和事務(wù)支持能力;用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。這樣可同時(shí)滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求。1、采用MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群建設(shè)應(yīng)用服務(wù)資源庫(kù),同時(shí)能夠承擔(dān)基礎(chǔ)數(shù)據(jù)資源庫(kù)中關(guān)系型數(shù)據(jù)的存儲(chǔ)、整合和統(tǒng)計(jì)分析任務(wù)。MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群重點(diǎn)面向行業(yè)大數(shù)據(jù),采用SharedNothing架構(gòu),通過(guò)列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對(duì)分析類(lèi)應(yīng)用的支撐,運(yùn)行環(huán)境多為低成本X86商用服務(wù)器,具有高性能和高擴(kuò)展性的特點(diǎn),在企業(yè)分析類(lèi)應(yīng)用領(lǐng)域獲得極其廣泛的應(yīng)用。這類(lèi)MPP產(chǎn)品可以有效支撐PB級(jí)別的結(jié)構(gòu)化數(shù)據(jù)分析,這是傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)無(wú)法勝任的。對(duì)于企業(yè)新一代的數(shù)據(jù)倉(cāng)庫(kù)和結(jié)構(gòu)化數(shù)據(jù)分析,目前最佳選擇是MPP數(shù)據(jù)庫(kù)。MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群的技術(shù)實(shí)現(xiàn)特點(diǎn)使得其特別適用于應(yīng)用服務(wù)資源庫(kù)的建設(shè),在強(qiáng)調(diào)關(guān)聯(lián)分析的背景下,同時(shí)面向眾多的業(yè)務(wù)場(chǎng)景和分析任務(wù),基于MapReduce的Hadoop架構(gòu)有著二次開(kāi)發(fā)的技術(shù)和成本劣勢(shì)。2、采用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)較難處理的數(shù)據(jù)和場(chǎng)景,例如針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等,充分利用Hadoop開(kāi)源的優(yōu)勢(shì),伴隨相關(guān)技術(shù)的不斷進(jìn)步,其應(yīng)用場(chǎng)景也將逐步擴(kuò)大,目前最為典型的應(yīng)用場(chǎng)景就是通過(guò)擴(kuò)展和封裝Hadoop來(lái)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。這里面有幾十種NoSQL技術(shù),也在進(jìn)一步的細(xì)分。對(duì)于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)處理、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型,Hadoop平臺(tái)更擅長(zhǎng)。綜上所述,XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)采用MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群+Hadoop的混合架構(gòu),按照橫向物理整合、縱向邏輯集成的總體思路,基于各類(lèi)GA業(yè)務(wù)應(yīng)用系統(tǒng)生產(chǎn)的業(yè)務(wù)數(shù)據(jù)、社會(huì)面采集的各類(lèi)人、財(cái)、物的流動(dòng)及管理數(shù)據(jù)、互聯(lián)網(wǎng)應(yīng)用產(chǎn)生的各類(lèi)實(shí)名數(shù)據(jù),通過(guò)整合匯聚和服務(wù)集成,建設(shè)形成信息服務(wù)綜合資源庫(kù),通過(guò)對(duì)該庫(kù)中各類(lèi)數(shù)據(jù)的關(guān)聯(lián)分析和深度挖潛,為一線實(shí)戰(zhàn)提供更為豐富的信息資源應(yīng)用服務(wù)。架構(gòu)體系整體架構(gòu)設(shè)計(jì)XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)重點(diǎn)完成海量數(shù)據(jù)的統(tǒng)一存儲(chǔ)、管理、信息共享和數(shù)據(jù)資源服務(wù)提供,并作為應(yīng)用系統(tǒng)的支撐,針對(duì)不同的業(yè)務(wù)建立不同的專(zhuān)題,建立完善的數(shù)據(jù)采集、加載、存儲(chǔ)、分析和應(yīng)用展示的架構(gòu)體系。XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)采用混搭架構(gòu),其核心主要包含四個(gè)部分,分別是:前置系統(tǒng)、ETL數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和統(tǒng)一數(shù)據(jù)服務(wù)接口。其中:前置系統(tǒng)這部分在前期交流的時(shí)候,一定要對(duì)用戶的數(shù)據(jù)格式、數(shù)據(jù)量有調(diào)研;:將采集的全部數(shù)據(jù)按源系統(tǒng)的數(shù)據(jù)格式臨時(shí)存儲(chǔ),屏蔽對(duì)源系統(tǒng)的干擾,為數(shù)據(jù)檢查和ETL數(shù)據(jù)處理做好準(zhǔn)備。這部分在前期交流的時(shí)候,一定要對(duì)用戶的數(shù)據(jù)格式、數(shù)據(jù)量有調(diào)研;ETL平臺(tái):通過(guò)進(jìn)行高效數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)加載等,完成對(duì)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù):通過(guò)數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)管理XX大數(shù)據(jù)平臺(tái)中所涉及的所有數(shù)據(jù)進(jìn)行存儲(chǔ)、分析,并能夠支撐應(yīng)用層的業(yè)務(wù)需要,進(jìn)行查詢、統(tǒng)計(jì)和展現(xiàn)的實(shí)現(xiàn)。統(tǒng)一數(shù)據(jù)服務(wù)接口:統(tǒng)一數(shù)據(jù)服務(wù)接口是高性能服務(wù)接口,為上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù),滿足數(shù)據(jù)查詢、數(shù)據(jù)互操作、數(shù)據(jù)交換、數(shù)據(jù)分析、目錄服務(wù)、綜合查詢、信息比對(duì)等業(yè)務(wù)應(yīng)用的需要。整體系統(tǒng)架構(gòu)如下圖所示:圖片針對(duì)性修改圖片針對(duì)性修改技術(shù)架構(gòu)設(shè)計(jì)整個(gè)XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)從數(shù)據(jù)和功能的角度可以分為數(shù)據(jù)源層、數(shù)據(jù)準(zhǔn)備層、數(shù)據(jù)接入管理層、數(shù)據(jù)存儲(chǔ)共享層、數(shù)據(jù)服務(wù)接口層和數(shù)據(jù)應(yīng)用層六個(gè)部分,其技術(shù)架構(gòu)如下圖所示。圖片針對(duì)性修改圖片針對(duì)性修改數(shù)據(jù)源層:數(shù)據(jù)來(lái)源層為整個(gè)系統(tǒng)提供數(shù)據(jù),包括內(nèi)部的綜合應(yīng)用系統(tǒng)、各警種業(yè)務(wù)系統(tǒng),以及外部的社會(huì)資源數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等。系統(tǒng)不直接從數(shù)據(jù)來(lái)源系統(tǒng)抽取數(shù)據(jù),而是通過(guò)數(shù)據(jù)準(zhǔn)備層,以保證數(shù)據(jù)源業(yè)務(wù)系統(tǒng)的安全。數(shù)據(jù)準(zhǔn)備層:從源系統(tǒng)通過(guò)橋接、導(dǎo)入/導(dǎo)出、ETL等方式,采集的全部數(shù)據(jù),并按源系統(tǒng)的數(shù)據(jù)格式臨時(shí)存儲(chǔ),為數(shù)據(jù)檢查和ETL數(shù)據(jù)處理做好準(zhǔn)備。數(shù)據(jù)接入管理層:高效進(jìn)行數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換、校驗(yàn)、加載等處理,完成對(duì)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程。對(duì)于少量或適量的結(jié)構(gòu)化數(shù)據(jù)可利用傳統(tǒng)ETL進(jìn)行處理,海量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)可利用云化ETL(Hadoop)進(jìn)行處理。數(shù)據(jù)存儲(chǔ)管理層:大數(shù)據(jù)平臺(tái)的數(shù)據(jù)存儲(chǔ)層。數(shù)據(jù)存儲(chǔ)管理層實(shí)現(xiàn)平臺(tái)采集和產(chǎn)生的大數(shù)據(jù)存儲(chǔ),包括結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。其中具有高價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù)使用MPP數(shù)據(jù)庫(kù)集群以數(shù)據(jù)倉(cāng)庫(kù)的方式來(lái)負(fù)責(zé)存儲(chǔ)管理,低價(jià)值密度的音視頻、互聯(lián)網(wǎng)等半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)以Hadoop的HBase、HDFS分布式存儲(chǔ)系統(tǒng)負(fù)責(zé)存儲(chǔ)管理。大數(shù)據(jù)存儲(chǔ)管理層對(duì)MPP數(shù)據(jù)庫(kù)集群和Hadoop平臺(tái)實(shí)現(xiàn)了融合,整合了列存儲(chǔ)、智能索引、多副本、Mapreduce、Hive等大數(shù)據(jù)處理技術(shù)對(duì)信息資源服務(wù)的大數(shù)據(jù)進(jìn)行統(tǒng)一的存儲(chǔ)管理。數(shù)據(jù)服務(wù)接口層:提供高性能服務(wù)接口,為上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù)。數(shù)據(jù)應(yīng)用層:面向XX信息資源服務(wù)平臺(tái)的各類(lèi)業(yè)務(wù)應(yīng)用。通過(guò)對(duì)各業(yè)務(wù)系統(tǒng)所產(chǎn)生的各類(lèi)結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)進(jìn)行統(tǒng)一整理、分類(lèi)、存儲(chǔ)、專(zhuān)題分類(lèi)等處理操作,從而達(dá)到將原始的無(wú)法使用的大數(shù)據(jù)化零為整,使之成為有序、專(zhuān)題化、可統(tǒng)一查詢分析的價(jià)值數(shù)據(jù)目標(biāo)。以大數(shù)據(jù)平臺(tái)為基礎(chǔ),用戶的信息資源服務(wù)平臺(tái)應(yīng)用可以更快更方便的開(kāi)發(fā)建設(shè),應(yīng)用的種類(lèi)可以更加多樣化,特別是對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的綜合價(jià)值挖掘更加有效和深入。網(wǎng)絡(luò)拓?fù)浼軜?gòu)大數(shù)據(jù)平臺(tái)采用雙鏈路接入,保證鏈路接入的可靠性。平臺(tái)網(wǎng)絡(luò)拓?fù)浼軜?gòu)主要包括五部分:網(wǎng)絡(luò)接入?yún)^(qū)、安全管理區(qū)、核心交換區(qū)、云計(jì)算服務(wù)區(qū)和云存儲(chǔ)服務(wù)區(qū)。平臺(tái)網(wǎng)絡(luò)拓?fù)浼軜?gòu)如下圖所示:網(wǎng)絡(luò)接入?yún)^(qū):大數(shù)據(jù)平臺(tái)通過(guò)雙鏈路連接到廣域網(wǎng)網(wǎng),在邊界出口路由器上架設(shè)Ddos流量清洗設(shè)備,實(shí)現(xiàn)流量檢測(cè)和抵抗拒絕服務(wù)攻擊。雙鏈路連接通過(guò)鏈路負(fù)載均衡器實(shí)現(xiàn)鏈路訪問(wèn)的負(fù)載均衡。安全管理區(qū):安全管理區(qū)部署大數(shù)據(jù)平臺(tái)安全設(shè)備和軟件,保證整個(gè)平臺(tái)部署的系統(tǒng)及數(shù)據(jù)的安全性,主要包括防病毒、IPS、漏洞掃描、堡壘機(jī)、IT綜合管理系統(tǒng)以及統(tǒng)一的安全管理系統(tǒng)、安全設(shè)計(jì)系統(tǒng)和安全監(jiān)控系統(tǒng)等。核心交換區(qū):實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)的核心交換功能,及在核心鏈路上部署入侵防御系統(tǒng)、防火墻和防病毒設(shè)備,保證云平臺(tái)的安全高效的接入功能。云計(jì)算服務(wù)區(qū):在云計(jì)算服務(wù)器部署基礎(chǔ)環(huán)境和及應(yīng)用系統(tǒng)。應(yīng)用系統(tǒng)通過(guò)WEB應(yīng)用防火墻WAF設(shè)備以保證應(yīng)用系統(tǒng)面臨的網(wǎng)頁(yè)篡改、敏感信息泄露、拒絕服務(wù)、蠕蟲(chóng)等網(wǎng)絡(luò)安全危害。云存儲(chǔ)服務(wù)區(qū):部署云存儲(chǔ)平臺(tái)服務(wù)器,并在服務(wù)器上部署安全數(shù)據(jù)庫(kù)集群保證大數(shù)據(jù)的存儲(chǔ)、管理和訪問(wèn)等的安全性。安全數(shù)據(jù)庫(kù)集群通過(guò)存儲(chǔ)加密、三權(quán)分立、強(qiáng)制訪問(wèn)控制等技術(shù)保護(hù)大數(shù)據(jù)的安全性。數(shù)據(jù)流向XX信息資源服務(wù)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流向如上圖所示,其中:前置系統(tǒng)從源系統(tǒng)采集、匯總數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等全部數(shù)據(jù),為數(shù)據(jù)檢查和ETL數(shù)據(jù)處理做好準(zhǔn)備。ETL平臺(tái)從前置系統(tǒng)抽取數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、校驗(yàn)等處理,并將處理后的高價(jià)值密度的海量結(jié)構(gòu)化數(shù)據(jù),直接加載到MPP數(shù)據(jù)庫(kù)集群中,對(duì)于低價(jià)值密度的海量半結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),將其元數(shù)據(jù)或索引放入數(shù)據(jù)倉(cāng)庫(kù)中,將非結(jié)構(gòu)化數(shù)據(jù)放入Hadoop系統(tǒng)中。MPP數(shù)據(jù)庫(kù)完成數(shù)據(jù)倉(cāng)庫(kù)的搭建,存儲(chǔ)管理結(jié)構(gòu)化數(shù)據(jù),以及半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)或索引,并對(duì)所有數(shù)據(jù)進(jìn)行復(fù)雜關(guān)聯(lián)查詢分析。MPP數(shù)據(jù)庫(kù)集群進(jìn)行統(tǒng)計(jì)分析及復(fù)雜查詢的結(jié)果數(shù)據(jù),將數(shù)據(jù)同步到Hadoop系統(tǒng)進(jìn)行備份和非關(guān)系型處理。Hadoop系統(tǒng)承擔(dān)海量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分布式計(jì)算、非關(guān)系型處理,存儲(chǔ)管理各種非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),并保存MPP數(shù)據(jù)庫(kù)集群的備份數(shù)據(jù)等。統(tǒng)一數(shù)據(jù)服務(wù)接口是高性能服務(wù)接口,為上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù)。建設(shè)內(nèi)容根據(jù)項(xiàng)目需求,本期項(xiàng)目需要建設(shè)能夠支撐信息資源服務(wù)平臺(tái),對(duì)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行整合和統(tǒng)一管理的的大數(shù)據(jù)平臺(tái),并通過(guò)對(duì)大數(shù)據(jù)的分析,成功有效地完成決策支持,推動(dòng)各業(yè)務(wù)的有序運(yùn)行。整個(gè)信息資源服務(wù)大數(shù)據(jù)平臺(tái)的建設(shè)內(nèi)容主要分為四部分:前置系統(tǒng)、ETL平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和統(tǒng)一數(shù)據(jù)服務(wù)接口。依據(jù)XX的實(shí)際需求情況,設(shè)計(jì)一個(gè)以大數(shù)據(jù)平臺(tái)為核心,抽取包括數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等在內(nèi)的全部數(shù)據(jù)進(jìn)行整合和統(tǒng)一管理的大數(shù)據(jù)平臺(tái),整個(gè)系統(tǒng)全面支持業(yè)各業(yè)務(wù)實(shí)際應(yīng)用,從數(shù)據(jù)端到最終的信息資源服務(wù)業(yè)務(wù)支撐。前置系統(tǒng)從源數(shù)據(jù)系統(tǒng)采集、匯總數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。所采集的數(shù)據(jù)類(lèi)型分為三類(lèi),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。前置系統(tǒng)將采集的全部數(shù)據(jù)按源系統(tǒng)的數(shù)據(jù)格式臨時(shí)存儲(chǔ),屏蔽對(duì)源系統(tǒng)的干擾,為數(shù)據(jù)檢查和ETL數(shù)據(jù)處理做好準(zhǔn)備。另外,前置系統(tǒng)備份存儲(chǔ)了一定量的源系統(tǒng)的歷史數(shù)據(jù),可實(shí)現(xiàn)數(shù)據(jù)的版本控制和管理,在源系統(tǒng)數(shù)據(jù)已經(jīng)刷新的情況下,即時(shí)二次抽取過(guò)程運(yùn)算出錯(cuò),也可以進(jìn)行回溯。ETL平臺(tái)ETL平臺(tái)通過(guò)進(jìn)行高效數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載等,完成對(duì)數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程。ETL平臺(tái)處理的源數(shù)據(jù)分為三類(lèi),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。為了高效的處理不同類(lèi)型的海量數(shù)據(jù),ETL平臺(tái)可劃分為傳統(tǒng)ETL和云化ETL兩部分。所有數(shù)據(jù)均可通過(guò)ETL平臺(tái)處理后加載到數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)清洗數(shù)據(jù)清洗實(shí)現(xiàn)對(duì)業(yè)務(wù)數(shù)據(jù)的標(biāo)準(zhǔn)化統(tǒng)一,去除重復(fù)記錄、替換處理和去除無(wú)效數(shù)據(jù)等功能。對(duì)不同來(lái)源的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,將不同標(biāo)準(zhǔn)規(guī)范下的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成符合信息資源服務(wù)平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)定義,提供多種數(shù)據(jù)清洗的方式,利用條件過(guò)濾、去除重復(fù)記錄、空值處理和去除無(wú)效數(shù)據(jù)等方式對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換通過(guò)對(duì)信息系統(tǒng)中日志類(lèi)文件的解析,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,最終保存到數(shù)據(jù)倉(cāng)庫(kù)中。日志解析方式根據(jù)用戶對(duì)日志信息的獲取需求及解析原則設(shè)計(jì)定制,憑借數(shù)據(jù)倉(cāng)庫(kù)帶來(lái)的高性能優(yōu)勢(shì),對(duì)解析轉(zhuǎn)化后的日志文件能夠?qū)崿F(xiàn)高效的查詢分析。低價(jià)值密度數(shù)據(jù)向高價(jià)值密度數(shù)據(jù)轉(zhuǎn)換對(duì)于音視頻、圖片這種低價(jià)值密度的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)元數(shù)據(jù)提取特征,將特征數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中,從而實(shí)現(xiàn)向高價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換。元數(shù)據(jù)支持定義、查詢、編輯、發(fā)布四項(xiàng)功能,在元數(shù)據(jù)的作用下,提取出來(lái)的特征信息通過(guò)加載,最終保存到數(shù)據(jù)倉(cāng)庫(kù)中,為實(shí)現(xiàn)高性能的查詢分析提供基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)在前置系統(tǒng)與ETL平臺(tái)對(duì)采集到的大量數(shù)據(jù)進(jìn)行簡(jiǎn)單的梳理與過(guò)濾后,將所有數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行存儲(chǔ)和分析,通過(guò)二次抽取、索引化整合、邏輯關(guān)聯(lián)等方式,實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)資源的關(guān)聯(lián)融合,對(duì)不同來(lái)源、不同類(lèi)型的基礎(chǔ)數(shù)據(jù),按要素提取關(guān)鍵字段,建立要素內(nèi)的關(guān)聯(lián)關(guān)系;同時(shí),實(shí)現(xiàn)專(zhuān)題應(yīng)用數(shù)據(jù)的整合建庫(kù),按照業(yè)務(wù)應(yīng)用具體需要,基于專(zhuān)業(yè)應(yīng)用業(yè)務(wù)模型,通過(guò)二次抽取整合的方法,建立專(zhuān)題應(yīng)用資源庫(kù),滿足專(zhuān)業(yè)應(yīng)用需要。整個(gè)數(shù)據(jù)倉(cāng)庫(kù)是面向?qū)n}的、穩(wěn)定的和隨時(shí)間變化的,分為情報(bào)庫(kù)、信息應(yīng)用庫(kù)、全文索引庫(kù)、配置庫(kù)等幾個(gè)部分,其中在情報(bào)庫(kù)的基礎(chǔ)上構(gòu)建重點(diǎn)人專(zhuān)題、關(guān)聯(lián)專(zhuān)題及其他專(zhuān)題等,在信息應(yīng)用庫(kù)的基礎(chǔ)上構(gòu)建業(yè)務(wù)查詢、統(tǒng)計(jì)專(zhuān)題和其他專(zhuān)題等。作為整個(gè)大數(shù)據(jù)平臺(tái)最核心的存儲(chǔ)分析部分,為上層應(yīng)用提供有力支撐。數(shù)據(jù)倉(cāng)庫(kù)由基礎(chǔ)數(shù)據(jù)層、中心數(shù)據(jù)層、數(shù)據(jù)集市層和數(shù)據(jù)管理平臺(tái)四個(gè)部分構(gòu)成?;A(chǔ)數(shù)據(jù)層基礎(chǔ)數(shù)據(jù)層是一個(gè)輕度匯總的數(shù)據(jù)庫(kù),既能夠支撐事務(wù)型操作,又能支持簡(jiǎn)單的統(tǒng)計(jì)分析操作,并提供統(tǒng)一完整的數(shù)據(jù)視圖和提高系統(tǒng)綜合性能,簡(jiǎn)化了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)傳輸接口和數(shù)據(jù)倉(cāng)庫(kù)管理數(shù)據(jù)的復(fù)雜度。基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)粒度為細(xì)節(jié)級(jí)數(shù)據(jù),存儲(chǔ)從源系統(tǒng)抽取的業(yè)務(wù)基礎(chǔ)數(shù)據(jù),包括數(shù)據(jù)、社會(huì)數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過(guò)清洗、標(biāo)準(zhǔn)化,主要是操作型數(shù)據(jù)和參數(shù)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)層按業(yè)務(wù)主題進(jìn)行歸類(lèi)、整合等?;A(chǔ)數(shù)據(jù)層面向業(yè)務(wù)層面,對(duì)于不同數(shù)據(jù)類(lèi)型的數(shù)據(jù)進(jìn)行事務(wù)性的操作。中心數(shù)據(jù)層中心數(shù)據(jù)層在基礎(chǔ)數(shù)據(jù)的基礎(chǔ)上進(jìn)行加工匯總,形成的指標(biāo)數(shù)據(jù),存儲(chǔ)分析型和加工匯總型數(shù)據(jù)。中心數(shù)據(jù)層的數(shù)據(jù)需求來(lái)源于應(yīng)用的一些共同性指標(biāo),可以是一些中間數(shù)據(jù),這些指標(biāo)的存在,可以大大提高應(yīng)用系統(tǒng)的處理效率。中心數(shù)據(jù)層的數(shù)據(jù)模型按照主題組織,可以采用星型模型或雪花型模型進(jìn)行組織,是一個(gè)面向主題、集成、穩(wěn)定、隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)集市層數(shù)據(jù)集市層根據(jù)應(yīng)用需求進(jìn)行建設(shè),包括固定報(bào)表、即席查詢、OLAP、數(shù)據(jù)挖掘等,存放的數(shù)據(jù)主要為分析型數(shù)據(jù)。數(shù)據(jù)集市層數(shù)據(jù)可從中心數(shù)據(jù)層來(lái),也可以直接由基礎(chǔ)數(shù)據(jù)層來(lái)。數(shù)據(jù)集市層數(shù)據(jù)直接對(duì)外,可直接取用,一般均為滿足需求。當(dāng)然也可以從中心數(shù)據(jù)層或基礎(chǔ)數(shù)據(jù)層取數(shù)據(jù),比如取明細(xì)數(shù)據(jù)。數(shù)據(jù)集市層是以數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)為唯一數(shù)據(jù)源、面向特定分析應(yīng)用、按一定方式重新組織的數(shù)據(jù)集合,是數(shù)據(jù)倉(cāng)庫(kù)的子集。數(shù)據(jù)集市基于數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建,用于不同業(yè)務(wù)部門(mén)的需求和不同分析應(yīng)用的分析數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)集市模型也按主題組織,可以采用星型模型或雪花型模型進(jìn)行組織,是基于企業(yè)的不同部門(mén)、不同人員的分析需求而組織的。數(shù)據(jù)管理平臺(tái)元數(shù)據(jù)管理元數(shù)據(jù)管理實(shí)現(xiàn)對(duì)數(shù)據(jù)描述的標(biāo)準(zhǔn)化,解決系統(tǒng)不同部門(mén)之間對(duì)相同數(shù)據(jù)的定義差別造成的指標(biāo)描述不同的問(wèn)題,使元數(shù)據(jù)成為數(shù)據(jù)整合的基礎(chǔ)和依據(jù)。元數(shù)據(jù)管理主要實(shí)現(xiàn)定義、查詢、編輯、發(fā)布元數(shù)據(jù)四個(gè)功能。主數(shù)據(jù)管理主數(shù)據(jù)管理實(shí)現(xiàn)對(duì)系統(tǒng)主數(shù)據(jù)的管理維護(hù)。主要包括對(duì)主數(shù)據(jù)的增加、刪除、編輯和查詢等主要功能。增刪改功能都同時(shí)支持對(duì)主數(shù)據(jù)的批量操作和逐條操作。查詢支持關(guān)鍵詞檢索、即席查詢等多種查詢方式。數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)標(biāo)準(zhǔn)管理定義全面、合理、準(zhǔn)確的數(shù)據(jù)標(biāo)準(zhǔn),提供高效的數(shù)據(jù)服務(wù)。數(shù)據(jù)定義標(biāo)準(zhǔn)基于全部業(yè)務(wù)的特點(diǎn)及所涉及的數(shù)據(jù),定義數(shù)據(jù)項(xiàng)的命名規(guī)則、數(shù)據(jù)類(lèi)型、數(shù)據(jù)長(zhǎng)度、數(shù)據(jù)值域、數(shù)據(jù)涵義等數(shù)據(jù)定義標(biāo)準(zhǔn),作為數(shù)據(jù)庫(kù)設(shè)計(jì)的參考依據(jù),制定數(shù)據(jù)表規(guī)范、索引規(guī)范、視圖規(guī)范、序列規(guī)范、觸發(fā)器規(guī)范等。數(shù)據(jù)質(zhì)量管理監(jiān)控?cái)?shù)據(jù)質(zhì)量管理監(jiān)控包括數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)質(zhì)量監(jiān)控功能。數(shù)據(jù)質(zhì)量管理實(shí)現(xiàn)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化、統(tǒng)一化管理。數(shù)據(jù)質(zhì)量監(jiān)控功能實(shí)現(xiàn)對(duì)數(shù)據(jù)運(yùn)行情況的監(jiān)控,保證數(shù)據(jù)的真實(shí)性、完備性和自治性,出現(xiàn)異常情況時(shí)報(bào)警。數(shù)據(jù)生命周期管理數(shù)據(jù)生命周期管理提供對(duì)管理信息系統(tǒng)的數(shù)據(jù)在整個(gè)生命周期內(nèi)的管理:從創(chuàng)建和初始存儲(chǔ),到它過(guò)時(shí)被刪除。根據(jù)數(shù)據(jù)價(jià)值隨時(shí)間推移的演化關(guān)系,提供高效、低成本、訪問(wèn)安全便捷的管理架構(gòu)。在效率最高的系統(tǒng)中保存最有價(jià)值的數(shù)據(jù),實(shí)現(xiàn)高效;低價(jià)值的數(shù)據(jù)保留在低成本的系統(tǒng)中,保證數(shù)據(jù)管理的低成本。數(shù)據(jù)服務(wù)監(jiān)控?cái)?shù)據(jù)服務(wù)監(jiān)控管理實(shí)現(xiàn)負(fù)載監(jiān)控、Qos控制、授權(quán)管理和計(jì)費(fèi)管理。負(fù)載監(jiān)控實(shí)現(xiàn)對(duì)本地資源的運(yùn)行狀態(tài)監(jiān)控。包括服務(wù)器負(fù)載監(jiān)控、數(shù)據(jù)庫(kù)負(fù)載監(jiān)控、數(shù)據(jù)資源負(fù)載監(jiān)控等??筛鶕?jù)用戶需求,定制負(fù)載異常時(shí)的自動(dòng)告警功能。Qos控制實(shí)現(xiàn)對(duì)數(shù)據(jù)訪問(wèn)能力的限制,當(dāng)網(wǎng)絡(luò)過(guò)載或擁塞時(shí),QoS能確保重要業(yè)務(wù)量不受延遲或丟棄,同時(shí)保證網(wǎng)絡(luò)的高效運(yùn)行。QoS控制包括分類(lèi)、標(biāo)注和優(yōu)先級(jí)功能。授權(quán)管理實(shí)現(xiàn)對(duì)APP用戶使用權(quán)限的管理。計(jì)費(fèi)管理實(shí)現(xiàn)對(duì)APP用戶使用數(shù)據(jù)資源所產(chǎn)生費(fèi)用的計(jì)量管理。數(shù)據(jù)服務(wù)安全審計(jì)提供數(shù)據(jù)服務(wù)安全審計(jì)功能,幫助管理員對(duì)系統(tǒng)安全進(jìn)行實(shí)時(shí)監(jiān)控,及時(shí)發(fā)現(xiàn)數(shù)據(jù)資源申請(qǐng)和使用的動(dòng)態(tài),發(fā)現(xiàn)應(yīng)用系統(tǒng)入侵和違規(guī)行為,忠實(shí)記錄系統(tǒng)在使用過(guò)程中發(fā)生的一切,提供取證手段。系統(tǒng)安全審計(jì)包括識(shí)別、記錄、存儲(chǔ)、分析與安全相關(guān)行為有關(guān)的信息。數(shù)據(jù)服務(wù)安全審計(jì)與安全審計(jì)平臺(tái)對(duì)接,將審計(jì)日志保送至安全審計(jì)平臺(tái)。統(tǒng)一數(shù)據(jù)服務(wù)接口統(tǒng)一數(shù)據(jù)服務(wù)接口是高性能服務(wù)接口,為上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù),主要包括SQL接口、MapReduce接口、業(yè)務(wù)定向接口、關(guān)聯(lián)查詢接口、資源目錄服務(wù)接口,滿足數(shù)據(jù)查詢、數(shù)據(jù)互操作、數(shù)據(jù)交換、數(shù)據(jù)分析、目錄服務(wù)、綜合查詢、信息比對(duì)等業(yè)務(wù)應(yīng)用的需要。各類(lèi)服務(wù)接口實(shí)現(xiàn)模版化封裝配置,支持?jǐn)?shù)據(jù)規(guī)約的制定、維護(hù)和管理,支持服務(wù)接口授權(quán)的動(dòng)態(tài)化、粒度化管理;支持多種形態(tài)的Web服務(wù)接口;支持?jǐn)?shù)字證書(shū)為憑據(jù),實(shí)現(xiàn)服務(wù)接口調(diào)用人、調(diào)用時(shí)間、發(fā)起IP和操作類(lèi)型、操作字段、具體條件、返回結(jié)果等日志信息的自動(dòng)采集?;窘涌赟QL接口平臺(tái)集成的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和分析型數(shù)據(jù)庫(kù)集群集群符合SQL92標(biāo)準(zhǔn),實(shí)現(xiàn)完備的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理功能,符合并支持CAPI、ODBC、JDBC、ADO.NET等國(guó)際接口規(guī)范,直接執(zhí)行SQL語(yǔ)句,獲取執(zhí)行SQL的結(jié)果集。HQL接口平臺(tái)集成Hadoop生態(tài)組件Hive來(lái)管理非結(jié)構(gòu)數(shù)據(jù)的部分,用戶可用HQL語(yǔ)句來(lái)處理相關(guān)數(shù)據(jù)。方便用戶更簡(jiǎn)便的管理數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。MapReduce/Spark接口平臺(tái)集成Hadoop生態(tài)組件來(lái)管理非結(jié)構(gòu)數(shù)據(jù)的部分,實(shí)現(xiàn)Mapper和Reducer接口來(lái)提供Map和Reduce方法,這是MRJob的核心部分。封裝接口業(yè)務(wù)定向接口平臺(tái)支持針對(duì)特定業(yè)務(wù)對(duì)數(shù)據(jù)的需求封裝專(zhuān)門(mén)的服務(wù)接口,上層應(yīng)用開(kāi)發(fā)可以調(diào)用專(zhuān)門(mén)的業(yè)務(wù)數(shù)據(jù)接口,無(wú)須重新組織構(gòu)建接口,從而加速開(kāi)發(fā)進(jìn)程。關(guān)聯(lián)查詢接口通過(guò)UDF(UserDefinedFunction,用戶自定義函數(shù))擴(kuò)展機(jī)制,分析型數(shù)據(jù)庫(kù)集群可以與Hadoop生態(tài)組件的數(shù)據(jù)接口對(duì)接,分析型數(shù)據(jù)庫(kù)集群內(nèi)部通過(guò)定義若干個(gè)函數(shù)來(lái)調(diào)用驅(qū)動(dòng)MapReduce函數(shù),將查詢命令取得的結(jié)構(gòu)化數(shù)據(jù)結(jié)果集和非結(jié)構(gòu)化數(shù)據(jù)結(jié)果集統(tǒng)一輸出,關(guān)聯(lián)查詢接口實(shí)現(xiàn)了多樣性數(shù)據(jù)關(guān)聯(lián)查詢對(duì)上層應(yīng)用的透明。資源目錄服務(wù)接口對(duì)有效的數(shù)據(jù)資源進(jìn)行編碼并通過(guò)資源目錄服務(wù)接口的形式,發(fā)布資源信息,系統(tǒng)的訪問(wèn)人員根據(jù)不同的權(quán)限通過(guò)目錄服務(wù)接口訪問(wèn)所需的數(shù)據(jù)資源信息。技術(shù)選型MPP數(shù)據(jù)庫(kù)按照XX的數(shù)據(jù)特征和數(shù)據(jù)處理要求,對(duì)于高價(jià)值密度的海量結(jié)構(gòu)化數(shù)據(jù),直接加載到數(shù)據(jù)倉(cāng)庫(kù)中;對(duì)于低價(jià)值密度的海量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),將其元數(shù)據(jù)或索引放入MPP集群中,將非結(jié)構(gòu)化數(shù)據(jù)放入Hadoop系統(tǒng)中。數(shù)據(jù)倉(cāng)庫(kù)要求能夠進(jìn)行海量數(shù)據(jù)的存儲(chǔ)和管理,庫(kù)內(nèi)要進(jìn)行大量的統(tǒng)計(jì)分析和多表關(guān)聯(lián)運(yùn)算,能夠支撐各警種人員的高并發(fā)訪問(wèn)和即席查詢,并提供可靠的服務(wù),這就對(duì)大數(shù)據(jù)處理的性能提出了更高的要求。數(shù)據(jù)倉(cāng)庫(kù)由MPP數(shù)據(jù)庫(kù)來(lái)承擔(dān),將所有數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行存儲(chǔ)和分析,實(shí)現(xiàn)海量結(jié)構(gòu)化數(shù)據(jù)復(fù)雜關(guān)聯(lián)查詢分析,并提供應(yīng)用支撐層的接口。MPP數(shù)據(jù)庫(kù)集群采用SharedNothing(無(wú)共享)+MPP(大規(guī)模并行處理)架構(gòu)以及列存儲(chǔ)、智能索引、自適應(yīng)壓縮、雙向并行、安全組等關(guān)鍵技術(shù),能夠有效提升海量結(jié)構(gòu)化數(shù)據(jù)復(fù)雜關(guān)聯(lián)查詢分析應(yīng)用的性能,提供高可靠的服務(wù)。MPP數(shù)據(jù)庫(kù)重點(diǎn)面向海量數(shù)據(jù)分析型應(yīng)用,采用SharedNothing架構(gòu),通過(guò)列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對(duì)OLAP分析類(lèi)應(yīng)用的支撐,運(yùn)行環(huán)境多為低成本X86商用服務(wù)器,具有高性能、高壓縮、高并發(fā)、高可靠和高可擴(kuò)展等特點(diǎn),在企業(yè)分析類(lèi)應(yīng)用領(lǐng)域獲得極其廣泛的應(yīng)用。這類(lèi)MPP產(chǎn)品可以有效支撐PB級(jí)別的結(jié)構(gòu)化數(shù)據(jù)分析,這是傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)無(wú)法勝任的。對(duì)于企業(yè)新一代的數(shù)據(jù)倉(cāng)庫(kù)和結(jié)構(gòu)化數(shù)據(jù)分析,目前最佳選擇是MPP數(shù)據(jù)庫(kù)。1、高性能。MPP數(shù)據(jù)庫(kù)集群基于MPP大規(guī)模并行處理技術(shù)和列存儲(chǔ)技術(shù),實(shí)現(xiàn)對(duì)海量結(jié)構(gòu)化數(shù)據(jù)的分布式計(jì)算和高效列式存儲(chǔ)。列存儲(chǔ)架構(gòu)保證了分析型數(shù)據(jù)庫(kù)集群在進(jìn)行復(fù)雜關(guān)聯(lián)查詢分析時(shí),只需要將查詢分析所涉及到的數(shù)據(jù)列加載到內(nèi)存中進(jìn)行運(yùn)算處理,從而有效降低I/O,提升數(shù)據(jù)處理性能。智能索引技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)在加載入庫(kù)的同時(shí)建立粗粒度索引,在處理上層應(yīng)用的復(fù)雜關(guān)聯(lián)分析和查詢請(qǐng)求時(shí),可以有效提升查詢和分析性能。雙向并行技術(shù)實(shí)現(xiàn)了自動(dòng)高效的并行SQL執(zhí)行方法,充分利用現(xiàn)代的SMP多核CPU資源并行處理海量數(shù)據(jù)。2、高壓縮。自適應(yīng)壓縮技術(shù)使MPP數(shù)據(jù)庫(kù)集群可以基于不同數(shù)據(jù)列的數(shù)據(jù)類(lèi)型選擇不同的壓縮算法,從而提升數(shù)據(jù)整體壓縮比,實(shí)現(xiàn)海量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。3、高并發(fā)。讀寫(xiě)沒(méi)有互斥,支持簡(jiǎn)化模式的MVCC,支持?jǐn)?shù)據(jù)的邊加載邊查詢,單個(gè)節(jié)點(diǎn)并發(fā)能力大于300用戶。4、高可靠。MPP數(shù)據(jù)庫(kù)集群通過(guò)SafeGroup安全組技術(shù)實(shí)現(xiàn)安全組內(nèi)數(shù)據(jù)冗余機(jī)制來(lái)保證集群的高可用特性,從而能夠?yàn)閺?fù)雜查詢分析業(yè)務(wù)提供持續(xù)穩(wěn)定的數(shù)據(jù)支撐。5、高可擴(kuò)展。MPP數(shù)據(jù)庫(kù)集群的SharedNothing架構(gòu),保證了集群能夠?qū)崿F(xiàn)隨著數(shù)據(jù)規(guī)模而靈活擴(kuò)展,并且集群性能隨節(jié)點(diǎn)數(shù)增加呈線性增長(zhǎng),從而保證在數(shù)據(jù)量快速增長(zhǎng)的情況下,查詢分析性能不會(huì)下降。MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群的技術(shù)實(shí)現(xiàn)特點(diǎn)使得其特別適用于本期項(xiàng)目數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),在強(qiáng)調(diào)關(guān)聯(lián)分析的背景下,同時(shí)面向眾多的業(yè)務(wù)場(chǎng)景和分析任務(wù),以及日益增大的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和即席查詢等應(yīng)用需求。與傳統(tǒng)數(shù)據(jù)庫(kù)相比,MPP數(shù)據(jù)庫(kù)集群在海量數(shù)據(jù)分析處理方面性能提升10-100倍。Hadoop平臺(tái)Hadoop基本介紹采用Hadoop平臺(tái)承擔(dān)海量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分布式計(jì)算、非關(guān)系型處理,并利用Hadoop分布式HDFS、HBase列數(shù)據(jù)庫(kù)來(lái)存放各種非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)。Hadoop平臺(tái)采用開(kāi)源的技術(shù)框架實(shí)現(xiàn),是以分散存儲(chǔ)和并行計(jì)算為基礎(chǔ)的半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)處理平臺(tái),利用低成本的通用計(jì)算設(shè)備(PC)組成大型集群,構(gòu)建具備高性能的海量數(shù)據(jù)分布式計(jì)算服務(wù)平臺(tái)。Hadoop符合GNU相關(guān)規(guī)范,屬于完全開(kāi)放源代碼的體系架構(gòu),不僅屬于完全免費(fèi)模式,而且更是便于二次開(kāi)發(fā)和平臺(tái)定制。半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理的所有工作都在Hadoop集群中完成。使用分布式列數(shù)據(jù)庫(kù)HBase,用來(lái)快速存取訪問(wèn)海量數(shù)據(jù),通過(guò)MapReduce計(jì)算框架,實(shí)現(xiàn)把海量計(jì)算任務(wù)分解到各個(gè)計(jì)算節(jié)點(diǎn)的目標(biāo),從而能夠在較短時(shí)間內(nèi)完成海量數(shù)據(jù)處理、分析任務(wù)。同時(shí)充分整合利用Hadoop平臺(tái)本身的分類(lèi)、聚類(lèi)算法組件、分析挖掘組件,結(jié)合各種數(shù)據(jù)開(kāi)發(fā)封裝滿足各種業(yè)務(wù)需求的通用、專(zhuān)用服務(wù)組件,如行為分析組件、興趣分析組件、關(guān)鍵詞分析組件等。HBase組件HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),它不同于一般的關(guān)系數(shù)據(jù)庫(kù),是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。HBase使用和BigTable非常相同的數(shù)據(jù)模型。用戶存儲(chǔ)數(shù)據(jù)行在一個(gè)表里。一個(gè)數(shù)據(jù)行擁有一個(gè)可選擇的鍵和任意數(shù)量的列,一個(gè)或多個(gè)列組成一個(gè)ColumnFamily,一個(gè)Fmaily下的列位于一個(gè)HFile中,易于緩存數(shù)據(jù)。表是疏松的存儲(chǔ)的,因此用戶可以給行定義各種不同的列。在HBase中數(shù)據(jù)按主鍵排序,同時(shí)表按主鍵劃分為多個(gè)HRegion,如下圖所示(HBase數(shù)據(jù)表結(jié)構(gòu)圖):海量數(shù)據(jù)的存儲(chǔ)架構(gòu)一系列機(jī)架通過(guò)大量的機(jī)架轉(zhuǎn)換與機(jī)架式服務(wù)器連接起來(lái),通常會(huì)用1GB或者2GB的寬帶(通過(guò)雙鏈路聚合上聯(lián)到接入交換機(jī)組)來(lái)支撐連接。如果使用10GB的帶寬將能顯著的提高CPU核心和磁盤(pán)驅(qū)動(dòng)器的密集性。上一層的機(jī)架轉(zhuǎn)換會(huì)10GB*2或10GB*4的更高帶寬連接著許多機(jī)架,形成集群。大量擁有自身磁盤(pán)儲(chǔ)存器、CPU及DRAM的服務(wù)器將成為從節(jié)點(diǎn)。同樣有些機(jī)器將成為主節(jié)點(diǎn),這些擁有少量磁盤(pán)儲(chǔ)存器的機(jī)器卻有著更快的CPU及更大的DRAM。在擴(kuò)展集群時(shí)主要有兩個(gè)方向,一個(gè)是廣度即增加計(jì)算節(jié)點(diǎn),另一個(gè)是深度方向,即擴(kuò)展更多個(gè)磁盤(pán)驅(qū)動(dòng)器和更多的CPU核心,深度上增加后需要考慮將網(wǎng)絡(luò)I/O增加,即萬(wàn)兆網(wǎng)絡(luò)甚至更高網(wǎng)絡(luò)則是一個(gè)重要的考慮因素。傳統(tǒng)數(shù)據(jù)庫(kù)前置系統(tǒng)按源系統(tǒng)的數(shù)據(jù)格式臨時(shí)存儲(chǔ)采集的全部數(shù)據(jù),不對(duì)數(shù)據(jù)進(jìn)行任何的處理,因此,本方案建議前置系統(tǒng)由價(jià)格低廉的傳統(tǒng)數(shù)據(jù)庫(kù)(OLTP數(shù)據(jù)庫(kù))來(lái)承擔(dān)。前置系統(tǒng)從源系統(tǒng)采集數(shù)據(jù)的方式,可以采用橋接、導(dǎo)入/導(dǎo)出、ETL工具等。傳統(tǒng)ETL前置系統(tǒng)中少量或適量的結(jié)構(gòu)化數(shù)據(jù)可利用技術(shù)成熟的傳統(tǒng)ETL進(jìn)行處理,然后加載到數(shù)據(jù)倉(cāng)庫(kù)中。傳統(tǒng)ETL專(zhuān)門(mén)對(duì)多種操作數(shù)據(jù)源的數(shù)據(jù)抽取、轉(zhuǎn)換和維護(hù)過(guò)程進(jìn)行簡(jiǎn)化和自動(dòng)化,并將其輸入數(shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)數(shù)據(jù)庫(kù),技術(shù)成熟、穩(wěn)定可靠。借助傳統(tǒng)ETL工具可以快速的建立起ETL工程,屏蔽復(fù)雜的編碼任務(wù),提高速度,降低難度。云化ETLXX積累了豐富的業(yè)務(wù)數(shù)據(jù),信息源寬泛,數(shù)據(jù)種類(lèi)不斷豐富,數(shù)據(jù)總量急速增長(zhǎng),數(shù)據(jù)資源呈現(xiàn)海量化、異構(gòu)化等特點(diǎn),這些數(shù)據(jù)要求快速完成抽取轉(zhuǎn)換和裝載工作,傳統(tǒng)ETL工具已經(jīng)無(wú)法應(yīng)對(duì)這種挑戰(zhàn),因此需要利用面向大數(shù)據(jù)的云化ETL進(jìn)行處理,然后加載到數(shù)據(jù)倉(cāng)庫(kù)中。云化ETL系統(tǒng)由Hadoop構(gòu)建,即使用Hadoop構(gòu)建信息資源服務(wù)大數(shù)據(jù)平臺(tái)的云化ETL系統(tǒng),處理海量的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。Hadoop對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單查詢效率很高,適合過(guò)濾錯(cuò)誤數(shù)據(jù)、殘缺數(shù)據(jù)和重復(fù)數(shù)據(jù),可以很好地承擔(dān)數(shù)據(jù)清洗任務(wù)。另外,Hadoop存儲(chǔ)容量大,價(jià)格便宜。Hadoop可以使用簡(jiǎn)單、廉價(jià)的硬件構(gòu)筑存儲(chǔ)容量大的集群,具有存儲(chǔ)容量大、低成本等優(yōu)勢(shì)。利用這一優(yōu)勢(shì),可以方便的存儲(chǔ)海量的ETL原始數(shù)據(jù)?;齑罴軜?gòu)融合管理XX大數(shù)據(jù)平臺(tái)對(duì)存儲(chǔ)結(jié)構(gòu)化大數(shù)據(jù)的MPP數(shù)據(jù)庫(kù)集群和存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)的Hadoop系統(tǒng)無(wú)縫融合,對(duì)數(shù)據(jù)資源建立統(tǒng)一視圖,提供統(tǒng)一接口,統(tǒng)一調(diào)度關(guān)系型和非關(guān)系型運(yùn)算,實(shí)現(xiàn)了非關(guān)系型數(shù)據(jù)和關(guān)系型數(shù)據(jù)統(tǒng)一查詢,實(shí)現(xiàn)深度的數(shù)據(jù)價(jià)值挖掘。兩種系統(tǒng)聯(lián)合部署大數(shù)據(jù)平臺(tái)管理系統(tǒng)支持在同一個(gè)節(jié)點(diǎn)上部署兩種系統(tǒng)。這種部署方式使得聯(lián)合查詢無(wú)需進(jìn)行數(shù)據(jù)在節(jié)點(diǎn)間的傳輸,提升查詢效率。如下圖所示:對(duì)數(shù)據(jù)資源建立統(tǒng)一視圖擴(kuò)展MPP數(shù)據(jù)庫(kù)的外部表機(jī)制來(lái)建立數(shù)據(jù)資源統(tǒng)一視圖。提供統(tǒng)一接口,統(tǒng)一調(diào)度關(guān)系型和非關(guān)系型運(yùn)算,簡(jiǎn)化用戶編程維護(hù)擴(kuò)展MPP數(shù)據(jù)庫(kù)的解析和執(zhí)行層,實(shí)現(xiàn)對(duì)Hadoop云計(jì)算平臺(tái)的訪問(wèn)。執(zhí)行流程如下:主要有以下三種執(zhí)行流程:MPP數(shù)據(jù)庫(kù)集群直接訪問(wèn)Hadoop云計(jì)算平臺(tái)MPP數(shù)據(jù)庫(kù)直接進(jìn)行計(jì)算MPP數(shù)據(jù)庫(kù)集群通過(guò)組合執(zhí)行器同時(shí)處理兩種數(shù)據(jù)。目前對(duì)Hadoop平臺(tái)的部分操作是用復(fù)雜的編程方式利用的MapReduce實(shí)現(xiàn)的,難度大,可維護(hù)性差,通用性和效率都很低。在無(wú)縫對(duì)接后,MapReduce操作大部分轉(zhuǎn)化為通過(guò)MPP數(shù)據(jù)庫(kù)集群提供的自定義函數(shù)功能來(lái)實(shí)現(xiàn)。由MPP數(shù)據(jù)庫(kù)來(lái)完成對(duì)云計(jì)算平臺(tái)中的數(shù)據(jù)訪問(wèn)和處理。實(shí)現(xiàn)方式:在MPP數(shù)據(jù)庫(kù)上編寫(xiě)自定義函數(shù),這種方式滿足絕大部分需求;利用C或JAVA等高級(jí)語(yǔ)言編寫(xiě)自定義函數(shù),這種方式面向特殊需求。用戶自定義行業(yè)特征函數(shù)可以在MPP數(shù)據(jù)庫(kù)集群上以UDF形式嵌入用戶的行業(yè)特征函數(shù),或直接調(diào)用Hadoop上的特征函數(shù)。統(tǒng)一數(shù)據(jù)操作接口在大數(shù)據(jù)存儲(chǔ)平臺(tái)內(nèi)部集成了MPP數(shù)據(jù)庫(kù)集群與Hadoop平臺(tái),對(duì)于不同類(lèi)型的數(shù)據(jù)文件存儲(chǔ)方式與位置不同。MPP數(shù)據(jù)庫(kù)集群存儲(chǔ)高價(jià)值結(jié)構(gòu)化數(shù)據(jù),Hadoop存儲(chǔ)低價(jià)值結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以滿足XX多源、異構(gòu)海量數(shù)據(jù)的存儲(chǔ)需求。但是對(duì)于上層的用戶來(lái)說(shuō)并不需要區(qū)分不同的數(shù)據(jù)類(lèi)型。大數(shù)據(jù)存儲(chǔ)平臺(tái)對(duì)上提供統(tǒng)一的數(shù)據(jù)操作接口,包括數(shù)據(jù)加載接口、數(shù)據(jù)訪問(wèn)接口和數(shù)據(jù)服務(wù)封裝接口。數(shù)據(jù)加載接口數(shù)據(jù)加載接口實(shí)現(xiàn)對(duì)MPP數(shù)據(jù)庫(kù)集群和Hadoop平臺(tái)統(tǒng)一的數(shù)據(jù)加載功能。對(duì)于高價(jià)值結(jié)構(gòu)化數(shù)據(jù)直接加載到MPP數(shù)據(jù)庫(kù)中即可。對(duì)于低價(jià)值結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)加載,將原始數(shù)據(jù)加載到Hadoop系統(tǒng),同時(shí)將該數(shù)據(jù)的結(jié)構(gòu)化元數(shù)據(jù)信息和索引信息存儲(chǔ)到MPP數(shù)據(jù)庫(kù)中,將MPP數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)和Hadoop中存儲(chǔ)的數(shù)據(jù)建立關(guān)聯(lián)關(guān)系,以實(shí)現(xiàn)綜合查詢和分析。數(shù)據(jù)訪問(wèn)接口數(shù)據(jù)訪問(wèn)接口實(shí)現(xiàn)對(duì)MPP數(shù)據(jù)庫(kù)集群和Hadoop平臺(tái)統(tǒng)一的數(shù)據(jù)訪問(wèn)功能。大數(shù)據(jù)存儲(chǔ)平臺(tái)統(tǒng)一數(shù)據(jù)訪問(wèn)接口的標(biāo)準(zhǔn)化,對(duì)大數(shù)據(jù)存儲(chǔ)平臺(tái)的使用的易用性有著重要的意義。統(tǒng)一的標(biāo)準(zhǔn)化訪問(wèn)接口,可以更好的實(shí)現(xiàn)訪問(wèn)的透明化,使數(shù)據(jù)實(shí)現(xiàn)異地存儲(chǔ)與訪問(wèn),優(yōu)化網(wǎng)絡(luò)資源,提高大數(shù)據(jù)存儲(chǔ)平臺(tái)的處理能力。大數(shù)據(jù)存儲(chǔ)平臺(tái)對(duì)上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,即大數(shù)據(jù)管理接口(BDMI),該接口通過(guò)面向分布式存儲(chǔ)系統(tǒng)的擴(kuò)展API(分布式文件系統(tǒng)用戶接口)、JDBC、ODBC、ADO.NETC-API、RESTFulAPI、MapReduce等接口形式,對(duì)結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化存儲(chǔ)資源進(jìn)行統(tǒng)一的管理,大數(shù)據(jù)管理接口把三者有機(jī)的融合在一起,屏蔽了由于數(shù)據(jù)形式的多樣性造成的上層應(yīng)用開(kāi)發(fā)的復(fù)雜性,實(shí)現(xiàn)了數(shù)據(jù)訪問(wèn)與存儲(chǔ)位置對(duì)上層應(yīng)用的透明性。數(shù)據(jù)服務(wù)封裝接口大數(shù)據(jù)存儲(chǔ)平臺(tái)存儲(chǔ)海量、多源、異構(gòu)的業(yè)務(wù)數(shù)據(jù),為了給平臺(tái)應(yīng)用提供好方便快捷的數(shù)據(jù)服務(wù),根據(jù)本項(xiàng)目中信息資源服務(wù)應(yīng)用的業(yè)務(wù)需求,在大數(shù)據(jù)存儲(chǔ)平臺(tái)對(duì)存儲(chǔ)在MPP數(shù)據(jù)庫(kù)中的高價(jià)值結(jié)構(gòu)化數(shù)據(jù)和存儲(chǔ)在Hadoop中低價(jià)值結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了數(shù)據(jù)服務(wù)的封裝,能夠以更簡(jiǎn)單、更直接、更迅捷的提供定向數(shù)據(jù)服務(wù)封裝接口,主要包括關(guān)聯(lián)視圖服務(wù)接口、數(shù)據(jù)服務(wù)封裝接口等。關(guān)聯(lián)視圖服務(wù)關(guān)聯(lián)視圖服務(wù)為上層的信息資源服務(wù)大數(shù)據(jù)業(yè)務(wù)應(yīng)用提供關(guān)聯(lián)視圖數(shù)據(jù)服務(wù),為應(yīng)用層建設(shè)提供關(guān)聯(lián)數(shù)據(jù)查詢視圖,并通過(guò)視圖的物化等技術(shù)實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)查詢的預(yù)處理,以提升信息資源服務(wù)業(yè)務(wù)應(yīng)用的數(shù)據(jù)復(fù)雜查詢、綜合關(guān)聯(lián)查詢及周期性固定查詢的處理效率。關(guān)聯(lián)視圖服務(wù)主要包括MPP關(guān)聯(lián)視圖服務(wù)、Hadoop關(guān)聯(lián)視圖服務(wù)和綜合數(shù)據(jù)視圖服務(wù)。MPP關(guān)聯(lián)視圖服務(wù)實(shí)現(xiàn)基于MPP數(shù)據(jù)庫(kù)的高價(jià)值結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)查詢視圖,為智慧吳忠高價(jià)值數(shù)據(jù)應(yīng)用,如大數(shù)據(jù)分析等提供復(fù)雜查詢和關(guān)聯(lián)查詢視圖;Hadoop關(guān)聯(lián)視圖服務(wù)實(shí)現(xiàn)基于Hadoop的低價(jià)值結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)簡(jiǎn)單查詢視圖,為信息資源服務(wù)大數(shù)據(jù)應(yīng)用提供簡(jiǎn)單的業(yè)務(wù)查詢視圖;綜合數(shù)據(jù)視圖服務(wù)實(shí)現(xiàn)基于MPP數(shù)據(jù)庫(kù)和Hadoop的綜合數(shù)據(jù)查詢視圖服務(wù),能夠基于各種類(lèi)型的業(yè)務(wù)數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合的關(guān)聯(lián)查詢并提供視圖服務(wù),為信息資源服務(wù)的大數(shù)據(jù)應(yīng)用提供用戶行為分析、業(yè)務(wù)分析等綜合分析數(shù)據(jù)視圖。數(shù)據(jù)服務(wù)封裝數(shù)據(jù)服務(wù)封裝基于信息資源服務(wù)大數(shù)據(jù)特征和分布以及業(yè)務(wù)系統(tǒng)大數(shù)據(jù)應(yīng)用的業(yè)務(wù)需求對(duì)數(shù)據(jù)操作進(jìn)行了服務(wù)封裝,可按照兩種方式對(duì)數(shù)據(jù)服務(wù)封裝接口進(jìn)行分類(lèi),即面向數(shù)據(jù)的類(lèi)型和來(lái)源以及操作類(lèi)型。從面相數(shù)據(jù)的類(lèi)型和來(lái)源主要分為三類(lèi):MPP數(shù)據(jù)服務(wù)封裝、Hadoop數(shù)據(jù)服務(wù)封裝和綜合數(shù)據(jù)服務(wù)封裝。MPP數(shù)據(jù)服務(wù)封裝主要針對(duì)MPP數(shù)據(jù)庫(kù)的數(shù)據(jù)操作進(jìn)行的服務(wù)封裝,根據(jù)信息資源服務(wù)大數(shù)據(jù)應(yīng)用的需求對(duì)常用的數(shù)據(jù)操作進(jìn)行封裝,以方便上層應(yīng)用的數(shù)據(jù)操作需求,簡(jiǎn)化上層應(yīng)用建設(shè);Hadoop數(shù)據(jù)服務(wù)封裝通過(guò)類(lèi)SQL語(yǔ)言對(duì)Hadoop的MapReduce操作進(jìn)行封裝,使基于Hadoop應(yīng)用的開(kāi)發(fā)更符合程序員的經(jīng)驗(yàn)和使用習(xí)慣,簡(jiǎn)化業(yè)務(wù)系統(tǒng)大數(shù)據(jù)應(yīng)用開(kāi)發(fā)難度;綜合服務(wù)封裝實(shí)現(xiàn)對(duì)常用的基于MPP數(shù)據(jù)庫(kù)系統(tǒng)和Hadoop系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的綜合分析和復(fù)雜查詢的封裝,通過(guò)簡(jiǎn)單的參數(shù)設(shè)置實(shí)現(xiàn)全數(shù)據(jù)的復(fù)雜查詢服務(wù)。從操作類(lèi)型主要分為數(shù)據(jù)增加服務(wù)封裝、數(shù)據(jù)修改服務(wù)封裝、數(shù)據(jù)查詢服務(wù)封裝和數(shù)據(jù)刪除服務(wù)封裝,分別實(shí)現(xiàn)對(duì)MPP數(shù)據(jù)庫(kù)系統(tǒng)和Hadoop系統(tǒng)的數(shù)據(jù)加載、修改、查詢和刪除服務(wù)。云存儲(chǔ)設(shè)計(jì)本項(xiàng)目所設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)主要技術(shù)包括:云存儲(chǔ)體系結(jié)構(gòu),集群分布式事務(wù),集群高可用復(fù)制技術(shù),結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的集中管理與分布式存儲(chǔ),統(tǒng)一加載和查詢接口,支持虛擬化環(huán)境,通用緩存技術(shù),統(tǒng)一用戶視圖、備份和恢復(fù)技術(shù)等,這些技術(shù)有效地保障了集群的高性能、高可用性等。針對(duì)整個(gè)XX海量數(shù)據(jù)的特點(diǎn),選取的云存儲(chǔ)架構(gòu),具有構(gòu)建成本低、性能高效可靠、使用簡(jiǎn)單方便的特點(diǎn)。是未來(lái)的發(fā)展趨勢(shì)。支持云計(jì)算的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)由MPP數(shù)據(jù)庫(kù)集群系統(tǒng)和分布式文件系統(tǒng)構(gòu)成。設(shè)計(jì)采用無(wú)共享(SharedNothing)架構(gòu)和大規(guī)模并行處理技術(shù)(MPP)的數(shù)據(jù)庫(kù)集群管理系統(tǒng)。系統(tǒng)可支持TB到PB級(jí)別結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)查詢,對(duì)于大數(shù)據(jù)量的處理具有高安全、高性能、高可用的特點(diǎn)。設(shè)計(jì)使用的分布式文件系統(tǒng)FDFS(DataEngineDistributedFileSystem)由本地分布式文件系統(tǒng)與云存儲(chǔ)管理層組成,提供對(duì)業(yè)務(wù)透明的分布式文件存儲(chǔ)功能。云存儲(chǔ)體系通過(guò)集成所涉及數(shù)據(jù)庫(kù)集群和分布式文件系統(tǒng)各自的優(yōu)勢(shì),實(shí)現(xiàn)海量多源異構(gòu)數(shù)據(jù)的存儲(chǔ),并有效保障數(shù)據(jù)的安全與高性能檢索。結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在安全數(shù)據(jù)庫(kù)集群系統(tǒng)中;非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中,提取的元數(shù)據(jù)信息存儲(chǔ)在數(shù)據(jù)庫(kù)集群系統(tǒng),并與存儲(chǔ)的數(shù)據(jù)關(guān)聯(lián)。從而實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理、高效檢索。云存儲(chǔ)體系為上層應(yīng)用提供統(tǒng)一安全加載訪問(wèn)接口,包括統(tǒng)一安全加載接口、面向分布式存儲(chǔ)的擴(kuò)展API、安全標(biāo)準(zhǔn)接口、RESTFulAPI。云存儲(chǔ)體系通過(guò)有機(jī)融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)訪問(wèn)與存儲(chǔ)位置的透明,支撐上層大規(guī)模數(shù)據(jù)分析應(yīng)用的并發(fā)復(fù)雜查詢,對(duì)海量網(wǎng)絡(luò)信息安全數(shù)據(jù)應(yīng)用提供高速、穩(wěn)定、可靠的支撐。設(shè)計(jì)中數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)內(nèi)部集成了數(shù)據(jù)庫(kù)集群管理模塊與分布式文件管理模塊,對(duì)于不同類(lèi)型的數(shù)據(jù)文件提供統(tǒng)一的存儲(chǔ)管理。數(shù)據(jù)庫(kù)集群存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)上。以滿足海量數(shù)據(jù)的存儲(chǔ)需求。但是對(duì)于上層的用戶來(lái)說(shuō)并不需要區(qū)分不同的數(shù)據(jù)類(lèi)型。數(shù)據(jù)集成信息資源服務(wù)大數(shù)據(jù)平臺(tái)對(duì)業(yè)務(wù)系統(tǒng)、其他部門(mén)的數(shù)據(jù)進(jìn)行整合主要采用數(shù)據(jù)抽取和數(shù)據(jù)交換兩種形式。對(duì)于內(nèi)部其他相關(guān)信息化系統(tǒng)的數(shù)據(jù)整合,通過(guò)數(shù)據(jù)抽取工具從其他相關(guān)信息化系統(tǒng)抽取數(shù)據(jù),加載到數(shù)據(jù)平臺(tái)不同的數(shù)據(jù)存儲(chǔ)管理系統(tǒng)中。對(duì)于來(lái)自社保、民政、工商、衛(wèi)計(jì)及其他部門(mén)的社會(huì)數(shù)據(jù),數(shù)據(jù)平臺(tái)通過(guò)數(shù)據(jù)交換共享系統(tǒng)實(shí)現(xiàn)對(duì)這些外部數(shù)據(jù)的獲取,然后加載到數(shù)據(jù)平臺(tái)不同的數(shù)據(jù)存儲(chǔ)管理系統(tǒng)中。信息資源服務(wù)大數(shù)據(jù)平臺(tái)庫(kù)間數(shù)據(jù)交換涉及到MPP數(shù)據(jù)庫(kù)集群與傳統(tǒng)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)交換、MPP數(shù)據(jù)庫(kù)集群與Hadoop系統(tǒng)之間的數(shù)據(jù)交換、傳統(tǒng)數(shù)據(jù)庫(kù)與Hadoop系統(tǒng)之間的數(shù)據(jù)交換。MPP數(shù)據(jù)庫(kù)集群與傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)交換信息資源服務(wù)大數(shù)據(jù)平臺(tái)依靠MPP數(shù)據(jù)庫(kù)集群構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支撐復(fù)雜查詢、統(tǒng)計(jì)和分析等OLAP分析應(yīng)用,通過(guò)傳統(tǒng)ETL/云化ETL從傳統(tǒng)數(shù)據(jù)庫(kù)抽取基礎(chǔ)數(shù)據(jù),加載到MPP數(shù)據(jù)庫(kù)集群中。另一方面,數(shù)據(jù)平臺(tái)統(tǒng)計(jì)分析應(yīng)用產(chǎn)生的統(tǒng)計(jì)分析和查詢結(jié)果數(shù)據(jù)存儲(chǔ)在MPP數(shù)據(jù)庫(kù)集群中,可通過(guò)數(shù)據(jù)導(dǎo)出將這些結(jié)果數(shù)據(jù)反饋傳送給傳統(tǒng)數(shù)據(jù)庫(kù)。MPP數(shù)據(jù)庫(kù)集群與Hadoop系統(tǒng)數(shù)據(jù)交換信息資源服務(wù)平臺(tái)通過(guò)Hadoop系統(tǒng)對(duì)海量低價(jià)值密度的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行計(jì)算處理提取特征數(shù)據(jù),MPP數(shù)據(jù)庫(kù)集群采集和存儲(chǔ)其特征數(shù)據(jù),用于統(tǒng)計(jì)分析處理。另一方面,MPP數(shù)據(jù)庫(kù)集群進(jìn)行統(tǒng)計(jì)分析及復(fù)雜查詢的結(jié)果數(shù)據(jù),將數(shù)據(jù)同步到Hadoop系統(tǒng)進(jìn)行備份和非關(guān)系型處理。圖MPP數(shù)據(jù)庫(kù)與Hadoop分工數(shù)據(jù)流向圖上圖是MPP數(shù)據(jù)庫(kù)與Hadoop分工數(shù)據(jù)流向圖,Hadoop承擔(dān)數(shù)據(jù)清洗,轉(zhuǎn)換以及保存MPP數(shù)據(jù)庫(kù)集群的備份數(shù)據(jù)等功能。Hadoop對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單查詢效率很高,適合過(guò)濾錯(cuò)誤數(shù)據(jù)、殘缺數(shù)據(jù)和重復(fù)數(shù)據(jù),可以很好地承擔(dān)數(shù)據(jù)清洗任務(wù)。而MPP數(shù)據(jù)庫(kù)集群使Hadoop具有優(yōu)秀的擴(kuò)展能力,為元數(shù)據(jù)、清洗后數(shù)據(jù)、備份數(shù)據(jù)以及元數(shù)據(jù)等類(lèi)型的海量數(shù)據(jù)存儲(chǔ)提供了保障。MPP數(shù)據(jù)庫(kù)集群與Hadoop系統(tǒng)分工合作,Hadoop用于ETL系統(tǒng),MPP數(shù)據(jù)庫(kù)集群負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)的匯總、建模以及各種運(yùn)算,其分工如下:1、Hadoop負(fù)責(zé)底層的ETL系統(tǒng),即使用Hadoop構(gòu)建信息資源服務(wù)數(shù)據(jù)平臺(tái)的云ETL系統(tǒng)。整個(gè)Hadoop平臺(tái),負(fù)責(zé)將接口文件從遠(yuǎn)程主機(jī)進(jìn)行讀取,并放到Hadoop集群中,利用hive進(jìn)行建表,將接口文件形成hive原始表。這一步就是ETL的清洗過(guò)程。第二步對(duì)這些原始表進(jìn)行簡(jiǎn)單關(guān)聯(lián),如進(jìn)行編碼的轉(zhuǎn)換,以及關(guān)聯(lián)用戶資料后獲取某些字段,以完成ETL系統(tǒng)的轉(zhuǎn)換步驟。通過(guò)這兩個(gè)步驟,形成存放在hive中的ETL結(jié)果表。2、MPP數(shù)據(jù)庫(kù)使用加載機(jī),將Hadoop中的HDFS文件系統(tǒng),掛載到加載機(jī)上,以達(dá)到直接對(duì)hive的表文件直接讀取的目的。通過(guò)MPP數(shù)據(jù)庫(kù)的加載服務(wù),直接讀取HDFS上存儲(chǔ)的ETL結(jié)果表,將這些結(jié)果表以文件的形式加載到MPP數(shù)據(jù)庫(kù)集群中。3、MPP數(shù)據(jù)庫(kù)集群,承擔(dān)整個(gè)核心數(shù)據(jù)倉(cāng)庫(kù)的角色。MPP數(shù)據(jù)庫(kù)采用完全并行的MPP+SharedNothing的分布式扁平架構(gòu),沒(méi)有Master節(jié)點(diǎn),不會(huì)產(chǎn)生數(shù)據(jù)訪問(wèn)熱點(diǎn)和性能瓶頸;數(shù)據(jù)存儲(chǔ)采用先進(jìn)的列存儲(chǔ)架構(gòu),能夠?qū)崿F(xiàn)最高1:20的數(shù)據(jù)壓縮,幫助用戶最大程度的節(jié)省硬件存儲(chǔ)投資和后續(xù)的電能消耗;可支撐100多個(gè)集群節(jié)點(diǎn),采用了安全組技術(shù)保障了整個(gè)集群的高可用(HA)部署,實(shí)現(xiàn)PB級(jí)海量數(shù)據(jù)存儲(chǔ)和管理。MPP數(shù)據(jù)庫(kù)還實(shí)現(xiàn)了高性能的分布式數(shù)據(jù)處理,實(shí)現(xiàn)了大并發(fā)和大規(guī)模數(shù)據(jù)復(fù)雜統(tǒng)計(jì)和即席查詢的秒級(jí)響應(yīng),具有在線擴(kuò)展功能,能夠在不停服務(wù)情況下,系統(tǒng)進(jìn)行動(dòng)態(tài)擴(kuò)展,為上層多維分析、復(fù)雜統(tǒng)計(jì)分析等分析應(yīng)用提供完善可靠的數(shù)據(jù)支撐。MPP數(shù)據(jù)庫(kù)與Hadoop分工的原因:1、Hadoop存儲(chǔ)容量大,價(jià)格便宜。Hadoop可以使用簡(jiǎn)單、廉價(jià)的硬件構(gòu)筑存儲(chǔ)容量大的集群,具有存儲(chǔ)容量大、價(jià)格便宜等優(yōu)勢(shì)。利用這一優(yōu)勢(shì),可以方便的存儲(chǔ)海量的ETL原始數(shù)據(jù)。2、Hadoop對(duì)簡(jiǎn)單的關(guān)聯(lián)操作具有性能優(yōu)勢(shì)。Hadoop在單表操作或者是簡(jiǎn)單關(guān)聯(lián)時(shí),可以利用其分布式文件操作的優(yōu)勢(shì),高效的發(fā)揮其性能優(yōu)勢(shì)。3、Hadoop在處理復(fù)雜SQL運(yùn)算時(shí)不具有性能優(yōu)勢(shì),且語(yǔ)句的編寫(xiě)和優(yōu)化較為復(fù)雜。Hadoop在處理復(fù)雜的SQL語(yǔ)句時(shí),在編寫(xiě)起來(lái)較為復(fù)雜。因?yàn)閔ive語(yǔ)句并非是標(biāo)準(zhǔn)的SQL語(yǔ)句,有眾多的語(yǔ)法不支持,有時(shí)一個(gè)SQL語(yǔ)句簡(jiǎn)單的關(guān)聯(lián)甚至需要改寫(xiě)為笛卡爾積才可以正確實(shí)現(xiàn)其邏輯。而且在復(fù)雜語(yǔ)句運(yùn)算時(shí),已經(jīng)不能夠僅轉(zhuǎn)換為文件操作,性能不具有優(yōu)勢(shì)。并且對(duì)于hive的語(yǔ)句進(jìn)行優(yōu)化,需要非常資深的經(jīng)驗(yàn)才可以完成,一般技術(shù)人員難以編碼。5、MPP數(shù)據(jù)庫(kù)語(yǔ)句編寫(xiě)簡(jiǎn)單MPP數(shù)據(jù)庫(kù)的語(yǔ)法符合SQL92標(biāo)準(zhǔn),有非常良好的使用基礎(chǔ),且對(duì)Oracle、DB2等數(shù)據(jù)庫(kù)的語(yǔ)句兼容非常好,差異率不超過(guò)10%。在開(kāi)發(fā)應(yīng)用時(shí),可以快速的部署和實(shí)施。6、MPP數(shù)據(jù)庫(kù)集群并行性好、產(chǎn)品成熟MPP數(shù)據(jù)庫(kù)集群的資源管理非常優(yōu)秀,并行處理的時(shí)候可以動(dòng)態(tài)的分配資源。而且?guī)缀醪恍枰_(kāi)發(fā)人員過(guò)多的參與數(shù)據(jù)庫(kù)的運(yùn)行,完全可以當(dāng)做一個(gè)成熟的產(chǎn)品使用。MPP數(shù)據(jù)庫(kù)集群可以完整的支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的應(yīng)用,適合高復(fù)雜度、大規(guī)模數(shù)據(jù)量的運(yùn)算。且基于其列存、分布式等先天優(yōu)勢(shì),具有很高的執(zhí)行效率。傳統(tǒng)數(shù)據(jù)庫(kù)與Hadoop系統(tǒng)數(shù)據(jù)交換大數(shù)據(jù)平臺(tái)的Hadoop系統(tǒng)用于存儲(chǔ)海量的低價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)平臺(tái)將根據(jù)上層業(yè)務(wù)應(yīng)用的需要,通過(guò)數(shù)據(jù)抽取工具將存儲(chǔ)在Hadoop系統(tǒng)中的部分結(jié)構(gòu)化數(shù)據(jù)抽取到傳統(tǒng)數(shù)據(jù)庫(kù)中,用于滿足上層業(yè)務(wù)系統(tǒng)對(duì)原始數(shù)據(jù)進(jìn)行處理的需要。另一方面,大數(shù)據(jù)平臺(tái)通過(guò)數(shù)據(jù)抽取工具將傳統(tǒng)數(shù)據(jù)庫(kù)中的歷史數(shù)據(jù)抽取到Hadoop系統(tǒng)中進(jìn)行備份。產(chǎn)品選型1、MPP數(shù)據(jù)庫(kù)——H3CDataEngineMPPCluster華三通信大規(guī)模分布式并行處理分析型數(shù)據(jù)庫(kù)集群系統(tǒng),簡(jiǎn)稱:H3CDataEngineMPPCluster,它是華三通信公司面向海量數(shù)據(jù)分析型應(yīng)用領(lǐng)域,以獨(dú)特的列存儲(chǔ),壓縮和智能索引技術(shù)為基礎(chǔ),自主研發(fā)的一款極高性能的數(shù)據(jù)庫(kù)產(chǎn)品。H3CDataEngineMPPCluster具備高性能、高可用、高擴(kuò)展特性,可以為超大規(guī)模數(shù)據(jù)管理提供高性價(jià)比的數(shù)據(jù)庫(kù)平臺(tái),符合本項(xiàng)目建設(shè)需求。H3CDataEngineMPPCluster采用完全并行的MPP+SharedNothing架構(gòu),具有低成本、海量存儲(chǔ)、高效加載、高擴(kuò)展、高可用、高并發(fā)等優(yōu)勢(shì)。H3CDataEngineMPPCluster按照列的方式進(jìn)行物理存儲(chǔ),信息查詢時(shí)不讀取無(wú)效列數(shù)據(jù),降低I/O開(kāi)銷(xiāo),提升系統(tǒng)查詢統(tǒng)計(jì)性能。H3CDataEngineMPPCluster擁有SQL接內(nèi)部集成了各種核心模塊,支撐著對(duì)海量數(shù)據(jù)信息的高效加載和查詢。有SQL接口、SQL分析優(yōu)化器/執(zhí)行器、粗粒度多維智能索引、緩存管理和壓縮/解壓縮技術(shù)。其中自適應(yīng)壓縮,能夠按照數(shù)據(jù)類(lèi)型和數(shù)據(jù)分布規(guī)律自動(dòng)選擇最優(yōu)壓縮算法,壓縮比可達(dá)到1:5至1:20,節(jié)省存儲(chǔ)空間,降低I/O,提升產(chǎn)品性能;粗粒度多維智能索引,在數(shù)據(jù)加載時(shí)自動(dòng)建立,索引信息中包含統(tǒng)計(jì)信息,實(shí)現(xiàn)數(shù)據(jù)查詢時(shí)不解包直接獲得統(tǒng)計(jì)值,進(jìn)一步降低I/O,實(shí)現(xiàn)復(fù)雜查詢的快速響應(yīng)。H3CDataEngineMPPCluster通過(guò)標(biāo)準(zhǔn)的CAPI、JDBC、ODBC、ADO.NET接口為上層應(yīng)用提供服務(wù)。產(chǎn)品包含多種圖形化管理工具,提供對(duì)集群環(huán)境的可視化監(jiān)控和管理。數(shù)據(jù)加載工具能夠?qū)崿F(xiàn)2TB/小時(shí)的加載速度。2、Hadoop系統(tǒng)及云化ETL——H3CDataEngineHDPDataEngineHDP:DataEngine大數(shù)據(jù)計(jì)算平臺(tái),建立在開(kāi)源的Hadoop之上的大數(shù)據(jù)處理平臺(tái)。統(tǒng)一管理平臺(tái)、海量數(shù)據(jù)處理、流程標(biāo)準(zhǔn)化、管理集中化。DataEngineHDP-NoSql:DataEngine大數(shù)據(jù)存儲(chǔ)平臺(tái),分布式Key/Value數(shù)據(jù)庫(kù),基于Hbase技術(shù),具有高性能、高壓縮比的數(shù)據(jù)存儲(chǔ)與查詢能力。3、傳統(tǒng)數(shù)據(jù)庫(kù)——Oracle、Mysql、GBase8tGBase8t是國(guó)內(nèi)首款事務(wù)型通用數(shù)據(jù)庫(kù),有南大通用研發(fā)完成。GBase8t體現(xiàn)出的優(yōu)勢(shì):(1)穩(wěn)定高效:成熟、穩(wěn)定、高性能;(2)自主可控:知識(shí)產(chǎn)權(quán)自主可控、能力自主可控、發(fā)展自主可控、滿足國(guó)產(chǎn)資質(zhì);(3)國(guó)產(chǎn)高端:高端產(chǎn)品、高端應(yīng)用、國(guó)產(chǎn)化替代。Mysql為開(kāi)源數(shù)據(jù)庫(kù),使用簡(jiǎn)便,成本較低。4、傳統(tǒng)ETL目前主流的ETL工具有:Informatica、Datastage、flume、微軟DTS、Beeload、Kettle等等??筛鶕?jù)實(shí)際源數(shù)據(jù)來(lái)合理選擇ETL工具。云化ETL工具已經(jīng)集成在H3CDataEngineHDP平臺(tái)之中。配置清單軟件配置清單本期平臺(tái)建設(shè)所需的全部軟件配置清單如下:序號(hào)名稱推薦規(guī)格型號(hào)數(shù)量單位備注1MPP數(shù)據(jù)庫(kù)華三通信H3CDataEngineMPPCluster1套2前置系統(tǒng)待定1套3Hadoop系統(tǒng)華三通信H3CDataEngineHDP1套4傳統(tǒng)ETL待定1套5云化ETL華三通信H3CDataEngineHDP-ETL1套6主機(jī)防病毒-1套可選7安全審計(jì)系統(tǒng)-1套可選8安全管理平臺(tái)-1套可選9IT綜合管理系統(tǒng)-1套可選硬件配置清單本期平臺(tái)建設(shè)所需的全部硬件配置清單如下:序號(hào)名稱數(shù)量單位備注1服務(wù)器臺(tái)2交換機(jī)臺(tái)3核心路由器臺(tái)4核心交換機(jī)臺(tái)5Ddos設(shè)備臺(tái)套6負(fù)載均衡設(shè)備臺(tái)套7入侵防御系統(tǒng)臺(tái)套8防火墻臺(tái)套9防病毒網(wǎng)關(guān)臺(tái)套10WAF臺(tái)套11IPS臺(tái)套12漏洞掃描系統(tǒng)臺(tái)套13前置機(jī)可選臺(tái)套根據(jù)用戶實(shí)際隔離需求可以根據(jù)預(yù)算和客戶需求來(lái)引導(dǎo)是否要建一個(gè)大的數(shù)據(jù)交換平臺(tái)。主要用戶各委辦局之間可以根據(jù)預(yù)算和客戶需求來(lái)引導(dǎo)是否要建一個(gè)大的數(shù)據(jù)交換平臺(tái)。主要用戶各委辦局之間MPP數(shù)據(jù)庫(kù)配置部署配置需求數(shù)據(jù)量:XXTB(根據(jù)經(jīng)驗(yàn)數(shù)據(jù)量業(yè)務(wù)需求)節(jié)點(diǎn)磁盤(pán)容量:10*2TB系統(tǒng)配置推薦H3CDataEngineMPPCluster計(jì)算節(jié)點(diǎn)共XX臺(tái),詳細(xì)配置如下:節(jié)點(diǎn)配置詳細(xì)信息計(jì)算節(jié)點(diǎn)數(shù)量XXCPU4*4core(Intel(R)Xeon(R)2.0GHz)內(nèi)存64GB硬盤(pán)10*2TBSAS盤(pán),7200轉(zhuǎn)網(wǎng)絡(luò)萬(wàn)兆加載機(jī)數(shù)量2(可以選擇計(jì)算節(jié)點(diǎn)作為加載機(jī))CPU4*4core(Intel(R)Xeon(R)2.0GHz)內(nèi)存64GB硬盤(pán)10*2TBSAS盤(pán),7200轉(zhuǎn)網(wǎng)絡(luò)萬(wàn)兆系統(tǒng)部署Hadoop集群配置部署配置需求數(shù)據(jù)量:XXTB(根據(jù)經(jīng)驗(yàn)數(shù)據(jù)量業(yè)務(wù)需求)節(jié)點(diǎn)磁盤(pán)容量:10*2TB系統(tǒng)配置推薦H3CDataEngineHDP計(jì)算節(jié)點(diǎn)共XX臺(tái),詳細(xì)配置如下:節(jié)點(diǎn)配置詳細(xì)信息計(jì)算節(jié)點(diǎn)數(shù)量XXCPU4*4core(Intel(R)Xeon(R)2.0GHz)內(nèi)存128GB硬盤(pán)10*2TBSAS盤(pán),10000轉(zhuǎn)網(wǎng)絡(luò)萬(wàn)兆系統(tǒng)部署遺留遺留方案優(yōu)勢(shì)特點(diǎn)混搭架構(gòu)的大數(shù)據(jù)平臺(tái)在大數(shù)據(jù)存儲(chǔ)平臺(tái)內(nèi)部集成了MPP數(shù)據(jù)庫(kù)集群與Hadoop平臺(tái),MPP數(shù)據(jù)庫(kù)集群存儲(chǔ)高價(jià)值結(jié)構(gòu)化數(shù)據(jù),Hadoop存儲(chǔ)低價(jià)值結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),優(yōu)勢(shì)互補(bǔ),使業(yè)務(wù)得到最優(yōu)的支撐。MPP數(shù)據(jù)庫(kù)集群憑借高性能的分布式計(jì)算,更適合結(jié)構(gòu)化數(shù)據(jù)分析類(lèi)應(yīng)用場(chǎng)景的列存儲(chǔ)、智能索引、自適應(yīng)壓縮、并行計(jì)算等技術(shù)特性,能夠充分滿足基于結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜的關(guān)聯(lián)分析查詢需求,基于MPP數(shù)據(jù)庫(kù)集群可以建設(shè)高性能的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),實(shí)現(xiàn)不同專(zhuān)題的數(shù)據(jù)庫(kù)建設(shè)。Hadoop系統(tǒng)憑借大規(guī)模分布式存儲(chǔ)、計(jì)算能力和高彈性擴(kuò)展能力,能夠存儲(chǔ)海量低價(jià)值密度數(shù)據(jù),并進(jìn)行高效的內(nèi)容分類(lèi)檢索,以滿足偵查、案件分析等業(yè)務(wù)中大量的分類(lèi)檢索需求。數(shù)據(jù)資源統(tǒng)一管理、高度共享通過(guò)云計(jì)算、大數(shù)據(jù)技術(shù),實(shí)現(xiàn)對(duì)各類(lèi)數(shù)據(jù)源各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化跨域數(shù)據(jù)的統(tǒng)一管理和高度共享,面對(duì)不斷增長(zhǎng)的數(shù)據(jù)規(guī)模和不斷深化的工作,大數(shù)據(jù)平臺(tái)幫助XX實(shí)現(xiàn)一套平臺(tái)應(yīng)對(duì)各類(lèi)數(shù)據(jù),系統(tǒng)采用模塊化分層設(shè)計(jì),幫助XX以最低的工作復(fù)雜度實(shí)現(xiàn)最高性能的大數(shù)據(jù)處理效能。海量數(shù)據(jù)低成本存儲(chǔ)管理通過(guò)分布式計(jì)算和存儲(chǔ)以及Hadoop+MPP的混搭結(jié)構(gòu),有效支撐海量數(shù)據(jù)。基于MPP數(shù)據(jù)庫(kù)集群的大數(shù)據(jù)綜合應(yīng)用平臺(tái),數(shù)據(jù)存儲(chǔ)采用先進(jìn)的列存儲(chǔ)架構(gòu),能夠?qū)崿F(xiàn)最高1:20的數(shù)據(jù)壓縮,幫助用戶最大程度的節(jié)省硬件存儲(chǔ)投資和后續(xù)的電能消耗。MPP數(shù)據(jù)庫(kù)集群基于低成本高性能的X86商用服務(wù)器構(gòu)建,運(yùn)行于開(kāi)源Linux操作系統(tǒng)。相比基于小型機(jī)+磁陣的解決方案,大數(shù)據(jù)存儲(chǔ)管理硬件成本大幅降低。智能索引自動(dòng)建立,數(shù)據(jù)庫(kù)維護(hù)簡(jiǎn)單,降低后期DBA數(shù)據(jù)庫(kù)維護(hù)的難度和成本。高可用、動(dòng)態(tài)擴(kuò)展通過(guò)合理配置能夠有效實(shí)現(xiàn)均衡負(fù)載,充分發(fā)揮每一個(gè)節(jié)點(diǎn)的計(jì)算能力,提升整個(gè)系統(tǒng)的協(xié)同效率;基于安全組的備份策略,能夠保證節(jié)點(diǎn)在發(fā)生故障時(shí),不影響系統(tǒng)對(duì)外提供服務(wù)的連續(xù)性。MPP數(shù)據(jù)庫(kù)集群支持上百個(gè)計(jì)算節(jié)點(diǎn),能夠有效處理PB級(jí)數(shù)據(jù)?;贛PP+SharedNothing的分布式數(shù)據(jù)處理架構(gòu),面對(duì)數(shù)據(jù)規(guī)模不斷擴(kuò)增時(shí)可通過(guò)平滑擴(kuò)容實(shí)現(xiàn)容量和性能的提升。整個(gè)過(guò)程高度自動(dòng)化,無(wú)須停止集群服務(wù),保證服務(wù)連貫性。深度精細(xì)化的業(yè)務(wù)數(shù)據(jù)支撐有效管理和整合海量數(shù)據(jù),實(shí)現(xiàn)對(duì)各類(lèi)數(shù)據(jù)的多維深入分析;高效的數(shù)據(jù)分析能力,幫助客戶應(yīng)對(duì)復(fù)雜性強(qiáng)、效率及實(shí)時(shí)性要求高的場(chǎng)景;高效的運(yùn)算性能和海量數(shù)據(jù)的快速查詢響應(yīng)能力,以及100%的查詢召回率的全文索引支持,為上層多維分析、即席查詢、復(fù)雜統(tǒng)計(jì)分析等分析應(yīng)用提供完善可靠的數(shù)據(jù)支撐,幫助用戶挖掘數(shù)據(jù)潛在價(jià)值,輔助科學(xué)決策。附錄一:H3CDataEngineMPPCluster產(chǎn)品簡(jiǎn)介華三通信大規(guī)模分布式并行處理數(shù)據(jù)庫(kù)集群系統(tǒng),簡(jiǎn)稱:H3CDataEngineMPPCluster,它是華三通信公司面向海量數(shù)據(jù)分析型應(yīng)用領(lǐng)域,以獨(dú)特的列存
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年小學(xué)英語(yǔ)畢業(yè)考試模擬試卷:英語(yǔ)跨文化交際中的禮貌用語(yǔ)解析
- 考勤年度工作總結(jié)
- 2025年消防執(zhí)業(yè)資格考試題庫(kù):消防應(yīng)急通信保障通信保障體系試題
- 2025年小學(xué)英語(yǔ)畢業(yè)考試模擬卷:英語(yǔ)跨文化交際寫(xiě)作技巧試題
- 2025年注冊(cè)建筑師建筑繪圖與表達(dá)技巧試題試卷
- 2025年法語(yǔ)DELFB2水平測(cè)試卷(聽(tīng)力與口語(yǔ)訓(xùn)練與技巧)
- 脊柱微創(chuàng)科普課件
- 2025年消防執(zhí)業(yè)資格考試題庫(kù)基礎(chǔ)知識(shí)重點(diǎn)難點(diǎn)突破試卷集錦
- 2025年醫(yī)保信息化平臺(tái)操作培訓(xùn)考試題庫(kù)及答案集
- 2025年網(wǎng)絡(luò)工程師職業(yè)技能測(cè)試卷-網(wǎng)絡(luò)安全攻防實(shí)戰(zhàn)演練
- 金氏五行升降中醫(yī)方集
- 線面平行判定定理
- 輪扣式模板支撐架專(zhuān)項(xiàng)施工方案
- 甘肅省審圖機(jī)構(gòu)
- 挖掘機(jī)部件英語(yǔ)對(duì)照表
- 辦公室口號(hào)大全
- 辦公建筑設(shè)計(jì)規(guī)范2019
- 船舶建造質(zhì)量標(biāo)準(zhǔn)(輪機(jī)部分)
- 吉林省公務(wù)員(參照管理人員)調(diào)任(轉(zhuǎn)任)審批表
- 接地網(wǎng)測(cè)試報(bào)告.docx
- 小學(xué)科學(xué)期末復(fù)習(xí)經(jīng)驗(yàn)交流
評(píng)論
0/150
提交評(píng)論