企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案_第1頁(yè)
企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案_第2頁(yè)
企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案_第3頁(yè)
企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案_第4頁(yè)
企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、PAGE PAGE 59企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)方案目錄 TOC o 1-3 h z u HYPERLINK l _Toc528762939 1 大數(shù)據(jù)平臺(tái)建設(shè)方案 PAGEREF _Toc528762939 h 5 HYPERLINK l _Toc528762940 1.1 大數(shù)據(jù)服務(wù)工程平臺(tái)架構(gòu) PAGEREF _Toc528762940 h 5 HYPERLINK l _Toc528762941 1.2 信息資源共享服務(wù)平臺(tái)建設(shè)原則 PAGEREF _Toc528762941 h 8 HYPERLINK l _Toc528762942 1.3 數(shù)據(jù)快速匯集 PAGEREF _Toc528762

2、942 h 9 HYPERLINK l _Toc528762943 1.3.1 數(shù)據(jù)資源分析 PAGEREF _Toc528762943 h 9 HYPERLINK l _Toc528762944 1.3.2 數(shù)據(jù)整合流程節(jié)點(diǎn) PAGEREF _Toc528762944 h 10 HYPERLINK l _Toc528762945 1.3.3 技術(shù)路線 PAGEREF _Toc528762945 h 10 HYPERLINK l _Toc528762946 1.4 數(shù)據(jù)混合存儲(chǔ) PAGEREF _Toc528762946 h 11 HYPERLINK l _Toc528762947 1.4.1

3、 結(jié)構(gòu)化并行數(shù)據(jù)庫(kù) PAGEREF _Toc528762947 h 12 HYPERLINK l _Toc528762948 1.4.2 統(tǒng)一大數(shù)據(jù)處理平臺(tái) PAGEREF _Toc528762948 h 29 HYPERLINK l _Toc528762949 1.4.3 大數(shù)據(jù)管理平臺(tái)功能 PAGEREF _Toc528762949 h 34 HYPERLINK l _Toc528762950 1.5 數(shù)據(jù)多維管理 PAGEREF _Toc528762950 h 38 HYPERLINK l _Toc528762951 1.5.1 元數(shù)據(jù)管理 PAGEREF _Toc528762951 h

4、 38 HYPERLINK l _Toc528762952 1.5.2 數(shù)據(jù)資源庫(kù)管理 PAGEREF _Toc528762952 h 39 HYPERLINK l _Toc528762953 1.5.3 數(shù)據(jù)預(yù)加工管理 PAGEREF _Toc528762953 h 40 HYPERLINK l _Toc528762954 1.5.4 數(shù)據(jù)質(zhì)量管理 PAGEREF _Toc528762954 h 40 HYPERLINK l _Toc528762955 1.5.5 數(shù)據(jù)生命周期管理 PAGEREF _Toc528762955 h 42 HYPERLINK l _Toc528762956 1.

5、5.6 數(shù)據(jù)處理過(guò)程管理監(jiān)控 PAGEREF _Toc528762956 h 42 HYPERLINK l _Toc528762957 1.6 通用數(shù)據(jù)分析模型 PAGEREF _Toc528762957 h 43 HYPERLINK l _Toc528762958 1.6.1 綜合查詢 PAGEREF _Toc528762958 h 43 HYPERLINK l _Toc528762959 1.6.2 分類統(tǒng)計(jì)、排序 PAGEREF _Toc528762959 h 43 HYPERLINK l _Toc528762960 1.6.3 數(shù)據(jù)比對(duì) PAGEREF _Toc528762960 h

6、44 HYPERLINK l _Toc528762961 1.6.4 活動(dòng)軌跡PGIS應(yīng)用 PAGEREF _Toc528762961 h 44 HYPERLINK l _Toc528762962 1.6.5 智能報(bào)警 PAGEREF _Toc528762962 h 45 HYPERLINK l _Toc528762963 1.7 數(shù)據(jù)資源共享服務(wù)平臺(tái)門戶 PAGEREF _Toc528762963 h 45 HYPERLINK l _Toc528762964 1.7.1 平臺(tái)門戶功能 PAGEREF _Toc528762964 h 45 HYPERLINK l _Toc528762965 1

7、.7.2 界面設(shè)計(jì)原則 PAGEREF _Toc528762965 h 46 HYPERLINK l _Toc528762966 1.8 管理體系建設(shè) PAGEREF _Toc528762966 h 47 HYPERLINK l _Toc528762967 1.8.1 數(shù)據(jù)資源管理系統(tǒng) PAGEREF _Toc528762967 h 47 HYPERLINK l _Toc528762968 1.8.2 授權(quán)管理 PAGEREF _Toc528762968 h 47 HYPERLINK l _Toc528762969 1.8.3 日志管理 PAGEREF _Toc528762969 h 47 H

8、YPERLINK l _Toc528762970 1.8.4 運(yùn)行監(jiān)控 PAGEREF _Toc528762970 h 48 HYPERLINK l _Toc528762971 2 項(xiàng)目實(shí)施與管理 PAGEREF _Toc528762971 h 48 HYPERLINK l _Toc528762972 2.1 實(shí)施計(jì)劃 PAGEREF _Toc528762972 h 48 HYPERLINK l _Toc528762973 2.2 實(shí)施周期 PAGEREF _Toc528762973 h 49 HYPERLINK l _Toc528762974 2.3 項(xiàng)目建設(shè)機(jī)構(gòu) PAGEREF _Toc5

9、28762974 h 50 HYPERLINK l _Toc528762975 2.4 人員配置 PAGEREF _Toc528762975 h 51 HYPERLINK l _Toc528762976 2.5 項(xiàng)目溝通 PAGEREF _Toc528762976 h 52 HYPERLINK l _Toc528762977 2.6 項(xiàng)目文檔管理 PAGEREF _Toc528762977 h 52 HYPERLINK l _Toc528762978 3 應(yīng)急處置預(yù)案服務(wù) PAGEREF _Toc528762978 h 53 HYPERLINK l _Toc528762979 3.1 系統(tǒng)故障

10、應(yīng)急流程說(shuō)明 PAGEREF _Toc528762979 h 53 HYPERLINK l _Toc528762980 3.2 數(shù)據(jù)中心機(jī)房應(yīng)急服務(wù) PAGEREF _Toc528762980 h 55 HYPERLINK l _Toc528762981 3.2.1 機(jī)房漏水應(yīng)急預(yù)案 PAGEREF _Toc528762981 h 55 HYPERLINK l _Toc528762982 3.2.2 設(shè)備發(fā)生被盜或人為損害事件應(yīng)急預(yù)案 PAGEREF _Toc528762982 h 56 HYPERLINK l _Toc528762983 3.2.3 機(jī)房長(zhǎng)時(shí)間停電應(yīng)急預(yù)案 PAGEREF _

11、Toc528762983 h 56 HYPERLINK l _Toc528762984 3.2.4 通信網(wǎng)絡(luò)故障應(yīng)急預(yù)案 PAGEREF _Toc528762984 h 57 HYPERLINK l _Toc528762985 3.2.5 不良信息和網(wǎng)絡(luò)病毒事件應(yīng)急預(yù)案 PAGEREF _Toc528762985 h 57 HYPERLINK l _Toc528762986 3.2.6 黑客攻擊事件應(yīng)急預(yù)案 PAGEREF _Toc528762986 h 59 HYPERLINK l _Toc528762987 3.2.7 服務(wù)器軟件系統(tǒng)故障應(yīng)急預(yù)案 PAGEREF _Toc528762987

12、 h 59 HYPERLINK l _Toc528762988 3.2.8 核心設(shè)備硬件故障應(yīng)急預(yù)案 PAGEREF _Toc528762988 h 60 HYPERLINK l _Toc528762989 3.2.9 業(yè)務(wù)數(shù)據(jù)損壞應(yīng)急預(yù)案 PAGEREF _Toc528762989 h 60 HYPERLINK l _Toc528762990 3.2.10 雷擊事故應(yīng)急預(yù)案 PAGEREF _Toc528762990 h 61 HYPERLINK l _Toc528762991 3.3 系統(tǒng)應(yīng)急預(yù)案處置保障 PAGEREF _Toc528762991 h 62 HYPERLINK l _To

13、c528762992 3.3.1 應(yīng)急預(yù)案啟動(dòng)原則 PAGEREF _Toc528762992 h 62 HYPERLINK l _Toc528762993 3.3.2 應(yīng)急預(yù)案指揮原則 PAGEREF _Toc528762993 h 62 HYPERLINK l _Toc528762994 3.3.3 應(yīng)急保障措施 PAGEREF _Toc528762994 h 62 HYPERLINK l _Toc528762995 4 售后服務(wù)方案 PAGEREF _Toc528762995 h 63 HYPERLINK l _Toc528762996 4.1 售后服務(wù)期限 PAGEREF _Toc52

14、8762996 h 63 HYPERLINK l _Toc528762997 4.2 售后服務(wù)內(nèi)容 PAGEREF _Toc528762997 h 64 HYPERLINK l _Toc528762998 4.3 響應(yīng)時(shí)間 PAGEREF _Toc528762998 h 64 HYPERLINK l _Toc528762999 4.4 服務(wù)體系 PAGEREF _Toc528762999 h 64 HYPERLINK l _Toc528763000 4.4.1 支持服務(wù) PAGEREF _Toc528763000 h 64 HYPERLINK l _Toc528763001 4.4.2 咨詢服

15、務(wù) PAGEREF _Toc528763001 h 65 HYPERLINK l _Toc528763002 4.4.3 部署服務(wù) PAGEREF _Toc528763002 h 66 HYPERLINK l _Toc528763003 4.4.4 故障排除服務(wù) PAGEREF _Toc528763003 h 67大數(shù)據(jù)平臺(tái)建設(shè)方案大數(shù)據(jù)服務(wù)工程平臺(tái)架構(gòu)園區(qū)信息化進(jìn)入“大整合、高共享、深應(yīng)用”階段后,數(shù)據(jù)種類不斷豐富、總量急速增長(zhǎng)、結(jié)構(gòu)不斷異化,大數(shù)據(jù)體系已見形成,基于大數(shù)據(jù)特征構(gòu)建園區(qū)信息化數(shù)據(jù)中心總體架構(gòu)及信息資源服務(wù)平臺(tái)結(jié)構(gòu),是云計(jì)算、大數(shù)據(jù)技術(shù)在園區(qū)信息化建設(shè)中落地與深化應(yīng)用的新課題.

16、區(qū)別于商業(yè)大數(shù)據(jù)的政務(wù)大數(shù)據(jù)特征:目前在商業(yè)上,特別是針對(duì)互聯(lián)網(wǎng)的商業(yè)領(lǐng)域,對(duì)“大數(shù)據(jù)”(Big Data)已經(jīng)有了一個(gè)比較清晰的定義,它一般是指“無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合?!蓖ǔS脭?shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、價(jià)值密度低(Value)以及處理速度快(Velocity)4個(gè)V來(lái)概括大數(shù)據(jù)的特征。當(dāng)前智慧環(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)服務(wù)工程面臨的“大數(shù)據(jù)”現(xiàn)狀顯然無(wú)法直接套用上述商業(yè)領(lǐng)域的定義。智慧環(huán)保產(chǎn)業(yè)園區(qū)是一個(gè)以政府部門(管理委員會(huì))為主導(dǎo),融合各種服務(wù)與管理部門,對(duì)園區(qū)企業(yè)進(jìn)行管理,提供服務(wù)的場(chǎng)所。政府部門在體系

17、中掌握主導(dǎo)權(quán)并擁有眾多數(shù)據(jù),但在工程建設(shè)過(guò)程中必須尊重企業(yè)的信息安全和商業(yè)機(jī)密保護(hù),整體建設(shè)程序一個(gè)復(fù)雜的態(tài)勢(shì),從信息資源角度看,智慧環(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)服務(wù)工程的“大數(shù)據(jù)”有如下三個(gè)顯著特征:(1)企業(yè)數(shù)據(jù)資源相對(duì)私有,僅可提供對(duì)政府開放。商業(yè)上“大數(shù)據(jù)”一個(gè)特點(diǎn)是數(shù)據(jù)來(lái)源是公開的,商業(yè)“大數(shù)據(jù)”公司一般是通過(guò)獨(dú)有的應(yīng)用利用公開數(shù)據(jù)為客戶提供服務(wù),而園區(qū)的“大數(shù)據(jù)”主要是來(lái)源于企業(yè)和園區(qū)內(nèi)部,也有一部分會(huì)來(lái)自政府其他行業(yè)部門、商業(yè)化的社會(huì)公司,同時(shí)還包括一些來(lái)自互聯(lián)網(wǎng)資源。但這些數(shù)據(jù)絕大部分最終是歸企業(yè)和園區(qū)各部門私有的。且一般情況下不可能直接提供給第三方,但園區(qū)提供社會(huì)服務(wù)的組織特性又讓其具

18、有對(duì)外服務(wù)的需求。如園區(qū)的人口數(shù)據(jù),公安部門明確規(guī)定為“私有”數(shù)據(jù),此類數(shù)據(jù)一般不可能完全交給第三方處理,但這個(gè)數(shù)據(jù)又必須對(duì)外提供相應(yīng)的服務(wù),類似的情況還有企業(yè)商業(yè)機(jī)密等數(shù)據(jù)。(2)數(shù)據(jù)分布統(tǒng)分結(jié)合,且以結(jié)構(gòu)化數(shù)據(jù)為主。目前園區(qū)信息化建設(shè)尚處在以數(shù)據(jù)庫(kù)為核心的傳統(tǒng)信息系統(tǒng)建設(shè)階段,所以無(wú)論是企業(yè)還是園區(qū),占數(shù)據(jù)絕大多數(shù)的部分是結(jié)構(gòu)化數(shù)據(jù);并且,這些數(shù)據(jù)分散分布在園區(qū)各企業(yè)和服務(wù)部門處,又會(huì)周期性匯總到管委會(huì)處,數(shù)據(jù)分布城西統(tǒng)分結(jié)合,結(jié)構(gòu)化為主的特點(diǎn)。(3)企業(yè)、部門壁壘森嚴(yán),共享應(yīng)用是最大難點(diǎn)。這是大數(shù)據(jù)工程建設(shè)過(guò)程中一個(gè)顯著的特點(diǎn)。從根本上講,“大數(shù)據(jù)”工程就是想把原本分散的資源聚集起來(lái),再

19、以服務(wù)的形式提供給受眾。但是,園區(qū)內(nèi)部不同的成員之間往往在資源和信息方面是呈現(xiàn)不對(duì)稱的情況的。如何促進(jìn)資源,特別是數(shù)據(jù)在園區(qū)內(nèi)部聚集和共享,是智慧環(huán)保園區(qū)大數(shù)據(jù)服務(wù)工程“大數(shù)據(jù)”應(yīng)用的最難,也是最終要解決的問題。因此,建設(shè)一個(gè)園區(qū)統(tǒng)一的數(shù)據(jù)中心,是“大數(shù)據(jù)”工程的關(guān)鍵起步。這個(gè)項(xiàng)目的建設(shè)目的,其核心是整合原有分散在各個(gè)部門、各個(gè)企業(yè)中的數(shù)據(jù),這里要注意,是整合而不是絕對(duì)的匯聚,即把所有數(shù)據(jù)匯聚到某個(gè)中心,是針對(duì)智慧環(huán)保產(chǎn)業(yè)園區(qū)的特點(diǎn),按照“匯聚整合是原則,分布處理是例外”的總體原則,有策略、有計(jì)劃的整合和共享多個(gè)系統(tǒng)的數(shù)據(jù),特別注意是在進(jìn)行海量數(shù)據(jù)分析時(shí),必需進(jìn)行統(tǒng)一的一體化分布式處理。這其中

20、包含了三方面的主要內(nèi)容:一是數(shù)據(jù)以及接口服務(wù)的標(biāo)準(zhǔn)與規(guī)范,包括數(shù)據(jù)模型。這個(gè)與傳統(tǒng)單點(diǎn)的處理差別不大,增加的內(nèi)容是在數(shù)據(jù)模型建設(shè)中需要更多的考慮分布式數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范及之間的相關(guān)性。二是數(shù)據(jù)處理框架和相應(yīng)的平臺(tái)。這部分從技術(shù)上講和傳統(tǒng)區(qū)別很大,不但需對(duì)傳統(tǒng)的、單點(diǎn)狀態(tài)下的關(guān)系型數(shù)據(jù)進(jìn)行優(yōu)化處理,更不是單單引入目前所謂商業(yè)上成熟的大數(shù)據(jù)技術(shù)平臺(tái),如Hadoop平臺(tái)等,而是必須結(jié)合上述園區(qū)數(shù)據(jù)現(xiàn)狀的三個(gè)特征,特別是目前以分布的結(jié)構(gòu)化數(shù)據(jù)為主的這一特征,建設(shè)一個(gè)基于服務(wù)總線的以分布式并行處理模式為主,引入商業(yè)大數(shù)據(jù)技術(shù)和優(yōu)化傳統(tǒng)處理模式為輔的綜合處理框架。三是平臺(tái)應(yīng)用最終落腳點(diǎn)在體現(xiàn)業(yè)務(wù)價(jià)值。信息資源

21、服務(wù)平臺(tái)建設(shè)的最終目的是希望經(jīng)過(guò)處理和分析后的數(shù)據(jù),不但能夠全局共享,實(shí)現(xiàn)查詢、比對(duì)、統(tǒng)計(jì)等基礎(chǔ)應(yīng)用,更需要支撐進(jìn)一步的深度應(yīng)用,比如趨勢(shì)預(yù)測(cè)、輔助決策等,這樣才能最大限度的體現(xiàn)信息資源服務(wù)平臺(tái)建設(shè)的業(yè)務(wù)價(jià)值。因此,智慧環(huán)保園區(qū)大數(shù)據(jù)服務(wù)工程平臺(tái)必須本著“前瞻思維、落地實(shí)現(xiàn)”的規(guī)劃和建設(shè)原則,基于園區(qū)大數(shù)據(jù)特征, 以云計(jì)算、大數(shù)據(jù)處理等新技術(shù)為關(guān)鍵支撐,以數(shù)據(jù)資源匯聚整合為基礎(chǔ),以數(shù)據(jù)處理為核心,以服務(wù)實(shí)際應(yīng)用為目標(biāo),實(shí)現(xiàn)園區(qū)數(shù)據(jù)中心建設(shè)從傳統(tǒng)模式向大數(shù)據(jù)計(jì)算、云服務(wù)應(yīng)用新型模式的戰(zhàn)略性轉(zhuǎn)變,同時(shí)基于數(shù)據(jù)中心總體架構(gòu)建信息資源服務(wù)平臺(tái),把其作為城市信息資源服務(wù)平臺(tái)和智慧城市工程總體框架中的獨(dú)立

22、節(jié)點(diǎn)開展建設(shè),基于數(shù)據(jù)服務(wù)總線、請(qǐng)求服務(wù)系統(tǒng)、數(shù)據(jù)接入平臺(tái),建設(shè)以分布式并行處理模式為主、引入商業(yè)大數(shù)據(jù)技術(shù)和優(yōu)化傳統(tǒng)處理模式為輔的綜合處理框架,實(shí)現(xiàn)跨系統(tǒng)、跨部門的交換共享、集成聯(lián)通、服務(wù)聯(lián)動(dòng)、一體化應(yīng)用?;谥腔郗h(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)特征構(gòu)建的園區(qū)綜合信息資源服務(wù)平臺(tái)結(jié)構(gòu),由數(shù)據(jù)匯集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)分析、安全防護(hù)等部分構(gòu)成。信息資源共享服務(wù)平臺(tái)建設(shè)原則信息資源共享服務(wù)平臺(tái)實(shí)現(xiàn)匯總數(shù)據(jù)的統(tǒng)一存儲(chǔ),實(shí)現(xiàn)匯總數(shù)據(jù)的標(biāo)準(zhǔn)化,對(duì)匯總數(shù)據(jù)進(jìn)行歸納索引,對(duì)匯總數(shù)據(jù)進(jìn)行業(yè)務(wù)分類,對(duì)匯總數(shù)據(jù)進(jìn)行關(guān)聯(lián),對(duì)匯總數(shù)據(jù)進(jìn)行統(tǒng)一管理。信息資源共享服務(wù)平臺(tái)的功能定位:信息資源匯聚的中心倉(cāng)庫(kù),數(shù)據(jù)服務(wù)共享

23、的統(tǒng)一窗口,高端綜合應(yīng)用的信息源頭,基礎(chǔ)應(yīng)用發(fā)展的拉動(dòng)引擎。與現(xiàn)有業(yè)務(wù)數(shù)據(jù)相對(duì)融合現(xiàn)有業(yè)務(wù)數(shù)據(jù)和信息資源共享服務(wù)平臺(tái)的作用、服務(wù)對(duì)象、出發(fā)點(diǎn)不同,要求業(yè)務(wù)數(shù)據(jù)庫(kù)和信息資源共享服務(wù)平臺(tái)建設(shè)既相關(guān)又獨(dú)立。做到:基礎(chǔ)數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)統(tǒng)一存儲(chǔ);數(shù)據(jù)擁有、使用權(quán)限分離管控;數(shù)據(jù)處理采用統(tǒng)一框架,增加數(shù)據(jù)處理效率,維護(hù)數(shù)據(jù)的安全性。要素關(guān)聯(lián)在組織信息資源服務(wù)平臺(tái)的過(guò)程中按照各要素信息,實(shí)現(xiàn)數(shù)據(jù)、要素之間的無(wú)限關(guān)聯(lián)關(guān)系。應(yīng)用導(dǎo)向建設(shè)信息資源共享服務(wù)平臺(tái)的最終目標(biāo)就是為了以綜合庫(kù)為基礎(chǔ)開展各種服務(wù)應(yīng)用,所以系統(tǒng)設(shè)計(jì)必須以支持應(yīng)用服務(wù)為目標(biāo)導(dǎo)向,能夠支撐不同綜合應(yīng)用的需求。標(biāo)準(zhǔn)化信息資源共享服務(wù)平臺(tái)是各部門、企業(yè)

24、信息化實(shí)現(xiàn)數(shù)據(jù)共享的統(tǒng)一服務(wù),所以信息資源共享服務(wù)平臺(tái)的數(shù)據(jù)元、邏輯結(jié)構(gòu)和信息代碼標(biāo)準(zhǔn)及應(yīng)用接口都應(yīng)實(shí)現(xiàn)標(biāo)準(zhǔn)化和規(guī)范化,以保證園區(qū)信息共享和應(yīng)用支持。擴(kuò)展性信息資源服務(wù)平臺(tái)設(shè)計(jì)應(yīng)能夠滿足數(shù)據(jù)源、數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式不斷變化,方便實(shí)現(xiàn)更多種類數(shù)據(jù)的匯聚及更多應(yīng)用的開展。開放性信息資源服務(wù)平臺(tái)是各類綜合應(yīng)用的基礎(chǔ),必須具有很好的開放性,方便內(nèi)外數(shù)據(jù)服務(wù)共享。數(shù)據(jù)快速匯集基礎(chǔ)數(shù)據(jù)整合匯集依托復(fù)合型數(shù)據(jù)抽取整合工具,按照現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的理念和流程,匯集公安內(nèi)外部數(shù)據(jù)資源。數(shù)據(jù)資源分析數(shù)據(jù)整合資源來(lái)源包括園區(qū)云平臺(tái)服務(wù)數(shù)據(jù)、園區(qū)政府部門業(yè)務(wù)數(shù)據(jù)、園區(qū)企業(yè)管理平臺(tái)系統(tǒng)數(shù)據(jù)、地理信息系統(tǒng)數(shù)據(jù)、平安園區(qū)綜合監(jiān)

25、控平臺(tái)數(shù)據(jù)等條線系統(tǒng)數(shù)據(jù)、電子政務(wù)數(shù)據(jù)、社會(huì)信息數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)。匯聚整合資源數(shù)據(jù)種類包括數(shù)字、文本、圖表、視頻、音頻、地理空間等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)整合流程節(jié)點(diǎn)第一步,數(shù)據(jù)接入緩存:數(shù)據(jù)匯集平臺(tái)建設(shè),基于數(shù)據(jù)服務(wù)總線整體框架,通過(guò)公共數(shù)據(jù)交換平臺(tái)和請(qǐng)求服務(wù)平臺(tái),實(shí)現(xiàn)將公安內(nèi)網(wǎng)數(shù)據(jù)源的數(shù)據(jù)匯聚緩存至數(shù)據(jù)平臺(tái)數(shù)據(jù)緩沖層;通過(guò)數(shù)據(jù)接入平臺(tái)實(shí)現(xiàn)社會(huì)信息數(shù)據(jù)、電子政務(wù)數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的接入數(shù)據(jù)緩存層。第二步,數(shù)據(jù)ETL:數(shù)據(jù)匯集平臺(tái)數(shù)據(jù)整合集成在梳理園區(qū)政務(wù)服務(wù)業(yè)務(wù)流程與信息資源的基礎(chǔ)上,建立數(shù)據(jù)整合的業(yè)務(wù)邏輯和數(shù)據(jù)模型,采用可視化ETL工具,進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載等基

26、礎(chǔ)功能,并可根據(jù)業(yè)務(wù)邏輯新增或變更ETL數(shù)據(jù)情況過(guò)程。第三步,數(shù)據(jù)存儲(chǔ):數(shù)據(jù)匯集平臺(tái)數(shù)據(jù)整合最終采用物理集中方式進(jìn)行存儲(chǔ),經(jīng)過(guò)ETL清洗的數(shù)據(jù)根據(jù)實(shí)際業(yè)務(wù)的需求,頻繁比對(duì)數(shù)據(jù)存于基于Spark內(nèi)存數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)空間,靜態(tài)數(shù)據(jù)存儲(chǔ)于基于Hadoop文件系統(tǒng)的Hive或Hbase存儲(chǔ)空間。技術(shù)路線數(shù)據(jù)匯集技術(shù)難點(diǎn)主要集中與數(shù)據(jù)清洗ETL過(guò)程,由于整體數(shù)據(jù)量龐大且數(shù)據(jù)來(lái)源多種多樣,為數(shù)據(jù)ETL工具的性能和全能型提出更高層次的要求。本次ETL設(shè)計(jì)選型充分考慮性能和功能兩個(gè)角度,性能上充分利用數(shù)據(jù)總線調(diào)度框架,接入調(diào)用Spark并行任務(wù)框架,采用可動(dòng)態(tài)調(diào)節(jié)多線程ETL處理架構(gòu),充分發(fā)揮大數(shù)據(jù)中心的性能

27、,提升數(shù)據(jù)入庫(kù)及清洗的效率;功能上集成針對(duì)結(jié)構(gòu)式數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化文件數(shù)據(jù)、流式數(shù)據(jù)等多種數(shù)據(jù)接入模塊,為智慧環(huán)保產(chǎn)業(yè)園區(qū)大數(shù)據(jù)服務(wù)工程建設(shè)提供全部可擴(kuò)展的支撐。其技術(shù)路線如下:數(shù)據(jù)混合存儲(chǔ)數(shù)據(jù)存儲(chǔ)層基于分布式混合型存儲(chǔ)架構(gòu),構(gòu)建源頭數(shù)據(jù)匯聚庫(kù)和系列服務(wù)應(yīng)用專題庫(kù)等數(shù)據(jù)庫(kù)群,在存儲(chǔ)介質(zhì)上選擇MPP數(shù)據(jù)庫(kù)、Hadoop數(shù)據(jù)倉(cāng)庫(kù)、Spark內(nèi)存數(shù)據(jù)三者融合存儲(chǔ)架構(gòu),為不同類型數(shù)據(jù)選擇不同數(shù)據(jù)存儲(chǔ)介質(zhì),保證數(shù)據(jù)存儲(chǔ)及處理的高效性、開放性與擴(kuò)展性;結(jié)構(gòu)化并行數(shù)據(jù)庫(kù)對(duì)于經(jīng)過(guò)前端數(shù)據(jù)采集系統(tǒng)預(yù)處理后形成的海量數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)來(lái)說(shuō),是一些能夠存儲(chǔ)在數(shù)據(jù)庫(kù)中的行數(shù)據(jù),可以用二維表結(jié)構(gòu)來(lái)表達(dá)實(shí)現(xiàn),這部分?jǐn)?shù)據(jù)必須實(shí)現(xiàn)

28、實(shí)時(shí)入庫(kù)和查詢分析。由于其數(shù)據(jù)量非常巨大,所以海量數(shù)據(jù)存儲(chǔ)分析平臺(tái)的結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)將采用具有較好擴(kuò)展性能的集群數(shù)據(jù)庫(kù)系統(tǒng)。加載到目的分析數(shù)據(jù)庫(kù)中的數(shù)據(jù)可對(duì)用戶提供實(shí)時(shí)的過(guò)濾和統(tǒng)計(jì)查詢,滿足用戶各類的數(shù)據(jù)分析和數(shù)據(jù)挖掘應(yīng)用,同時(shí)用戶還可以根據(jù)具體的分析和挖掘需求,設(shè)計(jì)自定義的查詢?nèi)蝿?wù)流,以滿足廣泛的應(yīng)用需求。海量數(shù)據(jù)存儲(chǔ)分析平臺(tái)的結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)采用專為分析網(wǎng)絡(luò)監(jiān)控?cái)?shù)據(jù)設(shè)計(jì)的并行數(shù)據(jù)庫(kù)中間件XData-DRAC,該系統(tǒng)已成功部署在國(guó)家某大型項(xiàng)目、某市大型項(xiàng)目等多個(gè)系統(tǒng)中,其底層采用無(wú)共享(shared-nothing)的oracle數(shù)據(jù)庫(kù)節(jié)點(diǎn)作為數(shù)據(jù)節(jié)點(diǎn),具有較好的擴(kuò)展性和系統(tǒng)可靠性。

29、系統(tǒng)軟件將用戶的操作透明地轉(zhuǎn)化成對(duì)底層數(shù)據(jù)庫(kù)的操作,而對(duì)用戶呈現(xiàn)為單一的數(shù)據(jù)庫(kù)系統(tǒng)映像。另外,子系統(tǒng)采用低成本的存儲(chǔ)服務(wù)器搭載數(shù)據(jù)庫(kù)節(jié)點(diǎn),并可根據(jù)數(shù)據(jù)的訪問頻度和重要性進(jìn)行劃分,實(shí)施多級(jí)存儲(chǔ)的方案,降低整個(gè)系統(tǒng)的TCO,提高系統(tǒng)的性價(jià)比。系統(tǒng)架構(gòu)下圖是結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)XData-DRAC的系統(tǒng)架構(gòu)。系統(tǒng)中的節(jié)點(diǎn)分為兩大類:存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)節(jié)點(diǎn)和提供并行數(shù)據(jù)管理功能的服務(wù)節(jié)點(diǎn)。后者包括:加載服務(wù)、查詢服務(wù)、數(shù)據(jù)復(fù)制和數(shù)據(jù)定義服務(wù)。所有類型的節(jié)點(diǎn)個(gè)數(shù)均可根據(jù)容量和性能的需要而靈活配置。數(shù)據(jù)庫(kù)節(jié)點(diǎn)采用具有大存儲(chǔ)容量的、高性能、高性價(jià)比的存儲(chǔ)服務(wù)器。節(jié)點(diǎn)上安裝單機(jī)版的Oracle數(shù)據(jù)庫(kù)管理系統(tǒng)。按

30、照一定的數(shù)據(jù)劃分策略(目前數(shù)據(jù)劃分支持Hash、Range、List和Round-robin分布策略),每個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)保存全部的復(fù)制數(shù)據(jù)和分片數(shù)據(jù)表的一部分。每個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)上數(shù)據(jù)均可使用Oracle的索引、分區(qū)等特性。數(shù)據(jù)庫(kù)的功能被分成加載、查詢、數(shù)據(jù)復(fù)制、數(shù)據(jù)定義等服務(wù),每種服務(wù)部署在單獨(dú)的物理節(jié)點(diǎn)上。任一服務(wù)節(jié)點(diǎn)均建立到所有的數(shù)據(jù)庫(kù)連接。加載節(jié)點(diǎn)啟動(dòng)若干個(gè)加載線程,線程將一批數(shù)據(jù)寫入某一數(shù)據(jù)庫(kù)節(jié)點(diǎn)。由于海量數(shù)據(jù)分布存儲(chǔ)在各數(shù)據(jù)庫(kù)節(jié)點(diǎn)上,查詢服務(wù)首先并行地在處理各數(shù)據(jù)庫(kù)節(jié)點(diǎn)上的局部數(shù)據(jù)得到中間結(jié)果,然后將中間結(jié)果匯總成最終結(jié)果。復(fù)制數(shù)據(jù)是指將一個(gè)表的數(shù)據(jù)同時(shí)存儲(chǔ)到一組數(shù)據(jù)庫(kù)節(jié)點(diǎn)上,以此避免兩

31、個(gè)表的連接操作。數(shù)據(jù)復(fù)制服務(wù)專用于處理這部分?jǐn)?shù)據(jù)的操作。它通過(guò)分布式事務(wù)在有關(guān)節(jié)點(diǎn)上同時(shí)執(zhí)行事務(wù)操作,保證復(fù)制前后數(shù)據(jù)都是一致的。數(shù)據(jù)定義服務(wù)用于維護(hù)系統(tǒng)的元數(shù)據(jù),它并行地執(zhí)行表結(jié)構(gòu)、表空間和其它數(shù)據(jù)庫(kù)模式改變等元數(shù)據(jù)操作。采用這種服務(wù)分離的設(shè)計(jì),用戶可以靈活地配置各種服務(wù)的個(gè)數(shù),以達(dá)到整個(gè)體統(tǒng)資源的最佳利用。圖 XData-DRAC系統(tǒng)架構(gòu)XData-DRAC子系統(tǒng)采用Shared-Nothing的架構(gòu),即所有存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫(kù)節(jié)點(diǎn)除互聯(lián)網(wǎng)絡(luò)外,不共享任何資源。除此之外,并行數(shù)據(jù)庫(kù)還有Shared-Memory和Shared-Disk兩種架構(gòu)。學(xué)術(shù)界普遍認(rèn)為,Shared-Nothing架構(gòu)有

32、很強(qiáng)的擴(kuò)展性。另外,系統(tǒng)不需要存儲(chǔ)網(wǎng)絡(luò)設(shè)施,也不依賴于昂貴的高端盤陣。這樣可以很好降低用戶的硬件成本,在大規(guī)模部署時(shí)有很高的性價(jià)比。Shared-Memory結(jié)構(gòu)是多個(gè)處理器通過(guò)內(nèi)存總線與多個(gè)共享內(nèi)存相連接,再通過(guò)I/O總線共享多個(gè)存儲(chǔ)設(shè)備。Shared-Memory 結(jié)構(gòu)是典型的向上擴(kuò)展類型,即在單節(jié)點(diǎn)上加入更多的處理器、內(nèi)存、磁盤和網(wǎng)卡。典型的Shared-Memory結(jié)構(gòu)是RISC架構(gòu)的SMP小型機(jī),多家廠商的產(chǎn)品已經(jīng)證明,在常規(guī)商務(wù)負(fù)載環(huán)境下,SMP 服務(wù)器能夠提供 10 倍于單處理器系統(tǒng)的向上擴(kuò)展能力。然而,隨著 CPU 個(gè)數(shù)增多,共享的內(nèi)存帶寬成為瓶頸,同時(shí)多處理器競(jìng)爭(zhēng)降低了系統(tǒng)總

33、線的利用率,因此Shared-Memory 結(jié)構(gòu)難以擴(kuò)展到大規(guī)模。比如目前業(yè)界處理性能最強(qiáng)的IBM Power 795,其配置可達(dá)到32路8核,面向大型數(shù)據(jù)庫(kù)應(yīng)用,卻依然無(wú)法處理海量的300TB數(shù)據(jù)。另外,由于大容量的Shared-Memory結(jié)構(gòu)數(shù)據(jù)庫(kù)節(jié)點(diǎn)采用價(jià)格昂貴的小型機(jī),成本很高,在面向非事務(wù)處理的網(wǎng)監(jiān)系統(tǒng)數(shù)據(jù)存儲(chǔ)分析中不采用。Shared-Disk結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)有自己的內(nèi)存,共享磁盤。每個(gè)節(jié)點(diǎn)都可以讀取和修改所有數(shù)據(jù)。通過(guò)分布式的并發(fā)控制機(jī)制來(lái)保證數(shù)據(jù)一致性。隨著節(jié)點(diǎn)數(shù)增多,并發(fā)開銷增大,因此商用 Shared-Disk構(gòu)建的實(shí)用數(shù)據(jù)庫(kù)系統(tǒng)一般只有 6-8個(gè)節(jié)點(diǎn)。在系統(tǒng)中,單元數(shù)據(jù)庫(kù)

34、除了采用單機(jī)Oracle之外,還可以采用Shared-Disk的并行數(shù)據(jù)庫(kù),如Oracle RAC。這是一種融合了Shared-Disk和Shared-Nothing結(jié)構(gòu)的系統(tǒng),可以擴(kuò)展到更大的規(guī)模。但是,即使采用Oracle RAC,也無(wú)法滿足上百TB的數(shù)據(jù)量需求。Shared-Nothing 結(jié)構(gòu)屬于多處理單元多數(shù)據(jù)單元結(jié)構(gòu)。Shared-Nothing 環(huán)境下,每個(gè)處理器有自己的內(nèi)存和磁盤存儲(chǔ)設(shè)備,所有處理器通過(guò)節(jié)點(diǎn)間互連網(wǎng)絡(luò)進(jìn)行連接,對(duì)于節(jié)點(diǎn)間通信少、返回結(jié)果集少的應(yīng)用(如數(shù)據(jù)倉(cāng)庫(kù)或DSS),具有良好的擴(kuò)展性。可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。Shared-Nothing架構(gòu)下,數(shù)據(jù)庫(kù)節(jié)點(diǎn)如果失效將導(dǎo)致

35、數(shù)據(jù)不可訪問。XData-DRAC提供了雙寫的策略,對(duì)于要求高的數(shù)據(jù)存儲(chǔ)在兩個(gè)節(jié)點(diǎn)上。只要有一個(gè)節(jié)點(diǎn)存在,數(shù)據(jù)仍然及時(shí)可用。根據(jù)系統(tǒng)建設(shè)的需求,通過(guò)以上數(shù)據(jù)庫(kù)架構(gòu)的分析對(duì)比,可以看出,Shared-Memory和Shared-Disk在存儲(chǔ)容量上都會(huì)達(dá)到瓶頸,無(wú)法適用于網(wǎng)監(jiān)系統(tǒng)的海量數(shù)據(jù)實(shí)時(shí)分析場(chǎng)景當(dāng)中,故結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)應(yīng)當(dāng)采用高擴(kuò)展、高性價(jià)比的Shared-Memory并行數(shù)據(jù)庫(kù)架構(gòu)。XData-DRAC是位于客戶與數(shù)據(jù)存儲(chǔ)之間的一層中間件軟件,對(duì)上要提供統(tǒng)一的客戶端程序的接口,對(duì)下要支持對(duì)多個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)的數(shù)據(jù)加載、數(shù)據(jù)查詢、數(shù)據(jù)備份、數(shù)據(jù)統(tǒng)計(jì)和管理功能。底層的數(shù)據(jù)管理系統(tǒng)包括數(shù)據(jù)庫(kù)

36、(結(jié)構(gòu)化數(shù)據(jù))和文本檢索(半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))系統(tǒng)。整體的軟件功能模塊結(jié)構(gòu)示意圖,如下圖所示。XData-DRAC系統(tǒng)對(duì)使用者做到位置透明、副本透明、并發(fā)透明和故障透明等四個(gè)透明。 如下圖所示,前端為客戶端程序接口,它為客戶端提供訪問海量數(shù)據(jù)處理的通道;后端由若干獨(dú)立運(yùn)行的數(shù)據(jù)庫(kù)系統(tǒng),或者文本檢索系統(tǒng)組成,負(fù)責(zé)具體的數(shù)據(jù)加載存儲(chǔ)、索引、查詢和檢索、以及管理;中間層由若干服務(wù)中間件組成,對(duì)上屏蔽數(shù)據(jù)分布存儲(chǔ)和請(qǐng)求的分布執(zhí)行細(xì)節(jié),同時(shí)為客戶提供一個(gè)單一的運(yùn)行接口和環(huán)境,對(duì)下協(xié)調(diào)多數(shù)據(jù)服務(wù)器的數(shù)據(jù)分布和協(xié)同工作。圖 XData-DRAC系統(tǒng)軟件結(jié)構(gòu)XData系統(tǒng)中間件服務(wù)主要可以分為以下四部分:

37、各類服務(wù)程序,對(duì)外提供數(shù)據(jù)服務(wù)的接口,并對(duì)用戶請(qǐng)求進(jìn)行處理。主要包括數(shù)據(jù)加載服務(wù),查詢服務(wù),配置管理服務(wù),數(shù)據(jù)定義服務(wù),以及服務(wù)管理。服務(wù)內(nèi)部的公共模塊,為各類服務(wù)提供所需的信息,包括數(shù)據(jù)分布信息,異常處理模塊,全局的消息服務(wù),負(fù)載均衡策略,以及日志管理模塊。輔助的服務(wù)和任務(wù)。主要包括數(shù)據(jù)備份和恢復(fù),系統(tǒng)的容錯(cuò)和故障處理,數(shù)據(jù)統(tǒng)計(jì),以及定時(shí)任務(wù)管理等。對(duì)底層的數(shù)據(jù)訪問接口。主要包括連接池管理和各類數(shù)據(jù)訪問的驅(qū)動(dòng)。XData-DRAC是一個(gè)通用的海量結(jié)構(gòu)化數(shù)據(jù)處理平臺(tái),各服務(wù)模塊均分為客戶端接口封裝和服務(wù)器端程序兩部分。對(duì)外屏蔽了客戶端和服務(wù)器端的通信細(xì)節(jié)。并將所有服務(wù)的客戶端接口封裝成XJDB

38、C(編程和使用風(fēng)格類似于JDBC,可減小應(yīng)用遷移和用戶學(xué)習(xí)成本)接口的動(dòng)態(tài)鏈接庫(kù)。對(duì)應(yīng)用程序來(lái)說(shuō),采用XJDBC接口對(duì)數(shù)據(jù)對(duì)象進(jìn)行訪問和管理,看到的是一個(gè)單一的數(shù)據(jù)處理系統(tǒng)映像。因此客戶端程序并不需要判斷連接哪臺(tái)服務(wù)器上的哪個(gè)具體的服務(wù)進(jìn)行操作。關(guān)鍵技術(shù)XData-DRAC是一套完整的并行數(shù)據(jù)庫(kù)系統(tǒng),除上述特征外,下面再給出并行加載、并行查詢和數(shù)據(jù)雙寫等關(guān)鍵技術(shù)。數(shù)據(jù)劃分和存儲(chǔ)組織XData-DRAC的存儲(chǔ)劃分成了四個(gè)層次:記錄,分區(qū),節(jié)點(diǎn)何節(jié)點(diǎn)組。一條記錄是數(shù)據(jù)的最小元組,表示數(shù)據(jù)庫(kù)的一行,有相同屬性的多條記錄可以組成一個(gè)分區(qū),而節(jié)點(diǎn)和節(jié)點(diǎn)組是服務(wù)器層面的劃分,一個(gè)節(jié)點(diǎn)包含多個(gè)數(shù)據(jù)分區(qū)(虛分

39、區(qū)),多個(gè)節(jié)點(diǎn)組成一個(gè)節(jié)點(diǎn)組。XData-DRAC系統(tǒng)支持?jǐn)?shù)據(jù)在某個(gè)節(jié)點(diǎn)組內(nèi)的節(jié)點(diǎn)間的多樣化的數(shù)據(jù)分布策略,包括hash,range,list的分區(qū)策略,即數(shù)據(jù)按照某一列的屬性值,存儲(chǔ)在某些特定的節(jié)點(diǎn)上,可以加速數(shù)據(jù)查詢的速度。此外XData-DRAC還支持round-robin的數(shù)據(jù)分布,即數(shù)據(jù)按照輪詢的方式,均勻的分布到所有的數(shù)據(jù)節(jié)點(diǎn)。為了適應(yīng)節(jié)點(diǎn)數(shù)的動(dòng)態(tài)擴(kuò)展,XData-DRAC采用了一種虛分區(qū)的技術(shù),即分區(qū)和節(jié)點(diǎn)是多對(duì)一的關(guān)系,每個(gè)節(jié)點(diǎn)包含多個(gè)虛分區(qū)。P1P2P5P6P3P4P7P8節(jié) 點(diǎn) 1節(jié)點(diǎn)組P9P10P13P14P11P12P15P16節(jié) 點(diǎn) 2存儲(chǔ)劃分: 記錄分區(qū)節(jié)點(diǎn)節(jié)點(diǎn)組圖

40、 數(shù)據(jù)存儲(chǔ)劃分虛分區(qū)的數(shù)據(jù)存儲(chǔ)劃分如上圖所示, 每個(gè)表定義時(shí)需要指定一個(gè)節(jié)點(diǎn)組,包含若干數(shù)據(jù)節(jié)點(diǎn)。分區(qū)表進(jìn)行存儲(chǔ)劃分時(shí),每個(gè)節(jié)點(diǎn)包含若干分區(qū)(也叫虛分區(qū)),分區(qū)數(shù)量可以設(shè)定為CPU的核數(shù)2,或者更多。因此分區(qū)表的存儲(chǔ)劃可以分為分區(qū),節(jié)點(diǎn)和節(jié)點(diǎn)組的三層包含關(guān)系。當(dāng)系統(tǒng)規(guī)模擴(kuò)大時(shí),比如往節(jié)點(diǎn)組中增加新的節(jié)點(diǎn)時(shí),需要對(duì)在線數(shù)據(jù)進(jìn)行遷移,以保證節(jié)點(diǎn)組內(nèi)各節(jié)點(diǎn)間的數(shù)據(jù)均衡。采用虛分區(qū)技術(shù),數(shù)據(jù)遷移時(shí)只需將一定數(shù)量的分區(qū)整體遷移到新增節(jié)點(diǎn),避免了重新分區(qū)的開銷,同時(shí)也可以保證節(jié)點(diǎn)間的最小數(shù)據(jù)遷移。并行實(shí)時(shí)加載提高系統(tǒng)加載能力的關(guān)鍵是提高單機(jī)加載能力和充分利用系統(tǒng)資源。系統(tǒng)的并行加載技術(shù)包括如下層面上的設(shè)計(jì)

41、。1)單線程直接路徑加載。加載線程使用預(yù)處理過(guò)程將被寫數(shù)據(jù)的格式告知數(shù)據(jù)庫(kù),然后接受客戶端的一大批記錄,以直接路徑加載的方式一次性將數(shù)據(jù)寫入數(shù)據(jù)庫(kù)。這是Oracle提供的最快的在線數(shù)據(jù)加載方法。2)單機(jī)多線程同時(shí)加載。每個(gè)加載節(jié)點(diǎn)都維護(hù)一個(gè)線程,當(dāng)有請(qǐng)求到達(dá)時(shí),即分配一個(gè)線程向某一個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)加載。這樣能充分利用加載節(jié)點(diǎn)的帶寬和計(jì)算資源,提高其利用率。3)多數(shù)據(jù)庫(kù)并行加載。每個(gè)加載節(jié)點(diǎn)的多個(gè)線程可以同時(shí)向多個(gè)數(shù)據(jù)庫(kù)并行加載。當(dāng)加載節(jié)點(diǎn)較多的時(shí)候,可以充分利用數(shù)據(jù)庫(kù)的加載能力,使系統(tǒng)的加載性能達(dá)到最大。上述三種設(shè)計(jì)的考慮使系統(tǒng)能提供很高的加載速度和近似線性的加載擴(kuò)展比。數(shù)據(jù)均衡是Shared-N

42、othing架構(gòu)的并行數(shù)據(jù)庫(kù)要解決的一個(gè)重要問題。在采用round-robin的數(shù)據(jù)劃分策略時(shí),解決數(shù)據(jù)均衡的關(guān)鍵是避免某個(gè)節(jié)點(diǎn)上的數(shù)據(jù)過(guò)多。出現(xiàn)這種情況,將導(dǎo)致該節(jié)點(diǎn)上的查詢?nèi)蝿?wù)完成地最晚,因?yàn)椴⑿腥蝿?wù)的完成時(shí)間取決于最慢的操作,所以會(huì)導(dǎo)致查詢擴(kuò)展性嚴(yán)重下降。系統(tǒng)每次都選擇當(dāng)前加載量最小的節(jié)點(diǎn)進(jìn)行加載,保持當(dāng)前的數(shù)據(jù)均衡。如果某個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)失效后重新啟動(dòng),導(dǎo)致一段時(shí)間內(nèi)加載量過(guò)小,后續(xù)就會(huì)出現(xiàn)短期內(nèi)加載過(guò)多的情況。針對(duì)面向流數(shù)據(jù)應(yīng)用,采取周期性計(jì)數(shù)的方法。當(dāng)超出一個(gè)周期后,計(jì)數(shù)歸零。在上述情況發(fā)生時(shí),上個(gè)周期數(shù)據(jù)量不會(huì)影響到下一個(gè)周期的數(shù)據(jù)平衡。并行查詢查詢請(qǐng)求分析器將查詢語(yǔ)句分解成查詢?nèi)蝿?wù)

43、流圖,其主要流程如下圖所示。主要包括查詢語(yǔ)句的確性檢查,詞法分析,語(yǔ)法分析,語(yǔ)義分解和生成查詢算子任務(wù)流圖這四個(gè)步驟。圖 XData-DRAC系統(tǒng)查詢分析流程詞法分析:將查詢語(yǔ)句分解成單詞序列。語(yǔ)法分析:語(yǔ)法分析將單詞序列按照查詢語(yǔ)句的關(guān)鍵字進(jìn)行結(jié)構(gòu)劃分。語(yǔ)義分解:語(yǔ)義分解,將進(jìn)行結(jié)構(gòu)劃分的查詢語(yǔ)句拆分成多個(gè)可以獨(dú)立執(zhí)行的子句,這些子句不含有聯(lián)合查詢和嵌套查詢。生成查詢?nèi)蝿?wù)流圖:將查詢子句轉(zhuǎn)化為可并行執(zhí)行的查詢?nèi)蝿?wù)流。每個(gè)查詢子句又稱為查詢算子,是指可獨(dú)立在某個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)執(zhí)行的查詢操作。而查詢?nèi)蝿?wù)流圖是指可被并行運(yùn)行的任務(wù)序列,每個(gè)查詢?nèi)蝿?wù)是一個(gè)4元組。下圖是一個(gè)查詢?nèi)蝿?wù)流圖的示例。算子1算子

44、2算子2算子4算子5圖 查詢?nèi)蝿?wù)流圖查詢?nèi)蝿?wù)流圖是查詢語(yǔ)句在海量數(shù)據(jù)處理平臺(tái)上的執(zhí)行計(jì)劃,指出各任務(wù)間的依賴關(guān)系和執(zhí)行順序??杀硎緸槿蝿?wù)序列,其中S是指同步點(diǎn),可視情況加在任務(wù)間, Tx是指任務(wù)。通用的并行查詢執(zhí)行框架讀取查詢?nèi)蝿?wù)流圖作為輸入,輸出最終的查詢結(jié)果。并行查詢執(zhí)行框架是XData-DRAC系統(tǒng)的核心,所有的并行查詢?nèi)蝿?wù)流,均可通過(guò)并行查詢執(zhí)行框架運(yùn)行,并返回最終結(jié)果。所有的查詢計(jì)算均在數(shù)據(jù)庫(kù)節(jié)點(diǎn)執(zhí)行,查詢服務(wù)器主要負(fù)責(zé)任務(wù)流執(zhí)行的同步控制、數(shù)據(jù)傳輸和結(jié)果匯總,不參與查詢?nèi)蝿?wù)的具體執(zhí)行。查詢節(jié)點(diǎn)作為并行任務(wù)的控制節(jié)點(diǎn),負(fù)責(zé)查詢請(qǐng)求的分解和執(zhí)行控制,并匯總最后的查詢結(jié)果。所有的查詢?nèi)蝿?wù)

45、(除最后的查詢結(jié)果匯總以外)均運(yùn)行在數(shù)據(jù)庫(kù)節(jié)點(diǎn),充分利用節(jié)點(diǎn)間的并行性。查詢處理時(shí)的中間結(jié)果采用文件進(jìn)行組織存儲(chǔ),比如在結(jié)構(gòu)化數(shù)據(jù)處理方面,利用Oracle數(shù)據(jù)庫(kù)的外部表特性,文件的數(shù)據(jù)寫入速度是數(shù)據(jù)庫(kù)表寫入的10倍以上,而測(cè)試表明外部表的查詢性能和內(nèi)部表接近,但可以答復(fù)提升查詢中間結(jié)果的寫入速度。數(shù)據(jù)分派方法:通常情況下是hash分派,即將結(jié)果按照某一列的值進(jìn)行hash,并按照目標(biāo)節(jié)點(diǎn)節(jié)點(diǎn)數(shù)進(jìn)行取模分派。此外針對(duì)某些特殊查詢模式,可采用范圍分派進(jìn)行優(yōu)化。用戶自定義任務(wù)流處理XData-DRAC數(shù)據(jù)處理平臺(tái)支持用戶自定義的數(shù)據(jù)處理任務(wù),以適應(yīng)更廣泛的應(yīng)用類型。用戶提交的SQL語(yǔ)句,通過(guò)SQL解

46、析,生成并行查詢?nèi)蝿?wù)流,任務(wù)流由并行查詢引擎執(zhí)行,得到最終的查詢結(jié)果。由于查詢服務(wù)的SQL解析和并行查詢引擎是兩個(gè)獨(dú)立的模塊,因此用戶可以通過(guò)SQL解析模塊將查詢分解成任務(wù)流輸出,對(duì)任務(wù)流進(jìn)行修改,作為并行查詢引擎的輸入。通過(guò)支持用戶自定義的并行查詢?nèi)蝿?wù)流,XData-DRAC可以支持任何查詢類型。用戶自定義的并行查詢?nèi)蝿?wù)流的執(zhí)行過(guò)程如下圖所示。圖 用戶自定義并行查詢?nèi)蝿?wù)流執(zhí)行XData-DRAC通過(guò)提供SQL解析和并行查詢引擎模塊的對(duì)外接口來(lái)實(shí)現(xiàn)用戶自定義的任務(wù)流執(zhí)行。并行查詢?nèi)蝿?wù)流采用配置文件的格式進(jìn)行描述??稍赟QL解析完成的并行任務(wù)流基礎(chǔ)上進(jìn)行修改,避免查詢?nèi)蝿?wù)流的格式出現(xiàn)錯(cuò)誤。在用戶

47、自定義的并行查詢?nèi)蝿?wù)流中,也可嵌入用戶自定義的方法,比如說(shuō)嵌入一些開源的數(shù)據(jù)挖掘算法和數(shù)據(jù)處理的方法,對(duì)每個(gè)任務(wù)的結(jié)果進(jìn)行處理。在使用時(shí),只需提供自定義方法的代碼或者函數(shù)連接庫(kù)。抽象數(shù)據(jù)訪問驅(qū)動(dòng)抽象數(shù)據(jù)驅(qū)動(dòng)是XData-DRAC對(duì)底層各種類型數(shù)據(jù)訪問的接口,采用portable的設(shè)計(jì),針對(duì)不同的數(shù)據(jù)類型,可添加或者轉(zhuǎn)載新的驅(qū)動(dòng)。特別地,對(duì)于結(jié)構(gòu)化數(shù)據(jù),目前支持對(duì)Oracle數(shù)據(jù)庫(kù)的訪問,對(duì)于文本索引,設(shè)計(jì)支持對(duì)Lucene文本索引訪問接口的支持。當(dāng)有新的數(shù)據(jù)類型加入時(shí),可通過(guò)添加新的驅(qū)動(dòng)庫(kù)增加對(duì)新數(shù)據(jù)類型訪問的支持。LuceneLucene訪問接口DB訪問接口通用數(shù)據(jù)訪問驅(qū)動(dòng)層其他數(shù)據(jù)訪問接口

48、DBFS圖 通用數(shù)據(jù)訪問驅(qū)動(dòng)層通過(guò)統(tǒng)一的數(shù)據(jù)驅(qū)動(dòng)層,可以屏蔽數(shù)據(jù)訪問的細(xì)節(jié),將對(duì)不同類型數(shù)據(jù)的訪問,統(tǒng)一在通用海量數(shù)據(jù)處理平臺(tái)下,簡(jiǎn)化了系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。同時(shí)也對(duì)不同數(shù)據(jù)的聯(lián)合查詢分析提供了基礎(chǔ),實(shí)現(xiàn)對(duì)不同類型數(shù)據(jù)的通用處理。比如常見的數(shù)字圖書館等應(yīng)用,將文本檢索和數(shù)據(jù)庫(kù)查詢相結(jié)合進(jìn)行數(shù)據(jù)分析,包括先進(jìn)行文本關(guān)鍵字檢索相關(guān)文獻(xiàn),再進(jìn)行數(shù)據(jù)庫(kù)查詢得到作者和出版等明細(xì)數(shù)據(jù);或者進(jìn)行數(shù)據(jù)庫(kù)的作者和出版相關(guān)信息查詢,然后進(jìn)行文本抽取等查詢。在對(duì)各類數(shù)據(jù)進(jìn)行查詢和檢索時(shí),用戶采用統(tǒng)一的類SQL語(yǔ)句表達(dá)查詢請(qǐng)求,無(wú)需知道底層的數(shù)據(jù)組織和查詢處理的細(xì)節(jié),能夠滿足廣泛的應(yīng)用需求。采用類SQL的查詢請(qǐng)求設(shè)計(jì),規(guī)

49、范了用戶的數(shù)據(jù)訪問,簡(jiǎn)化了查詢處理,同時(shí)也能支持更多的應(yīng)用類型。數(shù)據(jù)雙寫對(duì)于要求數(shù)據(jù)可靠性和可用性要求很高的用戶,XData-DRAC提供數(shù)據(jù)雙寫功能。如下圖所示,每個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)上創(chuàng)建兩個(gè)數(shù)據(jù)庫(kù),如d1和d2是同一物理機(jī)上的兩個(gè)數(shù)據(jù)庫(kù)。節(jié)點(diǎn)之間的數(shù)據(jù)庫(kù)做完全鏡象,數(shù)據(jù)在寫入的時(shí)間同時(shí)保存在鏡象的兩個(gè)數(shù)據(jù)庫(kù)中。圖中給出了交錯(cuò)的鏡象關(guān)系,除任一數(shù)據(jù)庫(kù)節(jié)點(diǎn)失效后數(shù)據(jù)仍可用外,上面或下面所有數(shù)據(jù)庫(kù)節(jié)點(diǎn)損壞,系統(tǒng)中的數(shù)據(jù)仍然可用。d1d2d3d4d5d6d7d8d9d10d111d12d13d14d15d16圖 XData-DRAC的數(shù)據(jù)雙寫系統(tǒng)優(yōu)勢(shì)作為成熟、先進(jìn)、高效的并行數(shù)據(jù)庫(kù)系統(tǒng)來(lái)說(shuō),XData-

50、DRAC打通了傳統(tǒng)oracle數(shù)據(jù)庫(kù)處理能力的瓶頸,解決了海量結(jié)構(gòu)化數(shù)據(jù)分析處理與存儲(chǔ)的需求。采用XData-DRAC作為海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析的解決方案,具有以下眾多優(yōu)勢(shì)。高可用系統(tǒng)采用多種方式提高系統(tǒng)的可用性,完全可以提供7*24小時(shí)無(wú)間斷運(yùn)行。按離用戶的遠(yuǎn)近,其高可用性包括如下層面:高可用的負(fù)載均衡機(jī)制。標(biāo)準(zhǔn)情況下配置兩個(gè)負(fù)載均衡器,當(dāng)其中一個(gè)不可用時(shí),客戶端接口庫(kù)自動(dòng)使用另一個(gè),因此負(fù)載均衡器是高可用的。高可用的服務(wù)。每種服務(wù)(加載、查詢、復(fù)制引擎)都可以配置在多個(gè)物理服務(wù)器上,只要還有一個(gè)可用,這種服務(wù)就是可用的。高可用數(shù)據(jù)庫(kù)。系統(tǒng)配置多個(gè)互相獨(dú)立的數(shù)據(jù)庫(kù)節(jié)點(diǎn)。當(dāng)某個(gè)數(shù)據(jù)庫(kù)出現(xiàn)故障時(shí)

51、,這種故障分臨時(shí)性故障、節(jié)點(diǎn)宕機(jī)和數(shù)據(jù)損壞三種情況。如果是臨時(shí)性的故障或節(jié)點(diǎn)宕機(jī),正在進(jìn)行的查詢不能獲得這部分?jǐn)?shù)據(jù)的結(jié)果,但其余節(jié)點(diǎn)上的計(jì)算結(jié)果會(huì)返回給用戶并提示“結(jié)果集不完整”。當(dāng)節(jié)點(diǎn)宕機(jī)時(shí),這種狀態(tài)要持續(xù)到機(jī)器重新啟動(dòng)為止。啟動(dòng)雙寫機(jī)制后,即使數(shù)據(jù)庫(kù)失效,數(shù)據(jù)也不會(huì)丟失,并且隨時(shí)可用。擴(kuò)展性對(duì)于系統(tǒng)來(lái)說(shuō),只要增加數(shù)據(jù)庫(kù)節(jié)點(diǎn),系統(tǒng)的容量可隨即增加。與此同時(shí),所有數(shù)據(jù)庫(kù)的處理能力近似為整個(gè)系統(tǒng)的處理能力,也隨之?dāng)U展。當(dāng)系統(tǒng)規(guī)模擴(kuò)大時(shí),系統(tǒng)的性能表現(xiàn),即擴(kuò)展性是并行系統(tǒng)的重要特征。達(dá)到所有數(shù)據(jù)庫(kù)的寫速度之前,數(shù)據(jù)加載的性能和加載節(jié)點(diǎn)的個(gè)數(shù)呈近線性的增長(zhǎng)。大部分的查詢則隨數(shù)據(jù)庫(kù)節(jié)點(diǎn)個(gè)數(shù)的增加,也呈

52、近線性的結(jié)果。根據(jù)應(yīng)用的實(shí)際需求,用于加載和查詢等任務(wù)的服務(wù)器可以方便地增加和刪除,但系統(tǒng)總的處理能力主要受數(shù)據(jù)庫(kù)節(jié)點(diǎn)能力的限制。所有節(jié)點(diǎn)均可在不中斷業(yè)務(wù)的情況下進(jìn)行。軟件也可以實(shí)現(xiàn)在線升級(jí)。系統(tǒng)在生產(chǎn)系統(tǒng)的部署中超過(guò)40個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn),處理的數(shù)據(jù)量超過(guò)800TB。系統(tǒng)備份恢復(fù)系統(tǒng)高可用性的介紹中已經(jīng)從4個(gè)層面上介紹了在部分設(shè)備出現(xiàn)故障的時(shí)候系統(tǒng)如何保證對(duì)外服務(wù)的連續(xù)可用性。在未發(fā)生數(shù)據(jù)丟失的情況下只需替換故障設(shè)備,重新加入系統(tǒng),即可恢復(fù)故障。為了防范出現(xiàn)數(shù)據(jù)丟失的嚴(yán)重故障,系統(tǒng)提供備份工具dmbk,它分別從各數(shù)據(jù)庫(kù)節(jié)點(diǎn)導(dǎo)出需要的數(shù)據(jù),經(jīng)過(guò)壓縮后存儲(chǔ)在備份介質(zhì)上。當(dāng)需要時(shí),它從備份介質(zhì)上讀出數(shù)據(jù)

53、,解壓縮后導(dǎo)入原數(shù)據(jù)庫(kù)。簡(jiǎn)易管理系統(tǒng)的各種服務(wù)及數(shù)據(jù)庫(kù)節(jié)點(diǎn)均是“邏輯節(jié)點(diǎn)”,它們可以部署在任何的物理節(jié)點(diǎn)上,因此針對(duì)特定的系統(tǒng)結(jié)構(gòu),只需指明“邏輯節(jié)點(diǎn)”和“物理節(jié)點(diǎn)”的映射關(guān)系,即可用工具簡(jiǎn)易完成包括底層數(shù)據(jù)庫(kù)在內(nèi)的整個(gè)的系統(tǒng)部署。它可以部署在包括單個(gè)節(jié)點(diǎn)在內(nèi)的任意數(shù)量機(jī)器的系統(tǒng)上。系統(tǒng)基于B/S模式進(jìn)行部署、監(jiān)控和管理,用戶可直接通過(guò)瀏覽器對(duì)系統(tǒng)進(jìn)行監(jiān)管。另外,系統(tǒng)對(duì)外提供單一系統(tǒng)映像,用戶使用類似ODBC或JDBC的接口提交SQL語(yǔ)句。這些操作被服務(wù)節(jié)點(diǎn)自動(dòng)地并行執(zhí)行。高性價(jià)比和Oracle RAC等并行數(shù)據(jù)庫(kù)不同,XData-DRAC不需要光纖交換機(jī)和較高端的磁盤陣列,而是采用普通的千兆

54、以太網(wǎng)交換機(jī)和通用的存儲(chǔ)服務(wù)器,硬件成本低。配合靈活部署和簡(jiǎn)易管理的工具,在大規(guī)模部署時(shí)有較高的性能價(jià)格比,保護(hù)用戶投資,降低TCO。統(tǒng)一大數(shù)據(jù)處理平臺(tái)系統(tǒng)架構(gòu)XData大數(shù)據(jù)平臺(tái),可以實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)XData-DRAC,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和檢索XData-Parastor和以及離線數(shù)據(jù)分析的hadoop系統(tǒng)的統(tǒng)一訪問和管理,支持不同類型數(shù)據(jù)的處理。XData系統(tǒng)將節(jié)點(diǎn)分為兩大類:存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)和提供并行數(shù)據(jù)管理功能的服務(wù)節(jié)點(diǎn)。后者根據(jù)不同的功能劃分,包括:加載服務(wù)、查詢服務(wù)、數(shù)據(jù)復(fù)制和數(shù)據(jù)定義服務(wù)。所有類型的節(jié)點(diǎn)個(gè)數(shù)均必須支持根據(jù)容量和性能的需要而靈活配置。數(shù)據(jù)節(jié)點(diǎn)是帶獨(dú)立存儲(chǔ)系統(tǒng)的存儲(chǔ)

55、服務(wù)器。每個(gè)節(jié)點(diǎn)上既可以安裝單機(jī)版的數(shù)據(jù)庫(kù)(如Oracle/Postgresql等數(shù)據(jù)庫(kù))管理系統(tǒng),或者部署成分布式文件系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)(如Hadoop系統(tǒng)中的HDFS的DataNode),以及這些數(shù)據(jù)存儲(chǔ)和處理系統(tǒng)的復(fù)合。XData大數(shù)據(jù)的中間件軟件服務(wù)按照其功能可以被分成加載、查詢、控制配置、數(shù)據(jù)定義等服務(wù),每種服務(wù)部署在單獨(dú)的物理節(jié)點(diǎn)或者單獨(dú)的虛擬機(jī)上,以達(dá)到每個(gè)服務(wù)程序的相互隔離性。任何一個(gè)服務(wù)節(jié)點(diǎn)均建立到所有的數(shù)據(jù)節(jié)點(diǎn)的連接。其中加載節(jié)點(diǎn)啟動(dòng)若干個(gè)加載線程,線程將一批數(shù)據(jù)寫入某一數(shù)據(jù)庫(kù)節(jié)點(diǎn)。由于海量數(shù)據(jù)分布存儲(chǔ)在各數(shù)據(jù)節(jié)點(diǎn)上,查詢服務(wù)首先并行地在處理各數(shù)據(jù)節(jié)點(diǎn)上的局部數(shù)據(jù)得到中間結(jié)果,

56、然后將中間結(jié)果匯總成最終結(jié)果。數(shù)據(jù)控制配置服務(wù)專用于對(duì)數(shù)據(jù)修改操作,保證集群環(huán)境下的數(shù)據(jù)修改的事務(wù)性。數(shù)據(jù)定義服務(wù)用于維護(hù)系統(tǒng)的元數(shù)據(jù),它主要負(fù)責(zé)整個(gè)系統(tǒng)的對(duì)象定義、存儲(chǔ)組織、增刪改操作和其它數(shù)據(jù)模式改變等元數(shù)據(jù)操作。采用這種服務(wù)分離的設(shè)計(jì),用戶可以靈活地配置各種服務(wù)的個(gè)數(shù),以達(dá)到整個(gè)體統(tǒng)資源的最佳利用。圖 系統(tǒng)整體架構(gòu)上圖給出了XData 大數(shù)據(jù)平臺(tái)系統(tǒng)的整體結(jié)構(gòu)設(shè)計(jì)。大數(shù)據(jù)處理系統(tǒng)在客戶與數(shù)據(jù)存儲(chǔ)之間構(gòu)架了一層中間件軟件,對(duì)上要提供統(tǒng)一的客戶端程序的接口,對(duì)下要支持對(duì)多個(gè)不同數(shù)據(jù)存儲(chǔ)系統(tǒng)的數(shù)據(jù)加載、數(shù)據(jù)查詢、數(shù)據(jù)備份、數(shù)據(jù)統(tǒng)計(jì)和管理功能。底層的數(shù)據(jù)管理系統(tǒng)包括數(shù)據(jù)庫(kù)(結(jié)構(gòu)化數(shù)據(jù))和Hado

57、op(非結(jié)構(gòu)化數(shù)據(jù))系統(tǒng),本版本主要針對(duì)Hadoop的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理。大數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)對(duì)數(shù)據(jù)的邏輯劃分功能,支持按照數(shù)據(jù)語(yǔ)義對(duì)數(shù)據(jù)進(jìn)行Hash,Range,List和Round-robing的劃分策略。針對(duì)結(jié)構(gòu)化數(shù)據(jù)處理的數(shù)據(jù)庫(kù)系統(tǒng),每個(gè)數(shù)據(jù)節(jié)點(diǎn)保存整個(gè)數(shù)據(jù)集的一部分。每個(gè)數(shù)據(jù)節(jié)點(diǎn)上數(shù)據(jù)均可使用成熟的數(shù)據(jù)庫(kù)的索引、分區(qū)等特性。針對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理的Hadoop系統(tǒng),則可以將應(yīng)用數(shù)據(jù)劃分成不同的文件(或者文件夾),每個(gè)文件(或文件夾)保存數(shù)據(jù)集的一部分,表示符合某個(gè)特定屬性的數(shù)據(jù)集合。關(guān)鍵技術(shù)XData大數(shù)據(jù)處理平臺(tái),是在XData-DRAC 結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)的基礎(chǔ)上,增加對(duì)非

58、結(jié)構(gòu)化數(shù)據(jù)的處理,實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理。該系統(tǒng)的關(guān)鍵技術(shù)包括以下幾個(gè)方面:支持Hadoop/HBase/Hive和Database的柔性系統(tǒng)架構(gòu)XData支持對(duì)Hadoop/HBase/Hive的數(shù)據(jù)處理模式,同時(shí)也支持對(duì)Oracle/Postgresql的數(shù)據(jù)庫(kù)處理方式,對(duì)外提供統(tǒng)一的數(shù)據(jù)處理訪問接口,系統(tǒng)結(jié)構(gòu)可以隨著數(shù)據(jù)量進(jìn)行柔性配置,最大支持的節(jié)點(diǎn)數(shù)不低于256個(gè),總數(shù)據(jù)量不低于16PB。實(shí)時(shí)分析和離線分析的融合技術(shù)XData大數(shù)據(jù)平臺(tái)能夠同時(shí)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,采用統(tǒng)一的架構(gòu),存儲(chǔ)組織和劃分,以及查詢處理技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的實(shí)時(shí)入庫(kù)和實(shí)時(shí)查詢檢索,同時(shí)也提供對(duì)

59、超大規(guī)模數(shù)據(jù)量的分析處理。按照不同的查詢處理類型,可分別達(dá)到如下性能指標(biāo):a) 點(diǎn)查詢和過(guò)濾查詢,達(dá)到秒級(jí)的響應(yīng)速度;b) 統(tǒng)計(jì)類查詢,可達(dá)到分鐘級(jí)別的響應(yīng)速度;c) 關(guān)聯(lián)和嵌套查詢,根據(jù)數(shù)據(jù)量的差異,執(zhí)行時(shí)間從數(shù)秒到數(shù)小時(shí)不等;d) 實(shí)現(xiàn)對(duì)超大數(shù)據(jù)集的查詢處理能力。數(shù)據(jù)的模式定義和數(shù)據(jù)劃分技術(shù)支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)劃分,包括數(shù)據(jù)的模式定義和物理存儲(chǔ)定義。其中模式是指對(duì)數(shù)據(jù)的解釋方式,而存儲(chǔ)定義表示數(shù)據(jù)的存儲(chǔ)組織方式。系統(tǒng)支持?jǐn)?shù)據(jù)按照某類屬性的Hash/Range等進(jìn)行劃分。提供存儲(chǔ)參數(shù)的設(shè)置,如入庫(kù)的并行度設(shè)置,數(shù)據(jù)塊大小設(shè)置等。SQL/MapReduce語(yǔ)義定義和分析技術(shù)采用類SQ

60、L的方式,實(shí)現(xiàn)對(duì)SQL和MapReduce語(yǔ)義的定義和分解。計(jì)算語(yǔ)義的定義支持SQL/MapReduce的級(jí)聯(lián)和關(guān)聯(lián),以及這兩種數(shù)據(jù)處理方式的混合任務(wù)流定義,可以支持廣泛的數(shù)據(jù)處理應(yīng)用。支持SQL/MapReduce計(jì)算語(yǔ)義的執(zhí)行控制技術(shù)通用的并行查詢引擎支持對(duì)SQL和MapReduce作業(yè)的調(diào)度和執(zhí)行控制,包括多個(gè)任務(wù)之間的同步控制,數(shù)據(jù)劃分和傳輸,以及中間結(jié)果的轉(zhuǎn)換等技術(shù)。其中查詢服務(wù)器負(fù)責(zé)執(zhí)行控制和結(jié)果采集,而所有的數(shù)據(jù)處理均在數(shù)據(jù)節(jié)點(diǎn)執(zhí)行,充分利用多節(jié)點(diǎn)的并行性。大表關(guān)聯(lián)查詢和嵌套查詢技術(shù)XData系統(tǒng)針對(duì)大表關(guān)聯(lián)和大表嵌套等復(fù)雜計(jì)算進(jìn)行了技術(shù)攻關(guān),在國(guó)內(nèi)首次實(shí)現(xiàn)了分布環(huán)境下的大數(shù)據(jù)關(guān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論