大數(shù)據(jù)技術(shù)體系建設(shè)方案_第1頁(yè)
大數(shù)據(jù)技術(shù)體系建設(shè)方案_第2頁(yè)
大數(shù)據(jù)技術(shù)體系建設(shè)方案_第3頁(yè)
大數(shù)據(jù)技術(shù)體系建設(shè)方案_第4頁(yè)
大數(shù)據(jù)技術(shù)體系建設(shè)方案_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)體系建設(shè)一、編制說明內(nèi)容。數(shù)據(jù)匯聚是組織內(nèi)的各類數(shù)據(jù)進(jìn)行采集并處理的過程。主要目標(biāo)要實(shí)現(xiàn)對(duì)結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和存儲(chǔ)。主要關(guān)鍵技ETLAPI等。大數(shù)據(jù)框架負(fù)責(zé)對(duì)數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進(jìn)行計(jì)算,很多大數(shù)據(jù)框架已經(jīng)通過Storm實(shí)時(shí)大數(shù)據(jù)計(jì)算,Hadoop離線大數(shù)據(jù)計(jì)算,Spark并行大數(shù)據(jù)計(jì)算,阿里云數(shù)據(jù)倉(cāng)庫(kù)解決方案等。大數(shù)據(jù)存儲(chǔ)是將數(shù)量巨大、難于收集處理分析的數(shù)據(jù)持久化到計(jì)算機(jī)中。括傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),MPPHadoop的技術(shù)擴(kuò)展和封裝,大數(shù)據(jù)一體機(jī)等。大數(shù)據(jù)分析是指對(duì)數(shù)據(jù)量大、速度快、類型多、價(jià)值低的數(shù)據(jù)進(jìn)行分析。主要目標(biāo)是實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的分析和利用。主要關(guān)鍵技術(shù)包括傳統(tǒng)BI、OLAP產(chǎn)品,可視化報(bào)表,數(shù)據(jù)挖掘,大數(shù)據(jù)畫像,大數(shù)據(jù)模型構(gòu)建和預(yù)測(cè)等。其他相關(guān)內(nèi)容,請(qǐng)補(bǔ)充。二、編制內(nèi)容建設(shè)現(xiàn)狀現(xiàn)狀總體架構(gòu)環(huán)評(píng)應(yīng)用 監(jiān)測(cè)應(yīng)用 監(jiān)察應(yīng)用 應(yīng)急應(yīng)用 網(wǎng)站應(yīng)用環(huán)評(píng)應(yīng)用 監(jiān)測(cè)應(yīng)用 監(jiān)察應(yīng)用 應(yīng)急應(yīng)用 網(wǎng)站應(yīng)用部領(lǐng)導(dǎo) 局機(jī)關(guān)與直屬單位 地方環(huán)保部門其他大數(shù)據(jù)管理平臺(tái)大數(shù)據(jù)綜合展示大數(shù)據(jù)資源目錄大數(shù)據(jù)智能檢索 大數(shù)據(jù)空間專題展示 大數(shù)據(jù)專題展示管控?cái)?shù)據(jù)操作臺(tái)數(shù)據(jù)并行分析計(jì)算大數(shù)據(jù)分析支撐系統(tǒng)作業(yè)調(diào)度與集群管理模型算法數(shù)據(jù)大數(shù)據(jù)建設(shè) 監(jiān)控臺(tái)安全與保密業(yè)務(wù)主題庫(kù)污染源主數(shù)據(jù)元數(shù)據(jù)庫(kù)文件其他關(guān)系型數(shù)據(jù)庫(kù)NOSQL時(shí)序數(shù)據(jù)庫(kù)分布式文件系統(tǒng)數(shù)據(jù)服務(wù)臺(tái)標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)集成與整合系統(tǒng)環(huán)保內(nèi)部數(shù)據(jù)數(shù)據(jù)源環(huán)保外部數(shù)據(jù)其他數(shù)據(jù)環(huán)保云平臺(tái)圖錯(cuò)誤!文檔中沒有指定樣式的文字??傮w架構(gòu)行業(yè)云平臺(tái)大數(shù)據(jù)管理平臺(tái)建設(shè)完成后將按照生態(tài)環(huán)境大數(shù)據(jù)建設(shè)項(xiàng)目總體要求,部署在行業(yè)云平臺(tái)上。數(shù)據(jù)集成和整合系統(tǒng)數(shù)據(jù)源包括行業(yè)內(nèi)部數(shù)據(jù)、外部委數(shù)據(jù)以及其他互聯(lián)網(wǎng)數(shù)據(jù),統(tǒng)一規(guī)范各業(yè)務(wù)數(shù)據(jù)接入,實(shí)現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)校驗(yàn)及錯(cuò)誤處理、數(shù)據(jù)清洗轉(zhuǎn)換及加載、空間及業(yè)務(wù)對(duì)象關(guān)聯(lián)等數(shù)據(jù)集成工作,為各業(yè)務(wù)應(yīng)用提供高質(zhì)量的數(shù)據(jù)應(yīng)用。數(shù)據(jù)庫(kù)建設(shè)NOSQL數(shù)據(jù)庫(kù)、量數(shù)據(jù)存儲(chǔ)管理。大數(shù)據(jù)分析支撐系統(tǒng)BI,利用現(xiàn)有的報(bào)表工具實(shí)現(xiàn)。大數(shù)據(jù)資源管控接口,能夠提供內(nèi)、外部的數(shù)據(jù)共享服務(wù)。大數(shù)據(jù)綜合展示務(wù)。標(biāo)準(zhǔn)規(guī)范建設(shè)存在問題物理架構(gòu)物理架構(gòu)問題描述存儲(chǔ)問題存儲(chǔ)問題存儲(chǔ)設(shè)備空間不足,日常備份完成后,需要將數(shù)據(jù)備份文件剪切到移動(dòng)存儲(chǔ)上,保證資源中心存儲(chǔ)量的正常使用。硬件設(shè)備不穩(wěn)定例如:資源中心從監(jiān)測(cè)總站抽取數(shù)據(jù)時(shí),總站的服務(wù)數(shù)據(jù)存儲(chǔ)層器經(jīng)常出現(xiàn)硬件故障,有時(shí)一個(gè)月5次損壞,造成數(shù)據(jù)交換不穩(wěn)定。故障恢復(fù)時(shí)間長(zhǎng)例如:監(jiān)測(cè)總站服務(wù)器出現(xiàn)故障后,因資源中心沒有權(quán)限運(yùn)維該部分服務(wù)器,我們只能及時(shí)聯(lián)系對(duì)方,對(duì)方排查問題,修復(fù),這一過程時(shí)間較長(zhǎng)。資源中心目前為目前資源中心應(yīng)用是單節(jié)點(diǎn)部署,架構(gòu)未采用集群方應(yīng)用層單節(jié)點(diǎn)應(yīng)用式。規(guī)劃對(duì)標(biāo)重點(diǎn)任方案 任務(wù)點(diǎn) 說務(wù)

任務(wù)完成情況生態(tài)合共享環(huán)境大數(shù)據(jù)建設(shè)總體方案統(tǒng)籌建設(shè)大數(shù)

能力。

式,提高對(duì)大氣、水、土壤、生種污染源全面感知和實(shí)時(shí)監(jiān)控能保數(shù)據(jù)及時(shí)上報(bào)和信息安全。大數(shù)據(jù)管理平臺(tái)是數(shù)據(jù)資源傳輸交換、存儲(chǔ)管理和分析處理的平臺(tái),為大數(shù)據(jù)應(yīng)用提供統(tǒng)一的數(shù)據(jù)支撐服務(wù)。主要實(shí)現(xiàn)數(shù)據(jù)傳輸交換、管理監(jiān)控、共享開放、分析挖掘等基

建設(shè)大數(shù)據(jù)管理平儲(chǔ)能力。據(jù)平臺(tái) 臺(tái)。

本功能,支撐分布式計(jì)算、流式數(shù)據(jù)處理、大數(shù)據(jù)關(guān)聯(lián)分析、趨勢(shì)分析、空間分析,支撐大數(shù)據(jù)產(chǎn)品研發(fā)和應(yīng)用。

上持續(xù)建設(shè)。未來規(guī)劃建設(shè)目標(biāo)型支持能力,為各類大數(shù)據(jù)應(yīng)用建設(shè)政府科學(xué)決策提供支撐持依據(jù)。建設(shè)內(nèi)容1、服務(wù)節(jié)點(diǎn)和基礎(chǔ)存儲(chǔ)能力升級(jí):升級(jí)現(xiàn)有平臺(tái),擴(kuò)展相應(yīng)管理節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)、接入節(jié)點(diǎn)、應(yīng)用節(jié)點(diǎn),實(shí)現(xiàn)2PB的存儲(chǔ)量。2、升級(jí)大數(shù)據(jù)管理平臺(tái):提升大數(shù)據(jù)存儲(chǔ)管理能力,擴(kuò)展大數(shù)據(jù)彈性分析引擎、大數(shù)據(jù)彈性流處理引擎、大數(shù)據(jù)彈性計(jì)算引擎、大數(shù)據(jù)統(tǒng)計(jì)查詢引擎、大數(shù)據(jù)檢索引擎,為大數(shù)據(jù)匯集、分析做好支撐。3、開發(fā)大數(shù)據(jù)支撐服務(wù)平臺(tái):增加大數(shù)據(jù)分析支撐服務(wù)能力,包括基礎(chǔ)組織支持、大數(shù)據(jù)分析支持、大數(shù)據(jù)可視化支持、大數(shù)據(jù)運(yùn)維模型支撐等內(nèi)容,為業(yè)務(wù)應(yīng)用分析做好支撐。4、平臺(tái)非功能性建設(shè):從高可用、安全、可擴(kuò)展行、性能上進(jìn)行整體設(shè)計(jì)及升級(jí)。建設(shè)方案總體架構(gòu)如圖總體架構(gòu)總體架構(gòu)主要包括以下幾部分,其中標(biāo)識(shí)紫色的部分是現(xiàn)在已搭建部分功能,紅色部分是現(xiàn)在已初步建成,其余為后續(xù)陸續(xù)建立。大數(shù)據(jù)平臺(tái)大數(shù)據(jù)平臺(tái)包括生態(tài)大數(shù)據(jù)湖、一體化分析引擎、一體化查詢引擎、一體化檢索引擎、自動(dòng)化運(yùn)維五部分,平臺(tái)基于大數(shù)據(jù)技術(shù)搭建,實(shí)現(xiàn)環(huán)境信息資源中心基礎(chǔ)支撐能力?,F(xiàn)已初步建立一體化查詢引擎、一體化檢索引擎。數(shù)據(jù)采集接入數(shù)據(jù)源包括行業(yè)內(nèi)部數(shù)據(jù)、外部委數(shù)據(jù)以及其他互聯(lián)網(wǎng)數(shù)據(jù),統(tǒng)一規(guī)范各業(yè)務(wù)數(shù)據(jù)接入,實(shí)現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)校驗(yàn)及錯(cuò)誤處理、數(shù)據(jù)清洗轉(zhuǎn)換及加載、空間及業(yè)務(wù)對(duì)象關(guān)聯(lián)等數(shù)據(jù)集成工作,為各業(yè)務(wù)應(yīng)用提供高質(zhì)量的數(shù)據(jù)應(yīng)用。數(shù)據(jù)治理與深度融合數(shù)據(jù)治理與深度融合包括大數(shù)據(jù)治理、大數(shù)據(jù)融合、數(shù)據(jù)資源綜合監(jiān)控、數(shù)據(jù)資產(chǎn)評(píng)估?,F(xiàn)在已初步形成數(shù)據(jù)資源綜合監(jiān)控,正在進(jìn)行可視化升級(jí)。訪問服務(wù)、分析服務(wù)、功能服務(wù)平臺(tái)支持三種數(shù)據(jù)服務(wù),現(xiàn)階段只初步實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)訪問、目錄數(shù)據(jù)訪問及部分專題數(shù)據(jù)訪問功能。生態(tài)環(huán)境大數(shù)據(jù)資產(chǎn)服務(wù)目錄現(xiàn)已建立基于環(huán)境業(yè)務(wù)、組織機(jī)構(gòu)、環(huán)境要素、業(yè)務(wù)系統(tǒng)四大目錄分類,初步形成大數(shù)據(jù)資產(chǎn)服務(wù)目錄。后續(xù)需要在目錄分發(fā)、目錄審核等方面持續(xù)升級(jí)。技術(shù)架構(gòu)web層。其中采集層、存儲(chǔ)計(jì)算層主要是基于hadoop和docker的技術(shù)體系,webj2ee技術(shù)體系實(shí)現(xiàn)。接口層技術(shù)協(xié)議(REST,JavaSDK,JDBC)接口層技術(shù)協(xié)議(REST,JavaSDK,JDBC)數(shù)據(jù)協(xié)議(XML,JSON,Binary)JqueryJspNodeJsReactHtml其他web應(yīng)用層應(yīng)用支撐(報(bào)表工具,在線查看工具)應(yīng)用服務(wù)器(Tomcat)分布式計(jì)算引擎(R,MR)時(shí)序數(shù)據(jù)查詢引擎SQLonHadoop引擎IMPALA/HIVE環(huán)保快搜Solr元數(shù)據(jù)存儲(chǔ)資源調(diào)度框架(YARN)存儲(chǔ)計(jì)算層(mysql)序列化(Avro)時(shí)序數(shù)據(jù) NoSQL數(shù)據(jù) 并行計(jì)算框架倉(cāng)庫(kù) 庫(kù)(hbase) (MapReduce)列式存儲(chǔ)(Parquet)關(guān)系數(shù)據(jù)庫(kù)DB2分布式文件系統(tǒng)(HDFS)實(shí)時(shí)流計(jì)算(Storm)分布式程序協(xié)調(diào)(zookeeper)采集層分布式消息隊(duì)列(Kafka)ETL工具(關(guān)系型數(shù)據(jù)、文件)中間庫(kù)層關(guān)系數(shù)據(jù)庫(kù)(DB2)文件系統(tǒng)ETL推送中間庫(kù)層關(guān)系數(shù)據(jù)庫(kù)(DB2)文件系統(tǒng)ETL推送數(shù)據(jù)源層關(guān)系型數(shù)據(jù)文件數(shù)據(jù)流數(shù)據(jù)權(quán)限管理集群管理元數(shù)據(jù)管理任務(wù)管理模型庫(kù)管理平臺(tái)管理數(shù)據(jù)監(jiān)控hadoop的大數(shù)據(jù)存儲(chǔ)和分析大數(shù)據(jù)的存儲(chǔ)與計(jì)算采用基于或圍繞hadoop衍生擴(kuò)展而出的相關(guān)大數(shù)據(jù)hadoophadoop來實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)存儲(chǔ)、分析的支撐。docker技術(shù)的系統(tǒng)部署dockerdocker是一個(gè)開源的應(yīng)用容器linux相互之間不會(huì)有任何接口。j2eeweb應(yīng)用j2ee技術(shù)體系具有跨平臺(tái)的特性,j2eeB/S架構(gòu),利用成熟的開發(fā)平臺(tái),進(jìn)行功能層面的開發(fā)。重點(diǎn)系統(tǒng)層介紹:采集層etlkafkastorm這些數(shù)據(jù)具有數(shù)據(jù)量大、實(shí)時(shí)性高等特點(diǎn),比如:環(huán)境質(zhì)量監(jiān)測(cè)數(shù)據(jù);etl工具將db2etl工具處理。存儲(chǔ)計(jì)算層dockerhadoophadoop的各docker容器安裝的,這樣有利于資源的隔離和維護(hù)。stormozookeepehdfshadoop體系hbasehadoopyarnhadoop中mapReduceR語(yǔ)言,sqlonhadoopimpala、hive開源框架。web應(yīng)用層webj2eeB/Stomcat,j2ee開發(fā);文檔在線查看工具是通過開源工具aspose轉(zhuǎn)換為pdf或者h(yuǎn)tml,然后瀏覽器通過pdf瀏覽插件或?yàn)g覽器自身進(jìn)行查看。最上層采用jsp,html,jquery等進(jìn)行實(shí)現(xiàn)頁(yè)面展現(xiàn)與交互。物理架構(gòu)DMZDMZ政務(wù)網(wǎng)業(yè)務(wù)應(yīng)用數(shù)據(jù)庫(kù)故障轉(zhuǎn)移集群關(guān)系型數(shù)據(jù)庫(kù)集大數(shù)據(jù)集群OracleRACU3管理節(jié)點(diǎn)流處理節(jié)點(diǎn) 搜索節(jié)點(diǎn)應(yīng)用節(jié)點(diǎn)業(yè)務(wù)1業(yè)務(wù)2U3負(fù)載均衡業(yè)務(wù)3業(yè)務(wù)4Node1 Node2數(shù)據(jù)節(jié)點(diǎn)N…核心交換機(jī) 核心交換機(jī)業(yè)務(wù)...業(yè)務(wù)nNode... NodeN文件服務(wù)器故障轉(zhuǎn)移集群數(shù)據(jù)交換集群JobTracker防火墻文件服務(wù)器故障轉(zhuǎn)移集群數(shù)據(jù)交換集群JobTracker負(fù)載均衡業(yè)務(wù)應(yīng)用緩存服務(wù)集群業(yè)務(wù)1業(yè)務(wù)2TaskTrackerSlaveTaskTrackerWEB服務(wù)器業(yè)務(wù)3業(yè)務(wù)4MasterU3U3業(yè)務(wù)...業(yè)務(wù)nSlave政務(wù)網(wǎng)區(qū):物理機(jī)(見上圖淺綠色部分,其余節(jié)點(diǎn)均可為云虛機(jī)。OracleRAC設(shè)備上。大數(shù)據(jù)平臺(tái)采用分布式集群部署,在其基礎(chǔ)之上提供的WEB應(yīng)用采用Nginx(單活)做負(fù)載均衡。Nginx(單活Tomcat群。數(shù)據(jù)交換采用分布式集群部署。文件服務(wù)器采用兩臺(tái)云虛機(jī),采用故障轉(zhuǎn)移集群(單活專用存儲(chǔ)設(shè)備上。緩存服務(wù)器提供數(shù)據(jù)緩存和緩沖的功能,采用集群部署。DMZ區(qū)DMZ區(qū)全部由云平臺(tái)提供云虛機(jī)。本區(qū)域的業(yè)務(wù)應(yīng)用多為第三方廠商提供,不做具體規(guī)劃。本區(qū)域的文件服務(wù)器、數(shù)據(jù)交換集群架構(gòu)同專網(wǎng)區(qū)域。數(shù)據(jù)存儲(chǔ)在專用存儲(chǔ)設(shè)備上。大數(shù)據(jù)管理平臺(tái)配置需求角色大數(shù)據(jù)管理平臺(tái)配置需求角色類型型號(hào)個(gè)數(shù)備注整機(jī)需求數(shù)量cpumasterIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10104GB緩存10Gb光口雙端口IntelE5-2697V4或2個(gè)內(nèi)存系統(tǒng)盤數(shù)據(jù)磁盤16個(gè)24raid1),雙電2raid網(wǎng)卡2個(gè)cpu2個(gè)批處理/存儲(chǔ)節(jié)點(diǎn)(系統(tǒng)盤做數(shù)據(jù)盤做單盤 20raid0或無(wú)raid),雙電內(nèi)存金牌614032GDDR48個(gè)batch 系統(tǒng)盤SASSSD480GB2個(gè)數(shù)據(jù)磁盤SASSSD1.92TB4個(gè)數(shù)據(jù)磁盤SAS/SATA720012TB8個(gè)raidraidRaid10104GB緩存網(wǎng)卡10Gb光口 雙端口2個(gè)cpustreamIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10106GB緩存2個(gè)內(nèi)存系統(tǒng)盤數(shù)據(jù)磁盤828流處理節(jié)點(diǎn)(系統(tǒng)raid1,數(shù)據(jù)raid0無(wú)raid),雙電4raid網(wǎng)卡10Gb光口 雙端口2個(gè)cpuIn

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論