大數(shù)據技術體系建設方案_第1頁
大數(shù)據技術體系建設方案_第2頁
大數(shù)據技術體系建設方案_第3頁
大數(shù)據技術體系建設方案_第4頁
大數(shù)據技術體系建設方案_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據技術體系建設一、編制說明內容。數(shù)據匯聚是組織內的各類數(shù)據進行采集并處理的過程。主要目標要實現(xiàn)對結構化業(yè)務數(shù)據和非結構化數(shù)據的抽取、清洗、轉換和存儲。主要關鍵技ETLAPI等。大數(shù)據框架負責對數(shù)據系統(tǒng)中的數(shù)據進行計算,很多大數(shù)據框架已經通過Storm實時大數(shù)據計算,Hadoop離線大數(shù)據計算,Spark并行大數(shù)據計算,阿里云數(shù)據倉庫解決方案等。大數(shù)據存儲是將數(shù)量巨大、難于收集處理分析的數(shù)據持久化到計算機中。括傳統(tǒng)數(shù)據倉庫,MPPHadoop的技術擴展和封裝,大數(shù)據一體機等。大數(shù)據分析是指對數(shù)據量大、速度快、類型多、價值低的數(shù)據進行分析。主要目標是實現(xiàn)對數(shù)據資源的分析和利用。主要關鍵技術包括傳統(tǒng)BI、OLAP產品,可視化報表,數(shù)據挖掘,大數(shù)據畫像,大數(shù)據模型構建和預測等。其他相關內容,請補充。二、編制內容建設現(xiàn)狀現(xiàn)狀總體架構環(huán)評應用 監(jiān)測應用 監(jiān)察應用 應急應用 網站應用環(huán)評應用 監(jiān)測應用 監(jiān)察應用 應急應用 網站應用部領導 局機關與直屬單位 地方環(huán)保部門其他大數(shù)據管理平臺大數(shù)據綜合展示大數(shù)據資源目錄大數(shù)據智能檢索 大數(shù)據空間專題展示 大數(shù)據專題展示管控數(shù)據操作臺數(shù)據并行分析計算大數(shù)據分析支撐系統(tǒng)作業(yè)調度與集群管理模型算法數(shù)據大數(shù)據建設 監(jiān)控臺安全與保密業(yè)務主題庫污染源主數(shù)據元數(shù)據庫文件其他關系型數(shù)據庫NOSQL時序數(shù)據庫分布式文件系統(tǒng)數(shù)據服務臺標準規(guī)范數(shù)據集成與整合系統(tǒng)環(huán)保內部數(shù)據數(shù)據源環(huán)保外部數(shù)據其他數(shù)據環(huán)保云平臺圖錯誤!文檔中沒有指定樣式的文字??傮w架構行業(yè)云平臺大數(shù)據管理平臺建設完成后將按照生態(tài)環(huán)境大數(shù)據建設項目總體要求,部署在行業(yè)云平臺上。數(shù)據集成和整合系統(tǒng)數(shù)據源包括行業(yè)內部數(shù)據、外部委數(shù)據以及其他互聯(lián)網數(shù)據,統(tǒng)一規(guī)范各業(yè)務數(shù)據接入,實現(xiàn)數(shù)據抽取、數(shù)據校驗及錯誤處理、數(shù)據清洗轉換及加載、空間及業(yè)務對象關聯(lián)等數(shù)據集成工作,為各業(yè)務應用提供高質量的數(shù)據應用。數(shù)據庫建設NOSQL數(shù)據庫、量數(shù)據存儲管理。大數(shù)據分析支撐系統(tǒng)BI,利用現(xiàn)有的報表工具實現(xiàn)。大數(shù)據資源管控接口,能夠提供內、外部的數(shù)據共享服務。大數(shù)據綜合展示務。標準規(guī)范建設存在問題物理架構物理架構問題描述存儲問題存儲問題存儲設備空間不足,日常備份完成后,需要將數(shù)據備份文件剪切到移動存儲上,保證資源中心存儲量的正常使用。硬件設備不穩(wěn)定例如:資源中心從監(jiān)測總站抽取數(shù)據時,總站的服務數(shù)據存儲層器經常出現(xiàn)硬件故障,有時一個月5次損壞,造成數(shù)據交換不穩(wěn)定。故障恢復時間長例如:監(jiān)測總站服務器出現(xiàn)故障后,因資源中心沒有權限運維該部分服務器,我們只能及時聯(lián)系對方,對方排查問題,修復,這一過程時間較長。資源中心目前為目前資源中心應用是單節(jié)點部署,架構未采用集群方應用層單節(jié)點應用式。規(guī)劃對標重點任方案 任務點 說務

任務完成情況生態(tài)合共享環(huán)境大數(shù)據建設總體方案統(tǒng)籌建設大數(shù)

能力。

式,提高對大氣、水、土壤、生種污染源全面感知和實時監(jiān)控能保數(shù)據及時上報和信息安全。大數(shù)據管理平臺是數(shù)據資源傳輸交換、存儲管理和分析處理的平臺,為大數(shù)據應用提供統(tǒng)一的數(shù)據支撐服務。主要實現(xiàn)數(shù)據傳輸交換、管理監(jiān)控、共享開放、分析挖掘等基

建設大數(shù)據管理平儲能力。據平臺 臺。

本功能,支撐分布式計算、流式數(shù)據處理、大數(shù)據關聯(lián)分析、趨勢分析、空間分析,支撐大數(shù)據產品研發(fā)和應用。

上持續(xù)建設。未來規(guī)劃建設目標型支持能力,為各類大數(shù)據應用建設政府科學決策提供支撐持依據。建設內容1、服務節(jié)點和基礎存儲能力升級:升級現(xiàn)有平臺,擴展相應管理節(jié)點、存儲節(jié)點、接入節(jié)點、應用節(jié)點,實現(xiàn)2PB的存儲量。2、升級大數(shù)據管理平臺:提升大數(shù)據存儲管理能力,擴展大數(shù)據彈性分析引擎、大數(shù)據彈性流處理引擎、大數(shù)據彈性計算引擎、大數(shù)據統(tǒng)計查詢引擎、大數(shù)據檢索引擎,為大數(shù)據匯集、分析做好支撐。3、開發(fā)大數(shù)據支撐服務平臺:增加大數(shù)據分析支撐服務能力,包括基礎組織支持、大數(shù)據分析支持、大數(shù)據可視化支持、大數(shù)據運維模型支撐等內容,為業(yè)務應用分析做好支撐。4、平臺非功能性建設:從高可用、安全、可擴展行、性能上進行整體設計及升級。建設方案總體架構如圖總體架構總體架構主要包括以下幾部分,其中標識紫色的部分是現(xiàn)在已搭建部分功能,紅色部分是現(xiàn)在已初步建成,其余為后續(xù)陸續(xù)建立。大數(shù)據平臺大數(shù)據平臺包括生態(tài)大數(shù)據湖、一體化分析引擎、一體化查詢引擎、一體化檢索引擎、自動化運維五部分,平臺基于大數(shù)據技術搭建,實現(xiàn)環(huán)境信息資源中心基礎支撐能力?,F(xiàn)已初步建立一體化查詢引擎、一體化檢索引擎。數(shù)據采集接入數(shù)據源包括行業(yè)內部數(shù)據、外部委數(shù)據以及其他互聯(lián)網數(shù)據,統(tǒng)一規(guī)范各業(yè)務數(shù)據接入,實現(xiàn)數(shù)據抽取、數(shù)據校驗及錯誤處理、數(shù)據清洗轉換及加載、空間及業(yè)務對象關聯(lián)等數(shù)據集成工作,為各業(yè)務應用提供高質量的數(shù)據應用。數(shù)據治理與深度融合數(shù)據治理與深度融合包括大數(shù)據治理、大數(shù)據融合、數(shù)據資源綜合監(jiān)控、數(shù)據資產評估?,F(xiàn)在已初步形成數(shù)據資源綜合監(jiān)控,正在進行可視化升級。訪問服務、分析服務、功能服務平臺支持三種數(shù)據服務,現(xiàn)階段只初步實現(xiàn)了業(yè)務數(shù)據訪問、目錄數(shù)據訪問及部分專題數(shù)據訪問功能。生態(tài)環(huán)境大數(shù)據資產服務目錄現(xiàn)已建立基于環(huán)境業(yè)務、組織機構、環(huán)境要素、業(yè)務系統(tǒng)四大目錄分類,初步形成大數(shù)據資產服務目錄。后續(xù)需要在目錄分發(fā)、目錄審核等方面持續(xù)升級。技術架構web層。其中采集層、存儲計算層主要是基于hadoop和docker的技術體系,webj2ee技術體系實現(xiàn)。接口層技術協(xié)議(REST,JavaSDK,JDBC)接口層技術協(xié)議(REST,JavaSDK,JDBC)數(shù)據協(xié)議(XML,JSON,Binary)JqueryJspNodeJsReactHtml其他web應用層應用支撐(報表工具,在線查看工具)應用服務器(Tomcat)分布式計算引擎(R,MR)時序數(shù)據查詢引擎SQLonHadoop引擎IMPALA/HIVE環(huán)??焖裇olr元數(shù)據存儲資源調度框架(YARN)存儲計算層(mysql)序列化(Avro)時序數(shù)據 NoSQL數(shù)據 并行計算框架倉庫 庫(hbase) (MapReduce)列式存儲(Parquet)關系數(shù)據庫DB2分布式文件系統(tǒng)(HDFS)實時流計算(Storm)分布式程序協(xié)調(zookeeper)采集層分布式消息隊列(Kafka)ETL工具(關系型數(shù)據、文件)中間庫層關系數(shù)據庫(DB2)文件系統(tǒng)ETL推送中間庫層關系數(shù)據庫(DB2)文件系統(tǒng)ETL推送數(shù)據源層關系型數(shù)據文件數(shù)據流數(shù)據權限管理集群管理元數(shù)據管理任務管理模型庫管理平臺管理數(shù)據監(jiān)控hadoop的大數(shù)據存儲和分析大數(shù)據的存儲與計算采用基于或圍繞hadoop衍生擴展而出的相關大數(shù)據hadoophadoop來實現(xiàn)對結構化、半結構化、非結構化大數(shù)據存儲、分析的支撐。docker技術的系統(tǒng)部署dockerdocker是一個開源的應用容器linux相互之間不會有任何接口。j2eeweb應用j2ee技術體系具有跨平臺的特性,j2eeB/S架構,利用成熟的開發(fā)平臺,進行功能層面的開發(fā)。重點系統(tǒng)層介紹:采集層etlkafkastorm這些數(shù)據具有數(shù)據量大、實時性高等特點,比如:環(huán)境質量監(jiān)測數(shù)據;etl工具將db2etl工具處理。存儲計算層dockerhadoophadoop的各docker容器安裝的,這樣有利于資源的隔離和維護。stormozookeepehdfshadoop體系hbasehadoopyarnhadoop中mapReduceR語言,sqlonhadoopimpala、hive開源框架。web應用層webj2eeB/Stomcat,j2ee開發(fā);文檔在線查看工具是通過開源工具aspose轉換為pdf或者html,然后瀏覽器通過pdf瀏覽插件或瀏覽器自身進行查看。最上層采用jsp,html,jquery等進行實現(xiàn)頁面展現(xiàn)與交互。物理架構DMZDMZ政務網業(yè)務應用數(shù)據庫故障轉移集群關系型數(shù)據庫集大數(shù)據集群OracleRACU3管理節(jié)點流處理節(jié)點 搜索節(jié)點應用節(jié)點業(yè)務1業(yè)務2U3負載均衡業(yè)務3業(yè)務4Node1 Node2數(shù)據節(jié)點N…核心交換機 核心交換機業(yè)務...業(yè)務nNode... NodeN文件服務器故障轉移集群數(shù)據交換集群JobTracker防火墻文件服務器故障轉移集群數(shù)據交換集群JobTracker負載均衡業(yè)務應用緩存服務集群業(yè)務1業(yè)務2TaskTrackerSlaveTaskTrackerWEB服務器業(yè)務3業(yè)務4MasterU3U3業(yè)務...業(yè)務nSlave政務網區(qū):物理機(見上圖淺綠色部分,其余節(jié)點均可為云虛機。OracleRAC設備上。大數(shù)據平臺采用分布式集群部署,在其基礎之上提供的WEB應用采用Nginx(單活)做負載均衡。Nginx(單活Tomcat群。數(shù)據交換采用分布式集群部署。文件服務器采用兩臺云虛機,采用故障轉移集群(單活專用存儲設備上。緩存服務器提供數(shù)據緩存和緩沖的功能,采用集群部署。DMZ區(qū)DMZ區(qū)全部由云平臺提供云虛機。本區(qū)域的業(yè)務應用多為第三方廠商提供,不做具體規(guī)劃。本區(qū)域的文件服務器、數(shù)據交換集群架構同專網區(qū)域。數(shù)據存儲在專用存儲設備上。大數(shù)據管理平臺配置需求角色大數(shù)據管理平臺配置需求角色類型型號個數(shù)備注整機需求數(shù)量cpumasterIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10104GB緩存10Gb光口雙端口IntelE5-2697V4或2個內存系統(tǒng)盤數(shù)據磁盤16個24raid1),雙電2raid網卡2個cpu2個批處理/存儲節(jié)點(系統(tǒng)盤做數(shù)據盤做單盤 20raid0或無raid),雙電內存金牌614032GDDR48個batch 系統(tǒng)盤SASSSD480GB2個數(shù)據磁盤SASSSD1.92TB4個數(shù)據磁盤SAS/SATA720012TB8個raidraidRaid10104GB緩存網卡10Gb光口 雙端口2個cpustreamIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10106GB緩存2個內存系統(tǒng)盤數(shù)據磁盤828流處理節(jié)點(系統(tǒng)raid1,數(shù)據raid0無raid),雙電4raid網卡10Gb光口 雙端口2個cpuIn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論