




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)采集整編系統(tǒng)解決方案系統(tǒng)功能概述針對XXX系統(tǒng)進(jìn)行開發(fā)信息系統(tǒng)數(shù)據(jù)、行業(yè)部委的交換數(shù)據(jù)、互聯(lián)網(wǎng)上的相關(guān)數(shù)據(jù)等,將分散在不同數(shù)據(jù)來源的數(shù)據(jù)統(tǒng)一匯集到統(tǒng)一的服務(wù)中,并實現(xiàn)數(shù)據(jù)的動態(tài)更新?;跀?shù)據(jù)調(diào)研成果,梳理確定各應(yīng)用系統(tǒng)的數(shù)據(jù)對象、數(shù)據(jù)關(guān)系、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)字典等;并確定采集各應(yīng)用系統(tǒng)數(shù)據(jù)的具體方式,包括數(shù)據(jù)抽取、服務(wù)接口、數(shù)據(jù)直報等多渠道數(shù)據(jù)接入方式。通報數(shù)據(jù)采集數(shù)枷需求管理采報任務(wù)管理報衣輔助謾口數(shù)據(jù)采集報表管理系統(tǒng)笆理數(shù)據(jù)采集整編子系統(tǒng)主要包括通用數(shù)據(jù)填報、網(wǎng)絡(luò)情報數(shù)據(jù)采集和數(shù)據(jù)整編等三大模塊,系統(tǒng)架構(gòu)如下圖:網(wǎng)絡(luò)怙報數(shù)據(jù)采集H常采集數(shù)據(jù)存儲自定義模板設(shè)il采集策略維護(hù)采集監(jiān)控采集信息
2、檢索數(shù)據(jù)整編模塊數(shù)據(jù)清洗。轉(zhuǎn)換匚作流執(zhí)行引孽數(shù)出皿"川載數(shù)據(jù)集成與約簡可視化I:作流設(shè)計:、數(shù)據(jù)流轉(zhuǎn)塊設(shè)計數(shù)據(jù)來源數(shù)據(jù)采集SBlK姑構(gòu)化軟試II結(jié)構(gòu)化狗裾一空蟠,岫國網(wǎng)數(shù)據(jù)BB搟曜栗集帶我時同步H志栗集消息網(wǎng)如數(shù)州服m介如上圖所示,通過通用的報表軟件,支持多樣化、個性化設(shè)置,統(tǒng)一訪問管理模板,實現(xiàn)自定義報表的數(shù)據(jù)采集功能,大大提升數(shù)據(jù)采集效率。部署互聯(lián)網(wǎng)、行業(yè)網(wǎng)等數(shù)據(jù)采集Scrapy引擎以及采集配置管理系統(tǒng)、數(shù)據(jù)庫和文件系統(tǒng)?;谂渲玫牟杉?guī)則(網(wǎng)站URL采集時間設(shè)置等),Scrapy引擎抓取網(wǎng)站數(shù)據(jù)并存于本地數(shù)據(jù)庫和文件系統(tǒng)中。爬取的互聯(lián)網(wǎng)等網(wǎng)絡(luò)數(shù)據(jù)結(jié)果以文件形式傳輸至內(nèi)網(wǎng)側(cè),數(shù)據(jù)
3、服務(wù)平臺的ETL工具將內(nèi)網(wǎng)側(cè)的互聯(lián)網(wǎng)爬蟲數(shù)據(jù),批量抽取到數(shù)據(jù)倉庫集群中。經(jīng)分類整合加工、創(chuàng)建索引處理后將互聯(lián)網(wǎng)、綜網(wǎng)數(shù)據(jù)存儲在數(shù)據(jù)庫中。依據(jù)XX各部門業(yè)務(wù)工作過程中數(shù)據(jù)采集報送的通用需求,設(shè)計實現(xiàn)需求的采報流程,提供可視化的數(shù)據(jù)采報需求管理、快捷易用的任務(wù)列表方便用戶快速進(jìn)行任務(wù)的查看并執(zhí)行任務(wù)的相關(guān)操作,可組合多個條件進(jìn)行任務(wù)查詢篩選過濾功能,提供可視化的采報任務(wù)管理、可視化拖拉拽的報表設(shè)計及管理功能、數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)存和系統(tǒng)管理等功能。亍用廣澳pT糖電押世1物號君西ng更Ims?附。累ms當(dāng)事仁胃:甘二-常赤惟共M'3-J這a(£荃/耳擢g用;凡2On-04-3BDO.O
4、D.00利J叩后的±3.595flTMWM理樂“病】EE建人門反白在須1時4月203-<!4-?70000:00ZDiy-DS-oa立室犯網(wǎng)再inqL專培箱】ED3-I注k削中受本金腎口指Torif?q2ffl3-C3-2TCDggZULDBZtl叫號aw30S-1及工目念對學(xué)乖州I洱1軍虞油門m6mm00mu好加打95*耒”MlIF若用1-/男與厚奇日加加界5耳州價阪賽CD.00.00MLA葉毋>3:S3CT他那H.相野可屬懺口點(diǎn)訓(xùn)坪fZP33-C4-Z700ZU11-U5-IXI23:S驪-a1F片府啊修,響費(fèi)三底用打不院指皿8帥ZllADSTU番:制軸zos-wM用
5、以3-清身與庫市明1/日指加1.-H如XMrZTDD0D00M.T蚓鬟1口FWm-t於制域T信件上摩?!1剃秉rib刈3-5SHE?DD»00制什Q卜國23:S9n7a»Mr回脅收Efl】赤tr-.k-n-ii皿嚴(yán)晶氏次壟忖Ni說界市201均一事廢然有毋TJ?»:»:«劃,AQ57E勢;由麓蟹市1曰5豆嚴(yán).wra與庫存耳強(qiáng),得4句2DJ3-L4-W33znLi-ut-ra必3ivzmF作蔣生產(chǎn)-用些3座在目并用1.嘩,目mgoIMnrm提供數(shù)據(jù)需求提報的手段,為戰(zhàn)略規(guī)劃辦制定年度采報計劃或臨時啟動采報任務(wù)提供需求依據(jù)。數(shù)據(jù)來自采集終端形成的數(shù)據(jù)
6、報表和數(shù)據(jù)文件、存儲在各種業(yè)務(wù)數(shù)據(jù)庫/數(shù)據(jù)倉庫中的結(jié)構(gòu)化數(shù)據(jù),以及HTML/XML/JSON/BSO噂各類半結(jié)構(gòu)化、pdf文檔、word文檔、圖片、多媒體等非結(jié)構(gòu)化海量數(shù)據(jù)。四、網(wǎng)絡(luò)情報數(shù)據(jù)采集網(wǎng)絡(luò)情報數(shù)據(jù)采集系統(tǒng)負(fù)責(zé)面向網(wǎng)絡(luò)采集以網(wǎng)頁文件為主的數(shù)據(jù)資源采集相關(guān)數(shù)據(jù)等,可通過配置信息,將分散在不同網(wǎng)絡(luò)海量網(wǎng)頁素材的數(shù)據(jù)統(tǒng)一采集,并實現(xiàn)數(shù)據(jù)的動態(tài)更新,監(jiān)控數(shù)據(jù)采集進(jìn)度,采集日志信息查詢,采集任務(wù)結(jié)果展示,以及對采集任務(wù)的啟停功能的控制。如下圖所示,作業(yè)管理工具作為數(shù)據(jù)預(yù)處理的圖形化工具,采用web交互的方式,提供工作流的調(diào)度實現(xiàn)數(shù)據(jù)接入和數(shù)據(jù)流轉(zhuǎn)ETL可視化界面實現(xiàn)對起始站點(diǎn)的配置,實現(xiàn)日常采集
7、任務(wù)的控制,任務(wù)執(zhí)行狀態(tài)及時間的監(jiān)控,啟停功能監(jiān)控,以及任務(wù)采集的日志維護(hù)。涵五、數(shù)據(jù)整編模塊依據(jù)戰(zhàn)略規(guī)劃數(shù)據(jù)資源體系相關(guān)的標(biāo)準(zhǔn)規(guī)范,對于從不同渠道采集來的數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取與加載、清洗與轉(zhuǎn)換、集成與約簡??蛇m配各類數(shù)據(jù)源,可直接從Oracle/DB2等傳統(tǒng)關(guān)系數(shù)據(jù)庫將數(shù)據(jù)導(dǎo)入至數(shù)據(jù)服務(wù)平臺,在不失效率的情況下避免了使用Sqoop帶了的步驟繁瑣,類型轉(zhuǎn)換復(fù)雜等應(yīng)用場景。支持CSV定長文件,JSONXML等文件的導(dǎo)入。如下圖所示,數(shù)據(jù)清洗工作是獨(dú)立于業(yè)務(wù)庫,是在不影響業(yè)務(wù)庫的情況下進(jìn)行的。通過數(shù)據(jù)清洗融合工作把臟數(shù)據(jù)清洗掉,提高數(shù)據(jù)質(zhì)量,便于清洗后數(shù)據(jù)在數(shù)據(jù)模型當(dāng)中呈現(xiàn),變?yōu)楦蓛魩臁?。?shù)據(jù)轉(zhuǎn)換,基
8、于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換、基于模型與學(xué)習(xí)的轉(zhuǎn)換等技術(shù),可通過轉(zhuǎn)換實現(xiàn)數(shù)據(jù)統(tǒng)一。數(shù)據(jù)分析工具可實現(xiàn)數(shù)據(jù)校驗、數(shù)據(jù)缺失值處理、數(shù)據(jù)去重、數(shù)據(jù)過濾、數(shù)據(jù)光滑去噪、數(shù)據(jù)補(bǔ)全、數(shù)據(jù)格式和精度轉(zhuǎn)換等功能。數(shù)據(jù)清洗前,對業(yè)務(wù)邏輯進(jìn)行梳理,在數(shù)據(jù)模型的指導(dǎo)下,編制信息資源庫的目錄,并設(shè)計清洗規(guī)則。根據(jù)數(shù)據(jù)問題的特性,對于可通過技術(shù)方式修復(fù)的數(shù)據(jù),借助ETLX具進(jìn)行清洗,對于不可技術(shù)修復(fù)的數(shù)據(jù),借助工單系統(tǒng)進(jìn)行人工清洗。清洗的結(jié)果是數(shù)據(jù)治理成果的體現(xiàn),要對省戰(zhàn)略規(guī)劃部進(jìn)行反饋,同時為了保障清洗規(guī)則的準(zhǔn)確,需要周期性檢測清洗規(guī)則,對有缺陷的規(guī)則進(jìn)行調(diào)整優(yōu)化。六、可視化處理工作流設(shè)計可視化工作流調(diào)度工具能夠可視化進(jìn)行數(shù)據(jù)處理工作流的設(shè)計,對數(shù)據(jù)處理方案進(jìn)行任務(wù)化管理,實現(xiàn)執(zhí)行日志記錄和審計,多任務(wù)運(yùn)行資源自動調(diào)度等功能。工作流調(diào)度DAG設(shè)計與管理的圖形化工具,支持Shell、SQLJDBCHTTP等任務(wù)類型,以及自定義Java任務(wù)。用戶設(shè)定好任務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國貼劑行業(yè)發(fā)展現(xiàn)狀及前景規(guī)劃研究報告
- 2025-2030年中國稀土冶煉分離市場運(yùn)行動態(tài)及發(fā)展前景分析報告
- 2025甘肅省安全員考試題庫附答案
- 南京醫(yī)科大學(xué)《課程論文寫作與學(xué)術(shù)規(guī)范》2023-2024學(xué)年第二學(xué)期期末試卷
- 黔西南民族職業(yè)技術(shù)學(xué)院《外國建筑史》2023-2024學(xué)年第二學(xué)期期末試卷
- 青海交通職業(yè)技術(shù)學(xué)院《傳感檢測技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津商業(yè)大學(xué)《學(xué)術(shù)論文選題與寫作》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北大學(xué)《財務(wù)會計一》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025上海市建筑安全員考試題庫及答案
- 西藏大學(xué)《軟件交互設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 開學(xué)安全第一課主題班會課件
- 新版《醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范》(2024)培訓(xùn)試題及答案
- 2025年人教版數(shù)學(xué)五年級下冊教學(xué)計劃(含進(jìn)度表)
- 2025年初級社會工作者綜合能力全國考試題庫(含答案)
- 2024年我國人口老齡化問題與對策
- 中心靜脈壓測量技術(shù)-中華護(hù)理學(xué)會團(tuán)體標(biāo)準(zhǔn)2023
- 部編人教版二年級道德與法治下冊同步練習(xí)(全冊)
- 數(shù)量金融的概況和歷史課件
- 專業(yè)醫(yī)院lovo常用文件產(chǎn)品介紹customer presentation
- 叉車日常使用狀況點(diǎn)檢記錄表(日常檢查記錄)
- ME基礎(chǔ)知識培訓(xùn)PPT學(xué)習(xí)教案
評論
0/150
提交評論