


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 基于Hadoop和Spark的可擴(kuò)展性化工類大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì) 摘 要:針對(duì)易制毒化學(xué)品數(shù)據(jù)的海量增長(zhǎng)問題,如何對(duì)這些數(shù)據(jù)進(jìn)行分析,進(jìn)而為易制毒化學(xué)品交易提供參考,是當(dāng)前思考的重點(diǎn)。對(duì)此基于易制毒化學(xué)品海量增長(zhǎng)的數(shù)據(jù),結(jié)合Hadoop和Spark各自的優(yōu)缺點(diǎn),提出一種基于Hadoop+Spark的易制毒化學(xué)品數(shù)據(jù)分析系統(tǒng)。為實(shí)現(xiàn)該系統(tǒng),首先采用Hadoop+Spark的框架對(duì)系統(tǒng)進(jìn)行搭建;將系統(tǒng)功能模塊分為數(shù)據(jù)分析模塊、ETL模塊、可視化模塊3個(gè)主要模塊,并對(duì)上述功能模塊進(jìn)行詳細(xì)設(shè)計(jì)與實(shí)現(xiàn);提出用于易制毒化學(xué)品價(jià)格預(yù)測(cè)的保序回歸模型。最后搭建集群服務(wù)器和系統(tǒng)運(yùn)行環(huán)境,運(yùn)行上述預(yù)測(cè)模型,得到價(jià)
2、格預(yù)測(cè)的誤差值較小,能較準(zhǔn)確預(yù)測(cè)易制毒化學(xué)品價(jià)格。Key:Hadoop框架;易制毒化學(xué)品;大數(shù)據(jù)分析;保序回歸模型:TP311.13 :A :1001-5922(2021)06-0081-03Abstract:In view of the massive growth of precursor chemicals data, how to analyze these data and provide reference for precursor chemicals trading is the focus of current thinking. Based on the huge grow
3、th data of precursor chemicals, combined with the advantages and disadvantages of Hadoop and Spark, a data analysis system of precursor chemicals based on Hadoop + Spark is proposed. In order to realize the system, Hadoop + Spark framework is used to build the system; the system function module is d
4、ivided into three main modules: data analysis module, ETL module and visualization module, and the above functional modules are designed and implemented in detail; the ordinal regression model for price prediction of precursor chemicals is proposed. Finally, the cluster server and system operating e
5、nvironment are built, and the above prediction model is run. The error value of price prediction is small, which can accurately predict the price of precursor chemicals.Key words:Hadoop framework; precursor chemicals; big data analysis; ordinal regression model要想對(duì)易制毒化學(xué)品交易過程進(jìn)行多角度、全方位的監(jiān)控,就必須對(duì)相關(guān)數(shù)據(jù)進(jìn)行實(shí)時(shí)分
6、析處理,包括實(shí)時(shí)采集、數(shù)據(jù)流緩存、數(shù)據(jù)處理等環(huán)節(jié),可是,現(xiàn)有研究主要關(guān)注于數(shù)據(jù)采集和數(shù)據(jù)處理等工作,反而忽略了數(shù)據(jù)清洗、數(shù)據(jù)緩存、數(shù)據(jù)布局等內(nèi)容,這在一定程度上影響了實(shí)時(shí)數(shù)據(jù)的分析處理效率及效果。對(duì)此,一是基于Hadoop平臺(tái)進(jìn)行實(shí)時(shí)數(shù)據(jù)的分析處理。在實(shí)操中,利用HDFS系統(tǒng)進(jìn)行數(shù)據(jù)儲(chǔ)存,利用Map Reduce工具對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行快速處理,這為數(shù)據(jù)流的高效處置提供了技術(shù)支持。但HDFS對(duì)于實(shí)時(shí)數(shù)據(jù)流的適應(yīng)性差,Map Reduce在分析實(shí)時(shí)數(shù)據(jù)流的過程中可能出現(xiàn)數(shù)據(jù)丟失、分析延遲等問題,導(dǎo)致Hadoop系統(tǒng)對(duì)于實(shí)時(shí)數(shù)據(jù)的處理效能不佳。二是構(gòu)建統(tǒng)一的云計(jì)算平臺(tái),它集成了Hadoop和Spark的
7、應(yīng)用優(yōu)勢(shì),即Hadoop能夠進(jìn)行數(shù)據(jù)批量操作,Spark善于進(jìn)行數(shù)據(jù)收集。因此,本研究結(jié)合兩種并行處理框架的優(yōu)勢(shì),對(duì)海量的化工類交易數(shù)據(jù)進(jìn)行處理。1 系統(tǒng)整體架構(gòu)設(shè)計(jì)本文系統(tǒng)選用Spark和HBase框架,引用Flume、Kafka等技術(shù)進(jìn)行數(shù)據(jù)傳輸,能夠?qū)σ字贫净瘜W(xué)品交易數(shù)據(jù)進(jìn)行采集及分析,并利用可視化工具來展示數(shù)據(jù)分析結(jié)果。系統(tǒng)整體架構(gòu)展示,如圖1所示。2 系統(tǒng)功能模塊設(shè)計(jì)本文開發(fā)的易制毒化學(xué)品數(shù)據(jù)分析系統(tǒng)包含數(shù)據(jù)分析模塊,ETL模塊,可視化模塊,等3個(gè)功能模塊,這3個(gè)功能能夠?qū)σ字贫净瘜W(xué)品交易數(shù)據(jù)進(jìn)行提取、存儲(chǔ)及分析,從而為用戶提供信息支持,包括化學(xué)品價(jià)格走勢(shì)、化學(xué)品交易現(xiàn)狀等。具體如圖
8、2所示。在圖2的模塊中,ETL模塊是由數(shù)據(jù)采集子模塊、數(shù)據(jù)轉(zhuǎn)換子模塊、數(shù)據(jù)存儲(chǔ)子模塊構(gòu)成的,它整合了Spark Streaming、Kafka、Flume等多個(gè)組件,圍繞用戶的業(yè)務(wù)需求,利用Spark Streaming組件對(duì)交易數(shù)據(jù)進(jìn)行篩選、轉(zhuǎn)化等處理,最后將處理結(jié)果轉(zhuǎn)存至HBase內(nèi)。數(shù)據(jù)分析模塊是由離線分析模塊和實(shí)時(shí)分析模塊構(gòu)成的,前者從HBase中提取出歷史交易數(shù)據(jù),然后利用Spark ML對(duì)其進(jìn)行模型訓(xùn)練,最終實(shí)現(xiàn)了價(jià)格預(yù)測(cè)的功能;后者遵循面向場(chǎng)景的原則,對(duì)ETL模塊的處理數(shù)據(jù)進(jìn)行更深層次的數(shù)據(jù)分析。3 功能模塊詳細(xì)設(shè)計(jì)3.1 ETL模塊設(shè)計(jì)易制毒化學(xué)品數(shù)據(jù)分析系統(tǒng)不僅要處理傳統(tǒng)事務(wù)
9、性數(shù)據(jù),而且對(duì)接于多種類型的數(shù)據(jù)源,在系統(tǒng)運(yùn)作過程中面向大量的數(shù)據(jù)流。另外,出于現(xiàn)實(shí)應(yīng)用的考慮,用戶對(duì)于ETL模塊的數(shù)據(jù)分析速度提出了更高要求,“準(zhǔn)實(shí)時(shí)服務(wù)”已然成為ETL模塊的設(shè)計(jì)目標(biāo)。因此,將ETL模塊分為數(shù)據(jù)采集,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)存儲(chǔ),等3個(gè)子模塊,具體技術(shù)架構(gòu)如圖3所示。在抽取過程中,由數(shù)據(jù)采集模塊對(duì)Oracle存儲(chǔ)的易制毒化學(xué)品交易數(shù)據(jù)進(jìn)行處理,F(xiàn)lume與Kafka對(duì)接,Spark Streaming直接對(duì)接于Kafka。Spark內(nèi)置了針對(duì)不同數(shù)據(jù)源的reader,用于對(duì)接收到的數(shù)據(jù)流進(jìn)行連接和采集,然后將它們發(fā)送至數(shù)據(jù)轉(zhuǎn)換層,Spark內(nèi)置了多樣化的數(shù)據(jù)轉(zhuǎn)換操作算子,尤其在Sca
10、la庫(kù)的配合下,可以實(shí)現(xiàn)數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等功能。在完成數(shù)據(jù)格式轉(zhuǎn)換以后,數(shù)據(jù)輸出層內(nèi)置的writer將轉(zhuǎn)換后的數(shù)據(jù)傳輸至HBase。3.2 數(shù)據(jù)分析模塊設(shè)計(jì)數(shù)據(jù)分析模塊的主要功能是對(duì)ETL模塊輸出的數(shù)據(jù)信息進(jìn)行分析和統(tǒng)計(jì),這一過程并不會(huì)影響系統(tǒng)整體的運(yùn)算效率,也不會(huì)對(duì)系統(tǒng)穩(wěn)定性造成干擾。因此,本文在設(shè)計(jì)中,首先設(shè)定了實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)分析的時(shí)間間隔,從而為用戶提供具有時(shí)效性的當(dāng)期統(tǒng)計(jì)結(jié)果。Spark Streaming是實(shí)時(shí)分析模塊的內(nèi)核,它集成了基于Scala語言的數(shù)據(jù)清洗、統(tǒng)計(jì)、轉(zhuǎn)換等代碼,能夠?qū)afka輸出的實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理分析,并將分析結(jié)果經(jīng)由maven傳輸給集群服務(wù)器,相關(guān)信息被存儲(chǔ)
11、于HBase內(nèi),可以為用戶提供查詢服務(wù)。具體步驟如圖4所示。3.3 回歸預(yù)測(cè)模型構(gòu)建3.3.1 預(yù)測(cè)流程易制毒化學(xué)品數(shù)據(jù)分析系統(tǒng)具備短期預(yù)測(cè)和結(jié)果展示的功能。圍繞價(jià)格預(yù)測(cè)的目標(biāo),首先調(diào)用ETL模塊數(shù)據(jù)進(jìn)行訓(xùn)練,然后將訓(xùn)練得到的結(jié)果存儲(chǔ)在非結(jié)構(gòu)化數(shù)據(jù)庫(kù)中,以此為后續(xù)的查詢等奠定基礎(chǔ)。具體預(yù)測(cè)訓(xùn)練流程如圖5所示。3.3.2 基于保序回歸的預(yù)測(cè)模型構(gòu)建保序回歸指的是對(duì)單調(diào)函數(shù)空間內(nèi)給定數(shù)據(jù)的回歸分析過程,其優(yōu)勢(shì)在于擬合誤差最小化。保序回歸算法是:4 實(shí)驗(yàn)驗(yàn)證4.1 環(huán)境搭建與參數(shù)設(shè)置為驗(yàn)證回歸預(yù)測(cè)算法的應(yīng)用成效,通過試驗(yàn)的方式進(jìn)行驗(yàn)證。在本次實(shí)驗(yàn)中,首先采集某市在2018.03.012018.12.
12、31期間的丙酮交易數(shù)據(jù),然后按照交易時(shí)間對(duì)原始數(shù)據(jù)集進(jìn)行劃分,包括312月、512月、712月、912月、1012月、1112月等6個(gè)批次,然后分批進(jìn)行測(cè)試。另外,依據(jù)“80/20法則”,將前80%的數(shù)據(jù)集選做訓(xùn)練集,將后20%的數(shù)據(jù)集充當(dāng)測(cè)試集??紤]到丙酮價(jià)格的整體走勢(shì)是遞減的,據(jù)此對(duì)保序回歸模型進(jìn)行參數(shù)設(shè)定,如表1所示。實(shí)驗(yàn)步驟如表2所示。本次實(shí)驗(yàn)是在3節(jié)點(diǎn)的分布式Spark集群環(huán)境下進(jìn)行的,集群節(jié)點(diǎn)配置條件如表3所示。系統(tǒng)開發(fā)環(huán)境:Javal.8.0-172+Scala2.11.8+Spark2.2.0。4.2 仿真結(jié)果實(shí)驗(yàn)結(jié)果展示如圖6所示。根據(jù)圖6可知,相較于基于線性回歸的價(jià)格預(yù)測(cè)模
13、型和基于邏輯回歸的價(jià)格預(yù)測(cè)模型,本文提出的基于保序回歸的價(jià)格預(yù)測(cè)模型的評(píng)估結(jié)果MSE值更小,尤其在數(shù)據(jù)集數(shù)量不足的情況下,保序回歸算法仍然能夠?qū)崿F(xiàn)較小的均方誤差,這充分證明了本文模型的應(yīng)用優(yōu)勢(shì)。5 結(jié)語通過上述的研究,文章搭建的大數(shù)據(jù)算法能很好的運(yùn)行和利用當(dāng)前的易制毒化學(xué)品數(shù)據(jù),并能較好的預(yù)測(cè)易制毒化學(xué)品的價(jià)格,從而為更好的利用這些易制毒化學(xué)品交易數(shù)據(jù)提供了參考和建議。但本研究的設(shè)計(jì)還只是初步構(gòu)建,更多系統(tǒng)功能還有待進(jìn)一步完善。Reference1劉昕林,鄧巍,黃萍,等.基于Hadoop和Spark的可擴(kuò)展性大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)J.自動(dòng)化與儀器儀表,2020(03):132-136.2陳彬.基于
14、Hadoop框架的海量數(shù)據(jù)運(yùn)營(yíng)系統(tǒng)研究J.自動(dòng)化技術(shù)與應(yīng)用,2020,39(03):178-181.3陳家宇,胡建軍.MobiWay應(yīng)用中基于Hadoop的多目標(biāo)多任務(wù)調(diào)度算法J.計(jì)算機(jī)應(yīng)用與軟件,2020,37(02):240-247.4韓德志,陳旭光,雷雨馨,等.基于Spark Streaming的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)及其應(yīng)用J. 計(jì)算機(jī)應(yīng)用,2017,37(05):1263-1269.5袁泉,常偉鵬.基于Hadoop平臺(tái)的圖書推薦服務(wù)Apriori優(yōu)化算法J.現(xiàn)代電子技術(shù),2019,42(01):180-182.6李爽,陳瑞瑞,林楠.面向大數(shù)據(jù)挖掘的Hadoop框架K均值聚類算法J.計(jì)算機(jī)工程與設(shè)計(jì),2018,39(12):3734-3738.7晏依,徐蘇.Ha
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商標(biāo)復(fù)審服務(wù)協(xié)議書
- 包膜工廠轉(zhuǎn)讓協(xié)議書
- 單位會(huì)計(jì)招聘協(xié)議書
- 土地建設(shè)樓房協(xié)議書
- 工程法規(guī)模擬考試常用技巧試題及答案
- 合作伙伴經(jīng)營(yíng)協(xié)議書
- 單位旅游用車協(xié)議書
- 醫(yī)護(hù)上門打針協(xié)議書
- 醫(yī)療儀器代理協(xié)議書
- 合伙經(jīng)營(yíng)吊車協(xié)議書
- 礦山礦石運(yùn)輸協(xié)議書
- 2025入團(tuán)積極分子發(fā)展對(duì)象考試題庫(kù)及參考答案詳解【鞏固】
- 疫苗管理制度
- 2024屆北京朝陽(yáng)人大附朝陽(yáng)分校中考一模生物試題含解析
- ktv保安合同協(xié)議書
- 廈大介紹課件
- 2025陜西氫能產(chǎn)業(yè)發(fā)展有限公司所屬單位招聘(101人)筆試參考題庫(kù)附帶答案詳解
- 【MOOC】《學(xué)術(shù)交流英語》(東南大學(xué))章節(jié)中國(guó)大學(xué)慕課答案
- 《建筑基坑工程監(jiān)測(cè)技術(shù)標(biāo)準(zhǔn)》(50497-2019)
- 拘留所教育課件01
- NJB-2綜合監(jiān)測(cè)儀說明書
評(píng)論
0/150
提交評(píng)論