基于大數(shù)據(jù)的煙葉質(zhì)量評(píng)估平臺(tái)的設(shè)計(jì)與應(yīng)用_第1頁(yè)
基于大數(shù)據(jù)的煙葉質(zhì)量評(píng)估平臺(tái)的設(shè)計(jì)與應(yīng)用_第2頁(yè)
基于大數(shù)據(jù)的煙葉質(zhì)量評(píng)估平臺(tái)的設(shè)計(jì)與應(yīng)用_第3頁(yè)
基于大數(shù)據(jù)的煙葉質(zhì)量評(píng)估平臺(tái)的設(shè)計(jì)與應(yīng)用_第4頁(yè)
基于大數(shù)據(jù)的煙葉質(zhì)量評(píng)估平臺(tái)的設(shè)計(jì)與應(yīng)用_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余5頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    基于大數(shù)據(jù)的煙葉質(zhì)量評(píng)估平臺(tái)的設(shè)計(jì)與應(yīng)用    高榮孫忱摘 要:煙葉質(zhì)量受多種因素的影響,為實(shí)現(xiàn)煙葉質(zhì)量分析、預(yù)測(cè)和預(yù)警的平臺(tái),設(shè)計(jì)并實(shí)現(xiàn)了基于大數(shù)據(jù)分析和云計(jì)算技術(shù)的web大數(shù)據(jù)挖掘平臺(tái),通過采集抓取互聯(lián)網(wǎng)上涵蓋煙葉的整個(gè)種植周期的煙葉種植區(qū)氣候、環(huán)境、土壤、病蟲害等信息,輔以其他檢測(cè)數(shù)據(jù),利用大數(shù)據(jù)分析技術(shù)評(píng)估和預(yù)測(cè)煙葉的質(zhì)量。應(yīng)用效果表明,利用大數(shù)據(jù)算法對(duì)影響煙葉質(zhì)量的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行挖掘分析,不僅可以用較小的人力物力完成更大覆蓋區(qū)域的全面的煙葉質(zhì)量評(píng)估,還可實(shí)現(xiàn)質(zhì)量預(yù)測(cè)預(yù)警,為卷煙生產(chǎn)提供保障。關(guān)鍵詞:煙葉質(zhì)量評(píng)估;大數(shù)據(jù);web數(shù)據(jù)挖掘中

2、圖分類號(hào):ts46煙葉是卷煙工業(yè)企業(yè)生存和發(fā)展的基礎(chǔ),是對(duì)卷煙產(chǎn)品的發(fā)展具有制約作用的重要資源。煙葉的品質(zhì)、產(chǎn)量水平受氣溫、大氣環(huán)境條件、土壤以及病蟲害等生態(tài)條件和生產(chǎn)措施因素的影響,而煙葉原料的采購(gòu)又具有范圍廣、數(shù)量大、種類多、結(jié)構(gòu)寬等特點(diǎn)。為保證煙葉的質(zhì)量,需要對(duì)煙葉種植的整個(gè)周期進(jìn)行監(jiān)控。傳統(tǒng)的方式需要依靠現(xiàn)場(chǎng)實(shí)地抽檢、監(jiān)測(cè),有著耗費(fèi)人力物力比較大、收集到的信息量比較少、覆蓋的種植區(qū)域比較小、最終數(shù)據(jù)匯總和處理比較困難、企業(yè)之間數(shù)據(jù)互通比較困難等缺點(diǎn)。隨著全球信息化和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了海量的數(shù)據(jù)信息。大量的非結(jié)構(gòu)化的天氣信息、溫濕度信息、病蟲害的預(yù)報(bào)、土壤情況等信息都可

3、以直接從互聯(lián)網(wǎng)上采集到,利用這些數(shù)據(jù)來進(jìn)行分析和預(yù)測(cè),就是大數(shù)據(jù)處理技術(shù)的應(yīng)用。建立基于大數(shù)據(jù)的煙葉種植質(zhì)量評(píng)估平臺(tái),可以避免傳統(tǒng)監(jiān)控方式的缺點(diǎn),更快速、有效、準(zhǔn)確的實(shí)現(xiàn)煙葉質(zhì)量分析、預(yù)測(cè)、預(yù)警,從而為卷煙生產(chǎn)提供更好的保障和條件。1 系統(tǒng)架構(gòu)1.1 大數(shù)據(jù)分析與云計(jì)算技術(shù)大數(shù)據(jù)分析是從種類繁多的海量數(shù)據(jù)中,快速獲得有價(jià)值信息的一種技術(shù),它是商業(yè)智能的演進(jìn),正在改變世界的各個(gè)領(lǐng)域,從商業(yè)到醫(yī)療衛(wèi)生、政府機(jī)構(gòu)、農(nóng)業(yè)和經(jīng)濟(jì)領(lǐng)域、人文以及社會(huì)的各個(gè)領(lǐng)域。大數(shù)據(jù)分析的特點(diǎn)在于能夠利用全部數(shù)據(jù),而不是僅僅依靠隨機(jī)采樣的一小部分樣本數(shù)據(jù)1-2,因?yàn)榭梢允占⒋鎯?chǔ)和分析所有的相關(guān)數(shù)據(jù)信息,就不會(huì)受到樣本集小

4、、樣本有偏差或者隨機(jī)性不夠所帶來的分析誤差的影響,從而可以獲得更準(zhǔn)確合理的分析結(jié)果。目前已經(jīng)出現(xiàn)了很多利用大數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)的例子。例如,谷歌利用聚合搜索數(shù)據(jù)對(duì)流感進(jìn)行跟蹤,可達(dá)到接近實(shí)時(shí)的效率和非常高的準(zhǔn)確度3。后面探討如何利用從互聯(lián)網(wǎng)采集到的各種非結(jié)構(gòu)化信息,結(jié)合企業(yè)自有的煙葉檢測(cè)、采購(gòu)數(shù)據(jù),分析和預(yù)測(cè)收獲時(shí)煙葉質(zhì)量的方法。大數(shù)據(jù)分析通?;谠朴?jì)算平臺(tái)實(shí)現(xiàn),因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集的分析需要非常強(qiáng)有力而又彈性可擴(kuò)展的計(jì)算能力,云計(jì)算平臺(tái)正好適應(yīng)了這種需求。云計(jì)算是一種成本低的分布式并行計(jì)算環(huán)境,可以適應(yīng)規(guī)模不同的數(shù)據(jù),開發(fā)方便,向用戶屏蔽了底層的技術(shù)細(xì)節(jié),節(jié)點(diǎn)加載、數(shù)據(jù)的劃分和任務(wù)調(diào)度無需用

5、戶考慮。使用云計(jì)算可以在不增加現(xiàn)有設(shè)備的情況下大幅度提高數(shù)據(jù)處理的規(guī)模和效率,節(jié)點(diǎn)的擴(kuò)充非常方便,系統(tǒng)可以自動(dòng)處理失敗的節(jié)點(diǎn),容錯(cuò)性能比較好。1.2 平臺(tái)框架設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)統(tǒng)一的基于云計(jì)算的可以靈活擴(kuò)展的大數(shù)據(jù)處理平臺(tái)(bdap,big-data analysis platform),能夠?qū)崿F(xiàn)數(shù)據(jù)采集、實(shí)時(shí)分析,批量處理和數(shù)據(jù)導(dǎo)出等功能。平臺(tái)具有以下特性:(1)可從不同的數(shù)據(jù)源(web數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫(kù)等等)以很高的吞吐能力把數(shù)據(jù)存儲(chǔ)在基于hadoop的大數(shù)據(jù)中心中;(2)可對(duì)實(shí)時(shí)數(shù)據(jù)做流分析;(3)支持工作流管理,工作流支持與標(biāo)準(zhǔn)的企業(yè)信息系統(tǒng)或者是hadoop操作進(jìn)行交互;(4)支

6、持高效率的數(shù)據(jù)導(dǎo)出,可以把數(shù)據(jù)導(dǎo)出到nosql數(shù)據(jù)庫(kù)或者關(guān)系數(shù)據(jù)庫(kù);(5)支持不同數(shù)據(jù)源數(shù)據(jù)的協(xié)同分析。該平臺(tái)框架如圖1所示:整個(gè)平臺(tái)由數(shù)據(jù)層、大數(shù)據(jù)處理層、管理層三部分組成,平臺(tái)由數(shù)據(jù)流驅(qū)動(dòng),數(shù)據(jù)層負(fù)責(zé)將各種數(shù)據(jù)來源以流的方式提供給中間的大數(shù)據(jù)處理層;大數(shù)據(jù)處理層是建立在云計(jì)算平臺(tái)之上的,負(fù)責(zé)對(duì)數(shù)據(jù)層傳入的數(shù)據(jù)流進(jìn)行分析處理,處理之后的數(shù)據(jù)由管理層展現(xiàn)給終端用戶。在bdap平臺(tái)的基礎(chǔ)上,結(jié)合煙葉種植質(zhì)量評(píng)估的需求,設(shè)計(jì)了具體的實(shí)施方案和關(guān)鍵算法,形成了基于大數(shù)據(jù)的煙葉種植質(zhì)量評(píng)估平臺(tái)(bdap-tq,big-data analysis platform for tobacco quality

7、),下面將介紹該平臺(tái)的技術(shù)實(shí)現(xiàn)細(xì)節(jié)。2 技術(shù)實(shí)現(xiàn)2.1 數(shù)據(jù)層實(shí)現(xiàn)數(shù)據(jù)層實(shí)現(xiàn)數(shù)據(jù)采集和清理的功能,采用web界面的調(diào)度平臺(tái),實(shí)時(shí)監(jiān)控云平臺(tái)上的爬蟲運(yùn)行狀況。獲取的數(shù)據(jù)分類存入hadoop分布式文件系統(tǒng)(hdfs)中或者數(shù)據(jù)庫(kù)中,可以采集到瀏覽器能瀏覽的結(jié)構(gòu)化和非結(jié)構(gòu)化的內(nèi)容,支持各種頁(yè)面類型。數(shù)據(jù)層基于云計(jì)算平臺(tái),可以根據(jù)數(shù)據(jù)抓取的資源需求進(jìn)行彈性擴(kuò)展,具有高效的信息處理技術(shù),可以準(zhǔn)確獲取系統(tǒng)所需求的內(nèi)容。數(shù)據(jù)層的實(shí)現(xiàn)框架如圖2所示:關(guān)于采集數(shù)據(jù)的選擇過濾,主要是對(duì)氣象、大氣、土壤、病蟲害等信息進(jìn)行提取,這是因?yàn)椋海?)煙葉的質(zhì)量和產(chǎn)量受環(huán)境條件和生產(chǎn)措施的影響,從煙草品質(zhì)來看,對(duì)氣溫條件的要

8、求是前期較低,中期較高,氣溫過高和過低對(duì)煙葉質(zhì)量影響都很大4。(2)大氣環(huán)境條件也是影響煙葉質(zhì)量的重要條件之一,重金屬鉛在環(huán)境中容易污染植物葉片,作物中鉛的含量富集程度以葉最高。作物中鉛含量的調(diào)查表明,靠近公路兩側(cè)的作物的鉛含量遠(yuǎn)遠(yuǎn)高于遠(yuǎn)離公路的作物,大氣中的鉛含量決定了農(nóng)作物中的鉛含量水平5。(3)土壤是優(yōu)質(zhì)煙葉生產(chǎn)的基礎(chǔ),土壤因素與煙葉的品質(zhì)和產(chǎn)量密切相關(guān)。隨著吸煙與健康研究的深入開展,人們?cè)絹碓疥P(guān)注煙葉含有重金屬的問題,煙葉重金屬的含量和其他作物有一定的相關(guān)性,因此可以通過互聯(lián)網(wǎng)上大量的其他作物的重金屬情況結(jié)合gis進(jìn)行關(guān)聯(lián)性分析,可以得出種植區(qū)域煙葉重金屬含量情況。(4)煙草病蟲害的爆

9、發(fā),會(huì)導(dǎo)致煙葉品質(zhì)和產(chǎn)量降低。要實(shí)現(xiàn)優(yōu)質(zhì)煙葉生產(chǎn),需要認(rèn)真防治病蟲害。在煙草從種植到生產(chǎn)的整個(gè)過程中,不論是鮮煙葉、調(diào)制后的煙葉或者是成品煙葉隨時(shí)都有可能遭受到病蟲害的損害,這將給煙農(nóng)、煙草工商業(yè)帶來巨大的損失。因此,煙草病蟲害的防治是保證煙葉產(chǎn)量,提高煙葉質(zhì)量,發(fā)展煙草生產(chǎn)的重要任務(wù)。這些通過互聯(lián)網(wǎng)采集到的信息,經(jīng)過清理加工,得到模型化的數(shù)據(jù)存入hdfs中,再配合上企業(yè)原有的煙葉收購(gòu)檢測(cè)數(shù)據(jù),就實(shí)現(xiàn)了數(shù)據(jù)層所需要的功能。2.2 大數(shù)據(jù)處理層實(shí)現(xiàn)要對(duì)數(shù)據(jù)層采集到的氣象、環(huán)境、土壤、病蟲害等數(shù)據(jù)進(jìn)行處理分析,以得到煙葉種植質(zhì)量的評(píng)估預(yù)測(cè)結(jié)果。評(píng)估算法以關(guān)聯(lián)模型為基礎(chǔ)6-7,首先作如下模型定義:設(shè)

10、歷年不同地點(diǎn)氣象、大氣、土壤、病蟲害等數(shù)據(jù)的向量為x,煙葉檢測(cè)質(zhì)量數(shù)據(jù)的向量為y,元組(x,y)=xy,對(duì)任意向量 ,定義i的支持度supp(i)=count(i),其中count(i)表示i在向量集合(x,y)中出現(xiàn)的次數(shù);對(duì)任意向量 ,定義xiyi的關(guān)聯(lián)可信度為conf(xiyi)/supp(xi);設(shè)可信度閾值為,定義關(guān)聯(lián)規(guī)則集合為xkyk=xk,yk where conf(xkyk)。分析處理的算法流程如下:(1)由數(shù)據(jù)層采集清理得到歷年各地?cái)?shù)據(jù)的向量集合(x,y);(2)選擇閾值,計(jì)算規(guī)則集合xkyk,其中的xk為條件集合;(3)對(duì)欲評(píng)估的當(dāng)前條件數(shù)據(jù)x,計(jì)算其與集合xk中各向量的j

11、accard相似度sim(x,xk)=|xxk|/|xxk|,并記xm為使得sim(x,xm)=minsim(x,xk)的條件向量;(4)取滿足規(guī)則(xmym)xkyk的ym,即為評(píng)估預(yù)測(cè)結(jié)果。由于以上處理均為大數(shù)據(jù)量計(jì)算和存儲(chǔ),所以本層是建立在基于hadoop和mapreduce框架的云計(jì)算平臺(tái)之上的,使用了分布式存儲(chǔ)與并行計(jì)算技術(shù),從而能夠通過低成本的基礎(chǔ)單元節(jié)點(diǎn)完成高性能的處理任務(wù)。2.3 管理層實(shí)現(xiàn)管理層整體框架基于soa設(shè)計(jì),可以根據(jù)需要增加新的服務(wù)模塊,前臺(tái)為基于html5的響應(yīng)式web設(shè)計(jì),內(nèi)容布局能隨用戶使用顯示器的不同而變化,支持從移動(dòng)終端進(jìn)行訪問,可以通過web前臺(tái)定制大數(shù)

12、據(jù)挖掘的工作流,支持處理過的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù),可以通過web界面檢索數(shù)據(jù)分析的結(jié)果,并且實(shí)現(xiàn)了決策支持系統(tǒng)。信息發(fā)布服務(wù)模塊支持與手機(jī)終端的交互,煙農(nóng)可以利用手機(jī)app或者是短信平臺(tái)來獲取平臺(tái)推送的種植和預(yù)警信息。3 應(yīng)用效果介紹了利用互聯(lián)網(wǎng)上大量非結(jié)構(gòu)化的天氣、溫濕度、土壤情況、病蟲害等信息,作為數(shù)據(jù)源構(gòu)建的bdap-tq平臺(tái),輔以從相關(guān)行業(yè)獲取的結(jié)構(gòu)化專業(yè)數(shù)據(jù),利用web數(shù)據(jù)挖掘技術(shù)通過關(guān)聯(lián)分析,對(duì)煙葉種植質(zhì)量進(jìn)行全面的評(píng)估,并可以預(yù)測(cè)最終收獲的煙葉的質(zhì)量,而不用派遣大量員工去田間地頭采集數(shù)據(jù)。通過該平臺(tái)除了監(jiān)控預(yù)測(cè)國(guó)內(nèi)煙草種植以外,還可以分析預(yù)測(cè)進(jìn)口煙葉的質(zhì)量。其中,在土壤檢測(cè)方面,

13、還嘗試了結(jié)合相關(guān)作物分析的方式,這是因?yàn)槟壳拔覈?guó)還沒有遍布全國(guó)的土壤檢測(cè)網(wǎng)絡(luò),土壤的檢測(cè)主要是靠抽檢和農(nóng)民送檢。傳統(tǒng)方法對(duì)重金屬只能采用抽樣法檢測(cè),缺點(diǎn)是費(fèi)時(shí)費(fèi)力,檢測(cè)的區(qū)域比較小,粒度太大,效率比較低。通過互聯(lián)網(wǎng)上大量其他作物的重金屬情況結(jié)合gis進(jìn)行關(guān)聯(lián)性分析,可以得出所關(guān)心的種植區(qū)域煙葉重金屬的含量情況。隨著國(guó)家對(duì)大數(shù)據(jù)越來越重視,建設(shè)一個(gè)基于大數(shù)據(jù)的煙葉種植質(zhì)量評(píng)估平臺(tái)是非常必要的。目前bdap-tq平臺(tái)已經(jīng)完成了數(shù)據(jù)層全部模塊,大數(shù)據(jù)處理層的數(shù)據(jù)分析部分和管理層的部分模塊,因?yàn)樾枰獜幕ヂ?lián)網(wǎng)上抓取大量的數(shù)據(jù)來計(jì)算相應(yīng)的模型,數(shù)據(jù)的積累需要一個(gè)過程,在數(shù)據(jù)量還不足夠大的情況下,分析和預(yù)測(cè)

14、的結(jié)果可能還不夠好,后續(xù)的工作是繼續(xù)完善和增加bdap-tq的功能模塊,擴(kuò)大數(shù)據(jù)來源,積累更多的數(shù)據(jù),增強(qiáng)數(shù)據(jù)處理能力,縮小需要實(shí)時(shí)處理數(shù)據(jù)的延遲時(shí)間,增強(qiáng)bdap-tq平臺(tái)的實(shí)用性。參考文獻(xiàn):1fernández a,del río s,herrera f,et al.an overview on the structure and applications for business intelligence and data mining in cloud computingc.7th international conference on knowledge mana

15、gement in organizations:service and cloud computing.springer berlin heidelberg,2013:559-570.2viktor mayer-sch?nberger,kenneth neil cukier.big data:a revolution that will transform how we live,work and thinkm.hodder export,2013-03-14.3ginsberg j,mohebbi m h,patel r s,et al.detecting influenza epidemics using search engine query dataj.nature,2008(7232):1012-1014.4陸永恒.生態(tài)條件對(duì)煙葉品質(zhì)的影響研究進(jìn)展j.中國(guó)煙草科學(xué),2007(01):43-465李義強(qiáng),李成富,許立峰.我國(guó)部分煙葉產(chǎn)區(qū)土壤和煙葉重金屬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論