食品安全數(shù)據(jù)采集與融合共享的研究_第1頁
食品安全數(shù)據(jù)采集與融合共享的研究_第2頁
食品安全數(shù)據(jù)采集與融合共享的研究_第3頁
食品安全數(shù)據(jù)采集與融合共享的研究_第4頁
食品安全數(shù)據(jù)采集與融合共享的研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    食品安全數(shù)據(jù)采集與融合共享的研究    劉姝 王思宇 王夢可摘 要:食品安全數(shù)據(jù)資源分散、標準不統(tǒng)一、數(shù)據(jù)孤島的存在等制約了食品安全數(shù)據(jù)價值的釋放,難以滿足當前食品安全治理需求。本文結(jié)合食品安全數(shù)據(jù)的特點及存在的問題,研究并建立集數(shù)據(jù)采集、治理、共享服務(wù)為一體的食品安全數(shù)據(jù)采集與融合共享體系。關(guān)鍵詞:食品安全;數(shù)據(jù)采集;數(shù)據(jù)治理;共享交換國以民為本,民以食為天,食以安為先。食品安全關(guān)乎人民健康和生命,“十三五”規(guī)劃建議更是將食品安全問題提到國家戰(zhàn)略高度,提出實施食品安全戰(zhàn)略。隨著信息技術(shù)的發(fā)展,有關(guān)食品安全的監(jiān)管工作趨于信息化和網(wǎng)絡(luò)化,累積了海量

2、的食品安全數(shù)據(jù)。食品安全數(shù)據(jù)來源范圍廣泛,涉及多個部門,包含食品生產(chǎn)、加工、餐飲與流通等多個環(huán)節(jié),覆蓋網(wǎng)絡(luò)餐飲、集中配送、食堂等多個業(yè)態(tài)。然而,無論是食品監(jiān)管部門內(nèi)部管理系統(tǒng)的數(shù)據(jù),還是互聯(lián)網(wǎng)等渠道的公開數(shù)據(jù),都呈現(xiàn)出零散、異構(gòu)、低質(zhì)等特征。不同部門的信息數(shù)據(jù)被分割存儲,數(shù)據(jù)組織形式各異,相互獨立、封閉,無法有效互聯(lián)互通。要實現(xiàn)對食品安全數(shù)據(jù)的有效管理、充分挖掘數(shù)據(jù)價值,需要對碎片化的數(shù)據(jù)進行有效融合,打破數(shù)據(jù)壁壘,實現(xiàn)數(shù)據(jù)互聯(lián)互通,釋放數(shù)據(jù)潛在價值。1 食品安全數(shù)據(jù)采集與融合共享研究現(xiàn)狀食品安全數(shù)據(jù)的重要特點就是數(shù)據(jù)量大、來源分散和格式多樣,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非

3、結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)?;谑称钒踩珨?shù)據(jù)的特征及問題,不少學者也都進行過有關(guān)食品安全數(shù)據(jù)的采集與融合共享研究。劉楊、馬東1等學者認為需要通過數(shù)據(jù)編碼標準,實現(xiàn)跨部門、跨層級、跨地域的食品安全相關(guān)數(shù)據(jù)的融合與應(yīng)用,研究側(cè)重于食品安全數(shù)據(jù)的分類與編碼,對于數(shù)據(jù)的采集與融合共享缺少系統(tǒng)性描述;張素智、楊芮2等闡述了食品安全大數(shù)據(jù)預(yù)處理方法即數(shù)據(jù)融合技術(shù),主要是消去食品安全數(shù)據(jù)中的噪聲和冗余點,對從多傳感器中采集到的食品安全數(shù)據(jù)進行分散處理后全局融合,所描述的采集方式較為單一,沒有覆蓋到常用的數(shù)據(jù)采集渠道;晏斌、李唯正3等認為需要對具體的信息進行統(tǒng)一規(guī)范的本體轉(zhuǎn)化,實現(xiàn)對數(shù)據(jù)庫的精準查詢,從而實現(xiàn)不同系

4、統(tǒng)之間的數(shù)據(jù)交換和融合,文章中更多的是介紹了一種融合技術(shù),而對于數(shù)據(jù)融合共享的實現(xiàn)邏輯卻沒有進行闡述;陳小妮、李鵬輝4等對食品安全數(shù)據(jù)融合的三個層次進行分析和對比,認為食品安全大數(shù)據(jù)融合方法可以分為經(jīng)典融合方法和現(xiàn)代融合方法,側(cè)重于方法論的講解,針對整個系統(tǒng)的構(gòu)建缺少實質(zhì)性的建議。本文結(jié)合目前食品安全數(shù)據(jù)采集與融合共享的研究現(xiàn)狀及存在的問題,在以往學者研究的基礎(chǔ)上,從數(shù)據(jù)采集的規(guī)范性和一致性入手,以數(shù)據(jù)融合共享為目的,構(gòu)建了集數(shù)據(jù)采集、治理、共享服務(wù)為一體的食品安全數(shù)據(jù)采集與融合共享體系。2 食品安全數(shù)據(jù)采集與融合共享體系本文構(gòu)建的食品安全數(shù)據(jù)采集與融合共享體系包含數(shù)據(jù)的采集、治理和共享交換,

5、利用多種數(shù)據(jù)接入方式實現(xiàn)數(shù)據(jù)的統(tǒng)一匯聚,依據(jù)豐富的數(shù)據(jù)治理規(guī)則和治理規(guī)則集對匯聚進來的數(shù)據(jù)進行治理,通過共享交換數(shù)據(jù)資源目錄和服務(wù)管理來實現(xiàn)食品安全監(jiān)管各部門之間數(shù)據(jù)的共享交換,滿足食品安全數(shù)據(jù)融合共享需求。技術(shù)路徑圖如圖1所示。2.1 食品安全數(shù)據(jù)采集鑒于食品安全數(shù)據(jù)的多源性和分散性,本文構(gòu)建的食品安全數(shù)據(jù)采集與融合共享體系采用kettle、flume、sqoop等技術(shù),實現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一匯聚,把原本分散在各個業(yè)務(wù)系統(tǒng)的信息匯集起來?;谑称钒踩珨?shù)據(jù)的不同存儲特征,本文建立了數(shù)據(jù)庫復制、接口采集、互聯(lián)網(wǎng)采集、離線導入4種數(shù)據(jù)采集方式。2.2 數(shù)據(jù)庫復制方式數(shù)據(jù)庫復制方式

6、主要適用于食品安全相關(guān)業(yè)務(wù)系統(tǒng)可開放核心數(shù)據(jù)庫訪問權(quán)限的場景,需要對接并匯集食品安全相關(guān)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)信息以及數(shù)據(jù)庫技術(shù)信息(如數(shù)據(jù)庫類型、數(shù)據(jù)庫訪問信息等)。數(shù)據(jù)庫復制方式下,需要先開展數(shù)據(jù)連接測試,確保數(shù)據(jù)庫遠程訪問流程通暢、數(shù)據(jù)權(quán)限滿足業(yè)務(wù)需求。進一步,利用kettle技術(shù)中源表輸入、目標表輸入、數(shù)據(jù)比對、分布操作、增加數(shù)據(jù)、更新數(shù)據(jù)和刪除數(shù)據(jù)等配置組件,對食品相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的信息資源進行抽取轉(zhuǎn)換,并通過數(shù)據(jù)比對的方式實現(xiàn)數(shù)據(jù)的增量更新。2.3 接口采集方式接口采集方式主要適用于食品相關(guān)業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)接口的場景。接口采集方式支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(如json格式、xml格式的

7、數(shù)據(jù))、非結(jié)構(gòu)化數(shù)據(jù)(如base64編碼的圖片等)的采集。通過對接并匯集食品安全相關(guān)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)信息以及對應(yīng)接口技術(shù)信息(如接口url、請求參數(shù)、返回參數(shù)等),開展接口連接測試,確保接口遠程訪問流程通暢,然后利用web service技術(shù)和表輸入、輸入?yún)?shù)字段選擇、web服務(wù)查詢、輸出參數(shù)字段選擇和表輸出等配置組件,完成對食品相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程,實現(xiàn)對食品安全相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的采集。2.4 互聯(lián)網(wǎng)采集方式互聯(lián)網(wǎng)采集方式采用先進的分布式網(wǎng)絡(luò)爬蟲框架,開展食品安全相關(guān)業(yè)務(wù)數(shù)據(jù)采集任務(wù)的統(tǒng)一調(diào)度、管理和維護工作,并利用flume技術(shù)實現(xiàn)對采集數(shù)據(jù)的統(tǒng)一存儲??苫陉P(guān)鍵字段解析方

8、式、關(guān)鍵字搜索規(guī)則、冗余數(shù)據(jù)過濾規(guī)則等技術(shù)手段,實現(xiàn)對門戶網(wǎng)站、網(wǎng)絡(luò)社交論壇、微博輿論信息、微信公眾號等互聯(lián)網(wǎng)食品安全相關(guān)數(shù)據(jù)的采集。2.5 離線導入方式離線導入方式適用于相關(guān)食品安全監(jiān)管部門無信息化系統(tǒng)、信息化系統(tǒng)網(wǎng)絡(luò)不可達、本地電子化文件的二次處理等數(shù)據(jù)采集場景,利用sqoop技術(shù),實現(xiàn)對excel等格式數(shù)據(jù)的采集;利用ftp和csv文件數(shù)據(jù)輸入等組件配置,實現(xiàn)對csv等格式數(shù)據(jù)的采集。完成數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程,通過預(yù)先設(shè)置的數(shù)據(jù)模板上傳離線文件。通過上述4種數(shù)據(jù)接入方式,可將原本相互獨立的食品安全數(shù)據(jù)匯聚在一起,采用hive存儲結(jié)構(gòu)化數(shù)據(jù),hbase和hdfs存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化

9、數(shù)據(jù),實現(xiàn)對海量食品安全數(shù)據(jù)的統(tǒng)一采集及存儲,為后續(xù)的融合共享提供基礎(chǔ)支撐。2.6 食品安全數(shù)據(jù)融合共享從各渠道采集而來的食品安全數(shù)據(jù),量大且種類多,避免不了存在數(shù)據(jù)錯誤、數(shù)據(jù)沖突等問題,在開展數(shù)據(jù)的共享交換前,需要對數(shù)據(jù)進行融合治理,確保數(shù)據(jù)的規(guī)范性、一致性。本文研究了基于規(guī)則引擎配置的數(shù)據(jù)融合治理技術(shù),通過管理、配置系列的治理規(guī)則集,實現(xiàn)對食品安全數(shù)據(jù)的融合治理。首先,依據(jù)食品安全業(yè)務(wù)相關(guān)需求(如業(yè)務(wù)流程、判定規(guī)則)、數(shù)據(jù)技術(shù)標準需求(如數(shù)據(jù)字典、元數(shù)據(jù)、數(shù)據(jù)庫表的技術(shù)標準等),設(shè)定數(shù)據(jù)融合治理規(guī)范。進一步考量食品安全數(shù)據(jù)的采集方式(全量/增量)、數(shù)據(jù)更新頻率、數(shù)據(jù)使用場景等,建立數(shù)據(jù)治理

10、規(guī)則,對采集的食品安全相關(guān)數(shù)據(jù)開展融合治理,識別并剔除失真數(shù)據(jù),提升融合后的數(shù)據(jù)質(zhì)量。對于融合治理好的數(shù)據(jù),本文研究了可配置、高可用的數(shù)據(jù)共享交換技術(shù)。該技術(shù)使用hadoop生態(tài)中的ranger、rangerkms、kerberos進行數(shù)據(jù)訪問的權(quán)限控制,實現(xiàn)對交換資源的目錄劃分和交換資源的共享,并使用spring cloud集群保證共享交換服務(wù)的高可用。服務(wù)統(tǒng)一通過spring cloud gateway網(wǎng)關(guān),由網(wǎng)關(guān)訪問eureka服務(wù)注冊中心調(diào)用可用服務(wù)返回共享數(shù)據(jù),通過restful/web service數(shù)據(jù)共享交換服務(wù)集群對共享交換服務(wù)進行管理,使用kafka作為消息總線保證服務(wù)消息

11、不丟失,并對共享交換內(nèi)容進行展示。同時支持數(shù)據(jù)同步、歷史數(shù)據(jù)遷移等,為不同系統(tǒng)、數(shù)據(jù)庫和數(shù)據(jù)格式之間數(shù)據(jù)的交換提供服務(wù)。本文構(gòu)建的食品安全數(shù)據(jù)融合共享技術(shù)路徑,能夠基于統(tǒng)一的規(guī)范和標準提供數(shù)據(jù)融合共享交換服務(wù),消除由于應(yīng)用范圍、構(gòu)建方式、系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)資源等產(chǎn)生的各業(yè)務(wù)系統(tǒng)間的差異,實現(xiàn)跨系統(tǒng)、跨平臺、跨數(shù)據(jù)庫之間基于不同傳輸協(xié)議的食品安全數(shù)據(jù)的交換和信息共享。各個食品安全相關(guān)單位可以更便捷地共享交換數(shù)據(jù),既能節(jié)約成本,又能在安全可控的前提下提升數(shù)據(jù)資源的利用率,提升信息化建設(shè)對業(yè)務(wù)和管理的支撐作用。3 總結(jié)食品安全數(shù)據(jù)的采集與融合共享體系可對原本分散異構(gòu)的信息系統(tǒng)數(shù)據(jù)資源進行有效整合,開展多維度數(shù)據(jù)校驗,搭建數(shù)據(jù)流通渠道,破除數(shù)據(jù)壁壘,實現(xiàn)不同來源、不同結(jié)構(gòu)、不同類型和不同格式食品安全數(shù)據(jù)的采集、融合治理和共享,靈活實現(xiàn)不同信息系統(tǒng)間的信息交換、信息共享與業(yè)務(wù)協(xié)同,為食品安全監(jiān)管內(nèi)外部門之間信息共享和公眾的資源公開服務(wù)提供支撐,進一步提升政府服務(wù)和監(jiān)管能力,保障食品安全。參考文獻1劉楊,馬東,肖革新.食品安全數(shù)據(jù)融合的實現(xiàn)路徑數(shù)據(jù)編碼j.食品安全導刊,2018(31):42-43.2張素智,楊芮,趙亞楠.食品安全大數(shù)據(jù)的融合及分類并行處理技術(shù)研究j.湖北民族學院學報(自然科學版),2018(3):256-265.3晏斌,李唯正,梁巖,等.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論