數(shù)據(jù)溯源研究綜述_第1頁
數(shù)據(jù)溯源研究綜述_第2頁
數(shù)據(jù)溯源研究綜述_第3頁
數(shù)據(jù)溯源研究綜述_第4頁
數(shù)據(jù)溯源研究綜述_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)溯源研究綜述

1數(shù)據(jù)源總結(jié)1.1數(shù)據(jù)溯源和追蹤數(shù)據(jù)起源是一個(gè)新興的研究領(lǐng)域,起源于20世紀(jì)90年代,并從“數(shù)據(jù)公用事業(yè)”翻譯而來。最初,一些文獻(xiàn)被稱為數(shù)據(jù)編年史和數(shù)據(jù)檔案。在那之后,許多文獻(xiàn)被稱為數(shù)據(jù)起源,以具有跟蹤和再現(xiàn)數(shù)據(jù)的意義。在本文中,我們被稱為數(shù)據(jù)來源,即回歸函數(shù)的含義,并從應(yīng)用的角度強(qiáng)調(diào)跟蹤過程和方法。目前,數(shù)據(jù)溯源還沒有公認(rèn)的定義,因應(yīng)用領(lǐng)域不同而定義各異.Simmhanetal將數(shù)據(jù)溯源定義為從源數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的衍生過程信息;Bunemanetal在數(shù)據(jù)庫領(lǐng)域?qū)⑵涠x為“數(shù)據(jù)及其在數(shù)據(jù)庫間運(yùn)動(dòng)的起源”;Lanter在GIS中將其定義為:數(shù)據(jù)溯源是對目標(biāo)數(shù)據(jù)衍生前的原始數(shù)據(jù)以及演變過程的描述;Greenwood等人對Lanter的定義進(jìn)行拓展,認(rèn)為數(shù)據(jù)溯源是一種元數(shù)據(jù),用來記錄工作流演變過程、標(biāo)注信息以及實(shí)驗(yàn)過程等信息.在其它一些領(lǐng)域中還有其它一些叫法:如數(shù)據(jù)族系(DataLineage)、數(shù)據(jù)系譜(DataPedigree)、數(shù)據(jù)來源(DataOrigin)、數(shù)據(jù)世系等.戴超凡等將數(shù)據(jù)溯源定義為記錄原始數(shù)據(jù)在整個(gè)生命周期內(nèi)(從產(chǎn)生、傳播到消亡)的演變信息和演變處理內(nèi)容.我們認(rèn)為,DataProvenance應(yīng)該翻譯成“數(shù)據(jù)溯源”,強(qiáng)調(diào)的是一種溯本追源的技術(shù),根據(jù)追蹤路徑重現(xiàn)數(shù)據(jù)的歷史狀態(tài)和演變過程,實(shí)現(xiàn)數(shù)據(jù)歷史檔案的追溯.1.2數(shù)據(jù)溯源技術(shù)國內(nèi)關(guān)于數(shù)據(jù)溯源研究較少.戴超凡比較系統(tǒng)地研究了數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)溯源追蹤技術(shù);劉喜平等總結(jié)了目前計(jì)算數(shù)據(jù)溯源的主要方法和應(yīng)用;李亞子研究了數(shù)據(jù)溯源追蹤標(biāo)注模式與描述模型,引入了數(shù)據(jù)溯源的7W模型;王黎維等研究了對象代理數(shù)據(jù)庫的科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤模型,并提出了一種雙向指針機(jī)制的數(shù)據(jù)追蹤方法.李秀美研究了數(shù)據(jù)溯源本身特有的安全需求以及廣播的加密方案,構(gòu)建了新的數(shù)據(jù)溯源安全模型.戴超凡等全面系統(tǒng)地做了數(shù)據(jù)溯源的綜述,介紹了數(shù)據(jù)溯源的基礎(chǔ)研究和開放環(huán)境下兩個(gè)典型的形式化模型.國外已經(jīng)有很多大學(xué)和研究機(jī)構(gòu)將數(shù)據(jù)溯源作為研究課題,引起很多專家學(xué)者的高度關(guān)注,我們將在下面詳述.ZhuoweiBaoetal開發(fā)了一種緊密而有效的可達(dá)性標(biāo)簽方案用于解答有關(guān)運(yùn)行在規(guī)定說明的工作流溯源的質(zhì)疑.這種標(biāo)簽方案在某種意義上來講是最優(yōu)的,因?yàn)樗褂脤?shù)長度、在線時(shí)間運(yùn)行并能回答任何常規(guī)時(shí)間中可達(dá)性問題.WenchaoZhouetal提出了ExSpan(可擴(kuò)展的溯源感知的網(wǎng)絡(luò)系統(tǒng))設(shè)計(jì)與應(yīng)用,ExSpan是在分布式環(huán)境中能有效進(jìn)行網(wǎng)絡(luò)溯源的通用、可擴(kuò)展框架平臺(tái),并為網(wǎng)絡(luò)溯源存儲(chǔ)定義了一種分布式模型,用數(shù)據(jù)溯源的理念來解釋網(wǎng)絡(luò)中存在的各種狀態(tài),并提供了一種多功能網(wǎng)絡(luò)機(jī)制.GrigorisKarvounarakisetal提出了一種基于元組、半環(huán)溯源的ProQL(forProvenanceQueryLanguage)語言,能夠解決溯源存儲(chǔ)、維護(hù)和查詢等相關(guān)問題.國外對數(shù)據(jù)溯源的發(fā)展越來越重視,有多個(gè)國際會(huì)議以此為會(huì)議主題.比如:WorkshoponDataProvenanceandAnnotation(WDPA),WorkshopontheTheoryandPracticeofProvenance(TaPP),InternationalProvenanceandAnnotationWorkshop(IOAW)等.近年來,有一些研究者對數(shù)據(jù)溯源進(jìn)行了綜述,現(xiàn)將相關(guān)的綜述與本文的區(qū)別描述如下:劉喜平等著重分析了數(shù)據(jù)起源計(jì)算的兩種方法:查詢反演法和標(biāo)注法,強(qiáng)調(diào)了兩種方法的實(shí)現(xiàn),比較了兩種方法的特點(diǎn);然而,并沒有提到其它的計(jì)算方法,也沒有提出新的思維方式.本文在介紹數(shù)據(jù)溯源計(jì)算方法時(shí),比較了反向查詢法和標(biāo)注法的優(yōu)缺點(diǎn),針對標(biāo)注法需要額外的存儲(chǔ)開銷,提出標(biāo)注內(nèi)容列存儲(chǔ)的思想.還提到以下幾種數(shù)據(jù)溯源方法:通用的數(shù)據(jù)追蹤方法,雙向指針追蹤法,利用圖論思想和專用查詢語言追蹤法,以位向量存儲(chǔ)定位等方法.Yogesh的綜述中提出了四個(gè)數(shù)據(jù)溯源分類標(biāo)準(zhǔn),認(rèn)為數(shù)據(jù)溯源是元數(shù)據(jù)的一種,用于跟蹤數(shù)據(jù)演變的過程,強(qiáng)調(diào)數(shù)據(jù)溯源在科學(xué)領(lǐng)域和商業(yè)領(lǐng)域的重要性.戴超凡的綜述中,只介紹了兩種比較典型的模型,即開放的數(shù)據(jù)起源模型OPM和Provenir模型.而本文涵蓋了此兩種模型外還介紹了另外5種模型,系統(tǒng)全面的介紹了近年來數(shù)據(jù)溯源的各種模型,而且,提出了一種異構(gòu)數(shù)據(jù)的數(shù)據(jù)溯源模型圖,比較符合當(dāng)今數(shù)據(jù)所具有的異構(gòu)、分布等特點(diǎn).數(shù)據(jù)世系管理技術(shù)研究綜述中將數(shù)據(jù)世系主要分為模式級和實(shí)例級演化過程,以模式級和實(shí)例級數(shù)據(jù)世系的表示、查詢?yōu)橹骶€綜述了數(shù)據(jù)世系的發(fā)展歷程,并提出四個(gè)熱點(diǎn)研究方向分別是:數(shù)據(jù)空間中的數(shù)據(jù)世系、不確定數(shù)據(jù)的世系管理、工作流世系管理、數(shù)據(jù)世系的挖掘和可視化.而本文以數(shù)據(jù)溯源模型為主,綜述了近年來比較典型的模型,提出了異構(gòu)數(shù)據(jù)的模型圖.在介紹熱點(diǎn)方向時(shí)認(rèn)為數(shù)據(jù)溯源的安全問題以及統(tǒng)一業(yè)界標(biāo)準(zhǔn)也屬于數(shù)據(jù)溯源的研究熱點(diǎn)方向.本文第一節(jié)對數(shù)據(jù)溯源進(jìn)行概述.第二節(jié)討論了數(shù)據(jù)溯源模型,在前人研究的基礎(chǔ)上提出了異構(gòu)數(shù)據(jù)的數(shù)據(jù)溯源模型.第三節(jié)分析了數(shù)據(jù)溯源的計(jì)算方法并提出了使用列存儲(chǔ)節(jié)省存儲(chǔ)空間的思想.第四節(jié)闡述數(shù)據(jù)溯源的應(yīng)用,并對每個(gè)方向的應(yīng)用加以實(shí)例說明.第五節(jié)介紹數(shù)據(jù)溯源的研究熱點(diǎn)和應(yīng)用方向.最后對數(shù)據(jù)溯源技術(shù)的未來發(fā)展進(jìn)行展望.2數(shù)據(jù)源模型2.1數(shù)據(jù)溯源信息的整合與存儲(chǔ)建立一個(gè)有效的數(shù)據(jù)模型是數(shù)據(jù)溯源技術(shù)關(guān)鍵所在,根據(jù)模型可以初步確定數(shù)據(jù)溯源的大體步驟,以及數(shù)據(jù)溯源的基本思路.戴超凡從數(shù)據(jù)溯源信息管理的角度出發(fā),提出了一種數(shù)據(jù)溯源模型,但是并沒有考慮數(shù)據(jù)的異構(gòu)性,隨著數(shù)據(jù)規(guī)模的日益龐大以及數(shù)據(jù)結(jié)構(gòu)的逐漸復(fù)雜,不考慮數(shù)據(jù)的異構(gòu)特點(diǎn)將很難適合時(shí)代的需要,因此,上文提出的數(shù)據(jù)溯源模型只適合同構(gòu)的數(shù)據(jù)溯源情形,并不適合于復(fù)雜數(shù)據(jù).我們在此基礎(chǔ)上提出了異構(gòu)數(shù)據(jù)的數(shù)據(jù)溯源概念,考慮到數(shù)據(jù)的異構(gòu)分布的特性,在原有模型上加入異構(gòu)分層的三維模型.我們采用以橫軸表示時(shí)間(t)、縱軸表示過程(p),z軸表示數(shù)據(jù)的異構(gòu)分布特性.將數(shù)據(jù)溯源信息保存到不同的數(shù)據(jù)庫中,形成攜帶溯源信息的異構(gòu)數(shù)據(jù)庫(如:Access,SQLServer、Oracle等),通過數(shù)據(jù)庫接口(ODBC、JDBC等)以及數(shù)據(jù)轉(zhuǎn)換工具匯聚成統(tǒng)一的目標(biāo)數(shù)據(jù)庫.此時(shí),目標(biāo)數(shù)據(jù)庫攜帶了數(shù)據(jù)溯源信息.這個(gè)過程的逆過程所經(jīng)歷的路徑能夠?qū)崿F(xiàn)數(shù)據(jù)溯源的各種操作(如:數(shù)據(jù)追蹤、信息評估、過程重現(xiàn)等),從而,完成數(shù)據(jù)溯源的任務(wù).表示了異構(gòu)數(shù)據(jù)的溯源模型.這種模型由以下幾個(gè)部分組成:獲取信息部分、信息存儲(chǔ)部分、異構(gòu)數(shù)據(jù)處理部分.信息獲取:數(shù)據(jù)溯源的實(shí)現(xiàn)過程中,溯源信息是關(guān)鍵,它記錄了數(shù)據(jù)如何能追蹤歷史的重要信息,根據(jù)這些信息可以追蹤數(shù)據(jù)的歷史檔案,重現(xiàn)數(shù)據(jù)的演變過程.然而,“溯源信息如何獲取?記錄哪些內(nèi)容?”等問題一直沒有統(tǒng)一的答案.早期的研究往往只考慮某個(gè)數(shù)據(jù)項(xiàng)的來源,并不關(guān)注整個(gè)數(shù)據(jù)從哪里來,這樣只能追蹤局部數(shù)據(jù)的歷史根源,而達(dá)不到整個(gè)數(shù)據(jù)溯源的目的.除此之外,還把標(biāo)注信息當(dāng)作元數(shù)據(jù)一起保存于數(shù)據(jù)庫中以供查詢,這樣往往難以管理.隨著數(shù)據(jù)量的增大和研究的深入,Buneman等人逐漸改進(jìn)和完善這種模式,提出why和where型provenance,后來又分出howprovenance等.然而,這種分類并不適合其它工作流領(lǐng)域,于是,Sudha等人提出一個(gè)7W模型,這種模型包括:who、when、where、how、which、what、why七個(gè)部分的內(nèi)容.此模型雖然詳細(xì)且非常周全,但是需要一定的存儲(chǔ)開銷.信息存儲(chǔ):劉喜平介紹了兩種數(shù)據(jù)溯源存儲(chǔ)方法:一種是基于RDBMS存儲(chǔ)方案,此方案是基于關(guān)系型數(shù)據(jù),通過擴(kuò)充屬性的方式來存儲(chǔ)溯源信息,即將溯源信息直接存儲(chǔ)在關(guān)系數(shù)據(jù)庫的二維表中.另一種是基于樹型文檔存儲(chǔ)方案.樹型存儲(chǔ)方案是將元組、屬性、溯源信息作為樹的結(jié)點(diǎn)來存儲(chǔ),對于帶有標(biāo)注的源數(shù)據(jù)需要在原樹型結(jié)構(gòu)中增加一個(gè)子結(jié)點(diǎn)(provenance結(jié)點(diǎn))用來表示信息的來源.并對每個(gè)帶標(biāo)注的源數(shù)據(jù)都需添加一個(gè)href屬性,將其鏈接到源數(shù)據(jù)結(jié)點(diǎn).要實(shí)現(xiàn)數(shù)據(jù)溯源,溯源信息的存儲(chǔ)非常關(guān)鍵.因?yàn)樗菰葱畔⑿枰鎯?chǔ)空間來存儲(chǔ),存儲(chǔ)方式對數(shù)據(jù)溯源的性能起著關(guān)鍵性的作用.異構(gòu)數(shù)據(jù)處理部分:隨著時(shí)間的推移和應(yīng)用的需要,將產(chǎn)生各種各樣異構(gòu)的數(shù)據(jù)源(比如:Access、SQLServer、Oracle等等).這種異構(gòu)數(shù)據(jù)源如何實(shí)現(xiàn)數(shù)據(jù)溯源呢?這是業(yè)界一直想解決的一個(gè)重點(diǎn)和難點(diǎn)問題.應(yīng)用程序想要操作不同類型的數(shù)據(jù)庫只需要調(diào)用數(shù)據(jù)庫訪問接口(ODBC、JDBC等)支持的函數(shù),動(dòng)態(tài)地鏈接到驅(qū)動(dòng)程序上即可.再通過數(shù)據(jù)轉(zhuǎn)換工具形成統(tǒng)一的目標(biāo)數(shù)據(jù)庫.數(shù)據(jù)溯源信息通過這種途徑就能傳遞到目標(biāo)數(shù)據(jù)庫中.2.2流溯源信息模型目前,數(shù)據(jù)溯源模型主要有流溯源信息模型、時(shí)間-值中心溯源模型、四維溯源模型、開放的數(shù)據(jù)溯源模型、Provenir數(shù)據(jù)溯源模型、數(shù)據(jù)溯源安全模型,PrInt數(shù)據(jù)溯源模型等,這些模型都建立在不同領(lǐng)域、不同行業(yè).2008年5月王黎維等人發(fā)表的《集成對象代理數(shù)據(jù)庫的科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤》中提出了一種部分物化中間數(shù)據(jù)模型,GrigorisKarvounarakisetal提供了一個(gè)高層次的圖形工具開發(fā)模型來檢索數(shù)據(jù),而無需知道它的物理細(xì)節(jié).下面簡單介紹一下幾種模型.1.流溯源信息模型由6個(gè)相關(guān)實(shí)體構(gòu)成,主要包括流實(shí)體(變化事件實(shí)體、元數(shù)據(jù)實(shí)體和查詢輸入實(shí)體)和查詢實(shí)體(變化事件實(shí)體、接收查詢輸入實(shí)體,包括元數(shù)據(jù)實(shí)體).實(shí)體間關(guān)系密切,通過這種密切的關(guān)系可以根據(jù)數(shù)據(jù)的溯源時(shí)間來推斷數(shù)據(jù)溯源.4.1數(shù)據(jù)庫中數(shù)據(jù)溯源追蹤追溯數(shù)據(jù)溯源的源頭可以從研究數(shù)據(jù)庫、數(shù)據(jù)倉庫開始.1991年,Lanter等人開發(fā)的LIP系統(tǒng),用于管理GIS數(shù)據(jù)的信息演變,可以稱之為數(shù)據(jù)溯源的開山鼻祖.數(shù)據(jù)庫應(yīng)用中采取的追蹤方法主要是注釋法和反向查詢法.因?yàn)閮煞N方法各有其優(yōu)勢,注釋法管理簡單,DBNotes系統(tǒng)是其典型的代表;而反向查詢法追蹤簡單,典型的系統(tǒng)有Trio和Panda.所以經(jīng)常采用兩種方法相結(jié)合的方式進(jìn)行數(shù)據(jù)溯源的追蹤.但是,數(shù)據(jù)庫中傾向于采用反向查詢進(jìn)行跟蹤.文獻(xiàn)首次提出利用反向查詢進(jìn)行數(shù)據(jù)跟蹤的觀點(diǎn).提出建立函數(shù)用反向查詢方式進(jìn)行數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)溯源追蹤,但是,他們的方法只局限在一個(gè)DBMS中,如果在多個(gè)DBMS中就無法實(shí)現(xiàn)數(shù)據(jù)溯源追蹤.論述了如何在關(guān)系數(shù)據(jù)庫中計(jì)算數(shù)據(jù)溯源的方法,從而解決了來自不同數(shù)據(jù)源的數(shù)據(jù)溯源問題.提出當(dāng)數(shù)據(jù)在多個(gè)數(shù)據(jù)庫之間傳播處理時(shí),由于源數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫之間不存在任何關(guān)聯(lián),無法實(shí)現(xiàn)跨數(shù)據(jù)庫的追蹤查詢.因此,單個(gè)DBMS中的數(shù)據(jù)溯源方法將無法在多數(shù)據(jù)庫中使用.為了解決在不同DBMS中數(shù)據(jù)轉(zhuǎn)換問題,Cui等人通過深入調(diào)查研究,提出了形式化的跟蹤法則,通過定義一系列轉(zhuǎn)換屬性,并根據(jù)這些屬性提出了一種新的追蹤方法.Grigorisetal開發(fā)了一種查詢語言(ProQL),為基于元組溯源———半環(huán)溯源采取最普通的形式,提出支持查詢語言對數(shù)據(jù)源的存儲(chǔ)、處理和索引方案,可以解決增量維護(hù)、信任評估、關(guān)鍵字搜索以及數(shù)據(jù)庫查詢概率回答等問題.下面對數(shù)據(jù)溯源在數(shù)據(jù)庫應(yīng)用中幾種典型的系統(tǒng)做一下簡單的介紹:1.查詢檢索或處理變換DBNotes系統(tǒng)是非常典型的采用注釋方式存儲(chǔ)和管理的數(shù)據(jù)溯源系統(tǒng).系統(tǒng)為每個(gè)數(shù)據(jù)項(xiàng)都賦予了一個(gè)全局標(biāo)識(shí)(ID),在查詢檢索或處理演變過程時(shí),該系統(tǒng)提供了三種傳播注釋信息策略,以供用戶進(jìn)行選擇.但系統(tǒng)的不足之處在于兩個(gè)方面的問題:1、等價(jià)查詢可能會(huì)得出不同的結(jié)果.2、不能實(shí)現(xiàn)非查詢類操作,比如統(tǒng)計(jì)、求和等方面.2.rio相關(guān)模型斯坦福大學(xué)研究的Trio系統(tǒng)非常具有代表性,此系統(tǒng)采用關(guān)系表描述及存儲(chǔ).Trio是一個(gè)綜合管理系統(tǒng),實(shí)現(xiàn)了對傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)加入數(shù)據(jù)溯源的管理.將數(shù)據(jù)、轉(zhuǎn)換、溯源有機(jī)的結(jié)合在一起.該模型支持基于SQL的查詢語言TriQL,是對關(guān)系模型的擴(kuò)展,廣泛應(yīng)用于科學(xué)數(shù)據(jù)、信息抽取、數(shù)據(jù)集成等領(lǐng)域.3.無縫合并數(shù)據(jù)溯源Panda系統(tǒng)目前正處于開發(fā)階段,還沒有投入到實(shí)用過程中,目標(biāo)是整合基于數(shù)據(jù)和基于過程的兩種類型數(shù)據(jù)溯源,希望實(shí)現(xiàn)一個(gè)通用的獲取數(shù)據(jù)溯源、存儲(chǔ)、查詢于一體,方便靈活、可配置各種應(yīng)用的開源系統(tǒng).無縫合并基于數(shù)據(jù)和過程的溯源,為用戶提供一個(gè)全方位的從細(xì)粒度到粗粒度的數(shù)據(jù)溯源模型,開發(fā)一種通用語言用于查詢和分析溯源信息.4.2數(shù)據(jù)溯源信息工作流的概念溯源于辦公自動(dòng)化領(lǐng)域.根據(jù)一系列規(guī)則,把資料、文檔、信息以及任務(wù)在參與者之間傳遞,以達(dá)到某種目的.科學(xué)工作流是用來自動(dòng)化科學(xué)研究過程的,而科研過程由一系列研究步驟組成,用來描述和控制科學(xué)實(shí)驗(yàn)和過程的執(zhí)行,它是面向e-Science,服務(wù)于科學(xué)家,為他們提供更易分析和管理的數(shù)據(jù).科學(xué)工作流采用數(shù)據(jù)驅(qū)動(dòng)模式,在數(shù)據(jù)處理過程中,前一級的數(shù)據(jù)輸出成為下一級處理的數(shù)據(jù)輸入.而且,科學(xué)工作流的定義與設(shè)計(jì)都是動(dòng)態(tài)的,整個(gè)任務(wù)序列是不確定的,需要根據(jù)前一個(gè)任務(wù)的處理結(jié)果來確定下一個(gè)任務(wù).科學(xué)工作流強(qiáng)調(diào)數(shù)據(jù)的可信度,實(shí)現(xiàn)數(shù)據(jù)溯源對每一步的處理過程可信度存在較高的要求,對全程數(shù)據(jù)的變化需要進(jìn)行監(jiān)控.早在1997年,Geo-opera系統(tǒng)就是數(shù)據(jù)溯源追蹤在工作流中的應(yīng)用.實(shí)現(xiàn)了在分布式環(huán)境下的數(shù)據(jù)流、轉(zhuǎn)換過程和數(shù)據(jù)溯源追蹤等功能.工作流中的數(shù)據(jù)溯源信息能夠?yàn)橛脩粼u估數(shù)據(jù)質(zhì)量、重現(xiàn)實(shí)驗(yàn)過程、挖掘潛在的數(shù)據(jù)關(guān)系等.06年和08年兩屆IPAW會(huì)議的主題都于工作流的數(shù)據(jù)溯源相關(guān),數(shù)據(jù)溯源在這個(gè)領(lǐng)域的研究很受重視.ZhuoweiBaoetal利用框架標(biāo)簽為工作流溯源設(shè)計(jì)了一種緊密而有效的可達(dá)性標(biāo)簽方案,使用對數(shù)長度、線性時(shí)間運(yùn)行、能夠回答幾乎所有的常規(guī)時(shí)間里的可達(dá)性查詢.ManishKumaretal為科學(xué)工作流溯源提供一種高效查詢圖形技術(shù).獲取在工作流中數(shù)據(jù)溯源信息一般有兩種方法:1.日志法,即從日志文件中獲取比較簡單的溯源信息,不能實(shí)現(xiàn)工作流程的任意修改逆流,這種方法應(yīng)用不多.2.將數(shù)據(jù)溯源信息記錄在工作流引擎設(shè)計(jì)中,以便進(jìn)行管理.下面簡單介紹國際上比較成熟的科學(xué)工作流系統(tǒng).Kepler是由UCDavis、UCSantaBarbara等合作研制的,是開源的java程序系統(tǒng).構(gòu)建于另一個(gè)開源可視化建模系統(tǒng)PtolemyII之上,為科學(xué)家提供了一個(gè)方便易用的工作平臺(tái).通過記錄工作流執(zhí)行狀態(tài),可以重現(xiàn)整個(gè)操作的全過程.該系統(tǒng)是一個(gè)通用的自動(dòng)工作流管理系統(tǒng),也是一個(gè)數(shù)據(jù)溯源管理系統(tǒng),能夠?qū)崿F(xiàn)工作流的創(chuàng)建、運(yùn)行和共享一體化,在數(shù)據(jù)溯源管理方面,通過跟蹤數(shù)據(jù)項(xiàng)以及數(shù)據(jù)聚合的歷史記錄,將結(jié)果反饋給用戶.Kepler系統(tǒng)允許科學(xué)家設(shè)計(jì)科學(xué)工作流,并使用基于網(wǎng)格的分布式計(jì)算方法執(zhí)行這些工作流.廣泛應(yīng)用于地理學(xué)、生物信息學(xué)、化學(xué)等科學(xué)領(lǐng)域.用戶即使沒有計(jì)算機(jī)背景,也可以使用標(biāo)準(zhǔn)組件生成工作流,或者根據(jù)需求修改現(xiàn)有的工作流模型.該軟件集成了Matlab、R等數(shù)據(jù)分析軟件.2.實(shí)驗(yàn)科學(xué)的立工作流系統(tǒng)Taverna系統(tǒng)由MyGrid團(tuán)隊(duì)創(chuàng)建,受OMII-UK資助.由可用服務(wù)面板、工作流圖面板和高級模型瀏覽器三個(gè)主要部分組成.Taverna是一個(gè)開放源碼的獨(dú)立工作流管理系統(tǒng),用于在設(shè)計(jì)和執(zhí)行實(shí)驗(yàn)科學(xué)的工作流程和助手工具套件.Taverna系統(tǒng)采用SCUFL來創(chuàng)建科學(xué)工作流,它定義的工作流,通過控制流模型來描述各種任務(wù)之間的關(guān)系,并利用控制結(jié)構(gòu)(比如條件判斷、循環(huán)語句等)來處理科學(xué)研究各步驟的關(guān)系,進(jìn)而跟蹤、溯源、重現(xiàn)工作流程中各步的狀態(tài).另外,工作流映射包括資源的發(fā)現(xiàn)和綁定兩個(gè)步驟,主要有手工和自動(dòng)兩種方式,大部分科學(xué)工作流系統(tǒng)采用注冊表來保存增加的服務(wù)信息,Taverna系統(tǒng)采用手工方式,通過注冊表保存了大量的生物信息學(xué)的Web服務(wù)描述信息.3.核心網(wǎng)絡(luò)的連通性Triana系統(tǒng)是一種開源的、與平臺(tái)無關(guān)的分布式問題解決型環(huán)境,用java語言實(shí)現(xiàn).Triana是圖形化應(yīng)用環(huán)境,用戶可以方便地構(gòu)建一個(gè)科學(xué)工作流.用戶可以通過拖動(dòng)其組件形成一個(gè)結(jié)點(diǎn),通過創(chuàng)建兩個(gè)結(jié)點(diǎn)間的連線構(gòu)建其連通性.它是一個(gè)模塊化的體系結(jié)構(gòu),包括3個(gè)不同的組件:TS(TrianaService)、TCS(TrianaControllerService)、TGUI(TrianaUserInterface).通過TGUI可以訪問其它運(yùn)行TS的機(jī)器.TCS是一個(gè)控制指定Triana網(wǎng)絡(luò)的服務(wù),它可以選擇自己運(yùn)行或指定其它可用的TS執(zhí)行.因此,一個(gè)TGUI可以控制多個(gè)Triana網(wǎng)絡(luò)實(shí)現(xiàn)其分布式管理.通過Triana系統(tǒng)來進(jìn)行數(shù)據(jù)溯源可以將分布于各個(gè)TS中的數(shù)據(jù)利用TGUI來統(tǒng)一分析、跟蹤和管理.Triana能夠?qū)?shù)據(jù)溯源應(yīng)用于信號(hào)、文本、圖片等方面的處理.4.基于數(shù)據(jù)的工作流系統(tǒng)該系統(tǒng)提供給用戶一個(gè)基于Web的安全可靠、簡單易用的工具,用于監(jiān)視數(shù)據(jù)密集型科學(xué)實(shí)驗(yàn)的全過程,通過Web服務(wù)器、FTP、SRB等多種方式獲取科學(xué)數(shù)據(jù),并通過VML/SVG可視化操作界面,定制滿足需求的工作流實(shí)例,提交給后臺(tái)的Kelper/PtolemyII工作流引擎服務(wù)器,經(jīng)過對所獲取的數(shù)據(jù)調(diào)用專用的處理軟件(包括NCL、Matlab、CDO等)進(jìn)行綜合分析,最終得到所需要的可視化結(jié)果,從而實(shí)現(xiàn)數(shù)據(jù)的狀態(tài)重現(xiàn)、數(shù)據(jù)跟蹤.以上的系統(tǒng)有一個(gè)相同的特點(diǎn):實(shí)現(xiàn)工作流的數(shù)據(jù)溯源、重現(xiàn)實(shí)驗(yàn)過程、追蹤數(shù)據(jù)的歷史檔案,可以集成數(shù)據(jù)分析軟件實(shí)現(xiàn)數(shù)據(jù)的分析和挖掘.其中,Kepler系統(tǒng)能夠?qū)崿F(xiàn)重現(xiàn)整個(gè)實(shí)驗(yàn)過程的功能,為科學(xué)實(shí)驗(yàn)的錯(cuò)誤查詢、數(shù)據(jù)質(zhì)量評估以及數(shù)據(jù)追蹤等方面做出了巨大的貢獻(xiàn).Taverna系統(tǒng)主要通過控制流模型來定義各任務(wù)之間的關(guān)系,并利用控制結(jié)構(gòu)來處理科學(xué)研究每個(gè)步驟的關(guān)系.Triana系統(tǒng)是一個(gè)模塊化結(jié)構(gòu),由不同的組件組成,通過拖動(dòng)組件形成結(jié)點(diǎn),通過連線確定其關(guān)系.4.3數(shù)據(jù)溯源技術(shù)數(shù)據(jù)溯源在其它領(lǐng)域中應(yīng)用也非常廣泛,如:管理GIS數(shù)據(jù)中元數(shù)據(jù),更加智能管理無線傳感網(wǎng)絡(luò)中的數(shù)據(jù),更加安全地傳輸網(wǎng)絡(luò)數(shù)據(jù),能夠使存儲(chǔ)系統(tǒng)智能化和人性化,Wiki管理系統(tǒng),開源代碼版本管理.數(shù)據(jù)溯源的一個(gè)應(yīng)用是如何進(jìn)行視圖維護(hù)與更新.視圖維護(hù)與更新都是涉及到基表與視圖的相互聯(lián)系,即基表數(shù)據(jù)發(fā)生變化,如何修改視圖?如果視圖數(shù)據(jù)被用戶修改,又如何定位到基表進(jìn)行元組的修改?研究了如何根據(jù)數(shù)據(jù)溯源來進(jìn)行視圖的更新.文獻(xiàn)研究了視圖中元組的刪除操作如何轉(zhuǎn)換為基表中元組的刪除操作.5云計(jì)算和存儲(chǔ)環(huán)境的安全體系數(shù)據(jù)世系管理技術(shù)研究綜述,提出4個(gè)熱點(diǎn)研究方向分別是:數(shù)據(jù)空間中的數(shù)據(jù)世系、不確定數(shù)據(jù)的世系管理、工作流世系管理、數(shù)據(jù)世系的挖掘和可視化.我們認(rèn)為,隨著云計(jì)算和存儲(chǔ)環(huán)境的不斷發(fā)展,數(shù)據(jù)溯源的安全問題變的越來越重要;為了更好地推廣數(shù)據(jù)溯源技術(shù)的應(yīng)用,迫切需要建立統(tǒng)一的數(shù)據(jù)溯源的業(yè)界標(biāo)準(zhǔn).5.1數(shù)據(jù)溯源的安全與方便修改數(shù)據(jù)的安全是用戶使用數(shù)據(jù)的最起碼要求,也是一些核心數(shù)據(jù)(涉及國家軍隊(duì)秘密信息)所必需考慮的安全隱患問題.數(shù)據(jù)的安全勿庸置疑,數(shù)據(jù)溯源信息本身也是數(shù)據(jù),同樣存在安全問題.由于某些領(lǐng)域需要數(shù)據(jù)共享才能達(dá)到目的,而且還需要實(shí)時(shí)更新和變遷,這就無法用常規(guī)的數(shù)據(jù)保護(hù)方法來確保數(shù)據(jù)的安全.數(shù)據(jù)溯源技術(shù)在很多領(lǐng)域已得到廣泛應(yīng)用,但是,數(shù)據(jù)本身的安全以及溯源數(shù)據(jù)的安全是數(shù)據(jù)溯源技術(shù)發(fā)展的前提和基礎(chǔ).如何解決數(shù)據(jù)溯源信息的安全與方便修改是這一領(lǐng)域存在的問題.5.2數(shù)據(jù)溯源的標(biāo)準(zhǔn)化目前,很多學(xué)者提出了自己的數(shù)據(jù)溯源模型和框架.但是,都存在一定的局限性,大多數(shù)溯源管理系統(tǒng)都是在一個(gè)獨(dú)立的系統(tǒng)內(nèi)部實(shí)現(xiàn)溯源管理的.但數(shù)據(jù)如何在多個(gè)、分布式系統(tǒng)之間轉(zhuǎn)換或傳播,沒有形成統(tǒng)一的業(yè)界標(biāo)準(zhǔn).只有存在統(tǒng)一的標(biāo)準(zhǔn),數(shù)據(jù)溯源的相關(guān)系統(tǒng)才能形成標(biāo)準(zhǔn)的接口,以模塊化的形式應(yīng)用于其它領(lǐng)域.標(biāo)準(zhǔn)不統(tǒng)一嚴(yán)重影響了數(shù)據(jù)溯源技術(shù)的發(fā)展,所以統(tǒng)一標(biāo)準(zhǔn)是亟待解決的問題之一.6數(shù)據(jù)溯源安全模型本文系統(tǒng)地總結(jié)了數(shù)據(jù)溯源的發(fā)展及數(shù)據(jù)溯源的模型、方法和應(yīng)用,介紹了數(shù)據(jù)溯源在數(shù)據(jù)庫、工作流和其它方面的應(yīng)用,并以舉例的方式進(jìn)行論述.對數(shù)據(jù)溯源的標(biāo)注法和逆置函數(shù)反向查詢法進(jìn)行了比較,列出其各自的優(yōu)缺點(diǎn).針對標(biāo)注法需要大量的存儲(chǔ)空間來存儲(chǔ)溯源信息這一缺點(diǎn),提出了一種基于列存儲(chǔ)的標(biāo)注思想.本文還提出了一種異構(gòu)數(shù)據(jù)的溯源模型,適用于分布式異構(gòu)數(shù)據(jù)的數(shù)據(jù)追蹤.數(shù)據(jù)溯源是一個(gè)新興的領(lǐng)域、研究時(shí)間短,還有很多地方不夠完善,第五節(jié)中的熱點(diǎn)研究方向同樣存在很多難題需要攻克,我們相信未來數(shù)據(jù)溯源技術(shù)一定會(huì)蓬勃發(fā)展.2.BowersS提出的Time-ValueCentric(TVC)模型又稱時(shí)間-值中心溯源模型,是一種簡單有效的溯源模型.由于過去的溯源模型無論是基于標(biāo)注的還是基于過程的溯源模型都用于面向交易的系統(tǒng)中,并不適合高容量特定需求以及連續(xù)的醫(yī)療流.于是,提出支持醫(yī)療領(lǐng)域數(shù)據(jù)源特點(diǎn)的TVC模型專門處理醫(yī)療事件流的溯源信息.根據(jù)數(shù)據(jù)中的時(shí)間戳和流ID號(hào)來推斷醫(yī)療事件的序列和原始數(shù)據(jù)的痕跡.3.四維溯源模型是由YogeshL.Simmhan等人提出.此模型將溯源看成一系列離散的活動(dòng)集,這些活動(dòng)發(fā)生在整個(gè)工作流生命周期中,并由四個(gè)維度(時(shí)間、空間、層和數(shù)據(jù)流分布)組成.四維溯源模型通過時(shí)間維區(qū)分標(biāo)注鏈中處于不同活動(dòng)層中的多個(gè)活動(dòng),進(jìn)而通過追蹤發(fā)生在不同工作流組件中的活動(dòng),捕獲工作流溯源和支持工作流執(zhí)行的數(shù)據(jù)溯源.4.開放的數(shù)據(jù)溯源模型OPM在首屆InternationalProvenanceandAnnotationWorkshop(IPAW)會(huì)議中,與會(huì)者對數(shù)據(jù)溯源的描述產(chǎn)生了一些共同的觀念,并提出了一種原始的數(shù)據(jù)模型.后來,南安普頓大學(xué)等組織整理了會(huì)議的主要思想并發(fā)表了題為“TheOpenProvenanceModel”文章,文中提及的模型基本形成業(yè)界信息交換標(biāo)準(zhǔn),定義一些具體的格式和協(xié)議就能應(yīng)用到實(shí)際當(dāng)中.當(dāng)然,還需考慮與其它模型的兼容問題,文獻(xiàn)Hiddersetal中提出了一種將NCR模型映射到OPM模型的自動(dòng)轉(zhuǎn)換方法.5.Provenir數(shù)據(jù)溯源模型2008年,在由Freire和Moreau組織的第二屆IPAW會(huì)議中,Sahoo等人提出了Provenir數(shù)據(jù)溯源模型,該模型使用W3C標(biāo)準(zhǔn)對模型加以邏輯描述,考慮了數(shù)據(jù)庫和工作流兩個(gè)領(lǐng)域的具體細(xì)節(jié),從模型、存儲(chǔ)到應(yīng)用等方面形成了一個(gè)完整的體系,成為首個(gè)完整的數(shù)據(jù)溯源管理系統(tǒng).用分類的方式闡明它們之間的相互關(guān)系.該模型提供對數(shù)據(jù)產(chǎn)生歷史的元數(shù)據(jù)、原數(shù)據(jù)、修改元數(shù)據(jù)等功能,并使用物化視圖的方法有效解決了數(shù)據(jù)溯源的存儲(chǔ)問題.6.數(shù)據(jù)溯源安全模型數(shù)據(jù)溯源技術(shù)能夠溯本追源,通過其起源鏈的記錄信息來實(shí)現(xiàn)追源的目的,但是記錄信息本身也是數(shù)據(jù).因此,同樣存在安全隱患,為了防止有人惡意篡改數(shù)據(jù)溯源中起源鏈的相關(guān)信息,李秀美等2010年研究了數(shù)據(jù)溯源的安全模型,利用密鑰樹再生成的方法并引入時(shí)間戳參數(shù),有效地防止某人惡意篡改溯源鏈中的溯源記錄,對數(shù)據(jù)對象在生命周期內(nèi)修改行為的記錄按時(shí)間先后組成溯源鏈,用文檔來記載數(shù)據(jù)的修改行為,當(dāng)進(jìn)行各種操作時(shí),文檔隨著數(shù)據(jù)的演變而更新其內(nèi)容,通過對文檔添加一些無法修改的參數(shù)比如:時(shí)間戳、加密密鑰、校驗(yàn)和等來限制操作權(quán)限,保護(hù)溯源鏈的安全.7.PrInt數(shù)據(jù)溯源模型PrInt是一種支持實(shí)例級數(shù)據(jù)一體化進(jìn)程的數(shù)據(jù)溯源模型.該模型主要集中解決一體化進(jìn)程系統(tǒng)中不允許用戶直接更新異構(gòu)數(shù)據(jù)源而導(dǎo)致數(shù)據(jù)不一致的問題.由PrInt提供的再現(xiàn)性是基于日志記錄的,并將數(shù)據(jù)溯源納入一體化進(jìn)程.以上七種模型是比較經(jīng)典的模型,其中,對于前三種模型而言,流模型和時(shí)間-值模型沒有明確指出對W7模式的支持,只有四維模型支持動(dòng)態(tài)構(gòu)建數(shù)據(jù)溯源圖,能根據(jù)一系列溯源事件以及數(shù)據(jù)結(jié)點(diǎn)和服務(wù)結(jié)點(diǎn)所構(gòu)成的數(shù)據(jù)流邊來構(gòu)建.存在的不足之處在于形成過程不直接,難于理解.后面幾種模型是從不同的角度,不同層次,針對數(shù)據(jù)溯源的某種特性而建立起來的模型.隨著時(shí)間的推移,數(shù)據(jù)溯源模型會(huì)越來越多,但基本上都將從如何實(shí)現(xiàn)溯源的目的以及其本身的安全方面著手,以上幾種模型除了數(shù)據(jù)溯源安全模型是介紹溯源鏈本身的安全外,其它幾種模型都是建立在如何實(shí)現(xiàn)溯本追源的基礎(chǔ)上的,但,每種模型各具其特點(diǎn),風(fēng)格不盡相同.另外,還有人提出DNA雙螺旋結(jié)構(gòu)的數(shù)據(jù)溯源模型,利用DNA復(fù)雜結(jié)構(gòu)與數(shù)據(jù)溯源進(jìn)行類比,將DNA中的兩條鏈分別代表數(shù)據(jù)序列和操作序列,連接兩條鏈間的堿基代表關(guān)聯(lián)數(shù)據(jù)和操作的屬性.通過這種對應(yīng)關(guān)系建立起一種DNA雙螺旋結(jié)構(gòu)模型.建立了數(shù)據(jù)模型之后,以下介紹數(shù)據(jù)溯源的方法.3逆置追蹤數(shù)據(jù)溯源目前,數(shù)據(jù)溯源追蹤的主要方法有標(biāo)注法和反向查詢法.除此之外,還有通用的數(shù)據(jù)追蹤方法,雙向指針追蹤法,利用圖論思想和專用查詢語言追蹤法,以及文獻(xiàn)提出以位向量存儲(chǔ)定位等方法.標(biāo)注法是一種簡單且有效的數(shù)據(jù)溯源方法,使用非常廣泛.通過記錄處理相關(guān)的信息來追溯數(shù)據(jù)的歷史狀態(tài),即用標(biāo)注的方式來記錄原始數(shù)據(jù)的一些重要信息,如背景、作者、時(shí)間、出處等,并讓標(biāo)注和數(shù)據(jù)一起傳播,通過查看目標(biāo)數(shù)據(jù)的標(biāo)注來獲得數(shù)據(jù)的溯源.Sudha等人提出的7W模型,就是采用標(biāo)注法,事先標(biāo)記并攜帶溯源信息完成數(shù)據(jù)溯源的模型,被稱為eager方法.采用標(biāo)注法來進(jìn)行數(shù)據(jù)溯源雖然簡單,但存儲(chǔ)標(biāo)注信息需要額外的存儲(chǔ)空間.反向查詢法,有的文獻(xiàn)也稱逆置函數(shù)法.由于標(biāo)注法并不適合細(xì)粒度數(shù)據(jù),特別是大數(shù)據(jù)集中的數(shù)據(jù)溯源,于是,提出了逆置函數(shù)反向查詢法,此方法是通過逆向查詢或構(gòu)造逆向函數(shù)對查詢求逆,或者說根據(jù)轉(zhuǎn)換過程反向推導(dǎo),由結(jié)果追溯到原數(shù)據(jù)的過程.這種方法是在需要時(shí)才計(jì)算所以又叫l(wèi)azzy方法.詳細(xì)論述了數(shù)據(jù)庫中逆置追蹤數(shù)據(jù)溯源的機(jī)制.反向查詢法關(guān)鍵是要構(gòu)造出逆向函數(shù),逆向函數(shù)構(gòu)造的好與壞直接影響查詢的效果以及算法的性能,與標(biāo)注法相比,它比較復(fù)雜,但需要的存儲(chǔ)空間比標(biāo)注法要小.下面將標(biāo)注法與查詢法進(jìn)行比較,列出其優(yōu)缺點(diǎn).標(biāo)注法的優(yōu)點(diǎn):實(shí)現(xiàn)簡單,容易管理,其缺點(diǎn):只適合小型系統(tǒng),對于大型系統(tǒng)而言很難為細(xì)粒度的數(shù)據(jù)提供詳細(xì)的數(shù)據(jù)溯源信息,因?yàn)楹芗?xì)可能導(dǎo)致元數(shù)據(jù)比原始數(shù)據(jù)還多,需要額外的存儲(chǔ)空間,對存儲(chǔ)造成很大的壓力,而且效率低.逆置函數(shù)反向查詢法的優(yōu)點(diǎn):追蹤比較簡單,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論