數(shù)據(jù)溯源研究綜述_第1頁(yè)
數(shù)據(jù)溯源研究綜述_第2頁(yè)
數(shù)據(jù)溯源研究綜述_第3頁(yè)
數(shù)據(jù)溯源研究綜述_第4頁(yè)
數(shù)據(jù)溯源研究綜述_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)溯源研究綜述

1數(shù)據(jù)源總結(jié)1.1數(shù)據(jù)溯源和追蹤數(shù)據(jù)起源是一個(gè)新興的研究領(lǐng)域,起源于20世紀(jì)90年代,并從“數(shù)據(jù)公用事業(yè)”翻譯而來(lái)。最初,一些文獻(xiàn)被稱(chēng)為數(shù)據(jù)編年史和數(shù)據(jù)檔案。在那之后,許多文獻(xiàn)被稱(chēng)為數(shù)據(jù)起源,以具有跟蹤和再現(xiàn)數(shù)據(jù)的意義。在本文中,我們被稱(chēng)為數(shù)據(jù)來(lái)源,即回歸函數(shù)的含義,并從應(yīng)用的角度強(qiáng)調(diào)跟蹤過(guò)程和方法。目前,數(shù)據(jù)溯源還沒(méi)有公認(rèn)的定義,因應(yīng)用領(lǐng)域不同而定義各異.Simmhanetal將數(shù)據(jù)溯源定義為從源數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的衍生過(guò)程信息;Bunemanetal在數(shù)據(jù)庫(kù)領(lǐng)域?qū)⑵涠x為“數(shù)據(jù)及其在數(shù)據(jù)庫(kù)間運(yùn)動(dòng)的起源”;Lanter在GIS中將其定義為:數(shù)據(jù)溯源是對(duì)目標(biāo)數(shù)據(jù)衍生前的原始數(shù)據(jù)以及演變過(guò)程的描述;Greenwood等人對(duì)Lanter的定義進(jìn)行拓展,認(rèn)為數(shù)據(jù)溯源是一種元數(shù)據(jù),用來(lái)記錄工作流演變過(guò)程、標(biāo)注信息以及實(shí)驗(yàn)過(guò)程等信息.在其它一些領(lǐng)域中還有其它一些叫法:如數(shù)據(jù)族系(DataLineage)、數(shù)據(jù)系譜(DataPedigree)、數(shù)據(jù)來(lái)源(DataOrigin)、數(shù)據(jù)世系等.戴超凡等將數(shù)據(jù)溯源定義為記錄原始數(shù)據(jù)在整個(gè)生命周期內(nèi)(從產(chǎn)生、傳播到消亡)的演變信息和演變處理內(nèi)容.我們認(rèn)為,DataProvenance應(yīng)該翻譯成“數(shù)據(jù)溯源”,強(qiáng)調(diào)的是一種溯本追源的技術(shù),根據(jù)追蹤路徑重現(xiàn)數(shù)據(jù)的歷史狀態(tài)和演變過(guò)程,實(shí)現(xiàn)數(shù)據(jù)歷史檔案的追溯.1.2數(shù)據(jù)溯源技術(shù)國(guó)內(nèi)關(guān)于數(shù)據(jù)溯源研究較少.戴超凡比較系統(tǒng)地研究了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)溯源追蹤技術(shù);劉喜平等總結(jié)了目前計(jì)算數(shù)據(jù)溯源的主要方法和應(yīng)用;李亞子研究了數(shù)據(jù)溯源追蹤標(biāo)注模式與描述模型,引入了數(shù)據(jù)溯源的7W模型;王黎維等研究了對(duì)象代理數(shù)據(jù)庫(kù)的科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤模型,并提出了一種雙向指針機(jī)制的數(shù)據(jù)追蹤方法.李秀美研究了數(shù)據(jù)溯源本身特有的安全需求以及廣播的加密方案,構(gòu)建了新的數(shù)據(jù)溯源安全模型.戴超凡等全面系統(tǒng)地做了數(shù)據(jù)溯源的綜述,介紹了數(shù)據(jù)溯源的基礎(chǔ)研究和開(kāi)放環(huán)境下兩個(gè)典型的形式化模型.國(guó)外已經(jīng)有很多大學(xué)和研究機(jī)構(gòu)將數(shù)據(jù)溯源作為研究課題,引起很多專(zhuān)家學(xué)者的高度關(guān)注,我們將在下面詳述.ZhuoweiBaoetal開(kāi)發(fā)了一種緊密而有效的可達(dá)性標(biāo)簽方案用于解答有關(guān)運(yùn)行在規(guī)定說(shuō)明的工作流溯源的質(zhì)疑.這種標(biāo)簽方案在某種意義上來(lái)講是最優(yōu)的,因?yàn)樗褂脤?duì)數(shù)長(zhǎng)度、在線(xiàn)時(shí)間運(yùn)行并能回答任何常規(guī)時(shí)間中可達(dá)性問(wèn)題.WenchaoZhouetal提出了ExSpan(可擴(kuò)展的溯源感知的網(wǎng)絡(luò)系統(tǒng))設(shè)計(jì)與應(yīng)用,ExSpan是在分布式環(huán)境中能有效進(jìn)行網(wǎng)絡(luò)溯源的通用、可擴(kuò)展框架平臺(tái),并為網(wǎng)絡(luò)溯源存儲(chǔ)定義了一種分布式模型,用數(shù)據(jù)溯源的理念來(lái)解釋網(wǎng)絡(luò)中存在的各種狀態(tài),并提供了一種多功能網(wǎng)絡(luò)機(jī)制.GrigorisKarvounarakisetal提出了一種基于元組、半環(huán)溯源的ProQL(forProvenanceQueryLanguage)語(yǔ)言,能夠解決溯源存儲(chǔ)、維護(hù)和查詢(xún)等相關(guān)問(wèn)題.國(guó)外對(duì)數(shù)據(jù)溯源的發(fā)展越來(lái)越重視,有多個(gè)國(guó)際會(huì)議以此為會(huì)議主題.比如:WorkshoponDataProvenanceandAnnotation(WDPA),WorkshopontheTheoryandPracticeofProvenance(TaPP),InternationalProvenanceandAnnotationWorkshop(IOAW)等.近年來(lái),有一些研究者對(duì)數(shù)據(jù)溯源進(jìn)行了綜述,現(xiàn)將相關(guān)的綜述與本文的區(qū)別描述如下:劉喜平等著重分析了數(shù)據(jù)起源計(jì)算的兩種方法:查詢(xún)反演法和標(biāo)注法,強(qiáng)調(diào)了兩種方法的實(shí)現(xiàn),比較了兩種方法的特點(diǎn);然而,并沒(méi)有提到其它的計(jì)算方法,也沒(méi)有提出新的思維方式.本文在介紹數(shù)據(jù)溯源計(jì)算方法時(shí),比較了反向查詢(xún)法和標(biāo)注法的優(yōu)缺點(diǎn),針對(duì)標(biāo)注法需要額外的存儲(chǔ)開(kāi)銷(xiāo),提出標(biāo)注內(nèi)容列存儲(chǔ)的思想.還提到以下幾種數(shù)據(jù)溯源方法:通用的數(shù)據(jù)追蹤方法,雙向指針追蹤法,利用圖論思想和專(zhuān)用查詢(xún)語(yǔ)言追蹤法,以位向量存儲(chǔ)定位等方法.Yogesh的綜述中提出了四個(gè)數(shù)據(jù)溯源分類(lèi)標(biāo)準(zhǔn),認(rèn)為數(shù)據(jù)溯源是元數(shù)據(jù)的一種,用于跟蹤數(shù)據(jù)演變的過(guò)程,強(qiáng)調(diào)數(shù)據(jù)溯源在科學(xué)領(lǐng)域和商業(yè)領(lǐng)域的重要性.戴超凡的綜述中,只介紹了兩種比較典型的模型,即開(kāi)放的數(shù)據(jù)起源模型OPM和Provenir模型.而本文涵蓋了此兩種模型外還介紹了另外5種模型,系統(tǒng)全面的介紹了近年來(lái)數(shù)據(jù)溯源的各種模型,而且,提出了一種異構(gòu)數(shù)據(jù)的數(shù)據(jù)溯源模型圖,比較符合當(dāng)今數(shù)據(jù)所具有的異構(gòu)、分布等特點(diǎn).數(shù)據(jù)世系管理技術(shù)研究綜述中將數(shù)據(jù)世系主要分為模式級(jí)和實(shí)例級(jí)演化過(guò)程,以模式級(jí)和實(shí)例級(jí)數(shù)據(jù)世系的表示、查詢(xún)?yōu)橹骶€(xiàn)綜述了數(shù)據(jù)世系的發(fā)展歷程,并提出四個(gè)熱點(diǎn)研究方向分別是:數(shù)據(jù)空間中的數(shù)據(jù)世系、不確定數(shù)據(jù)的世系管理、工作流世系管理、數(shù)據(jù)世系的挖掘和可視化.而本文以數(shù)據(jù)溯源模型為主,綜述了近年來(lái)比較典型的模型,提出了異構(gòu)數(shù)據(jù)的模型圖.在介紹熱點(diǎn)方向時(shí)認(rèn)為數(shù)據(jù)溯源的安全問(wèn)題以及統(tǒng)一業(yè)界標(biāo)準(zhǔn)也屬于數(shù)據(jù)溯源的研究熱點(diǎn)方向.本文第一節(jié)對(duì)數(shù)據(jù)溯源進(jìn)行概述.第二節(jié)討論了數(shù)據(jù)溯源模型,在前人研究的基礎(chǔ)上提出了異構(gòu)數(shù)據(jù)的數(shù)據(jù)溯源模型.第三節(jié)分析了數(shù)據(jù)溯源的計(jì)算方法并提出了使用列存儲(chǔ)節(jié)省存儲(chǔ)空間的思想.第四節(jié)闡述數(shù)據(jù)溯源的應(yīng)用,并對(duì)每個(gè)方向的應(yīng)用加以實(shí)例說(shuō)明.第五節(jié)介紹數(shù)據(jù)溯源的研究熱點(diǎn)和應(yīng)用方向.最后對(duì)數(shù)據(jù)溯源技術(shù)的未來(lái)發(fā)展進(jìn)行展望.2數(shù)據(jù)源模型2.1數(shù)據(jù)溯源信息的整合與存儲(chǔ)建立一個(gè)有效的數(shù)據(jù)模型是數(shù)據(jù)溯源技術(shù)關(guān)鍵所在,根據(jù)模型可以初步確定數(shù)據(jù)溯源的大體步驟,以及數(shù)據(jù)溯源的基本思路.戴超凡從數(shù)據(jù)溯源信息管理的角度出發(fā),提出了一種數(shù)據(jù)溯源模型,但是并沒(méi)有考慮數(shù)據(jù)的異構(gòu)性,隨著數(shù)據(jù)規(guī)模的日益龐大以及數(shù)據(jù)結(jié)構(gòu)的逐漸復(fù)雜,不考慮數(shù)據(jù)的異構(gòu)特點(diǎn)將很難適合時(shí)代的需要,因此,上文提出的數(shù)據(jù)溯源模型只適合同構(gòu)的數(shù)據(jù)溯源情形,并不適合于復(fù)雜數(shù)據(jù).我們?cè)诖嘶A(chǔ)上提出了異構(gòu)數(shù)據(jù)的數(shù)據(jù)溯源概念,考慮到數(shù)據(jù)的異構(gòu)分布的特性,在原有模型上加入異構(gòu)分層的三維模型.我們采用以橫軸表示時(shí)間(t)、縱軸表示過(guò)程(p),z軸表示數(shù)據(jù)的異構(gòu)分布特性.將數(shù)據(jù)溯源信息保存到不同的數(shù)據(jù)庫(kù)中,形成攜帶溯源信息的異構(gòu)數(shù)據(jù)庫(kù)(如:Access,SQLServer、Oracle等),通過(guò)數(shù)據(jù)庫(kù)接口(ODBC、JDBC等)以及數(shù)據(jù)轉(zhuǎn)換工具匯聚成統(tǒng)一的目標(biāo)數(shù)據(jù)庫(kù).此時(shí),目標(biāo)數(shù)據(jù)庫(kù)攜帶了數(shù)據(jù)溯源信息.這個(gè)過(guò)程的逆過(guò)程所經(jīng)歷的路徑能夠?qū)崿F(xiàn)數(shù)據(jù)溯源的各種操作(如:數(shù)據(jù)追蹤、信息評(píng)估、過(guò)程重現(xiàn)等),從而,完成數(shù)據(jù)溯源的任務(wù).表示了異構(gòu)數(shù)據(jù)的溯源模型.這種模型由以下幾個(gè)部分組成:獲取信息部分、信息存儲(chǔ)部分、異構(gòu)數(shù)據(jù)處理部分.信息獲取:數(shù)據(jù)溯源的實(shí)現(xiàn)過(guò)程中,溯源信息是關(guān)鍵,它記錄了數(shù)據(jù)如何能追蹤歷史的重要信息,根據(jù)這些信息可以追蹤數(shù)據(jù)的歷史檔案,重現(xiàn)數(shù)據(jù)的演變過(guò)程.然而,“溯源信息如何獲取?記錄哪些內(nèi)容?”等問(wèn)題一直沒(méi)有統(tǒng)一的答案.早期的研究往往只考慮某個(gè)數(shù)據(jù)項(xiàng)的來(lái)源,并不關(guān)注整個(gè)數(shù)據(jù)從哪里來(lái),這樣只能追蹤局部數(shù)據(jù)的歷史根源,而達(dá)不到整個(gè)數(shù)據(jù)溯源的目的.除此之外,還把標(biāo)注信息當(dāng)作元數(shù)據(jù)一起保存于數(shù)據(jù)庫(kù)中以供查詢(xún),這樣往往難以管理.隨著數(shù)據(jù)量的增大和研究的深入,Buneman等人逐漸改進(jìn)和完善這種模式,提出why和where型provenance,后來(lái)又分出howprovenance等.然而,這種分類(lèi)并不適合其它工作流領(lǐng)域,于是,Sudha等人提出一個(gè)7W模型,這種模型包括:who、when、where、how、which、what、why七個(gè)部分的內(nèi)容.此模型雖然詳細(xì)且非常周全,但是需要一定的存儲(chǔ)開(kāi)銷(xiāo).信息存儲(chǔ):劉喜平介紹了兩種數(shù)據(jù)溯源存儲(chǔ)方法:一種是基于RDBMS存儲(chǔ)方案,此方案是基于關(guān)系型數(shù)據(jù),通過(guò)擴(kuò)充屬性的方式來(lái)存儲(chǔ)溯源信息,即將溯源信息直接存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)的二維表中.另一種是基于樹(shù)型文檔存儲(chǔ)方案.樹(shù)型存儲(chǔ)方案是將元組、屬性、溯源信息作為樹(shù)的結(jié)點(diǎn)來(lái)存儲(chǔ),對(duì)于帶有標(biāo)注的源數(shù)據(jù)需要在原樹(shù)型結(jié)構(gòu)中增加一個(gè)子結(jié)點(diǎn)(provenance結(jié)點(diǎn))用來(lái)表示信息的來(lái)源.并對(duì)每個(gè)帶標(biāo)注的源數(shù)據(jù)都需添加一個(gè)href屬性,將其鏈接到源數(shù)據(jù)結(jié)點(diǎn).要實(shí)現(xiàn)數(shù)據(jù)溯源,溯源信息的存儲(chǔ)非常關(guān)鍵.因?yàn)樗菰葱畔⑿枰鎯?chǔ)空間來(lái)存儲(chǔ),存儲(chǔ)方式對(duì)數(shù)據(jù)溯源的性能起著關(guān)鍵性的作用.異構(gòu)數(shù)據(jù)處理部分:隨著時(shí)間的推移和應(yīng)用的需要,將產(chǎn)生各種各樣異構(gòu)的數(shù)據(jù)源(比如:Access、SQLServer、Oracle等等).這種異構(gòu)數(shù)據(jù)源如何實(shí)現(xiàn)數(shù)據(jù)溯源呢?這是業(yè)界一直想解決的一個(gè)重點(diǎn)和難點(diǎn)問(wèn)題.應(yīng)用程序想要操作不同類(lèi)型的數(shù)據(jù)庫(kù)只需要調(diào)用數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)接口(ODBC、JDBC等)支持的函數(shù),動(dòng)態(tài)地鏈接到驅(qū)動(dòng)程序上即可.再通過(guò)數(shù)據(jù)轉(zhuǎn)換工具形成統(tǒng)一的目標(biāo)數(shù)據(jù)庫(kù).數(shù)據(jù)溯源信息通過(guò)這種途徑就能傳遞到目標(biāo)數(shù)據(jù)庫(kù)中.2.2流溯源信息模型目前,數(shù)據(jù)溯源模型主要有流溯源信息模型、時(shí)間-值中心溯源模型、四維溯源模型、開(kāi)放的數(shù)據(jù)溯源模型、Provenir數(shù)據(jù)溯源模型、數(shù)據(jù)溯源安全模型,PrInt數(shù)據(jù)溯源模型等,這些模型都建立在不同領(lǐng)域、不同行業(yè).2008年5月王黎維等人發(fā)表的《集成對(duì)象代理數(shù)據(jù)庫(kù)的科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤》中提出了一種部分物化中間數(shù)據(jù)模型,GrigorisKarvounarakisetal提供了一個(gè)高層次的圖形工具開(kāi)發(fā)模型來(lái)檢索數(shù)據(jù),而無(wú)需知道它的物理細(xì)節(jié).下面簡(jiǎn)單介紹一下幾種模型.1.流溯源信息模型由6個(gè)相關(guān)實(shí)體構(gòu)成,主要包括流實(shí)體(變化事件實(shí)體、元數(shù)據(jù)實(shí)體和查詢(xún)輸入實(shí)體)和查詢(xún)實(shí)體(變化事件實(shí)體、接收查詢(xún)輸入實(shí)體,包括元數(shù)據(jù)實(shí)體).實(shí)體間關(guān)系密切,通過(guò)這種密切的關(guān)系可以根據(jù)數(shù)據(jù)的溯源時(shí)間來(lái)推斷數(shù)據(jù)溯源.4.1數(shù)據(jù)庫(kù)中數(shù)據(jù)溯源追蹤追溯數(shù)據(jù)溯源的源頭可以從研究數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始.1991年,Lanter等人開(kāi)發(fā)的LIP系統(tǒng),用于管理GIS數(shù)據(jù)的信息演變,可以稱(chēng)之為數(shù)據(jù)溯源的開(kāi)山鼻祖.數(shù)據(jù)庫(kù)應(yīng)用中采取的追蹤方法主要是注釋法和反向查詢(xún)法.因?yàn)閮煞N方法各有其優(yōu)勢(shì),注釋法管理簡(jiǎn)單,DBNotes系統(tǒng)是其典型的代表;而反向查詢(xún)法追蹤簡(jiǎn)單,典型的系統(tǒng)有Trio和Panda.所以經(jīng)常采用兩種方法相結(jié)合的方式進(jìn)行數(shù)據(jù)溯源的追蹤.但是,數(shù)據(jù)庫(kù)中傾向于采用反向查詢(xún)進(jìn)行跟蹤.文獻(xiàn)首次提出利用反向查詢(xún)進(jìn)行數(shù)據(jù)跟蹤的觀點(diǎn).提出建立函數(shù)用反向查詢(xún)方式進(jìn)行數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)溯源追蹤,但是,他們的方法只局限在一個(gè)DBMS中,如果在多個(gè)DBMS中就無(wú)法實(shí)現(xiàn)數(shù)據(jù)溯源追蹤.論述了如何在關(guān)系數(shù)據(jù)庫(kù)中計(jì)算數(shù)據(jù)溯源的方法,從而解決了來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)溯源問(wèn)題.提出當(dāng)數(shù)據(jù)在多個(gè)數(shù)據(jù)庫(kù)之間傳播處理時(shí),由于源數(shù)據(jù)庫(kù)和目標(biāo)數(shù)據(jù)庫(kù)之間不存在任何關(guān)聯(lián),無(wú)法實(shí)現(xiàn)跨數(shù)據(jù)庫(kù)的追蹤查詢(xún).因此,單個(gè)DBMS中的數(shù)據(jù)溯源方法將無(wú)法在多數(shù)據(jù)庫(kù)中使用.為了解決在不同DBMS中數(shù)據(jù)轉(zhuǎn)換問(wèn)題,Cui等人通過(guò)深入調(diào)查研究,提出了形式化的跟蹤法則,通過(guò)定義一系列轉(zhuǎn)換屬性,并根據(jù)這些屬性提出了一種新的追蹤方法.Grigorisetal開(kāi)發(fā)了一種查詢(xún)語(yǔ)言(ProQL),為基于元組溯源———半環(huán)溯源采取最普通的形式,提出支持查詢(xún)語(yǔ)言對(duì)數(shù)據(jù)源的存儲(chǔ)、處理和索引方案,可以解決增量維護(hù)、信任評(píng)估、關(guān)鍵字搜索以及數(shù)據(jù)庫(kù)查詢(xún)概率回答等問(wèn)題.下面對(duì)數(shù)據(jù)溯源在數(shù)據(jù)庫(kù)應(yīng)用中幾種典型的系統(tǒng)做一下簡(jiǎn)單的介紹:1.查詢(xún)檢索或處理變換DBNotes系統(tǒng)是非常典型的采用注釋方式存儲(chǔ)和管理的數(shù)據(jù)溯源系統(tǒng).系統(tǒng)為每個(gè)數(shù)據(jù)項(xiàng)都賦予了一個(gè)全局標(biāo)識(shí)(ID),在查詢(xún)檢索或處理演變過(guò)程時(shí),該系統(tǒng)提供了三種傳播注釋信息策略,以供用戶(hù)進(jìn)行選擇.但系統(tǒng)的不足之處在于兩個(gè)方面的問(wèn)題:1、等價(jià)查詢(xún)可能會(huì)得出不同的結(jié)果.2、不能實(shí)現(xiàn)非查詢(xún)類(lèi)操作,比如統(tǒng)計(jì)、求和等方面.2.rio相關(guān)模型斯坦福大學(xué)研究的Trio系統(tǒng)非常具有代表性,此系統(tǒng)采用關(guān)系表描述及存儲(chǔ).Trio是一個(gè)綜合管理系統(tǒng),實(shí)現(xiàn)了對(duì)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)加入數(shù)據(jù)溯源的管理.將數(shù)據(jù)、轉(zhuǎn)換、溯源有機(jī)的結(jié)合在一起.該模型支持基于SQL的查詢(xún)語(yǔ)言TriQL,是對(duì)關(guān)系模型的擴(kuò)展,廣泛應(yīng)用于科學(xué)數(shù)據(jù)、信息抽取、數(shù)據(jù)集成等領(lǐng)域.3.無(wú)縫合并數(shù)據(jù)溯源Panda系統(tǒng)目前正處于開(kāi)發(fā)階段,還沒(méi)有投入到實(shí)用過(guò)程中,目標(biāo)是整合基于數(shù)據(jù)和基于過(guò)程的兩種類(lèi)型數(shù)據(jù)溯源,希望實(shí)現(xiàn)一個(gè)通用的獲取數(shù)據(jù)溯源、存儲(chǔ)、查詢(xún)于一體,方便靈活、可配置各種應(yīng)用的開(kāi)源系統(tǒng).無(wú)縫合并基于數(shù)據(jù)和過(guò)程的溯源,為用戶(hù)提供一個(gè)全方位的從細(xì)粒度到粗粒度的數(shù)據(jù)溯源模型,開(kāi)發(fā)一種通用語(yǔ)言用于查詢(xún)和分析溯源信息.4.2數(shù)據(jù)溯源信息工作流的概念溯源于辦公自動(dòng)化領(lǐng)域.根據(jù)一系列規(guī)則,把資料、文檔、信息以及任務(wù)在參與者之間傳遞,以達(dá)到某種目的.科學(xué)工作流是用來(lái)自動(dòng)化科學(xué)研究過(guò)程的,而科研過(guò)程由一系列研究步驟組成,用來(lái)描述和控制科學(xué)實(shí)驗(yàn)和過(guò)程的執(zhí)行,它是面向e-Science,服務(wù)于科學(xué)家,為他們提供更易分析和管理的數(shù)據(jù).科學(xué)工作流采用數(shù)據(jù)驅(qū)動(dòng)模式,在數(shù)據(jù)處理過(guò)程中,前一級(jí)的數(shù)據(jù)輸出成為下一級(jí)處理的數(shù)據(jù)輸入.而且,科學(xué)工作流的定義與設(shè)計(jì)都是動(dòng)態(tài)的,整個(gè)任務(wù)序列是不確定的,需要根據(jù)前一個(gè)任務(wù)的處理結(jié)果來(lái)確定下一個(gè)任務(wù).科學(xué)工作流強(qiáng)調(diào)數(shù)據(jù)的可信度,實(shí)現(xiàn)數(shù)據(jù)溯源對(duì)每一步的處理過(guò)程可信度存在較高的要求,對(duì)全程數(shù)據(jù)的變化需要進(jìn)行監(jiān)控.早在1997年,Geo-opera系統(tǒng)就是數(shù)據(jù)溯源追蹤在工作流中的應(yīng)用.實(shí)現(xiàn)了在分布式環(huán)境下的數(shù)據(jù)流、轉(zhuǎn)換過(guò)程和數(shù)據(jù)溯源追蹤等功能.工作流中的數(shù)據(jù)溯源信息能夠?yàn)橛脩?hù)評(píng)估數(shù)據(jù)質(zhì)量、重現(xiàn)實(shí)驗(yàn)過(guò)程、挖掘潛在的數(shù)據(jù)關(guān)系等.06年和08年兩屆IPAW會(huì)議的主題都于工作流的數(shù)據(jù)溯源相關(guān),數(shù)據(jù)溯源在這個(gè)領(lǐng)域的研究很受重視.ZhuoweiBaoetal利用框架標(biāo)簽為工作流溯源設(shè)計(jì)了一種緊密而有效的可達(dá)性標(biāo)簽方案,使用對(duì)數(shù)長(zhǎng)度、線(xiàn)性時(shí)間運(yùn)行、能夠回答幾乎所有的常規(guī)時(shí)間里的可達(dá)性查詢(xún).ManishKumaretal為科學(xué)工作流溯源提供一種高效查詢(xún)圖形技術(shù).獲取在工作流中數(shù)據(jù)溯源信息一般有兩種方法:1.日志法,即從日志文件中獲取比較簡(jiǎn)單的溯源信息,不能實(shí)現(xiàn)工作流程的任意修改逆流,這種方法應(yīng)用不多.2.將數(shù)據(jù)溯源信息記錄在工作流引擎設(shè)計(jì)中,以便進(jìn)行管理.下面簡(jiǎn)單介紹國(guó)際上比較成熟的科學(xué)工作流系統(tǒng).Kepler是由UCDavis、UCSantaBarbara等合作研制的,是開(kāi)源的java程序系統(tǒng).構(gòu)建于另一個(gè)開(kāi)源可視化建模系統(tǒng)PtolemyII之上,為科學(xué)家提供了一個(gè)方便易用的工作平臺(tái).通過(guò)記錄工作流執(zhí)行狀態(tài),可以重現(xiàn)整個(gè)操作的全過(guò)程.該系統(tǒng)是一個(gè)通用的自動(dòng)工作流管理系統(tǒng),也是一個(gè)數(shù)據(jù)溯源管理系統(tǒng),能夠?qū)崿F(xiàn)工作流的創(chuàng)建、運(yùn)行和共享一體化,在數(shù)據(jù)溯源管理方面,通過(guò)跟蹤數(shù)據(jù)項(xiàng)以及數(shù)據(jù)聚合的歷史記錄,將結(jié)果反饋給用戶(hù).Kepler系統(tǒng)允許科學(xué)家設(shè)計(jì)科學(xué)工作流,并使用基于網(wǎng)格的分布式計(jì)算方法執(zhí)行這些工作流.廣泛應(yīng)用于地理學(xué)、生物信息學(xué)、化學(xué)等科學(xué)領(lǐng)域.用戶(hù)即使沒(méi)有計(jì)算機(jī)背景,也可以使用標(biāo)準(zhǔn)組件生成工作流,或者根據(jù)需求修改現(xiàn)有的工作流模型.該軟件集成了Matlab、R等數(shù)據(jù)分析軟件.2.實(shí)驗(yàn)科學(xué)的立工作流系統(tǒng)Taverna系統(tǒng)由MyGrid團(tuán)隊(duì)創(chuàng)建,受OMII-UK資助.由可用服務(wù)面板、工作流圖面板和高級(jí)模型瀏覽器三個(gè)主要部分組成.Taverna是一個(gè)開(kāi)放源碼的獨(dú)立工作流管理系統(tǒng),用于在設(shè)計(jì)和執(zhí)行實(shí)驗(yàn)科學(xué)的工作流程和助手工具套件.Taverna系統(tǒng)采用SCUFL來(lái)創(chuàng)建科學(xué)工作流,它定義的工作流,通過(guò)控制流模型來(lái)描述各種任務(wù)之間的關(guān)系,并利用控制結(jié)構(gòu)(比如條件判斷、循環(huán)語(yǔ)句等)來(lái)處理科學(xué)研究各步驟的關(guān)系,進(jìn)而跟蹤、溯源、重現(xiàn)工作流程中各步的狀態(tài).另外,工作流映射包括資源的發(fā)現(xiàn)和綁定兩個(gè)步驟,主要有手工和自動(dòng)兩種方式,大部分科學(xué)工作流系統(tǒng)采用注冊(cè)表來(lái)保存增加的服務(wù)信息,Taverna系統(tǒng)采用手工方式,通過(guò)注冊(cè)表保存了大量的生物信息學(xué)的Web服務(wù)描述信息.3.核心網(wǎng)絡(luò)的連通性Triana系統(tǒng)是一種開(kāi)源的、與平臺(tái)無(wú)關(guān)的分布式問(wèn)題解決型環(huán)境,用java語(yǔ)言實(shí)現(xiàn).Triana是圖形化應(yīng)用環(huán)境,用戶(hù)可以方便地構(gòu)建一個(gè)科學(xué)工作流.用戶(hù)可以通過(guò)拖動(dòng)其組件形成一個(gè)結(jié)點(diǎn),通過(guò)創(chuàng)建兩個(gè)結(jié)點(diǎn)間的連線(xiàn)構(gòu)建其連通性.它是一個(gè)模塊化的體系結(jié)構(gòu),包括3個(gè)不同的組件:TS(TrianaService)、TCS(TrianaControllerService)、TGUI(TrianaUserInterface).通過(guò)TGUI可以訪(fǎng)問(wèn)其它運(yùn)行TS的機(jī)器.TCS是一個(gè)控制指定Triana網(wǎng)絡(luò)的服務(wù),它可以選擇自己運(yùn)行或指定其它可用的TS執(zhí)行.因此,一個(gè)TGUI可以控制多個(gè)Triana網(wǎng)絡(luò)實(shí)現(xiàn)其分布式管理.通過(guò)Triana系統(tǒng)來(lái)進(jìn)行數(shù)據(jù)溯源可以將分布于各個(gè)TS中的數(shù)據(jù)利用TGUI來(lái)統(tǒng)一分析、跟蹤和管理.Triana能夠?qū)?shù)據(jù)溯源應(yīng)用于信號(hào)、文本、圖片等方面的處理.4.基于數(shù)據(jù)的工作流系統(tǒng)該系統(tǒng)提供給用戶(hù)一個(gè)基于Web的安全可靠、簡(jiǎn)單易用的工具,用于監(jiān)視數(shù)據(jù)密集型科學(xué)實(shí)驗(yàn)的全過(guò)程,通過(guò)Web服務(wù)器、FTP、SRB等多種方式獲取科學(xué)數(shù)據(jù),并通過(guò)VML/SVG可視化操作界面,定制滿(mǎn)足需求的工作流實(shí)例,提交給后臺(tái)的Kelper/PtolemyII工作流引擎服務(wù)器,經(jīng)過(guò)對(duì)所獲取的數(shù)據(jù)調(diào)用專(zhuān)用的處理軟件(包括NCL、Matlab、CDO等)進(jìn)行綜合分析,最終得到所需要的可視化結(jié)果,從而實(shí)現(xiàn)數(shù)據(jù)的狀態(tài)重現(xiàn)、數(shù)據(jù)跟蹤.以上的系統(tǒng)有一個(gè)相同的特點(diǎn):實(shí)現(xiàn)工作流的數(shù)據(jù)溯源、重現(xiàn)實(shí)驗(yàn)過(guò)程、追蹤數(shù)據(jù)的歷史檔案,可以集成數(shù)據(jù)分析軟件實(shí)現(xiàn)數(shù)據(jù)的分析和挖掘.其中,Kepler系統(tǒng)能夠?qū)崿F(xiàn)重現(xiàn)整個(gè)實(shí)驗(yàn)過(guò)程的功能,為科學(xué)實(shí)驗(yàn)的錯(cuò)誤查詢(xún)、數(shù)據(jù)質(zhì)量評(píng)估以及數(shù)據(jù)追蹤等方面做出了巨大的貢獻(xiàn).Taverna系統(tǒng)主要通過(guò)控制流模型來(lái)定義各任務(wù)之間的關(guān)系,并利用控制結(jié)構(gòu)來(lái)處理科學(xué)研究每個(gè)步驟的關(guān)系.Triana系統(tǒng)是一個(gè)模塊化結(jié)構(gòu),由不同的組件組成,通過(guò)拖動(dòng)組件形成結(jié)點(diǎn),通過(guò)連線(xiàn)確定其關(guān)系.4.3數(shù)據(jù)溯源技術(shù)數(shù)據(jù)溯源在其它領(lǐng)域中應(yīng)用也非常廣泛,如:管理GIS數(shù)據(jù)中元數(shù)據(jù),更加智能管理無(wú)線(xiàn)傳感網(wǎng)絡(luò)中的數(shù)據(jù),更加安全地傳輸網(wǎng)絡(luò)數(shù)據(jù),能夠使存儲(chǔ)系統(tǒng)智能化和人性化,Wiki管理系統(tǒng),開(kāi)源代碼版本管理.數(shù)據(jù)溯源的一個(gè)應(yīng)用是如何進(jìn)行視圖維護(hù)與更新.視圖維護(hù)與更新都是涉及到基表與視圖的相互聯(lián)系,即基表數(shù)據(jù)發(fā)生變化,如何修改視圖?如果視圖數(shù)據(jù)被用戶(hù)修改,又如何定位到基表進(jìn)行元組的修改?研究了如何根據(jù)數(shù)據(jù)溯源來(lái)進(jìn)行視圖的更新.文獻(xiàn)研究了視圖中元組的刪除操作如何轉(zhuǎn)換為基表中元組的刪除操作.5云計(jì)算和存儲(chǔ)環(huán)境的安全體系數(shù)據(jù)世系管理技術(shù)研究綜述,提出4個(gè)熱點(diǎn)研究方向分別是:數(shù)據(jù)空間中的數(shù)據(jù)世系、不確定數(shù)據(jù)的世系管理、工作流世系管理、數(shù)據(jù)世系的挖掘和可視化.我們認(rèn)為,隨著云計(jì)算和存儲(chǔ)環(huán)境的不斷發(fā)展,數(shù)據(jù)溯源的安全問(wèn)題變的越來(lái)越重要;為了更好地推廣數(shù)據(jù)溯源技術(shù)的應(yīng)用,迫切需要建立統(tǒng)一的數(shù)據(jù)溯源的業(yè)界標(biāo)準(zhǔn).5.1數(shù)據(jù)溯源的安全與方便修改數(shù)據(jù)的安全是用戶(hù)使用數(shù)據(jù)的最起碼要求,也是一些核心數(shù)據(jù)(涉及國(guó)家軍隊(duì)秘密信息)所必需考慮的安全隱患問(wèn)題.數(shù)據(jù)的安全勿庸置疑,數(shù)據(jù)溯源信息本身也是數(shù)據(jù),同樣存在安全問(wèn)題.由于某些領(lǐng)域需要數(shù)據(jù)共享才能達(dá)到目的,而且還需要實(shí)時(shí)更新和變遷,這就無(wú)法用常規(guī)的數(shù)據(jù)保護(hù)方法來(lái)確保數(shù)據(jù)的安全.數(shù)據(jù)溯源技術(shù)在很多領(lǐng)域已得到廣泛應(yīng)用,但是,數(shù)據(jù)本身的安全以及溯源數(shù)據(jù)的安全是數(shù)據(jù)溯源技術(shù)發(fā)展的前提和基礎(chǔ).如何解決數(shù)據(jù)溯源信息的安全與方便修改是這一領(lǐng)域存在的問(wèn)題.5.2數(shù)據(jù)溯源的標(biāo)準(zhǔn)化目前,很多學(xué)者提出了自己的數(shù)據(jù)溯源模型和框架.但是,都存在一定的局限性,大多數(shù)溯源管理系統(tǒng)都是在一個(gè)獨(dú)立的系統(tǒng)內(nèi)部實(shí)現(xiàn)溯源管理的.但數(shù)據(jù)如何在多個(gè)、分布式系統(tǒng)之間轉(zhuǎn)換或傳播,沒(méi)有形成統(tǒng)一的業(yè)界標(biāo)準(zhǔn).只有存在統(tǒng)一的標(biāo)準(zhǔn),數(shù)據(jù)溯源的相關(guān)系統(tǒng)才能形成標(biāo)準(zhǔn)的接口,以模塊化的形式應(yīng)用于其它領(lǐng)域.標(biāo)準(zhǔn)不統(tǒng)一嚴(yán)重影響了數(shù)據(jù)溯源技術(shù)的發(fā)展,所以統(tǒng)一標(biāo)準(zhǔn)是亟待解決的問(wèn)題之一.6數(shù)據(jù)溯源安全模型本文系統(tǒng)地總結(jié)了數(shù)據(jù)溯源的發(fā)展及數(shù)據(jù)溯源的模型、方法和應(yīng)用,介紹了數(shù)據(jù)溯源在數(shù)據(jù)庫(kù)、工作流和其它方面的應(yīng)用,并以舉例的方式進(jìn)行論述.對(duì)數(shù)據(jù)溯源的標(biāo)注法和逆置函數(shù)反向查詢(xún)法進(jìn)行了比較,列出其各自的優(yōu)缺點(diǎn).針對(duì)標(biāo)注法需要大量的存儲(chǔ)空間來(lái)存儲(chǔ)溯源信息這一缺點(diǎn),提出了一種基于列存儲(chǔ)的標(biāo)注思想.本文還提出了一種異構(gòu)數(shù)據(jù)的溯源模型,適用于分布式異構(gòu)數(shù)據(jù)的數(shù)據(jù)追蹤.數(shù)據(jù)溯源是一個(gè)新興的領(lǐng)域、研究時(shí)間短,還有很多地方不夠完善,第五節(jié)中的熱點(diǎn)研究方向同樣存在很多難題需要攻克,我們相信未來(lái)數(shù)據(jù)溯源技術(shù)一定會(huì)蓬勃發(fā)展.2.BowersS提出的Time-ValueCentric(TVC)模型又稱(chēng)時(shí)間-值中心溯源模型,是一種簡(jiǎn)單有效的溯源模型.由于過(guò)去的溯源模型無(wú)論是基于標(biāo)注的還是基于過(guò)程的溯源模型都用于面向交易的系統(tǒng)中,并不適合高容量特定需求以及連續(xù)的醫(yī)療流.于是,提出支持醫(yī)療領(lǐng)域數(shù)據(jù)源特點(diǎn)的TVC模型專(zhuān)門(mén)處理醫(yī)療事件流的溯源信息.根據(jù)數(shù)據(jù)中的時(shí)間戳和流ID號(hào)來(lái)推斷醫(yī)療事件的序列和原始數(shù)據(jù)的痕跡.3.四維溯源模型是由YogeshL.Simmhan等人提出.此模型將溯源看成一系列離散的活動(dòng)集,這些活動(dòng)發(fā)生在整個(gè)工作流生命周期中,并由四個(gè)維度(時(shí)間、空間、層和數(shù)據(jù)流分布)組成.四維溯源模型通過(guò)時(shí)間維區(qū)分標(biāo)注鏈中處于不同活動(dòng)層中的多個(gè)活動(dòng),進(jìn)而通過(guò)追蹤發(fā)生在不同工作流組件中的活動(dòng),捕獲工作流溯源和支持工作流執(zhí)行的數(shù)據(jù)溯源.4.開(kāi)放的數(shù)據(jù)溯源模型OPM在首屆InternationalProvenanceandAnnotationWorkshop(IPAW)會(huì)議中,與會(huì)者對(duì)數(shù)據(jù)溯源的描述產(chǎn)生了一些共同的觀念,并提出了一種原始的數(shù)據(jù)模型.后來(lái),南安普頓大學(xué)等組織整理了會(huì)議的主要思想并發(fā)表了題為“TheOpenProvenanceModel”文章,文中提及的模型基本形成業(yè)界信息交換標(biāo)準(zhǔn),定義一些具體的格式和協(xié)議就能應(yīng)用到實(shí)際當(dāng)中.當(dāng)然,還需考慮與其它模型的兼容問(wèn)題,文獻(xiàn)Hiddersetal中提出了一種將NCR模型映射到OPM模型的自動(dòng)轉(zhuǎn)換方法.5.Provenir數(shù)據(jù)溯源模型2008年,在由Freire和Moreau組織的第二屆IPAW會(huì)議中,Sahoo等人提出了Provenir數(shù)據(jù)溯源模型,該模型使用W3C標(biāo)準(zhǔn)對(duì)模型加以邏輯描述,考慮了數(shù)據(jù)庫(kù)和工作流兩個(gè)領(lǐng)域的具體細(xì)節(jié),從模型、存儲(chǔ)到應(yīng)用等方面形成了一個(gè)完整的體系,成為首個(gè)完整的數(shù)據(jù)溯源管理系統(tǒng).用分類(lèi)的方式闡明它們之間的相互關(guān)系.該模型提供對(duì)數(shù)據(jù)產(chǎn)生歷史的元數(shù)據(jù)、原數(shù)據(jù)、修改元數(shù)據(jù)等功能,并使用物化視圖的方法有效解決了數(shù)據(jù)溯源的存儲(chǔ)問(wèn)題.6.數(shù)據(jù)溯源安全模型數(shù)據(jù)溯源技術(shù)能夠溯本追源,通過(guò)其起源鏈的記錄信息來(lái)實(shí)現(xiàn)追源的目的,但是記錄信息本身也是數(shù)據(jù).因此,同樣存在安全隱患,為了防止有人惡意篡改數(shù)據(jù)溯源中起源鏈的相關(guān)信息,李秀美等2010年研究了數(shù)據(jù)溯源的安全模型,利用密鑰樹(shù)再生成的方法并引入時(shí)間戳參數(shù),有效地防止某人惡意篡改溯源鏈中的溯源記錄,對(duì)數(shù)據(jù)對(duì)象在生命周期內(nèi)修改行為的記錄按時(shí)間先后組成溯源鏈,用文檔來(lái)記載數(shù)據(jù)的修改行為,當(dāng)進(jìn)行各種操作時(shí),文檔隨著數(shù)據(jù)的演變而更新其內(nèi)容,通過(guò)對(duì)文檔添加一些無(wú)法修改的參數(shù)比如:時(shí)間戳、加密密鑰、校驗(yàn)和等來(lái)限制操作權(quán)限,保護(hù)溯源鏈的安全.7.PrInt數(shù)據(jù)溯源模型PrInt是一種支持實(shí)例級(jí)數(shù)據(jù)一體化進(jìn)程的數(shù)據(jù)溯源模型.該模型主要集中解決一體化進(jìn)程系統(tǒng)中不允許用戶(hù)直接更新異構(gòu)數(shù)據(jù)源而導(dǎo)致數(shù)據(jù)不一致的問(wèn)題.由PrInt提供的再現(xiàn)性是基于日志記錄的,并將數(shù)據(jù)溯源納入一體化進(jìn)程.以上七種模型是比較經(jīng)典的模型,其中,對(duì)于前三種模型而言,流模型和時(shí)間-值模型沒(méi)有明確指出對(duì)W7模式的支持,只有四維模型支持動(dòng)態(tài)構(gòu)建數(shù)據(jù)溯源圖,能根據(jù)一系列溯源事件以及數(shù)據(jù)結(jié)點(diǎn)和服務(wù)結(jié)點(diǎn)所構(gòu)成的數(shù)據(jù)流邊來(lái)構(gòu)建.存在的不足之處在于形成過(guò)程不直接,難于理解.后面幾種模型是從不同的角度,不同層次,針對(duì)數(shù)據(jù)溯源的某種特性而建立起來(lái)的模型.隨著時(shí)間的推移,數(shù)據(jù)溯源模型會(huì)越來(lái)越多,但基本上都將從如何實(shí)現(xiàn)溯源的目的以及其本身的安全方面著手,以上幾種模型除了數(shù)據(jù)溯源安全模型是介紹溯源鏈本身的安全外,其它幾種模型都是建立在如何實(shí)現(xiàn)溯本追源的基礎(chǔ)上的,但,每種模型各具其特點(diǎn),風(fēng)格不盡相同.另外,還有人提出DNA雙螺旋結(jié)構(gòu)的數(shù)據(jù)溯源模型,利用DNA復(fù)雜結(jié)構(gòu)與數(shù)據(jù)溯源進(jìn)行類(lèi)比,將DNA中的兩條鏈分別代表數(shù)據(jù)序列和操作序列,連接兩條鏈間的堿基代表關(guān)聯(lián)數(shù)據(jù)和操作的屬性.通過(guò)這種對(duì)應(yīng)關(guān)系建立起一種DNA雙螺旋結(jié)構(gòu)模型.建立了數(shù)據(jù)模型之后,以下介紹數(shù)據(jù)溯源的方法.3逆置追蹤數(shù)據(jù)溯源目前,數(shù)據(jù)溯源追蹤的主要方法有標(biāo)注法和反向查詢(xún)法.除此之外,還有通用的數(shù)據(jù)追蹤方法,雙向指針追蹤法,利用圖論思想和專(zhuān)用查詢(xún)語(yǔ)言追蹤法,以及文獻(xiàn)提出以位向量存儲(chǔ)定位等方法.標(biāo)注法是一種簡(jiǎn)單且有效的數(shù)據(jù)溯源方法,使用非常廣泛.通過(guò)記錄處理相關(guān)的信息來(lái)追溯數(shù)據(jù)的歷史狀態(tài),即用標(biāo)注的方式來(lái)記錄原始數(shù)據(jù)的一些重要信息,如背景、作者、時(shí)間、出處等,并讓標(biāo)注和數(shù)據(jù)一起傳播,通過(guò)查看目標(biāo)數(shù)據(jù)的標(biāo)注來(lái)獲得數(shù)據(jù)的溯源.Sudha等人提出的7W模型,就是采用標(biāo)注法,事先標(biāo)記并攜帶溯源信息完成數(shù)據(jù)溯源的模型,被稱(chēng)為eager方法.采用標(biāo)注法來(lái)進(jìn)行數(shù)據(jù)溯源雖然簡(jiǎn)單,但存儲(chǔ)標(biāo)注信息需要額外的存儲(chǔ)空間.反向查詢(xún)法,有的文獻(xiàn)也稱(chēng)逆置函數(shù)法.由于標(biāo)注法并不適合細(xì)粒度數(shù)據(jù),特別是大數(shù)據(jù)集中的數(shù)據(jù)溯源,于是,提出了逆置函數(shù)反向查詢(xún)法,此方法是通過(guò)逆向查詢(xún)或構(gòu)造逆向函數(shù)對(duì)查詢(xún)求逆,或者說(shuō)根據(jù)轉(zhuǎn)換過(guò)程反向推導(dǎo),由結(jié)果追溯到原數(shù)據(jù)的過(guò)程.這種方法是在需要時(shí)才計(jì)算所以又叫l(wèi)azzy方法.詳細(xì)論述了數(shù)據(jù)庫(kù)中逆置追蹤數(shù)據(jù)溯源的機(jī)制.反向查詢(xún)法關(guān)鍵是要構(gòu)造出逆向函數(shù),逆向函數(shù)構(gòu)造的好與壞直接影響查詢(xún)的效果以及算法的性能,與標(biāo)注法相比,它比較復(fù)雜,但需要的存儲(chǔ)空間比標(biāo)注法要小.下面將標(biāo)注法與查詢(xún)法進(jìn)行比較,列出其優(yōu)缺點(diǎn).標(biāo)注法的優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,容易管理,其缺點(diǎn):只適合小型系統(tǒng),對(duì)于大型系統(tǒng)而言很難為細(xì)粒度的數(shù)據(jù)提供詳細(xì)的數(shù)據(jù)溯源信息,因?yàn)楹芗?xì)可能導(dǎo)致元數(shù)據(jù)比原始數(shù)據(jù)還多,需要額外的存儲(chǔ)空間,對(duì)存儲(chǔ)造成很大的壓力,而且效率低.逆置函數(shù)反向查詢(xún)法的優(yōu)點(diǎn):追蹤比較簡(jiǎn)單,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論