本源XML數(shù)據(jù)庫綜述_第1頁
本源XML數(shù)據(jù)庫綜述_第2頁
本源XML數(shù)據(jù)庫綜述_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、本源XML數(shù)據(jù)庫綜述摘要:關(guān)鍵詞:關(guān)鍵詞:XML;本源XML數(shù)據(jù)庫;數(shù)據(jù)庫中圖分類號: TP311.131文獻(xiàn)標(biāo)志碼: A文章編號:1引言1.1 關(guān)系數(shù)據(jù)庫的局限性關(guān)系數(shù)據(jù)庫技術(shù)發(fā)展到今天,已經(jīng)有一套成熟的理論,關(guān)系數(shù)據(jù)庫產(chǎn)品在當(dāng)今的數(shù)據(jù)庫市場上也占據(jù)著絕對主導(dǎo)的位置。然而隨著信息技術(shù)的飛速發(fā)展,關(guān)系數(shù)據(jù)庫的局限性也日益明顯的顯現(xiàn)出來,主要地有以下幾方面的問題【1】: (1)關(guān)系數(shù)據(jù)庫能夠很好地實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的管理。但是,隨著信息數(shù)據(jù)的種類不斷擴展,越來越多的非結(jié)構(gòu)化數(shù)據(jù)不斷出現(xiàn),如:企業(yè)的各種報表、賬單、電子文檔、網(wǎng)站的各種元素、圖片、傳真、以及大量的多媒體信息等。由于關(guān)系數(shù)據(jù)庫固有的特點,

2、使其難以管理這種結(jié)構(gòu)復(fù)雜或結(jié)構(gòu)多變的非結(jié)構(gòu)數(shù)據(jù)。而據(jù)相關(guān)的統(tǒng)計,數(shù)據(jù)信息中只有15%是結(jié)構(gòu)化,其余85%均是非結(jié)構(gòu)化的,如此,如何有效的來管理這85%數(shù)據(jù)就成為了一個很有價值的問題。 (2)當(dāng)今社會信息不僅日益復(fù)雜,而且其需求內(nèi)容和結(jié)構(gòu)隨著時間的推移也不斷地產(chǎn)生變化,現(xiàn)實世界要求信息技術(shù)具有越來越高的靈活性和適應(yīng)性。但關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)用模式描述,模式是預(yù)先設(shè)計好的,模式中屬性的類型是基本數(shù)據(jù)類型,這些在系統(tǒng)運行過程中基本沒有變化。關(guān)系型數(shù)據(jù)理論所采用這種固定的建模方式,難以隨著需求的變化進(jìn)行靈活的調(diào)整。 (3)隨著Web技術(shù)的不斷發(fā)展,信息共享和數(shù)據(jù)交換的范圍不斷擴大,而傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系

3、統(tǒng)之間的異構(gòu)性及其所依賴操作系統(tǒng)的異構(gòu)性,嚴(yán)重限制了信息共享和數(shù)據(jù)交換范圍。數(shù)據(jù)庫技術(shù)的語義描述能力差,大多通過技術(shù)文檔表示,很難實現(xiàn)數(shù)據(jù)語義的持久性和傳遞性,而數(shù)據(jù)交換和信息共享都是基于語義進(jìn)行的,在異構(gòu)應(yīng)用數(shù)據(jù)交換時,不利于計算機基于語義自動進(jìn)行正確數(shù)據(jù)的檢索與應(yīng)用。1.2 XML使能數(shù)據(jù)庫的局限性 XML是一種元標(biāo)記語言,XML數(shù)據(jù)在應(yīng)用方面具有如下優(yōu)點:(1)XML文件為純文本文件,不受操作系統(tǒng)、軟件平臺的限制,可以實現(xiàn)信息共享和數(shù)據(jù)交換(2)XML具有基于XML Schema的數(shù)據(jù)語義的自描述功能,并且這種描述能被計算機理解和處理 (3)XML不僅可以描述結(jié)構(gòu)化數(shù)據(jù),還可有效描述半結(jié)

4、構(gòu)化,甚至非結(jié)構(gòu)化數(shù)據(jù)【2】。 正是由于關(guān)系數(shù)據(jù)庫的局限性和XML本身所具有的優(yōu)點,使得一類數(shù)據(jù)庫在近年來越來越得到廣泛的關(guān)注與研究,即:XML數(shù)據(jù)庫。XML數(shù)據(jù)庫有三種類型: XML Enabled Database(XML使能數(shù)據(jù)庫)、Native XML Database(本源XML數(shù)據(jù)庫)和Hybrid XML Database(混合XML數(shù)據(jù)庫)。混合XML數(shù)據(jù)庫可以根據(jù)應(yīng)用的需求,將其視為XML使能數(shù)據(jù)庫或本源XML數(shù)據(jù)庫。XML使能數(shù)據(jù)庫是在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)上擴充對XML數(shù)據(jù)的處理功能,通過適當(dāng)?shù)腦ML API對XML文檔進(jìn)行查詢和修改,其優(yōu)點在于可以充分利用傳統(tǒng)數(shù)據(jù)庫的成熟技術(shù),

5、只需稍加改變,就可以支持XML應(yīng)用。但XML使能數(shù)據(jù)庫也有一些明顯的局限性:其一,XML使能數(shù)據(jù)庫通過中間件在XML文檔結(jié)構(gòu)和關(guān)系數(shù)據(jù)庫結(jié)構(gòu)之間建立數(shù)據(jù)的映射機制,它把XML文檔映射為一個單一的表格或者是表格的集合,取出時需要組合。這樣不僅耗時,而且重新取回的文檔可能會變得面目全非,同時在將XML文檔映射為關(guān)系數(shù)據(jù)庫中的表時,原有XML文檔的結(jié)構(gòu)被破壞,語義丟失,很不自然;其二,對“以文檔為中心”格式復(fù)雜的XML文檔處理性能較差;其三,在采納XML技術(shù)標(biāo)準(zhǔn)方面較落后。2本源XML數(shù)據(jù)庫2.1本源XML數(shù)據(jù)庫的定義 正是由于XML使能數(shù)據(jù)庫的局限性,近幾年來本源XML數(shù)據(jù)庫成為學(xué)術(shù)界研究的熱點。

6、本源XML數(shù)據(jù)庫的特點是以自然的方式處理XML數(shù)據(jù),以XML文檔作為基本的邏輯存儲單位,針對XML的數(shù)據(jù)存儲和查詢特點專門設(shè)計適用的數(shù)據(jù)模型和處理方法。Ronald Bourret在“XML and Databases”【3】 一文中給出本源XML數(shù)據(jù)庫的一個定義:它為 XML 文檔,而不是文檔中的數(shù)據(jù),定義了一個邏輯模型,并根據(jù)該模型存取文件。這個模型至少應(yīng)包括元素、屬性、PCDATA 和文件順序。這種模型的例子有XPath數(shù)據(jù)模型、XML Infoset 以及 DOM 所用的模型和SAX 1.0的事件。它以 XML 文件作為其基本邏輯存儲單位。它對底層的物理存儲模型模型沒有特殊要求。例如,

7、它可以建在關(guān)系型、層次型或面向?qū)ο蟮臄?shù)據(jù)庫之上,或者使用專用的存儲格式,比如索引或壓縮文件。 從上述定義中可以總結(jié)出以下幾點:本源XML數(shù)據(jù)庫是專門用來存儲XML數(shù)據(jù)的,而且完整無缺地存儲XML模型的所有成分;本源XML數(shù)據(jù)庫基本存儲單位是 XML 文件;本源XML數(shù)據(jù)庫底層的數(shù)據(jù)存儲格式并不重要,甚至可能根本就不是真正獨立的數(shù)據(jù)庫。但對于上述定義中的第三點而言,在很多方面XML都不同于其它的數(shù)據(jù)模型(如:關(guān)系模型、面向?qū)ο竽P?:將XML映射到另一種數(shù)據(jù)模型常常引起“阻抗失配”,并導(dǎo)致功能和性能上的局限。因此,業(yè)界認(rèn)為本源XML數(shù)據(jù)庫必須直接存儲和處理XML數(shù)據(jù)。2.2本源XML數(shù)據(jù)庫的結(jié)構(gòu)

8、【3】 本源XML數(shù)據(jù)庫的結(jié)構(gòu)可分為兩大類:基于文本的和基于模型的?;谖谋镜谋驹碭ML數(shù)據(jù)庫將XML作為文本存儲。它可以是文件系統(tǒng)中的文件、關(guān)系數(shù)據(jù)庫中的BLOB或?qū)iT的文本格式。索引對所有基于文本的本源XML數(shù)據(jù)庫來說都是一樣的,它可以使查詢引擎很方便地跳到XML文件內(nèi)的任何地方。這就可以大大提高數(shù)據(jù)庫存取文件或文件片斷的速度。 從這個意義上講,基于文本的本源XML數(shù)據(jù)庫與層次結(jié)構(gòu)的數(shù)據(jù)庫很相似,當(dāng)存取預(yù)先定義好層次的數(shù)據(jù)的時候,它比關(guān)系數(shù)據(jù)庫更勝一籌。和層次結(jié)構(gòu)的數(shù)據(jù)庫一樣,當(dāng)以其他形式比如轉(zhuǎn)置層次存取數(shù)據(jù)時,原生XML數(shù)據(jù)庫也會遇到麻煩。 基于模型的本源XML數(shù)據(jù)庫不是用純文本存儲文件

9、,而是根據(jù)文件構(gòu)造一個內(nèi)部模型并存儲這個模型。至于模型究竟怎樣存儲取決于數(shù)據(jù)庫:有些數(shù)據(jù)庫將該模型存儲于關(guān)系型和面向?qū)ο蟮?數(shù)據(jù)庫中,其它數(shù)據(jù)庫使用了專為這種模型作了優(yōu)化的專有存儲格式。建立在其它數(shù)據(jù)庫之上的基于模型的本源XML數(shù)據(jù)庫的文件存取性能與這些數(shù)據(jù)庫相似。使用專用存儲格式的基于模型的本源XML數(shù)據(jù)庫的文件存取性能與基于文本的本源XML數(shù)據(jù)庫相似:如果以文件的存儲順序讀取文件,其性能高于關(guān)系數(shù)據(jù)庫;如果數(shù)據(jù)的讀取順序和存儲順序不同,基于模型的本源XML數(shù)據(jù)庫也會出現(xiàn)性能上的問題。2.3 本源XML數(shù)據(jù)庫的優(yōu)勢 本源XML數(shù)據(jù)庫能對半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效存取和管理。其數(shù)據(jù)模型能夠?qū)Σ灰?guī)則的

10、數(shù)據(jù)進(jìn)行映射,適合于描述異構(gòu)的和動態(tài)變化的Web數(shù)據(jù),而且更加便于對層次化的數(shù)據(jù)進(jìn)行操作。而把不規(guī)則的數(shù)據(jù)映射到關(guān)系數(shù)據(jù)庫中的時候,會產(chǎn)生大量空值的列或大量的表而影響時空效果,所以XML的數(shù)據(jù)結(jié)構(gòu)比關(guān)系數(shù)據(jù)庫更具有表現(xiàn)力。 將數(shù)據(jù)存儲在本源XML數(shù)據(jù)庫中,可以提高檢索速度。本源XML數(shù)據(jù)庫的存儲策略是將整個文檔物理地存儲在一起,使用物理的,而非邏輯的指針在文檔各個部分之間實現(xiàn),所以它比關(guān)系數(shù) 據(jù)庫所用的邏輯連接要快。 XML文件具有可移植性,與平臺無關(guān),可以存儲所有數(shù)據(jù)類型。因此,本源XML數(shù)據(jù)庫因XML的這種特征而擁有移植數(shù)據(jù)的能力。 本源XML數(shù)據(jù)庫具有集成異構(gòu)數(shù)據(jù)庫系統(tǒng)的能力。XML具有

11、的可擴展性便于表述各種類型的數(shù)據(jù),這使得XML數(shù)據(jù)庫可作為異構(gòu)數(shù)據(jù)庫的中間件,對相對分散的異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)按照DTD進(jìn)行集成,得到格式統(tǒng)一的XML文檔。從而為在遠(yuǎn)景目標(biāo)上實現(xiàn)類似于網(wǎng)格計算概念的系統(tǒng)提供了可能性。 本源XML數(shù)據(jù)庫具有Round-tripping能力,即:它可以將XML文檔存放在本源XML數(shù)據(jù)庫中,而后再取回同樣的文檔。對于以“文檔為中心”的應(yīng)用程序來說非常重要,因為XML使能數(shù)據(jù)庫往往會忽略XML文檔中的CDATA部分、實體引用、注釋和處理指令等不可缺少的組成部分,而這些對于象法律和醫(yī)學(xué)等領(lǐng)域中格式不允許隨意竄改的數(shù)據(jù)文檔而言是很重要的。2.4本源XML數(shù)據(jù)庫研發(fā)產(chǎn)品現(xiàn)狀 本

12、源XML數(shù)據(jù)庫研發(fā)產(chǎn)品在學(xué)術(shù)界和工業(yè)界的推動下,已出現(xiàn)了很多實驗室原型系統(tǒng)和商用產(chǎn)品。在Ronald Bourret的XML Database Products【4】一文中將本源XML數(shù)據(jù)庫產(chǎn)品大致分為四大類型: (1)商業(yè)類:如:Ipedo、Tamino、Natix、Xyleme等。 (2)研究類:如Stanford大學(xué)早期開發(fā)的Lore等。 (3)開放源碼類:其中影響較大的是Berkeley DB XML、dbXML、XDB和Xindice。 (4)免費類:如:eXtc、Sedna XML DBMS、M/DB:X等 在商業(yè)類中,美國Ipedo公司的Ipedo XML Database和德國

13、Software AG公司的Tamino是其中的佼佼者,成為目前市場上的主流產(chǎn)品。在研究類中,比較好的本源XML數(shù)據(jù)庫原型系統(tǒng)有三家:密歇根大學(xué)安阿伯分校的Timber、西雅圖華盛頓大學(xué)的Tukwila和威斯康星大學(xué)麥迪遜分校的Niagara。其中,影響最大的是Timber。 另外,中國人民大學(xué)開發(fā)的一個本源XML數(shù)據(jù)庫原型系統(tǒng)OrientX也具有一定的代表性【5】。 OrientX存儲系統(tǒng)建立在操作系統(tǒng)的文件系統(tǒng)上,并將XML文件劃分到若干數(shù)據(jù)集,數(shù)據(jù)集用SetlD來標(biāo)志;在文件上劃分邏輯物理塊,物理塊用LpNo來標(biāo)志,給定一對(SetlD,LpNo)能馬上找到對應(yīng)文件相應(yīng)的偏移量。Orie

14、ntX索引管理基于DTD。它從DTD出發(fā)構(gòu)建索引結(jié)構(gòu),通過結(jié)合XML數(shù)據(jù)的編碼,該索引可以支持多種查詢方式。OrientX查詢語言使用XQuery,它將XQuery表達(dá)式轉(zhuǎn)換為由XML代數(shù)運算構(gòu)成的操作樹,并使用了基于代價估計的查詢優(yōu)化策略。3結(jié)束語 本源XML數(shù)據(jù)庫是近幾年才發(fā)展起來的,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)相比,很多技術(shù)還不成熟,如:并發(fā)加鎖協(xié)議、異構(gòu)數(shù)據(jù)源的集成等。雖然本源XML數(shù)據(jù)庫存在許多不足,但并沒有影響它的發(fā)展勢頭,SQL的核心發(fā)明者之一,Don Chamberlin甚至認(rèn)為它代表了數(shù)據(jù)庫技術(shù)未來發(fā)展的一種方向。參考文獻(xiàn):【1】 朱杰.后關(guān)系型數(shù)據(jù)庫=XML+關(guān)系型?. (2007-04-02)./analysis/64/7148064.shtml【2】 李建華,周榮,等. XML與數(shù)據(jù)庫./applic/prog/htm2003/20030311_14711.htm【3】 Ronald Bourret.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論