本源XML數(shù)據(jù)庫(kù)綜述_第1頁(yè)
本源XML數(shù)據(jù)庫(kù)綜述_第2頁(yè)
本源XML數(shù)據(jù)庫(kù)綜述_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本源XML數(shù)據(jù)庫(kù)綜述摘要:關(guān)鍵詞:關(guān)鍵詞:XML;本源XML數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù)中圖分類(lèi)號(hào): TP311.131文獻(xiàn)標(biāo)志碼: A文章編號(hào):1引言1.1 關(guān)系數(shù)據(jù)庫(kù)的局限性關(guān)系數(shù)據(jù)庫(kù)技術(shù)發(fā)展到今天,已經(jīng)有一套成熟的理論,關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品在當(dāng)今的數(shù)據(jù)庫(kù)市場(chǎng)上也占據(jù)著絕對(duì)主導(dǎo)的位置。然而隨著信息技術(shù)的飛速發(fā)展,關(guān)系數(shù)據(jù)庫(kù)的局限性也日益明顯的顯現(xiàn)出來(lái),主要地有以下幾方面的問(wèn)題【1】: (1)關(guān)系數(shù)據(jù)庫(kù)能夠很好地實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的管理。但是,隨著信息數(shù)據(jù)的種類(lèi)不斷擴(kuò)展,越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù)不斷出現(xiàn),如:企業(yè)的各種報(bào)表、賬單、電子文檔、網(wǎng)站的各種元素、圖片、傳真、以及大量的多媒體信息等。由于關(guān)系數(shù)據(jù)庫(kù)固有的特點(diǎn),

2、使其難以管理這種結(jié)構(gòu)復(fù)雜或結(jié)構(gòu)多變的非結(jié)構(gòu)數(shù)據(jù)。而據(jù)相關(guān)的統(tǒng)計(jì),數(shù)據(jù)信息中只有15%是結(jié)構(gòu)化,其余85%均是非結(jié)構(gòu)化的,如此,如何有效的來(lái)管理這85%數(shù)據(jù)就成為了一個(gè)很有價(jià)值的問(wèn)題。 (2)當(dāng)今社會(huì)信息不僅日益復(fù)雜,而且其需求內(nèi)容和結(jié)構(gòu)隨著時(shí)間的推移也不斷地產(chǎn)生變化,現(xiàn)實(shí)世界要求信息技術(shù)具有越來(lái)越高的靈活性和適應(yīng)性。但關(guān)系數(shù)據(jù)庫(kù)的結(jié)構(gòu)用模式描述,模式是預(yù)先設(shè)計(jì)好的,模式中屬性的類(lèi)型是基本數(shù)據(jù)類(lèi)型,這些在系統(tǒng)運(yùn)行過(guò)程中基本沒(méi)有變化。關(guān)系型數(shù)據(jù)理論所采用這種固定的建模方式,難以隨著需求的變化進(jìn)行靈活的調(diào)整。 (3)隨著Web技術(shù)的不斷發(fā)展,信息共享和數(shù)據(jù)交換的范圍不斷擴(kuò)大,而傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系

3、統(tǒng)之間的異構(gòu)性及其所依賴(lài)操作系統(tǒng)的異構(gòu)性,嚴(yán)重限制了信息共享和數(shù)據(jù)交換范圍。數(shù)據(jù)庫(kù)技術(shù)的語(yǔ)義描述能力差,大多通過(guò)技術(shù)文檔表示,很難實(shí)現(xiàn)數(shù)據(jù)語(yǔ)義的持久性和傳遞性,而數(shù)據(jù)交換和信息共享都是基于語(yǔ)義進(jìn)行的,在異構(gòu)應(yīng)用數(shù)據(jù)交換時(shí),不利于計(jì)算機(jī)基于語(yǔ)義自動(dòng)進(jìn)行正確數(shù)據(jù)的檢索與應(yīng)用。1.2 XML使能數(shù)據(jù)庫(kù)的局限性 XML是一種元標(biāo)記語(yǔ)言,XML數(shù)據(jù)在應(yīng)用方面具有如下優(yōu)點(diǎn):(1)XML文件為純文本文件,不受操作系統(tǒng)、軟件平臺(tái)的限制,可以實(shí)現(xiàn)信息共享和數(shù)據(jù)交換(2)XML具有基于XML Schema的數(shù)據(jù)語(yǔ)義的自描述功能,并且這種描述能被計(jì)算機(jī)理解和處理 (3)XML不僅可以描述結(jié)構(gòu)化數(shù)據(jù),還可有效描述半結(jié)

4、構(gòu)化,甚至非結(jié)構(gòu)化數(shù)據(jù)【2】。 正是由于關(guān)系數(shù)據(jù)庫(kù)的局限性和XML本身所具有的優(yōu)點(diǎn),使得一類(lèi)數(shù)據(jù)庫(kù)在近年來(lái)越來(lái)越得到廣泛的關(guān)注與研究,即:XML數(shù)據(jù)庫(kù)。XML數(shù)據(jù)庫(kù)有三種類(lèi)型: XML Enabled Database(XML使能數(shù)據(jù)庫(kù))、Native XML Database(本源XML數(shù)據(jù)庫(kù))和Hybrid XML Database(混合XML數(shù)據(jù)庫(kù))?;旌蟈ML數(shù)據(jù)庫(kù)可以根據(jù)應(yīng)用的需求,將其視為XML使能數(shù)據(jù)庫(kù)或本源XML數(shù)據(jù)庫(kù)。XML使能數(shù)據(jù)庫(kù)是在傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)上擴(kuò)充對(duì)XML數(shù)據(jù)的處理功能,通過(guò)適當(dāng)?shù)腦ML API對(duì)XML文檔進(jìn)行查詢(xún)和修改,其優(yōu)點(diǎn)在于可以充分利用傳統(tǒng)數(shù)據(jù)庫(kù)的成熟技術(shù),

5、只需稍加改變,就可以支持XML應(yīng)用。但XML使能數(shù)據(jù)庫(kù)也有一些明顯的局限性:其一,XML使能數(shù)據(jù)庫(kù)通過(guò)中間件在XML文檔結(jié)構(gòu)和關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)之間建立數(shù)據(jù)的映射機(jī)制,它把XML文檔映射為一個(gè)單一的表格或者是表格的集合,取出時(shí)需要組合。這樣不僅耗時(shí),而且重新取回的文檔可能會(huì)變得面目全非,同時(shí)在將XML文檔映射為關(guān)系數(shù)據(jù)庫(kù)中的表時(shí),原有XML文檔的結(jié)構(gòu)被破壞,語(yǔ)義丟失,很不自然;其二,對(duì)“以文檔為中心”格式復(fù)雜的XML文檔處理性能較差;其三,在采納XML技術(shù)標(biāo)準(zhǔn)方面較落后。2本源XML數(shù)據(jù)庫(kù)2.1本源XML數(shù)據(jù)庫(kù)的定義 正是由于XML使能數(shù)據(jù)庫(kù)的局限性,近幾年來(lái)本源XML數(shù)據(jù)庫(kù)成為學(xué)術(shù)界研究的熱點(diǎn)。

6、本源XML數(shù)據(jù)庫(kù)的特點(diǎn)是以自然的方式處理XML數(shù)據(jù),以XML文檔作為基本的邏輯存儲(chǔ)單位,針對(duì)XML的數(shù)據(jù)存儲(chǔ)和查詢(xún)特點(diǎn)專(zhuān)門(mén)設(shè)計(jì)適用的數(shù)據(jù)模型和處理方法。Ronald Bourret在“XML and Databases”【3】 一文中給出本源XML數(shù)據(jù)庫(kù)的一個(gè)定義:它為 XML 文檔,而不是文檔中的數(shù)據(jù),定義了一個(gè)邏輯模型,并根據(jù)該模型存取文件。這個(gè)模型至少應(yīng)包括元素、屬性、PCDATA 和文件順序。這種模型的例子有XPath數(shù)據(jù)模型、XML Infoset 以及 DOM 所用的模型和SAX 1.0的事件。它以 XML 文件作為其基本邏輯存儲(chǔ)單位。它對(duì)底層的物理存儲(chǔ)模型模型沒(méi)有特殊要求。例如,

7、它可以建在關(guān)系型、層次型或面向?qū)ο蟮臄?shù)據(jù)庫(kù)之上,或者使用專(zhuān)用的存儲(chǔ)格式,比如索引或壓縮文件。 從上述定義中可以總結(jié)出以下幾點(diǎn):本源XML數(shù)據(jù)庫(kù)是專(zhuān)門(mén)用來(lái)存儲(chǔ)XML數(shù)據(jù)的,而且完整無(wú)缺地存儲(chǔ)XML模型的所有成分;本源XML數(shù)據(jù)庫(kù)基本存儲(chǔ)單位是 XML 文件;本源XML數(shù)據(jù)庫(kù)底層的數(shù)據(jù)存儲(chǔ)格式并不重要,甚至可能根本就不是真正獨(dú)立的數(shù)據(jù)庫(kù)。但對(duì)于上述定義中的第三點(diǎn)而言,在很多方面XML都不同于其它的數(shù)據(jù)模型(如:關(guān)系模型、面向?qū)ο竽P?:將XML映射到另一種數(shù)據(jù)模型常常引起“阻抗失配”,并導(dǎo)致功能和性能上的局限。因此,業(yè)界認(rèn)為本源XML數(shù)據(jù)庫(kù)必須直接存儲(chǔ)和處理XML數(shù)據(jù)。2.2本源XML數(shù)據(jù)庫(kù)的結(jié)構(gòu)

8、【3】 本源XML數(shù)據(jù)庫(kù)的結(jié)構(gòu)可分為兩大類(lèi):基于文本的和基于模型的?;谖谋镜谋驹碭ML數(shù)據(jù)庫(kù)將XML作為文本存儲(chǔ)。它可以是文件系統(tǒng)中的文件、關(guān)系數(shù)據(jù)庫(kù)中的BLOB或?qū)iT(mén)的文本格式。索引對(duì)所有基于文本的本源XML數(shù)據(jù)庫(kù)來(lái)說(shuō)都是一樣的,它可以使查詢(xún)引擎很方便地跳到XML文件內(nèi)的任何地方。這就可以大大提高數(shù)據(jù)庫(kù)存取文件或文件片斷的速度。 從這個(gè)意義上講,基于文本的本源XML數(shù)據(jù)庫(kù)與層次結(jié)構(gòu)的數(shù)據(jù)庫(kù)很相似,當(dāng)存取預(yù)先定義好層次的數(shù)據(jù)的時(shí)候,它比關(guān)系數(shù)據(jù)庫(kù)更勝一籌。和層次結(jié)構(gòu)的數(shù)據(jù)庫(kù)一樣,當(dāng)以其他形式比如轉(zhuǎn)置層次存取數(shù)據(jù)時(shí),原生XML數(shù)據(jù)庫(kù)也會(huì)遇到麻煩。 基于模型的本源XML數(shù)據(jù)庫(kù)不是用純文本存儲(chǔ)文件

9、,而是根據(jù)文件構(gòu)造一個(gè)內(nèi)部模型并存儲(chǔ)這個(gè)模型。至于模型究竟怎樣存儲(chǔ)取決于數(shù)據(jù)庫(kù):有些數(shù)據(jù)庫(kù)將該模型存儲(chǔ)于關(guān)系型和面向?qū)ο蟮?數(shù)據(jù)庫(kù)中,其它數(shù)據(jù)庫(kù)使用了專(zhuān)為這種模型作了優(yōu)化的專(zhuān)有存儲(chǔ)格式。建立在其它數(shù)據(jù)庫(kù)之上的基于模型的本源XML數(shù)據(jù)庫(kù)的文件存取性能與這些數(shù)據(jù)庫(kù)相似。使用專(zhuān)用存儲(chǔ)格式的基于模型的本源XML數(shù)據(jù)庫(kù)的文件存取性能與基于文本的本源XML數(shù)據(jù)庫(kù)相似:如果以文件的存儲(chǔ)順序讀取文件,其性能高于關(guān)系數(shù)據(jù)庫(kù);如果數(shù)據(jù)的讀取順序和存儲(chǔ)順序不同,基于模型的本源XML數(shù)據(jù)庫(kù)也會(huì)出現(xiàn)性能上的問(wèn)題。2.3 本源XML數(shù)據(jù)庫(kù)的優(yōu)勢(shì) 本源XML數(shù)據(jù)庫(kù)能對(duì)半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效存取和管理。其數(shù)據(jù)模型能夠?qū)Σ灰?guī)則的

10、數(shù)據(jù)進(jìn)行映射,適合于描述異構(gòu)的和動(dòng)態(tài)變化的Web數(shù)據(jù),而且更加便于對(duì)層次化的數(shù)據(jù)進(jìn)行操作。而把不規(guī)則的數(shù)據(jù)映射到關(guān)系數(shù)據(jù)庫(kù)中的時(shí)候,會(huì)產(chǎn)生大量空值的列或大量的表而影響時(shí)空效果,所以XML的數(shù)據(jù)結(jié)構(gòu)比關(guān)系數(shù)據(jù)庫(kù)更具有表現(xiàn)力。 將數(shù)據(jù)存儲(chǔ)在本源XML數(shù)據(jù)庫(kù)中,可以提高檢索速度。本源XML數(shù)據(jù)庫(kù)的存儲(chǔ)策略是將整個(gè)文檔物理地存儲(chǔ)在一起,使用物理的,而非邏輯的指針在文檔各個(gè)部分之間實(shí)現(xiàn),所以它比關(guān)系數(shù) 據(jù)庫(kù)所用的邏輯連接要快。 XML文件具有可移植性,與平臺(tái)無(wú)關(guān),可以存儲(chǔ)所有數(shù)據(jù)類(lèi)型。因此,本源XML數(shù)據(jù)庫(kù)因XML的這種特征而擁有移植數(shù)據(jù)的能力。 本源XML數(shù)據(jù)庫(kù)具有集成異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的能力。XML具有

11、的可擴(kuò)展性便于表述各種類(lèi)型的數(shù)據(jù),這使得XML數(shù)據(jù)庫(kù)可作為異構(gòu)數(shù)據(jù)庫(kù)的中間件,對(duì)相對(duì)分散的異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)按照DTD進(jìn)行集成,得到格式統(tǒng)一的XML文檔。從而為在遠(yuǎn)景目標(biāo)上實(shí)現(xiàn)類(lèi)似于網(wǎng)格計(jì)算概念的系統(tǒng)提供了可能性。 本源XML數(shù)據(jù)庫(kù)具有Round-tripping能力,即:它可以將XML文檔存放在本源XML數(shù)據(jù)庫(kù)中,而后再取回同樣的文檔。對(duì)于以“文檔為中心”的應(yīng)用程序來(lái)說(shuō)非常重要,因?yàn)閄ML使能數(shù)據(jù)庫(kù)往往會(huì)忽略XML文檔中的CDATA部分、實(shí)體引用、注釋和處理指令等不可缺少的組成部分,而這些對(duì)于象法律和醫(yī)學(xué)等領(lǐng)域中格式不允許隨意竄改的數(shù)據(jù)文檔而言是很重要的。2.4本源XML數(shù)據(jù)庫(kù)研發(fā)產(chǎn)品現(xiàn)狀 本

12、源XML數(shù)據(jù)庫(kù)研發(fā)產(chǎn)品在學(xué)術(shù)界和工業(yè)界的推動(dòng)下,已出現(xiàn)了很多實(shí)驗(yàn)室原型系統(tǒng)和商用產(chǎn)品。在Ronald Bourret的XML Database Products【4】一文中將本源XML數(shù)據(jù)庫(kù)產(chǎn)品大致分為四大類(lèi)型: (1)商業(yè)類(lèi):如:Ipedo、Tamino、Natix、Xyleme等。 (2)研究類(lèi):如Stanford大學(xué)早期開(kāi)發(fā)的Lore等。 (3)開(kāi)放源碼類(lèi):其中影響較大的是Berkeley DB XML、dbXML、XDB和Xindice。 (4)免費(fèi)類(lèi):如:eXtc、Sedna XML DBMS、M/DB:X等 在商業(yè)類(lèi)中,美國(guó)Ipedo公司的Ipedo XML Database和德國(guó)

13、Software AG公司的Tamino是其中的佼佼者,成為目前市場(chǎng)上的主流產(chǎn)品。在研究類(lèi)中,比較好的本源XML數(shù)據(jù)庫(kù)原型系統(tǒng)有三家:密歇根大學(xué)安阿伯分校的Timber、西雅圖華盛頓大學(xué)的Tukwila和威斯康星大學(xué)麥迪遜分校的Niagara。其中,影響最大的是Timber。 另外,中國(guó)人民大學(xué)開(kāi)發(fā)的一個(gè)本源XML數(shù)據(jù)庫(kù)原型系統(tǒng)OrientX也具有一定的代表性【5】。 OrientX存儲(chǔ)系統(tǒng)建立在操作系統(tǒng)的文件系統(tǒng)上,并將XML文件劃分到若干數(shù)據(jù)集,數(shù)據(jù)集用SetlD來(lái)標(biāo)志;在文件上劃分邏輯物理塊,物理塊用LpNo來(lái)標(biāo)志,給定一對(duì)(SetlD,LpNo)能馬上找到對(duì)應(yīng)文件相應(yīng)的偏移量。Orie

14、ntX索引管理基于DTD。它從DTD出發(fā)構(gòu)建索引結(jié)構(gòu),通過(guò)結(jié)合XML數(shù)據(jù)的編碼,該索引可以支持多種查詢(xún)方式。OrientX查詢(xún)語(yǔ)言使用XQuery,它將XQuery表達(dá)式轉(zhuǎn)換為由XML代數(shù)運(yùn)算構(gòu)成的操作樹(shù),并使用了基于代價(jià)估計(jì)的查詢(xún)優(yōu)化策略。3結(jié)束語(yǔ) 本源XML數(shù)據(jù)庫(kù)是近幾年才發(fā)展起來(lái)的,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)技術(shù)相比,很多技術(shù)還不成熟,如:并發(fā)加鎖協(xié)議、異構(gòu)數(shù)據(jù)源的集成等。雖然本源XML數(shù)據(jù)庫(kù)存在許多不足,但并沒(méi)有影響它的發(fā)展勢(shì)頭,SQL的核心發(fā)明者之一,Don Chamberlin甚至認(rèn)為它代表了數(shù)據(jù)庫(kù)技術(shù)未來(lái)發(fā)展的一種方向。參考文獻(xiàn):【1】 朱杰.后關(guān)系型數(shù)據(jù)庫(kù)=XML+關(guān)系型?. (2007-04-02)./analysis/64/7148064.shtml【2】 李建華,周榮,等. XML與數(shù)據(jù)庫(kù)./applic/prog/htm2003/20030311_14711.htm【3】 Ronald Bourret.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論