本源XML數(shù)據(jù)庫(kù)綜述

上傳人：凹*** IP屬地：上海上傳時(shí)間：2021-01-30 格式：DOCX 頁(yè)數(shù)：3 大小：15.57KB 積分：25 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本源XML數(shù)據(jù)庫(kù)綜述摘要：關(guān)鍵詞：關(guān)鍵詞：XML；本源XML數(shù)據(jù)庫(kù)；數(shù)據(jù)庫(kù)中圖分類(lèi)號(hào): TP311.131文獻(xiàn)標(biāo)志碼: A文章編號(hào)：1引言1.1 關(guān)系數(shù)據(jù)庫(kù)的局限性關(guān)系數(shù)據(jù)庫(kù)技術(shù)發(fā)展到今天，已經(jīng)有一套成熟的理論，關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品在當(dāng)今的數(shù)據(jù)庫(kù)市場(chǎng)上也占據(jù)著絕對(duì)主導(dǎo)的位置。然而隨著信息技術(shù)的飛速發(fā)展，關(guān)系數(shù)據(jù)庫(kù)的局限性也日益明顯的顯現(xiàn)出來(lái)，主要地有以下幾方面的問(wèn)題【1】：（1）關(guān)系數(shù)據(jù)庫(kù)能夠很好地實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的管理。但是，隨著信息數(shù)據(jù)的種類(lèi)不斷擴(kuò)展，越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù)不斷出現(xiàn)，如：企業(yè)的各種報(bào)表、賬單、電子文檔、網(wǎng)站的各種元素、圖片、傳真、以及大量的多媒體信息等。由于關(guān)系數(shù)據(jù)庫(kù)固有的特點(diǎn)，

2、使其難以管理這種結(jié)構(gòu)復(fù)雜或結(jié)構(gòu)多變的非結(jié)構(gòu)數(shù)據(jù)。而據(jù)相關(guān)的統(tǒng)計(jì)，數(shù)據(jù)信息中只有15%是結(jié)構(gòu)化，其余85%均是非結(jié)構(gòu)化的，如此，如何有效的來(lái)管理這85%數(shù)據(jù)就成為了一個(gè)很有價(jià)值的問(wèn)題。（2）當(dāng)今社會(huì)信息不僅日益復(fù)雜，而且其需求內(nèi)容和結(jié)構(gòu)隨著時(shí)間的推移也不斷地產(chǎn)生變化，現(xiàn)實(shí)世界要求信息技術(shù)具有越來(lái)越高的靈活性和適應(yīng)性。但關(guān)系數(shù)據(jù)庫(kù)的結(jié)構(gòu)用模式描述，模式是預(yù)先設(shè)計(jì)好的，模式中屬性的類(lèi)型是基本數(shù)據(jù)類(lèi)型，這些在系統(tǒng)運(yùn)行過(guò)程中基本沒(méi)有變化。關(guān)系型數(shù)據(jù)理論所采用這種固定的建模方式，難以隨著需求的變化進(jìn)行靈活的調(diào)整。（3）隨著Web技術(shù)的不斷發(fā)展，信息共享和數(shù)據(jù)交換的范圍不斷擴(kuò)大，而傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系

3、統(tǒng)之間的異構(gòu)性及其所依賴(lài)操作系統(tǒng)的異構(gòu)性，嚴(yán)重限制了信息共享和數(shù)據(jù)交換范圍。數(shù)據(jù)庫(kù)技術(shù)的語(yǔ)義描述能力差，大多通過(guò)技術(shù)文檔表示，很難實(shí)現(xiàn)數(shù)據(jù)語(yǔ)義的持久性和傳遞性，而數(shù)據(jù)交換和信息共享都是基于語(yǔ)義進(jìn)行的，在異構(gòu)應(yīng)用數(shù)據(jù)交換時(shí)，不利于計(jì)算機(jī)基于語(yǔ)義自動(dòng)進(jìn)行正確數(shù)據(jù)的檢索與應(yīng)用。1.2 XML使能數(shù)據(jù)庫(kù)的局限性 XML是一種元標(biāo)記語(yǔ)言，XML數(shù)據(jù)在應(yīng)用方面具有如下優(yōu)點(diǎn)：(1)XML文件為純文本文件，不受操作系統(tǒng)、軟件平臺(tái)的限制，可以實(shí)現(xiàn)信息共享和數(shù)據(jù)交換(2)XML具有基于XML Schema的數(shù)據(jù)語(yǔ)義的自描述功能，并且這種描述能被計(jì)算機(jī)理解和處理 (3)XML不僅可以描述結(jié)構(gòu)化數(shù)據(jù)，還可有效描述半結(jié)

4、構(gòu)化，甚至非結(jié)構(gòu)化數(shù)據(jù)【2】。正是由于關(guān)系數(shù)據(jù)庫(kù)的局限性和XML本身所具有的優(yōu)點(diǎn)，使得一類(lèi)數(shù)據(jù)庫(kù)在近年來(lái)越來(lái)越得到廣泛的關(guān)注與研究，即：XML數(shù)據(jù)庫(kù)。XML數(shù)據(jù)庫(kù)有三種類(lèi)型： XML Enabled Database（XML使能數(shù)據(jù)庫(kù)）、Native XML Database（本源XML數(shù)據(jù)庫(kù)）和Hybrid XML Database（混合XML數(shù)據(jù)庫(kù)）?；旌蟈ML數(shù)據(jù)庫(kù)可以根據(jù)應(yīng)用的需求，將其視為XML使能數(shù)據(jù)庫(kù)或本源XML數(shù)據(jù)庫(kù)。XML使能數(shù)據(jù)庫(kù)是在傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)上擴(kuò)充對(duì)XML數(shù)據(jù)的處理功能，通過(guò)適當(dāng)?shù)腦ML API對(duì)XML文檔進(jìn)行查詢(xún)和修改，其優(yōu)點(diǎn)在于可以充分利用傳統(tǒng)數(shù)據(jù)庫(kù)的成熟技術(shù)，

5、只需稍加改變，就可以支持XML應(yīng)用。但XML使能數(shù)據(jù)庫(kù)也有一些明顯的局限性：其一，XML使能數(shù)據(jù)庫(kù)通過(guò)中間件在XML文檔結(jié)構(gòu)和關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)之間建立數(shù)據(jù)的映射機(jī)制，它把XML文檔映射為一個(gè)單一的表格或者是表格的集合，取出時(shí)需要組合。這樣不僅耗時(shí)，而且重新取回的文檔可能會(huì)變得面目全非，同時(shí)在將XML文檔映射為關(guān)系數(shù)據(jù)庫(kù)中的表時(shí)，原有XML文檔的結(jié)構(gòu)被破壞，語(yǔ)義丟失，很不自然；其二，對(duì)“以文檔為中心”格式復(fù)雜的XML文檔處理性能較差；其三，在采納XML技術(shù)標(biāo)準(zhǔn)方面較落后。2本源XML數(shù)據(jù)庫(kù)2.1本源XML數(shù)據(jù)庫(kù)的定義正是由于XML使能數(shù)據(jù)庫(kù)的局限性，近幾年來(lái)本源XML數(shù)據(jù)庫(kù)成為學(xué)術(shù)界研究的熱點(diǎn)。

6、本源XML數(shù)據(jù)庫(kù)的特點(diǎn)是以自然的方式處理XML數(shù)據(jù)，以XML文檔作為基本的邏輯存儲(chǔ)單位，針對(duì)XML的數(shù)據(jù)存儲(chǔ)和查詢(xún)特點(diǎn)專(zhuān)門(mén)設(shè)計(jì)適用的數(shù)據(jù)模型和處理方法。Ronald Bourret在“XML and Databases”【3】一文中給出本源XML數(shù)據(jù)庫(kù)的一個(gè)定義：它為 XML 文檔,而不是文檔中的數(shù)據(jù),定義了一個(gè)邏輯模型，并根據(jù)該模型存取文件。這個(gè)模型至少應(yīng)包括元素、屬性、PCDATA 和文件順序。這種模型的例子有XPath數(shù)據(jù)模型、XML Infoset 以及 DOM 所用的模型和SAX 1.0的事件。它以 XML 文件作為其基本邏輯存儲(chǔ)單位。它對(duì)底層的物理存儲(chǔ)模型模型沒(méi)有特殊要求。例如，

7、它可以建在關(guān)系型、層次型或面向?qū)ο蟮臄?shù)據(jù)庫(kù)之上，或者使用專(zhuān)用的存儲(chǔ)格式，比如索引或壓縮文件。從上述定義中可以總結(jié)出以下幾點(diǎn)：本源XML數(shù)據(jù)庫(kù)是專(zhuān)門(mén)用來(lái)存儲(chǔ)XML數(shù)據(jù)的，而且完整無(wú)缺地存儲(chǔ)XML模型的所有成分；本源XML數(shù)據(jù)庫(kù)基本存儲(chǔ)單位是 XML 文件；本源XML數(shù)據(jù)庫(kù)底層的數(shù)據(jù)存儲(chǔ)格式并不重要，甚至可能根本就不是真正獨(dú)立的數(shù)據(jù)庫(kù)。但對(duì)于上述定義中的第三點(diǎn)而言，在很多方面XML都不同于其它的數(shù)據(jù)模型(如：關(guān)系模型、面向?qū)ο竽Ｐ?：將XML映射到另一種數(shù)據(jù)模型常常引起“阻抗失配”，并導(dǎo)致功能和性能上的局限。因此，業(yè)界認(rèn)為本源XML數(shù)據(jù)庫(kù)必須直接存儲(chǔ)和處理XML數(shù)據(jù)。2.2本源XML數(shù)據(jù)庫(kù)的結(jié)構(gòu)

8、【3】本源XML數(shù)據(jù)庫(kù)的結(jié)構(gòu)可分為兩大類(lèi)：基于文本的和基于模型的?；谖谋镜谋驹碭ML數(shù)據(jù)庫(kù)將XML作為文本存儲(chǔ)。它可以是文件系統(tǒng)中的文件、關(guān)系數(shù)據(jù)庫(kù)中的BLOB或?qū)ｉT(mén)的文本格式。索引對(duì)所有基于文本的本源XML數(shù)據(jù)庫(kù)來(lái)說(shuō)都是一樣的，它可以使查詢(xún)引擎很方便地跳到XML文件內(nèi)的任何地方。這就可以大大提高數(shù)據(jù)庫(kù)存取文件或文件片斷的速度。從這個(gè)意義上講，基于文本的本源XML數(shù)據(jù)庫(kù)與層次結(jié)構(gòu)的數(shù)據(jù)庫(kù)很相似，當(dāng)存取預(yù)先定義好層次的數(shù)據(jù)的時(shí)候，它比關(guān)系數(shù)據(jù)庫(kù)更勝一籌。和層次結(jié)構(gòu)的數(shù)據(jù)庫(kù)一樣，當(dāng)以其他形式比如轉(zhuǎn)置層次存取數(shù)據(jù)時(shí)，原生XML數(shù)據(jù)庫(kù)也會(huì)遇到麻煩。基于模型的本源XML數(shù)據(jù)庫(kù)不是用純文本存儲(chǔ)文件

9、，而是根據(jù)文件構(gòu)造一個(gè)內(nèi)部模型并存儲(chǔ)這個(gè)模型。至于模型究竟怎樣存儲(chǔ)取決于數(shù)據(jù)庫(kù)：有些數(shù)據(jù)庫(kù)將該模型存儲(chǔ)于關(guān)系型和面向?qū)ο蟮?數(shù)據(jù)庫(kù)中，其它數(shù)據(jù)庫(kù)使用了專(zhuān)為這種模型作了優(yōu)化的專(zhuān)有存儲(chǔ)格式。建立在其它數(shù)據(jù)庫(kù)之上的基于模型的本源XML數(shù)據(jù)庫(kù)的文件存取性能與這些數(shù)據(jù)庫(kù)相似。使用專(zhuān)用存儲(chǔ)格式的基于模型的本源XML數(shù)據(jù)庫(kù)的文件存取性能與基于文本的本源XML數(shù)據(jù)庫(kù)相似：如果以文件的存儲(chǔ)順序讀取文件，其性能高于關(guān)系數(shù)據(jù)庫(kù)；如果數(shù)據(jù)的讀取順序和存儲(chǔ)順序不同，基于模型的本源XML數(shù)據(jù)庫(kù)也會(huì)出現(xiàn)性能上的問(wèn)題。2.3 本源XML數(shù)據(jù)庫(kù)的優(yōu)勢(shì) 本源XML數(shù)據(jù)庫(kù)能對(duì)半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效存取和管理。其數(shù)據(jù)模型能夠?qū)Σ灰?guī)則的

10、數(shù)據(jù)進(jìn)行映射，適合于描述異構(gòu)的和動(dòng)態(tài)變化的Web數(shù)據(jù)，而且更加便于對(duì)層次化的數(shù)據(jù)進(jìn)行操作。而把不規(guī)則的數(shù)據(jù)映射到關(guān)系數(shù)據(jù)庫(kù)中的時(shí)候，會(huì)產(chǎn)生大量空值的列或大量的表而影響時(shí)空效果，所以XML的數(shù)據(jù)結(jié)構(gòu)比關(guān)系數(shù)據(jù)庫(kù)更具有表現(xiàn)力。將數(shù)據(jù)存儲(chǔ)在本源XML數(shù)據(jù)庫(kù)中，可以提高檢索速度。本源XML數(shù)據(jù)庫(kù)的存儲(chǔ)策略是將整個(gè)文檔物理地存儲(chǔ)在一起，使用物理的，而非邏輯的指針在文檔各個(gè)部分之間實(shí)現(xiàn)，所以它比關(guān)系數(shù) 據(jù)庫(kù)所用的邏輯連接要快。 XML文件具有可移植性，與平臺(tái)無(wú)關(guān)，可以存儲(chǔ)所有數(shù)據(jù)類(lèi)型。因此，本源XML數(shù)據(jù)庫(kù)因XML的這種特征而擁有移植數(shù)據(jù)的能力。本源XML數(shù)據(jù)庫(kù)具有集成異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的能力。XML具有

11、的可擴(kuò)展性便于表述各種類(lèi)型的數(shù)據(jù)，這使得XML數(shù)據(jù)庫(kù)可作為異構(gòu)數(shù)據(jù)庫(kù)的中間件，對(duì)相對(duì)分散的異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)按照DTD進(jìn)行集成，得到格式統(tǒng)一的XML文檔。從而為在遠(yuǎn)景目標(biāo)上實(shí)現(xiàn)類(lèi)似于網(wǎng)格計(jì)算概念的系統(tǒng)提供了可能性。本源XML數(shù)據(jù)庫(kù)具有Round-tripping能力，即：它可以將XML文檔存放在本源XML數(shù)據(jù)庫(kù)中，而后再取回同樣的文檔。對(duì)于以“文檔為中心”的應(yīng)用程序來(lái)說(shuō)非常重要，因?yàn)閄ML使能數(shù)據(jù)庫(kù)往往會(huì)忽略XML文檔中的CDATA部分、實(shí)體引用、注釋和處理指令等不可缺少的組成部分，而這些對(duì)于象法律和醫(yī)學(xué)等領(lǐng)域中格式不允許隨意竄改的數(shù)據(jù)文檔而言是很重要的。2.4本源XML數(shù)據(jù)庫(kù)研發(fā)產(chǎn)品現(xiàn)狀本

12、源XML數(shù)據(jù)庫(kù)研發(fā)產(chǎn)品在學(xué)術(shù)界和工業(yè)界的推動(dòng)下，已出現(xiàn)了很多實(shí)驗(yàn)室原型系統(tǒng)和商用產(chǎn)品。在Ronald Bourret的XML Database Products【4】一文中將本源XML數(shù)據(jù)庫(kù)產(chǎn)品大致分為四大類(lèi)型：（1）商業(yè)類(lèi)：如：Ipedo、Tamino、Natix、Xyleme等。（2）研究類(lèi)：如Stanford大學(xué)早期開(kāi)發(fā)的Lore等。（3）開(kāi)放源碼類(lèi)：其中影響較大的是Berkeley DB XML、dbXML、XDB和Xindice。（4）免費(fèi)類(lèi)：如：eXtc、Sedna XML DBMS、M/DB:X等在商業(yè)類(lèi)中，美國(guó)Ipedo公司的Ipedo XML Database和德國(guó)

13、Software AG公司的Tamino是其中的佼佼者，成為目前市場(chǎng)上的主流產(chǎn)品。在研究類(lèi)中，比較好的本源XML數(shù)據(jù)庫(kù)原型系統(tǒng)有三家：密歇根大學(xué)安阿伯分校的Timber、西雅圖華盛頓大學(xué)的Tukwila和威斯康星大學(xué)麥迪遜分校的Niagara。其中，影響最大的是Timber。另外，中國(guó)人民大學(xué)開(kāi)發(fā)的一個(gè)本源XML數(shù)據(jù)庫(kù)原型系統(tǒng)OrientX也具有一定的代表性【5】。 OrientX存儲(chǔ)系統(tǒng)建立在操作系統(tǒng)的文件系統(tǒng)上，并將XML文件劃分到若干數(shù)據(jù)集，數(shù)據(jù)集用SetlD來(lái)標(biāo)志；在文件上劃分邏輯物理塊，物理塊用LpNo來(lái)標(biāo)志，給定一對(duì)(SetlD，LpNo)能馬上找到對(duì)應(yīng)文件相應(yīng)的偏移量。Orie

14、ntX索引管理基于DTD。它從DTD出發(fā)構(gòu)建索引結(jié)構(gòu)，通過(guò)結(jié)合XML數(shù)據(jù)的編碼，該索引可以支持多種查詢(xún)方式。OrientX查詢(xún)語(yǔ)言使用XQuery，它將XQuery表達(dá)式轉(zhuǎn)換為由XML代數(shù)運(yùn)算構(gòu)成的操作樹(shù)，并使用了基于代價(jià)估計(jì)的查詢(xún)優(yōu)化策略。3結(jié)束語(yǔ) 本源XML數(shù)據(jù)庫(kù)是近幾年才發(fā)展起來(lái)的，與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)技術(shù)相比，很多技術(shù)還不成熟，如：并發(fā)加鎖協(xié)議、異構(gòu)數(shù)據(jù)源的集成等。雖然本源XML數(shù)據(jù)庫(kù)存在許多不足，但并沒(méi)有影響它的發(fā)展勢(shì)頭，SQL的核心發(fā)明者之一，Don Chamberlin甚至認(rèn)為它代表了數(shù)據(jù)庫(kù)技術(shù)未來(lái)發(fā)展的一種方向。參考文獻(xiàn)：【1】朱杰.后關(guān)系型數(shù)據(jù)庫(kù)=XML+關(guān)系型？. (2007-04-02)./analysis/64/7148064.shtml【2】李建華，周榮，等. XML與數(shù)據(jù)庫(kù)./applic/prog/htm2003/20030311_14711.htm【3】 Ronald Bourret.

人人文庫(kù)> 全部分類(lèi)> 專(zhuān)業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

本源XML數(shù)據(jù)庫(kù)綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

本源XML數(shù)據(jù)庫(kù)綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔