版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 數(shù)據(jù)庫技術領域的發(fā)展趨勢 1 泛數(shù)據(jù)據(jù)研究2 國際數(shù)數(shù)據(jù)庫研研究界動動態(tài)3 主流技技術發(fā)展展趨勢3.1 信息集集成3.2 數(shù)據(jù)流流管理3.3 傳感器器數(shù)據(jù)庫庫技術3.4 XMLL 數(shù)據(jù)據(jù)管理3.5 網(wǎng)格數(shù)數(shù)據(jù)管理理3.6 DBMMS 的的自適應應管理3.7 移動數(shù)數(shù)據(jù)管理理3.8 微小型型數(shù)據(jù)庫庫技術3.9 數(shù)據(jù)庫庫用戶界界面1 泛數(shù)據(jù)據(jù)研究的的時代數(shù)據(jù)庫技術術從誕生生到現(xiàn)在在,在不到到半個世世紀的時時間里,形成了了堅實的的理論基基礎、成成熟的商商業(yè)產(chǎn)品品和廣泛泛的應用用領域,吸引了了越來越越多的研研究者加加入,使得數(shù)據(jù)據(jù)庫成為為一個研研究者眾眾多且被被廣泛關關注的研研究領域域.隨著信信息管
2、理理內(nèi)容的的不斷擴擴展和新新技術的的層出不不窮,數(shù)據(jù)庫庫技術面面臨著前前所未有有的挑戰(zhàn)戰(zhàn).面對新新的數(shù)據(jù)據(jù)形式,人們提提出了豐豐富多樣樣的數(shù)據(jù)據(jù)模型(層次模模型、網(wǎng)網(wǎng)狀模型型、關系系模型、面面向對象象模型、半半結構化化模型等等),同時也也提出了了眾多新新的數(shù)據(jù)據(jù)庫技術術(XMML 數(shù)數(shù)據(jù)管理理、數(shù)據(jù)據(jù)流管理理、Weeb 數(shù)數(shù)據(jù)集成成、數(shù)據(jù)據(jù)挖掘等等).回顧數(shù)據(jù)庫庫發(fā)展之之初,數(shù)據(jù)模模型是制制約數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)的關鍵鍵因素.E.FF Coodd 博士(119233-20003)提出的的關系模模型充分分考慮了了企業(yè)業(yè)業(yè)務數(shù)據(jù)據(jù)的特點點,從現(xiàn)實實問題出出發(fā),為數(shù)據(jù)據(jù)庫建立立了一個個堅實的的數(shù)學基基礎.
3、在整個個計算機機軟件領領域,恐怕難難以找到到第2 個像關關系模型型這樣,概念如如此簡單單,但卻能能帶來如如此巨大大市場價價值的技技術.關系模型在在關系數(shù)數(shù)據(jù)庫理理論基本本成熟后后,各大學學、研究究機構和和各大公公司在關關系數(shù)據(jù)據(jù)庫管理理系統(tǒng)(RDBBMS)的實現(xiàn)現(xiàn)和產(chǎn)品品開發(fā)中中,都遇到到了一系系列技術術問題.主要是是在數(shù)據(jù)據(jù)庫的規(guī)規(guī)模愈來來愈大,數(shù)據(jù)庫庫的結構構愈來愈愈復雜,又有愈愈來愈多多的用戶戶共享數(shù)數(shù)據(jù)庫的的情況下下,如何保保障數(shù)據(jù)據(jù)的完整整性、安安全性、并并發(fā)性以以及故障障恢復的的能力,它成為為數(shù)據(jù)庫庫產(chǎn)品是是否能夠夠進入實實用并最最終為用用戶接受受的關鍵鍵因素.Jimm Grray
4、 在解決決這些重重大技術術問題,使RDBBMS 成熟并并順利進進入市場場的過程程中,發(fā)揮了了關鍵作作用.概括地地說,解決上上述問題題的主要要技術手手段和方方法是:把對數(shù)數(shù)據(jù)庫的的操作劃劃分為“事務”的基本本單位,一個事事務要么么全做,要么全全不做(即ll-or-notthinng 原原則);用戶在在對數(shù)據(jù)據(jù)庫發(fā)出出操作請請求時,需要對對有關的的不同數(shù)數(shù)據(jù)“加鎖”,防止不不同用戶戶的操作作之間互互相干擾擾;在事務務運行過過程中,采用“日志”記錄事事務的運運行狀態(tài)態(tài),以便發(fā)發(fā)生故障障時進行行恢復;對數(shù)據(jù)據(jù)庫的任任何更新新都采用用“兩階段段提交”策略.以上方方法及其其他各種種方法被被總稱為為“事務處
5、處理技術術”.E.F CCoddd 和Jimm Grray 在關系系模型和和事務處處理技術術上的創(chuàng)創(chuàng)造性思思維和開開拓性工工作,使他們們成為這這一領域域公認的的權威,并于分分別于119811 年和和19998 年年成為圖圖靈獎獲獲得者.在成熟的關關系DBBMS 產(chǎn)品行行銷于世世之后,數(shù)據(jù)庫庫的研究究困惑于于如下的的問題:DBMMS 本本身的研研究是不不是已經(jīng)經(jīng)沒有問問題了?新的處處理要求求在哪里里?旗幟鮮鮮明地提提出這一一思考的的是VLLDB220000 會議議,會議的的主題是是“Brroaddeniingtthe Dattabaase Fieeld”,會議的的論文設設置也截截然分為為兩類,即
6、“coore dattabaase tecchnoologgy”和和“innforrmattionn syysteemsiinfrrasttruccturres”,體現(xiàn)了了在對傳傳統(tǒng)問題題關注的的同時,著力尋尋求信息息系統(tǒng)創(chuàng)創(chuàng)新途徑徑中所存存在的數(shù)數(shù)據(jù)管理理問題.而信息息系統(tǒng)創(chuàng)創(chuàng)新途徑徑的根本本前提是是Webb 時代代的到來來.于是,在Webb 大背背景下的的各種數(shù)數(shù)據(jù)管理理問題成成為人們們關注的的熱點,我們不不妨把它它籠統(tǒng)地地稱為“泛數(shù)據(jù)據(jù)”研究.所謂“泛數(shù)數(shù)據(jù)”是相對對原本人人們所關關注的企企業(yè)業(yè)務務數(shù)據(jù)而而言的.這是Weeb 時時代的到到來帶給給人們的的新問題題.“泛數(shù)數(shù)據(jù)”研究“泛”在
7、兩個個方面:X-datta: XMLL daata (XMML DDataabasses), sstreeamiing datta (Strreammingg Daatabbasees),X-commputtingg: ggridd coompuutinng (Griid DDataabasses), ssenssor nettworrk (Sennsorr attabaasess), P2PP coompuutinng (P2PPdattabaasess), ubiiquiitouus/ppervvasiive commputtingg Ubbiquuitoous/Perrvassivee
8、Daatabbasees),目前,“泛泛數(shù)據(jù)”研究的的根本問問題是它它能否產(chǎn)產(chǎn)生與關關系模型型和事務務處理技技術比肩肩的成果果.“泛數(shù)數(shù)據(jù)”深層次次的問題題何在?“泛數(shù)數(shù)據(jù)”對現(xiàn)有有DBMMS 體體系結構構變革的的需要在在哪里?這一切切需要我我們深思思熟慮,是研究究數(shù)據(jù)庫庫所不能能回避的的.本文基于這這一想法法,結合國國際相關關會議的的情況, 本文討討論目前前數(shù)據(jù)庫庫研究領領域中最最熱門的的幾個研研究方向向的發(fā)展展現(xiàn)狀、面面臨的問問題和未未來趨勢勢.希望能能給數(shù)據(jù)據(jù)庫研究究者尤其其是正在在進入數(shù)數(shù)據(jù)庫研研究領域域的人員員一些啟啟發(fā).本文討討論的問問題只是是數(shù)據(jù)庫庫研究領領域中的的一部分分,觀點
9、也也可能存存在偏頗頗之處,但我們們相信分分析和預預測數(shù)據(jù)據(jù)庫發(fā)展展動態(tài)的的工作,對促進進中國數(shù)數(shù)據(jù)庫技技術的研研究和應應用水平平的提高高具有重重要的意意義.2 國際數(shù)數(shù)據(jù)庫研研究界動動態(tài)每隔幾年,國際上上一些資資深的數(shù)數(shù)據(jù)庫專專家就會會聚集一一堂,探討數(shù)數(shù)據(jù)庫的的研究現(xiàn)現(xiàn)狀、存存在的問問題和未未來需要要關注的的新的技技術焦點點,其中包包括:119899 年在在Laggunaa Beeachh,Caaliff. 1 ,19990 年和19995 年在Paalo Altto,CCaliif. 2,3 , “LLaguunitta”,19996 年年在Caambrridgge,MMasss. 4和和
10、19998 年年在Assiloomarr,Caaliff. 5的的研討會會,20003 年的聚聚會在LLoweell,Masss. 6舉行,共有255 位資資深數(shù)據(jù)據(jù)庫學者者參加.他們來來自不同同國家和和地區(qū),有著不不同的研研究興趣趣,學者們們就數(shù)據(jù)據(jù)庫研究究的現(xiàn)狀狀和將來來的走向向展開了了深入的的討論,提出了了一些重重要的觀觀點.與會的學者者集中討討論了信信息的存儲、組織、管理和訪問等問問題.這些問問題受新新型應用用、技術術趨勢、相相關領域域的協(xié)同同工作和和領域本本身的技技術變革革所驅動動.信息的的本質和和來源在在不斷變變化,每個人人都意識識到Innterrnett,Weeb,自自然科學學和
11、電子子商務是是信息和和信息處處理的巨巨大源泉泉.同時,另一個個巨大的的信息源源即將到到來,即廉價價的微型型傳感器器技術使使得大部部分的物物體可以以實時上上報它們們的位置置和狀態(tài)態(tài).這類信信息能支支持對移移動對象象的狀態(tài)態(tài)和位置置的監(jiān)視視等應用用.伴隨新的制制約與機機會,傳感信信息的處處理將會會引發(fā)許許多新環(huán)環(huán)境下的的極有趣趣味的數(shù)數(shù)據(jù)庫問問題.在應用用領域,Intternnet 是目前前主要的的驅動力力,特別是是在支持持“跨企業(yè)業(yè)”的應用用上.在歷史史上,應用都都是企業(yè)業(yè)內(nèi)部的的,可以在在一個行行政領域域內(nèi)進行行完善的的指定和和優(yōu)化.但是現(xiàn)現(xiàn)在,大部分分企業(yè)感感興趣的的是如何何與供應應商和客客
12、戶進行行更密切切的交流流,以便提提供更好好的客戶戶支持.這類應應用從根根本上說說是跨企企業(yè)的,需要安安全和信信息集成成的有力力工具.由此產(chǎn)產(chǎn)生的新新問題需需要數(shù)據(jù)據(jù)庫研究究人員去去解決.越來越重要要的另一一個應用用領域是是自然科科學,特別是是物理科科學、生生物科學學、保健健科學和和工程領領域,這些領領域產(chǎn)生生了大量量復雜的的數(shù)據(jù)集集,需要比比現(xiàn)有的的數(shù)據(jù)庫庫產(chǎn)品更更高級的的數(shù)據(jù)庫庫的支持持.這些領領域同樣樣也需要要信息集集成機制制的支持持.除此之之外,它們也也需要對對數(shù)據(jù)分分析器產(chǎn)產(chǎn)生的數(shù)數(shù)據(jù)管道道進行管管理,需要對對有序數(shù)數(shù)據(jù)進行行存儲和和查詢(如時間間序列、圖圖像分析析、網(wǎng)格格計算和和地理
13、信信息),需要世世界范圍圍內(nèi)數(shù)據(jù)據(jù)網(wǎng)格的的集成.除了在信息息管理領領域我們們遇到的的這些挑挑戰(zhàn)之外外,在傳統(tǒng)統(tǒng)的DBBMS 相關的的問題上上,諸如數(shù)數(shù)據(jù)模型型、訪問問方法、查查詢處理理代數(shù)、并并發(fā)控制制、恢復復、查詢詢語言和和DBMMS 的的用戶界界面等主主題也面面臨著巨巨大的變變化.這些問問題過去去已經(jīng)得得到充分分研究,但是技技術的發(fā)發(fā)展不斷斷改變其其應用規(guī)規(guī)則.比如,磁盤和和RAMM 容量量的不斷斷變大,存儲每每個比特特數(shù)據(jù)的的花費不不斷降低低等.雖然訪訪問次數(shù)數(shù)和帶寬寬也在不不斷提高高,但是它它們不像像前者發(fā)發(fā)展得那那樣快,不斷變變化的相相對比率率要求我我們重新新評估存存儲管理理和查詢詢
14、處理代代數(shù).除此之之外,處理器器cacche 的規(guī)模模和層次次的提高高,也要求求DBMMS 算算法能夠夠適應ccachhe 大大小的變變化.上述只只是由于于技術變變遷誘導導的根據(jù)據(jù)新情況況對原有有算法重重新評價價的兩個個例子.另一個推動動數(shù)據(jù)庫庫研究發(fā)發(fā)展的動動力是相相關技術術的成熟熟.比如,在過去去的幾十十年里,數(shù)據(jù)挖挖掘技術術已經(jīng)成成為數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)重要的的一個組組成部分分.Weeb 搜搜索引擎擎導致了了信息檢檢索的商商品化,并需要要和傳統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)庫查詢詢技術集集成.許多人工智智能領域域的研究究成果也也和數(shù)據(jù)據(jù)庫技術術融合起起來,這些新新的技術術使得我我們可以以處理語語音、自自然語言言,
15、進行不不確定性性推理和和機器學學習等.Lowelll 報報告66認為為,我們注注意到了了許多新新的應用用,新的技技術趨勢勢以及和和影響信信息管理理的相關關領域的的協(xié)作.整體上上,這些都都要求一一個和現(xiàn)現(xiàn)今我們們所擁有有的完全全不同的的信息管管理架構構,并需重重新考慮慮信息存存儲、組組織、管管理和訪訪問等方方面的問問題.3 主流技技術發(fā)展展趨勢在這一部分分中,我們從從信息集集成、數(shù)數(shù)據(jù)流管管理、傳傳感器數(shù)數(shù)據(jù)庫技技術、半半結構化化數(shù)據(jù)與與XMLL 數(shù)據(jù)據(jù)管理、網(wǎng)網(wǎng)格數(shù)據(jù)據(jù)管理、DBMS 自適應管理、移動數(shù)據(jù)管理、微小型數(shù)據(jù)庫、數(shù)據(jù)庫用戶界面等方面分別討論目前數(shù)據(jù)庫領域研究方向的發(fā)展現(xiàn)狀、面臨的問
16、題和未來趨勢.3.1 信信息集成成信息系統(tǒng)集集成技術術已經(jīng)歷歷了200 多年年的發(fā)展展過程,研究者者已提出出了很多多信息集集成的體體系結構構和實現(xiàn)現(xiàn)方案,然而這這些方法法所研究究的主要要集成對對象是傳傳統(tǒng)的異異構數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng).隨著Innterrnett 的飛飛速發(fā)展展,網(wǎng)絡迅迅速成為為一種重重要的信信息傳播播和交換換的手段段,尤其是是在Weeb 上上,有著極極其豐富富的數(shù)據(jù)據(jù)來源.如何獲獲取Weeb 上上的有用用數(shù)據(jù)并并加以綜綜合利用用,即構建建Webb 信息息集成系系統(tǒng),成為一一個引起起廣泛關關注的研研究領域域.信息集成系系統(tǒng)的方方法可以以分為7 :數(shù)據(jù)倉倉庫方法法和Wrrappper/M
17、eddiattor 方法.在數(shù)據(jù)倉庫庫方法中中,各數(shù)據(jù)據(jù)源的數(shù)數(shù)據(jù)按照照需要的的全局模模式從各各數(shù)據(jù)源源抽取并并轉換,存儲在在數(shù)據(jù)倉倉庫中.用戶的的查詢就就是對數(shù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)進行行查詢.對于數(shù)數(shù)據(jù)源數(shù)數(shù)目不是是很多的的單個企企業(yè)來說說,該方法法十分有有效.但對目目18225前出出現(xiàn)的跨跨企業(yè)應應用,數(shù)據(jù)源源的數(shù)據(jù)據(jù)抽取和和轉化要要復雜得得多,數(shù)據(jù)倉倉庫的方方法存在在諸多不不便.目前比較流流行的建建立信息息集成系系統(tǒng)的方方法是WWrappperr/Meediaatorr 方法法8,9 .該方法法并不將將各數(shù)據(jù)據(jù)源的數(shù)數(shù)據(jù)集中中存放,而是通通過Wrrappper/Meddiattor 結構
18、滿滿足上層層集成應應用的需需求.這種方方法的核核心是中中介模式式(meediaateddschhemaa) 10 .信息集集成系統(tǒng)統(tǒng)通過中中介模式式將各數(shù)數(shù)據(jù)源的的數(shù)據(jù)集集成起來來,而數(shù)據(jù)據(jù)仍存儲儲在局部部數(shù)據(jù)源源中,通過各各數(shù)據(jù)源源的包裝裝器(wwrappperr)對數(shù)數(shù)據(jù)進行行轉換使使之符合合中介模模式.用戶的的查詢基基于中介介模式,不必知知道每個個數(shù)據(jù)源源的特點點,中介器器(meediaatorr)將基基于中介介模式的的查詢轉轉換為基基于各局局部數(shù)據(jù)據(jù)源的模模式查詢詢,它的查查詢執(zhí)行行引擎再再通過各各數(shù)據(jù)源源的包裝裝器將結結果抽取取出來,最后由由中介器器將結果果集成并并返回給給用戶.Wr
19、aappeer/MMediiatoor 方方法解決決了數(shù)據(jù)據(jù)的更新新問題,從而彌彌補了數(shù)數(shù)據(jù)倉庫庫方法的的不足.但是,由于各各個數(shù)據(jù)據(jù)源的包包裝器是是要分別別建立的的,因此,WWeb 數(shù)據(jù)源源的包裝裝器建立立問題又又給人們們提出了了新的挑挑戰(zhàn).近年來來,如何快快速、高高效地為為Webb 數(shù)據(jù)據(jù)源建立立包裝器器成為人人們研究究的熱點點111144 .不過,這種種框架結結構正受受到來自自3 個方方面的挑挑戰(zhàn)66 .第1 個挑挑戰(zhàn)是如如何支持持異構數(shù)數(shù)據(jù)源之之間的互互操作性性(innterropeerabbiliity).信息息集成必必須在多多至數(shù)百百萬的信信息源上上穿梭進進行,這些數(shù)數(shù)據(jù)源的的數(shù)據(jù)
20、模模型、模模式、數(shù)數(shù)據(jù)表現(xiàn)現(xiàn)和查詢詢接口各各不相同同.數(shù)據(jù)庫庫界已經(jīng)經(jīng)對聯(lián)邦邦式的數(shù)數(shù)據(jù)系統(tǒng)統(tǒng)做了多多年的研研究,其中最最早的報報告針對對這個問問題做了了廣泛的的討論1 .然而,語義的的相異性性這個痛痛苦的問問題依然然存在.由不同同人設計計的任何何兩個模模式都不不會是相相同的.它們會會有不同同的單位位(例如工工資,一種以以歐元計計算,而另一一種以美美元計算算),不同同的語義義解釋(也以工工資為例例,一種僅僅指檔案案工資,而另一一種是指指包含了了各種津津貼的總總收入),對于于相同的的事務還還會有不不同的名名字(對同一一個人,可能一一種用的的是筆名名,而另一一種用的的是原名名,例如魯魯迅和周周樹人
21、).能夠夠在網(wǎng)絡絡標準上上進行配配置的語語義相異異性的解解決方案案依然是是難以捉捉摸的.我們必必須認真真和集中中地對待待這個問問題,否則跨跨企業(yè)的的信息綜綜合只會會停留在在幻想上上.語義Weeb的上上下文方方面的研研究也存存在著相相同的問問題.吸收相相關領域域的研究究成果對對解決這這一問題題是很重重要的.另一個挑戰(zhàn)戰(zhàn)是如何何模型化化源數(shù)據(jù)據(jù)內(nèi)容和和用戶查查詢.目前廣廣泛采用用的技術術有兩種種.LAAV(llocaal-aas-vvieww)方法法利用全全局謂詞詞集合描描述多個個數(shù)據(jù)源源內(nèi)容視視圖和用用戶查詢詢.當給定定某用戶戶查詢時時,中間件件系統(tǒng)通通過綜合合不同的的數(shù)據(jù)源源視圖決決定如何何回
22、答查查詢.這種方方法可看看做利用用視圖回回答查詢詢,目前已已有一些些研究成成果,它亦可可應用于于數(shù)據(jù)倉倉庫或查查詢優(yōu)化化等領域域.GAAV(gglobbal-as-vieew)方方法假設設用戶查查詢直接接作用于于定義在在源數(shù)據(jù)據(jù)關系上上的全局局視圖.人們主主要關注注的是在在這種情情況下如如何提供供高效的的查詢處處理.第三個挑戰(zhàn)戰(zhàn)是當數(shù)數(shù)據(jù)源的的查詢能能力受限限時,如何處處理查詢詢和進行行優(yōu)化?例,Ammazoon.ccom 數(shù)據(jù)源源可以被被看作是是提供書書的信息息的數(shù)據(jù)據(jù)庫,但是,我們不不能隨便便下載其其上所有有的書籍籍信息.事實上上,我們只只能填寫寫Webb 搜索索表格查查詢數(shù)據(jù)據(jù)源并返返回
23、結果果.很少的的組織會會允許外外部實體體來抽取取自己運運行系統(tǒng)統(tǒng)中的所所有數(shù)據(jù)據(jù),所以這這些數(shù)據(jù)據(jù)必須留留在源端端,在查詢詢的時候候才會被被訪問.如何模模型化和和計算具具受限查查詢能力力的數(shù)據(jù)據(jù)源,如何生生成查詢詢計劃和和優(yōu)化查查詢的研研究工作作正在展展開115117 .這里我們給給出信息息集成中中一些需需要進一一步研究究的問題題.其一,早期期的中間間件系統(tǒng)統(tǒng)采用集集中式架架構.近來,一種數(shù)數(shù)據(jù)庫應應用需求求正在顯顯現(xiàn),它要求求支持共共享分布布的、基基于站點點(siite)的環(huán)境境下的數(shù)數(shù)據(jù)集成成.在這種種環(huán)境中中,網(wǎng)絡中中自主的的站點互互相連接接交換數(shù)數(shù)據(jù)和服服務.這樣,每個站站點既是是中間
24、件件,又是數(shù)數(shù)據(jù)源.一些項項目已經(jīng)經(jīng)成立并并正在研研究這種種新的架架構下的的問題9,110 .其二,更多的的研究者者正在注注意如何何利用清清潔的數(shù)數(shù)據(jù)(ccleaansiing datta)來來處理數(shù)數(shù)據(jù)源的的異構性性6 .一個特特殊的問問題稱為為“daata linnkagge”,其含義義為有效效和高效效的標示示和鏈接接冗余的的記錄.不同的的數(shù)據(jù)源源經(jīng)常包包含表示示真實世世界同一一實體的的多個近近似但并并不相等等的冗余余的記錄錄或屬性性.例如“中科院院”和“中國科科學院”,或者“中國北北京”和“北京”.不同的的表示可可能源于于排版錯錯誤、拼拼寫錯誤誤、縮寫寫或者其其他原因因.當從Weeb 頁
25、頁面上自自動抽取取無結構構或者半半結構化化文檔時時,這個問問題變得得特別尖尖銳.對多數(shù)據(jù)源源的數(shù)據(jù)據(jù)集成,我們需需要在進進一步處處理之前前首先清清洗數(shù)據(jù)據(jù).近來已已有一些些關于數(shù)數(shù)據(jù)清洗洗和鏈接接的工作作.其三,XMML 數(shù)數(shù)據(jù)的出出現(xiàn)給數(shù)數(shù)據(jù)集成成帶來更更多需要要解決的的問題.其四,正如前前面提到到的那樣樣,傳感器器網(wǎng)絡和和新的量量子物理理學和生生物科學學將產(chǎn)生生巨大的的數(shù)據(jù)集集合.這些傳傳感器和和數(shù)據(jù)集集合分布布在世界界各地,這些數(shù)數(shù)據(jù)源能能夠動態(tài)態(tài)地來往往,這一點點也打破破了傳統(tǒng)統(tǒng)的信息息集成范范疇.從體系結構構實現(xiàn)的的角度出出發(fā),信息集集成技術術經(jīng)歷了了如下33 個發(fā)發(fā)展階段段7 :單
26、個的的聯(lián)邦系系統(tǒng)、基基于組件件的分布布式集成成系統(tǒng)和和基于WWeb Serr vii cees 的的信息集集成系統(tǒng)統(tǒng).Innterrnett 的迅迅速普及及和廣泛泛應用對對計算機機技術的的發(fā)展產(chǎn)產(chǎn)生了深深刻的影影響,桌面應應用正在在向網(wǎng)絡絡應用轉轉移,從網(wǎng)上上獲得的的不僅是是信息,還包括括程序和和交互式式應用(即服務務),操作作界面將將在瀏覽覽器層面面上得到到統(tǒng)一,兼容性性由網(wǎng)絡絡標準技技術實現(xiàn)現(xiàn)(如SOAAP,UUDDII 和WSDDL 等等).在Webb Seer vvi cces的的框架下下,使用一一組Weeb SSer vi cess 協(xié)議議,構建信信息集成成系統(tǒng).對每個個數(shù)據(jù)源源都為
27、其其創(chuàng)建一一個Weeb SSer vi ce,然后使使用WSSDL 向服務務中心注注冊.當要構構建一個個新的集集成應用用時,集成端端首先向向注冊中中心發(fā)送送查找請請求,收集并并選擇合合適的數(shù)數(shù)據(jù)源,然后通通過SOOAP 協(xié)議從從這些數(shù)數(shù)據(jù)源獲獲取數(shù)據(jù)據(jù).這種方方法克服服了上述述兩種方方法的缺缺陷,具有完完好封裝裝、松散散耦合、規(guī)規(guī)范協(xié)議議和高度度的集成成能力等等特性.因此,基于Weeb SSer vi cess 的信信息集成成方案是是構建WWeb 數(shù)據(jù)集集成系統(tǒng)統(tǒng)較為理理想的體體系結構構.3.2 數(shù)數(shù)據(jù)流管管理測量和監(jiān)控控復雜的的動態(tài)的的現(xiàn)象,如遠程程通信、Web 應用、金融事務、大氣情況等,
28、產(chǎn)生了大量、不間斷的數(shù)據(jù)流.數(shù)據(jù)流處理對數(shù)據(jù)庫、系統(tǒng)、算法、網(wǎng)絡和其他計算機科學領域的技術挑戰(zhàn)已經(jīng)開始顯露.這是數(shù)據(jù)庫界一個活躍的研究領域,包括新的流操作、SQL 擴展、查詢優(yōu)化方法、操作調度(operator scheduling)技術等6 .數(shù)據(jù)流管理理與數(shù)據(jù)據(jù)庫管理理在多個個層面上上存在差差異.見表1.Tabl e 11 Coompaarisson of dattabaase andd daata strreamm表1 數(shù)據(jù)據(jù)流與數(shù)數(shù)據(jù)庫對對比Data strreamm DaatabbaseeModell Tuuplee seequeencee Tuuplee seet/bbagData
29、 durratiion Traansiientt PeersiisteentQueryy Reeal-Timme, conntinnuouus qquerriess Offf-LLinee, oone-timme qquerriessQueryy evvaluuatiion Onee paass ArbbitrraryyQueryy annsweer AApprroxiimatte EExacctQueryy pllan Fixxed Adaaptiive擴展數(shù)據(jù)庫庫管理系系統(tǒng)若直直接支持持數(shù)據(jù)流流類型就就會面臨臨眾多問問題.首先,在數(shù)據(jù)據(jù)庫中,數(shù)據(jù)是是穩(wěn)定的的,持續(xù)的的,而查詢詢是暫時時的.
30、在數(shù)據(jù)據(jù)流中則則正好相相反:數(shù)據(jù)是是動態(tài)的的,而查詢詢是實時時穩(wěn)定的的.這就需需要增強強數(shù)據(jù)庫庫查詢處處理能力力,支持復復雜的實實時查詢詢需求.面臨的問題題主要有有以下幾幾點.其一,數(shù)據(jù)流流環(huán)境中中的選擇擇、投影影,特別是是連接和和聚集操操作具有有新的含含義.如何擴擴展查詢詢語言SSQL 的表達達能力以以便支持持數(shù)據(jù)流流查詢.其二,引入滑滑動窗口口機制可可以把無無限的數(shù)數(shù)據(jù)流轉轉換為有有限的關關系.但窗口口的長度度、個數(shù)數(shù)等特性性影響查查詢的準準確性.尤其是是在做連連接和聚聚集操作作時,不但要要處理現(xiàn)現(xiàn)在的數(shù)數(shù)據(jù),還要兼兼顧歷史史和將來來的數(shù)據(jù)據(jù).如何僅僅用一次次掃描實實現(xiàn)上述述操作,并保證證
31、查詢的的實時和和有效是是數(shù)據(jù)流流查詢處處理面臨臨的關鍵鍵問題.其三,若在有有限的空空間不能能支持數(shù)數(shù)據(jù)流的的精確聚聚集操作作,引入近近似操作作機制是是必須的的和可接接受的.利用樣樣本、直直方圖或或者結構構信息統(tǒng)統(tǒng)計數(shù)據(jù)據(jù)流的的的研究工工作正在在展開.其四,如何考考慮數(shù)據(jù)據(jù)流的查查詢優(yōu)化化問題.考慮到數(shù)據(jù)據(jù)流速(datta rratee)的情情況,數(shù)據(jù)流流查詢優(yōu)優(yōu)化的目目的應為為獲得最最大的查查詢數(shù)據(jù)據(jù)流速,即單位位時間的的數(shù)據(jù)流流量,而不是是以往考考慮的代代價最小小的查詢詢計劃.基于流流速的查查詢優(yōu)化化的研究究工作也也是目前前數(shù)據(jù)流流研究的的熱點問問題.商業(yè)微傳感感器設備備即將出出現(xiàn),使得新新
32、型的DDBMSS 的“監(jiān)視”應用變變得可能能.數(shù)據(jù)流流的監(jiān)控控應用需需要有能能夠基于于數(shù)據(jù)流流間的復復雜關系系區(qū)分正正?;蚍捶闯;顒觿?如網(wǎng)絡絡入侵或或電信欺欺詐監(jiān)測測等)的成熟熟的實時時查詢.可以通通過傳感感器給每每個重要要的對象象都加上上一個標標簽,這樣就就可以實實時地報報告這個個對象的的狀態(tài)或或者位置置.比如說說,人們會會在筆記記本電腦腦或者投投影儀上上附加一一個傳感感器,而不是是附上一一個財產(chǎn)產(chǎn)標簽.在這種種情況下下,如果一一個投影影儀丟失失或者被被竊,人們就就可以從從監(jiān)視系系統(tǒng)中查查找其下下落.這樣的的監(jiān)視系系統(tǒng)能不不斷地接接收從傳傳感器發(fā)發(fā)來的“信息流流”,信息息流給出出了系統(tǒng)統(tǒng)感
33、興趣趣的對象象信息.這種信信息流在在高性能能數(shù)據(jù)輸輸入、時時間序列列功能、歷歷史消息息窗口以以及高效效率隊列列處理方方面給DDBMSS 提出出了新的的要求.DBMMS 產(chǎn)產(chǎn)品也將將嘗試提提供對這這種監(jiān)視視應用的的支持,其方法法應該是是通過將將流處理理的功能能移植到到傳統(tǒng)的的結構數(shù)數(shù)據(jù)框架架上.Web SSer vi cess 自然然也產(chǎn)生生數(shù)據(jù)流流,松散結結合的系系統(tǒng)相互互交換大大量的商商務數(shù)據(jù)據(jù),如訂單單、零售售事務等等.這些數(shù)數(shù)據(jù)以XXML 格式表表現(xiàn),產(chǎn)生持持續(xù)的XXML 數(shù)據(jù)流流.具有高高效處理理XMLL 數(shù)據(jù)據(jù)流的查查詢能力力,從不間間斷的XXML 數(shù)據(jù)流流中匹配配、抽取取和轉換換部
34、分數(shù)數(shù)據(jù)流以以驅動后后臺商務務應用,是Webb Seer vvi cces 的核心心.XML 流流處理的的特點是是XMLL 文檔檔的節(jié)點點一次性性地按照照某種遍遍歷的順順序流過過.因為每每次面對對的總是是單個的的節(jié)點(元素、屬屬性或ttextt),所所以需要要將必要要的數(shù)據(jù)據(jù)有效地地緩存,以返回回結果.如何協(xié)協(xié)調緩存存容量和和查詢效效率之間間的平衡衡,是目前前XMLL 流處處理需要要解決的的問題之之一.目前,查詢XMML 數(shù)數(shù)據(jù)流的的研究包包括Xffiltter 188 ,Yfiilteer 19 ,XXMLTTK 20 ,XXSQ 211 ,XSMM 222等等.處理的的方法一一般是將將XP
35、aath 轉化成成一個有有限自動動機模型型,有固定定的初始始節(jié)點和和終節(jié)點點,當走到到有限自自動機的的終點時時,表示XPPathh 查詢詢被匹配配.比較復復雜的自自動機模模型可以以支持包包含雙斜斜杠(/)和和*或帶多多個謂詞詞的XPPathh 語句句,有的還還支持集集函數(shù).XMLL 流處處理需要要解決的的另一個個問題是是處理同同時出現(xiàn)現(xiàn)的大量量復雜路路徑查詢詢.有的研研究提取取相似的的XPaath 查詢并并綜合到到一個結結構中,同時計計算共享享路徑以以避免重重復操作作,可以大大大提高高處理的的效率.數(shù)據(jù)流本身身的流速速和流量量的增長長,傳感器器數(shù)據(jù)流流和XMML 數(shù)數(shù)據(jù)流的的出現(xiàn)是是對傳統(tǒng)統(tǒng)的
36、數(shù)據(jù)據(jù)流處理理提出的的挑戰(zhàn).部分研究者者正致力力于將數(shù)數(shù)據(jù)流融融入數(shù)據(jù)據(jù)庫管理理系統(tǒng)中中的工作作.另一部部分研究究者則欲欲開發(fā)普普遍適用用(NiiagaaraCCQ,SStannforrd SStreeam, Teeleggrapph, Aurroraa)或者者專用的的(Giigasscoppe)數(shù)數(shù)據(jù)流管管理系統(tǒng)統(tǒng).3.3 傳傳感器數(shù)數(shù)據(jù)庫技技術隨著微電子子技術的的發(fā)展,傳感器器的應用用越來越越廣泛.可以使使小鳥攜攜帶傳感感器,根據(jù)傳傳感器在在一定的的范圍內(nèi)內(nèi)發(fā)回的的數(shù)據(jù)定定位小鳥鳥的位置置,從而進進行其他他的研究究;還可以以在汽車車等運輸輸工具中中安裝傳傳感器,從而掌掌握其位位置信息息;甚
37、至于于微型的的無人間間諜飛機機上也開開始攜帶帶傳感器器,在一定定的范圍圍內(nèi)收集集有用的的信息,并且將將其發(fā)回回到指揮揮中心.當有多個傳傳感器在在一定的的范圍內(nèi)內(nèi)工作時時,就組成成了傳感感器網(wǎng)絡絡.傳感器器網(wǎng)絡由由攜帶者者所捆綁綁的傳感感器及接接收和處處理傳感感器發(fā)回回數(shù)據(jù)的的服務器器所組成成.傳感器器網(wǎng)絡中中的通信信方式可可以是無無線通信信,也可以以是有線線通信.現(xiàn)在,在研研究機構構和商業(yè)業(yè)公司中中都有對對傳感器器網(wǎng)絡的的研究.WINNS NNG 是是Sennsorria 公司設設計的傳傳感器網(wǎng)網(wǎng)絡結構構.該網(wǎng)絡絡結構包包括處理理傳感器器數(shù)據(jù)的的服務器器、與服服務器直直接相連連的可以以將傳感感
38、器收集集的數(shù)據(jù)據(jù)傳送到到服務器器的網(wǎng)關關節(jié)點和和作為傳傳感器網(wǎng)網(wǎng)絡神經(jīng)經(jīng)末梢的的各個收收集信息息的傳感感器.各個收收集信息息的傳感感器之間間可以相相互傳遞遞數(shù)據(jù).在該網(wǎng)網(wǎng)絡中,信息是是通過無無線通信信的方式式傳遞的的.Smmartt Duust Mottes 是U.CC.Beerklley 設計的的微型傳傳感器網(wǎng)網(wǎng)絡結構構,該網(wǎng)絡絡結構運運行在一一個立方方毫米級級的小盒盒子里,主要包包括收集集數(shù)據(jù)的的傳感器器和處理理數(shù)據(jù)的的服務器器.各個節(jié)節(jié)點之間間通過激激光傳遞遞信息.在傳感器網(wǎng)網(wǎng)絡中,傳感器器數(shù)據(jù)就就是由傳傳感器中中的信號號處理函函數(shù)產(chǎn)生生的數(shù)據(jù)據(jù).信號處處理函數(shù)數(shù)要對傳傳感器探探測到的的
39、數(shù)據(jù)進進行度量量和分類類,并且將將分類后后的數(shù)據(jù)據(jù)標記時時間戳,然后發(fā)發(fā)送到服服務器,再由服服務器對對其進行行處理.傳感器器數(shù)據(jù)可可以通過過無線或或者光纖纖網(wǎng)存取取.無線通通信網(wǎng)絡絡采用的的是多級級拓撲結結構,最前端端的傳感感器節(jié)點點收集數(shù)數(shù)據(jù),然后通通過多級級傳感器器節(jié)點到到達與服服務器相相連接的的網(wǎng)關節(jié)節(jié)點,最后通通過網(wǎng)關關節(jié)點,將數(shù)據(jù)據(jù)發(fā)送到到服務器器.光纖網(wǎng)網(wǎng)絡采用用的是星星型結構構,各個傳傳感器直直接通過過光纖與與服務器器相聯(lián)接接.傳感器節(jié)點點上數(shù)據(jù)據(jù)的存儲儲和處理理方法有有兩種:第1 種類類型的處處理方法法是將傳傳感器數(shù)數(shù)據(jù)存儲儲在一個個節(jié)點的的傳感器器堆棧中中,這樣的的節(jié)點必必須
40、具有有很強的的處理能能力和較較大的緩緩沖空間間;第2 種方方法適用用于一個個芯片上上的傳感感器網(wǎng)絡絡,傳感器器節(jié)點的的處理能能力和緩緩沖空間間是受限限制的:在產(chǎn)生生數(shù)據(jù)項項的同時時就對其其進行處處理以節(jié)節(jié)省空間間,在傳感感器節(jié)點點上沒有有復雜的的處理過過程,傳感器器節(jié)點上上不存儲儲歷史數(shù)數(shù)據(jù);對于處處理能力力介于第第1 種和和第2 種傳感感器網(wǎng)絡絡的網(wǎng)絡絡來說,則采用用折衷的的方案,將傳感感器數(shù)據(jù)據(jù)分層地地放在各各層的傳傳感器堆堆棧中進進行處理理.傳感器網(wǎng)絡絡越來越越多地應應用于對對很多新新應用的的監(jiān)測和和監(jiān)控.在這些些新的應應用中,用戶可可以查詢詢已經(jīng)存存儲的數(shù)數(shù)據(jù)或者者傳感器器數(shù)據(jù),但是,
41、這些應應用大部部分建立立在集中中的系統(tǒng)統(tǒng)上收集集傳感器器數(shù)據(jù).因為在在這樣的的系統(tǒng)中中數(shù)據(jù)是是以預定定義的方方式抽取取的,因此缺缺乏一定定的靈活活性.新的傳感器器數(shù)據(jù)庫庫系統(tǒng)需需要考慮慮大量的的傳感器器設備的的存在,以及它它們的移移動和分分散性.因此,新的傳傳感器數(shù)數(shù)據(jù)庫系系統(tǒng)需要要解決一一些新的的問題.主要包包括:(1) 傳傳感器數(shù)數(shù)據(jù)的表表示和傳傳感器查查詢的表表示:CCornnelll 大學學的COOUGAAR 模模型、RRutggerss 大學學的WeebDuust 系統(tǒng)、WWas hi ngtt onn 大學學的Saagrees 系系統(tǒng)都對對這兩個個問題進進行了研研究.在COUUGA
42、RR 系統(tǒng)統(tǒng)中,每一個個傳感器器表示成成一個AADT,每一個個信號處處理函數(shù)數(shù)與一個個ADTT 函數(shù)數(shù)相聯(lián)系系,該ADTT 函數(shù)數(shù)對于傳傳感器收收集到的的數(shù)據(jù)輸輸出一個個與傳感感器所在在的位置置相關聯(lián)聯(lián)的序列列,COOUGAAR 采采用關系系數(shù)據(jù)庫庫的表來來存儲這這些信息息.COOUGAAR 采采用主動動方式的的持續(xù)查查詢,當在查查詢過程程中有新新的數(shù)據(jù)據(jù)產(chǎn)生時時,這種查查詢方式式會自動動增加對對新產(chǎn)生生的數(shù)據(jù)據(jù)的查詢詢.Saagrees 系系統(tǒng)主要要包括兩兩部分,第1 部分分是設備備信息管管理器,主要存存儲傳感感器的設設備信息息和作為為屬性的的描述性性規(guī)則等等;第2 部分分是查詢詢翻譯器器,
43、主要采采用ECCA 模模型對數(shù)數(shù)據(jù)進行行查詢和和更新.(2) 在在傳感器器節(jié)點上上處理查查詢分片片:傳感器器資源的的有限性性,要求我我們必須須有效地地處理各各個節(jié)點點上的查查詢.(3) 分分布查詢詢分片:產(chǎn)生和和傳輸傳傳感器數(shù)數(shù)據(jù)都需需要花費費代價,必須考考慮單個個節(jié)點的的查詢效效率和網(wǎng)網(wǎng)絡傳輸輸代價的的平衡.而且,與傳統(tǒng)統(tǒng)的分布布式查詢詢所不同同,在傳感感器數(shù)據(jù)據(jù)庫中,沒有全全局的優(yōu)優(yōu)化信息息,傳感器器是移動動的,而且源源數(shù)據(jù)是是動態(tài)的的,這些都都是需要要考慮的的問題.(4) 適適應網(wǎng)絡絡條件的的改變:在傳感感器網(wǎng)絡絡中,大量的的數(shù)據(jù)查查詢必須須處理傳傳感器之之間或者者傳感器器與前端端服務器
44、器之間的的數(shù)據(jù)流流.數(shù)據(jù)流流引擎和和數(shù)據(jù)流流操作符符是對這這種大流流量數(shù)據(jù)據(jù)進行控控制的主主要方法法.另外,基于傳傳感器數(shù)數(shù)據(jù)的本本質和網(wǎng)網(wǎng)絡的可可能擁塞塞,對一個個查詢分分片來說說需要決決定下一一個要執(zhí)執(zhí)行的數(shù)數(shù)據(jù)流操操作符,這就是是自適應應查詢處處理需要要考慮的的問題.(5) 處處理站點點失敗和和傳輸失失敗的情情況:傳感器器網(wǎng)絡中中必須考考慮站點點或者傳傳輸失敗敗的情況況.(6) 傳傳感器數(shù)數(shù)據(jù)庫系系統(tǒng):傳感器器數(shù)據(jù)庫庫必須利利用系統(tǒng)統(tǒng)中的所所有傳感感器,而且可可以像傳傳統(tǒng)數(shù)據(jù)據(jù)庫那樣樣方便、簡簡潔地管管理傳感感器數(shù)據(jù)據(jù)庫中的的數(shù)據(jù);建立可可以獲得得和分配配源數(shù)據(jù)據(jù)的機制制;建立可可以根據(jù)
45、據(jù)傳感器器網(wǎng)絡調調整數(shù)據(jù)據(jù)流的機機制;可以方方便地配配置、安安裝和重重新啟動動傳感器器數(shù)據(jù)庫庫中的各各個組件件等.3.4 XXML 數(shù)據(jù)管管理目前大量的的XMLL 數(shù)據(jù)據(jù)以文本本文檔的的方式存存儲,難以支支持復雜雜高效的的查詢.用傳統(tǒng)統(tǒng)數(shù)據(jù)庫庫存儲XXML 數(shù)據(jù)的的問題在在于模式式映射帶帶來的效效率下降降和語義義丟失.一些Naativve XXML 數(shù)據(jù)庫庫的原型型系統(tǒng)已已經(jīng)出現(xiàn)現(xiàn)(Taaminnon,Lorre,TTimbber,OriienttX(中中國人民民大學開開發(fā))等).XXML 數(shù)據(jù)是是半結構構化的,不像關關系數(shù)據(jù)據(jù)那樣是是嚴格的的結構化化數(shù)據(jù),這樣就就給Natiive XMLL
46、數(shù)據(jù)據(jù)庫中的的存儲系系統(tǒng)帶來來更大的的靈活性性,同時,也帶來來了更大大的挑戰(zhàn)戰(zhàn).恰當?shù)牡挠涗泟潉澐趾痛卮鼐?能夠減減少I/O 次次數(shù),提高查查詢效率率;反之,不恰當當?shù)膭澐址趾痛鼐劬?則會降降低查詢詢效率.研究不不同存儲儲粒度對對查詢的的支持也也是XMML 存存儲面臨臨的一個個關鍵性性問題23 .當用戶定義義XMLL 數(shù)據(jù)據(jù)模型時時,為了維維護數(shù)據(jù)據(jù)的一致致性和完完整性,需要指指明數(shù)據(jù)據(jù)的類型型、標示示,屬性的的類型,數(shù)據(jù)之之間的對對應關系系(一對多多,多對多多等)、依賴賴關系和和繼承關關系等.而目前前半結構構化和XXML 數(shù)據(jù)模模型形成成的一些些標準(如OEMM,DTTD,XXML Schh
47、emaa 等)忽視了了對這些些語義信信息和完完整性約約束方面面的描述述.ORRA-SSS 24模型擴擴展了對對象關系系模型用用于定義義XMLL 數(shù)據(jù)據(jù).這個模模型用類類似E-R 圖圖的方式式描述XXML 數(shù)據(jù)的的模式,對對象象、聯(lián)系系和屬性性等不同同類型的的元素用用不同的的形狀加加以區(qū)分分,并標記記函數(shù)依依賴、關關鍵字和和繼承等等.其應用用領域包包括指導導正確的的存儲策策略,消除潛潛在的數(shù)數(shù)據(jù)冗余余,創(chuàng)建和和維護視視圖及查查詢優(yōu)化化等.在XML 數(shù)據(jù)查查詢處理理研究中中,存在下下列焦點點問題:第1,如何何定義完完善的查查詢代數(shù)數(shù).眾所周周知,關系數(shù)數(shù)據(jù)庫統(tǒng)統(tǒng)治數(shù)據(jù)據(jù)管理領領域長盛盛不衰的的法寶
48、就就是描述述性查詢詢語言SSQL 和其運運行基礎礎關系代代數(shù).關系代代數(shù)的目目的之一一是約束束明確的的查詢語語義,之二是是用于支支持查詢詢優(yōu)化.關系代代數(shù)的優(yōu)優(yōu)勢來自自簡單明明確的數(shù)數(shù)據(jù)模型型關系系,具有完完善的數(shù)數(shù)學基礎礎和系統(tǒng)統(tǒng)的轉換換規(guī)則.而XMLL 數(shù)據(jù)據(jù)模型本本身具有有的半結結構化特特點是定定義完善善的代數(shù)數(shù)運算的的最大障障礙.XXML 查詢語語言中的的不確定定性是另另一個難難以克服服的困難難.目前提提出的XXqueery Forrmall Seemannticc 標準準基于FFuncctioon LLangguagge 的的思想,為查詢詢優(yōu)化帶帶來了新新的困難難.第2,復雜雜路徑表
49、表達式是是XMLL 查詢詢語句的的核心,必須將將復雜、不不確定的的路徑表表達式轉轉換為系系統(tǒng)可識識別的、明明確的形形式.面向對對象數(shù)據(jù)據(jù)庫中的的模式支支持的分分解方法法,不適應應處理沒沒有模式式或者雖雖有模式式信息但但模式本本身為半半結構化化和不確確定性的的XMLL 路徑徑分解的的情況.并且,XXML 數(shù)據(jù)的的存儲和和索引方方法與面面向對象象數(shù)據(jù)庫庫不同,而這正正是影響響路徑分分解的重重要因素素.第3,XMML 數(shù)數(shù)據(jù)信息息統(tǒng)計和和代價計計算.傳統(tǒng)的的對值的的統(tǒng)計對對XMLL 查詢詢是不夠夠的.XXML 數(shù)據(jù)本本身缺乏乏模式的的支持,使對數(shù)數(shù)據(jù)結構構信息的的統(tǒng)計顯顯得更加加重要.XMLL 數(shù)據(jù)
50、據(jù)中的數(shù)數(shù)值分布布在類似似樹狀結結構的樹樹葉上,即使相相同類型型的數(shù)據(jù)據(jù),由于半半結構化化特點,其分布布情況也也可能完完全不同同.因此,需要把把對結構構的統(tǒng)計計信息和和對值的的統(tǒng)計信信息結合合到一起起,才能得得到足夠夠精確的的統(tǒng)計信信息.對XMLL 查詢詢代價的的計算可可以分為為兩個層層次:上層為為對查詢詢結果集集大小的的估計.給定XPPathh 路徑徑,忽略方方法的不不同,只估計計返回路路徑目標標結點結結果集的的大小.這種方方法普遍遍用于路路徑分解解后確定定查詢片片段的執(zhí)執(zhí)行次序序.下層為為執(zhí)行時時間的估估計.給定查查詢片斷斷,估計不不同的執(zhí)執(zhí)行算法法所需時時間代價價.這種方法用用于確定定查
51、詢片片段的執(zhí)執(zhí)行方法法.目前,XMML 數(shù)數(shù)據(jù)索引引按照用用途可分分為3 種:簡單索索引、路路徑索引引和連接接索引.簡單索索引包括括標記索索引、值值索引、屬屬性索引引等.路徑索索引抽取取XMLL 數(shù)據(jù)據(jù)的結構構,索引具具有相同同路徑或或者標記記的結點點用于導導航查詢詢時縮小小搜索的的范圍.連接索索引在元元素的編編碼上建建立特定定的索引引結構來來輔助跳跳過不可可能發(fā)生生連接的的節(jié)點,從而避避免對這這些節(jié)點點的處理理.可以利利用的索索引結構構包括BB+樹、改改進的BB+樹255,266、R 樹和和XR 樹277等.利用索索引提高高查詢效效率實際際上是空空間換時時間的做做法.如何針針對不同同的查詢詢
52、需求建建立、使使用和維維護合適適的索引引是研究究者面臨臨的一個個問題.另一個個問題是是,不同的的索引,索引目目標也不不相同,如何在在一個查查詢中綜綜合地使使用不同同的索引引.隨著XMML 數(shù)數(shù)據(jù)在電電子商務務中的廣廣泛應用用,XMML 數(shù)數(shù)據(jù)更新新需求迫迫切,更多的的研究者者開始關關注如何何動態(tài)地地維護索索引以適適應不斷斷的數(shù)據(jù)據(jù)更新的的問題.對于XMLL 數(shù)據(jù)據(jù)的更新新操作,無論在在語言,還是在在操作方方法上都都沒有一一個統(tǒng)一一的標準準.更新操操作從邏邏輯上是是指:元素的的插入、刪刪除和更更新.更新包包括模式式檢查、結結點定位位、存儲儲空間的的分配和和其他輔輔助數(shù)據(jù)據(jù)的更新新,比如索索引、編
53、編碼等.在XMLL 文檔檔中插入入數(shù)據(jù)的的問題需需要移動動所有插插入點后后面的數(shù)數(shù)據(jù).為了解解決這個個問題,引入了了空間預預留方法法,在數(shù)據(jù)據(jù)存儲時時,根據(jù)模模式定義義預留一一部分空空間給可可能的插插入點.當有數(shù)數(shù)據(jù)插入入時,如果預預留空間間足夠,則無須須數(shù)據(jù)移移動.如果預預留空間間不夠,則在新新申請的的頁面中中插入數(shù)數(shù)據(jù),原有數(shù)數(shù)據(jù)也不不需要移移動.與此同同時,為以后后的數(shù)據(jù)據(jù)插入預預留了更更多的空空間.針對不不同的存存儲策略略,數(shù)據(jù)更更新的方方法也不不同,非簇聚聚存儲方方法在更更新時無無須在物物理上保保持數(shù)據(jù)據(jù)的有序序性,更新代代價較小小.簇聚存存儲方法法在更新新時需要要更多的的無關數(shù)數(shù)據(jù)
54、移動動以維護護簇聚性性.因此,對更新新頻繁的的數(shù)據(jù),不宜采采用簇聚聚存儲方方法.XML 數(shù)數(shù)據(jù)處理理面臨的的未解決決的問題題還包括括:首先在在查詢處處理上,是導航航處理還還是基于于代數(shù)的的一次一一集合的的處理?這一直直是XMML 查查詢優(yōu)化化研究的的焦點,而如何何在一個個系統(tǒng)中中把二者者有機地地結合起起來以提提高效率率的研究究還很不不充分.目前對對XMLL 數(shù)據(jù)據(jù)查詢的的各種不不同的執(zhí)執(zhí)行方法法之間的的孰優(yōu)孰孰劣的比比較工作作還剛剛剛開始,并未形形成共識識性的規(guī)規(guī)則.由于XMML 數(shù)數(shù)據(jù)本身身的靈活活性,找到一一些普遍遍適用的的規(guī)律是是很困難難的.在今后后的一段段時間內(nèi)內(nèi),相信會會有更多多的研
55、究究工作在在這方面面展開.其次,實例化化視圖作作為查詢詢優(yōu)化的的一個重重要手段段并未在在XMLL 查詢詢優(yōu)化研研究中得得到足夠夠的重視視.最后,NNatiive XMLL 數(shù)據(jù)據(jù)庫是否否是合適適的XMML 數(shù)數(shù)據(jù)處理理解決方方案?如果是是的話,如何做做到XMML 數(shù)數(shù)據(jù)與傳傳統(tǒng)數(shù)據(jù)據(jù)庫數(shù)據(jù)據(jù)的互操操作?這些都都是有待待進一步步研究的的問題.3.5 網(wǎng)網(wǎng)格數(shù)據(jù)據(jù)管理6,228,229簡單地講,網(wǎng)格是是把整個個網(wǎng)絡整整合成一一個虛擬擬的巨大大的超級級計算環(huán)環(huán)境,實現(xiàn)計計算資源源、存儲儲資源、數(shù)數(shù)據(jù)資源源、信息息資源、知知識資源源和專家家資源的的全面共共享.目的是是解決多多機構虛虛擬組織織中的資資源
56、共享享和協(xié)同同工作問問題.在網(wǎng)格環(huán)境境中,不論用用戶工作作在何種種“客戶端端”上,系統(tǒng)均均能根據(jù)據(jù)用戶的的實際需需求,利用開開發(fā)工具具和調度度服務機機制,向用戶戶提供優(yōu)優(yōu)化整合合后的協(xié)協(xié)同計算算資源,并按用用戶的個個性提供供及時的的服務.按照應應用層次次的不同同可以把把網(wǎng)格分分為3 種:計算網(wǎng)網(wǎng)格,提供高高性能計計算機系系統(tǒng)的共共享存取取;數(shù)據(jù)網(wǎng)網(wǎng)格,提供數(shù)數(shù)據(jù)庫和和文件系系統(tǒng)的共共享存取取;信息服服務網(wǎng)格格則支持持應用軟軟件和信信息資源源的共享享存取.高性能計算算的應用用需求使使計算能能力不可可能在單單一計算算機上獲獲得,因此,必須通通過構建建“網(wǎng)絡虛虛擬超級級計算機機”或“元計算算機”獲得
57、超超強的計計算能力力,這種計計算方式式稱為網(wǎng)網(wǎng)格計算算.它通過過網(wǎng)絡連連接地理理上分布布的各類類計算機機(包括機機群)、數(shù)據(jù)據(jù)庫、各各類設備備和存儲儲設備等等,形成對對用戶相相對透明明的虛擬擬的高性性能計算算環(huán)境,應用包包括了分分布式計計算、高高吞吐量量計算、協(xié)協(xié)同工程程和數(shù)據(jù)據(jù)查詢等等諸多功功能.網(wǎng)格計計算被定定義為一一個廣域域范圍的的“無縫的的集成和和協(xié)同計計算環(huán)境境”.網(wǎng)格格計算模模式已經(jīng)經(jīng)發(fā)展為為連接和和統(tǒng)一各各類不同同遠程資資源的一一種基礎礎結構.網(wǎng)格計計算有兩兩個優(yōu)勢勢,一個是是數(shù)據(jù)處處理能力力超強;另一個個是能充充分利用用網(wǎng)上的的閑置處處理能力力.為實現(xiàn)現(xiàn)網(wǎng)格計計算的目目標,必須
58、重重點解決決3 個問問題:其一,異構性性.由于網(wǎng)網(wǎng)格由分分布在廣廣域網(wǎng)上上不同管管理域的的各種計計算資源源組成,怎樣實實現(xiàn)異構構資源間間的協(xié)作作和轉換換是首要要問題.其二,可擴展展性.網(wǎng)格資資源規(guī)模模和應用用規(guī)??煽梢詣討B(tài)態(tài)擴展,并能不不降低性性能.其三,動態(tài)自自適應性性.在網(wǎng)格格計算中中,某一資資源出現(xiàn)現(xiàn)故障或或失敗的的可能性性較高,資源管管理必須須能夠動動態(tài)監(jiān)視視和管理理網(wǎng)格資資源, 20004,115(112)從從可利用用的資源源中選取取最佳資資源服務務.數(shù)據(jù)網(wǎng)格保保證用戶戶在存取取數(shù)據(jù)時時無須知知道數(shù)據(jù)據(jù)的存儲儲類型(數(shù)據(jù)庫庫,文檔,XXML)和位置置.涉及的的問題包包括:如何聯(lián)聯(lián)合不
59、同同的物理理數(shù)據(jù)源源,抽取源源數(shù)據(jù)構構成邏輯輯數(shù)據(jù)源源集合;如何制制定統(tǒng)一一的異構構數(shù)據(jù)訪訪問的接接口標準準;如何虛虛擬化分分布的數(shù)數(shù)據(jù)源等等.目前,數(shù)據(jù)網(wǎng)網(wǎng)格研究究的問題題之一是是:如何在在網(wǎng)格環(huán)環(huán)境下存存取數(shù)據(jù)據(jù)庫,提供數(shù)數(shù)據(jù)庫層層次的服服務,因為數(shù)數(shù)據(jù)庫顯顯然應該該是網(wǎng)格格中十分分寶貴且且巨大的的數(shù)據(jù)資資源.數(shù)據(jù)庫庫網(wǎng)格服服務不同同于通常常的數(shù)據(jù)據(jù)庫查詢詢,也不同同于傳統(tǒng)統(tǒng)的信息息檢索,需要將將數(shù)據(jù)庫庫提升為為網(wǎng)格服服務,把數(shù)據(jù)據(jù)庫查詢詢技術和和信息檢檢索技術術有機結結合,提供統(tǒng)統(tǒng)一的基基于內(nèi)容容的TOOP-KK 數(shù)據(jù)據(jù)庫檢索索機制和和軟件4345 .信息網(wǎng)格是是利用現(xiàn)現(xiàn)有的網(wǎng)網(wǎng)絡基礎礎
60、設施、協(xié)協(xié)議規(guī)范范、Weeb 和數(shù)數(shù)據(jù)庫技技術,為用戶戶提供一一體化的的智能信信息平臺臺,其目標標是創(chuàng)建建一種架架構在OOS 和和Webb 之上上的基于于Intternnet 的新一一代信息息平臺和和軟件基基礎設施施.在這個個平臺上上,信息的的處理是是分布式式、協(xié)作作和智能能化的,用戶可可以通過過單一入入口訪問問所有信信息.信息網(wǎng)網(wǎng)格追求求的最終終目標是是能夠做做到按需需服務(serrvicce oon ddemaand)和一步步到位的的服務(onee cllickk iss ennouggh).信息網(wǎng)網(wǎng)格的體體系結構構、信息息表示和和元信息息、信息息連通和和一致性性、安全全技術等等是目前前信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024家具銷售合同樣本
- 景觀工程合同的履行期限
- 工程總價固定合同格式
- 2024年購銷合同大米
- 房地產(chǎn)分銷代理合同
- 2024個人與公司合作協(xié)議書
- 工程維護居間合同格式
- 2024年婚前財產(chǎn)協(xié)議書示例
- 城市房屋拆遷流程指南
- 合作經(jīng)營協(xié)議書范本經(jīng)典案例
- TMF自智網(wǎng)絡白皮書4.0
- 電視劇《國家孩子》觀影分享會PPT三千孤兒入內(nèi)蒙一段流淌著民族大愛的共和國往事PPT課件(帶內(nèi)容)
- 所水力除焦設備介紹
- 農(nóng)村黑臭水體整治項目可行性研究報告
- 改革開放英語介紹-課件
- pet考試歷屆真題和答案
- 《企業(yè)員工薪酬激勵問題研究10000字(論文)》
- 大學英語三級B真題2023年06月
- GB/T 7909-2017造紙木片
- GB/T 25217.6-2019沖擊地壓測定、監(jiān)測與防治方法第6部分:鉆屑監(jiān)測方法
- 中醫(yī)學課件 治則與治法
評論
0/150
提交評論