基于關(guān)系數(shù)據(jù)庫的模式匹配技術(shù)研究_第1頁
基于關(guān)系數(shù)據(jù)庫的模式匹配技術(shù)研究_第2頁
基于關(guān)系數(shù)據(jù)庫的模式匹配技術(shù)研究_第3頁
基于關(guān)系數(shù)據(jù)庫的模式匹配技術(shù)研究_第4頁
基于關(guān)系數(shù)據(jù)庫的模式匹配技術(shù)研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于關(guān)系數(shù)據(jù)庫的形式匹配技術(shù)研究摘要隨著網(wǎng)絡(luò)技術(shù)的開展,信息處理需要對大量的、異構(gòu)的數(shù)據(jù)源的數(shù)據(jù)進展統(tǒng)一存取,多源異構(gòu)數(shù)據(jù)的集成問題就顯得非常重要。而形式匹配是數(shù)據(jù)集成領(lǐng)域的一個根本技術(shù)。文章提出一種解決關(guān)系數(shù)據(jù)庫語義沖突問題的形式匹配技術(shù),以實現(xiàn)異構(gòu)數(shù)據(jù)的共享與互操作。關(guān)鍵詞數(shù)據(jù)集成;形式匹配;語義沖突1引言隨著計算機及網(wǎng)絡(luò)技術(shù)的快速開展,網(wǎng)絡(luò)上的各種信息以指數(shù)級爆炸性增長,成為了一個宏大的信息庫,同時各企業(yè)單位開發(fā)了大量的軟硬件平臺各異的應(yīng)用系統(tǒng),在各種應(yīng)用系統(tǒng)下又積累了豐富的數(shù)據(jù)資源。這樣就形成了成千上萬個異構(gòu)的數(shù)據(jù)源,多為傳統(tǒng)的關(guān)系數(shù)據(jù)庫數(shù)據(jù)。這些數(shù)據(jù)資源由于軟硬件平臺各異、數(shù)據(jù)模型各

2、異而形成了異構(gòu)數(shù)據(jù),使各數(shù)據(jù)源間的互操作變得復(fù)雜。為了更好地利用這些異構(gòu)信息,以及不造成企業(yè)應(yīng)用系統(tǒng)的重復(fù)建立和數(shù)據(jù)資源的浪費,形式匹配技術(shù)吸引了眾多關(guān)注。本文針對形式匹配過程中存在的語義沖突進展分類,并提出了相應(yīng)的解決策略,以到達異構(gòu)數(shù)據(jù)源的共享和互操作。2形式匹配中的沖突問題在數(shù)據(jù)集成領(lǐng)域中,由于數(shù)據(jù)源系統(tǒng)多是獨立開發(fā),數(shù)據(jù)源是相對自治的,因此描繪數(shù)據(jù)的數(shù)據(jù)模型或存儲構(gòu)造經(jīng)常會出現(xiàn)形式的不一致,數(shù)據(jù)源的自治性和數(shù)據(jù)源形式的異構(gòu)性使數(shù)據(jù)源在共享和互操作上存在了語義沖突。這些正是形式匹配的焦點問題,它們形式上的性質(zhì)使得人們很容易想到要用形式匹配去解決邏輯、語義和知識的描繪問題。對于描繪形式匹配

3、中的語義沖突有兩種較有代表性的分類4。第一種分類將沖突分為異類沖突、命名沖突、語義沖突和構(gòu)造沖突。第二種分類主要是對第一類異類沖突概念的一個細致的改良,但和其它分類仍有細微的不同,它把異類沖突看作是語義不一致的一類(如語義沖突),把沖突分為命名沖突、域沖突、元數(shù)據(jù)沖突、構(gòu)造沖突、屬性喪失和硬件/軟件不同。形式匹配是一項復(fù)雜而繁重的任務(wù),所能集成的數(shù)據(jù)源越來越多,上述沖突情況也會越來越普遍,想解決所有的形式?jīng)_突是不現(xiàn)實的。本文主要解決關(guān)系數(shù)據(jù)形式之間的語義沖突。3形式匹配中的語義沖突本文所提出的形式匹配方法是根據(jù)關(guān)系數(shù)據(jù)庫的特點設(shè)計的。關(guān)系數(shù)據(jù)庫中關(guān)系的根本單位是屬性,屬性本身就包含著語義信息,

4、因此異構(gòu)數(shù)據(jù)源語義相似性就圍繞著數(shù)據(jù)源形式中的屬性來進展,并在匹配的過程中解決異構(gòu)數(shù)據(jù)源形式之間的一系列語義沖突。3.1語義匹配體系構(gòu)造本文提出的語義匹配體系構(gòu)造采用數(shù)據(jù)集成中的虛擬法數(shù)據(jù)集成系統(tǒng)的典型體系構(gòu)造,采用將部分形式匹配到全局形式的語義匹配體系構(gòu)造,自下而上地建立全局形式。首先進展形式轉(zhuǎn)化,消除因各種部分?jǐn)?shù)據(jù)形式之間的差異所帶來的影響,解決各種部分形式之間的語義沖突等,然后在轉(zhuǎn)化后的形式的根底上進展形式匹配,其主要手段是提供各數(shù)據(jù)源的虛擬的集成視圖。數(shù)據(jù)仍保存在各數(shù)據(jù)源上,集成系統(tǒng)僅提供一個虛擬的集成視圖和對該集成視圖的查詢的處理機制。系統(tǒng)能自動地將用戶對集成形式的查詢懇求轉(zhuǎn)換成對各

5、異構(gòu)數(shù)據(jù)源的查詢。在這種體系構(gòu)造中,中間層根本不實際存儲數(shù)據(jù),當(dāng)客戶端發(fā)出查詢懇求時,僅是簡單地將查詢發(fā)送到適當(dāng)?shù)臄?shù)據(jù)源上。由于該方法不需要重復(fù)存儲大量數(shù)據(jù),并能保證查詢到最新的數(shù)據(jù),因此比擬合適于高度自治、集成數(shù)量多且更新變化快的異構(gòu)數(shù)據(jù)源集成。本文中的語義匹配的體系構(gòu)造如圖1所示。3.2關(guān)系數(shù)據(jù)庫形式中語義沖突問題分類及其解決策略大多數(shù)數(shù)據(jù)庫系統(tǒng)提供了一套概念構(gòu)造來對現(xiàn)實世界的數(shù)據(jù)進展建模。每一個概念構(gòu)造被認為是一個類型,它可以是一種復(fù)雜類型或一種根本類型。類型和它所表示的數(shù)據(jù)間的聯(lián)絡(luò)就稱為語義3。在關(guān)系數(shù)據(jù)庫中,一個關(guān)系形式是一個有序?qū)?R,),其中R為形式所指向的關(guān)系(表)的名稱,而那

6、么為具有不同名稱的屬性的有限集。同時,屬性也是一個有序?qū)?N,D),其中N為屬性的名稱,而D那么為一個域??梢钥闯鲫P(guān)系形式的根本單位是屬性。屬性本身就包含著語義信息,因此形式語義相似性就圍繞形式中的屬性來進展,并在形式匹配的過程中解決異構(gòu)數(shù)據(jù)庫形式之間的一系列語義沖突。圖1語義匹配體系構(gòu)造根據(jù)語義的定義,在關(guān)系數(shù)據(jù)庫系統(tǒng)中,語義系統(tǒng)是由形式、形式的屬性、形式中屬性之間的聯(lián)絡(luò)和形式間的屬性之間的聯(lián)絡(luò)構(gòu)成。這里將語義分為3級:形式級、屬性級和實例級。下面將異構(gòu)形式中存在的語義沖突問題進展了分類,并闡述了各種語義沖突的解決策略:轉(zhuǎn)貼于論文聯(lián)盟.ll.1)形式級沖突(1)關(guān)系命名沖突。包括關(guān)系名同義詞

7、和關(guān)系名同形異義詞。前者進展換名或建立關(guān)系名同義詞表以記載該類沖突;后者進展換名或建立關(guān)系名同形異義詞表以記載該類沖突。(2)關(guān)系構(gòu)造沖突。分為包含沖突和相交沖突。包含沖突是指在含義一樣的兩個關(guān)系R1和R2中一個關(guān)系的屬性集是另一個的屬性子集。相交沖突是指兩關(guān)系屬性集的交不為空,我們用attrset代表關(guān)系的屬性集。對包含沖突:假如兩個關(guān)系的屬性集一樣即attrset(R1)=attrset(R2),那么合并這兩個對象,erge(R1,R2)intR3;假如attrset(R1)attrset(R2),那么attrset(R2)=attrset(R2)attrset(R1),attrset(R

8、1)=attrset(R1);對相交沖突:通常概括語義進展如下解決:generalize(R1,R2)其中attrset(R3)=attrset(R1)attrset(R2),attrset(R1)=attrset(R1)attrset(R3);attrset(R2)=attrset(R2)attrset(R3)。(3)關(guān)系關(guān)鍵字沖突:兩個含義一樣的關(guān)系具有不同的關(guān)鍵字約束。包括候選關(guān)鍵字沖突和主關(guān)鍵字沖突。解決候選關(guān)鍵字沖突的方法是,將兩關(guān)系的候選關(guān)鍵字的交集作為兩關(guān)系的候選關(guān)鍵字;解決主關(guān)鍵字沖突的方法是,從兩關(guān)系的公共候選關(guān)鍵字中選一個分別作為兩關(guān)系的主關(guān)鍵字。(4)多對多的關(guān)系沖突:兩

9、個數(shù)據(jù)庫中用不同數(shù)量的關(guān)系來表達現(xiàn)實世界的一樣語義信息,就產(chǎn)生了多對多的關(guān)系沖突,這種沖突分3種:一對多,多對一和多對多。解決方法是在表示一樣語義信息的數(shù)據(jù)庫中關(guān)系之間建立映射來表示多對多的關(guān)系。2)屬性級沖突(1)屬性命名沖突:分屬性名同義詞沖突和屬性名同形異義詞。前者的解決方法是,換名或建立屬性名同義詞字典;后者的解決方法是,換名或建立屬性名同形異義詞字典。(2)屬性約束沖突:分屬性類型沖突和屬性長度沖突兩種。當(dāng)在兩個相關(guān)的關(guān)系R1和R2的屬性N1和N2具有不同的屬性類型時,就發(fā)生屬性類型沖突。解決方法是在全局形式中將發(fā)生屬性類型沖突的屬性統(tǒng)一到某種屬性類型。對屬性長度的解決方法是,在全局

10、形式中將發(fā)生屬性長度類型沖突的屬性對統(tǒng)一定義為最大者就可。(3)多對多的屬性沖突:兩個數(shù)據(jù)庫中的關(guān)系分別用不同數(shù)量的屬性來表達現(xiàn)實世界中一樣的語義信息時,就發(fā)生了多對多的屬性沖突,這種沖突分3種:一對多,多對一和多對多。解決方法是在表示一樣語義信息的數(shù)據(jù)庫中關(guān)系的屬性之間建立映射來表示這種多對多的關(guān)系。3)實例級沖突(1)不兼容關(guān)系實例沖突:當(dāng)含義一樣的數(shù)據(jù)項在不同的數(shù)據(jù)庫中存在不一致的數(shù)據(jù)值時就發(fā)生了不兼容關(guān)系實例沖突。其解決方法是:將關(guān)系實例的最近修改作為關(guān)系實例沖突部分的值,但不能保證數(shù)據(jù)的正確性。(2)關(guān)系實例表示沖突:關(guān)系實例表示沖突是指用不兼容的符號、量綱和精度來表示相關(guān)關(guān)系實例中

11、等價的數(shù)據(jù)元素,主要包括表達沖突、量綱沖突和精度沖突。表達沖突是指在兩個相關(guān)的關(guān)系R1和R2中含義一樣的屬性N1和N2具有不同的數(shù)據(jù)表達時,這種沖突使用語義值的概念來解決,即將表示同一概念的多種表達在全局?jǐn)?shù)據(jù)中進展統(tǒng)一即可。量綱沖突是指在兩個相關(guān)的關(guān)系R1和R2和中含義一樣的屬性N1和N2具有不同的量綱表示。量綱沖突也可以語義值加以解決,解決過程如下:分別定義發(fā)生量綱沖突的部分?jǐn)?shù)據(jù)源的語義值形式和語義值說明,然后再定義全局?jǐn)?shù)據(jù)形式中相應(yīng)的語義值形式和語義值說明,將發(fā)生量綱沖突的屬性值在全局形式中進展統(tǒng)一。精度沖突是指在兩個相關(guān)的關(guān)系R1和R2中含義一樣的屬性具有不同的精度。其解決方法是在全局形

12、式中將發(fā)生精度沖突的數(shù)據(jù)項定義為最高精度即可。4總結(jié)本文針對異構(gòu)數(shù)據(jù)源管理自治和形式異構(gòu)的特點,提出了數(shù)據(jù)源集成形式匹配的體系構(gòu)造,制定了匹配策略,研究了基于語義的形式匹配過程。以關(guān)系形式為參考形式,對異構(gòu)數(shù)據(jù)源關(guān)系形式間可能存在的語義沖突問題進展了分類,并闡述理解決這些語義沖突的策略。參考文獻1BergaashiS,astanS,Vinini.SeantiIntegratinfSeistruturedandStruturedDataSuresJ.SIGDRerd,1999,28(1):54-59.2Li,liftn,LiuS.DatabaseIntegratinUsingNeuralNetrk:IpleentatinandExperienesJ.KnledgeandInfratinSystes,2000,2(1).3ReddyP,PrasadBE,GReddyP.AethdlgyfrIntegratinfHetergeneusDatabasesJ.InfratinSyste,1999,24(5).4RahE,BernstEinP.ASurveyfApprahestAutatiSheaathingJ.TheInternatinalJurnalnVe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論