


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于關(guān)系數(shù)據(jù)庫模式匹配技術(shù) 摘 要隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,信息處理需要對大量的、異構(gòu)的數(shù)據(jù)源的數(shù)據(jù)進(jìn)行統(tǒng)一存取,多源異構(gòu)數(shù)據(jù)的集成問題就顯得十分重要。而模式匹配是數(shù)據(jù)集成領(lǐng)域的一個(gè)基本技術(shù)。文章提出一種解決關(guān)系數(shù)據(jù)庫語義沖突問題的模式匹配技術(shù),以實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的共享與互操作。 關(guān)鍵詞數(shù)據(jù)集成;模式匹配;語義沖突 1 引言 隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的各種信息以指數(shù)級爆炸性
2、增長,成為了一個(gè)巨大的信息庫,同時(shí)各企業(yè)單位開發(fā)了大量的軟硬件平臺各異的應(yīng)用系統(tǒng),在各種應(yīng)用系統(tǒng)下又積累了豐富的數(shù)據(jù)資源。這樣就形成了成千上萬個(gè)異構(gòu)的數(shù)據(jù)源,多為傳統(tǒng)的關(guān)系數(shù)據(jù)庫數(shù)據(jù)。這些數(shù)據(jù)資源由于軟硬件平臺各異、數(shù)據(jù)模型各異而形成了異構(gòu)數(shù)據(jù),使各數(shù)據(jù)源間的互操作變得復(fù)雜。為了更好地利用這些異構(gòu)信息,以及不造成企業(yè)應(yīng)用系統(tǒng)的重復(fù)建設(shè)和數(shù)據(jù)資源的浪費(fèi),模式匹配技術(shù)吸引了眾多關(guān)注。本文針對模式匹配過程中存在的語義沖突進(jìn)行分類,并提出了相應(yīng)的解決策略,以達(dá)到異構(gòu)數(shù)據(jù)源的共享和互操作。 2 模式匹配中的沖突問題 在數(shù)據(jù)集成領(lǐng)域中,由于數(shù)據(jù)源系統(tǒng)多是獨(dú)
3、立開發(fā),數(shù)據(jù)源是相對自治的,因此描述數(shù)據(jù)的數(shù)據(jù)模型或存儲結(jié)構(gòu)經(jīng)常會出現(xiàn)模式的不一致,數(shù)據(jù)源的自治性和數(shù)據(jù)源模式的異構(gòu)性使數(shù)據(jù)源在共享和互操作上存在了語義沖突。這些正是模式匹配的焦點(diǎn)問題,它們形式上的性質(zhì)使得人們很容易想到要用模式匹配去解決邏輯、語義和知識的描述問題。 對于描述模式匹配中的語義沖突有兩種較有代表性的分類4。第一種分類將沖突分為異類沖突、命名沖突、語義沖突和結(jié)構(gòu)沖突。第二種分類主要是對第一類異類沖突概念的一個(gè)細(xì)致的改進(jìn),但和其它分類仍有細(xì)微的不同,它把異類沖突看作是語義不一致的一類(如語義沖突),把沖突分為命名沖突、域沖突、元數(shù)據(jù)沖突、結(jié)構(gòu)沖突
4、、屬性丟失和硬件/軟件不同。 模式匹配是一項(xiàng)復(fù)雜而繁重的任務(wù),所能集成的數(shù)據(jù)源越來越多,上述沖突情況也會越來越普遍,想解決所有的模式?jīng)_突是不現(xiàn)實(shí)的。本文主要解決關(guān)系數(shù)據(jù)模式之間的語義沖突。 3 模式匹配中的語義沖突 本文所提出的模式匹配方法是根據(jù)關(guān)系數(shù)據(jù)庫的特點(diǎn)設(shè)計(jì)的。關(guān)系數(shù)據(jù)庫中關(guān)系的基本單位是屬性,屬性本身就包含著語義信息,因此異構(gòu)數(shù)據(jù)源語義相似性就圍繞著數(shù)據(jù)源模式中的屬性來進(jìn)行,并在匹配的過程中解決異構(gòu)數(shù)據(jù)源模式之間的一系列語義沖突。 3.1 語義匹配體系結(jié)構(gòu)
5、160; 本文提出的語義匹配體系結(jié)構(gòu)采用數(shù)據(jù)集成中的虛擬法數(shù)據(jù)集成系統(tǒng)的典型體系結(jié)構(gòu),采用將局部模式匹配到全局模式的語義匹配體系結(jié)構(gòu),自下而上地建立全局模式。首先進(jìn)行模式轉(zhuǎn)化,消除因各種局部數(shù)據(jù)模式之間的差異所帶來的影響,解決各種局部模式之間的語義沖突等,然后在轉(zhuǎn)化后的模式的基礎(chǔ)上進(jìn)行模式匹配,其主要手段是提供各數(shù)據(jù)源的虛擬的集成視圖。 數(shù)據(jù)仍保存在各數(shù)據(jù)源上,集成系統(tǒng)僅提供一個(gè)虛擬的集成視圖和對該集成視圖的查詢的處理機(jī)制。系統(tǒng)能自動地將用戶對集成模式的查詢請求轉(zhuǎn)換成對各異構(gòu)數(shù)據(jù)源的查詢。在這種體系結(jié)構(gòu)中,中間層根本不實(shí)際存儲數(shù)據(jù),當(dāng)客戶端發(fā)出查詢請求時(shí),
6、僅是簡單地將查詢發(fā)送到適當(dāng)?shù)臄?shù)據(jù)源上。由于該方法不需要重復(fù)存儲大量數(shù)據(jù),并能保證查詢到最新的數(shù)據(jù),因此比較適合于高度自治、集成數(shù)量多且更新變化快的異構(gòu)數(shù)據(jù)源集成。 本文中的語義匹配的體系結(jié)構(gòu)如圖1所示。 3.2 關(guān)系數(shù)據(jù)庫模式中語義沖突問題分類及其解決策略 大多數(shù)數(shù)據(jù)庫系統(tǒng)提供了一套概念結(jié)構(gòu)來對現(xiàn)實(shí)世界的數(shù)據(jù)進(jìn)行建模。每一個(gè)概念結(jié)構(gòu)被認(rèn)為是一個(gè)類型,它可以是一種復(fù)雜類型或一種基本類型。類型和它所表示的數(shù)據(jù)間的聯(lián)系就稱為語義3。 在關(guān)系數(shù)據(jù)庫中,一個(gè)關(guān)系模式是一個(gè)有序?qū)?
7、R,c),其中R為模式所指向的關(guān)系(表)的名稱,而c則為具有不同名稱的屬性的有限集。同時(shí),屬性也是一個(gè)有序?qū)?N,D),其中N為屬性的名稱,而D則為一個(gè)域??梢钥闯鲫P(guān)系模式的基本單位是屬性。屬性本身就包含著語義信息,因此模式語義相似性就圍繞模式中的屬性來進(jìn)行,并在模式匹配的過程中解決異構(gòu)數(shù)據(jù)庫模式之間的一系列語義沖突。 圖 1 語義匹配體系結(jié)構(gòu) 根據(jù)語義的定義,在關(guān)系數(shù)據(jù)庫系統(tǒng)中,語義系統(tǒng)是由模式、模式的屬性、模式中屬性之間的聯(lián)系和模式間的屬性之間的聯(lián)系構(gòu)成。這里將語義分為3級:模式級、屬性級和實(shí)例
8、級。下面將異構(gòu)模式中存在的語義沖突問題進(jìn)行了分類,并闡述了各種語義沖突的解決策略: 1)模式級沖突 (1)關(guān)系命名沖突。包括關(guān)系名同義詞和關(guān)系名同形異義詞。前者進(jìn)行換名或建立關(guān)系名同義詞表以記載該類沖突;后者進(jìn)行換名或建立關(guān)系名同形異義詞表以記載該類沖突。 (2)關(guān)系結(jié)構(gòu)沖突。分為包含沖突和相交沖突。包含沖突是指在含義相同的兩個(gè)關(guān)系 R1 和 R2 中一個(gè)關(guān)系的屬性集是另一個(gè)的屬性子集。相交沖突是指兩關(guān)系屬性集的交不為空,我們用 attrset 代表關(guān)系的屬性集。對包含沖突:如果兩
9、個(gè)關(guān)系的屬性集相同即attrset(R1)=attrset(R2),則合并這兩個(gè)對象,Merge(R1, R2)into R3;如果 attrset(R1) attrset(R2),則 attrset(R2')=attrset(R2)attrset(R1),attrset(R1') = attrset(R1);對相交沖突:通常概括語義進(jìn)行如下解決:generalize(R1,R2)其中 attrset(R3)=attrset(R1)attrset(R2), attrset(R1')= attrset(R1)attrset(R3);attrset(R2'
10、;)=attrset(R2)attrset(R3)。 (3)關(guān)系關(guān)鍵字沖突:兩個(gè)含義相同的關(guān)系具有不同的關(guān)鍵字約束。包括候選關(guān)鍵字沖突和主關(guān)鍵字沖突。解決候選關(guān)鍵字沖突的方法是,將兩關(guān)系的候選關(guān)鍵字的交集作為兩關(guān)系的候選關(guān)鍵字;解決主關(guān)鍵字沖突的方法是,從兩關(guān)系的公共候選關(guān)鍵字中選一個(gè)分別作為兩關(guān)系的主關(guān)鍵字。 (4)多對多的關(guān)系沖突:兩個(gè)數(shù)據(jù)庫中用不同數(shù)量的關(guān)系來表達(dá)現(xiàn)實(shí)世界的相同語義信息,就產(chǎn)生了多對多的關(guān)系沖突,這種沖突分3種:一對多,多對一和多對多。解決方法是在表示相同語義信息的數(shù)據(jù)庫中關(guān)系之間建立映射來表示多
11、對多的關(guān)系。 2)屬性級沖突 (1)屬性命名沖突:分屬性名同義詞沖突和屬性名同形異義詞。前者的解決方法是,換名或建立屬性名同義詞字典;后者的解決方法是,換名或建立屬性名同形異義詞字典。 (2)屬性約束沖突:分屬性類型沖突和屬性長度沖突兩種。當(dāng)在兩個(gè)相關(guān)的關(guān)系R1和R2的屬性N1和N2具有不同的屬性類型時(shí),就發(fā)生屬性類型沖突。解決方法是在全局模式中將發(fā)生屬性類型沖突的屬性統(tǒng)一到某種屬性類型。對屬性長度的解決方法是,在全局模式中將發(fā)生屬性長度類型沖突的屬性對統(tǒng)一定義為最大者就可。
12、160; (3)多對多的屬性沖突:兩個(gè)數(shù)據(jù)庫中的關(guān)系分別用不同數(shù)量的屬性來表達(dá)現(xiàn)實(shí)世界中相同的語義信息時(shí),就發(fā)生了多對多的屬性沖突,這種沖突分3種:一對多,多對一和多對多。解決方法是在表示相同語義信息的數(shù)據(jù)庫中關(guān)系的屬性之間建立映射來表示這種多對多的關(guān)系。 3)實(shí)例級沖突 (1)不兼容關(guān)系實(shí)例沖突:當(dāng)含義相同的數(shù)據(jù)項(xiàng)在不同的數(shù)據(jù)庫中存在不一致的數(shù)據(jù)值時(shí)就發(fā)生了不兼容關(guān)系實(shí)例沖突。其解決方法是:將關(guān)系實(shí)例的最近修改作為關(guān)系實(shí)例沖突部分的值,但不能保證數(shù)據(jù)的正確性。
13、; (2)關(guān)系實(shí)例表示沖突:關(guān)系實(shí)例表示沖突是指用不兼容的符號、量綱和精度來表示相關(guān)關(guān)系實(shí)例中等價(jià)的數(shù)據(jù)元素,主要包括表達(dá)沖突、量綱沖突和精度沖突。表達(dá)沖突是指在兩個(gè)相關(guān)的關(guān)系R1和R2中含義相同的屬性N1和N2具有不同的數(shù)據(jù)表達(dá)時(shí),這種沖突使用語義值的概念來解決,即將表示同一概念的多種表達(dá)在全局?jǐn)?shù)據(jù)中進(jìn)行統(tǒng)一即可。量綱沖突是指在兩個(gè)相關(guān)的關(guān)系R1和R2和中含義相同的屬性N1和N2具有不同的量綱表示。量綱沖突也可以語義值加以解決,解決過程如下:分別定義發(fā)生量綱沖突的局部數(shù)據(jù)源的語義值模式和語義值說明,然后再定義全局?jǐn)?shù)據(jù)模式中相應(yīng)的語義值模式和語義值說明,將發(fā)生量綱沖突的屬性值在全局模式中進(jìn)行統(tǒng)
14、一。精度沖突是指在兩個(gè)相關(guān)的關(guān)系 R1 和 R2 中含義相同的屬性具有不同的精度。其解決方法是在全局模式中將發(fā)生精度沖突的數(shù)據(jù)項(xiàng)定義為最高精度即可。 4 總結(jié) 本文針對異構(gòu)數(shù)據(jù)源管理自治和模式異構(gòu)的特點(diǎn),提出了數(shù)據(jù)源集成模式匹配的體系結(jié)構(gòu),制定了匹配策略,研究了基于語義的模式匹配過程。以關(guān)系模式為參考模式,對異構(gòu)數(shù)據(jù)源關(guān)系模式間可能存在的語義沖突問題進(jìn)行了分類,并闡述了解決這些語義沖突的策略。 參考文獻(xiàn) 1 Bergamaschi S, Castano S, Vincini M. Semantic Integration of Semistru
15、ctured and Structured Data Sources J. SIGMOD Record, 1999, 28(1): 54-59. 2 Li W, Clifton C, Liu S. Database Integration Using Neural Network: Implementation and Experiences J. Knowledge and Information Systems, 2000, 2(1). 3 Reddy M P, Prasad B E, GReddy P. A Methodology for Integration of Heterogeneous Databases J. Information System, 1999,24(5). 4 Rahm E,Bernstein P.A Survey of Approaches to Automatic Schema Mat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年統(tǒng)計(jì)學(xué)考試重要概念總結(jié)題及答案
- 如何上架直播課件
- 2024年計(jì)算機(jī)基礎(chǔ)考試模擬試題及答案
- 幼兒園戶外步行安全教育
- 重點(diǎn)傳染病防控課件模板
- 寵物營養(yǎng)學(xué)科目復(fù)習(xí)試題及答案
- 小數(shù)加減混合運(yùn)算
- 2024年二手車評估師的行業(yè)規(guī)范與考試試題及答案
- 2024年美容師考試職業(yè)技能與知識運(yùn)用試題及答案
- 語言能力與文學(xué)鑒賞的關(guān)系自考試題及答案
- 蒸汽使用管理制度
- 江蘇省第十四屆大學(xué)生知識競賽(理工科學(xué)生)校內(nèi)選拔賽學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024年區(qū)(縣)環(huán)境狀況和環(huán)境保護(hù)目標(biāo)完成情況的報(bào)告
- 廢蓄電池回收管理制度
- 護(hù)理查房法洛四聯(lián)癥
- 淺析內(nèi)部控制的問題及其措施分析研究-以永輝超市為例 工商管理專業(yè)
- 2022年四川省宜賓市中考數(shù)學(xué)真題(解析版)
- 2024年工商聯(lián)副會長述職報(bào)告
- 0-3歲嬰幼兒保育與教育智慧樹知到期末考試答案章節(jié)答案2024年甘肅財(cái)貿(mào)職業(yè)學(xué)院
- DL∕T 5344-2018 電力光纖通信工程驗(yàn)收規(guī)范
- 洗煤廠洗煤技術(shù)人員題庫
評論
0/150
提交評論