




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于關系數據庫的模式匹配技術研究
摘要隨著網絡技術的發(fā)展,信息處理需要對大量的、異構的數據源的數據進行統(tǒng)一存取,多源異構數據的集成問題就顯得十分重要。而模式匹配是數據集成領域的一個基本技術。文章提出一種解決關系數據庫語義沖突問題的模式匹配技術,以實現(xiàn)異構數據的共享與互操作。關鍵詞數據集成;模式匹配;語義沖突
1引言隨著計算機及網絡技術的快速發(fā)展,網絡上的各種信息以指數級爆炸性增長,成為了一個巨大的信息庫,同時各企業(yè)單位開發(fā)了大量的軟硬件平臺各異的應用系統(tǒng),在各種應用系統(tǒng)下又積累了豐富的數據資源。這樣就形成了成千上萬個異構的數據源,多為傳統(tǒng)的關系數據庫數據。這些數據資源由于軟硬件平臺各異、數據模型各異而形成了異構數據,使各數據源間的互操作變得復雜。為了更好地利用這些異構信息,以及不造成企業(yè)應用系統(tǒng)的重復建設和數據資源的浪費,模式匹配技術吸引了眾多關注。本文針對模式匹配過程中存在的語義沖突進行分類,并提出了相應的解決策略,以達到異構數據源的共享和互操作。
2模式匹配中的沖突問題在數據集成領域中,由于數據源系統(tǒng)多是獨立開發(fā),數據源是相對自治的,因此描述數據的數據模型或存儲結構經常會出現(xiàn)模式的不一致,數據源的自治性和數據源模式的異構性使數據源在共享和互操作上存在了語義沖突。這些正是模式匹配的焦點問題,它們形式上的性質使得人們很容易想到要用模式匹配去解決邏輯、語義和知識的描述問題。對于描述模式匹配中的語義沖突有兩種較有代表性的分類。第一種分類將沖突分為異類沖突、命名沖突、語義沖突和結構沖突。第二種分類主要是對第一類異類沖突概念的一個細致的改進,但和其它分類仍有細微的不同,它把異類沖突看作是語義不一致的一類(如語義沖突),把沖突分為命名沖突、域沖突、元數據沖突、結構沖突、屬性丟失和硬件/軟件不同。模式匹配是一項復雜而繁重的任務,所能集成的數據源越來越多,上述沖突情況也會越來越普遍,想解決所有的模式沖突是不現(xiàn)實的。本文主要解決關系數據模式之間的語義沖突。
3模式匹配中的語義沖突本文所提出的模式匹配方法是根據關系數據庫的特點設計的。關系數據庫中關系的基本單位是屬性,屬性本身就包含著語義信息,因此異構數據源語義相似性就圍繞著數據源模式中的屬性來進行,并在匹配的過程中解決異構數據源模式之間的一系列語義沖突。
語義匹配體系結構本文提出的語義匹配體系結構采用數據集成中的虛擬法數據集成系統(tǒng)的典型體系結構,采用將局部模式匹配到全局模式的語義匹配體系結構,自下而上地建立全局模式。首先進行模式轉化,消除因各種局部數據模式之間的差異所帶來的影響,解決各種局部模式之間的語義沖突等,然后在轉化后的模式的基礎上進行模式匹配,其主要手段是提供各數據源的虛擬的集成視圖。數據仍保存在各數據源上,集成系統(tǒng)僅提供一個虛擬的集成視圖和對該集成視圖的查詢的處理機制。系統(tǒng)能自動地將用戶對集成模式的查詢請求轉換成對各異構數據源的查詢。在這種體系結構中,中間層根本不實際存儲數據,當客戶端發(fā)出查詢請求時,僅是簡單地將查詢發(fā)送到適當的數據源上。由于該方法不需要重復存儲大量數據,并能保證查詢到最新的數據,因此比較適合于高度自治、集成數量多且更新變化快的異構數據源集成。本文中的語義匹配的體系結構如圖1所示。
關系數據庫模式中語義沖突問題分類及其解決策略大多數數據庫系統(tǒng)提供了一套概念結構來對現(xiàn)實世界的數據進行建模。每一個概念結構被認為是一個類型,它可以是一種復雜類型或一種基本類型。類型和它所表示的數據間的聯(lián)系就稱為語義。在關系數據庫中,一個關系模式是一個有序對(R,c),其中R為模式所指向的關系(表)的名稱,而c則為具有不同名稱的屬性的有限集。同時,屬性也是一個有序對(N,D),其中N為屬性的名稱,而D則為一個域??梢钥闯鲫P系模式的基本單位是屬性。屬性本身就包含著語義信息,因此模式語義相似性就圍繞模式中的屬性來進行,并在模式匹配的過程中解決異構數據庫模式之間的一系列語義沖突。圖1語義匹配體系結構根據語義的定義,在關系數據庫系統(tǒng)中,語義系統(tǒng)是由模式、模式的屬性、模式中屬性之間的聯(lián)系和模式間的屬性之間的聯(lián)系構成。這里將語義分為3級:模式級、屬性級和實例級。下面將異構模式中存在的語義沖突問題進行了分類,并闡述了各種語義沖突的解決策略:
1)模式級沖突(1)關系命名沖突。包括關系名同義詞和關系名同形異義詞。前者進行換名或建立關系名同義詞表以記載該類沖突;后者進行換名或建立關系名同形異義詞表以記載該類沖突。(2)關系結構沖突。分為包含沖突和相交沖突。包含沖突是指在含義相同的兩個關系R1和R2中一個關系的屬性集是另一個的屬性子集。相交沖突是指兩關系屬性集的交不為空,我們用attrset代表關系的屬性集。對包含沖突:①如果兩個關系的屬性集相同即attrset(R1)=attrset(R2),則合并這兩個對象,Merge(R1,R2)intoR3;②如果attrset(R1)attrset(R2),則attrset(R2‘)=attrset(R2)-attrset(R1),attrset(R1‘)=attrset(R1);③對相交沖突:通常概括語義進行如下解決:generalize(R1,R2)其中attrset(R3)=attrset(R1)∩attrset(R2),attrset(R1‘)=attrset(R1)-attrset(R3);attrset(R2‘)=attrset(R2)-attrset(R3)。(3)關系關鍵字沖突:兩個含義相同的關系具有不同的關鍵字約束。包括候選關鍵字沖突和主關鍵字沖突。解決候選關鍵字沖突的方法是,將兩關系的候選關鍵字的交集作為兩關系的候選關鍵字;解決主關鍵字沖突的方法是,從兩關系的公共候選關鍵字中選一個分別作為兩關系的主關鍵字。(4)多對多的關系沖突:兩個數據庫中用不同數量的關系來表達現(xiàn)實世界的相同語義信息,就產生了多對多的關系沖突,這種沖突分3種:一對多,多對一和多對多。解決方法是在表示相同語義信息的數據庫中關系之間建立映射來表示多對多的關系。2)屬性級沖突(1)屬性命名沖突:分屬性名同義詞沖突和屬性名同形異義詞。前者的解決方法是,換名或建立屬性名同義詞字典;后者的解決方法是,換名或建立屬性名同形異義詞字典。(2)屬性約束沖突:分屬性類型沖突和屬性長度沖突兩種。當在兩個相關的關系R1和R2的屬性N1和N2具有不同的屬性類型時,就發(fā)生屬性類型沖突。解決方法是在全局模式中將發(fā)生屬性類型沖突的屬性統(tǒng)一到某種屬性類型。對屬性長度的解決方法是,在全局模式中將發(fā)生屬性長度類型沖突的屬性對統(tǒng)一定義為最大者就可。(3)多對多的屬性沖突:兩個數據庫中的關系分別用不同數量的屬性來表達現(xiàn)實世界中相同的語義信息時,就發(fā)生了多對多的屬性沖突,這種沖突分3種:一對多,多對一和多對多。解決方法是在表示相同語義信息的數據庫中關系的屬性之間建立映射來表示這種多對多的關系。3)實例級沖突(1)不兼容關系實例沖突:當含義相同的數據項在不同的數據庫中存在不一致的數據值時就發(fā)生了不兼容關系實例沖突。其解決方法是:將關系實例的最近修改作為關系實例沖突部分的值,但不能保證數據的正確性。(2)關系實例表示沖突:關系實例表示沖突是指用不兼容的符號、量綱和精度來表示相關關系實例中等價的數據元素,主要包括表達沖突、量綱沖突和精度沖突。表達沖突是指在兩個相關的關系R1和R2中含義相同的屬性N1和N2具有不同的數據表達時,這種沖突使用語義值的概念來解決,即將表示同一概念的多種表達在全局數據中進行統(tǒng)一即可。量綱沖突是指在兩個相關的關系R1和R2和中含義相同的屬性N1和N2具有不同的量綱表示。量綱沖突也可以語義值加以解決,解決過程分別定義發(fā)生量綱沖突的局部數據源的語義值模式和語義值說明,然后再定義全局數據模式中相應的語義值模式和語義值說明,將發(fā)生量綱沖突的屬性值在全局模式中進行統(tǒng)一。精度沖突是指在兩個相關的關系R1和R2中含義相同的屬性具有不同的精度。其解決方法是在全局模式中將發(fā)生精度沖突的數據項定義為最高精度即可。
4總結本文針對異構數據源管理自治和模式異構的特點,提出了數據源集成模式匹配的體系結構,制定了匹配策略,研究了基于語義的模式匹配過程。以關系模式為參考模式,對異構數據源關系模式間可能存在的語義沖突問題進行了分類,并闡述了解決這些語義沖突的策略。
參考文獻[1]BergamaschiS,CastanoS,VinciniM.SemanticIntegrationofSemistructuredandStructuredDataSources[J].SIGMODRecord,1999,28(1):54-59.LiW,CliftonC,LiuS.DatabaseIntegrationUsingNeuralNetwork:ImplementationandExperiences[J].KnowledgeandInformationSystems,2000,2(1).ReddyMP,PrasadBE,GReddyP.AMethodologyforIntegrationofHeterogeneousDatabases[J].InformationSystem,1999,24(5).RahmE,BernsteinSurveyofApproachestoAutomaticSchemaMatching[J].TheInternationalJourn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國非開挖設備市場運行狀況及發(fā)展趨勢分析報告
- 2025-2030年中國銣礦市場運營狀況及發(fā)展前景分析報告
- 2025-2030年中國針織類服裝行業(yè)運行動態(tài)及發(fā)展前景分析報告
- 2025-2030年中國金屬波紋補償器市場發(fā)展現(xiàn)狀及前景趨勢分析報告
- 2025-2030年中國觸摸屏機柜行業(yè)市場競爭狀況及發(fā)展趨勢分析報告
- 2025-2030年中國血漿代用品行業(yè)發(fā)展現(xiàn)狀規(guī)劃研究報告
- 2025-2030年中國蟻醛行業(yè)運營現(xiàn)狀與發(fā)展趨勢分析報告
- 2025-2030年中國硅碳棒行業(yè)運行動態(tài)與營銷策略研究報告
- 2025-2030年中國石墨礦市場運行狀況及發(fā)展趨勢分析報告
- 《走近世界民間美術》 課件 2024-2025學年人美版(2024)初中美術七年級下冊
- 2025云南紅河州個舊市大紅屯糧食購銷限公司招聘及人員高頻重點模擬試卷提升(共500題附帶答案詳解)
- X證書失智老年人照護講解
- 工廠安全事故預防知識
- 2024-2025學年人教版數學八年級下冊期中檢測卷(含答案)
- 2024年江西應用工程職業(yè)學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 中醫(yī)護理技術操作質量控制
- 6月26國際禁毒日防范青少年藥物濫用禁毒宣傳課件
- 老舊小區(qū)基礎設施環(huán)境改造工程施工質量因素的分析及控制方法
- 筑牢安全防線守護平安校園
-
評論
0/150
提交評論