版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘知識管理中的本體推理架構摘要:為了實現(xiàn)數(shù)據(jù)挖掘(Data Mining,DM)領域知識的智能化管理,本文提出了一種基于本體的DM知識管理架構。使用本體庫,這個架構可以通過本體服務手段實現(xiàn)智能知識檢索和數(shù)據(jù)挖掘任務的自動完成。其主要功能包括:使用基于Web本體語言(Ontology Web Language,OWL)描述數(shù)據(jù)挖掘本體和元數(shù)據(jù)。 本體推理功能?;诂F(xiàn)有的概念和關系,本體的隱性知識可以用推理機獲得。本文主要側(cè)重于數(shù)據(jù)挖掘本體的構建和基于OWL DL(s)的數(shù)據(jù)挖掘本體的推理。關鍵字:本體;數(shù)據(jù)挖掘;知識管理;本體推理0 引言由于數(shù)據(jù)挖掘(DM)領域知識的不斷擴充和更新,一些新
2、的問題也隨之出現(xiàn)了。比如:對于新出現(xiàn)的領域知識,DM知識管理系統(tǒng)無法實現(xiàn)新領域知識的自動定義及歸類,而需要專家的人工操作。因此,出現(xiàn)了定義及歸類的人為差異。當一個不具備很多領域知識的普通用戶提交一個數(shù)據(jù)挖掘任務時,可能得不到解決該任務的DM方法及算法的最佳組合。為了解決以上問題,協(xié)助用戶進行數(shù)據(jù)挖掘工作,對數(shù)據(jù)挖掘領域知識進行智能型管理是必要的。一些學者也在這方面做了一些研究Bernstein提出了智能發(fā)現(xiàn)助理系統(tǒng)(IDAs),它給用戶提供系統(tǒng)列舉的有效DM過程中,為了不會將重要的,潛在的富有成效的選項忽視,通過不同的標準對有效過程進行有效的排名,以促進對DM的進程執(zhí)行的選擇。Cannatar
3、o提出的數(shù)據(jù)挖掘本體的概念(DAMON),這是一個DM領域本體并且被DAML+OIL描述。此外,DAMON-MAP架構和主要功能也進行了描述。DAMON的使用在知識網(wǎng)格中體現(xiàn)和應用,提供本體瀏覽和查詢。然而,IDAs和DAMON只是對數(shù)據(jù)挖掘過程中本體的描述,而不是對整個DM領域知識的描述,也不是基于本體推理的可以實現(xiàn)知識概念和知識智能檢索的自動分類和解決沖突的系統(tǒng)。本文介紹了DM領域知識管理的本體論,構造了一個DM基于本體推理的知識管理(DMKM)架構,并著重于本體庫的建設和基于Web本體語言(OWL)數(shù)據(jù)挖掘本體推理)DL(S)。1 DMKM架構本次研究使用Protégé
4、;, PAL (Protégé Axiom Language)推理模塊,OWL API和推理機創(chuàng)建一個開放和可擴展的DMKM架構。它包含的Protégé, PAL推理模塊,Tab查詢模塊,OWL API,推理機,用戶查詢界面,知識庫維護界面,DM元數(shù)據(jù)庫和數(shù)據(jù)挖掘本體數(shù)據(jù)庫,它是在圖1所示。首先,將介紹組成DMKM的每一個模塊的主要功能,然后它會對DMKM的基本功能給予描述。1.1每個模塊的功能Protégé是本系統(tǒng)的核心模塊。通過使用DM元數(shù)據(jù)庫和數(shù)據(jù)挖掘本體集,提供必要的知識的分類,每個類的屬性,不同類別之間的相互關系,和不同類別
5、各屬性之間的關系。圖1 DMKM架構OWL API它是一個模塊接收到OWL文件,RDF文件和RULE文件,用Protégé輸出,并將它們傳遞給本體推理機。Jena可以用作OWL API模塊。推理機它是處理更進一步的邏輯查詢系統(tǒng)的模塊。它可以定義更復雜的邏輯關系,并自動根據(jù)DM本題庫中建立的基本的本體知識推導出新的知識。它被命名為RACER,可以用作本體推理機。本體庫是該系統(tǒng)的主要組成部分。它是一個DM專家定義的本體集。它包括數(shù)據(jù)域的知識的分析,特別是數(shù)據(jù)挖掘過程。DM元數(shù)據(jù)庫它是一個知識庫系統(tǒng)的一個組成部分,存儲了DM領域的各種元數(shù)據(jù),如數(shù)據(jù)挖掘工具和算法等。PAL推理模塊
6、它是邏輯查詢系統(tǒng)的核心模塊。它可以根據(jù)用戶的查詢方式,找出數(shù)據(jù)挖掘本體數(shù)據(jù)庫和DM元數(shù)據(jù)庫中用戶所需的有用的知識進行扣除。Query Tab查詢模塊是負責開展查詢請求,這可以從DM元數(shù)據(jù)庫和數(shù)據(jù)挖掘本體數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識。使用者查詢接口它分為兩個子接口:PAL查詢接口和Query Tab查詢界面.PAL查詢接口提供了一個通過PAL邏輯表示法的公式編輯器并將輸入的查詢式傳遞給PAL推理模塊進行解析。當使用者填寫的查詢語句是空白的,它會把問句交給Query Tab查詢模塊進行解析。Query Tab查詢界面是查詢系統(tǒng)中的圖形用戶界面并提供固定查詢模式。知識庫維護接口用來新增DM元數(shù)據(jù)文件盒數(shù)據(jù)
7、挖掘本體于Protégé的知識庫中。1.2 DMKM的基本功能知識工作者通過知識維護接口手動更新數(shù)據(jù)挖掘本體庫。當有新的數(shù)據(jù)挖掘本體和DM元數(shù)據(jù)文件,知識數(shù)據(jù)庫通過知識維護接口更新。它可以對新領域知識實現(xiàn)自動定義和分類,所以它并不需要專家的手動操縱。用戶可以通過兩個不同的查詢方式查詢DM知識:PAL查詢接口和Query Tab查詢接口。這兩個模塊查詢Protégé知識庫,然后他們會各自提供給用戶結(jié)果。當一個不具備大量領域知識的普通用戶提交一個數(shù)據(jù)挖掘任務,可以獲得一個DM方法與算法的最佳組合來解決這個問題。2 DM知識本體數(shù)據(jù)挖掘本體將通過本體建模元語句
8、來構建。Perez歸納出五個基本建模元語,即,類別或概念(Concepts),關系(Relation),函數(shù)(Functions),公理(Axioms)和實例(Instances)。根據(jù)文獻研究結(jié)果并結(jié)合自己的分析,構建了以下DM領域詞匯。2.1 概念(Concepts) 本文所歸納的DM概念包括:數(shù)據(jù)挖掘任務(DM-Task)、數(shù)據(jù)挖掘方法(DM-Method)、數(shù)據(jù)挖掘算法(DM-Algorithm) 、數(shù)據(jù)挖掘軟件(DM-Software) 、數(shù)據(jù)集(Data-Sets) 、預言模型(Predict-Model)、應用域(Application-Domain)。數(shù)據(jù)挖掘任務(DM-Tas
9、k) 它表明了通過該數(shù)據(jù)挖掘過程要達到的目標。它從特定的應用域中數(shù)據(jù)集的大量數(shù)據(jù)中提取預言數(shù)據(jù)模型。數(shù)據(jù)挖掘方法(DM-Method) 指在數(shù)據(jù)挖掘過程中為達到不同的數(shù)據(jù)挖掘任務(DM-Task)的目標能夠采用的不同方法。數(shù)據(jù)挖掘算法(DM-Algorithm) 指當采用不同的數(shù)據(jù)挖掘方法時的不同算法。不同的數(shù)據(jù)挖掘方法對應不同的數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘軟件(DM-Software) 指利用不同的編程語言,對不同的數(shù)據(jù)挖掘算法的具體實現(xiàn)。數(shù)據(jù)集(Data-Sets) 指數(shù)據(jù)挖掘任務中要挖掘的數(shù)據(jù)集。預言模型(Predict-Model) 指對數(shù)據(jù)集的大量數(shù)據(jù)進行數(shù)據(jù)挖掘后,得到的正確的、有用的和
10、可以被理解并進一步利用的數(shù)據(jù)模型。應用域(Application-Domain) 指當執(zhí)行數(shù)據(jù)挖掘任務時具體的應用領域。2.2關系(Relation)本文歸納了十個數(shù)據(jù)挖掘本體的關系Subclass-of 表達概念之間的繼承關系。如:數(shù)據(jù)挖掘任務和方法都是數(shù)據(jù)挖掘本體的兩個子類。Attribute-of 表達某個概念是另一個概念的屬性。例如:“名稱”是上面列出的概念的一個公有屬性。Part-of 表達概念之間部分與整體的關系。例如:一個數(shù)據(jù)挖掘任務可以分為幾個部分任務來共同完成一個數(shù)據(jù)挖掘任務。Instance-of 表達概念的實例與概念之間的關系,類似于面向?qū)ο笾械膶ο蠛皖愔g的關系。Ado
11、pts 在數(shù)據(jù)挖掘過程中,數(shù)據(jù)挖掘任務采用何種數(shù)據(jù)挖掘方法進行工作。Performed-by 指數(shù)據(jù)挖掘方法由哪個數(shù)據(jù)挖掘算法來執(zhí)行。Implement-algorithm 指數(shù)據(jù)挖掘算法由哪個數(shù)據(jù)挖掘軟件來實施。Handled-data(DM-Software,Data-Sets) 數(shù)據(jù)挖掘軟件要處理的何種數(shù)據(jù)集。Adapted-application 數(shù)據(jù)挖掘任務與實際應用領域的關系,即數(shù)據(jù)挖掘任務適應于何種應用領域。Gained-knowledge(DM-Software, Predict-Mode1) 數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘后預期得到的模型。2.3 實例(Instance) 實例在本體
12、論中代表了概念的一個案例,而每個實例將會繼承其概念的所有屬性或關系。 下面我們以金融業(yè)中的對目標市場中具有相同屬性客戶分類的數(shù)據(jù)挖掘任務為例來描述所構建的數(shù)據(jù)挖掘本體的例子,如圖2所示。圖2 金融業(yè)的目標市場中的數(shù)據(jù)挖掘本體在數(shù)據(jù)挖掘本體中,金融業(yè)是一個應用域概念的實例,對目標市場中具有相同屬性客戶分類是一個數(shù)據(jù)挖掘任務概念的實例;AC2 是一個數(shù)據(jù)挖掘軟件概念的實例。在數(shù)據(jù)挖掘本體中,數(shù)據(jù)挖掘算法與數(shù)據(jù)挖掘軟件間存在叫做“實施算法”的關系,則ID3算法與AC2軟件之間存在這樣的關系。因為它們是從概念間繼承而來的,他們具有相同的屬性和關系。3 基于OWL的數(shù)據(jù)挖掘本體推理在語義Web中,存在一
13、個標準的本體語言OWL DL的,這是描述邏輯(DL)的基礎上,提供了一個良好的表達能力和可計算性的平衡。從這個角度看,通過推理機的幫助信息(隱性知識)可以從知識和數(shù)據(jù)中得到明確,如RACER和FaCT。3.1 本體沖突解決方案如果建設者要建立一個正確的,一致的本體,他/她需要借助于本體推理。所以一個好的本體推理是能夠檢測沖突,包括沖突的實例系統(tǒng),概念和關系系統(tǒng)。例如,神經(jīng)網(wǎng)絡是是數(shù)據(jù)挖掘方法的一個實例,它也是一種分類方法的實例。但隨后,另一個實例被添加到這個本體。owl: DM-Method rdf: about =“Neural Network”rdf: resource =“Cluster
14、ing”/owl: DM-Method此代碼表明,神經(jīng)網(wǎng)絡是一個聚類方法的實例。由于之前神經(jīng)網(wǎng)絡已經(jīng)成為分類方法的實例,分類方法和聚類分析方法是兩個概念,沒有從一個到另一個的交集,結(jié)果導致了不一致的情況,形成實例系統(tǒng)的沖突。這種沖突也存在于概念系統(tǒng),它通常會導致致命的錯誤。所以RACER提供的是檢測一個類是否是另一個類的子類。在所有的概念中通過進行這樣的測試,消除沖突的目的就達到了。3.2 實例分類實例的分類是指把一個實例分類為可以準確描述其特點的種類。因此通過推理實現(xiàn)自動分類有至關重要的實踐意義。推理邏輯是用PAL(Protégé公理語言)設計的,并且它可以用來實現(xiàn)實例分
15、類。下面是一個PAL邏輯推理的例子:定義1數(shù)據(jù)挖掘任務實例的關鍵字和數(shù)據(jù)挖掘方法實例之間的關系只要數(shù)據(jù)挖掘任務關鍵字是當前的,數(shù)據(jù)挖掘的方法將成立?;蛴幸粋€子數(shù)據(jù)挖掘任務隸屬于數(shù)據(jù)挖掘任務并且子數(shù)據(jù)挖掘任務的名稱和數(shù)據(jù)挖掘任務關鍵詞相匹配,所以這個語句是可以成立的。其邏輯推論是:(DM-Task: the DM task (substring-of (DM-Task-Keyword, (the name of DM task)( Sub-DM-Task: the name of DM subtask(be-included (DM task, DM subtask)(substring-of
16、(DM-Task-Keyword, (the name of DM subtask)The Correlation (DM-Task-Keyword, DMMethod).4 數(shù)據(jù)挖掘本體推理的實驗該系統(tǒng)是通過Protégé3.2,Jena2,Java2.1和Java2SDK 1.4的實施的。protégé3.2作為本體編輯和Jena2作為推理機。為了用Jena實現(xiàn)智能查詢功能,必須把兩個方面的工作做得很好。首先,表達所有的概念,關系和OWL和RDF形式的數(shù)據(jù)挖掘有關事例,然后保存為XML文件的形式。這部分包括兩個步驟:使用OWL表示本體概念并保存為Co
17、ncept.owl文件。這些概念是數(shù)據(jù)挖掘任務,數(shù)據(jù)挖掘方法,數(shù)據(jù)挖掘算法,數(shù)據(jù)挖掘軟件,數(shù)據(jù)集和新增知識。使用RDF以Instance.rdf的形式保存本體的實例。有分類模型,決策樹法,ID3算法和AC2軟件。根據(jù)查詢條件建立兩個規(guī)則以實現(xiàn)查詢功能。代碼如下:Rule 1 (? X adopts? Y), (? Y subclass of? Z) (?X adopts? Z) /if X can adopt Y and Y is a subclass of Z,so X can also adopt Z.Rule 2 (? X be gained-knowledge? Y), (? X ad
18、opts? Z) (? Y adopts? Z) /if X can gain the knowledge by Y and X adopts Z, then Y can also adopt Z.這兩個規(guī)則都存儲在Jena,然后基于以上兩個相關的XML文件進行推理。代碼如下:Model schema=ModelLoader.1oadModel (“”);Model data=ModelLoader.1oadModel (“file: Instance.rdf”);String rules=“Rule 1: (? X adopts? Y), (? Y subclass of? Z) (? X
19、adopts? Z)”+“Rule2: (? X be gainedknowledge?Y), (? X adopts? Z) (? Y adopts? Z)”;Reasoner reasoner=new GenericRuleReasoner (Rule.parseRules (rules);/*按照現(xiàn)有的推理規(guī)則增加規(guī)則*/reasoner=reasoner.bindSchema(schema);InfModel infmodel = ModelFactory.createInfModel(reasoner,data);Resource Predict-Model=infmodel.get
20、Resource (“urn:x-hp: eg/Predict-Model”);System.Out.println (“Predict-Model* :”);printStatements(infmodel, null, null, Predict-Model);/*通過使用printStatements導出所有與預測模型有關的推理結(jié)果。printStatements的定義如下: */public void printStatements(Model m, Resource s,Property p, Resource o)for(StmtIterator i=m.listStatement
21、s(s,p,o);i.hasnext( )Statement stmt=i.nextStatement();System.out.println (“-”+PrintUtil.print(stmt);/* 以上操作的輸出結(jié)果是:*/Predict-Model*:-(eg: Classification Model owl: subclassof eg: Predict Model)-(eg: Decision Tree owl: subclassof eg: DM-Method)-(eg: ID3 algorithm owl: subclassof eg: DM-Algorithm)-(eg:
22、 AC2 software owl: subclassof eg: DM-Software)-(eg: Classification Model owl: adopts eg: ID3 algorithm)這個輸出證明了使用Jena的推理機可以實現(xiàn)簡單的概念關系推理。5 結(jié)論本文首先介紹了數(shù)據(jù)挖掘知識管理本體推理架構。然后詳細定義了數(shù)據(jù)挖掘本體,包括概念,關系等,構建數(shù)據(jù)挖掘的知識管理架構的底層模塊。最后,介紹了基于OWL DL(S)的數(shù)據(jù)挖掘本體。由于時間有限,這項研究并不完美。因此,未來的研究方向的重點,主要有兩點總結(jié):邏輯推理的自動挖掘。當本研究構建了本體,知識工作者協(xié)助了邏輯推理。在分
23、析過程中,發(fā)現(xiàn)邏輯推理是人類通過分析大量的數(shù)據(jù)挖掘材料實現(xiàn)的。未來,我們可以利用數(shù)據(jù)挖掘技術自動獲取知識。更多的用戶友好的查詢界面。通過圖形化的方式,它可以轉(zhuǎn)換成由OWL自動描述的邏輯表達式。參考文獻1 Hand D, Mannila H. Principles of Data Mining M. Cambridge:MIT Press, 2001.2 Bernstein A, Provost F. Intelligent Assistance for the Data Mining Process: An Ontology-Based ApproachR. New York:New York
24、University, 2002.3 Cannataro M, Comito C. A Data Mining Ontology for Grid ProgrammingEB/OL. 2006-11-09. =10.1.1.14.5123.4 Neches R. Enabling Technology for Knowledge Sharing J,AI Magazine, 1991, 12(3): 36-56.5 Gruber T R. A Translation Approach to Portable Ontology Specifications J. Knowledge Acquisition, 1993, 5(2): 199-220.6 Dean M, Schreiber G. OWL Web Ontology Language Reference EB/OL. 2003-03-31. .7 Noy N F, Fe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東外語外貿(mào)大學南國商學院《材料制備科學與技術》2023-2024學年第一學期期末試卷
- 廣東司法警官職業(yè)學院《會計信息系統(tǒng)分析設計》2023-2024學年第一學期期末試卷
- 廣東生態(tài)工程職業(yè)學院《研學旅行方案設計與產(chǎn)品開發(fā)》2023-2024學年第一學期期末試卷
- 廣東輕工職業(yè)技術學院《半導體集成電路工藝》2023-2024學年第一學期期末試卷
- 廣東茂名健康職業(yè)學院《服裝工藝與結(jié)構》2023-2024學年第一學期期末試卷
- 二年級數(shù)學(上)計算題專項練習
- 【名師一號】2021高考化學(蘇教版)一輪復習課時訓練:11-3烴的含氧衍生物
- 遼寧省錦州市某校2024-2025學年高一(上)期末物理試卷(含解析)
- 湖南省益陽市2024-2025學年高二上學期1月期末質(zhì)量檢測物理試題(含答案)
- 貴州省貴陽市花溪區(qū)高坡民族中學2024-2025學年度第一學期12月質(zhì)量監(jiān)測九年級語文試卷
- 勞動爭議工資調(diào)解協(xié)議書(2篇)
- 機動車駕駛員考試《科目一》試題與參考答案(2024年)
- 2024年四年級英語上冊 Module 8 Unit 2 Sam is going to ride horse說課稿 外研版(三起)
- 重慶南開中學2025屆生物高二上期末聯(lián)考試題含解析
- 高中地理人教版(2019)必修第一冊 全冊教案
- X市科協(xié)領導班子2021年工作總結(jié)
- 2024年新人教版七年級上冊地理課件 第二章 地圖 第二節(jié) 地形圖的判讀
- 2024至2030年中國汽摩配行業(yè)發(fā)展狀況及競爭格局分析報告
- 濰柴天然氣發(fā)動機結(jié)構及工作原理
- 國家開放大學《理工英語2》形考任務1-8參考答案
- 建筑公司證書津貼支付管理辦法
評論
0/150
提交評論