基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型_第1頁
基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型_第2頁
基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型_第3頁
基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型_第4頁
基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Vol. 29, No. 2February,2011第 29卷第 2期 2011年 2月·博士論壇 ·收稿日期 :2010-08-09基金項目 :教育部人文社會科學(xué)重點研究基地重大項目 (2009JJD870002; 教育部人文社會科學(xué)研究項目 (2008JA870013 作者簡介 :唐曉波 (1962-, 男 , 湖北仙桃人 , 教授 , 博士生導(dǎo)師 , 主要從事管理信息系統(tǒng) 、 信息資源集成與利用研究 .伴隨著信息時代的到來 , 不同種類 , 不同領(lǐng)域的 信息正以指數(shù)級增長 , 在這個知識爆炸的時代 , 如何 從浩如煙海的信息中找出對自己有用的信息并加以 分析 、 利

2、用 , 是目前擺在數(shù)據(jù)挖掘領(lǐng)域的主要課題 。 傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是基于數(shù)據(jù)倉庫 , 這類數(shù)據(jù)倉 庫通常有上百個屬性和數(shù)萬個記錄 , 并且數(shù)據(jù)表之 間包含復(fù)雜的關(guān)系 , 這就必然導(dǎo)致數(shù)據(jù)挖掘過程中搜索維數(shù)和搜索空間的激增 , 同時也增加了不確定 性和錯誤模式出現(xiàn)的可能性 【 1】 。 同時 , 現(xiàn)有的信息大 多是異構(gòu)的 , 目前的數(shù)據(jù)挖掘技術(shù)在處理異構(gòu)信息 方面還顯得比較困難 。 針對這樣的情況 , 學(xué)界提出了 一種基于領(lǐng)域本體的數(shù)據(jù)挖掘技術(shù) 。 領(lǐng)域本體是某 一領(lǐng)域概念和關(guān)系的總和 , 數(shù)據(jù)挖掘系統(tǒng)在處理這 樣的結(jié)構(gòu)化信息時更有針對性 。 本文將在充分分析基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型

3、唐曉波 1,2, 羅毅 2(1. 武漢大學(xué) 信息資源研究中心 , 湖北 武漢 430072; 2. 武漢大學(xué) 信息管理學(xué)院 , 湖北 武漢 430072 摘要 :數(shù)據(jù)挖掘已成為情報學(xué)的研究熱點 , 而傳統(tǒng)的數(shù)據(jù)挖掘過程是在數(shù)據(jù)倉庫的基礎(chǔ)上 , 面向結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析 , 這在很大程度上限制了數(shù)據(jù)挖掘的作用范圍和效果 。 在充分分析數(shù)據(jù)挖掘 和領(lǐng)域本體等相關(guān)理論后 , 提出了一個面向領(lǐng)域本體 , 應(yīng)用語義相似度匹配的數(shù)據(jù)挖掘模型 。 該模 型在理論上解決了用戶的目標(biāo)發(fā)現(xiàn)和挖掘?qū)ο筮x擇的問題 , 同時也在數(shù)據(jù)挖掘算法上引入了本體 概念 , 使得系統(tǒng)能快速識別用戶需求 , 高效的選擇相應(yīng)算法 ,

4、在很大程度上提高了數(shù)據(jù)挖掘處理異 構(gòu) 、 分布式數(shù)據(jù)的能力 。關(guān)鍵詞 :領(lǐng)域本體 ; 語義相似 ; 數(shù)據(jù)挖掘 中圖分類號 :G350; TP311文獻(xiàn)標(biāo)識碼 :A文章編號 :1007-7634(2011 02-0275-04A Data Mining Model Based on the Domain Ontology and SemanticSimilarityTANG Xiao-bo 1,2, LUO Yi 2(1.Center for Studies of Information Resources of Wuhan University , Wuhan 430072, China ;2

5、.School of Information Management, Wuhan University, Wuhan 430072,China Abstract :Data mining has become the focus of research in information science, while the traditional data mining process is based on the data warehouse, facing structured data and analyzing, which largely limits the scope and ef

6、fectiveness of data mining. In this paper, after the full analysis of data mining and other related theory such as domain ontology, it proposes a data mining model. The model solves the problem of the user's target discovery and the choice of the mining object in theory, while incorporates the c

7、oncept of ontology in the data mining algorithms, making the system quickly identifies the user needs and selects the appropriate algorithm efficiently. It improves the capacity of the dealing with heterogeneous, distributed data.Keywords :domain ontology ; semantic similarity ; data mining情 報 科 學(xué)27

8、6情 報 科 學(xué) 29卷這些理論的基礎(chǔ)上提出一個基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型 。1領(lǐng)域本體和語義相似度在人工智能界 , 最早給出本體 (Ontology 定義的是 Neches 等人 , 他們將 Ontology 定義為 “ 給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系 , 以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義 ”。后來在信息系統(tǒng) 、 知識系統(tǒng)等領(lǐng)域 , 越來越多的人研究 Ontology , 并給出了許多不同的定義 。 其中最著名 并 被 引 用 得 最 為 廣 泛 的 定 義 是 由 Gruber 提 出 的 , “ 本體是概念化的明確的規(guī)范說明 ” 【 2】 。領(lǐng)域

9、本體就是對某一領(lǐng)域概念及實體間關(guān)系的 形式化描述 , 是在語義和知識層面上表達(dá)信息系統(tǒng) 的概念化模型 , 其目標(biāo)是捕獲相關(guān)領(lǐng)域的知識 , 提供 對該領(lǐng)域知識的共同理解 , 確定該領(lǐng)域內(nèi)共同認(rèn)可 的詞匯 , 并從不同層次的形式化模式上給出這些詞 匯和詞匯間相互關(guān)系的明確定義 【 3】 。語義相似度是指不同詞語之間的可替代程度 , 國內(nèi)學(xué)者劉群等 【 4】 對語義相似度的定義是兩個詞語 在不同的上下文中可以互相替換使用而不改變文本 的句法語義結(jié)構(gòu)的程度 。 即若兩個不同詞語在上下 文中互相替換且不改變文本的句法語義結(jié)構(gòu)程度的 可能性越大 , 那么這兩個詞語的相關(guān)性越高 , 反之越 低 。 度量兩個

10、詞語關(guān)系的另一個重要指標(biāo)是詞語的 相關(guān)度 。 詞語相關(guān)度是指兩個詞語在同一語境共現(xiàn) 的可能性 , 它反映了兩個詞語的相互關(guān)聯(lián)程度 。 可以 認(rèn)為 【 5】 , 語義相似度反映概念之間的聚合特點 , 而詞 語相關(guān)度則反映概念之間的組合特點 。2基于領(lǐng)域本體和語義相似度的 數(shù)據(jù)挖掘模型用戶需求是數(shù)據(jù)挖掘的驅(qū)動力 , 任何挖掘過程 都是從用戶的需求描述開始的 , 數(shù)據(jù)挖掘是一個對 技術(shù)性 、 專業(yè)性要求都較高的處理過程 , 它不但需要 領(lǐng)域?qū)<业膮⑴c , 還需要相關(guān)技術(shù)的支持 。 比如在用 戶需求分析的時候需要用到分詞系統(tǒng) , 本體推理機 等 ; 在用戶需求與挖掘算法和本體庫的匹配過程中 則要用到本

11、體相似度的匹配算法 。 基于領(lǐng)域本體和 語義相似度的數(shù)據(jù)挖掘模型由以下幾個部分組成 :用戶需求發(fā)現(xiàn)模塊 , 功能需求分析模塊 , 內(nèi)容需求分 析模塊 , 數(shù)據(jù)挖掘模塊 , 如圖 1所示 。圖 1基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型3基于領(lǐng)域本體和語義相似度的 數(shù)據(jù)挖掘過程3.1用戶需求發(fā)現(xiàn)和任務(wù)本體的確定用戶需求發(fā)現(xiàn)又稱為用戶需求描述 , 也稱為用 戶需求推理 。 它包含兩方面的內(nèi)容 , 一個是用戶對所 要挖掘的數(shù)據(jù)的概念性描述 , 即內(nèi)容描述 ; 另一方面 是用戶對于所要進(jìn)行的數(shù)據(jù)挖掘功能的描述 , 即功 能性描述 。 這個過程需要用戶需求發(fā)現(xiàn)模塊進(jìn)行分 析 , 并且需要相關(guān)的算法進(jìn)行匹配

12、 。用戶向系統(tǒng)提交一個任務(wù)需求 , 分詞系統(tǒng)自動 過濾掉虛詞和一些不必要的詞匯后 , 通過實體識別 和主題詞提取獲得問題的特征信息 , 之后在規(guī)則庫 的指導(dǎo)下 , 將特征信息通過同領(lǐng)域本體中概念或者 屬性的匹配并遵循一系列的規(guī)則組成任務(wù)本體 【 6】 。圖 2用戶需求發(fā)現(xiàn)模塊用戶需求 【 7】 可表示為如下所示的五元組 :ID , Content , Function Requirement , Mining Type , Mining Constraint 。 其中 ID 為用戶的標(biāo)識 ; Content 為用戶 對于挖掘內(nèi)容的描述 ; Function Requirement 為用戶 對算

13、法的功能要求 , 包括算法的輸出格式要求 、 用戶 對算法的運行時間容忍度 、 挖掘結(jié)果的可理解性要 求等 , 它直接影響著挖掘算法的選擇 ; Mining Type 為挖掘任務(wù)的類型 , 說明需要進(jìn)行何種類型的挖掘 , 如分類 、 聚類 、 關(guān)聯(lián)分析等 ; Mining Constraint 為用戶對數(shù)據(jù)挖掘的功能性約束 , 用于詳細(xì)限定目標(biāo)算法 的作用范圍或輸出結(jié)果 。3.2目標(biāo)領(lǐng)域本體范圍的確定目標(biāo)領(lǐng)域本體是指數(shù)據(jù)挖掘過程所指向的一個 領(lǐng)域本體庫 。 根據(jù)第一步分析出的任務(wù)本體 , 我們可 以在本體庫中發(fā)現(xiàn)目標(biāo)領(lǐng)域本體 , 這過程要使用本 體相似度算法 , 該算法是將任務(wù)本體與本體庫進(jìn)行

14、 匹配 , 找出所要進(jìn)行數(shù)據(jù)挖掘的目標(biāo)領(lǐng)域本體 【 8】 。 對于本體的相似度有多種計算方法 , 我國學(xué)者 孫海霞 【 9】 等在 基于本體的語義相似度計算方法研 究綜述 中總結(jié)了四種語義相似度計算方法 , 分別是 基于距離的語義相似度計算 , 基于信息內(nèi)容的語義 相似度計算 , 基于屬性的語義相似度計算和混合式 語義相似度計算 。 這四種算法使用范圍不同 , 效率也 各有優(yōu)劣 , 在確定目標(biāo)領(lǐng)域本體的范圍時 , 采用基于 信息內(nèi)容的語義相似度計算效率為最高 。 這種算法 的基本思想是 :(1 將要比較的兩個概念詞相關(guān)的 詞匯進(jìn)行統(tǒng)計 , 如果他們之間共享的信息越多 , 那么 他們之間的語義相

15、似度就越大 , 反之就越小 。 (2 我 們將所有的本體概念用樹的結(jié)構(gòu)進(jìn)行歸納 , 稱為本 體分類體系樹 。 該算法認(rèn)為 , 每個概念子節(jié)點都是其 雙親結(jié)點或祖先結(jié)點概念的細(xì)化和具體化 。 因此 , 可 以通過被比較概念詞的公共父節(jié)點概念詞或公共祖 先結(jié)點所包含的信息內(nèi)容來衡量它們之間的相似 度 。記 C 為某本體分類體系樹中所有概念詞的集 合 , P(c為實例概念詞 c 出現(xiàn)的概率 , ic(c為實例概 念詞 c 所包含的信息內(nèi)容 , 則定義 【 12】 :Freq (c = n ;P (c =freq (c /N;ic (c =-lnp (c 其中 , N 為 C 中概念詞總數(shù) , wor

16、ds(c表示 c 所 包含的子概念詞集合 , 實例概念詞 c 出現(xiàn)的概率 p(c為其所包含的所有子概念詞在分類體系樹中出現(xiàn)的 頻率之和 ?;谝陨系亩x , 我們就可以衡量目標(biāo)概念詞 和領(lǐng)域本體之間的語義關(guān)系 。 基本思想是 :若某個概 念詞在某一領(lǐng)域本體內(nèi)出現(xiàn)的概率較高 , 那么這個 詞所含的該領(lǐng)域知識也就越豐富 , 由于他的子節(jié)點 是他自身概念的細(xì)化和具體化 , 這樣他的子節(jié)點就 與該領(lǐng)域本體關(guān)系較為密切 。將 上 述 算 法 推 廣 至 多 個 概 念 詞 C1、 C2、 C3 Cn , 在本體分類體系樹中 , 一個子節(jié)點概念詞往往 對應(yīng)著多個父節(jié)點概念詞 , 因此 , 比較概念詞 C1

17、、 C2、 C3 Cn 的公共父節(jié)點概念詞可能不止一個 , 一般取 p 值最小 (即所含信息內(nèi)容最多 的那個 。 記 S (C1, C2, C3 Cn 為所有被比較概念詞的公共父 節(jié)點概念詞集 , 則 :Pmis (C1, C2, C3 Cn =minp(C ;基于這樣的思想 , Lord 【 10】 和 Resnik 【 11】 等都曾提 出了使用共享父節(jié)點所包含的信息內(nèi)容來計算概念 詞間語義相似度的算法 。 Lin 【 12】 在他們的基礎(chǔ)上對算 法進(jìn)行了完善 , 提出如下計算語義相似度模型 :Sim (C1, C2, C3 Cn =nlnPmis (C1, C2, C3 Cn / lnp

18、(C1+lnp(C2+ lnp(Cn。3.3數(shù)據(jù)挖掘算法發(fā)現(xiàn)用戶提供的需求根據(jù)定義可知共有 5個部分 , 即 :ID ; Content ; Function Requirement ; Mining Type , Mining Constraint 【 7】 。這 其 中 , Function Requirement ; Mining Type 和 Mining Constraint 用來描述所要采用的數(shù)據(jù)挖掘算 法 , 系統(tǒng)在分析出用戶提供的這三方面的內(nèi)容后 , 與 數(shù)據(jù)挖掘算法本體庫進(jìn)行匹配 , 最后確定將要采用 的具體算法 。仿照用戶需求的定義 , 我們可以將數(shù)據(jù)挖掘算 法本體定義為如

19、下三元組 :F, T , R, 其中 , F 為算法 的功能 ; T 是描述算法的類型 ; R 則為算法的作用范 圍和輸出結(jié)果集 。 本體結(jié)構(gòu)如圖 3所示 。我們定義如下函數(shù) Sim (w1, w2 【 8,13】 , 其中 w1, w2 F, T , R。Sim (w1, w2 0, 1;Sim (w1, w2 =1=>w1=w2, 表示兩個屬性相同 ; Sim (w1, w2 =0, 表示兩個屬性互不相關(guān) 。圖 3數(shù)據(jù)挖掘算法本體這里我們選擇了基于屬性的語義相似度算法 , 這種算法認(rèn)為概念由屬性表示其特征 , 概念之間的 關(guān)聯(lián)程度可以通過他們之間屬性的相似程度來反 映 。 它的基本計

20、算方法是比較概念具有的特定屬性 的屬性值 。 相同屬性的數(shù)目越多 , 相似程度越高 。 Tversky 曾提出一種算法 【 9】 :Sim (w1, w2 =f (w1 w2 -f (w1-w2 -f (w2-w12期 基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型 277278情 報 科 學(xué) 29卷w1 w2表示概念 w1和 w2共有的屬性集 , w1-w2表示概念 w1擁有而概念 w2沒有的屬性集 , w2-w1表示概念 w2擁有而概念 w1沒有的屬性集 。 參 數(shù) , 分別表示 w1和 w2的公共屬性和非公共屬 性對其相似度計算的影響程度 , 參數(shù)值的確定由具 體任務(wù)決定 , 且由于概念詞相似度

21、的非對稱性 , 和 值不一定相同 。4數(shù)據(jù)挖掘?qū)崿F(xiàn)方法我國學(xué)者施鳳飛 【 14】 等在 數(shù)據(jù)挖掘和知識發(fā)現(xiàn) 方法研究 一文中歸納總結(jié)了十種數(shù)據(jù)挖掘方法 , 分 別為決策樹方法 ; 神經(jīng)網(wǎng)路方法 ; 覆蓋正例 , 排斥反 例方法 ; 粗集方法 ; 概念樹方法 ; 遺傳算法 ; 公式發(fā) 現(xiàn) ; 統(tǒng)計分析方法 ; 模糊論方法和可視化技術(shù) 。 本文結(jié)合領(lǐng)域本體和數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)挖 掘 , 我們在進(jìn)行具體的設(shè)計時是基于這樣的思想 :領(lǐng) 域本體中的數(shù)據(jù)都是嚴(yán)格結(jié)構(gòu)化的 , 并且數(shù)據(jù)是存 在層次結(jié)構(gòu)的 。 用樹來表示本體庫的存儲結(jié)構(gòu) 。 那 么 , 庫中的任何一個數(shù)據(jù)與其關(guān)系最為密切的就是 該節(jié)點的兄弟

22、節(jié)點位置的數(shù)據(jù) , 這樣 , 我們在調(diào)用數(shù) 據(jù)挖掘算法時主要是對同一層次的本體數(shù)據(jù)進(jìn)行比 較分析 , 因此 , 這個數(shù)據(jù)挖掘過程就是對本體庫的一 個廣度優(yōu)先遍歷的過程 。 具體算法如下 :DM Tree T /新建一個本體樹 If (T child=NULL;FDM (T ; /對根節(jié)點調(diào)用數(shù)據(jù)挖掘 算法else BFS (T child ; /若子樹不為空 , 廣度 優(yōu)先遍歷根節(jié)點的所有孩子節(jié)點FDM (T child ; /對存儲的孩子節(jié)點 調(diào)用數(shù)據(jù)挖掘算法 ;/至最后一個葉子節(jié) 點5結(jié) 語本文在領(lǐng)域本體和數(shù)據(jù)挖掘的理論基礎(chǔ)上提出 了基于領(lǐng)域本體和語義相似度的數(shù)據(jù)挖掘模型 , 該 模型不僅

23、是面向本體庫 , 同時也將挖掘算法用本體 論的方法進(jìn)行處理 , 以便能高效的選擇相應(yīng)的算法 。 本文的創(chuàng)新之處在于改變了傳統(tǒng)面向數(shù)據(jù)倉庫的數(shù) 據(jù)挖掘 , 將領(lǐng)域本體和本體相似的概念引入了數(shù)據(jù) 挖掘的數(shù)據(jù)準(zhǔn)備階段 , 在數(shù)據(jù)挖掘過程中 , 將整個挖 掘算法簡化為數(shù)據(jù)結(jié)構(gòu)中的樹的廣度遍歷過程 。 但 在具體操作過程中 , 還有一些實現(xiàn)細(xì)節(jié)沒有完善 , 下 一步的工作就是要制定出現(xiàn)存的領(lǐng)域本體庫的標(biāo) 準(zhǔn) , 并且將已有的數(shù)據(jù)倉庫數(shù)據(jù)本體化 。 同時要在充 分研究理論的基礎(chǔ)上開發(fā)出基于領(lǐng)域本體和語義相 似度的數(shù)據(jù)挖掘原型系統(tǒng) , 并在此基礎(chǔ)上研究如何 進(jìn)行更深層次的用戶需求感知和人機交互的問題 。參考

24、文獻(xiàn)1梁 田 . 淺析數(shù)據(jù)挖掘在數(shù)字圖書館信息服務(wù)中的應(yīng)用 J.高校圖書情報論壇 , 2009, 8(2:31-34.2EB/OL.http :/ 2010-05-25.3盧 燚 , 張 波 . 基于政務(wù)主題詞表的政府信息本體構(gòu)建及 應(yīng)用 J.計算機工程與設(shè)計 , 2010,31(3:521-524.4劉 群 , 李素建 . 基于 知網(wǎng) 的詞匯語義相似度計算 J.中 文計算語言學(xué) , 2002, 7(2:59-76.5段壽建 , 楊朝鳳 , 甘健侯 . 基于領(lǐng)域本體的概念語義相似度 和相關(guān)度綜合量化研究 J.現(xiàn)代圖書情報技術(shù) , 2009,(11: 40-43.6王 棟 , 向 陽 , 張 波 . 本體在數(shù)據(jù)挖掘系統(tǒng)中的應(yīng)用研 究 J.計算機工程與應(yīng)用 , 2009,45(5:11-12.7陳 英 , 顧國昌 . 基于領(lǐng)域本體的數(shù)據(jù)挖掘服務(wù)發(fā)現(xiàn)算法 J.計算機工程與應(yīng)用 , 2008, 44(18:150-152.8趙捧未 , 袁 穎 . 基于領(lǐng)域本體的語義相似度計算方法研究 J.科技情報開發(fā)與經(jīng)濟 , 2010,20(8:74-77.9孫海霞 , 錢 慶 , 成 穎 . 基于本體的語義相似度計算方法 研究綜述 J.知識組織與知識管理 , 2010,(1:51-56. 10Lo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論