版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、安徽三聯學院課程論文無線網絡技術課程(論文) 題 目: 模糊理論在信息檢索中的應用 學生姓名 1: 孟朋朋 學 號: 130101062 學生姓名 2: 王磊 學 號: 130101063 所在系院: 計算機工程學院 專業(yè)班級: 13計科2班 指導教師姓名: 裴培 職稱/學位: 助教 碩士 完成時間: 2016 年 6 月計算機工程學院 制摘要:模糊理論是為了解決真實世界中普遍存在的模糊現象而發(fā)展的一門學問。模糊理論以模糊集合為基礎 ,基本精神是接受模糊性現象存在的事實 ,而以處理概念模糊不確定的事物為其研究目標 ,并積極地將其嚴密量化成計算機可以處理的信息。本文首先簡介模糊理論 ,而后將模糊
2、理論在信息檢索上的應用做一探討。希望通過本文 ,使大學對模糊理論有更深入的了解 ,并且思考如何將之更廣泛地應用于圖書信息學上。關鍵詞:模糊理論模糊集合 信息檢索1對模糊理論的一般解釋 基于康托經典集合論的精確數學要求: 一個元素 a 和一個集合 A 的關系只存在 aA 和 aA 兩種情況 。集合可以通過特征函數描述,每個集合 A 都有一個特征函數 C A ( a) ,其定義用下式表示 : 1 當 a AC A ( a) = 0 當 a A該式表明, 經典集合論容不得模糊概念。這對現實世界存在的大量模糊現象的解釋造成困難。針對這一情況, 美國自動控制專家查德( L. A. Zaden) 于 60
3、 年代初提出了“模糊集合”( Fuzzy set) 概念。其基本出發(fā)點是用“隸屬函數”概念來描述差異的中間過渡。這是首次從精確性向模糊性的逼進 。通過隸屬函數對經典集合論中的特征函數加以推廣 ,并由此引入了“模糊子集”概念。模糊子集定義如下 : 設給定論域 u,u 到閉區(qū)間 0 ,1 的任一映射 A 為: A : u 0 ,1確定 u 的一個模糊子集 A , A 為 A 的隸屬度 。正如經典集合論是傳統(tǒng)精確數學的基礎一樣, 模糊子集論也正是模糊理論的基礎 ,同樣也可以定義模糊子集上的運算??傊? 模糊理論可以將傳統(tǒng)的二值邏輯 0, 1 ,推廣至可取 0,1 閉區(qū)間任意值即無窮多個值的連續(xù)值邏輯
4、。2. 信息檢索中引入模糊理論的必要性 2.1傳統(tǒng)信息檢索方法存在的問題 2.11 通過檢索語與索引語的精確匹配來進行檢索, 只能檢索到二者完全相同的信息。 傳統(tǒng)的信息檢索以精確數學、普通的集合理論為基礎, 檢索系統(tǒng)主要基于三種經典檢索模型:布爾模型、 向量空間模型和概率模型。 這三種模型的檢索過程是通過檢索者輸入的關鍵詞 ( 或稱檢索語) 與信息所登錄的關鍵字 ( 或稱索引語)之間的精確匹配來完成的, 只能檢索到檢索語與索引語完全相同的信息, 而對于二者在一定程度上一致或意義相近、 相關的信息卻無法查詢。 2.12傳統(tǒng)的檢索方式中檢索者雖然可以利用檢索語之間的邏輯運算及其組合來表達檢索要求,
5、 但卻無法描述檢索者對檢索語的重視程度以及檢索語對信息是否貼切等許多問題。 2.13 只能對一些具有確定含義的信息進行訪問和處理。在客觀世界中, 許多事物都表現出其不完全或不精確的一面, 例如, 我們常說的 “ 高與矮”、“ 胖與瘦” 、 “ 美與丑”,這些詞都是屬于模糊概念, 既難以準確地加以度量, 也難以明確地劃分界限。 在檢索此類信息時傳統(tǒng)的檢索方法無法進行。2.2信息發(fā)展的模糊性2.21 信息的模糊性 現代科學技術的發(fā)展及其滲透, 許多新興學科、 邊緣學科、 交叉學科不斷涌現, 使學科的分類呈現出模糊性。如 “ 生物電子學”, 它既涉及到生物學范疇, 又與電子學有關, 在對文獻進行學科
6、分類時, 只能根據文獻對這兩門學科的側重點多少來大概劃分是屬于生物學還是屬于電子學方面。 在情報學范疇, 學科分類的模糊性必將反映到分類法和敘詞表中, 使分類類目和敘詞表達范圍變得模糊。 因此, 隨著科學技術的發(fā)展, 信息也呈現出模糊性。2.22 信息檢索結果評判的模糊性 我們經常用 “ 文獻是否相關”、 “ 文獻是否切題” 來對信息檢索的結果進行評判, 相應的 “ 相關性” 、 “ 切題性”也就成了評判信息檢索結果的兩個重要指標。“相關性” 是指信息檢索時檢索系統(tǒng)中被命中文獻與用戶需求文獻相吻合的程度。文獻的相關與不相關不是絕對的, 它本身就是模糊的, 且它們之間沒有明確的界限。對用戶來說,
7、 由于受多種因素 ( 比如表達信息要求不完整, 或表達不夠明確,或在檢索過程中對所需信息有所調整等)的影響, 檢索出的文獻與實際需求只有一定程度的主題相關。 而用戶檢索出的相關文獻并不一定意味著所檢文獻與用戶的需求相吻 合。 信息需求與文獻相符的性質稱為切題性。 切題性體現了用戶在作判定時, 文獻滿足用戶需求的程度, 是否切題只有在用戶閱讀后才能確定。 其原因在于 :提問一般是固定不變的, 而信息需求是不穩(wěn)定的、 可變的。 在檢索過程中, 用戶閱讀已獲文獻可能會影響他原來的信息需求, 從而影響他對后來檢索出文獻的切題性判斷。 因此, 判斷文獻是否切題也沒有嚴格的界限, 它更具模糊性、 主觀性。
8、3模糊理論在信息檢索中的應用 針對傳統(tǒng)信息檢索方法存在的問題和現代信息發(fā)展的特點, 許多學者對如何利用模糊集合理論來完善和改進信息檢索方法做了大量的研究, 使檢索效果更理想, 檢索過程更具人性化。3.1對信息檢索結果進行模糊聚類分析 該分析方法建立在下述假設基礎上: ( 1)信息集合中任一單元都可以用若干標引詞 t i (i =1, 2, , n)表示; ( 2)一篇文獻中抽取的各個標引詞對原文內容的揭示程度存在差異; ( 3)一篇文獻中所使用的標引詞個數和各標引詞的數值, 可以作為反映文獻信息主要內容的有用數據。具體步驟如下: ( 1)確定相似系數。 確定相似系數的方法有多種, 一般常用的有
9、貼近度法、 絕對值減數法和余弦計算法。 ( 2)利用相似系數, 建立模糊相似矩陣 R。 所建立的模糊相似矩陣 R , 一般具有自反性、 對稱性。 ( 3)模糊聚類分析。 有兩種方法:利用模糊等價關系進行模糊聚類分析將模糊相似矩陣 R 根據傳遞閉包法改造成模糊等價矩陣t( R), 然后進行分類。 使用模糊集的 水平截集來實現模糊集與普通集之間的相互轉化。 對于任意給定的置信水平 0, 1 , 則模糊等價矩陣的 截矩陣t( R) 只有 0 和1 兩種結果 ( 當相似系數大于或等于 時結果為 1, 反之當相似系數小于 時結果為 0) 。 因此, 對不同的置信水平,可以得到不同的水平截集, 從而得到不
10、同的 截矩陣。 當從 1 降至 0時, 按 所得的分類結果將由細變粗, 逐步歸并 , 從而形成一個動態(tài)的聚類圖。 這樣, 就可根據實際情況和置信水平來鑒別文獻之間的接近程度, 并把彼此接近的文獻歸為一類。利用最大樹方法進行模糊聚類分析將相似系數從大到小排列, 以所有文檔作為頂點, 將相似系數相同的頂點連接, 并在相應的線段上注明該相似系數作為該邊的權( 不能出現相交線)。若在連接某兩個頂點時出現回路, 則不連接此邊, 直到全部對象連通為止,從而得到了最大樹( 此樹不一定惟一)。通過這種方法得到的樹, 其邊的權最大, 所以稱為最大樹。 取 0, 1 ,去掉線段上值小于 的連線, 就可得到一個不連
11、通的圖,而剩下互相連接的連通分支就在水平 上聚于一類。 根據不同的 , 可以得到結果不同的聚類圖, 再根據實際情形,分析得到聚類結果。3.2對自然語言的加權標引 自然語言表示中帶有大量含有模糊性的詞匯, 為了描述這些模糊詞匯, 首先需要為之建立表現其含義的隸屬函數, 在具體運用中, 由于事物本身具有的不確定性和人們認識事物的局限性, 所以只能建立近似的隸屬函數表示。隸屬函數的確定方法有多種, 其中利用模糊分布函數去逼近隸屬函數的方法使用最為廣泛, 常用的幾種最主要的模糊函數分布為:( 1)左大右小的偏小型下降函數 1 X C (x)= 1+a(x-c)b -1 X >C其中:C 是論域U
12、 中任意一點, a 和 b 是兩個參數,且 a>0, b>0。( 2)右大左小的偏小型上升函數 1 X C (x)= 1+a(x-c)b (-1) X <C其中:C 是論域U 中任意一點, a 和 b 是兩個參數,且 a>0, b>0。( 3)對稱中間型正態(tài)凸函數 (x) =e -k(x-c)2其中:C 是論域U 中任意一點, k 是參數, 且 k >0。用自然語言來描述的信息是模糊的, 但有時模糊詞匯的程度不同也會引起表示含義的不同, 例如,“漂亮” 與“很漂亮 ”兩個模糊詞匯表示的含義是有所區(qū)別的。 因此,為了更好地表述自然語言, 需要對模糊詞匯作定量分
13、析,以區(qū)分和確定模糊性的不同程度, 常見的修飾詞如:非常、特別、 很、 比較、 相當、 有點、 稍微、 大略、 大約等, 稱為語言算子, 并分為三類:( 1)語氣算子用來描述模糊詞匯的表示程度, 一種為集中化算子,如: “ 很”、 “ 極” 等, 具有強化作用, 可以使隸屬函數的分布呈尖銳化 ;另一種為松散化算子, 如: “ 較”、“ 稍微”等, 具有使隸屬函數分布趨于平坦化的作用, 帶有語氣算子的模糊詞匯隸屬函數表示為: HA ( X)= A ( X) 其中:A 為模糊詞匯, H 為語氣算子。 可以假設:H 4代表 “極” , 定義為描述的模糊詞匯的 4 次方;H 2 代表“很”,定義為描述
14、的模糊詞匯的 2 次方;H 1/2 代表 “ 稍微有點” , 定義為描述的模糊詞匯的1/ 2次方。由于集中化算子的冪次大于 1( >1) , 經過乘方運算后, 隸屬函數曲線向中央集中, 冪次越高分布越集中, 表示的范圍越狹窄;相反, 松散化算子的冪次小于 1 (<1), 經過乘方運算后, 隸屬函數曲線向兩邊散開, 冪次越低分布越平坦, 表示的范圍越寬廣。( 2)模糊化算子用于將肯定詞匯轉為模糊詞匯或將模糊詞匯變得更加模糊 , 如:“ 大約”、 “ 近似于”、 “ 約等于” 等修飾詞都屬于模糊化算子, 帶有模糊化算子的模糊詞匯隸屬函數表示為: FA ( X)= EA ( X)= vy
15、 U ( E (x, y) T A ( y) ( 或 A ( X) ) )其中:A 若為精確詞匯, 其特征函數為 T A (x), 若為模糊詞匯, 其隸屬函數為 A (x);F 為模糊化算子;E 是論域U 上的一個相似關系; E (x , y)=e-x-y20 x -y ( >0)為參數, 用于調節(jié)模糊詞匯的表示范圍。( 3)判定化算子與模糊化算子具有相反作用, 如:修飾詞 “ 傾向于” 、“ 偏向于” 等, 是將模糊詞匯進行肯定化處理并作出傾向性判斷 , 具體處理方法有點類似于 “ 四舍五入” , 判定化算子在實際應用中并不多見。2. 3提高用戶需求提問與檢索系統(tǒng)輸入的相關性 由于傳統(tǒng)
16、的檢索模型對不確定性知識的處理有其固有的局限性, 在文檔信息或是用戶查詢具有模糊性的時候,它就不能很好地滿足用戶的查詢需求。 為了克服這一缺點,可以采用基于模糊語言方法的信息檢索系統(tǒng)模型, 通過引入語言變量的概念, 在信息表示中考慮語言值權重, 用語言值權重替代數值權重, 而在文檔表示上 , 引入了數值權重。 權重系數語言變量采用有序語言值集合 S , 假設 S =s i , i 0, 1, 2, , N為一語言值集合。 其中的每個元素均為描述某個語言變量的同種類型的語言值, 該集合中元素的個數稱為集合的勢, 勢表征了語言值集合描述語言變量信息模糊程度大小的粒度, 勢值越小, 則語言值集合描述
17、該語言變量越模糊, 反之, 越精細。 但該值越大,所需的計算量也越大, 綜合權衡, 取勢值的大小為 7 或 9。若 S 具有下列性質:如果 i j, 有 s i s j 。 其中 s i 、 s j 為語言值在 0, 1 上所代表的模糊數。 則稱 S 為有序語言集合。如果其元素在 0, 1 上呈對稱分布, 則它滿足如下運算:( 1)求極大:MAX( s i , s j )=s i , 如果 s i s j ;( 2)求極小:MIN(s i , s j ) =s j , 如果 s i s j ;( 3)求反:Neg(s i )=s j , 其中 j=N -i。隨著科技發(fā)展的多元化和現代信息發(fā)展的
18、特點, 模糊集合理論在信息檢索中的應用日趨廣泛, 因此許多學者對此進行了大量的研究, 取得了一些成果, 但絕大部分的研究僅僅是局限于理論研究, 目前我們所使用的數據庫檢索系統(tǒng)仍然主要是基于傳統(tǒng)的集合理論, 對于如何將模糊集合理論的優(yōu)勢有效的運用于實際信息檢索之中, 還是一個亟需解決的問題。4模糊理論在信息檢索中應用現狀的分析 綜上所述, 模糊檢索對用戶查詢的檢索結果是一個建立在文獻集上,且其隸屬函數就是文獻信息對用戶查詢的相關程度的模糊子集。就目前的水平來說, 隸屬函數在很大程度上并沒能完全反映出文獻對用戶查詢相關度的真實情況。其主要原因是: (1)在對文獻信息進行加權標引時 ,設定文獻信息是
19、標引詞集上的模糊子集, 它假定了標引詞集中各個標引詞之間是相互獨立的 ,這符合模糊理論的要求 ,但由于概念相關的模糊性 ,兩個標引詞在不同程度上總存在著語義上的關聯 。另外, 上述模糊子集的隸屬函數雖然反映了文獻信息對標引詞的論述深度 ,但還沒有十分有效的方法精確地確定這個隸屬函數 。目前可以知道 ,確定這個隸屬函數的依據是文獻對標引詞 t 的論述程度與標引詞 t 在文獻信息中的出現頻數存在著某種一致性 。 (2)提問匹配中引入的模糊算子是 Max 和 Min 算子 ,它們雖然簡易計算 ,卻不能很好地反映真實的匹配過程。目前人們也定義了一些所謂的“廣義模糊算子” ,但由于它們也只能在一定程度上反映匹配過程 ,且計算復雜 ,因而還沒有被廣泛地應用。5模糊理論應用于信息檢索領域的進一步發(fā)展 應該說 ,模糊理論應用于信息檢索應包括兩個階段: 理論探討階段和實際應用階段 。目前,模糊理論應用于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度針對乙方利益最大化的倉儲設施租賃協議3篇
- 二零二五版?zhèn)€人住房貸款貸款資料保存及保密協議3篇
- 2024版臨時設施租賃合同(建筑工地用)
- 二零二五年度知識產權質押擔保合同模板匯編及操作流程3篇
- 2025年度教育機構租賃合同關于設施設備維護的補充協議2篇
- 武漢晴川學院《性別、婚姻與家庭》2023-2024學年第一學期期末試卷
- 二零二五年度企業(yè)資產剝離合同
- 2024版洗衣機銷售合同模板范本
- 二零二五版房地產項目投資合作框架協議范本剖析6篇
- 二零二五版跨境電商物流合作承諾合同
- 服務經營培訓課件ppt 老客戶經營綜合版
- MT/T 199-1996煤礦用液壓鉆車通用技術條件
- GB/T 6144-1985合成切削液
- GB/T 10357.1-2013家具力學性能試驗第1部分:桌類強度和耐久性
- 第三方在線糾紛解決機制(ODR)述評,國際商法論文
- 公寓de全人物攻略本為個人愛好而制成如需轉載注明信息
- 第5章-群體-團隊溝通-管理溝通
- 腎臟病飲食依從行為量表(RABQ)附有答案
- 深基坑-安全教育課件
- 園林施工管理大型園林集團南部區(qū)域養(yǎng)護標準圖例
- 排水許可申請表
評論
0/150
提交評論