基于關聯(lián)規(guī)則挖掘的關聯(lián)檢索建議模型_第1頁
基于關聯(lián)規(guī)則挖掘的關聯(lián)檢索建議模型_第2頁
基于關聯(lián)規(guī)則挖掘的關聯(lián)檢索建議模型_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、基于關聯(lián)規(guī)則挖掘的關聯(lián)檢索建議模型0 引 言用戶使用百度搜索引擎的時候,都會留意到搜索引擎能夠提供一種稱為相似搜索;建議的服務。當用戶因輸入的關鍵詞不夠準確而無法檢索到所需要的資料時,相似搜索服務會給出建議的關鍵詞,引導用戶進行有效檢索。相似搜索服務建議的關鍵詞都是包含用戶關鍵詞的一系列擴展短語。很多時候,用戶缺乏背景知識,對搜索意圖(關鍵詞)無法準確描述,相似搜索無法給出用戶想要的結(jié)果?;诖?,本文將開展關聯(lián)規(guī)則挖掘技術的研究,通過統(tǒng)計大量用戶的搜索行為數(shù)據(jù),挖掘關鍵詞中存在的關聯(lián),并對用戶輸入的關鍵詞給出關聯(lián)建議,引導用戶進行有效檢索。1關聯(lián)規(guī)則挖掘關聯(lián)規(guī)則挖掘【1】采用關聯(lián)算法查找數(shù)據(jù)集

2、中的不同屬性之間的相關性。設I是項的集合,關聯(lián)規(guī)則是形如 的蘊涵式,其中 , , ,擁有支持度support和置信度confidence,即:,(1)在此定義,同時滿足最小支持度閾值和最小置信度閾值的規(guī)則即可稱為強規(guī)則。關聯(lián)規(guī)則的規(guī)范表示為:其中,R是取值范圍;x是變量,在R上取值;Pm (m=1,2,…,i)和Qn (n=1,2,…,j)是謂詞變量,作為任務相關數(shù)據(jù)的一部分說明的相關屬性或維;uv (v=1,2,…,r)和tw (w=1,2,…,l)是對象變量,在關于x的謂詞上取值;s是規(guī)則的支持度,c是規(guī)則的置信度,均取百分比值。例如

3、,一個典型的關聯(lián)規(guī)則如(3)式所示:該規(guī)則表示,同時購買計算機游戲和影碟的人占顧客總數(shù)的40%;在購買計算機游戲的顧客中又購買影碟的概率是66%。為簡化表示,將(3)式簡化表示為計算機游戲 影碟 ;。2關聯(lián)檢索建議與百度搜索引擎提供的相似搜索建議;服務不同,本文提出的是關聯(lián)檢索建議;服務。關聯(lián)檢索建議;預先通過計算大量關鍵詞之間的關聯(lián)度,當用戶輸入關鍵詞進行搜索時,系統(tǒng)根據(jù)用戶輸入的關鍵詞,查找與其存在強關聯(lián)的關鍵詞(不一定語意相近),作為檢索建議,由此引導用戶進行有效檢索。尤其用戶缺乏背景知識,對搜索意圖(關鍵詞)無法準確描述時,關聯(lián)檢索建議;模型可利用其它用戶的搜索知識,給用戶提供與當前關

4、鍵詞存在一定關聯(lián)的其它內(nèi)容方面的檢索建議。3模型設計3.1模型總體架構(gòu)模型總體架構(gòu)【2】如圖1所示。系統(tǒng)收集用戶檢索時產(chǎn)生的關鍵詞,并經(jīng)過數(shù)據(jù)清洗操作,產(chǎn)生干凈的符合要求的數(shù)據(jù),把該數(shù)據(jù)按照一定的格式存放在數(shù)據(jù)庫中。關聯(lián)規(guī)則挖掘器使用關聯(lián)挖掘算法,從數(shù)據(jù)庫中讀取關鍵詞數(shù)據(jù),進而提取一系列的關鍵詞關聯(lián)規(guī)則。導航器則根據(jù)關聯(lián)規(guī)則為用戶提出檢索建議,引導用戶進行更有效和針對性的檢索。圖1 模型總體架構(gòu)Fig.1 General framework model3.2挖掘模型設計研究將用戶每一次的檢索過程看作是一個事務記錄。每個事務記錄包含若干個用戶檢索產(chǎn)生的關鍵詞組;而同一個事務記錄里的關鍵詞之間則不

5、分先后次序。具體來說,關鍵詞數(shù)據(jù)是以事務記錄為單位,且存儲在數(shù)據(jù)庫中。關聯(lián)規(guī)則即挖掘模型從數(shù)據(jù)庫中讀取經(jīng)過清洗的干凈數(shù)據(jù)。數(shù)據(jù)的格式如表1所示,表中各行代表一個事務記錄。表1 事務數(shù)據(jù)Tab.1 Transaction dataTID關鍵詞數(shù)據(jù)1關聯(lián)規(guī)則挖掘,防火墻聯(lián)動2SQL Server,VB,信息管理3女性,綜合素質(zhì),就業(yè),偉人4余世偉,MBA.關聯(lián)規(guī)則挖掘分兩步進行:(1)找出所有頻繁項集(2)由頻繁項集產(chǎn)生強關聯(lián)規(guī)則每個關鍵詞,可將其稱作項;,兩個或兩個以上的關鍵詞構(gòu)成項集;。關聯(lián)規(guī)則挖掘的第一步,即找出在所有事務中出現(xiàn)次數(shù)達到某一數(shù)值的項集,而將這些項集稱為頻繁項集,并將該數(shù)值稱為

6、最小支持度計數(shù)。產(chǎn)生頻繁項集的一個高效快速的算法是FP-增長算法,目前已有人在FP-增長算法基礎上提出可以實現(xiàn)增量更新的算法【3】。進一步地,當前研究也已表明:相對來說,由頻繁項集產(chǎn)生強關聯(lián)規(guī)則是較為簡單的。4模型應用4.1關聯(lián)規(guī)則解釋關聯(lián)規(guī)則挖掘器將挖掘得到一系列的關聯(lián)規(guī)則,部分關聯(lián)規(guī)則如表2所示。對于規(guī)則1,有0.35%的低支持度,說明很少人檢索該方面內(nèi)容;但卻有100%的置信度,說明該類用戶每次檢索關聯(lián)規(guī)則挖掘資料時,將必然檢索防火墻聯(lián)動方面的資料。又如規(guī)則3,有7.80%的高支持度,說明較多用戶都在檢索有關女性、綜合素質(zhì)以及就業(yè)問題;另有70.25%的較高置信度則說明用戶在檢索女性和綜

7、合素質(zhì)方面資料的同時,較多人也會進一步檢索并了解有關女性綜合素質(zhì)對就業(yè)、偉人等影響的文獻資料。表2 部分關聯(lián)規(guī)則Tab.2 Association rules序號關聯(lián)規(guī)則支持度置信度1關聯(lián)規(guī)則挖掘 防火墻聯(lián)動0.35%100.00%2SQL Server,VB 信息管理1.74%90.00%3女性,綜合素質(zhì) 就業(yè),偉人7.80%70.25%4MBA 余世偉1.39%67.41%挖掘器挖掘出來的關聯(lián)規(guī)則存放到數(shù)據(jù)庫中,供導航器參考使用。當用戶進入檢索頁面輸入關鍵詞檢索資料時,導航器實時將依據(jù)用戶輸入的關鍵詞,在關聯(lián)規(guī)則庫中查找和匹配,找出所有包含有用戶關鍵詞的關聯(lián)規(guī)則,相應地給出檢索建議。例如,

8、當用戶要檢索有關MBA;資料時,系統(tǒng)查找到規(guī)則4滿足要求,并給出余世偉;的檢索建議。當然不是所有規(guī)則都有價值,只有強關聯(lián)規(guī)則才是用戶感興趣的內(nèi)容。系統(tǒng)管理員可以設定最小支持度閾值和最小置信度閾值,以篩選獲取用戶所需的強規(guī)則。4.2業(yè)務應用(1) 用戶檢索興趣分析。關聯(lián)檢索建議模型首先收集大量用戶檢索的關鍵詞,這些關鍵詞反映用戶檢索的興趣和需求。收集和分析用戶需求有助于理解當前用戶的需求,以便搜索引擎提供更有針對性、及實用性的的搜索服務。(2)提供關聯(lián)檢索建議。關聯(lián)檢索建議模型提供的是一種關聯(lián)搜索建議服務,只要關鍵詞之間存在一定的關聯(lián),模型就會給出與關鍵詞關聯(lián)的搜索建議,引導用戶進行更為有效的規(guī)

9、范化科學檢索。(3) 圖書采購決策支持。圖書采購將在相當程度上決定一個圖書館館藏書目的質(zhì)量和閱讀可能性。將關聯(lián)規(guī)則挖掘應用到圖書檢索系統(tǒng)上即可統(tǒng)計出當前大部分讀者檢索的內(nèi)容,并且可以進一步計算出哪些內(nèi)容之間是存在關聯(lián)的。因此,關聯(lián)規(guī)則挖掘可以作為圖書采購人員的決策支持的現(xiàn)實應用范例,從而更準確、合理地采購到讀者真正需要的圖書。5結(jié)束語 DyLW.neT本文討論了利用關聯(lián)規(guī)則挖掘統(tǒng)計分析用戶檢索的關鍵詞,計算關鍵詞間的關聯(lián)度,最后給出關聯(lián)檢索建議,引導用戶進行更有效檢索。關聯(lián)規(guī)則挖掘分析用戶檢索興趣,可以為后續(xù)研究進行更深層次的用戶行為挖掘【6】。參考文獻【1】 Jiawei Han, Micheline Kamber. Data Mining Con-cepts and Techniques. Beijing: Higher Education Press, 2001:227-242.【2】 錢智勇.基于數(shù)據(jù)挖掘的重點學科專題知識庫開發(fā).圖書館,2004(3):50-53.【

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論