基于關(guān)聯(lián)規(guī)則挖掘的關(guān)聯(lián)檢索建議模型_第1頁
基于關(guān)聯(lián)規(guī)則挖掘的關(guān)聯(lián)檢索建議模型_第2頁
基于關(guān)聯(lián)規(guī)則挖掘的關(guān)聯(lián)檢索建議模型_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于關(guān)聯(lián)規(guī)則挖掘的關(guān)聯(lián)檢索建議模型0 引 言用戶使用百度搜索引擎的時(shí)候,都會(huì)留意到搜索引擎能夠提供一種稱為相似搜索;建議的服務(wù)。當(dāng)用戶因輸入的關(guān)鍵詞不夠準(zhǔn)確而無法檢索到所需要的資料時(shí),相似搜索服務(wù)會(huì)給出建議的關(guān)鍵詞,引導(dǎo)用戶進(jìn)行有效檢索。相似搜索服務(wù)建議的關(guān)鍵詞都是包含用戶關(guān)鍵詞的一系列擴(kuò)展短語。很多時(shí)候,用戶缺乏背景知識(shí),對(duì)搜索意圖(關(guān)鍵詞)無法準(zhǔn)確描述,相似搜索無法給出用戶想要的結(jié)果。基于此,本文將開展關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究,通過統(tǒng)計(jì)大量用戶的搜索行為數(shù)據(jù),挖掘關(guān)鍵詞中存在的關(guān)聯(lián),并對(duì)用戶輸入的關(guān)鍵詞給出關(guān)聯(lián)建議,引導(dǎo)用戶進(jìn)行有效檢索。1關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘【1】采用關(guān)聯(lián)算法查找數(shù)據(jù)集

2、中的不同屬性之間的相關(guān)性。設(shè)I是項(xiàng)的集合,關(guān)聯(lián)規(guī)則是形如 的蘊(yùn)涵式,其中 , , ,擁有支持度support和置信度confidence,即:,(1)在此定義,同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則即可稱為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則的規(guī)范表示為:其中,R是取值范圍;x是變量,在R上取值;Pm (m=1,2,…,i)和Qn (n=1,2,…,j)是謂詞變量,作為任務(wù)相關(guān)數(shù)據(jù)的一部分說明的相關(guān)屬性或維;uv (v=1,2,…,r)和tw (w=1,2,…,l)是對(duì)象變量,在關(guān)于x的謂詞上取值;s是規(guī)則的支持度,c是規(guī)則的置信度,均取百分比值。例如

3、,一個(gè)典型的關(guān)聯(lián)規(guī)則如(3)式所示:該規(guī)則表示,同時(shí)購買計(jì)算機(jī)游戲和影碟的人占顧客總數(shù)的40%;在購買計(jì)算機(jī)游戲的顧客中又購買影碟的概率是66%。為簡(jiǎn)化表示,將(3)式簡(jiǎn)化表示為計(jì)算機(jī)游戲 影碟 ;。2關(guān)聯(lián)檢索建議與百度搜索引擎提供的相似搜索建議;服務(wù)不同,本文提出的是關(guān)聯(lián)檢索建議;服務(wù)。關(guān)聯(lián)檢索建議;預(yù)先通過計(jì)算大量關(guān)鍵詞之間的關(guān)聯(lián)度,當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索時(shí),系統(tǒng)根據(jù)用戶輸入的關(guān)鍵詞,查找與其存在強(qiáng)關(guān)聯(lián)的關(guān)鍵詞(不一定語意相近),作為檢索建議,由此引導(dǎo)用戶進(jìn)行有效檢索。尤其用戶缺乏背景知識(shí),對(duì)搜索意圖(關(guān)鍵詞)無法準(zhǔn)確描述時(shí),關(guān)聯(lián)檢索建議;模型可利用其它用戶的搜索知識(shí),給用戶提供與當(dāng)前關(guān)

4、鍵詞存在一定關(guān)聯(lián)的其它內(nèi)容方面的檢索建議。3模型設(shè)計(jì)3.1模型總體架構(gòu)模型總體架構(gòu)【2】如圖1所示。系統(tǒng)收集用戶檢索時(shí)產(chǎn)生的關(guān)鍵詞,并經(jīng)過數(shù)據(jù)清洗操作,產(chǎn)生干凈的符合要求的數(shù)據(jù),把該數(shù)據(jù)按照一定的格式存放在數(shù)據(jù)庫中。關(guān)聯(lián)規(guī)則挖掘器使用關(guān)聯(lián)挖掘算法,從數(shù)據(jù)庫中讀取關(guān)鍵詞數(shù)據(jù),進(jìn)而提取一系列的關(guān)鍵詞關(guān)聯(lián)規(guī)則。導(dǎo)航器則根據(jù)關(guān)聯(lián)規(guī)則為用戶提出檢索建議,引導(dǎo)用戶進(jìn)行更有效和針對(duì)性的檢索。圖1 模型總體架構(gòu)Fig.1 General framework model3.2挖掘模型設(shè)計(jì)研究將用戶每一次的檢索過程看作是一個(gè)事務(wù)記錄。每個(gè)事務(wù)記錄包含若干個(gè)用戶檢索產(chǎn)生的關(guān)鍵詞組;而同一個(gè)事務(wù)記錄里的關(guān)鍵詞之間則不

5、分先后次序。具體來說,關(guān)鍵詞數(shù)據(jù)是以事務(wù)記錄為單位,且存儲(chǔ)在數(shù)據(jù)庫中。關(guān)聯(lián)規(guī)則即挖掘模型從數(shù)據(jù)庫中讀取經(jīng)過清洗的干凈數(shù)據(jù)。數(shù)據(jù)的格式如表1所示,表中各行代表一個(gè)事務(wù)記錄。表1 事務(wù)數(shù)據(jù)Tab.1 Transaction dataTID關(guān)鍵詞數(shù)據(jù)1關(guān)聯(lián)規(guī)則挖掘,防火墻聯(lián)動(dòng)2SQL Server,VB,信息管理3女性,綜合素質(zhì),就業(yè),偉人4余世偉,MBA.關(guān)聯(lián)規(guī)則挖掘分兩步進(jìn)行:(1)找出所有頻繁項(xiàng)集(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則每個(gè)關(guān)鍵詞,可將其稱作項(xiàng);,兩個(gè)或兩個(gè)以上的關(guān)鍵詞構(gòu)成項(xiàng)集;。關(guān)聯(lián)規(guī)則挖掘的第一步,即找出在所有事務(wù)中出現(xiàn)次數(shù)達(dá)到某一數(shù)值的項(xiàng)集,而將這些項(xiàng)集稱為頻繁項(xiàng)集,并將該數(shù)值稱為

6、最小支持度計(jì)數(shù)。產(chǎn)生頻繁項(xiàng)集的一個(gè)高效快速的算法是FP-增長(zhǎng)算法,目前已有人在FP-增長(zhǎng)算法基礎(chǔ)上提出可以實(shí)現(xiàn)增量更新的算法【3】。進(jìn)一步地,當(dāng)前研究也已表明:相對(duì)來說,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是較為簡(jiǎn)單的。4模型應(yīng)用4.1關(guān)聯(lián)規(guī)則解釋關(guān)聯(lián)規(guī)則挖掘器將挖掘得到一系列的關(guān)聯(lián)規(guī)則,部分關(guān)聯(lián)規(guī)則如表2所示。對(duì)于規(guī)則1,有0.35%的低支持度,說明很少人檢索該方面內(nèi)容;但卻有100%的置信度,說明該類用戶每次檢索關(guān)聯(lián)規(guī)則挖掘資料時(shí),將必然檢索防火墻聯(lián)動(dòng)方面的資料。又如規(guī)則3,有7.80%的高支持度,說明較多用戶都在檢索有關(guān)女性、綜合素質(zhì)以及就業(yè)問題;另有70.25%的較高置信度則說明用戶在檢索女性和綜

7、合素質(zhì)方面資料的同時(shí),較多人也會(huì)進(jìn)一步檢索并了解有關(guān)女性綜合素質(zhì)對(duì)就業(yè)、偉人等影響的文獻(xiàn)資料。表2 部分關(guān)聯(lián)規(guī)則Tab.2 Association rules序號(hào)關(guān)聯(lián)規(guī)則支持度置信度1關(guān)聯(lián)規(guī)則挖掘 防火墻聯(lián)動(dòng)0.35%100.00%2SQL Server,VB 信息管理1.74%90.00%3女性,綜合素質(zhì) 就業(yè),偉人7.80%70.25%4MBA 余世偉1.39%67.41%挖掘器挖掘出來的關(guān)聯(lián)規(guī)則存放到數(shù)據(jù)庫中,供導(dǎo)航器參考使用。當(dāng)用戶進(jìn)入檢索頁面輸入關(guān)鍵詞檢索資料時(shí),導(dǎo)航器實(shí)時(shí)將依據(jù)用戶輸入的關(guān)鍵詞,在關(guān)聯(lián)規(guī)則庫中查找和匹配,找出所有包含有用戶關(guān)鍵詞的關(guān)聯(lián)規(guī)則,相應(yīng)地給出檢索建議。例如,

8、當(dāng)用戶要檢索有關(guān)MBA;資料時(shí),系統(tǒng)查找到規(guī)則4滿足要求,并給出余世偉;的檢索建議。當(dāng)然不是所有規(guī)則都有價(jià)值,只有強(qiáng)關(guān)聯(lián)規(guī)則才是用戶感興趣的內(nèi)容。系統(tǒng)管理員可以設(shè)定最小支持度閾值和最小置信度閾值,以篩選獲取用戶所需的強(qiáng)規(guī)則。4.2業(yè)務(wù)應(yīng)用(1) 用戶檢索興趣分析。關(guān)聯(lián)檢索建議模型首先收集大量用戶檢索的關(guān)鍵詞,這些關(guān)鍵詞反映用戶檢索的興趣和需求。收集和分析用戶需求有助于理解當(dāng)前用戶的需求,以便搜索引擎提供更有針對(duì)性、及實(shí)用性的的搜索服務(wù)。(2)提供關(guān)聯(lián)檢索建議。關(guān)聯(lián)檢索建議模型提供的是一種關(guān)聯(lián)搜索建議服務(wù),只要關(guān)鍵詞之間存在一定的關(guān)聯(lián),模型就會(huì)給出與關(guān)鍵詞關(guān)聯(lián)的搜索建議,引導(dǎo)用戶進(jìn)行更為有效的規(guī)

9、范化科學(xué)檢索。(3) 圖書采購決策支持。圖書采購將在相當(dāng)程度上決定一個(gè)圖書館館藏書目的質(zhì)量和閱讀可能性。將關(guān)聯(lián)規(guī)則挖掘應(yīng)用到圖書檢索系統(tǒng)上即可統(tǒng)計(jì)出當(dāng)前大部分讀者檢索的內(nèi)容,并且可以進(jìn)一步計(jì)算出哪些內(nèi)容之間是存在關(guān)聯(lián)的。因此,關(guān)聯(lián)規(guī)則挖掘可以作為圖書采購人員的決策支持的現(xiàn)實(shí)應(yīng)用范例,從而更準(zhǔn)確、合理地采購到讀者真正需要的圖書。5結(jié)束語 DyLW.neT本文討論了利用關(guān)聯(lián)規(guī)則挖掘統(tǒng)計(jì)分析用戶檢索的關(guān)鍵詞,計(jì)算關(guān)鍵詞間的關(guān)聯(lián)度,最后給出關(guān)聯(lián)檢索建議,引導(dǎo)用戶進(jìn)行更有效檢索。關(guān)聯(lián)規(guī)則挖掘分析用戶檢索興趣,可以為后續(xù)研究進(jìn)行更深層次的用戶行為挖掘【6】。參考文獻(xiàn)【1】 Jiawei Han, Micheline Kamber. Data Mining Con-cepts and Techniques. Beijing: Higher Education Press, 2001:227-242.【2】 錢智勇.基于數(shù)據(jù)挖掘的重點(diǎn)學(xué)科專題知識(shí)庫開發(fā).圖書館,2004(3):50-53.【

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論