


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于關(guān)聯(lián)規(guī)則挖掘的關(guān)聯(lián)檢索建議模型0 引 言用戶使用百度搜索引擎的時(shí)候,都會(huì)留意到搜索引擎能夠提供一種稱為相似搜索;建議的服務(wù)。當(dāng)用戶因輸入的關(guān)鍵詞不夠準(zhǔn)確而無法檢索到所需要的資料時(shí),相似搜索服務(wù)會(huì)給出建議的關(guān)鍵詞,引導(dǎo)用戶進(jìn)行有效檢索。相似搜索服務(wù)建議的關(guān)鍵詞都是包含用戶關(guān)鍵詞的一系列擴(kuò)展短語。很多時(shí)候,用戶缺乏背景知識(shí),對(duì)搜索意圖(關(guān)鍵詞)無法準(zhǔn)確描述,相似搜索無法給出用戶想要的結(jié)果。基于此,本文將開展關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究,通過統(tǒng)計(jì)大量用戶的搜索行為數(shù)據(jù),挖掘關(guān)鍵詞中存在的關(guān)聯(lián),并對(duì)用戶輸入的關(guān)鍵詞給出關(guān)聯(lián)建議,引導(dǎo)用戶進(jìn)行有效檢索。1關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘【1】采用關(guān)聯(lián)算法查找數(shù)據(jù)集
2、中的不同屬性之間的相關(guān)性。設(shè)I是項(xiàng)的集合,關(guān)聯(lián)規(guī)則是形如 的蘊(yùn)涵式,其中 , , ,擁有支持度support和置信度confidence,即:,(1)在此定義,同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則即可稱為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則的規(guī)范表示為:其中,R是取值范圍;x是變量,在R上取值;Pm (m=1,2,…,i)和Qn (n=1,2,…,j)是謂詞變量,作為任務(wù)相關(guān)數(shù)據(jù)的一部分說明的相關(guān)屬性或維;uv (v=1,2,…,r)和tw (w=1,2,…,l)是對(duì)象變量,在關(guān)于x的謂詞上取值;s是規(guī)則的支持度,c是規(guī)則的置信度,均取百分比值。例如
3、,一個(gè)典型的關(guān)聯(lián)規(guī)則如(3)式所示:該規(guī)則表示,同時(shí)購買計(jì)算機(jī)游戲和影碟的人占顧客總數(shù)的40%;在購買計(jì)算機(jī)游戲的顧客中又購買影碟的概率是66%。為簡(jiǎn)化表示,將(3)式簡(jiǎn)化表示為計(jì)算機(jī)游戲 影碟 ;。2關(guān)聯(lián)檢索建議與百度搜索引擎提供的相似搜索建議;服務(wù)不同,本文提出的是關(guān)聯(lián)檢索建議;服務(wù)。關(guān)聯(lián)檢索建議;預(yù)先通過計(jì)算大量關(guān)鍵詞之間的關(guān)聯(lián)度,當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索時(shí),系統(tǒng)根據(jù)用戶輸入的關(guān)鍵詞,查找與其存在強(qiáng)關(guān)聯(lián)的關(guān)鍵詞(不一定語意相近),作為檢索建議,由此引導(dǎo)用戶進(jìn)行有效檢索。尤其用戶缺乏背景知識(shí),對(duì)搜索意圖(關(guān)鍵詞)無法準(zhǔn)確描述時(shí),關(guān)聯(lián)檢索建議;模型可利用其它用戶的搜索知識(shí),給用戶提供與當(dāng)前關(guān)
4、鍵詞存在一定關(guān)聯(lián)的其它內(nèi)容方面的檢索建議。3模型設(shè)計(jì)3.1模型總體架構(gòu)模型總體架構(gòu)【2】如圖1所示。系統(tǒng)收集用戶檢索時(shí)產(chǎn)生的關(guān)鍵詞,并經(jīng)過數(shù)據(jù)清洗操作,產(chǎn)生干凈的符合要求的數(shù)據(jù),把該數(shù)據(jù)按照一定的格式存放在數(shù)據(jù)庫中。關(guān)聯(lián)規(guī)則挖掘器使用關(guān)聯(lián)挖掘算法,從數(shù)據(jù)庫中讀取關(guān)鍵詞數(shù)據(jù),進(jìn)而提取一系列的關(guān)鍵詞關(guān)聯(lián)規(guī)則。導(dǎo)航器則根據(jù)關(guān)聯(lián)規(guī)則為用戶提出檢索建議,引導(dǎo)用戶進(jìn)行更有效和針對(duì)性的檢索。圖1 模型總體架構(gòu)Fig.1 General framework model3.2挖掘模型設(shè)計(jì)研究將用戶每一次的檢索過程看作是一個(gè)事務(wù)記錄。每個(gè)事務(wù)記錄包含若干個(gè)用戶檢索產(chǎn)生的關(guān)鍵詞組;而同一個(gè)事務(wù)記錄里的關(guān)鍵詞之間則不
5、分先后次序。具體來說,關(guān)鍵詞數(shù)據(jù)是以事務(wù)記錄為單位,且存儲(chǔ)在數(shù)據(jù)庫中。關(guān)聯(lián)規(guī)則即挖掘模型從數(shù)據(jù)庫中讀取經(jīng)過清洗的干凈數(shù)據(jù)。數(shù)據(jù)的格式如表1所示,表中各行代表一個(gè)事務(wù)記錄。表1 事務(wù)數(shù)據(jù)Tab.1 Transaction dataTID關(guān)鍵詞數(shù)據(jù)1關(guān)聯(lián)規(guī)則挖掘,防火墻聯(lián)動(dòng)2SQL Server,VB,信息管理3女性,綜合素質(zhì),就業(yè),偉人4余世偉,MBA.關(guān)聯(lián)規(guī)則挖掘分兩步進(jìn)行:(1)找出所有頻繁項(xiàng)集(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則每個(gè)關(guān)鍵詞,可將其稱作項(xiàng);,兩個(gè)或兩個(gè)以上的關(guān)鍵詞構(gòu)成項(xiàng)集;。關(guān)聯(lián)規(guī)則挖掘的第一步,即找出在所有事務(wù)中出現(xiàn)次數(shù)達(dá)到某一數(shù)值的項(xiàng)集,而將這些項(xiàng)集稱為頻繁項(xiàng)集,并將該數(shù)值稱為
6、最小支持度計(jì)數(shù)。產(chǎn)生頻繁項(xiàng)集的一個(gè)高效快速的算法是FP-增長(zhǎng)算法,目前已有人在FP-增長(zhǎng)算法基礎(chǔ)上提出可以實(shí)現(xiàn)增量更新的算法【3】。進(jìn)一步地,當(dāng)前研究也已表明:相對(duì)來說,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是較為簡(jiǎn)單的。4模型應(yīng)用4.1關(guān)聯(lián)規(guī)則解釋關(guān)聯(lián)規(guī)則挖掘器將挖掘得到一系列的關(guān)聯(lián)規(guī)則,部分關(guān)聯(lián)規(guī)則如表2所示。對(duì)于規(guī)則1,有0.35%的低支持度,說明很少人檢索該方面內(nèi)容;但卻有100%的置信度,說明該類用戶每次檢索關(guān)聯(lián)規(guī)則挖掘資料時(shí),將必然檢索防火墻聯(lián)動(dòng)方面的資料。又如規(guī)則3,有7.80%的高支持度,說明較多用戶都在檢索有關(guān)女性、綜合素質(zhì)以及就業(yè)問題;另有70.25%的較高置信度則說明用戶在檢索女性和綜
7、合素質(zhì)方面資料的同時(shí),較多人也會(huì)進(jìn)一步檢索并了解有關(guān)女性綜合素質(zhì)對(duì)就業(yè)、偉人等影響的文獻(xiàn)資料。表2 部分關(guān)聯(lián)規(guī)則Tab.2 Association rules序號(hào)關(guān)聯(lián)規(guī)則支持度置信度1關(guān)聯(lián)規(guī)則挖掘 防火墻聯(lián)動(dòng)0.35%100.00%2SQL Server,VB 信息管理1.74%90.00%3女性,綜合素質(zhì) 就業(yè),偉人7.80%70.25%4MBA 余世偉1.39%67.41%挖掘器挖掘出來的關(guān)聯(lián)規(guī)則存放到數(shù)據(jù)庫中,供導(dǎo)航器參考使用。當(dāng)用戶進(jìn)入檢索頁面輸入關(guān)鍵詞檢索資料時(shí),導(dǎo)航器實(shí)時(shí)將依據(jù)用戶輸入的關(guān)鍵詞,在關(guān)聯(lián)規(guī)則庫中查找和匹配,找出所有包含有用戶關(guān)鍵詞的關(guān)聯(lián)規(guī)則,相應(yīng)地給出檢索建議。例如,
8、當(dāng)用戶要檢索有關(guān)MBA;資料時(shí),系統(tǒng)查找到規(guī)則4滿足要求,并給出余世偉;的檢索建議。當(dāng)然不是所有規(guī)則都有價(jià)值,只有強(qiáng)關(guān)聯(lián)規(guī)則才是用戶感興趣的內(nèi)容。系統(tǒng)管理員可以設(shè)定最小支持度閾值和最小置信度閾值,以篩選獲取用戶所需的強(qiáng)規(guī)則。4.2業(yè)務(wù)應(yīng)用(1) 用戶檢索興趣分析。關(guān)聯(lián)檢索建議模型首先收集大量用戶檢索的關(guān)鍵詞,這些關(guān)鍵詞反映用戶檢索的興趣和需求。收集和分析用戶需求有助于理解當(dāng)前用戶的需求,以便搜索引擎提供更有針對(duì)性、及實(shí)用性的的搜索服務(wù)。(2)提供關(guān)聯(lián)檢索建議。關(guān)聯(lián)檢索建議模型提供的是一種關(guān)聯(lián)搜索建議服務(wù),只要關(guān)鍵詞之間存在一定的關(guān)聯(lián),模型就會(huì)給出與關(guān)鍵詞關(guān)聯(lián)的搜索建議,引導(dǎo)用戶進(jìn)行更為有效的規(guī)
9、范化科學(xué)檢索。(3) 圖書采購決策支持。圖書采購將在相當(dāng)程度上決定一個(gè)圖書館館藏書目的質(zhì)量和閱讀可能性。將關(guān)聯(lián)規(guī)則挖掘應(yīng)用到圖書檢索系統(tǒng)上即可統(tǒng)計(jì)出當(dāng)前大部分讀者檢索的內(nèi)容,并且可以進(jìn)一步計(jì)算出哪些內(nèi)容之間是存在關(guān)聯(lián)的。因此,關(guān)聯(lián)規(guī)則挖掘可以作為圖書采購人員的決策支持的現(xiàn)實(shí)應(yīng)用范例,從而更準(zhǔn)確、合理地采購到讀者真正需要的圖書。5結(jié)束語 DyLW.neT本文討論了利用關(guān)聯(lián)規(guī)則挖掘統(tǒng)計(jì)分析用戶檢索的關(guān)鍵詞,計(jì)算關(guān)鍵詞間的關(guān)聯(lián)度,最后給出關(guān)聯(lián)檢索建議,引導(dǎo)用戶進(jìn)行更有效檢索。關(guān)聯(lián)規(guī)則挖掘分析用戶檢索興趣,可以為后續(xù)研究進(jìn)行更深層次的用戶行為挖掘【6】。參考文獻(xiàn)【1】 Jiawei Han, Micheline Kamber. Data Mining Con-cepts and Techniques. Beijing: Higher Education Press, 2001:227-242.【2】 錢智勇.基于數(shù)據(jù)挖掘的重點(diǎn)學(xué)科專題知識(shí)庫開發(fā).圖書館,2004(3):50-53.【
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中獸醫(yī)學(xué)知到課后答案智慧樹章節(jié)測(cè)試答案2025年春甘肅農(nóng)業(yè)大學(xué)
- 通遼職業(yè)學(xué)院《微型飛行器設(shè)計(jì)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海工程技術(shù)大學(xué)《道橋施工技術(shù)1》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西鐵路工程職業(yè)技術(shù)學(xué)院《土木工程制圖D》2023-2024學(xué)年第一學(xué)期期末試卷
- 山西同文職業(yè)技術(shù)學(xué)院《建設(shè)項(xiàng)目檔案管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年湖南省岳陽市高中名校普通高考第二次適應(yīng)性檢測(cè)試題英語試題含解析
- 湖南司法警官職業(yè)學(xué)院《植物醫(yī)學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 濰坊科技學(xué)院《電路原理實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南省常德市武陵區(qū)芷蘭實(shí)驗(yàn)學(xué)校歷史班2024-2025學(xué)年下學(xué)期高三語文試題1月階段測(cè)試考試試卷含解析
- 公司訴訟制度優(yōu)化建議
- 全國(guó)職業(yè)院校技能大賽(新材料智能生產(chǎn)與檢測(cè)賽項(xiàng))選拔賽試題庫(300題)
- 幼兒園夏季護(hù)理培訓(xùn)
- 高等職業(yè)學(xué)校電梯工程技術(shù)專業(yè)實(shí)訓(xùn)教學(xué)條件建設(shè)標(biāo)準(zhǔn)(征求意見稿)
- 2024年錦州師范高等??茖W(xué)校單招職業(yè)技能測(cè)試題庫及答案解析
- 2024年國(guó)家電網(wǎng)招聘之通信類題庫附參考答案(考試直接用)
- 《市場(chǎng)營(yíng)銷學(xué) 第3版》課件全套 段淑梅 第1-12章 市場(chǎng)營(yíng)銷概論-市場(chǎng)營(yíng)銷組合
- 大學(xué)生信息素養(yǎng)大賽考試題庫及答案
- 兒童保?。祻?fù))管理信息系統(tǒng)需求說明
- 文獻(xiàn)檢索與論文寫作
- 《麻醉與BIS監(jiān)測(cè)》課件
- 嶺南版二年級(jí)美術(shù)上冊(cè)期末試題B
評(píng)論
0/150
提交評(píng)論