基于lucene的數(shù)碼產(chǎn)品搜索引擎的主題詞典構(gòu)建_第1頁
基于lucene的數(shù)碼產(chǎn)品搜索引擎的主題詞典構(gòu)建_第2頁
基于lucene的數(shù)碼產(chǎn)品搜索引擎的主題詞典構(gòu)建_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于lucene的數(shù)碼產(chǎn)品搜索引擎的主題詞典構(gòu)建

1.基于詞典的分詞機(jī)制搜索已成為獲取網(wǎng)絡(luò)信息的主要工具,其中全文檢索技術(shù)是科學(xué)家研究的熱點(diǎn)。在進(jìn)行全文檢索時(shí),由于中文漢字與英文字母在編碼規(guī)則上有所不同,因此,搜索引擎在進(jìn)行信息檢索時(shí)需要采用一種與處理英文信息所不同的處理方式,即中文分詞技術(shù)來處理中文信息。Lucene是一個(gè)用Java寫的全文索引/檢索工具包,它可以方便地嵌入到各種應(yīng)用中,實(shí)現(xiàn)針對具體應(yīng)用的全文搜索引擎功能,而其中的語言分析器已經(jīng)能夠支持世界上大多數(shù)語言,也包括中文漢字。目前,Lucene中已有中文單字、雙字分詞和詞典分詞機(jī)制,在詞典分詞機(jī)制中采用最大向前匹配,最大向后匹配,最小向前匹配,最小向后匹配切分策略?;谠~典的分詞方法是從連續(xù)字串中切分出與詞典中的詞相匹配的字串作為詞。因此,詞典的完善程度將主要影響中文分詞的性能。如何建立詞典已經(jīng)成為中文分詞中的一個(gè)重要研究問題?;谧值涞姆衷~方法能識(shí)別出文檔中出現(xiàn)的任何詞是基于這樣一個(gè)假設(shè),即存在一個(gè)完備的詞典包括所有可能出現(xiàn)的詞。然而,在現(xiàn)實(shí)中這個(gè)假設(shè)通常是不成立的。對于專業(yè)詞匯、新產(chǎn)生詞匯、人名地名等專有名詞,通用詞典是無法滿足要求的,因此針對主題搜索引擎在進(jìn)行信息檢索時(shí)就需要一個(gè)特定的主題式分詞詞典。文章就數(shù)碼產(chǎn)品搜索引擎主題詞典的構(gòu)建采用通用詞典和專用詞典相結(jié)合的方法,并對詞典的更新采用基于用戶查詢?nèi)罩镜闹黝}詞典構(gòu)建方法。2.主題搜索和主關(guān)鍵字工具包2.1檢索網(wǎng)站的構(gòu)建主題搜索引擎工作時(shí)要按照一定的規(guī)律和方式運(yùn)行特定的網(wǎng)絡(luò)信息爬行器,定期或不定期的搜索Internet各個(gè)站點(diǎn),并將收集到的Web上相關(guān)主題信息資源送回到搜索引擎的臨時(shí)數(shù)據(jù)庫。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù)一個(gè)索引數(shù)據(jù)庫。在Web的客戶端,提供特定的檢索界面,供用戶以一定的方式輸入檢索條件并提交給系統(tǒng),系統(tǒng)通過特定的檢索軟件檢索其索引數(shù)據(jù)庫,并從中獲得與用戶檢索相匹配的查詢結(jié)果,將其返回客戶端,供用戶瀏覽。搜索引擎主要由四部分組成,即信息采集器(Robot或Sider或Crawler)、分析索引器(Index)、檢索器(Searcher)和用戶接口。2.2挖掘自然文本搜索引擎2.2.1開放代碼的全文檢索模塊Lucene是Apache軟件基金會(huì)Jakarta項(xiàng)目組的一個(gè)子項(xiàng)目,是一個(gè)開放源代碼的全文檢索引擎工具包。它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎及部分文本分析引擎(英文與德文),文章所設(shè)計(jì)的中文字典分詞模塊就嵌入在Lucene中。2.2.2合理的文件編碼Lucene源碼中包括7個(gè)子包,其中最重要的4個(gè)子包為:Lucene的功能非常強(qiáng)大,主要包括兩塊:一是文本內(nèi)容經(jīng)切詞后索引入庫;二是根據(jù)查詢條件返回結(jié)果。3.專業(yè)詞典的編寫3.1文本提取解析文中的基本詞庫應(yīng)包含數(shù)碼產(chǎn)品搜索引擎中所有數(shù)碼產(chǎn)品的品牌和型號(hào)等,需要對爬行器采集回來的頁面進(jìn)行頁面解析。本系統(tǒng)通過對AacheLucene全文檢索引擎工具包的深入剖析,進(jìn)行擴(kuò)展及二次開發(fā)。首先網(wǎng)絡(luò)機(jī)器人到網(wǎng)絡(luò)上下載與主題相關(guān)的類文本文件——可以轉(zhuǎn)換為文本文件的文件,如網(wǎng)頁文件、文本文件、Word文檔、PDF文檔等,并將下載到的文件保存在本地的硬盤上;之后,文檔處理器將網(wǎng)絡(luò)機(jī)器人下載的文件轉(zhuǎn)換為統(tǒng)一編碼格式的文本文件,并構(gòu)建主題詞典和文檔數(shù)據(jù)庫,同時(shí)將詞典內(nèi)容擴(kuò)充到中文分詞模塊中,為后續(xù)的索引服務(wù)。如圖1所示:提取網(wǎng)頁文本信息的方式通常有兩種:正則表達(dá)式和HtmlParser。完全用正則表達(dá)式去提取Html文本,需要考慮很多細(xì)節(jié),例如:一些大小寫和空白字符都需要考慮,并且正則表達(dá)式復(fù)用性很差,針對每個(gè)特定的網(wǎng)頁都需要單獨(dú)寫正則表達(dá)式。HtmlParser是一個(gè)開源的Java庫,提供接口,支持線性和嵌套的解析HTML文本。HtmlParser提供了提取文本信息的API,它擺脫了繁瑣的正則匹配過程,只需要通過這些API,就可以很方便地提取特定文本,極大地提高了工作效率。本系統(tǒng)中,為所有數(shù)碼產(chǎn)品專門設(shè)置了一個(gè)解析器,通過調(diào)用extract方法來完成對網(wǎng)頁的解析。在extract方法中,定義了3個(gè)內(nèi)容過濾器,分別用來獲取產(chǎn)品名、型號(hào)、產(chǎn)品屬性信息、圖片地址等網(wǎng)頁內(nèi)容,這些內(nèi)容依照順序?qū)懭胍粋€(gè)BufferedWriter中。BufferedWriter從基類獲取的outputPath目錄內(nèi)創(chuàng)建一個(gè)新的文件,文件名格式為:品牌名—型號(hào)—?jiǎng)?chuàng)建時(shí)間.txt,通過遍歷所有產(chǎn)品網(wǎng)頁,將解析后的文本文件(品牌名—型號(hào)—?jiǎng)?chuàng)建時(shí)間.txt)輸出到指定目錄下。以下為提取網(wǎng)頁中的標(biāo)題信息,部分代碼如下:本文構(gòu)建的詞庫應(yīng)包含抓取下來的所有產(chǎn)品的品牌和型號(hào)等,由于在頁面解析階段已將抓取下來的所有的網(wǎng)頁文件利用HtmlParser工具解析為相應(yīng)的txt文件,且文件名是由“品牌”和“型號(hào)”等構(gòu)成,因此可方便地構(gòu)建出所需的詞庫。并將該詞庫擴(kuò)充到JE分詞模塊中。具體代碼如下:Publicstaticevoidmain(stringargs)throws其中l(wèi)oadroductFromDirectory方法循環(huán)遍歷了所有產(chǎn)品信息文件,并將從中解析出產(chǎn)品的品牌和型號(hào),放到一個(gè)ArrayList中。3.2使用主題詞典隨著科學(xué)技術(shù)的發(fā)展,一個(gè)行業(yè)和學(xué)科總會(huì)不斷出現(xiàn)該領(lǐng)域的新詞。這些詞需要及時(shí)添加到系統(tǒng)的主題詞典中,才能提供準(zhǔn)確的信息查詢服務(wù)。如何將新詞添加到詞庫中,以下方法值得探討:3.2.1.直接添加對于數(shù)碼產(chǎn)品領(lǐng)域中出現(xiàn)的新的行業(yè)詞匯,直接加入到主題詞表,這種方法受主觀因素影響較大。3.2.2.基于互信息的學(xué)習(xí)集的設(shè)計(jì)很多研究已經(jīng)討論過基于統(tǒng)計(jì)的短語提取,現(xiàn)有算法都將文集中出現(xiàn)的所有可能的短語列為需要提取的短語的候選項(xiàng),并計(jì)算它們在文集中出現(xiàn)的統(tǒng)計(jì)信息,例如互信息。但是利用這種方法提取出來的部分短語可能對信息查詢沒有實(shí)際的意義。文章將基于文集中的互信息統(tǒng)計(jì)算法應(yīng)用到用戶查詢?nèi)罩局?通過分析用戶查詢?nèi)罩?找出用戶所關(guān)心的短語,并計(jì)算在查詢?nèi)罩局谐霈F(xiàn)的互信息,從而提取出既具有實(shí)際意義,又被用戶所關(guān)心的專業(yè)短語。中文分詞中,互信息衡量相鄰字之間的緊密程度,具有較高互信息值的相鄰字串被切分成一個(gè)詞。在本文就是利用互信息來衡量相鄰詞之間的緊密程度,具有較高互信息值的相鄰詞串提取出作為一個(gè)短語。相鄰詞之間的互信息計(jì)算如下:假設(shè)詞串“…c0c1c2c3…”,詞c1與詞c2之間的互信息為:式(1)中p(c1)表示詞c1的概率,即詞c1的頻率(在文集中出現(xiàn)的次數(shù))除以文集中的總詞數(shù):p(c1c2)表示詞c1和詞c2的聯(lián)合概率,即詞c1和詞c2相鄰出現(xiàn)的頻率除以文集中的總詞數(shù)。因此,式(1)可等價(jià)地寫成:與已有的算法中將文集中出現(xiàn)的所有可能的短語作為候選項(xiàng)不同,本算法僅把在用戶查詢?nèi)罩局谐霈F(xiàn)的短語作為待提取的候選短語。相應(yīng)式(2)中,N記為日志集中的總詞數(shù),freq(c)為c詞在日志集中出現(xiàn)的頻率。針對本文所設(shè)計(jì)的系統(tǒng),通過200條用戶查詢請求組成訓(xùn)練集,利用通用詞典和前向最大匹配法對訓(xùn)練集分詞。我們將查詢?nèi)罩局谐霈F(xiàn)的多個(gè)詞的查詢請求作為短語候選項(xiàng),分別利用上述公式計(jì)算候選短語的互信息值,提取出了互信息值較高的幾個(gè)短語,基本驗(yàn)證了基于用戶查詢?nèi)罩净バ畔⒍陶Z提取算法可行性,提高了數(shù)碼產(chǎn)品搜索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論