JSP 基于產(chǎn)品的搜索引擎_第1頁
JSP 基于產(chǎn)品的搜索引擎_第2頁
JSP 基于產(chǎn)品的搜索引擎_第3頁
JSP 基于產(chǎn)品的搜索引擎_第4頁
JSP 基于產(chǎn)品的搜索引擎_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于的搜索引擎 第 1 頁 共 34 頁 目錄目錄 目錄目錄.1 摘要摘要.3 第一章第一章 引言引言.4 第二章第二章 搜索引擎的結(jié)構(gòu)搜索引擎的結(jié)構(gòu).5 2.1 系統(tǒng)概述.5 2.2 搜索引擎的構(gòu)成.5 2.2.1 網(wǎng)絡(luò)機(jī)器人.5 2.2.2 索引與搜索.5 2.2.3 web 服務(wù)器.6 2.3 搜索引擎的主要指標(biāo)及分析.6 2.4 小節(jié).6 第三章第三章 網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人.7 3.1 什么是網(wǎng)絡(luò)機(jī)器人.7 3.2 網(wǎng)絡(luò)機(jī)器人的結(jié)構(gòu)分析.7 3.2.1 如何解析 html.7 3.2.2 spider 程序結(jié)構(gòu).8 3.2.3 如何構(gòu)造 spider 程序.9 3.2.4 如何提高程序

2、性能.11 3.2.5 網(wǎng)絡(luò)機(jī)器人的代碼分析.12 3.3 小節(jié).14 第四章第四章 基于基于 lucene 的索引與搜索的索引與搜索.15 4.1 什么是 lucene全文檢索 .15 4.2 lucene的原理分析.15 4.2.1 全文檢索的實(shí)現(xiàn)機(jī)制.15 4.2.2 lucene 的索引效率.15 4.2.3 中文切分詞機(jī)制.17 基于的搜索引擎 第 2 頁 共 34 頁 4.3 lucene與 spider的結(jié)合 .18 4.4 小節(jié).21 第五章第五章 基于基于 tomcat 的的 web 服務(wù)器服務(wù)器.22 5.1 什么是基于 tomcat的 web服務(wù)器.22 5.2 用戶接口

3、設(shè)計(jì).22 5.3.1 客戶端設(shè)計(jì).22 5.3.2 服務(wù)端設(shè)計(jì).23 5.3 在 tomcat上部署項(xiàng)目.25 5.4 小節(jié).25 第六章第六章 搜索引擎策略搜索引擎策略.26 6.1 簡介.26 6.2 面向主題的搜索策略.26 6.2.1 導(dǎo)向詞.26 6.2.3 權(quán)威網(wǎng)頁和中心網(wǎng)頁.27 6.3 小節(jié).27 參考文獻(xiàn)參考文獻(xiàn).28 基于的搜索引擎 第 3 頁 共 34 頁 摘 要 網(wǎng)絡(luò)中的資源非常豐富,但是如何有效的搜索信息卻是一件困難的事情。 建立搜索引擎就是解決這個(gè)問題的最好方法。本文首先詳細(xì)介紹了基于英特網(wǎng) 的搜索引擎的系統(tǒng)結(jié)構(gòu),然后從網(wǎng)絡(luò)機(jī)器人、索引引擎、web 服務(wù)器三個(gè)方面

4、 進(jìn)行詳細(xì)的說明。為了更加深刻的理解這種技術(shù),本人還親自實(shí)現(xiàn)了一個(gè)自己 的搜索引擎基于搜索引擎。 搜索引擎是從指定的 web 頁面中按照超連接進(jìn)行解析、搜索,并把搜索到 的每條信息進(jìn)行索引后加入數(shù)據(jù)庫。然后通過 web 服務(wù)器接受客戶端請求后從 索引數(shù)據(jù)庫中搜索出所匹配的。 本人在介紹搜索引擎的章節(jié)中除了詳細(xì)的闡述技術(shù)核心外還結(jié)合了搜索引 擎的實(shí)現(xiàn)代碼來說明,圖文并茂、易于理解。 基于的搜索引擎 第 4 頁 共 34 頁 abstract the resources in the internet are abundant, but it is a difficult job to searc

5、h some useful information. so a search engine is the best method to solve this problem. this article fist introduces the system structure of search engine based on the internet in detail, then gives a minute explanation form spider search, engine and web server. in order to understand the technology

6、 more deeply, i have programmed a news search engine by myself. the news search engine is explained and searched according to hyperlink from a appointed web page, then indexs every searched information and adds it to the index database. then after receiving the customers requests from the web server

7、, it soon searchs the right project form the index engine. in the chapter of introducing search engine, it is not only elaborate the core technology, but also combine with the modern code,pictures included, easy to understand. 基于的搜索引擎 第 5 頁 共 34 頁 第一章 引言 面對浩瀚的網(wǎng)絡(luò)資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個(gè)入口, 毫不夸張的說,所有的用戶

8、都可以從搜索出發(fā)到達(dá)自己想去的網(wǎng)上任何一個(gè)地 方。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務(wù)。 搜索引擎技術(shù)伴隨著 www 的發(fā)展是引人注目的。搜索引擎大約經(jīng)歷了三代 的更新發(fā)展: 第一代搜索引擎出現(xiàn)于 1994 年。這類搜索引擎一般都索引少于 1,000,000 個(gè)網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引。而且其檢索速度非常 慢,一般都要等待 10 秒甚至更長的時(shí)間。在實(shí)現(xiàn)技術(shù)上也基本沿用較為成熟的 ir(information retrieval) 、網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù),相當(dāng)于利用一些已有技 術(shù)實(shí)現(xiàn)的一個(gè) www 上的應(yīng)用。在 1994 年 3 月到 4 月,網(wǎng)絡(luò)爬蟲 world web

9、worm (wwww)平均每天承受大約 1500 次查詢。 大約在 1996 年出現(xiàn)的第二代搜索引擎系統(tǒng)大多采用分布式方案(多個(gè)微型 計(jì)算機(jī)協(xié)同工作)來提高數(shù)據(jù)規(guī)模、響應(yīng)速度和用戶數(shù)量,它們一般都保持一 個(gè)大約 50,000,000 網(wǎng)頁的索引數(shù)據(jù)庫,每天能夠響應(yīng) 10,000,000 次用戶 檢索請求。1997 年 11 月,當(dāng)時(shí)最先進(jìn)的幾個(gè)搜索引擎號稱能建立從 2,000,000 到 100,000,000 的網(wǎng)頁索引。altavista 搜索引擎聲稱他們每天 大概要承受 20,000,000 次查詢。 2000 年搜索引擎 2000 年大會上,按照 google 公司總裁 larry p

10、age 的演 講,google 正在用 3,000 臺運(yùn)行 linux 系統(tǒng)的個(gè)人電腦在搜集 web 上的網(wǎng)頁, 而且以每天 30 臺的速度向這個(gè)微機(jī)集群里添加電腦,以保持與網(wǎng)絡(luò)的發(fā)展相同 步。每臺微機(jī)運(yùn)行多個(gè)爬蟲程序搜集網(wǎng)頁的峰值速度是每秒 100 個(gè)網(wǎng)頁,平均 速度是每秒 48.5 個(gè)網(wǎng)頁,一天可以搜集超過 4,000,000 網(wǎng)頁 搜索引擎一詞在國內(nèi)外因特網(wǎng)領(lǐng)域被廣泛使用,然而他的含義卻不盡相同。 在美國搜索引擎通常指的是基于因特網(wǎng)的搜索引擎,他們通過網(wǎng)絡(luò)機(jī)器人程序 收集上千萬到幾億個(gè)網(wǎng)頁,并且每一個(gè)詞都被搜索引擎索引,也就是我們說的 全文檢索。著名的因特網(wǎng)搜索引擎包括 first se

11、arch、google、hotbot 等。在 中國,搜索引擎通常指基于網(wǎng)站目錄的搜索服務(wù)或是特定網(wǎng)站的搜索服務(wù),本 基于的搜索引擎 第 6 頁 共 34 頁 人這里研究的是基于因特網(wǎng)的搜索技術(shù)。 基于的搜索引擎 第 7 頁 共 34 頁 第二章 搜索引擎的結(jié)構(gòu) 2.12.1 系統(tǒng)概述系統(tǒng)概述 搜索引擎是根據(jù)用戶的查詢請求,按照一定算法從索引數(shù)據(jù)中查找信息返 回給用戶。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護(hù) 一個(gè)龐大的索引數(shù)據(jù)庫。一般的搜索引擎由網(wǎng)絡(luò)機(jī)器人程序、索引與搜索程序、 索引數(shù)據(jù)庫等部分組成。 系統(tǒng)結(jié)構(gòu)圖 2.22.2 搜索引擎的構(gòu)成搜索引擎的構(gòu)成 .

12、1 網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人也稱為“網(wǎng)絡(luò)蜘蛛”(spider),是一個(gè)功能很強(qiáng)的 web 掃描程 序。它可以在掃描 web 頁面的同時(shí)檢索其內(nèi)的超鏈接并加入掃描隊(duì)列等待以后 掃描。因?yàn)?web 中廣泛使用超鏈接,所以一個(gè) spider 程序理論上可以訪問整個(gè) web 頁面。 為了保證網(wǎng)絡(luò)機(jī)器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制 定相關(guān)的掃描策略。 .2 索引與搜索索引與搜索 網(wǎng)絡(luò)機(jī)器人將遍歷得到的頁面存放在臨時(shí)數(shù)據(jù)庫中,如果通過 sql 直接查 www 文檔 網(wǎng)絡(luò)機(jī)器人程序 建立 lucene 索引 從數(shù)據(jù)庫中搜索信息 tomcat 服務(wù)器 lucene 索

13、引數(shù)據(jù)庫 www 瀏覽器www 瀏覽器 jsp 網(wǎng)絡(luò)機(jī)器人程序 基于的搜索引擎 第 8 頁 共 34 頁 詢信息速度將會難以忍受。為了提高檢索效率,需要建立索引,按照倒排文件 的格式存放。如果索引不及時(shí)跟新的話,用戶用搜索引擎也不能檢索到。 用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索然后把符合查詢 要求的數(shù)據(jù)庫按照一定的策略進(jìn)行分級排列并且返回給用戶。 .3 web 服務(wù)器服務(wù)器 客戶一般通過瀏覽器進(jìn)行查詢,這就需要系統(tǒng)提供 web 服務(wù)器并且與索引 數(shù)據(jù)庫進(jìn)行連接??蛻粼跒g覽器中輸入查詢條件,web 服務(wù)器接收到客戶的查 詢條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給

14、客戶端。 2.32.3 搜索引擎的主要指標(biāo)及分析搜索引擎的主要指標(biāo)及分析 搜索引擎的主要指標(biāo)有響應(yīng)時(shí)間、召回率、準(zhǔn)確率、相關(guān)度等。這些指標(biāo) 決定了搜索引擎的技術(shù)指標(biāo)。搜索引擎的技術(shù)指標(biāo)決定了搜索引擎的評價(jià)指標(biāo)。 好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準(zhǔn)確率的,當(dāng)然這些都 需要搜索引擎技術(shù)指標(biāo)來保障。 召回率召回率:一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比 準(zhǔn)確率準(zhǔn)確率:一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比 相關(guān)度相關(guān)度:用戶查詢與搜索結(jié)果之間相似度的一種度量 精確度精確度:對搜索結(jié)果的排序分級能力和對垃圾網(wǎng)頁的抗干擾能力 2.42.4 小節(jié)小節(jié)

15、以上對基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標(biāo)進(jìn)行了分析,本人在這些研 究的基礎(chǔ)上利用 javatm 技術(shù)和一些 open source 工具實(shí)現(xiàn)了一個(gè)簡單的搜索引 擎新聞搜索引擎。在接下來的幾章里將會就本人的設(shè)計(jì)進(jìn)行詳細(xì)的分析。 基于的搜索引擎 第 9 頁 共 34 頁 第三章第三章 網(wǎng)絡(luò)機(jī)器人網(wǎng)絡(luò)機(jī)器人 3.13.1 什么是網(wǎng)絡(luò)機(jī)器人什么是網(wǎng)絡(luò)機(jī)器人 網(wǎng)絡(luò)機(jī)器人又稱為 spider 程序,是一種專業(yè)的 bot 程序。用于查找大量的 web 頁面。它從一個(gè)簡單的 web 頁面上開始執(zhí)行,然后通過其超鏈接在訪問其 他頁面,如此反復(fù)理論上可以掃描互聯(lián)網(wǎng)上的所有頁面。 基于因特網(wǎng)的搜索引擎是 spide

16、r 的最早應(yīng)用。例如搜索巨頭 google 公司, 就利用網(wǎng)絡(luò)機(jī)器人程序來遍歷 web 站點(diǎn),以創(chuàng)建并維護(hù)這些大型數(shù)據(jù)庫。 網(wǎng)絡(luò)機(jī)器人還可以通過掃描 web 站點(diǎn)的主頁來得到這個(gè)站點(diǎn)的文件清單和 層次機(jī)構(gòu)。還可以掃描出中斷的超鏈接和拼寫錯(cuò)誤等。 3.23.2 網(wǎng)絡(luò)機(jī)器人的結(jié)構(gòu)分析網(wǎng)絡(luò)機(jī)器人的結(jié)構(gòu)分析 internet 是建立在很多相關(guān)協(xié)議基礎(chǔ)上的,而更復(fù)雜的協(xié)議又建立在系統(tǒng) 層協(xié)議之上。web 就是建立在 http ( hypertext transfer protocol ) 協(xié)議基 礎(chǔ)上,而 http 又是建立在 tcp/ip ( transmission control protocol

17、 / internet protocol ) 協(xié)議之上,它同時(shí)也是一種 socket 協(xié)議。所以網(wǎng)絡(luò)機(jī)器 人本質(zhì)上是一種基于 socket 的網(wǎng)絡(luò)程序。 .1 如何解析如何解析 html 因?yàn)?web 中的信息都是建立在 html 協(xié)議之上的,所以網(wǎng)絡(luò)機(jī)器人在檢索網(wǎng) 頁時(shí)的第一個(gè)問題就是如何解析 html。在解決如何解析之前,先來介紹下 html 中的幾種數(shù)據(jù)。 文本:文本:除了腳本和標(biāo)簽之外的所有數(shù)據(jù) 注釋:注釋:程序員留下的說明文字,對用戶是不可見的 簡單標(biāo)簽:簡單標(biāo)簽:由單個(gè)表示的 html 標(biāo)簽 開始標(biāo)簽和結(jié)束標(biāo)簽:開始標(biāo)簽和結(jié)束標(biāo)簽:用來控制所包含的 html 代碼

18、我們在進(jìn)行解析的時(shí)候不用關(guān)心所有的標(biāo)簽,只需要對其中幾種重要的進(jìn) 行解析即可。 超連接標(biāo)簽超連接標(biāo)簽 超連接定義了 www 通過 internet 鏈接文檔的功能。他們的主要目的是使用 戶能夠任意遷移到新的頁面,這正是網(wǎng)絡(luò)機(jī)器人最關(guān)心的標(biāo)簽。 基于的搜索引擎 第 10 頁 共 34 頁 圖像映射標(biāo)簽 圖像映射是另一種非常重要的標(biāo)簽。它可以讓用戶通過點(diǎn)擊圖片來遷移到 新的頁面中。 表單標(biāo)簽 表單是 web 頁面中可以輸入數(shù)據(jù)的單元。許多站點(diǎn)讓用戶填寫數(shù)據(jù)然后通 過點(diǎn)擊按鈕來提交內(nèi)容,這就是表單的典型應(yīng)用。 表格標(biāo)簽 表格是 html 的構(gòu)成部分,通常用來格式化存放、顯示數(shù)據(jù)。 我們在具體解析這些

19、 html 標(biāo)簽有兩種方法:通過 javatm 中的 swing 類來 解析或者通過 bot 包中的 htmlpage 類來解析,本人在實(shí)際編程中采用后者。 bot 包中的 htmlpage 類用來從指定 url 中讀取數(shù)據(jù)并檢索出有用的信息。 下面給出該類幾種重要的方法。 htmlpage 構(gòu)造函數(shù)構(gòu)造函數(shù) 構(gòu)造對象并指定用于通訊的 http 對象 public htmlpage(http http) getforms 方法方法 獲取最后一次調(diào)用 open 方法檢索到的表單清單 public vector getforms() gethttp 方法方法 獲取發(fā)送給構(gòu)造函數(shù)的 http 對象

20、public http gethttp() getimage 方法方法 獲取指定頁面的圖片清單 public vector getimage() getlinks 方法方法 獲取指定頁面的連接清單 public vector getlinks() open 方法方法 打開一個(gè)頁面并讀入該頁面,若指定了回調(diào)對象則給出所有該對象數(shù)據(jù) public void open(string url,htmleditorkit.parsercallback a) .2 spiderspider 程序結(jié)構(gòu)程序結(jié)構(gòu) 網(wǎng)絡(luò)機(jī)器人必須從一個(gè)網(wǎng)頁遷移到另一個(gè)網(wǎng)頁,所以必須找到該頁面上的 超連接。程序首先

21、解析網(wǎng)頁的 html 代碼,查找該頁面內(nèi)的超連接然后通過遞歸 和非遞歸兩種結(jié)構(gòu)來實(shí)現(xiàn) spider 程序。 基于的搜索引擎 第 11 頁 共 34 頁 遞歸結(jié)構(gòu) 遞歸是在一個(gè)方法中調(diào)用自己本身的程序設(shè)計(jì)技術(shù)。雖然比較容易實(shí)現(xiàn)但 耗費(fèi)內(nèi)存且不能使用多線程技術(shù),故不適合大型項(xiàng)目。 非遞歸結(jié)構(gòu) 這種方法使用隊(duì)列的數(shù)據(jù)結(jié)構(gòu),當(dāng) spider 程序發(fā)現(xiàn)超連接后并不調(diào)用自己 本身而是把超連接加入到等待隊(duì)列中。當(dāng) spider 程序掃描完當(dāng)前頁面后會根據(jù) 制定的策略訪問隊(duì)列中的下一個(gè)超連接地址。 雖然這里只描述了一個(gè)隊(duì)列,但在實(shí)際編程中用到了四個(gè)隊(duì)列,他們每個(gè) 隊(duì)列都保存著同一處理狀態(tài)的 url。 等待隊(duì)列

22、等待隊(duì)列 在這個(gè)隊(duì)列中,url 等待被 spider 程序處理。新發(fā)現(xiàn)的 url 也被加入到這個(gè)隊(duì)列中 處理隊(duì)列處理隊(duì)列 當(dāng) spider 程序開始處理時(shí),他們被送到這個(gè)隊(duì)列中 錯(cuò)誤隊(duì)列錯(cuò)誤隊(duì)列 如果在解析網(wǎng)頁時(shí)出錯(cuò),url 將被送到這里。該隊(duì)列中的 url 不能被移入其他隊(duì)列中 完成隊(duì)列完成隊(duì)列 如果解析網(wǎng)頁沒有出錯(cuò),url 將被送到這里。該隊(duì)列中的 url 不能被移入其它隊(duì)列中 在同一時(shí)間 url 只能在一個(gè)隊(duì)列中,我們把它稱為 url 的狀態(tài)。 發(fā)現(xiàn) url等待隊(duì)列運(yùn)行隊(duì)列 完成隊(duì)列 錯(cuò)誤隊(duì)列 完成 url 以上的圖表示了隊(duì)列的變化過程,在這個(gè)過程中,當(dāng)一個(gè) url 被加入到等 待隊(duì)列中

23、時(shí) spider 程序就會開始運(yùn)行。只要等待隊(duì)列中有一個(gè)網(wǎng)頁或 spider 程序正在處理一個(gè)網(wǎng)頁,程序就會繼續(xù)他的工作。當(dāng)?shù)却?duì)列為空并且當(dāng)前沒 有任何網(wǎng)頁時(shí),spider 程序就會停止它的工作。 .3 如何構(gòu)造如何構(gòu)造 spiderspider 程序程序 在構(gòu)造 spider 程序之前我們先了解下程序的各個(gè)部分是如何共同工作的。 以及如何對這個(gè)程序進(jìn)行擴(kuò)展。 流程圖如下所示: 基于的搜索引擎 第 12 頁 共 34 頁 把 url 加入等待隊(duì)列 spider 程序工作完成 等待隊(duì)列中是 否有 url? 否 下載從等待隊(duì)列中得到的網(wǎng)頁, 并將他送入運(yùn)行隊(duì)列中。 是 這個(gè)網(wǎng)頁包

24、含其 他超級連接嗎? 將這一網(wǎng)頁送入完 成隊(duì)列并繼續(xù) 查看網(wǎng)頁上的 下一個(gè)超連接 是否為指向 web 的連接? 報(bào)告其他類型連接 連接是否與網(wǎng)頁所 在主機(jī)不同且只處 理本地連接? 報(bào)告外部連接 報(bào)告網(wǎng)頁連接 將連接 加入等 候隊(duì)列 否 是 否 是 否 是 基于的搜索引擎 第 13 頁 共 34 頁 ispiderreportable 接口接口 這是一個(gè)必須實(shí)現(xiàn)的接口,可以通過回調(diào)函數(shù)接受 spider 所遇到的頁面。 接口定義了 spider 向他的控制者發(fā)送的幾個(gè)事件。通過提供對每個(gè)事件的處理 程序,可以創(chuàng)建各種 spider 程序。下面是他的接口聲明: public interface i

25、spiderreportable public boolean foundinternallink(string url); public boolean foundexternallink(string url); public boolean foundotherlink(string url); public void processpage(http page); public void completepage(http page,boolean error); public boolean getremovequery(); public void spidercomplete()

26、; .4 如何提高程序性能如何提高程序性能 internet 中擁有海量的 web 頁面,如果開發(fā)出高效的 spider 程序是非常 重要的。下面就來介紹下幾種提高性能的技術(shù): java 的多線程技術(shù) 線程是通過程序的一條執(zhí)行路線。多線程是一個(gè)程序同時(shí)運(yùn)行多個(gè)任務(wù)的 能力。它是在一個(gè)程序的內(nèi)部進(jìn)行分工合作。 優(yōu)化程序的通常方法是確定瓶頸并改進(jìn)他。瓶頸是一個(gè)程序中最慢的部分, 他限制了其他任務(wù)的運(yùn)行。據(jù)個(gè)例子說明:一個(gè) spider 程序需要下載十個(gè)頁面, 要完成這一任務(wù),程序必須向服務(wù)器發(fā)出請求然后接受這些網(wǎng)頁。當(dāng)程序等待 響應(yīng)的時(shí)候其他任務(wù)不能執(zhí)行,這就影響了程序的效率。如果

27、用多線程技術(shù)可 以讓這些網(wǎng)頁的等待時(shí)間合在一起,不用互相影響,這就可以極大的改進(jìn)程序 性能。 數(shù)據(jù)庫技術(shù) 當(dāng) spider 程序訪問一個(gè)大型 web 站點(diǎn)時(shí),必須使用一種有效的方法來存儲 站點(diǎn)隊(duì)列。這些隊(duì)列管理 spider 程序必須維護(hù)大型網(wǎng)頁的列表。如果把他們放 基于的搜索引擎 第 14 頁 共 34 頁 在內(nèi)存中將會是性能下降,所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的 消耗。 .5 網(wǎng)絡(luò)機(jī)器人的代碼分析網(wǎng)絡(luò)機(jī)器人的代碼分析 程序結(jié)構(gòu)圖如下: 程序代碼實(shí)現(xiàn)如下: package news; import com.heaton.bot.http; import com.h

28、eaton.bot.httpsocket; import com.heaton.bot.ispiderreportable; import com.heaton.bot.iworkloadstorable; import com.heaton.bot.spider; import com.heaton.bot.spiderinternalworkload; /* * 構(gòu)造一個(gè) bot 程序 */ public class searcher implements ispiderreportable public static void main(string args) throws excep

29、tion iworkloadstorable wl = new spiderinternalworkload(); searcher _searcher = new searcher(); 基于的搜索引擎 第 15 頁 共 34 頁 spider _spider = new spider(_searcher, /news.htm, new httpsocket(), 100, wl); _spider.setmaxbody(100); _spider.start(); / 發(fā)現(xiàn)內(nèi)部連接時(shí)調(diào)用,url 表示程序發(fā)現(xiàn)的 url,若返回 true 則加入作業(yè)中,否則不加

30、入。 public boolean foundinternallink(string url) return false; / 發(fā)現(xiàn)外部連接時(shí)調(diào)用,url 表示程序所發(fā)現(xiàn)的 url,若返回 true 則把加入作業(yè)中,否則不加入。 public boolean foundexternallink(string url) return false; / 當(dāng)發(fā)現(xiàn)其他連接時(shí)調(diào)用這個(gè)方法。其他連接指的是非 html 網(wǎng)頁,可能是 e-mail 或者 ftp public boolean foundotherlink(string url) return false; / 用于處理網(wǎng)頁,這是 spider

31、 程序要完成的實(shí)際工作。 public void processpage(http http) system.out.println(掃描網(wǎng)頁: + http.geturl(); new htmlparse(http).start(); / 用來請求一個(gè)被處理的網(wǎng)頁。 public void completepage(http http, boolean error) / 由 spider 程序調(diào)用以確定查詢字符串是否應(yīng)刪除。如果隊(duì)列中的字符串應(yīng)當(dāng)刪除,方法返回真。 public boolean getremovequery() return true; 基于的搜索引擎 第 16 頁 共 34

32、 頁 / 當(dāng) spider 程序沒有剩余的工作時(shí)調(diào)用這個(gè)方法。 public void spidercomplete() 3.33.3 小節(jié)小節(jié) 在本章中,首先介紹了網(wǎng)絡(luò)機(jī)器人的基本概念,然后具體分析了 spider 程序的結(jié)構(gòu)和 功能。在最后還結(jié)合具體代碼進(jìn)行了詳細(xì)說明。 本人在編程中運(yùn)用了 javatm 技術(shù),主要涉及到了 net 和 io 兩個(gè)包。此外還用了第三 方開發(fā)包 bot(由 jeff heaton 提供的開發(fā)包) 。 基于的搜索引擎 第 17 頁 共 34 頁 第四章第四章 基于基于 lucene 的索引與搜索的索引與搜索 4.14.1 什么是什么是 lucene 全文檢索全文

33、檢索 lucene 是 jakarta apache 的開源項(xiàng)目。它是一個(gè)用 java 寫的全文索引引擎工具包,可 以方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對應(yīng)用的全文索引/檢索功能。 4.24.2 lucene 的原理分析的原理分析 .1 全文檢索的實(shí)現(xiàn)機(jī)制全文檢索的實(shí)現(xiàn)機(jī)制 lucene 的 api 接口設(shè)計(jì)的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表=記錄=字 段,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫等都可以比較方便的映射到 lucene 的存儲結(jié)構(gòu)和 接口中。 總體上看:可以先把 lucene 當(dāng)成一個(gè)支持全文索引的數(shù)據(jù)庫系統(tǒng)。 索引數(shù)據(jù)源:doc(field1,field2.) doc

34、(field1,field2.) indexer / _ | lucene index| - / searcher 結(jié)果輸出:hits(doc(field1,field2) doc(field1.) document:一個(gè)需要進(jìn)行索引的“單元”,一個(gè) document 由多個(gè)字段組成 field:字段 hits:查詢結(jié)果集,由匹配的 document 組成 .2 lucene 的索引效率的索引效率 通常書籍后面常常附關(guān)鍵詞索引表(比如:北京:12, 34 頁,上海:3,77 頁), 它能夠幫助讀者比較快地找到相關(guān)內(nèi)容的頁碼。而數(shù)據(jù)庫索引能夠大大提高查詢的速度原 理也是一樣,想像

35、一下通過書后面的索引查找的速度要比一頁一頁地翻內(nèi)容高多少倍 基于的搜索引擎 第 18 頁 共 34 頁 而索引之所以效率高,另外一個(gè)原因是它是排好序的。對于檢索系統(tǒng)來說核心是一個(gè)排序 問題。 由于數(shù)據(jù)庫索引不是為全文索引設(shè)計(jì)的,因此,使用 like %keyword%時(shí),數(shù)據(jù)庫索 引是不起作用的,在使用 like 查詢時(shí),搜索過程又變成類似于一頁頁翻書的遍歷過程了, 所以對于含有模糊查詢的數(shù)據(jù)庫服務(wù)來說,like 對性能的危害是極大的。如果是需要對多 個(gè)關(guān)鍵詞進(jìn)行模糊匹配:like%keyword1% and like %keyword2% .其效率也就可想 而知了。所以建立一個(gè)高效檢索系統(tǒng)的

36、關(guān)鍵是建立一個(gè)類似于科技索引一樣的反向索引機(jī) 制,將數(shù)據(jù)源(比如多篇文章)排序順序存儲的同時(shí),有另外一個(gè)排好序的關(guān)鍵詞列表, 用于存儲關(guān)鍵詞=文章映射關(guān)系,利用這樣的映射關(guān)系索引:關(guān)鍵詞=出現(xiàn)關(guān)鍵詞的文 章編號,出現(xiàn)次數(shù)(甚至包括位置:起始偏移量,結(jié)束偏移量),出現(xiàn)頻率,檢索過程就 是把模糊查詢變成多個(gè)可以利用索引的精確查詢的邏輯組合的過程。從而大大提高了多關(guān) 鍵詞查詢的效率,所以,全文檢索問題歸結(jié)到最后是一個(gè)排序問題。 由此可以看出模糊查詢相對數(shù)據(jù)庫的精確查詢是一個(gè)非常不確定的問題,這也是大部 分?jǐn)?shù)據(jù)庫對全文檢索支持有限的原因。lucene 最核心的特征是通過特殊的索引結(jié)構(gòu)實(shí)現(xiàn)了 傳統(tǒng)數(shù)據(jù)庫

37、不擅長的全文索引機(jī)制,并提供了擴(kuò)展接口,以方便針對不同應(yīng)用的定制。 可以通過一下表格對比一下數(shù)據(jù)庫的模糊查詢: lucene 全文索引引擎數(shù)據(jù)庫 索引將數(shù)據(jù)源中的數(shù)據(jù)都通過全文索引一一建 立反向索引 對于 like 查詢來說,數(shù)據(jù)傳統(tǒng)的索引是根本 用不上的。數(shù)據(jù)需要逐個(gè)便利記錄進(jìn)行 grep 式的模糊匹配,比有索引的搜索速度要有多個(gè) 數(shù)量級的下降。 匹配效果通過詞元(term)進(jìn)行匹配,通過語言分析 接口的實(shí)現(xiàn),可以實(shí)現(xiàn)對中文等非英語的 支持。 使用:like %net% 會把 netherlands 也匹配出來, 多個(gè)關(guān)鍵詞的模糊匹配:使用 like %com%net%:就不能匹配詞序顛倒的

38、 匹配度有匹配度算法,將匹配程度(相似度)比沒有匹配程度的控制:比如有記錄中 net 出現(xiàn) 基于的搜索引擎 第 19 頁 共 34 頁 較高的結(jié)果排在前面。5 詞和出現(xiàn) 1 次的,結(jié)果是一樣的。 結(jié)果輸出通過特別的算法,將最匹配度最高的頭 100 條結(jié)果輸出,結(jié)果集是緩沖式的小批 量讀取的。 返回所有的結(jié)果集,在匹配條目非常多的時(shí)候 (比如上萬條)需要大量的內(nèi)存存放這些臨時(shí) 結(jié)果集。 可定制性通過不同的語言分析接口實(shí)現(xiàn),可以方便 的定制出符合應(yīng)用需要的索引規(guī)則(包括 對中文的支持) 沒有接口或接口復(fù)雜,無法定制 結(jié)論高負(fù)載的模糊查詢應(yīng)用,需要負(fù)責(zé)的模糊 查詢的規(guī)則,索引的資料量比較大 使用率低

39、,模糊匹配規(guī)則簡單或者需要模糊查 詢的資料量少 .3 中文切分詞機(jī)制中文切分詞機(jī)制 對于中文來說,全文索引首先還要解決一個(gè)語言分析的問題,對于英文來說,語句中 單詞之間是天然通過空格分開的,但亞洲語言的中日韓文語句中的字是一個(gè)字挨一個(gè),所 有,首先要把語句中按“詞”進(jìn)行索引的話,這個(gè)詞如何切分出來就是一個(gè)很大的問題。 首先,肯定不能用單個(gè)字符作(si-gram)為索引單元,否則查“上?!睍r(shí),不能讓含有 “海上”也匹配。但一句話:“北京天安門”,計(jì)算機(jī)如何按照中文的語言習(xí)慣進(jìn)行切分 呢?“北京 天安門” 還是“北 京 天安門”?讓計(jì)算機(jī)能夠按照語言習(xí)慣進(jìn)行切分,往 往需要機(jī)器有一

40、個(gè)比較豐富的詞庫才能夠比較準(zhǔn)確的識別出語句中的單詞。另外一個(gè)解決 的辦法是采用自動切分算法:將單詞按照 2 元語法(bigram)方式切分出來,比如:北京天 安門 = 北京 京天 天安 安門。這樣,在查詢的時(shí)候,無論是查詢北京 還是查詢 天安門,將查詢詞組按同樣的規(guī)則進(jìn)行切分:北京,天安安門,多個(gè)關(guān)鍵詞之間按與 and的關(guān)系組合,同樣能夠正確地映射到相應(yīng)的索引中。這種方式對于其他亞洲語言:韓 文,日文都是通用的。 基于自動切分的最大優(yōu)點(diǎn)是沒有詞表維護(hù)成本,實(shí)現(xiàn)簡單,缺點(diǎn)是索引效率低,但對 于中小型應(yīng)用來說,基于 2 元語法的切分還是夠用的?;?2 元切分后的索引一般大小和 源文件差不多,而對

41、于英文,索引文件一般只有原文件的 30%-40%不同, 基于的搜索引擎 第 20 頁 共 34 頁 自動切分自動切分詞表切分詞表切分 實(shí)現(xiàn)實(shí)現(xiàn)非常簡單實(shí)現(xiàn)復(fù)雜 查詢增加了查詢分析的復(fù)雜程度,適于實(shí)現(xiàn)比較復(fù)雜的查詢語法規(guī)則 存儲效率索引冗余大,索引幾乎和原文一樣大索引效率高,為原文大小的 30左右 維護(hù)成本無詞表維護(hù)成本詞表維護(hù)成本非常高:中日韓等語言需要分別維護(hù)。 還需要包括詞頻統(tǒng)計(jì)等內(nèi)容 適用領(lǐng)域嵌入式系統(tǒng):運(yùn)行環(huán)境資源有限 分布式系統(tǒng):無詞表同步問題 多語言環(huán)境:無詞表維護(hù)成本 對查詢和存儲效率要求高的專業(yè)搜索引擎 4.34.3 lucene 與與 spider 的結(jié)合的結(jié)合 首先構(gòu)造一個(gè)

42、 index 類用來實(shí)現(xiàn)對內(nèi)容進(jìn)行索引。 代碼分析如下: package news; import java.io.ioexception; import .chineseanalyzer; import org.apache.lucene.document.document; import org.apache.lucene.document.field; import org.apache.lucene.index.indexwriter; public class index indexwriter _writer = null; index() throws exception 基于的

43、搜索引擎 第 21 頁 共 34 頁 _writer = new indexwriter(c:newsindex, new chineseanalyzer(), true); void addnews(string url, string title) throws exception document _doc = new document(); _doc.add(field.text(title, title); _doc.add(field.unindexed(url, url); _writer.adddocument(_doc); /* * 優(yōu)化并且清理資源 * throws jav

44、a.lang.exception */ void close() throws exception _writer.optimize(); _writer.close(); 然后構(gòu)造一個(gè) html 解析類,把通過 bot 程序收集的新聞內(nèi)容進(jìn)行索引。 4.44.4 小節(jié)小節(jié) 在進(jìn)行海量數(shù)據(jù)搜索時(shí),如果使用單純的數(shù)據(jù)庫技術(shù),那將是非常痛苦的。速度將是 極大的瓶頸。所以本章提出了使用全文搜索引擎 lucene 進(jìn)行索引、搜索。 基于的搜索引擎 第 22 頁 共 34 頁 最后,還結(jié)合了具體代碼說明了如何把 lucene 全文搜索引擎和 spider 程序互相集合 來實(shí)現(xiàn)新聞搜索的功能。 第五章第五

45、章 基于基于 tomcat 的的 web 服務(wù)器服務(wù)器 5.15.1 什么是基于什么是基于 tomcat 的的 web 服務(wù)器服務(wù)器 web 服務(wù)器是在網(wǎng)絡(luò)中為實(shí)現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平 臺的服務(wù)器。web 服務(wù)器如何工作:在 web 頁面處理中大致可分為三個(gè)步驟,第一步, web 瀏覽器向一個(gè)特定的服務(wù)器發(fā)出 web 頁面請求;第二步,web 服務(wù)器接收到 web 頁 面請求后,尋找所請求的 web 頁面,并將所請求的 web 頁面?zhèn)魉徒o web 瀏覽器;第三步, web 服務(wù)器接收到所請求的 web 頁面,并將它顯示出來。 tomcat 是一個(gè)開放源代碼、運(yùn)行 s

46、ervlet 和 jsp web 應(yīng)用軟件的基于 java 的 web 應(yīng)用 軟件容器。tomcat 由 apache-jakarta 子項(xiàng)目支持并由來自開放性源代碼 java 社區(qū)的志愿者 進(jìn)行維護(hù)。tomcat server 是根據(jù) servlet 和 jsp 規(guī)范進(jìn)行執(zhí)行的,因此我們就可以說 tomcat server 也實(shí)行了 apache-jakarta 規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。 5.25.2 用戶接口設(shè)計(jì)用戶接口設(shè)計(jì) .1 客戶端設(shè)計(jì)客戶端設(shè)計(jì) 一個(gè)良好的查詢界面非常重要,例如 googl 就以她簡潔的查詢界面而聞名。我在設(shè)計(jì) 的時(shí)候也充分考慮了實(shí)用

47、性和簡潔性。 .2 服務(wù)端設(shè)計(jì)服務(wù)端設(shè)計(jì) 主要利用 javatm servlet 技術(shù)實(shí)現(xiàn),用戶通過 get 方法從客戶端向服務(wù)端提交查詢條 件,服務(wù)端通過 tomcat 的 servlet 容器接受并分析提交參數(shù),再調(diào)用 lucene 的開發(fā)包進(jìn)行 搜索操作。最后把搜索的結(jié)果以 http 消息包的形式發(fā)送至客戶端,從而完成一次搜索操 作。 服務(wù)端 servlet 程序的結(jié)構(gòu)如下: 基于的搜索引擎 第 23 頁 共 34 頁 實(shí)現(xiàn)的關(guān)鍵代碼如下: package com.mysearch.searchengine.service.impl; import java.util.a

48、rraylist; import java.util.date; import java.util.hashmap; import java.util.list; import org.apache.lucene.document.document; import org.apache.lucene.document.field; import org.apache.lucene.index.term; import org.apache.lucene.search.hits; import org.apache.lucene.search.indexsearcher; import org.

49、apache.lucene.search.query; import org.apache.lucene.search.termquery; import org.apache.lucene.search.wildcardquery; 基于的搜索引擎 第 24 頁 共 34 頁 import com.mysearch.searchengine.bo.searchrequest; import com.mysearch.searchengine.bo.searchresult; import com.mysearch.searchengine.bo.searchresults; import c

50、om.mysearch.searchengine.config.propertyconfiguration; import com.mysearch.searchengine.service.searchservice; import com.mysearch.searchengine.service.dao.searchresultdao; public class searchserviceimpl implements searchservice private static final string product_id = productid; private static final string index_time = indextime; private static final string product_url = producturl; private static final string category = category; private static final string product_name = name; private static final string product_type = type; private static final string sum

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論