




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、WWW網(wǎng)絡(luò)信息搜索技術(shù)敘述 摘要:本文針對網(wǎng)絡(luò)搜索引擎工作中的重點(diǎn)技術(shù)作出詳盡的闡述,它包括obot程序、索引數(shù)據(jù)庫、檢索程序三個(gè)方面。通過他們來概述WWW網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展?fàn)顩r。 關(guān)鍵詞:obot程序、數(shù)據(jù)索引、遍歷算法、相關(guān)性 Theabstractsofinformationretrievalsontheworldwideweb Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechn
2、iques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem. Keywords:Robot,Indces,Revelance,arithmetic 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息不斷爆炸式的擴(kuò)張,網(wǎng)民怎么才能從這樣海量的信息中找到他們所需要的信息呢?搜索引擎,這是目前為止,世界上最流行的一種準(zhǔn)確獲得信息的一種工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、網(wǎng)絡(luò)指南針、北大天網(wǎng)和華好網(wǎng)景的ChinaOK等等。
3、這些都是世界上非常著名的搜索引擎。他們都是通過網(wǎng)絡(luò)機(jī)器人搜集網(wǎng)絡(luò)信息,建立索引數(shù)據(jù)庫,并且不但的更新,通過一定的相關(guān)性算法,對用戶提供的請求作出響應(yīng),并按一定的次序輸出高質(zhì)量的信息。它的主要由下面三個(gè)部分組成:蜘蛛程序、索引數(shù)據(jù)庫、檢索程序。三個(gè)部分協(xié)調(diào)一致,其工作原理(圖1)如下: 1obot技術(shù)程序 obot是一種計(jì)算機(jī)的程序,可以自動(dòng)地在網(wǎng)絡(luò)中穿梭,該程序最重要的功能是使用索引策略,也就是查找網(wǎng)站和網(wǎng)頁的次序??梢杂妙}目、關(guān)鍵詞進(jìn)行索引,也可以是以上幾項(xiàng)的某種組合。由于的數(shù)據(jù)量大,在現(xiàn)有的機(jī)器和網(wǎng)絡(luò)條件下,搜索引擎只能對部分上的資料進(jìn)行采集;加上搜索的索引策略不同,所以對相同關(guān)鍵詞的搜索
4、在不同的搜索器上可以有截然不同的結(jié)果。如果把整個(gè)看作是一個(gè)圖或一棵樹的話,可以發(fā)現(xiàn)技術(shù)的基本工作原理和人工智能中的搜索樹一樣,這在計(jì)算機(jī)中可以方便地使用遞歸方法實(shí)現(xiàn),具體如下: (1)根據(jù)首頁進(jìn)行搜索,相當(dāng)于搜索樹的根; (2)根據(jù)首頁的第1個(gè)鏈接到下一個(gè)頁面; (3)重復(fù)(1)和(2);(4)到某頁已經(jīng)沒有鏈接,回退上一級頁面的下一個(gè)鏈接,如此循環(huán)往復(fù)。 但若要建立全面的索引數(shù)據(jù)庫,必須對系統(tǒng)進(jìn)行遍歷。我們可以進(jìn)行這樣假設(shè):將作為一個(gè)有向圖處理,將頁面看作圖中的節(jié)點(diǎn),頁面中的超鏈看作圖中的有向邊。因此可以使用有向圖遍歷算法(深度優(yōu)先或廣度優(yōu)先算法或啟發(fā)式方式)對其進(jìn)行遍歷。是個(gè)典型的結(jié)構(gòu)系統(tǒng)
5、,所以可在一臺(tái)主機(jī)上完成遍歷。 遍歷一般采用以下3種方法: (1)定一個(gè)種子,obot從種子開始對遍歷; (2)定一組不同類別、被訪問頻率高的,obot從這些開始遍歷; (3)據(jù)域名或地址將空間劃分為多個(gè)子空間,運(yùn)行多個(gè)obot程序并行地在不同子空間中進(jìn)行遍歷。在實(shí)際使用中,一般是將這三種方法組合起來使用。按照上述遍歷算法,obot可以系統(tǒng)地、周期性地訪問,從而建立較為全面的索引庫,并能保持對庫的不斷更新。 在遍歷算法中,一般用到了兩種方式,深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。Robit以URL列表存取的方式?jīng)Q定搜索策略: (1)先進(jìn)先出,則形成廣度優(yōu)先搜索。當(dāng)起始列表包含有大量的服務(wù)器地址
6、時(shí),廣度優(yōu)先搜索將產(chǎn)生一個(gè)很好的初始結(jié)果,但很難深入到服務(wù)器中去。 (2)先進(jìn)后出,則形成深度優(yōu)先搜索。這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用在實(shí)際使用中,一般是將這三種方法組合起來使用。按照上述遍歷算法,obot可以系統(tǒng)地、周期性地訪問,從而建立較為全面的索引庫,并能保持對庫的不斷更新。在遍歷的過程中,為了提高其效率,可以融入人工智能的方法使其變得智能化,以下為可行的方法: (1)搜索引擎基本信息的采集??紤]網(wǎng)絡(luò)中海量的數(shù)據(jù),首先選取一些網(wǎng)絡(luò)的主要節(jié)點(diǎn),使搜索引擎存放某些監(jiān)控程序到站點(diǎn)中,和站點(diǎn)之間建立一種通信聯(lián)系,使搜索引擎不必每次更新時(shí)都要一個(gè)個(gè)頁面地比
7、較,而是智能地知道自上次訪問后哪些頁面已更新,直接采集新的頁面。 (2)搜索引擎數(shù)據(jù)庫的建立??紤]數(shù)據(jù)庫中數(shù)據(jù)的有用性,可以根據(jù)用戶的訪問頻度,建立站點(diǎn)的用戶訪問頻度表格,obot查找鏈接和頁面時(shí),要查看該表格,從用戶訪問頻度高的站點(diǎn)開始查找,對上升速度和下降速度特別快的還要特別處理。搜索引擎的數(shù)據(jù)庫內(nèi)容是用戶經(jīng)常訪問并樂意訪問的,使搜索引擎越來越貼近用戶。 2索引技術(shù) 索引技術(shù)的目的是理解obot所搜索的信息,從中抽取索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種: 客觀項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、更新時(shí)間、編碼、長度、鏈接流行度(LinkPopular
8、ity)等等;內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。 內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng))兩種。單索引項(xiàng)對于英文來講是英語單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。在搜索引擎中,一般要給單索引項(xiàng)賦予一個(gè)權(quán)值,以表示該索引項(xiàng)對文檔的區(qū)分索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。索引表一般使用某種形式的倒排表(Invers度,同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引,即由索引項(xiàng)查找相應(yīng)的文檔。索引表要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之
9、間的相鄰或接近關(guān)系(Proximity)。 索引技術(shù)可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(InstantIndexing),否則不能跟上信息量劇增的速度。索引算法對索引技術(shù)的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量,而索引的質(zhì)量由索引技術(shù)和索引策略來決定;但現(xiàn)行的索引技術(shù)隨著數(shù)據(jù)量的增大,其耗費(fèi)的資源指數(shù)速度飛速增長,極大地影響到搜索數(shù)據(jù)庫的容量和檢索;考慮用提高索引智能化的方式來提高索引的質(zhì)量。按建立索引的策略來看,應(yīng)確定是全文關(guān)鍵字提取,還是內(nèi)容提取,根據(jù)不同的查詢目標(biāo)會(huì)有不同的提取目標(biāo)和提取范圍
10、,最終將大大影響數(shù)據(jù)提取的速度和效果,這是索引技術(shù)所要考慮的首要問題;按內(nèi)容提取可以采用分類技術(shù),把頁面的主題或內(nèi)容分類,進(jìn)入到不同的數(shù)據(jù)庫中,在輸入關(guān)鍵詞查詢時(shí),要求第個(gè)關(guān)鍵詞必須是內(nèi)容類別的詞,這樣第個(gè)關(guān)鍵詞就可以使搜索引擎知道到哪個(gè)內(nèi)容類別的數(shù)據(jù)庫中查找,再匹配后面的關(guān)鍵詞,這樣可以大大減少系統(tǒng)匹配的時(shí)間。這項(xiàng)技術(shù)要求在相關(guān)詞庫的基礎(chǔ)上,還要統(tǒng)計(jì)使用頻度,再加上一定的算法方可實(shí)現(xiàn)。當(dāng)然上述兩者應(yīng)有機(jī)地結(jié)合才可提高整個(gè)系統(tǒng)的性能。 3檢索程序。 當(dāng)用戶檢索的時(shí)候,首先需要輸入關(guān)鍵詞,系統(tǒng)將對其進(jìn)行語言分析,分解成多個(gè)詞或詞組,在去服務(wù)器的索引數(shù)據(jù)庫,根據(jù)檢索詞的相關(guān)性進(jìn)行匹配,找到與檢索詞
11、相關(guān)度逼近的網(wǎng)頁,按照相關(guān)度的高低進(jìn)行排序輸出,關(guān)鍵詞出現(xiàn)了的越多的結(jié)果排得越靠前,越知名的站點(diǎn)排得越靠前。這里,相關(guān)性的設(shè)計(jì)相當(dāng)?shù)闹匾?,它直接影響著搜索的效率。但“相關(guān)性”的概念一直非常模糊。一方面,人們觀察到特定文檔對特定查詢而言可以有多種“相關(guān)”的方式,比如用戶輸入一個(gè)關(guān)鍵詞作為查詢向系統(tǒng)提交,系統(tǒng)返回的文檔列表中的文檔講述與此關(guān)鍵詞相關(guān)的事件,談?wù)撆c此關(guān)鍵詞相關(guān)的人物等等,都可以說與這個(gè)關(guān)鍵詞“相關(guān)”,但我們顯然覺得二者與查詢的相關(guān)并不屬于同一層次。另一方面,由于用戶本身的差異使其對檢出文檔是否真正相關(guān)的判斷也有諸多差異。但是在設(shè)計(jì)信息檢索系統(tǒng)的過程中,不可避免地要用到相關(guān)性這個(gè)概念;
12、具體地說,設(shè)計(jì)者必須對怎樣才算是“相關(guān)”有一個(gè)比較明確的想法,在沒有弄清楚什么是相關(guān)性之前就談?wù)撛鯓訁^(qū)別相關(guān)和不相關(guān)文檔,的確令人覺得在邏輯上缺少了一個(gè)重要的環(huán)節(jié)。下面就相關(guān)性做詳盡的闡述: 3.1相關(guān)性研究的理論框架 3.1.1系統(tǒng)角度的相關(guān) 信息檢索似乎從一開始就定位為一種單方向的過程,即系統(tǒng)輸出結(jié)果,用戶是信息的接受者。這種理解置用戶于被動(dòng)的地位:基于這種理解,研究的重心自然落在系統(tǒng)本身。系統(tǒng)角度的相關(guān)一般有兩種比較方式。其一是在文檔本身固有的特征信息,如詞頻等等與用戶提交的查詢表達(dá)式中固有的特征信息之間進(jìn)行比較。典型做法是在文檔集中尋找出現(xiàn)了查詢表達(dá)式中的索引項(xiàng)的文檔;其二是在從文檔中
13、抽取的“主題”與用戶查詢表達(dá)式中體現(xiàn)的“主題”之間做比較,即首先計(jì)算文檔中各索引項(xiàng)的權(quán)值,再按權(quán)值大小進(jìn)行排序,以此為依據(jù)確定文檔的主題詞。這種做法比較簡單明了,易于操作而且可以直接觀察,所以一直是信息檢索研究者們樂于接受的。 3.1.2改進(jìn)后的系統(tǒng)相關(guān) 從系統(tǒng)角度定義的相關(guān)性(即主題性相關(guān))最突出的優(yōu)點(diǎn),就是簡明和可操作性;而至少目前的系統(tǒng)還無法把握人的主觀感覺。這樣看來,采取主題性相關(guān)的態(tài)度就是唯一可行的做法。然而并不能把詞頻統(tǒng)計(jì)作為唯一的解決辦法。airthorne曾提出:如果允許個(gè)人推論和個(gè)人理解介入相關(guān)性判斷,那么從某種角度來看,任何文本對任何請求都是相關(guān)的。所以,改進(jìn)系統(tǒng)角度相關(guān)度
14、計(jì)算方法似乎比較可以接受。基于此種看法,在這里可以做這樣一個(gè)設(shè)想:如果主題詞提取算法能體現(xiàn)用戶的相關(guān)性判斷直覺,那么用戶的相關(guān)性判斷就可以被描述,而檢索系統(tǒng)的輸出就可能更加令人滿意(見下圖)。系統(tǒng)角度相關(guān)不能解決相關(guān)性判斷的不確定性。相關(guān)性判斷的不確定性基本上集中于用戶的主觀因素上。信息檢索研究者的觀點(diǎn)往往局限在雖然簡單但引起很多爭議的系統(tǒng)角度相關(guān)。但是隨著檢索系統(tǒng)日益廣泛的應(yīng)用,人們開始更多地思索人機(jī)交互過程中人的因素。 3.2相關(guān)反饋技術(shù)在信息檢索系統(tǒng)中的應(yīng)用及局限 從用戶角度討論相關(guān)大體上就是觀察用戶對檢索結(jié)果的反應(yīng),是系統(tǒng)輸出向用戶需求的投射。作為系統(tǒng)本身必須“知道”如何判斷相關(guān)性,而
15、這種機(jī)制實(shí)際上是設(shè)計(jì)者對用戶判斷方式的模擬。最終的系統(tǒng)只能將用戶判斷有差異這一事實(shí)“忽略”過去。在檢索系統(tǒng)中,使用相關(guān)反饋技術(shù)的目的,是通過檢索策略的調(diào)整來增強(qiáng)對相關(guān)文獻(xiàn)的響應(yīng)而抑制非相關(guān)文獻(xiàn)。許多年來,相關(guān)反饋被用來修正提問的問題。較復(fù)雜一些的檢索系統(tǒng)如以向量空間模型為基礎(chǔ)的和概率模型等等固然包含了某“相關(guān)反饋”技術(shù),即以已經(jīng)得出的檢索結(jié)果和用戶的相關(guān)性評價(jià)為依據(jù),不斷修正查詢表達(dá)式和檢索結(jié)果集合;但是,系統(tǒng)賴以區(qū)分相關(guān)與不相關(guān)文檔集的算法卻只考慮文檔自身的特性。信息檢索的主要工作簡而言之就是提取文檔內(nèi)容特征項(xiàng)的過程。這就使得檢索系統(tǒng)不能跳出“系統(tǒng)中心”的局限而用戶判斷的不確定性不能得到本質(zhì)的運(yùn)用。雖然從用戶角度討論相關(guān)性定義的文獻(xiàn)多如牛毛,卻從未有一個(gè)確定性的結(jié)論;用戶的主觀因素的確難以捉摸。 結(jié)束語:在當(dāng)今的知識(shí)經(jīng)濟(jì)和網(wǎng)絡(luò)環(huán)境下,對信息的占有和知識(shí)的發(fā)現(xiàn),是發(fā)展生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 陳老師說教育數(shù)學(xué)試卷
- 番茄主要病蟲害的危害及針對性綠色防控對策實(shí)施
- 貴州地區(qū)的油茶種植現(xiàn)狀及高產(chǎn)栽培技術(shù)的高效實(shí)施方案探討
- 2025年冷墩鋼項(xiàng)目發(fā)展計(jì)劃
- 中外文明交流史知到課后答案智慧樹章節(jié)測試答案2025年春牡丹江師范學(xué)院
- 2025年有機(jī)磷系阻燃劑合作協(xié)議書
- 2017-2018學(xué)年高中生物必修2課時(shí)訓(xùn)練第2章第1節(jié)第1課時(shí)減數(shù)分裂B
- 2025年金屬非切削、成形加工機(jī)械合作協(xié)議書
- 填浜工程施工方案
- 物理選修3-5教科版全套講義第三章原子核3-2
- GB/T 44325-2024工業(yè)循環(huán)冷卻水零排污技術(shù)規(guī)范
- 2024年重慶市高考思想政治試卷真題(含答案解析)
- 鍋爐安裝改造維修質(zhì)量保證體系文件(手冊+程序文件+表格+工藝文件匯編)-符合TSG 07-2019特種設(shè)備質(zhì)量保證管理體系
- 學(xué)習(xí)課程方案、課程標(biāo)準(zhǔn)心得體會(huì)
- 成人鼻腸管的留置與維護(hù)(2021團(tuán)體標(biāo)準(zhǔn)解讀)-20221004172843
- SN-T 5370-2022 進(jìn)出口危險(xiǎn)貨物檢驗(yàn)規(guī)程 鋰電池移動(dòng)電源
- 機(jī)械制造質(zhì)量手冊(一)
- 2024-2030年中國互聯(lián)網(wǎng)+印刷行業(yè)深度分析及發(fā)展戰(zhàn)略研究咨詢報(bào)告
- 水庫綠化景觀設(shè)計(jì)項(xiàng)目招標(biāo)文件模板
- 偉大的《紅樓夢》智慧樹知到期末考試答案章節(jié)答案2024年北京大學(xué)
- 小學(xué)校園欺凌行為調(diào)查問卷(學(xué)生卷)
評論
0/150
提交評論