搜索引擎優(yōu)化信息檢索技術(shù)課件_第1頁
搜索引擎優(yōu)化信息檢索技術(shù)課件_第2頁
搜索引擎優(yōu)化信息檢索技術(shù)課件_第3頁
搜索引擎優(yōu)化信息檢索技術(shù)課件_第4頁
搜索引擎優(yōu)化信息檢索技術(shù)課件_第5頁
已閱讀5頁,還剩213頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索技術(shù)、方法

及搜索引擎徐淑慧xushuhui@哈爾濱工程大學(xué)圖書館信息服務(wù)部82519545信息檢索技術(shù)、方法

及搜索引擎徐淑慧xushuhui1第一節(jié):信息檢索技術(shù)第一節(jié):信息檢索技術(shù)2數(shù)字資源的檢索技術(shù)布爾邏輯檢索技術(shù)1截詞檢索技術(shù)2鄰近檢索技術(shù)3字段檢索技術(shù)4數(shù)字資源的檢索技術(shù)布爾邏輯檢索技術(shù)1截詞檢索技術(shù)2鄰近檢索技3布爾邏輯檢索是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系算符來表達(dá)檢索詞與檢索詞間的邏輯關(guān)系的檢索方法。主要的布爾邏輯關(guān)系詞有:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)1布爾邏輯檢索技術(shù)布爾邏輯檢索是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系算符來表達(dá)檢索詞與檢索4邏輯與邏輯乘:“and”或“*”表示組配方式:A*B或者AandB表示兩個(gè)概念的交叉和限定關(guān)系,只有同時(shí)含有這兩個(gè)概念的記錄才算命中信息作用:增加限制條件,即增加檢索的專指性,以縮小提問范圍,減少文獻(xiàn)輸出量,提高查準(zhǔn)率。

邏輯與5邏輯或又稱邏輯和:“or”、“+”組配方式:AORB或者A+B,表示檢索含有A詞,或含有B詞,或同時(shí)包含A、B兩詞的文章。作用:放寬提問范圍,增加檢索結(jié)果,起擴(kuò)檢作用,提高查全率。邏輯或6邏輯非又稱邏輯差:“not”“-”組配方式:A-B,表示檢索出含有A詞而不含有B詞的文章。作用:邏輯非用于排除不希望出現(xiàn)的檢索詞,它和“*”的作用相似,能夠縮小命中文獻(xiàn)范圍,增強(qiáng)檢索的準(zhǔn)確性。邏輯非7例如檢索:“打印機(jī)驅(qū)動(dòng)程序”查詢關(guān)鍵詞:打印機(jī)、驅(qū)動(dòng)程序檢索表達(dá)式:打印機(jī)AND驅(qū)動(dòng)程序例如檢索:“微型計(jì)算機(jī)”方面的有關(guān)信息查詢關(guān)鍵詞:微型計(jì)算機(jī)、微機(jī)檢索表達(dá)式:微型計(jì)算機(jī)OR微機(jī)布爾邏輯檢索舉例例如檢索:“打印機(jī)驅(qū)動(dòng)程序”布爾邏輯檢索舉例8布爾運(yùn)算符優(yōu)先級(jí)比較有括號(hào)時(shí):括號(hào)內(nèi)的先執(zhí)行;無括號(hào)時(shí):NOT>AND>OR例:檢索“唐宋詩歌”的有關(guān)信息。關(guān)鍵詞:唐、宋、詩歌;檢索表達(dá)式:(唐OR宋)AND詩歌;唐AND詩歌OR宋AND詩歌;錯(cuò)誤表達(dá)式:唐OR宋AND詩歌;唐AND宋AND詩歌;唐OR宋OR詩歌;唐AND宋OR詩歌;布爾邏輯運(yùn)算符優(yōu)先級(jí)布爾運(yùn)算符優(yōu)先級(jí)比較布爾邏輯運(yùn)算符優(yōu)先級(jí)9請(qǐng)注意在不同的數(shù)據(jù)庫中,所使用的邏輯符號(hào)可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些檢索工具會(huì)完全省略任何符號(hào)和關(guān)系,直接把布爾邏輯關(guān)系隱含在菜單中。一些網(wǎng)絡(luò)檢索工具如搜索引擎甚至用“︺、,、-”(即空格、逗號(hào)、減號(hào))來表示。請(qǐng)注意10主要應(yīng)用于西文數(shù)字資源的檢索定義:是指在檢索式中用專門的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化。作用:主要是提高查全率截詞符一般用“?”或“*”表示2截詞檢索技術(shù)2截詞檢索技術(shù)11截詞位置按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞;按截?cái)嘧址麛?shù)的不同,可分為有限截?cái)嗪蜔o限截?cái)?。截詞位置按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞;12右截詞,又稱后截詞、前方一致。允許檢索詞尾有若干變化。例如comput*將檢索出computer、computing、computerised、computerized、computerization等結(jié)果。中間截詞,又稱前后方一致。允許檢索詞中間有若干變化。例如wom*n,檢索到woman、women的結(jié)果。英美的不同拼法,defen*e可同時(shí)檢出defence和defense的結(jié)果。右截詞,又稱后截詞、前方一致。允許檢索詞尾有若干變化。例如c13左截詞,又稱前截詞、后方一致,允許檢索詞前有若干變化,例如*physics就可檢索到physics、astrophysics、biophysics、chemophysics、geophysics等詞的結(jié)果。前后截詞:詞干的前后各有一個(gè)截詞符,允許檢索詞的前端和尾部各有若干變化形式。如?computer?可檢索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等結(jié)果。左截詞,又稱前截詞、后方一致,允許檢索詞前有若干變化,例如*14請(qǐng)注意在不同的數(shù)據(jù)庫和聯(lián)機(jī)檢索系統(tǒng)中,所使用的截詞符號(hào)沒有統(tǒng)一的標(biāo)準(zhǔn),有的用“?”,有的用“*”,有的用“#”,用的用“$”等。即便常用的“?”和“*”在不同的數(shù)據(jù)庫中其用法也是不一定相同的。在允許截詞的檢索工具中,一般是指右截詞,部分支持中間截詞,左截詞比較少見。我們將要使用的一些數(shù)據(jù)庫,一般用“*”代表一個(gè)字符串,用“?”代表任意一個(gè)字符。請(qǐng)注意在不同的數(shù)據(jù)庫和聯(lián)機(jī)檢索系統(tǒng)中,所使用的截詞符號(hào)沒15鄰近檢索又稱位置檢索,主要是通過檢索式中的專門符號(hào)來規(guī)定檢索詞在結(jié)果中的相對(duì)位置。例如檢索“生物防治”的文獻(xiàn),若用檢索式“biological*control”檢索,則會(huì)將“抑制生物”(controlbiological)的文獻(xiàn)也查出來,這顯然不是所需文獻(xiàn)。主要有相鄰位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F)。

3鄰近檢索技術(shù)

鄰近檢索又稱位置檢索,主要是通過檢索式中的專門符號(hào)來規(guī)定檢索16(W)算符

(W)是with(word)的縮寫,表示此算符兩側(cè)的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。如biological(W)control相當(dāng)于檢索biologicalcontrolCD(W)ROM相當(dāng)于檢索CDROM或CD-ROM。(W)算符(W)是with(word)的縮寫,表示17(nW)算符

(nW)是nwords的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入最多n個(gè)詞,且詞序不可變。如wear(1W)material相當(dāng)于檢索wearmaterials、wearofmaterials等。(nW)算符(nW)是nwords的縮寫,表18(N)算符(N)是near的縮寫,表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變,詞間不允許插入其他詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。information(N)retrieval可檢出:informationretrievalretrievalinformation(N)算符(N)是near的縮寫,表示此算符兩側(cè)的檢索詞必須19(nN)算符(nN)表示兩詞間可插入最多n個(gè)詞,詞序可變。如檢索式environment(2N)protection就可檢索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”(nN)算符20(S)、(F)算符

(S)是sentence的縮寫,表示兩個(gè)檢索詞須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一子字段中,兩詞的詞序不限,兩詞間插入詞的數(shù)量不限。

(F)算符:在聯(lián)機(jī)檢索中還有對(duì)同字段進(jìn)行檢索的(F)算符。(F)表示此算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在信息記錄的同一個(gè)字段內(nèi),兩詞的詞序不限,兩詞間插入詞的數(shù)量不限。用此算符時(shí)須指定所要查找的字段,如題名字段、文摘字段、敘詞字段等。例如digital(F)computer/TI表示在題名字段(TI)中同時(shí)出現(xiàn)這兩個(gè)檢索詞的才算命中信息。(S)、(F)算符(S)是sentence的縮寫,表示兩個(gè)21字段檢索是限定檢索詞在記錄中出現(xiàn)的字段范圍,檢索時(shí),計(jì)算機(jī)只對(duì)限定字段進(jìn)行查找。3字段檢索技術(shù)字段檢索是限定檢索詞在記錄中出現(xiàn)的字段范圍,檢索時(shí),計(jì)算機(jī)只22TI(題名)、AB(摘要)、DE(主題詞)、ID(標(biāo)識(shí)詞)、SU(主題詞)、KW(關(guān)鍵詞)AU(著者)、BN(國際標(biāo)準(zhǔn)書號(hào))、SN(國際標(biāo)準(zhǔn)刊號(hào))、CC(分類類目)、CS(機(jī)構(gòu))、DT(文獻(xiàn)類型)或PT(出版物類型)、JN(刊名)或JA(刊號(hào))、LA(語種)、PY(出版年)、SO(來源出版物)注意:不同的數(shù)據(jù)庫其字段代碼可能不同。數(shù)據(jù)庫中的字段包括

數(shù)據(jù)庫中的字段包括23舉例在EBSCO數(shù)據(jù)庫檢索中,某一用戶需檢索有關(guān)“數(shù)字圖書館與信息檢索、參考咨詢”方面的文獻(xiàn)信息,檢索要求:題名或文摘中包含數(shù)字圖書館digitallibrary,數(shù)字圖書館要求考慮單復(fù)數(shù),主題為信息檢索informationretrieval或參考咨詢r(jià)eference,請(qǐng)編制其檢索策略(檢索式)。(ti:digitallibrar*orab:digitallibrar*)andsu:(referenceorinformationn2retrieval)舉例在EBSCO數(shù)據(jù)庫檢索中,某一用戶需檢索有關(guān)“數(shù)字圖書館24第二節(jié):信息檢索方法第二節(jié):信息檢索方法25信息需求分析選擇信息資源選定檢索詞構(gòu)造檢索表達(dá)式確定檢索途徑對(duì)檢索策略進(jìn)行調(diào)整實(shí)施并輸出檢索結(jié)果信息需求分析261信息需求分析分析信息檢索目的,制定檢索目標(biāo)。分析所需信息涉及的學(xué)科,確定檢索的學(xué)科范圍。分析所需信息的類型、年代,確定檢索的信息類型和年代范圍。1信息需求分析分析信息檢索目的,制定檢索目標(biāo)。272選擇信息資源(數(shù)據(jù)庫的選擇)數(shù)據(jù)庫的類型學(xué)科范圍時(shí)間范圍2選擇信息資源(數(shù)據(jù)庫的選擇)數(shù)據(jù)庫的類型283選定檢索詞分析主題,找出課題所包含的顯性概念和隱含概念。找出核心概念,排除無關(guān)概念和重復(fù)概念。從待檢數(shù)據(jù)庫和檢索工具的詞表中選取規(guī)范化的詞或詞組。選用上位詞、近義詞或下位詞作為檢索詞。3選定檢索詞分析主題,找出課題所包含的顯性概念和隱含概念。294構(gòu)造檢索表達(dá)式分析檢索提問式是數(shù)字資源檢索中用來表達(dá)用戶檢索提問的邏輯表達(dá)式。找出在編制檢索提問式時(shí),準(zhǔn)確、合理地運(yùn)用位置邏輯算符、截詞符、字段符等技術(shù)是編制檢索式的基本要求。4構(gòu)造檢索表達(dá)式分析檢索提問式是數(shù)字資源檢索中用來表達(dá)用戶305確定檢索途徑第一類是表示主題概念的檢索詞主題詞,包括標(biāo)題詞、單元詞、敘詞、關(guān)鍵詞。第二類是表示學(xué)科分類的檢索詞,如分類號(hào)。第三類是表示作者的檢索詞,如作者姓名、機(jī)構(gòu)名稱等。第四類是表示特殊意義的檢索詞,如專利號(hào)、國際標(biāo)準(zhǔn)書號(hào)、分子式等5確定檢索途徑第一類是表示主題概念的檢索詞主題詞,包31舉例一個(gè)研究生在做論文題:“數(shù)字圖書館中的元數(shù)據(jù)體系與互操作研究”,這是一個(gè)計(jì)算機(jī)科學(xué)、信息科學(xué)方面的課題,請(qǐng)你幫助他在維普數(shù)據(jù)庫中找到最新的參考文獻(xiàn)。舉例一個(gè)研究生在做論文題:“數(shù)字圖書館中的元數(shù)據(jù)體系與互操32第三節(jié):搜索引擎SearchEngine第三節(jié):搜索引擎SearchEngine33搜索引擎的概念和作用搜索引擎的工作原理搜索引擎的分類搜索引擎的一般檢索技術(shù)搜索引擎利用技巧主要搜索引擎目錄搜索引擎的概念和作用目錄34搜索引擎是一個(gè)用來搜索世界各地Internet網(wǎng)絡(luò)資源的WEB服務(wù)器。它像一本書的目錄,Internet各個(gè)站點(diǎn)的網(wǎng)址就像是頁碼,可以通過關(guān)鍵詞或主題分類的方式來查找感興趣的信息所在的WEB頁面。搜索引擎提供的導(dǎo)航服務(wù)(搜索引擎就是網(wǎng)絡(luò)的指南針)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),成為和電子郵件并列的最重要的互聯(lián)網(wǎng)應(yīng)用。搜索引擎的概念和作用搜索引擎是一個(gè)用來搜索世界各地Internet網(wǎng)絡(luò)資源的WE35(1)信息搜集(2)信息索引(3)信息查詢(4)檢索結(jié)果的相關(guān)性處理搜索引擎的工作原理(1)信息搜集搜索引擎的工作原理36(1)信息搜集

各個(gè)搜索引擎都派出綽號(hào)為蜘蛛(Spider)或機(jī)器人(Robots)的“網(wǎng)頁搜索軟件”,在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。

訪問網(wǎng)絡(luò)中公開區(qū)域的每一個(gè)站點(diǎn)并記錄其網(wǎng)址,將它們帶回搜索引擎,要盡可能多、盡可能快地搜集各種類型的新信息。因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死鏈接和無效鏈接。(1)信息搜集37(2)信息索引

將“網(wǎng)頁搜索軟件”帶回的信息進(jìn)行分類整理,建立搜索引擎數(shù)據(jù)庫,并定時(shí)更新數(shù)據(jù)庫內(nèi)容。有的搜索引擎把“網(wǎng)頁搜索軟件”發(fā)往每一個(gè)站點(diǎn),記錄下每一頁的所有文本內(nèi)容,并收入到數(shù)據(jù)庫中從而形成全文搜索引擎;而另一些搜索引擎只記錄網(wǎng)頁的地址、篇名、特點(diǎn)的段落和重要的詞。(2)信息索引38(3)信息查詢

根據(jù)用戶的查詢需求在索引庫中快速檢出相關(guān)網(wǎng)頁,并反饋檢索結(jié)果。一般包括分類目錄及關(guān)鍵詞兩種信息查詢方式。(3)信息查詢39(4)檢索結(jié)果排序

概率法是根據(jù)關(guān)鍵詞在文中出現(xiàn)的頻率來判定的,出現(xiàn)的次數(shù)越多,認(rèn)定其與查詢的相關(guān)程度越高;位置法是根據(jù)關(guān)鍵詞在文中出現(xiàn)的位置來判定,位置越靠前,文件的相關(guān)程度越高;分類或聚類方法是指搜索引擎采用分類或聚類技術(shù),自動(dòng)把查詢結(jié)果歸入到不同的類別中。(4)檢索結(jié)果排序40(1)關(guān)鍵詞搜索引擎(2)主題分類搜索引擎(3)綜合搜索引擎搜索引擎的分類(1)關(guān)鍵詞搜索引擎搜索引擎的分類41(1)關(guān)鍵詞搜索引擎

界面提供輸入框,用戶通過輸入框提交查詢請(qǐng)求(關(guān)鍵詞),搜索引擎將檢索結(jié)果反饋給用戶。適用于查找目的明確,并具備一定檢索知識(shí)的用戶。(1)關(guān)鍵詞搜索引擎42搜索引擎優(yōu)化信息檢索技術(shù)43(2)主題分類搜索引擎

依據(jù)某種分類方式(如學(xué)科分類),建立主題樹狀層瀏覽體系;搜索程序搜索來的信息被標(biāo)引后放入瀏覽體系的個(gè)大類或子類下面,呈現(xiàn)錯(cuò)落有致的上下位關(guān)系。查準(zhǔn)率高,但查全率低。(2)主題分類搜索引擎44搜索引擎優(yōu)化信息檢索技術(shù)45(3)綜合搜索引擎

此類搜索引擎既可以搜索網(wǎng)站也可搜索全文,用戶輸入關(guān)鍵詞后,可以選擇是搜索網(wǎng)站還是網(wǎng)頁,不同的選擇返回不同的結(jié)果,國內(nèi)的搜狐(Sohu)就是此類搜索引擎查全率高,但查準(zhǔn)率低。(3)綜合搜索引擎46搜索引擎優(yōu)化信息檢索技術(shù)47搜索引擎優(yōu)化信息檢索技術(shù)48搜索引擎優(yōu)化信息檢索技術(shù)49主要搜索引擎主要搜索引擎50搜索引擎優(yōu)化信息檢索技術(shù)51李彥宏徐勇李彥宏徐勇52百度,2000年1月創(chuàng)立于北京中關(guān)村,是全球最大的中文搜索引擎。2000年1月1日,公司創(chuàng)始人李彥宏、徐勇攜120萬美元風(fēng)險(xiǎn)投資,從美國硅谷回國,創(chuàng)建了百度公司。2000年5月,百度首次為門戶網(wǎng)站——硅谷動(dòng)力提供搜索技術(shù)服務(wù),之后迅速占領(lǐng)中國搜索引擎市場(chǎng),成為最主要的搜索技術(shù)提供商。2001年8月,發(fā)布B搜索引擎Beta版,從后臺(tái)服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國首創(chuàng)了競(jìng)價(jià)排名商業(yè)模式,2001年10月22日正式發(fā)布Baidu搜索引擎。2005年8月5日,百度在美國納斯達(dá)克上市。概況概況53“百度”二字取自辛棄疾的《青玉案》“眾里尋她千百度”。現(xiàn)在百度已成為世界上最大的中文搜索引擎,用戶能夠訪問超過10億的中文網(wǎng)頁.特點(diǎn)“百度”二字取自辛棄疾的《青玉案》“眾里尋她千百度”。特54搜索引擎優(yōu)化信息檢索技術(shù)55網(wǎng)頁搜索功能百度快照相關(guān)搜索拼音提示錯(cuò)別字提示英漢互譯詞典計(jì)算器和度量衡轉(zhuǎn)換專業(yè)文檔搜索股票、列車時(shí)刻表和飛機(jī)航班查詢高級(jí)搜索語法高級(jí)搜索、地區(qū)搜索和個(gè)性設(shè)置天氣查詢網(wǎng)頁搜索功能百度快照56百度快照每個(gè)被收錄的網(wǎng)頁,在百度上都存有一個(gè)純文本的備份,稱為“百度快照”。百度速度較快,您可以通過“快照”快速瀏覽頁面內(nèi)容。如果無法打開某個(gè)搜索結(jié)果,或者打開速度特別慢,“百度快照”能幫您解決問題。百度快照57相關(guān)搜索搜索結(jié)果不佳,有時(shí)候是因?yàn)檫x擇的查詢?cè)~不是很妥當(dāng)。您可以通過參考別人是怎么搜的,來獲得一些啟發(fā)。百度的“相關(guān)搜索”,就是和您的搜索很相似的一系列查詢?cè)~。百度相關(guān)搜索排布在搜索結(jié)果頁的下方,按搜索熱門度排序。

相關(guān)搜索搜索結(jié)果不佳,有時(shí)候是因?yàn)檫x擇的查詢?cè)~不是很妥當(dāng)。58搜索引擎優(yōu)化信息檢索技術(shù)59專業(yè)文檔搜索很多有價(jià)值的資料,在互聯(lián)網(wǎng)上并非以普通的網(wǎng)頁形式出現(xiàn),而是以Word、PowerPoint、PDF等文檔格式存在。百度支持對(duì)Office文檔(包括Word、Excel、PowerPoint)、AdobePDF文檔、RTF文檔的全文搜索。方法為在搜索的關(guān)鍵詞后面加一個(gè)“filetype:”文檔類型限定?!癴iletype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL包含所有文件類型。專業(yè)文檔搜索很多有價(jià)值的資料,在互聯(lián)網(wǎng)上并非以普通的網(wǎng)頁形式60搜索引擎優(yōu)化信息檢索技術(shù)61高級(jí)搜索把搜索范圍限定在網(wǎng)頁標(biāo)題中——intitle標(biāo)題通常是對(duì)網(wǎng)頁內(nèi)容提綱挈領(lǐng)式的歸納。把查詢內(nèi)容范圍限定在網(wǎng)頁標(biāo)題中,有時(shí)能獲得良好的效果。高級(jí)搜索把搜索范圍限定在網(wǎng)頁標(biāo)題中——intitle62搜索引擎優(yōu)化信息檢索技術(shù)63高級(jí)搜索把搜索范圍限定在特定站點(diǎn)中——site有時(shí)候,您如果知道某個(gè)站點(diǎn)中有自己需要找的東西,就可以把搜索范圍限定在這個(gè)站點(diǎn)中,提高查詢效率。使用的方式,是在查詢內(nèi)容的后面,加上“site:站點(diǎn)域名”。

高級(jí)搜索64搜索引擎優(yōu)化信息檢索技術(shù)65高級(jí)搜索把搜索范圍限定在url鏈接中——inurl

網(wǎng)頁url中的某些信息,常常有某種有價(jià)值的含義。于是,您如果對(duì)搜索結(jié)果的url做某種限定,就可以獲得良好的效果。實(shí)現(xiàn)的方式,是用“inurl:”,后跟需要在url中出現(xiàn)的關(guān)鍵詞

高級(jí)搜索66搜索引擎優(yōu)化信息檢索技術(shù)67高級(jí)搜索精確匹配——雙引號(hào)和書名號(hào)

如果輸入的查詢?cè)~很長(zhǎng),百度給出的搜索結(jié)果中的查詢?cè)~可能是拆分的。如果給查詢?cè)~加上雙引號(hào),就可以精確檢索。被書名號(hào)擴(kuò)起來的內(nèi)容,也不會(huì)被拆分,比如,查電影“手機(jī)”,如果不加書名號(hào),很多情況下出來的是通訊工具——手機(jī),而加上書名號(hào)后,《手機(jī)》結(jié)果就都是關(guān)于電影方面的了。高級(jí)搜索68搜索引擎優(yōu)化信息檢索技術(shù)69高級(jí)搜索要求搜索結(jié)果中不含特定查詢?cè)~——減號(hào)-

如果您發(fā)現(xiàn)搜索結(jié)果中,有某一類網(wǎng)頁是您不希望看見的,那么用減號(hào)語法,就可以去除所有這些含有特定關(guān)鍵詞的網(wǎng)頁。注意,前一個(gè)關(guān)鍵詞,和減號(hào)之間必須有空格,否則,減號(hào)會(huì)被當(dāng)成連字符處理,而失去減號(hào)語法功能。高級(jí)搜索70搜索引擎優(yōu)化信息檢索技術(shù)71SergeyBrinLarryPageSergeyBrinLarryPage72

Google搜索引擎誕生于斯坦福大學(xué)的一個(gè)學(xué)生宿舍里,然后迅速傳播到全球的信息搜索者。Google目前被公認(rèn)為萬維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問一個(gè)包含超過80億個(gè)網(wǎng)址的索引。“Google”來自于數(shù)學(xué)名詞“Googol”,Googol表示一個(gè)1后面跟著100個(gè)零。這一術(shù)語體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。概況概況73Google技術(shù)Google使用一組獨(dú)特的高級(jí)硬件和軟件,核心軟件稱為PageRank(TM)。

作為組織管理工具,網(wǎng)頁級(jí)別利用了互聯(lián)網(wǎng)獨(dú)特的民主特性及其巨大的鏈接結(jié)構(gòu)。從網(wǎng)頁A鏈接到網(wǎng)頁B時(shí),Google就認(rèn)為“網(wǎng)頁A投了網(wǎng)頁B一票”。Google根據(jù)網(wǎng)頁的得票數(shù)評(píng)定其重要性。除了考慮網(wǎng)頁得票數(shù)(即鏈接)的純數(shù)量之外,Google還要分析投票的網(wǎng)頁,“重要”的網(wǎng)頁所投出的票就會(huì)有更高的權(quán)重。與大多數(shù)其它搜索引擎的區(qū)別在于:Google只顯示相關(guān)的網(wǎng)頁,其正文或指向它的鏈接包含您所輸入的所有關(guān)鍵詞,而無須再受其它無關(guān)結(jié)果的煩擾。Google技術(shù)Google使用一組獨(dú)特的高級(jí)硬件和軟件74搜索引擎優(yōu)化信息檢索技術(shù)75搜索引擎優(yōu)化信息檢索技術(shù)76Google的

特殊功能Google的

特殊功能77Flash文件查找Flash文件,只需搜索“關(guān)鍵詞filetype:swf”。Google已經(jīng)可以支持13種非HTML文件的搜索。除了PDF文檔,Google現(xiàn)在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。新的文檔類型只要與用戶的搜索相關(guān),就會(huì)自動(dòng)顯示在搜索結(jié)果中。Flash文件查找Flash文件,只需搜索“關(guān)鍵詞file78點(diǎn)擊選中的鏈接點(diǎn)擊選中的鏈接79手氣不錯(cuò)手氣不錯(cuò)80搜索引擎優(yōu)化信息檢索技術(shù)81錯(cuò)別字改正Google的錯(cuò)別字改正軟件系統(tǒng)會(huì)對(duì)輸入的關(guān)鍵詞進(jìn)行自動(dòng)掃描,檢查有沒有錯(cuò)別字。如果發(fā)現(xiàn)用其他字詞搜索可能會(huì)有更好的結(jié)果,它能提供相應(yīng)提示來幫助糾正可能有的錯(cuò)別字。例如,搜索“互連網(wǎng)”,Google會(huì)自動(dòng)提示“您是不是要找:互聯(lián)網(wǎng)”。如果您點(diǎn)擊“互聯(lián)網(wǎng)”,Google將以“互聯(lián)網(wǎng)”作為關(guān)鍵詞進(jìn)行搜索。錯(cuò)別字改正82手機(jī)號(hào)碼用Google查詢手機(jī)電話號(hào)碼歸屬地,您只需直接輸入要查的號(hào)碼即可(不需要任何關(guān)鍵詞)。Google能自動(dòng)識(shí)別以13開頭的11位數(shù)字為手機(jī)號(hào)碼而返回相關(guān)的網(wǎng)站鏈接,讓您即刻便知道答案。手機(jī)號(hào)碼83搜索引擎優(yōu)化信息檢索技術(shù)84定義要查看字詞或詞組的定義,只需鍵入“define”,接著鍵入一個(gè)空格,然后鍵入您需要其定義的詞。如果Google在網(wǎng)絡(luò)上找到了該字詞或詞組的定義,則會(huì)檢索該信息并在搜索結(jié)果的頂部顯示它們。定義85搜索引擎優(yōu)化信息檢索技術(shù)86Yahoo!是在網(wǎng)上最早出現(xiàn)的檢索工具,一直是一種功能較強(qiáng)的搜索引擎。Yahoo!屬于目錄索引類搜索引擎,可以通過兩種方式在上面查找信息,一是通常的關(guān)鍵詞搜索,一是按分類目錄逐層查找。以關(guān)鍵詞搜索時(shí),網(wǎng)站排列基于分類目錄及網(wǎng)站信息與關(guān)鍵字串的相關(guān)程度。包含關(guān)鍵詞的目錄及該目錄下的匹配網(wǎng)站排在最前面。以目錄檢索時(shí),網(wǎng)站排列則按字母順序。Yahoo于2004年2月推出了自己的全文搜索引擎,并將默認(rèn)搜索設(shè)置為網(wǎng)頁搜索。Yahoo!是在網(wǎng)上最早出現(xiàn)的檢索工具,一直是一種功能較強(qiáng)的872005年11月9日阿里巴巴公司在完成對(duì)雅虎中國的收購與整合之后,重新發(fā)布了進(jìn)入中國市場(chǎng)7年之久的雅虎網(wǎng)站,未來雅虎在中國的業(yè)務(wù)重點(diǎn)方向?qū)⑷孓D(zhuǎn)向搜索領(lǐng)域,這也是自8月11日阿里巴巴宣布收購雅虎中國時(shí)就從沒改變的方向。阿里巴巴CEO馬云表示:阿里巴巴在搜索領(lǐng)域既有決心更有信心,在中國,雅虎就是搜索,搜索就是雅虎。

2005年11月9日阿里巴巴公司在完成對(duì)雅虎中國的收購與整88中國搜索(原慧聰搜索)是國內(nèi)領(lǐng)先的搜索引擎公司。自2002年正式進(jìn)入中文搜索引擎市場(chǎng)以來,中國搜索(原慧聰搜索)取得了一系列令人矚目的成績(jī)。在一年多的時(shí)間里,發(fā)展成為全球領(lǐng)先的中文搜索引擎公司,先后為新浪、搜狐、網(wǎng)易、TOM等知名門戶網(wǎng)站以及中國搜索聯(lián)盟上千家各地區(qū)、各行業(yè)的優(yōu)秀中文網(wǎng)站提供搜索引擎技術(shù)。目前,每天有數(shù)千萬次的中文搜索請(qǐng)求是通過中國搜索實(shí)現(xiàn)的,中國搜索也被公認(rèn)為第三代智能搜索引擎的代表。中國搜索(原慧聰搜索)是國內(nèi)領(lǐng)先的搜索引擎公司。自2002年89搜索引擎優(yōu)化信息檢索技術(shù)90搜狗是搜狐公司于2004年8月3日推出的完全自主技術(shù)開發(fā)的全球首個(gè)第三代互動(dòng)式中文搜索引擎,是一個(gè)具有獨(dú)立域名的專業(yè)搜索網(wǎng)站--“搜狗”()。以一種人工智能的新算法,分析和理解用戶可能的查詢意圖,給予多個(gè)主題的“搜索提示”,在用戶查詢和搜索引擎返回結(jié)果的人機(jī)交互過程中,引導(dǎo)用戶更快速準(zhǔn)確定位自己所關(guān)注的內(nèi)容,幫助用戶快速找到相關(guān)搜索結(jié)果,并可在用戶搜索沖浪時(shí),給與用戶未曾意識(shí)到的主題提示。

搜狗是搜狐公司于2004年8月3日推出的完全自主技術(shù)開發(fā)的全91搜索引擎優(yōu)化信息檢索技術(shù)92“愛問”搜索引擎產(chǎn)品由全球最大的中文網(wǎng)絡(luò)門戶新浪匯集技術(shù)精英、耗時(shí)一年多完全自主研發(fā)完成,為首款中文智慧型互動(dòng)搜索引擎,新浪搜索引擎突破了由GOOGLE、百度為代表的算法致勝的搜索模式。它在保留了傳統(tǒng)算法技術(shù)在常規(guī)網(wǎng)頁搜索的強(qiáng)大功能外,以一個(gè)獨(dú)有的互動(dòng)問答平臺(tái)彌補(bǔ)了傳統(tǒng)算法技術(shù)在搜索界面上的智慧性和互動(dòng)性的先天不足。通過調(diào)動(dòng)網(wǎng)民參與提問與回答,新浪搜索引擎能匯集千萬網(wǎng)民的智慧,讓用戶彼此分享知識(shí)與經(jīng)驗(yàn)?!皭蹎枴彼阉饕娈a(chǎn)品由全球最大的中文網(wǎng)絡(luò)門戶新浪匯集技術(shù)精英93搜索引擎優(yōu)化信息檢索技術(shù)94Yahoo!Yahoo!95Yahoo!的分類Yahoo!的分類96搜索引擎優(yōu)化信息檢索技術(shù)97搜索引擎優(yōu)化信息檢索技術(shù)98天網(wǎng)中文搜索引擎北大天網(wǎng)/由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在中國教育和科研網(wǎng)CERNET上提供服務(wù)。收錄網(wǎng)頁約6000萬,主要搜索CERNET上的信息,有強(qiáng)大的ftp搜索功能。天網(wǎng)中文搜索引擎北大天網(wǎng)99搜索引擎優(yōu)化信息檢索技術(shù)100搜索引擎優(yōu)化信息檢索技術(shù)101例一、利用搜索引擎找軟件日常工作和娛樂需要用到大量的軟件,很多軟件屬于共享或者自由性質(zhì),可以在網(wǎng)上免費(fèi)下載到。下面以百度搜索為例,介紹一下如何找軟件下載:直接找下載頁面這是最直接的方式。軟件名稱,加上“下載”這個(gè)特征詞,通??梢院芸煺业较螺d點(diǎn)。例:flashget下載

在著名的軟件下載站點(diǎn)找軟件由于網(wǎng)站質(zhì)量參差不齊,下載速度也快慢不一。如果我們積累了一些好用的下載站(如天空網(wǎng),華軍網(wǎng),電腦之家等),就可以用site語法把搜索范圍局限在這些網(wǎng)站內(nèi),以提高搜索效率。例:網(wǎng)際快車site:

Note:一旦搜索范圍局限在專業(yè)下載站中,“下載”這個(gè)特征詞就不必在查詢?cè)~中出現(xiàn)了。例一、利用搜索引擎找軟件日常工作和娛樂需要用到大量102例二、用搜索引擎找謎底,一搜便知

猜謎語有時(shí)候,我們會(huì)遇上各種高難度的謎語,但有了搜索引擎,只要這種謎語的傳播范圍略廣些,我們通常都可以在網(wǎng)上找到答案。搜索時(shí)候,我們只需把謎面和“謎底”作為關(guān)鍵詞搜索就可以了。例二、用搜索引擎找謎底,一搜便知猜謎語有時(shí)候,我們會(huì)遇上103例三、搜索MP3技巧01.在歌名后加一個(gè)粵字可以找到粵語歌

例三、搜索MP3技巧01.在歌名后加一個(gè)粵字可以找到粵語歌104例三、搜索MP3技巧02.不知道歌曲名和歌手名也可以用歌詞搜索!

如關(guān)鍵詞:多少年向往的日子

找到的是趙傳的<大地>這首歌!例三、搜索MP3技巧02.不知道歌曲名和歌手名也可以用歌詞搜105例四、搜索MTV03.直接打入關(guān)鍵詞:MTV可以搜索出MTV視頻例四、搜索MTV03.直接打入關(guān)鍵詞:MTV可以搜索出MT106例三、搜索MP3技巧04.關(guān)鍵詞:ps教程或視頻教程

可以找到實(shí)用的視頻教程!例三、搜索MP3技巧04.關(guān)鍵詞:ps教程或視頻教程

可以107例五、查找資料——網(wǎng)頁和網(wǎng)站的區(qū)別例五、查找資料——網(wǎng)頁和網(wǎng)站的區(qū)別108搜索引擎優(yōu)化信息檢索技術(shù)109信息檢索技術(shù)、方法

及搜索引擎徐淑慧xushuhui@哈爾濱工程大學(xué)圖書館信息服務(wù)部82519545信息檢索技術(shù)、方法

及搜索引擎徐淑慧xushuhui110第一節(jié):信息檢索技術(shù)第一節(jié):信息檢索技術(shù)111數(shù)字資源的檢索技術(shù)布爾邏輯檢索技術(shù)1截詞檢索技術(shù)2鄰近檢索技術(shù)3字段檢索技術(shù)4數(shù)字資源的檢索技術(shù)布爾邏輯檢索技術(shù)1截詞檢索技術(shù)2鄰近檢索技112布爾邏輯檢索是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系算符來表達(dá)檢索詞與檢索詞間的邏輯關(guān)系的檢索方法。主要的布爾邏輯關(guān)系詞有:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)1布爾邏輯檢索技術(shù)布爾邏輯檢索是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系算符來表達(dá)檢索詞與檢索113邏輯與邏輯乘:“and”或“*”表示組配方式:A*B或者AandB表示兩個(gè)概念的交叉和限定關(guān)系,只有同時(shí)含有這兩個(gè)概念的記錄才算命中信息作用:增加限制條件,即增加檢索的專指性,以縮小提問范圍,減少文獻(xiàn)輸出量,提高查準(zhǔn)率。

邏輯與114邏輯或又稱邏輯和:“or”、“+”組配方式:AORB或者A+B,表示檢索含有A詞,或含有B詞,或同時(shí)包含A、B兩詞的文章。作用:放寬提問范圍,增加檢索結(jié)果,起擴(kuò)檢作用,提高查全率。邏輯或115邏輯非又稱邏輯差:“not”“-”組配方式:A-B,表示檢索出含有A詞而不含有B詞的文章。作用:邏輯非用于排除不希望出現(xiàn)的檢索詞,它和“*”的作用相似,能夠縮小命中文獻(xiàn)范圍,增強(qiáng)檢索的準(zhǔn)確性。邏輯非116例如檢索:“打印機(jī)驅(qū)動(dòng)程序”查詢關(guān)鍵詞:打印機(jī)、驅(qū)動(dòng)程序檢索表達(dá)式:打印機(jī)AND驅(qū)動(dòng)程序例如檢索:“微型計(jì)算機(jī)”方面的有關(guān)信息查詢關(guān)鍵詞:微型計(jì)算機(jī)、微機(jī)檢索表達(dá)式:微型計(jì)算機(jī)OR微機(jī)布爾邏輯檢索舉例例如檢索:“打印機(jī)驅(qū)動(dòng)程序”布爾邏輯檢索舉例117布爾運(yùn)算符優(yōu)先級(jí)比較有括號(hào)時(shí):括號(hào)內(nèi)的先執(zhí)行;無括號(hào)時(shí):NOT>AND>OR例:檢索“唐宋詩歌”的有關(guān)信息。關(guān)鍵詞:唐、宋、詩歌;檢索表達(dá)式:(唐OR宋)AND詩歌;唐AND詩歌OR宋AND詩歌;錯(cuò)誤表達(dá)式:唐OR宋AND詩歌;唐AND宋AND詩歌;唐OR宋OR詩歌;唐AND宋OR詩歌;布爾邏輯運(yùn)算符優(yōu)先級(jí)布爾運(yùn)算符優(yōu)先級(jí)比較布爾邏輯運(yùn)算符優(yōu)先級(jí)118請(qǐng)注意在不同的數(shù)據(jù)庫中,所使用的邏輯符號(hào)可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些檢索工具會(huì)完全省略任何符號(hào)和關(guān)系,直接把布爾邏輯關(guān)系隱含在菜單中。一些網(wǎng)絡(luò)檢索工具如搜索引擎甚至用“︺、,、-”(即空格、逗號(hào)、減號(hào))來表示。請(qǐng)注意119主要應(yīng)用于西文數(shù)字資源的檢索定義:是指在檢索式中用專門的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化。作用:主要是提高查全率截詞符一般用“?”或“*”表示2截詞檢索技術(shù)2截詞檢索技術(shù)120截詞位置按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞;按截?cái)嘧址麛?shù)的不同,可分為有限截?cái)嗪蜔o限截?cái)唷=卦~位置按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞;121右截詞,又稱后截詞、前方一致。允許檢索詞尾有若干變化。例如comput*將檢索出computer、computing、computerised、computerized、computerization等結(jié)果。中間截詞,又稱前后方一致。允許檢索詞中間有若干變化。例如wom*n,檢索到woman、women的結(jié)果。英美的不同拼法,defen*e可同時(shí)檢出defence和defense的結(jié)果。右截詞,又稱后截詞、前方一致。允許檢索詞尾有若干變化。例如c122左截詞,又稱前截詞、后方一致,允許檢索詞前有若干變化,例如*physics就可檢索到physics、astrophysics、biophysics、chemophysics、geophysics等詞的結(jié)果。前后截詞:詞干的前后各有一個(gè)截詞符,允許檢索詞的前端和尾部各有若干變化形式。如?computer?可檢索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等結(jié)果。左截詞,又稱前截詞、后方一致,允許檢索詞前有若干變化,例如*123請(qǐng)注意在不同的數(shù)據(jù)庫和聯(lián)機(jī)檢索系統(tǒng)中,所使用的截詞符號(hào)沒有統(tǒng)一的標(biāo)準(zhǔn),有的用“?”,有的用“*”,有的用“#”,用的用“$”等。即便常用的“?”和“*”在不同的數(shù)據(jù)庫中其用法也是不一定相同的。在允許截詞的檢索工具中,一般是指右截詞,部分支持中間截詞,左截詞比較少見。我們將要使用的一些數(shù)據(jù)庫,一般用“*”代表一個(gè)字符串,用“?”代表任意一個(gè)字符。請(qǐng)注意在不同的數(shù)據(jù)庫和聯(lián)機(jī)檢索系統(tǒng)中,所使用的截詞符號(hào)沒124鄰近檢索又稱位置檢索,主要是通過檢索式中的專門符號(hào)來規(guī)定檢索詞在結(jié)果中的相對(duì)位置。例如檢索“生物防治”的文獻(xiàn),若用檢索式“biological*control”檢索,則會(huì)將“抑制生物”(controlbiological)的文獻(xiàn)也查出來,這顯然不是所需文獻(xiàn)。主要有相鄰位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F)。

3鄰近檢索技術(shù)

鄰近檢索又稱位置檢索,主要是通過檢索式中的專門符號(hào)來規(guī)定檢索125(W)算符

(W)是with(word)的縮寫,表示此算符兩側(cè)的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。如biological(W)control相當(dāng)于檢索biologicalcontrolCD(W)ROM相當(dāng)于檢索CDROM或CD-ROM。(W)算符(W)是with(word)的縮寫,表示126(nW)算符

(nW)是nwords的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入最多n個(gè)詞,且詞序不可變。如wear(1W)material相當(dāng)于檢索wearmaterials、wearofmaterials等。(nW)算符(nW)是nwords的縮寫,表127(N)算符(N)是near的縮寫,表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變,詞間不允許插入其他詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。information(N)retrieval可檢出:informationretrievalretrievalinformation(N)算符(N)是near的縮寫,表示此算符兩側(cè)的檢索詞必須128(nN)算符(nN)表示兩詞間可插入最多n個(gè)詞,詞序可變。如檢索式environment(2N)protection就可檢索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”(nN)算符129(S)、(F)算符

(S)是sentence的縮寫,表示兩個(gè)檢索詞須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一子字段中,兩詞的詞序不限,兩詞間插入詞的數(shù)量不限。

(F)算符:在聯(lián)機(jī)檢索中還有對(duì)同字段進(jìn)行檢索的(F)算符。(F)表示此算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在信息記錄的同一個(gè)字段內(nèi),兩詞的詞序不限,兩詞間插入詞的數(shù)量不限。用此算符時(shí)須指定所要查找的字段,如題名字段、文摘字段、敘詞字段等。例如digital(F)computer/TI表示在題名字段(TI)中同時(shí)出現(xiàn)這兩個(gè)檢索詞的才算命中信息。(S)、(F)算符(S)是sentence的縮寫,表示兩個(gè)130字段檢索是限定檢索詞在記錄中出現(xiàn)的字段范圍,檢索時(shí),計(jì)算機(jī)只對(duì)限定字段進(jìn)行查找。3字段檢索技術(shù)字段檢索是限定檢索詞在記錄中出現(xiàn)的字段范圍,檢索時(shí),計(jì)算機(jī)只131TI(題名)、AB(摘要)、DE(主題詞)、ID(標(biāo)識(shí)詞)、SU(主題詞)、KW(關(guān)鍵詞)AU(著者)、BN(國際標(biāo)準(zhǔn)書號(hào))、SN(國際標(biāo)準(zhǔn)刊號(hào))、CC(分類類目)、CS(機(jī)構(gòu))、DT(文獻(xiàn)類型)或PT(出版物類型)、JN(刊名)或JA(刊號(hào))、LA(語種)、PY(出版年)、SO(來源出版物)注意:不同的數(shù)據(jù)庫其字段代碼可能不同。數(shù)據(jù)庫中的字段包括

數(shù)據(jù)庫中的字段包括132舉例在EBSCO數(shù)據(jù)庫檢索中,某一用戶需檢索有關(guān)“數(shù)字圖書館與信息檢索、參考咨詢”方面的文獻(xiàn)信息,檢索要求:題名或文摘中包含數(shù)字圖書館digitallibrary,數(shù)字圖書館要求考慮單復(fù)數(shù),主題為信息檢索informationretrieval或參考咨詢r(jià)eference,請(qǐng)編制其檢索策略(檢索式)。(ti:digitallibrar*orab:digitallibrar*)andsu:(referenceorinformationn2retrieval)舉例在EBSCO數(shù)據(jù)庫檢索中,某一用戶需檢索有關(guān)“數(shù)字圖書館133第二節(jié):信息檢索方法第二節(jié):信息檢索方法134信息需求分析選擇信息資源選定檢索詞構(gòu)造檢索表達(dá)式確定檢索途徑對(duì)檢索策略進(jìn)行調(diào)整實(shí)施并輸出檢索結(jié)果信息需求分析1351信息需求分析分析信息檢索目的,制定檢索目標(biāo)。分析所需信息涉及的學(xué)科,確定檢索的學(xué)科范圍。分析所需信息的類型、年代,確定檢索的信息類型和年代范圍。1信息需求分析分析信息檢索目的,制定檢索目標(biāo)。1362選擇信息資源(數(shù)據(jù)庫的選擇)數(shù)據(jù)庫的類型學(xué)科范圍時(shí)間范圍2選擇信息資源(數(shù)據(jù)庫的選擇)數(shù)據(jù)庫的類型1373選定檢索詞分析主題,找出課題所包含的顯性概念和隱含概念。找出核心概念,排除無關(guān)概念和重復(fù)概念。從待檢數(shù)據(jù)庫和檢索工具的詞表中選取規(guī)范化的詞或詞組。選用上位詞、近義詞或下位詞作為檢索詞。3選定檢索詞分析主題,找出課題所包含的顯性概念和隱含概念。1384構(gòu)造檢索表達(dá)式分析檢索提問式是數(shù)字資源檢索中用來表達(dá)用戶檢索提問的邏輯表達(dá)式。找出在編制檢索提問式時(shí),準(zhǔn)確、合理地運(yùn)用位置邏輯算符、截詞符、字段符等技術(shù)是編制檢索式的基本要求。4構(gòu)造檢索表達(dá)式分析檢索提問式是數(shù)字資源檢索中用來表達(dá)用戶1395確定檢索途徑第一類是表示主題概念的檢索詞主題詞,包括標(biāo)題詞、單元詞、敘詞、關(guān)鍵詞。第二類是表示學(xué)科分類的檢索詞,如分類號(hào)。第三類是表示作者的檢索詞,如作者姓名、機(jī)構(gòu)名稱等。第四類是表示特殊意義的檢索詞,如專利號(hào)、國際標(biāo)準(zhǔn)書號(hào)、分子式等5確定檢索途徑第一類是表示主題概念的檢索詞主題詞,包140舉例一個(gè)研究生在做論文題:“數(shù)字圖書館中的元數(shù)據(jù)體系與互操作研究”,這是一個(gè)計(jì)算機(jī)科學(xué)、信息科學(xué)方面的課題,請(qǐng)你幫助他在維普數(shù)據(jù)庫中找到最新的參考文獻(xiàn)。舉例一個(gè)研究生在做論文題:“數(shù)字圖書館中的元數(shù)據(jù)體系與互操141第三節(jié):搜索引擎SearchEngine第三節(jié):搜索引擎SearchEngine142搜索引擎的概念和作用搜索引擎的工作原理搜索引擎的分類搜索引擎的一般檢索技術(shù)搜索引擎利用技巧主要搜索引擎目錄搜索引擎的概念和作用目錄143搜索引擎是一個(gè)用來搜索世界各地Internet網(wǎng)絡(luò)資源的WEB服務(wù)器。它像一本書的目錄,Internet各個(gè)站點(diǎn)的網(wǎng)址就像是頁碼,可以通過關(guān)鍵詞或主題分類的方式來查找感興趣的信息所在的WEB頁面。搜索引擎提供的導(dǎo)航服務(wù)(搜索引擎就是網(wǎng)絡(luò)的指南針)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),成為和電子郵件并列的最重要的互聯(lián)網(wǎng)應(yīng)用。搜索引擎的概念和作用搜索引擎是一個(gè)用來搜索世界各地Internet網(wǎng)絡(luò)資源的WE144(1)信息搜集(2)信息索引(3)信息查詢(4)檢索結(jié)果的相關(guān)性處理搜索引擎的工作原理(1)信息搜集搜索引擎的工作原理145(1)信息搜集

各個(gè)搜索引擎都派出綽號(hào)為蜘蛛(Spider)或機(jī)器人(Robots)的“網(wǎng)頁搜索軟件”,在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。

訪問網(wǎng)絡(luò)中公開區(qū)域的每一個(gè)站點(diǎn)并記錄其網(wǎng)址,將它們帶回搜索引擎,要盡可能多、盡可能快地搜集各種類型的新信息。因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死鏈接和無效鏈接。(1)信息搜集146(2)信息索引

將“網(wǎng)頁搜索軟件”帶回的信息進(jìn)行分類整理,建立搜索引擎數(shù)據(jù)庫,并定時(shí)更新數(shù)據(jù)庫內(nèi)容。有的搜索引擎把“網(wǎng)頁搜索軟件”發(fā)往每一個(gè)站點(diǎn),記錄下每一頁的所有文本內(nèi)容,并收入到數(shù)據(jù)庫中從而形成全文搜索引擎;而另一些搜索引擎只記錄網(wǎng)頁的地址、篇名、特點(diǎn)的段落和重要的詞。(2)信息索引147(3)信息查詢

根據(jù)用戶的查詢需求在索引庫中快速檢出相關(guān)網(wǎng)頁,并反饋檢索結(jié)果。一般包括分類目錄及關(guān)鍵詞兩種信息查詢方式。(3)信息查詢148(4)檢索結(jié)果排序

概率法是根據(jù)關(guān)鍵詞在文中出現(xiàn)的頻率來判定的,出現(xiàn)的次數(shù)越多,認(rèn)定其與查詢的相關(guān)程度越高;位置法是根據(jù)關(guān)鍵詞在文中出現(xiàn)的位置來判定,位置越靠前,文件的相關(guān)程度越高;分類或聚類方法是指搜索引擎采用分類或聚類技術(shù),自動(dòng)把查詢結(jié)果歸入到不同的類別中。(4)檢索結(jié)果排序149(1)關(guān)鍵詞搜索引擎(2)主題分類搜索引擎(3)綜合搜索引擎搜索引擎的分類(1)關(guān)鍵詞搜索引擎搜索引擎的分類150(1)關(guān)鍵詞搜索引擎

界面提供輸入框,用戶通過輸入框提交查詢請(qǐng)求(關(guān)鍵詞),搜索引擎將檢索結(jié)果反饋給用戶。適用于查找目的明確,并具備一定檢索知識(shí)的用戶。(1)關(guān)鍵詞搜索引擎151搜索引擎優(yōu)化信息檢索技術(shù)152(2)主題分類搜索引擎

依據(jù)某種分類方式(如學(xué)科分類),建立主題樹狀層瀏覽體系;搜索程序搜索來的信息被標(biāo)引后放入瀏覽體系的個(gè)大類或子類下面,呈現(xiàn)錯(cuò)落有致的上下位關(guān)系。查準(zhǔn)率高,但查全率低。(2)主題分類搜索引擎153搜索引擎優(yōu)化信息檢索技術(shù)154(3)綜合搜索引擎

此類搜索引擎既可以搜索網(wǎng)站也可搜索全文,用戶輸入關(guān)鍵詞后,可以選擇是搜索網(wǎng)站還是網(wǎng)頁,不同的選擇返回不同的結(jié)果,國內(nèi)的搜狐(Sohu)就是此類搜索引擎查全率高,但查準(zhǔn)率低。(3)綜合搜索引擎155搜索引擎優(yōu)化信息檢索技術(shù)156搜索引擎優(yōu)化信息檢索技術(shù)157搜索引擎優(yōu)化信息檢索技術(shù)158主要搜索引擎主要搜索引擎159搜索引擎優(yōu)化信息檢索技術(shù)160李彥宏徐勇李彥宏徐勇161百度,2000年1月創(chuàng)立于北京中關(guān)村,是全球最大的中文搜索引擎。2000年1月1日,公司創(chuàng)始人李彥宏、徐勇攜120萬美元風(fēng)險(xiǎn)投資,從美國硅谷回國,創(chuàng)建了百度公司。2000年5月,百度首次為門戶網(wǎng)站——硅谷動(dòng)力提供搜索技術(shù)服務(wù),之后迅速占領(lǐng)中國搜索引擎市場(chǎng),成為最主要的搜索技術(shù)提供商。2001年8月,發(fā)布B搜索引擎Beta版,從后臺(tái)服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國首創(chuàng)了競(jìng)價(jià)排名商業(yè)模式,2001年10月22日正式發(fā)布Baidu搜索引擎。2005年8月5日,百度在美國納斯達(dá)克上市。概況概況162“百度”二字取自辛棄疾的《青玉案》“眾里尋她千百度”。現(xiàn)在百度已成為世界上最大的中文搜索引擎,用戶能夠訪問超過10億的中文網(wǎng)頁.特點(diǎn)“百度”二字取自辛棄疾的《青玉案》“眾里尋她千百度”。特163搜索引擎優(yōu)化信息檢索技術(shù)164網(wǎng)頁搜索功能百度快照相關(guān)搜索拼音提示錯(cuò)別字提示英漢互譯詞典計(jì)算器和度量衡轉(zhuǎn)換專業(yè)文檔搜索股票、列車時(shí)刻表和飛機(jī)航班查詢高級(jí)搜索語法高級(jí)搜索、地區(qū)搜索和個(gè)性設(shè)置天氣查詢網(wǎng)頁搜索功能百度快照165百度快照每個(gè)被收錄的網(wǎng)頁,在百度上都存有一個(gè)純文本的備份,稱為“百度快照”。百度速度較快,您可以通過“快照”快速瀏覽頁面內(nèi)容。如果無法打開某個(gè)搜索結(jié)果,或者打開速度特別慢,“百度快照”能幫您解決問題。百度快照166相關(guān)搜索搜索結(jié)果不佳,有時(shí)候是因?yàn)檫x擇的查詢?cè)~不是很妥當(dāng)。您可以通過參考別人是怎么搜的,來獲得一些啟發(fā)。百度的“相關(guān)搜索”,就是和您的搜索很相似的一系列查詢?cè)~。百度相關(guān)搜索排布在搜索結(jié)果頁的下方,按搜索熱門度排序。

相關(guān)搜索搜索結(jié)果不佳,有時(shí)候是因?yàn)檫x擇的查詢?cè)~不是很妥當(dāng)。167搜索引擎優(yōu)化信息檢索技術(shù)168專業(yè)文檔搜索很多有價(jià)值的資料,在互聯(lián)網(wǎng)上并非以普通的網(wǎng)頁形式出現(xiàn),而是以Word、PowerPoint、PDF等文檔格式存在。百度支持對(duì)Office文檔(包括Word、Excel、PowerPoint)、AdobePDF文檔、RTF文檔的全文搜索。方法為在搜索的關(guān)鍵詞后面加一個(gè)“filetype:”文檔類型限定?!癴iletype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL包含所有文件類型。專業(yè)文檔搜索很多有價(jià)值的資料,在互聯(lián)網(wǎng)上并非以普通的網(wǎng)頁形式169搜索引擎優(yōu)化信息檢索技術(shù)170高級(jí)搜索把搜索范圍限定在網(wǎng)頁標(biāo)題中——intitle標(biāo)題通常是對(duì)網(wǎng)頁內(nèi)容提綱挈領(lǐng)式的歸納。把查詢內(nèi)容范圍限定在網(wǎng)頁標(biāo)題中,有時(shí)能獲得良好的效果。高級(jí)搜索把搜索范圍限定在網(wǎng)頁標(biāo)題中——intitle171搜索引擎優(yōu)化信息檢索技術(shù)172高級(jí)搜索把搜索范圍限定在特定站點(diǎn)中——site有時(shí)候,您如果知道某個(gè)站點(diǎn)中有自己需要找的東西,就可以把搜索范圍限定在這個(gè)站點(diǎn)中,提高查詢效率。使用的方式,是在查詢內(nèi)容的后面,加上“site:站點(diǎn)域名”。

高級(jí)搜索173搜索引擎優(yōu)化信息檢索技術(shù)174高級(jí)搜索把搜索范圍限定在url鏈接中——inurl

網(wǎng)頁url中的某些信息,常常有某種有價(jià)值的含義。于是,您如果對(duì)搜索結(jié)果的url做某種限定,就可以獲得良好的效果。實(shí)現(xiàn)的方式,是用“inurl:”,后跟需要在url中出現(xiàn)的關(guān)鍵詞

高級(jí)搜索175搜索引擎優(yōu)化信息檢索技術(shù)176高級(jí)搜索精確匹配——雙引號(hào)和書名號(hào)

如果輸入的查詢?cè)~很長(zhǎng),百度給出的搜索結(jié)果中的查詢?cè)~可能是拆分的。如果給查詢?cè)~加上雙引號(hào),就可以精確檢索。被書名號(hào)擴(kuò)起來的內(nèi)容,也不會(huì)被拆分,比如,查電影“手機(jī)”,如果不加書名號(hào),很多情況下出來的是通訊工具——手機(jī),而加上書名號(hào)后,《手機(jī)》結(jié)果就都是關(guān)于電影方面的了。高級(jí)搜索177搜索引擎優(yōu)化信息檢索技術(shù)178高級(jí)搜索要求搜索結(jié)果中不含特定查詢?cè)~——減號(hào)-

如果您發(fā)現(xiàn)搜索結(jié)果中,有某一類網(wǎng)頁是您不希望看見的,那么用減號(hào)語法,就可以去除所有這些含有特定關(guān)鍵詞的網(wǎng)頁。注意,前一個(gè)關(guān)鍵詞,和減號(hào)之間必須有空格,否則,減號(hào)會(huì)被當(dāng)成連字符處理,而失去減號(hào)語法功能。高級(jí)搜索179搜索引擎優(yōu)化信息檢索技術(shù)180SergeyBrinLarryPageSergeyBrinLarryPage181

Google搜索引擎誕生于斯坦福大學(xué)的一個(gè)學(xué)生宿舍里,然后迅速傳播到全球的信息搜索者。Google目前被公認(rèn)為萬維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問一個(gè)包含超過80億個(gè)網(wǎng)址的索引?!癎oogle”來自于數(shù)學(xué)名詞“Googol”,Googol表示一個(gè)1后面跟著100個(gè)零。這一術(shù)語體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。概況概況182Google技術(shù)Google使用一組獨(dú)特的高級(jí)硬件和軟件,核心軟件稱為PageRank(TM)。

作為組織管理工具,網(wǎng)頁級(jí)別利用了互聯(lián)網(wǎng)獨(dú)特的民主特性及其巨大的鏈接結(jié)構(gòu)。從網(wǎng)頁A鏈接到網(wǎng)頁B時(shí),Google就認(rèn)為“網(wǎng)頁A投了網(wǎng)頁B一票”。Google根據(jù)網(wǎng)頁的得票數(shù)評(píng)定其重要性。除了考慮網(wǎng)頁得票數(shù)(即鏈接)的純數(shù)量之外,Google還要分析投票的網(wǎng)頁,“重要”的網(wǎng)頁所投出的票就會(huì)有更高的權(quán)重。與大多數(shù)其它搜索引擎的區(qū)別在于:Google只顯示相關(guān)的網(wǎng)頁,其正文或指向它的鏈接包含您所輸入的所有關(guān)鍵詞,而無須再受其它無關(guān)結(jié)果的煩擾。Google技術(shù)Google使用一組獨(dú)特的高級(jí)硬件和軟件183搜索引擎優(yōu)化信息檢索技術(shù)184搜索引擎優(yōu)化信息檢索技術(shù)185Google的

特殊功能Google的

特殊功能186Flash文件查找Flash文件,只需搜索“關(guān)鍵詞filetype:swf”。Google已經(jīng)可以支持13種非HTML文件的搜索。除了PDF文檔,Google現(xiàn)在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。新的文檔類型只要與用戶的搜索相關(guān),就會(huì)自動(dòng)顯示在搜索結(jié)果中。Flash文件查找Flash文件,只需搜索“關(guān)鍵詞file187點(diǎn)擊選中的鏈接點(diǎn)擊選中的鏈接188手氣不錯(cuò)手氣不錯(cuò)189搜索引擎優(yōu)化信息檢索技術(shù)190錯(cuò)別字改正Google的錯(cuò)別字改正軟件系統(tǒng)會(huì)對(duì)輸入的關(guān)鍵詞進(jìn)行自動(dòng)掃描,檢查有沒有錯(cuò)別字。如果發(fā)現(xiàn)用其他字詞搜索可能會(huì)有更好的結(jié)果,它能提供相應(yīng)提示來幫助糾正可能有的錯(cuò)別字。例如,搜索“互連網(wǎng)”,Google會(huì)自動(dòng)提示“您是不是要找:互聯(lián)網(wǎng)”。如果您點(diǎn)擊“互聯(lián)網(wǎng)”,Google將以“互聯(lián)網(wǎng)”作為關(guān)鍵詞進(jìn)行搜索。錯(cuò)別字改正191手機(jī)號(hào)碼用Google查詢手機(jī)電話號(hào)碼歸屬地,您只需直接輸入要查的號(hào)碼即可(不需要任何關(guān)鍵詞)。Google能自動(dòng)識(shí)別以13開頭的11位數(shù)字為手機(jī)號(hào)碼而返回相關(guān)的網(wǎng)站鏈接,讓您即刻便知道答案。手機(jī)號(hào)碼192搜索引擎優(yōu)化信息檢索技術(shù)193定義要查看字詞或詞組的定義,只需鍵入“define”,接著鍵入一個(gè)空格,然后鍵入您需要其定義的詞。如果Google在網(wǎng)絡(luò)上找到了該字詞或詞組的定義,則會(huì)檢索該信息并在搜索結(jié)果的頂部顯示它們。定義19

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論