搜索高手煉成三部曲-搜索引擎的原理、技巧與運(yùn)用_第1頁
搜索高手煉成三部曲-搜索引擎的原理、技巧與運(yùn)用_第2頁
搜索高手煉成三部曲-搜索引擎的原理、技巧與運(yùn)用_第3頁
搜索高手煉成三部曲-搜索引擎的原理、技巧與運(yùn)用_第4頁
搜索高手煉成三部曲-搜索引擎的原理、技巧與運(yùn)用_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

搜索高手煉成三部曲——搜索引擎的原理、技巧與運(yùn)用搜索高手煉成三部曲——搜索引擎的原理、技巧與運(yùn)用

徐煒

(江蘇省靖江高級中學(xué))

摘要:《普通高中信息技術(shù)課程標(biāo)準(zhǔn)》中"信息采集與加工"模塊是信息處理的起點。其中,通過計算機(jī)和網(wǎng)絡(luò)進(jìn)行信息的搜索是信息采集的重要途徑。為了幫助人們在浩瀚的因特網(wǎng)中快捷、有效地搜索到所需信息,計算機(jī)技術(shù)專員研發(fā)了搜索引擎及相關(guān)技術(shù),主要是針對Web頁面的文本檢索工具,能夠迅速、準(zhǔn)確地檢索到用戶需要的信息。在此,將重點研究全文搜索引擎的基本工作原理、提煉關(guān)鍵詞的技巧及搜索引擎的靈活運(yùn)用。

關(guān)鍵詞:搜索;關(guān)鍵詞;運(yùn)用

現(xiàn)今時代,網(wǎng)絡(luò)已經(jīng)深入我們?nèi)粘I畹拿總€角落,因特網(wǎng)已成為當(dāng)今社會人們獲取信息和相互交流的主要渠道。其中,通過計算機(jī)和網(wǎng)絡(luò)進(jìn)行信息的搜索是信息采集的重要途徑。隨著信息的不斷增長,共享在網(wǎng)絡(luò)上的信息量迅速膨脹,大容量的信息資源影響著網(wǎng)絡(luò)信息的有序性,造成了人們及時查找信息或組織信息的困擾。為此,計算機(jī)技術(shù)專員研究與開發(fā)了搜索引擎,解決了人們的這一困擾。作為使用因特網(wǎng)的用戶,知道搜索引擎的基本工作原理,掌握提煉關(guān)鍵詞的技巧,加上平時的積累、靈活的應(yīng)用,必定能更加快捷、有效地在浩瀚的因特網(wǎng)中搜索到所需信息。

搜索引擎主要有分類目錄導(dǎo)航搜索、全文搜索兩種搜索方式。

本文主要討論全文搜索。

一、知道搜索引擎的基本工作原理

1.搜索引擎

搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。

2.搜索引擎的一般原理

(1)數(shù)據(jù)采集與處理

現(xiàn)在的搜索引擎大多采用自動信息搜集功能。每隔一段時間搜索引擎主動派出"蜘蛛"程序,對一定范圍內(nèi)的互聯(lián)網(wǎng)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。搜索引擎將"蜘蛛"抓取回來的頁面,進(jìn)行各種步驟的預(yù)處理,為搜索做好準(zhǔn)備。

(2)信息搜索排名

當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。

二、掌握提煉關(guān)鍵詞的技巧

分析搜索引擎的工作原理,搜索結(jié)果主要根據(jù)關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次等給出。對于具體搜索問題,提煉關(guān)鍵詞成了第一步,也是最關(guān)鍵的一步。

1.表述準(zhǔn)確

以百度搜索引擎為例。百度會嚴(yán)格按照提交的關(guān)鍵詞去搜索,因此,關(guān)鍵詞表述準(zhǔn)確是獲得良好搜索結(jié)果的必要前提。一類常見的表述不準(zhǔn)確的情況是,腦袋里想著一回事,搜索框里輸入的是另一回事。例如,要查找20XX年國內(nèi)十大新聞,查詢詞可以是"20XX年國內(nèi)十大新聞";但如果把查詢詞換成"20XX年國內(nèi)十大事件",搜索結(jié)果就無法滿足需求。

2.少用自然語言,從自然語言中提煉關(guān)鍵詞

在提煉關(guān)鍵詞時,我們盡量不要用自然語言(所謂自然語言,就是我們平時說話的語言和口氣),而要從自然語言中提煉關(guān)鍵詞。這個提煉過程并不容易,但是我們可以用一種將心比心的方式思考:如果我知道問題的解決辦法,我會怎樣對此作出回答。也就是說,猜測信息的表達(dá)方式,然后根據(jù)這種表達(dá)方式,取其中的特征關(guān)鍵詞,從而達(dá)到搜索目的。

例如,有學(xué)生參加20XX年江蘇數(shù)學(xué)競賽的復(fù)賽,只知道大概時間在7月份。如何搜索到比賽的具體情況?首先要確定的是,不要用自然語言。比如,"數(shù)學(xué)復(fù)賽的具體情況,誰能告訴我呀".這是典型的自然語言,但網(wǎng)上和這樣的話完全匹配的網(wǎng)頁,幾乎就是不存在的。因此,這樣的搜索常常得不到想要的結(jié)果。我們來看這個問題中的核心詞匯。對象:高中生。問題:20XX江蘇數(shù)學(xué)復(fù)賽。關(guān)鍵詞中,至少應(yīng)該出現(xiàn)"數(shù)學(xué)復(fù)賽""20XX""江蘇",這是問題現(xiàn)象描述。一般情況下,只要對問題作出適當(dāng)?shù)拿枋?,在網(wǎng)上基本上就可以找到解決對策。例:數(shù)學(xué)復(fù)賽江蘇20XX.

三、積累點滴,靈活運(yùn)用

知道全文搜索引擎的基本工作原理和掌握提煉關(guān)鍵詞的技巧以后,搜索者可以解決絕大多數(shù)的搜索問題。想成為真正的高手,還需要積累點滴,靈活運(yùn)用。

1.使用高級搜索語法

以百度搜索引擎為例。

(1)用減號去除特定關(guān)鍵詞

如果你發(fā)現(xiàn)搜索結(jié)果中,有某一類網(wǎng)頁是你不希望看見的,而且,這些網(wǎng)頁都包含特定的關(guān)鍵詞,那么用減號語法,就可以去除所有這些含有特定關(guān)鍵詞的網(wǎng)頁。

例如,搜索水滸傳,希望是關(guān)于小說方面的內(nèi)容,卻發(fā)現(xiàn)很多關(guān)于電視劇方面的網(wǎng)頁。那么就可以這樣查詢:水滸傳-電視劇。注意,前一個關(guān)鍵詞和減號之間必須有空格,否則,減號會被當(dāng)成連字符處理,而失去減號語法功能。減號和后一個關(guān)鍵詞之間,有無空格均可。

(2)將搜索范圍限定在特定網(wǎng)站

把搜索范圍限定在特定站點中。有時候,你如果知道某個站點中有自己需要找的東西,就可以把搜索范圍限定在這個站點中,提高查詢效率。使用的方式是在查詢內(nèi)容的后面加上"site:站點域名".

例如,你知道新浪博客上有不少學(xué)習(xí)的文章,就可以這樣查詢:快速排序site:注意,"site:"后面跟的站點域名,不要帶"http://";另外,"site:"和站點名之間,不要帶空格。

2.嘗試特色搜索服務(wù)

百度搜索,使用者用得最多的是"網(wǎng)頁"搜索。打開百度網(wǎng)站"全部產(chǎn)品"鏈接,有搜索服務(wù)、新上線、導(dǎo)航服務(wù)、社區(qū)服務(wù)、游戲娛樂、移動服務(wù)、站長與開發(fā)者服務(wù)、軟件工具、其他服務(wù)等分類。仔細(xì)瀏覽各個服務(wù)分類,幾乎囊括了因特網(wǎng)上信息搜索的方方

面面。

以"百度識圖"為例。有些圖片資源并沒有配備圖片的文字說明,使用者無法了解圖片的完整信息。假如現(xiàn)在有一張動物或植物的圖片,使用者并不識得,想要了解動物的名稱、習(xí)性等信息,就可以嘗試百度識圖。百度識圖的圖片通過兩種方式來使用,有圖片文件的通過"本地上傳",將圖片上傳到百度;或者粘貼圖片網(wǎng)址到百度識圖搜索框中搜索。

"百度尋人"也是一項特色服務(wù)。百度尋人是百度推出的公益互動開放平臺。借助百度業(yè)界領(lǐng)先的搜索技術(shù)、龐大的用戶規(guī)模、海量的數(shù)據(jù)優(yōu)勢,建立全國范圍內(nèi)失蹤人員的開放數(shù)據(jù)庫,并利用中國科學(xué)院計算技術(shù)研究所無償提供的人臉識別技術(shù)迅速匹配失蹤人員的照片,幫助家長和熱心網(wǎng)友第一時間獲取信息。

3.嘗試不同搜索引擎

百度搜索是常用的搜索站點,在解決一個搜索問題時,關(guān)鍵詞提煉準(zhǔn)確了,搜索的結(jié)果還是不令人滿意,這時可以換個搜索引擎試試。

筆者的女兒前陣子從幼兒園老師那里領(lǐng)回來一個親子活動任務(wù),做一個燈籠狀的裙子。用什么材料呢?用布匹的話就得請專業(yè)裁縫師了,考慮可以使用廢舊報紙做材料。提煉的搜索關(guān)鍵詞是"紙裙""燈籠".使用百度搜索,可以找到相關(guān)信息,有實際指導(dǎo)如何做的網(wǎng)頁較少。嘗試使用搜狗更快地找到了所需信息。

4.嘗試專業(yè)網(wǎng)站

對于專業(yè)性強(qiáng)、嚴(yán)肅性高的信息,使用專業(yè)網(wǎng)站更能達(dá)到搜索需求。專業(yè)網(wǎng)站中收錄的信息資源專業(yè)性強(qiáng),主題明確,檢索的相關(guān)性高。資源入庫前進(jìn)行了嚴(yán)格的定向篩選,質(zhì)量比較高,具有較高的權(quán)威性。

例如,想要搜索"義務(wù)教育法"相關(guān)的內(nèi)容,找到專業(yè)網(wǎng)站:法律信息網(wǎng),在該網(wǎng)站搜索框中輸入關(guān)鍵詞:義務(wù)教育法。搜索結(jié)果中不僅有義務(wù)教育法的全文,還有各地政府實施義務(wù)教育法的辦法和情況信息。

專業(yè)網(wǎng)站的使用是個日積月累的過程,在日常的搜索過程中要注意搜集和甄別,找到不同分類的專業(yè)網(wǎng)站并收藏,使用時就能快速搜索到有價值的信息。

知道搜索引擎的基本工作原理、掌握提煉關(guān)鍵詞的技巧、積累點滴和靈活運(yùn)用,這三個部分在開始

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論