超級實(shí)驗(yàn)報(bào)告—關(guān)于搜索引擎—高一九班(張國豪)_第1頁
超級實(shí)驗(yàn)報(bào)告—關(guān)于搜索引擎—高一九班(張國豪)_第2頁
超級實(shí)驗(yàn)報(bào)告—關(guān)于搜索引擎—高一九班(張國豪)_第3頁
超級實(shí)驗(yàn)報(bào)告—關(guān)于搜索引擎—高一九班(張國豪)_第4頁
超級實(shí)驗(yàn)報(bào)告—關(guān)于搜索引擎—高一九班(張國豪)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎分類1全文索引全文搜索引擎是廣泛應(yīng)用的主流搜索引擎,國外代表有g(shù)oogle,國內(nèi)則有著名的百度、搜 搜等。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與 用戶bai潘百013cjuexxuxj查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。山根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,-類擁有白己的檢索程序(indexer), 俗稱“蜘蛛"(spider)程序或“機(jī)器人” (robot)程序,能口建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從 自身的數(shù)據(jù)庫中調(diào)用,上面提到的google和百度就屬于此類,百度存在競價(jià)廣告;另一類 則是租用其他搜索引擎的數(shù)據(jù)庫,并按

2、自定的格式排列搜索結(jié)果,如lycos搜索引擎 在搜索引擎分類部分捉到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎 的自動(dòng)信息捜集功能分兩種。一種是定期捜索,即每隔一段時(shí)間(比如google 一燉是28 天),rnwirsrrf. a-bcdir-hc-t0 e-h-i2蜘蛛搜索引擎搜索引擎主動(dòng)派出“蜘蛛”程序,對一定ip地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的 網(wǎng)站,它會(huì)自動(dòng)捉取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另-種是捉交網(wǎng)站搜索,即網(wǎng)站 擁冇者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)刀不等)定向向你的網(wǎng)站派出 “蜘蛛"程序,掃描你的網(wǎng)站并將冇關(guān)信息存入數(shù)據(jù)

3、庫,以備用戶杳詢。隨著搜索引擎索引規(guī) 則發(fā)牛很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)詁能進(jìn)入搜索引擎數(shù)據(jù)庫,最好的辦法是多 獲得一些外部鏈接,讓搜索引禁有更多機(jī)會(huì)找到你并口動(dòng)將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到為用戶要求內(nèi)容相 符的網(wǎng)站,便采用特殊的算法通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、 鏈接質(zhì)量計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁 鏈接返冋給用戶。這種引擎的特點(diǎn)是搜全率比較高。2pv 與 ip實(shí)際上就是每個(gè)ip瀏覽的頁面次數(shù),同吋代表了單個(gè)ip瀏覽的頁面深度。試想一下,一個(gè) 每個(gè)1p進(jìn)入只看一遍頁面就退出

4、的網(wǎng)站怎么能稱z為好的網(wǎng)站?很多所謂的大流量垃圾網(wǎng) 站純粹是為了流量而做很多的長尾關(guān)鍵詞,每天能來1萬個(gè)ip,卻只能擁有2萬的pv,那 些泛濫的垃圾文章雖然因?yàn)樗阉饕嫠矔r(shí)表現(xiàn)不錯(cuò)而吸引了大量的新用八,卻因?yàn)閮?nèi)容沒有 任何吸引的地方馬上關(guān)閉網(wǎng)頁,搜索引擎必將記錄在案,下次更新時(shí)降低權(quán)璽。因?yàn)閽人饕?繁當(dāng)然是為用戶的角度著想,你如此的“傷害"用戶,搜索引擎當(dāng)然放不過你。3目錄索引目錄索引也稱為分類檢索,是因特網(wǎng)上最早捉供www資源查詢的服務(wù),主要通過搜集和 整理因特網(wǎng)的資源,根據(jù)搜索到網(wǎng)頁的內(nèi)容,將其網(wǎng)址分配到相關(guān)分類主題目錄的不同層次 的類目z下,形成像圖帖館目錄一樣的分類樹形結(jié)構(gòu)索

5、引。目錄索引無需輸入任何文字,只 要根據(jù)網(wǎng)站提供的主題分類目錄,層層點(diǎn)擊進(jìn)入,便可杳到所需的網(wǎng)絡(luò)信息資源。雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表 而已。用戶完全可以按照分類冃錄找到所需耍的信息,不依靠關(guān)鍵詞(keywords)進(jìn)行查 詢。目錄索引屮最具代表性的莫過于人名鼎鼎的yahoo、新浪、搜狐(搜狗)分類目錄搜索。 與全文搜索引擎相比,目錄索引冇許多不同z處。首先,搜索引擎屬于口動(dòng)網(wǎng)站檢索,而口錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目 錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象, 決定是否接納你的網(wǎng)站。4元搜

6、索元搜索引擎(metasearch engine)接受用戶查詢請求后,同吋在多個(gè)搜索引擎上搜索,并 將結(jié)果返回給用戶。著名的元搜索引擎冇infospacex dogpilevivisimo等,中文元搜索引 擎小具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如 dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如vivisimo。5垂直搜索垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎,垂直搜 索專注于特定的搜索領(lǐng)域和搜索需求(例如:機(jī)票搜索、旅游搜索、生活搜索、小說搜索、 視頻搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。和比通用搜

7、索動(dòng)輒數(shù)t臺(tái)檢索服 務(wù)器,垂直搜索需要的碩件成本低、用戶需求特定、查詢的方式多樣。6集合式搜索集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)川多個(gè)搜索引擎進(jìn)行 搜索,而是山用八從捉供的若干搜索引擎中選擇,如hotbot在2002年底推出的搜索引擎。7門戶搜索門八搜索引擎:aolsearch. msnsearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒 有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來口其他搜索引禁。8免費(fèi)鏈接免費(fèi)鏈接列表(free for all links簡稱ffa):般只簡單地滾動(dòng)鏈接條目,少部分有簡單 的分類冃錄,不過規(guī)模耍比yahoo!等冃錄索引小很多。1()待解問題

8、缺乏檢索詞匯控制口動(dòng)標(biāo)引有局限性缺乏檢索專業(yè)信息的能力“把關(guān)人"缺失工作原理第一步:爬行搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁的鏈接,從-個(gè)鏈接爬到另外-個(gè)鏈接,像蜘 蛛在蜘蛛網(wǎng)上爬行一樣,所以被稱為“蜘蛛”也被稱為“機(jī)器人雹搜索引擎蜘蛛的爬行是被輸 入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容。第二步:抓取存儲(chǔ)搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行的數(shù)據(jù)存入原始頁而數(shù)據(jù)庫。其中的頁 面數(shù)據(jù)與用戶瀏覽器得到的html是完全一樣的。捜索引擎蜘蛛在抓取頁面時(shí),也做一定 的重復(fù)內(nèi)容檢測,一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的內(nèi)容,很可能就 不再爬行。第三步:預(yù)處理

9、搜索引擎將蜘蛛抓取回來的頁而,進(jìn)行各種步驟的預(yù)處理。1 提取文字2. 中文分詞3 去停止詞4. 消除噪音(搜索引擎需要識(shí)別并消除這些噪聲,比如版權(quán)聲明文字、導(dǎo)航條、廣告等)5. 正向索引6. 倒排索引7鏈接關(guān)系計(jì)算&特殊文件處理除了 html文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如pdf、 word、wps、xls、ppt、txt文件等。我們在搜索結(jié)果屮也經(jīng)常會(huì)看到這些文件類型。但 搜索引擎還不能處理圖片、視頻、flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。第四步:排名川戶在搜索框輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算排名顯示給用戶,排名過程與 川戶直接互

10、動(dòng)的。但是,由于搜索引擎的數(shù)據(jù)量龐人,雖然能達(dá)到每日都有小的更新,但是 般情況搜索引擎的排名規(guī)則都是根據(jù)日、周、月階段性不同幅度的更新。搜索技巧關(guān)鍵字如果想耍搜索以鳥為主題的web站點(diǎn),您可以在搜索引擎屮輸入關(guān)鍵字“bird”。但是,搜索 引擎會(huì)因此返回大量無關(guān)信息,如談?wù)撚鹈虻摹靶▲B球(birdie)"或烹飪game birds不同方法 的web站點(diǎn)。為了避免這種問題的出現(xiàn),請使用更為具體的關(guān)鍵字,如“ornithology氣鳥類 學(xué),動(dòng)物學(xué)的一個(gè)分支)。您所捉供的關(guān)鍵字越貝體,搜索引擎返回?zé)o關(guān)web站點(diǎn)的可能性 就越小。如果你想在網(wǎng)絡(luò)中搜索到相似的圖片,你可以在百度的百度識(shí)圖,

11、安圖搜的購物搜索引擎, google的以圖搜圖等等中進(jìn)行搜索。使用方法:一、上傳木地圖片二、輸入圖片ur1地址用戶通過上傳圖片或輸入圖片的url地址,從而搜索到互聯(lián)網(wǎng)上與這張圖片相似的其他圖片 資源,同時(shí)也能找到這張圖片相關(guān)的信息。購物搜索引擎也是通過上傳圖片或輸入圖片的url地址,搜索到全網(wǎng)同款和相似的商品。3優(yōu)化技巧關(guān)鍵字在搜索引擎屮是非常重要的一項(xiàng),搜索引擎對于關(guān)鍵字的排名是有白己的規(guī)則的,而 搜索引擎優(yōu)化,其中的一項(xiàng)主耍內(nèi)容就是對于關(guān)鍵字的建設(shè)。搜索引擎優(yōu)化又稱seo,seo 的主要工作就是將冃標(biāo)公司的關(guān)鍵字在相關(guān)搜索引擎中利川現(xiàn)冇的搜索引擎規(guī)則進(jìn)行排名 提升的優(yōu)化,使與口標(biāo)公司相關(guān)聯(lián)

12、的關(guān)鍵字在搜索引擎屮出現(xiàn)高頻率點(diǎn)擊,從而帶動(dòng)日標(biāo)公 司的收益,達(dá)到對目標(biāo)公司進(jìn)行自我營銷的優(yōu)化和捉升。所以,關(guān)鍵字與搜索引擎優(yōu)化之間 是冇密不可分的關(guān)系的,捜索引擎優(yōu)化是為了關(guān)鍵字的建設(shè)與提升提供了一種新的途徑和工 具,是在搜索引擎技巧中不可或缺的一部分。運(yùn)算符許多搜索引擎都允許在搜索中使用兩個(gè)不同的布邏輯運(yùn)算符:and和or。如果您想搜索 所有同時(shí)包含單詞“hot"和“dog"的web站點(diǎn),只需要在搜索引擎中輸入如下關(guān)鍵字:hot and dog搜索將返回以熱狗(hot dog)為主題的web站點(diǎn),但還會(huì)返回一些奇怪的結(jié)來,如談?wù)撊绾卧?一個(gè)熱天(hot day)讓一只狗

13、(dog)涼快下來的web站點(diǎn)。如果想要搜索所有包含單詞“hot"或單詞“dog"的web站點(diǎn),您只需要輸入下血的關(guān)鍵字: hot or dog搜索會(huì)返回與這兩個(gè)單詞有關(guān)的web站點(diǎn),這些web站點(diǎn)的主題町能是熱狗(ho( dog)狗, 也可能是不同的空調(diào)在熱天(hoi day)使您涼爽、辣醬(hot chilli sauces)或狗糧等。意引擎搜索引擎返回的web站點(diǎn)順序可能會(huì)影響人們的訪問,所以,為了增加web站點(diǎn)的點(diǎn)擊率, 一些web站點(diǎn)會(huì)付費(fèi)給搜索引擎,以在相關(guān)web站點(diǎn)列表屮顯示在靠前的位證。好的搜索引擎會(huì)鑒別web站點(diǎn)的內(nèi)容,并據(jù)此安排它們的順序,但其他搜索引擎

14、大概不會(huì)這么做。 此外,因?yàn)樗阉饕娼?jīng)常對最為常用的關(guān)鍵字進(jìn)行搜索,所以許多web站點(diǎn)在自己的網(wǎng)頁 中隱藏了同一關(guān)鍵字的多個(gè)副本。這使得搜索引擎不再去查找internet,以返回與關(guān)鍵字有 關(guān)的更多信息。正如讀報(bào)紙、聽收音機(jī)或看電視新聞一樣,請留意您所獲得的信息的來源。搜索引擎能夠幫 您找到信息,但無法驗(yàn)證信息的可靠性。因?yàn)槿魏稳硕伎梢栽诰W(wǎng)上發(fā)布信息。加減號很多搜索引繁都支持在搜索詞前冠以加號(+)限定搜索結(jié)果屮必須包含的詞匯。川減號(-) 限定搜索結(jié)果不能包含的詞匯。9語法查詢1 把搜索范圍限定在網(wǎng)頁標(biāo)題屮intitle:標(biāo)題2. 把搜索范圍限定在特定站點(diǎn)中site:站名3. 把搜索范圍限定

15、在urlurl鏈接中inurl:鏈接4. 精確匹配雙引號”和書名號vv>>5. 要求搜索結(jié)果中同時(shí)包含或不含特定查詢詞“+”、(減)6. 專業(yè)文檔搜索filetype:文檔格式、使用技巧1、簡單查詢在搜索引擎中輸入關(guān)鍵詞,然后點(diǎn)擊“搜索”就行了,系統(tǒng)很快會(huì)返回杳詢結(jié)果,這是最簡單 的查詢方法,使用方便,但是查詢的結(jié)果卻不準(zhǔn)確,町能包含著許多無用的信息。2、使用雙引號用給要查詢的關(guān)鍵詞加上雙引號(半角,以f要加的其它符號同此),可以實(shí)現(xiàn)精確的查詢, 這種方法要求査詢結(jié)呆要精確匹配,不包括演變形式。例如在搜索引擎的文字框中輸入“電 傳”,它就會(huì)返回網(wǎng)頁中冇“電傳”這個(gè)關(guān)鍵字的網(wǎng)址,而不

16、會(huì)返回諸如“電話傳真”z類網(wǎng)頁。3、使用加號(+ )在關(guān)鍵詞的前面使用加號,也就等于告訴搜索引擎該單詞必須出現(xiàn)在搜索結(jié)果中的網(wǎng)頁上, 例如,在搜索引擎屮輸入“+電腦+電話+傳真"就表示耍查找的內(nèi)容必須要同時(shí)包含“電腦、電 話、傳真”這三個(gè)關(guān)鍵詞。4、使用減號(-)在關(guān)鍵詞的前面使用減號,也就意味著在杳詢結(jié)果屮不能出現(xiàn)該關(guān)鍵詞,例如,在搜索引繁 中輸入“電視臺(tái)中央電視臺(tái)”,它就表示最后的查詢結(jié)果中一定不包含“中央電視臺(tái)"。5、使用通配符通配符包括星號(*)和問號(?),前者表示匹配的數(shù)量不受限制,示者匹配的字符數(shù)要受 到限制,主要用在英文搜索引擎小。例如輸入“compute嚴(yán)

17、,就可以找到“computer、computers> computerised> computerized”等單詞,而輸入"comp?tef',則只能找至0"computer> computer> competer 等單詞。6、使用布爾檢索所謂布爾檢索,是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系來表達(dá)關(guān)鍵詞與關(guān)鍵詞之間邏輸關(guān)系的一種杏 詢方法,這種查詢方法允許我們輸入多個(gè)關(guān)鍵詞,各個(gè)關(guān)鍵詞z間的關(guān)系可以用邏輯關(guān)系詞 來表示。 and,稱為邏輯t,用and進(jìn)行連接,表示它所連接的兩個(gè)詞必須同吋出現(xiàn)在 查詢結(jié)果中,例如,輸入“computer and book&

18、quot;,它要求查詢結(jié)果中必須同時(shí)包含computer 和booko or,稱為邏輯“或”,它表示所連接的兩個(gè)關(guān)鍵詞屮任意一個(gè)出現(xiàn)在查詢結(jié)果屮就可以,例如,輸入"computer or book”,就要求查詢結(jié)果屮可以只有computer,或只有book, 或同時(shí)包含computer和book。 not,稱為邏輯“非”,它表示所連接的兩個(gè)關(guān)鍵詞中應(yīng)從 第一個(gè)關(guān)鍵詞概念中排除第二個(gè)關(guān)鍵詞,例如輸入"automobile not car",就耍求查詢的結(jié)果 屮包a automobile (汽車),但同時(shí)不能包a car (小汽車)。near,它表示兩個(gè)關(guān)鍵詞之間的詞距不能超過n個(gè)單詞。在實(shí)際的使用過程中,你可以將各種邏輯關(guān)系綜合運(yùn)用,靈活搭配,以便進(jìn)行更加復(fù)雜的查詢。7、使用括號當(dāng)兩個(gè)關(guān)鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時(shí),就可以對這兩個(gè)詞 加上圓活號。8、使用元詞檢索大多數(shù)搜索引擎都支持“元詞” (metawords)功能,依據(jù)這類功能用戶把元詞放在關(guān)鍵詞的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論