版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、搜索引擎分類1全文索引全文搜索引擎是廣泛應(yīng)用的主流搜索引擎,國(guó)外代表有g(shù)oogle,國(guó)內(nèi)則有著名的百度、搜 搜等。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與 用戶bai潘百013cjuexxuxj查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。山根據(jù)搜索結(jié)果來(lái)源的不同,全文搜索引擎可分為兩類,-類擁有白己的檢索程序(indexer), 俗稱“蜘蛛"(spider)程序或“機(jī)器人” (robot)程序,能口建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從 自身的數(shù)據(jù)庫(kù)中調(diào)用,上面提到的google和百度就屬于此類,百度存在競(jìng)價(jià)廣告;另一類 則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按
2、自定的格式排列搜索結(jié)果,如lycos搜索引擎 在搜索引擎分類部分捉到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎 的自動(dòng)信息捜集功能分兩種。一種是定期捜索,即每隔一段時(shí)間(比如google 一燉是28 天),rnwirsrrf. a-bcdir-hc-t0 e-h-i2蜘蛛搜索引擎搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定ip地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的 網(wǎng)站,它會(huì)自動(dòng)捉取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。另-種是捉交網(wǎng)站搜索,即網(wǎng)站 擁冇者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)刀不等)定向向你的網(wǎng)站派出 “蜘蛛"程序,掃描你的網(wǎng)站并將冇關(guān)信息存入數(shù)據(jù)
3、庫(kù),以備用戶杳詢。隨著搜索引擎索引規(guī) 則發(fā)牛很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)詁能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),最好的辦法是多 獲得一些外部鏈接,讓搜索引禁有更多機(jī)會(huì)找到你并口動(dòng)將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到為用戶要求內(nèi)容相 符的網(wǎng)站,便采用特殊的算法通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、 鏈接質(zhì)量計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè) 鏈接返冋給用戶。這種引擎的特點(diǎn)是搜全率比較高。2pv 與 ip實(shí)際上就是每個(gè)ip瀏覽的頁(yè)面次數(shù),同吋代表了單個(gè)ip瀏覽的頁(yè)面深度。試想一下,一個(gè) 每個(gè)1p進(jìn)入只看一遍頁(yè)面就退出
4、的網(wǎng)站怎么能稱z為好的網(wǎng)站?很多所謂的大流量垃圾網(wǎng) 站純粹是為了流量而做很多的長(zhǎng)尾關(guān)鍵詞,每天能來(lái)1萬(wàn)個(gè)ip,卻只能擁有2萬(wàn)的pv,那 些泛濫的垃圾文章雖然因?yàn)樗阉饕嫠矔r(shí)表現(xiàn)不錯(cuò)而吸引了大量的新用八,卻因?yàn)閮?nèi)容沒有 任何吸引的地方馬上關(guān)閉網(wǎng)頁(yè),搜索引擎必將記錄在案,下次更新時(shí)降低權(quán)璽。因?yàn)閽人饕?繁當(dāng)然是為用戶的角度著想,你如此的“傷害"用戶,搜索引擎當(dāng)然放不過你。3目錄索引目錄索引也稱為分類檢索,是因特網(wǎng)上最早捉供www資源查詢的服務(wù),主要通過搜集和 整理因特網(wǎng)的資源,根據(jù)搜索到網(wǎng)頁(yè)的內(nèi)容,將其網(wǎng)址分配到相關(guān)分類主題目錄的不同層次 的類目z下,形成像圖帖館目錄一樣的分類樹形結(jié)構(gòu)索
5、引。目錄索引無(wú)需輸入任何文字,只 要根據(jù)網(wǎng)站提供的主題分類目錄,層層點(diǎn)擊進(jìn)入,便可杳到所需的網(wǎng)絡(luò)信息資源。雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表 而已。用戶完全可以按照分類冃錄找到所需耍的信息,不依靠關(guān)鍵詞(keywords)進(jìn)行查 詢。目錄索引屮最具代表性的莫過于人名鼎鼎的yahoo、新浪、搜狐(搜狗)分類目錄搜索。 與全文搜索引擎相比,目錄索引冇許多不同z處。首先,搜索引擎屬于口動(dòng)網(wǎng)站檢索,而口錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目 錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象, 決定是否接納你的網(wǎng)站。4元搜
6、索元搜索引擎(metasearch engine)接受用戶查詢請(qǐng)求后,同吋在多個(gè)搜索引擎上搜索,并 將結(jié)果返回給用戶。著名的元搜索引擎冇infospacex dogpilevivisimo等,中文元搜索引 擎小具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源排列搜索結(jié)果,如 dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如vivisimo。5垂直搜索垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁(yè)搜索引擎,垂直搜 索專注于特定的搜索領(lǐng)域和搜索需求(例如:機(jī)票搜索、旅游搜索、生活搜索、小說搜索、 視頻搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。和比通用搜
7、索動(dòng)輒數(shù)t臺(tái)檢索服 務(wù)器,垂直搜索需要的碩件成本低、用戶需求特定、查詢的方式多樣。6集合式搜索集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)川多個(gè)搜索引擎進(jìn)行 搜索,而是山用八從捉供的若干搜索引擎中選擇,如hotbot在2002年底推出的搜索引擎。7門戶搜索門八搜索引擎:aolsearch. msnsearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒 有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)口其他搜索引禁。8免費(fèi)鏈接免費(fèi)鏈接列表(free for all links簡(jiǎn)稱ffa):般只簡(jiǎn)單地滾動(dòng)鏈接條目,少部分有簡(jiǎn)單 的分類冃錄,不過規(guī)模耍比yahoo!等冃錄索引小很多。1()待解問題
8、缺乏檢索詞匯控制口動(dòng)標(biāo)引有局限性缺乏檢索專業(yè)信息的能力“把關(guān)人"缺失工作原理第一步:爬行搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁(yè)的鏈接,從-個(gè)鏈接爬到另外-個(gè)鏈接,像蜘 蛛在蜘蛛網(wǎng)上爬行一樣,所以被稱為“蜘蛛”也被稱為“機(jī)器人雹搜索引擎蜘蛛的爬行是被輸 入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容。第二步:抓取存儲(chǔ)搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè),并將爬行的數(shù)據(jù)存入原始頁(yè)而數(shù)據(jù)庫(kù)。其中的頁(yè) 面數(shù)據(jù)與用戶瀏覽器得到的html是完全一樣的。捜索引擎蜘蛛在抓取頁(yè)面時(shí),也做一定 的重復(fù)內(nèi)容檢測(cè),一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的內(nèi)容,很可能就 不再爬行。第三步:預(yù)處理
9、搜索引擎將蜘蛛抓取回來(lái)的頁(yè)而,進(jìn)行各種步驟的預(yù)處理。1 提取文字2. 中文分詞3 去停止詞4. 消除噪音(搜索引擎需要識(shí)別并消除這些噪聲,比如版權(quán)聲明文字、導(dǎo)航條、廣告等)5. 正向索引6. 倒排索引7鏈接關(guān)系計(jì)算&特殊文件處理除了 html文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如pdf、 word、wps、xls、ppt、txt文件等。我們?cè)谒阉鹘Y(jié)果屮也經(jīng)常會(huì)看到這些文件類型。但 搜索引擎還不能處理圖片、視頻、flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。第四步:排名川戶在搜索框輸入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給用戶,排名過程與 川戶直接互
10、動(dòng)的。但是,由于搜索引擎的數(shù)據(jù)量龐人,雖然能達(dá)到每日都有小的更新,但是 般情況搜索引擎的排名規(guī)則都是根據(jù)日、周、月階段性不同幅度的更新。搜索技巧關(guān)鍵字如果想耍搜索以鳥為主題的web站點(diǎn),您可以在搜索引擎屮輸入關(guān)鍵字“bird”。但是,搜索 引擎會(huì)因此返回大量無(wú)關(guān)信息,如談?wù)撚鹈虻摹靶▲B球(birdie)"或烹飪game birds不同方法 的web站點(diǎn)。為了避免這種問題的出現(xiàn),請(qǐng)使用更為具體的關(guān)鍵字,如“ornithology氣鳥類 學(xué),動(dòng)物學(xué)的一個(gè)分支)。您所捉供的關(guān)鍵字越貝體,搜索引擎返回?zé)o關(guān)web站點(diǎn)的可能性 就越小。如果你想在網(wǎng)絡(luò)中搜索到相似的圖片,你可以在百度的百度識(shí)圖,
11、安圖搜的購(gòu)物搜索引擎, google的以圖搜圖等等中進(jìn)行搜索。使用方法:一、上傳木地圖片二、輸入圖片ur1地址用戶通過上傳圖片或輸入圖片的url地址,從而搜索到互聯(lián)網(wǎng)上與這張圖片相似的其他圖片 資源,同時(shí)也能找到這張圖片相關(guān)的信息。購(gòu)物搜索引擎也是通過上傳圖片或輸入圖片的url地址,搜索到全網(wǎng)同款和相似的商品。3優(yōu)化技巧關(guān)鍵字在搜索引擎屮是非常重要的一項(xiàng),搜索引擎對(duì)于關(guān)鍵字的排名是有白己的規(guī)則的,而 搜索引擎優(yōu)化,其中的一項(xiàng)主耍內(nèi)容就是對(duì)于關(guān)鍵字的建設(shè)。搜索引擎優(yōu)化又稱seo,seo 的主要工作就是將冃標(biāo)公司的關(guān)鍵字在相關(guān)搜索引擎中利川現(xiàn)冇的搜索引擎規(guī)則進(jìn)行排名 提升的優(yōu)化,使與口標(biāo)公司相關(guān)聯(lián)
12、的關(guān)鍵字在搜索引擎屮出現(xiàn)高頻率點(diǎn)擊,從而帶動(dòng)日標(biāo)公 司的收益,達(dá)到對(duì)目標(biāo)公司進(jìn)行自我營(yíng)銷的優(yōu)化和捉升。所以,關(guān)鍵字與搜索引擎優(yōu)化之間 是冇密不可分的關(guān)系的,捜索引擎優(yōu)化是為了關(guān)鍵字的建設(shè)與提升提供了一種新的途徑和工 具,是在搜索引擎技巧中不可或缺的一部分。運(yùn)算符許多搜索引擎都允許在搜索中使用兩個(gè)不同的布邏輯運(yùn)算符:and和or。如果您想搜索 所有同時(shí)包含單詞“hot"和“dog"的web站點(diǎn),只需要在搜索引擎中輸入如下關(guān)鍵字:hot and dog搜索將返回以熱狗(hot dog)為主題的web站點(diǎn),但還會(huì)返回一些奇怪的結(jié)來(lái),如談?wù)撊绾卧?一個(gè)熱天(hot day)讓一只狗
13、(dog)涼快下來(lái)的web站點(diǎn)。如果想要搜索所有包含單詞“hot"或單詞“dog"的web站點(diǎn),您只需要輸入下血的關(guān)鍵字: hot or dog搜索會(huì)返回與這兩個(gè)單詞有關(guān)的web站點(diǎn),這些web站點(diǎn)的主題町能是熱狗(ho( dog)狗, 也可能是不同的空調(diào)在熱天(hoi day)使您涼爽、辣醬(hot chilli sauces)或狗糧等。意引擎搜索引擎返回的web站點(diǎn)順序可能會(huì)影響人們的訪問,所以,為了增加web站點(diǎn)的點(diǎn)擊率, 一些web站點(diǎn)會(huì)付費(fèi)給搜索引擎,以在相關(guān)web站點(diǎn)列表屮顯示在靠前的位證。好的搜索引擎會(huì)鑒別web站點(diǎn)的內(nèi)容,并據(jù)此安排它們的順序,但其他搜索引擎
14、大概不會(huì)這么做。 此外,因?yàn)樗阉饕娼?jīng)常對(duì)最為常用的關(guān)鍵字進(jìn)行搜索,所以許多web站點(diǎn)在自己的網(wǎng)頁(yè) 中隱藏了同一關(guān)鍵字的多個(gè)副本。這使得搜索引擎不再去查找internet,以返回與關(guān)鍵字有 關(guān)的更多信息。正如讀報(bào)紙、聽收音機(jī)或看電視新聞一樣,請(qǐng)留意您所獲得的信息的來(lái)源。搜索引擎能夠幫 您找到信息,但無(wú)法驗(yàn)證信息的可靠性。因?yàn)槿魏稳硕伎梢栽诰W(wǎng)上發(fā)布信息。加減號(hào)很多搜索引繁都支持在搜索詞前冠以加號(hào)(+)限定搜索結(jié)果屮必須包含的詞匯。川減號(hào)(-) 限定搜索結(jié)果不能包含的詞匯。9語(yǔ)法查詢1 把搜索范圍限定在網(wǎng)頁(yè)標(biāo)題屮intitle:標(biāo)題2. 把搜索范圍限定在特定站點(diǎn)中site:站名3. 把搜索范圍限定
15、在urlurl鏈接中inurl:鏈接4. 精確匹配雙引號(hào)”和書名號(hào)vv>>5. 要求搜索結(jié)果中同時(shí)包含或不含特定查詢?cè)~“+”、(減)6. 專業(yè)文檔搜索filetype:文檔格式、使用技巧1、簡(jiǎn)單查詢?cè)谒阉饕嬷休斎腙P(guān)鍵詞,然后點(diǎn)擊“搜索”就行了,系統(tǒng)很快會(huì)返回杳詢結(jié)果,這是最簡(jiǎn)單 的查詢方法,使用方便,但是查詢的結(jié)果卻不準(zhǔn)確,町能包含著許多無(wú)用的信息。2、使用雙引號(hào)用給要查詢的關(guān)鍵詞加上雙引號(hào)(半角,以f要加的其它符號(hào)同此),可以實(shí)現(xiàn)精確的查詢, 這種方法要求査詢結(jié)呆要精確匹配,不包括演變形式。例如在搜索引擎的文字框中輸入“電 傳”,它就會(huì)返回網(wǎng)頁(yè)中冇“電傳”這個(gè)關(guān)鍵字的網(wǎng)址,而不
16、會(huì)返回諸如“電話傳真”z類網(wǎng)頁(yè)。3、使用加號(hào)(+ )在關(guān)鍵詞的前面使用加號(hào),也就等于告訴搜索引擎該單詞必須出現(xiàn)在搜索結(jié)果中的網(wǎng)頁(yè)上, 例如,在搜索引擎屮輸入“+電腦+電話+傳真"就表示耍查找的內(nèi)容必須要同時(shí)包含“電腦、電 話、傳真”這三個(gè)關(guān)鍵詞。4、使用減號(hào)(-)在關(guān)鍵詞的前面使用減號(hào),也就意味著在杳詢結(jié)果屮不能出現(xiàn)該關(guān)鍵詞,例如,在搜索引繁 中輸入“電視臺(tái)中央電視臺(tái)”,它就表示最后的查詢結(jié)果中一定不包含“中央電視臺(tái)"。5、使用通配符通配符包括星號(hào)(*)和問號(hào)(?),前者表示匹配的數(shù)量不受限制,示者匹配的字符數(shù)要受 到限制,主要用在英文搜索引擎小。例如輸入“compute嚴(yán)
17、,就可以找到“computer、computers> computerised> computerized”等單詞,而輸入"comp?tef',則只能找至0"computer> computer> competer 等單詞。6、使用布爾檢索所謂布爾檢索,是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系來(lái)表達(dá)關(guān)鍵詞與關(guān)鍵詞之間邏輸關(guān)系的一種杏 詢方法,這種查詢方法允許我們輸入多個(gè)關(guān)鍵詞,各個(gè)關(guān)鍵詞z間的關(guān)系可以用邏輯關(guān)系詞 來(lái)表示。 and,稱為邏輯t,用and進(jìn)行連接,表示它所連接的兩個(gè)詞必須同吋出現(xiàn)在 查詢結(jié)果中,例如,輸入“computer and book&
18、quot;,它要求查詢結(jié)果中必須同時(shí)包含computer 和booko or,稱為邏輯“或”,它表示所連接的兩個(gè)關(guān)鍵詞屮任意一個(gè)出現(xiàn)在查詢結(jié)果屮就可以,例如,輸入"computer or book”,就要求查詢結(jié)果屮可以只有computer,或只有book, 或同時(shí)包含computer和book。 not,稱為邏輯“非”,它表示所連接的兩個(gè)關(guān)鍵詞中應(yīng)從 第一個(gè)關(guān)鍵詞概念中排除第二個(gè)關(guān)鍵詞,例如輸入"automobile not car",就耍求查詢的結(jié)果 屮包a automobile (汽車),但同時(shí)不能包a car (小汽車)。near,它表示兩個(gè)關(guān)鍵詞之間的詞距不能超過n個(gè)單詞。在實(shí)際的使用過程中,你可以將各種邏輯關(guān)系綜合運(yùn)用,靈活搭配,以便進(jìn)行更加復(fù)雜的查詢。7、使用括號(hào)當(dāng)兩個(gè)關(guān)鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時(shí),就可以對(duì)這兩個(gè)詞 加上圓活號(hào)。8、使用元詞檢索大多數(shù)搜索引擎都支持“元詞” (metawords)功能,依據(jù)這類功能用戶把元詞放在關(guān)鍵詞的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 青鳥讀后感集合15篇
- 私立醫(yī)院護(hù)士聘用合同(33篇)
- 租賃房屋商用合同書(3篇)
- 工程建設(shè)項(xiàng)目實(shí)施方案(3篇)
- 小餐桌食品安全承諾書(33篇)
- 廣東省惠州市2024?2025學(xué)年高三第二次調(diào)研考試(期中) 數(shù)學(xué)試題含答案
- 最佳路徑教案5篇
- 山西省晉中市(2024年-2025年小學(xué)五年級(jí)語(yǔ)文)統(tǒng)編版小升初真題((上下)學(xué)期)試卷及答案
- 2024年防粘劑項(xiàng)目資金籌措計(jì)劃書
- 2023年皮革色漿資金籌措計(jì)劃書
- 急性扁桃體炎病人的護(hù)理
- 渠道管理就這樣做
- 水電站大壩安全管理實(shí)績(jī)?cè)u(píng)價(jià)規(guī)程
- 07項(xiàng)目部事故隱患排查清單
- 悅納兒童的文化生長(zhǎng)東莞市莞城中心小學(xué)“悅納教育”的思與行
- ZZ036 新能源汽車維修賽題-2023年全國(guó)職業(yè)院校技能大賽擬設(shè)賽項(xiàng)賽題(10套)
- 人教版五年級(jí)上冊(cè)簡(jiǎn)易方程《用字母表示數(shù)例4》
- ZZ031 園林微景觀設(shè)計(jì)與制作賽項(xiàng)賽題-2023年全國(guó)職業(yè)院校技能大賽擬設(shè)賽項(xiàng)賽題完整版(10套)
- 碳酸氫鎂介穩(wěn)溶液應(yīng)用于萃取分離稀土過程中的基礎(chǔ)研究
- 體育看齊教案
- 學(xué)生突出心理問題防治工作實(shí)施方案
評(píng)論
0/150
提交評(píng)論