搜索引擎的原理

上傳人：q*** IP屬地：湖北上傳時(shí)間：2023-01-16 格式：PPTX 頁(yè)數(shù)：41 大小：943.44KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩36頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索引擎的原理簡(jiǎn)述搜索引擎的服務(wù)步驟一、搜索引擎巡視網(wǎng)絡(luò)，抓取頁(yè)面，建立排序，理解抓取頁(yè)面內(nèi)容意思。二、外部環(huán)境：用戶發(fā)起檢索請(qǐng)求，提交給搜索引擎。三、搜索引擎接受請(qǐng)求，分析關(guān)鍵詞，了解用戶搜索意圖。根據(jù)關(guān)鍵詞尋找匹配內(nèi)容，推薦出來(lái)并排名展現(xiàn)。搜索引擎，通常指的是收集了因特網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞（即關(guān)鍵詞）進(jìn)行索引，建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候，所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后，這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低，依次排列1、派出Spider，按照相關(guān)的策略把網(wǎng)頁(yè)抓回搜索引擎服務(wù)器。2、對(duì)抓回來(lái)的網(wǎng)頁(yè)進(jìn)行連接抽離、內(nèi)容處理、消除噪音、提取該網(wǎng)頁(yè)的主題文本內(nèi)容。3、對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行中文分詞，去除停止詞。4、分詞后判斷網(wǎng)頁(yè)內(nèi)容是否有，刪除重復(fù)也，對(duì)剩余頁(yè)面進(jìn)行倒排索引，等待檢索。5、對(duì)用戶查詢的關(guān)鍵詞進(jìn)行分詞處理，并且根據(jù)用戶的地理位置和歷史搜索特征結(jié)合判斷用戶需求。這樣方便地域性搜索結(jié)果和個(gè)性化搜索結(jié)果能展示用戶最需要的內(nèi)容。6、查找緩存中是否有該關(guān)鍵詞的查詢結(jié)果，如果有，確定用戶真實(shí)需求，微調(diào)之后展示給用戶。7、如果緩存沒(méi)有信息，那么在索引庫(kù)中進(jìn)行調(diào)取，并且將關(guān)鍵詞和對(duì)應(yīng)的搜索結(jié)果加入到緩存中去。8、網(wǎng)頁(yè)排名是根據(jù)用戶的搜索詞和搜索需求，對(duì)索引庫(kù)中的網(wǎng)頁(yè)進(jìn)行相關(guān)性、重要性（鏈接權(quán)重分析）和用戶體驗(yàn)的高低進(jìn)行分析得到的。爬行和抓取搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁(yè)并抓文件的程序，這個(gè)程序通常稱之為蜘蛛（Spider）。搜索引擎從已知的數(shù)據(jù)庫(kù)出發(fā)，就像正常用戶的瀏覽器一樣訪問(wèn)這些網(wǎng)頁(yè)并抓取文件。搜索引擎通過(guò)這些爬蟲去爬互聯(lián)網(wǎng)上的外鏈，從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站，去跟蹤網(wǎng)頁(yè)中的鏈接，訪問(wèn)更多的網(wǎng)頁(yè)，這個(gè)過(guò)程就叫爬行。這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫(kù)等待搜索。所以跟蹤網(wǎng)頁(yè)鏈接是搜索引擎蜘蛛（Spider）發(fā)現(xiàn)新網(wǎng)址的最基本的方法，所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁(yè)面文件與用戶瀏覽器得到的完全一樣，抓取的文件存入數(shù)據(jù)庫(kù)。建立索引蜘蛛抓取的頁(yè)面文件分解、分析，并以巨大表格的形式存入數(shù)據(jù)庫(kù)，這個(gè)過(guò)程即是索引（index).在索引數(shù)據(jù)庫(kù)中，網(wǎng)頁(yè)文字內(nèi)容，關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞，單擊“搜索”按鈕后，搜索引擎程序即對(duì)搜索詞進(jìn)行處理，如中文特有的分詞處理，去除停止詞，判斷是否需要啟動(dòng)整合搜索，判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。排序?qū)λ阉髟~處理后，搜索引擎程序便開始工作，從索引數(shù)據(jù)庫(kù)中找出所有包含搜索詞的網(wǎng)頁(yè)，并且根據(jù)排名算法計(jì)算出哪些網(wǎng)頁(yè)應(yīng)該排在前面，然后按照一定格式返回到“搜索”頁(yè)面。再好的搜索引擎也無(wú)法與人相比，這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒(méi)有SEO的幫助，搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。搜索引擎抓取詳解Spider他是搜索引擎最開始的一個(gè)功能模塊，同時(shí)，只有它抓取回來(lái)的頁(yè)面或者地址才可以被索引并參與進(jìn)排名里面。只要被Spider抓取的URL地址都可能會(huì)參與排名，但是參與排名的網(wǎng)頁(yè)不一定被抓取了內(nèi)容。例如現(xiàn)在的天貓商城，只會(huì)被抓去地址，但是正文內(nèi)容不會(huì)抓取。（他是搜索引擎用來(lái)抓取網(wǎng)站頁(yè)面的一個(gè)程序。他抓取頁(yè)面需要有一個(gè)入口，這個(gè)入口一般先期可以由我們?nèi)斯ぬ峤?。例如搜索引擎提交我們的網(wǎng)站。）Spider的抓取及分類Spider想要抓取到網(wǎng)頁(yè)，首先要解決時(shí)發(fā)現(xiàn)網(wǎng)頁(yè)的入口，沒(méi)有入口他就無(wú)法進(jìn)入網(wǎng)站，更是無(wú)從抓取網(wǎng)頁(yè)了。因此這里就涉及到抓取的策略性問(wèn)題，這個(gè)也是我們后續(xù)SEO要解決的第一步。那么抓取的策略是什么呢？其次是，網(wǎng)頁(yè)內(nèi)容是有時(shí)效性的，有一些網(wǎng)頁(yè)內(nèi)容不存在實(shí)時(shí)的更新，依然有著重要的意義，有一些需呀實(shí)時(shí)更新，那么對(duì)于這些信息，Spider采用什么樣的再次抓取和更新策略呢？作為大型的搜索引擎，Spider不可能只有一個(gè)，為了節(jié)省資源，保證效率，要保證多個(gè)Spider同時(shí)作業(yè)而且工作不重復(fù)，這樣就會(huì)有多個(gè)Spider分區(qū)域同時(shí)作業(yè)，這樣分布式抓取策略又是什么樣的呢？Spider的分類批量型：特點(diǎn)：具有明顯的抓取范圍和目標(biāo)，時(shí)間設(shè)定，抓取數(shù)量有限，或者當(dāng)達(dá)到目標(biāo)就會(huì)停止，這樣的例子一般是我們的站長(zhǎng)和優(yōu)化人員使用的采集工具中的采集程序。增量型：可以成為搜索引擎的網(wǎng)站或者程序，他們使用的都是增量型，他們的特點(diǎn)是沒(méi)有固定目標(biāo)、范圍和時(shí)間限制，會(huì)無(wú)休止的抓取，直到把所有的網(wǎng)站數(shù)據(jù)抓取為止，他們一般不僅僅抓取盡可能全面的頁(yè)面，同時(shí)還要對(duì)已經(jīng)抓取的頁(yè)面再次抓取和更新。因?yàn)榫W(wǎng)絡(luò)在變化，信息也在變化。百度、google主要用的就是這種。垂直型：特點(diǎn)：只對(duì)特定的內(nèi)容或者行業(yè)進(jìn)行抓取，他具有增量型的部分特點(diǎn)，但是對(duì)于抓取范圍有限制。一般一淘網(wǎng)，優(yōu)酷下搜庫(kù)，百度和google下的垂直搜索使用的就是垂直型的。Spider抓取1、盡可能多的抓取頁(yè)面2、避免重復(fù)的頁(yè)面抓取因此在實(shí)際的抓取過(guò)程中，Spider會(huì)建立兩個(gè)列表組，一個(gè)是已經(jīng)抓取的URL列表，一個(gè)是等待抓取的URL列表。每抓取一個(gè)新頁(yè)面的時(shí)候，提取出來(lái)的頁(yè)面鏈接，都會(huì)去和已經(jīng)抓取的URL列表中的鏈接去一一比對(duì)，如果發(fā)現(xiàn)該鏈接已經(jīng)抓取過(guò)，就會(huì)直接丟棄，如果發(fā)現(xiàn)該鏈接還沒(méi)有抓取，就會(huì)把它放在等待抓取的列表末尾排隊(duì)等候。Spider眼中的網(wǎng)頁(yè)分類

1已經(jīng)抓取頁(yè)面等待抓取頁(yè)面可以抓取頁(yè)面暗網(wǎng)頁(yè)面Spider的抓取特點(diǎn)Spider對(duì)于常規(guī)網(wǎng)頁(yè)的抓取，是從一個(gè)入口開始抓取的時(shí)候，就會(huì)獲取這個(gè)網(wǎng)頁(yè)上的所有導(dǎo)出鏈接，因此當(dāng)Spider隨機(jī)抓取其中的一個(gè)鏈接的時(shí)候，同樣又會(huì)收集到很多新的鏈接。此時(shí)Spider面臨一個(gè)抓取方式的選擇。1、沿著一條鏈接一層一層的抓取下去，直到這個(gè)鏈接的盡頭，然后返回按照這樣的辦法繼續(xù)抓取另一個(gè)鏈接。這就叫深度優(yōu)化抓取。2、先把入口處的鏈接全部抓取一遍，把新發(fā)現(xiàn)的URL一次入庫(kù)排列，對(duì)同一層級(jí)的頁(yè)面進(jìn)行一次橫向抓取，然后再進(jìn)入下一層，這叫做廣度優(yōu)先抓取。深度抓取和廣度抓取理論上，Spider不管采用深度還是廣度優(yōu)先策略，只要時(shí)間足夠，都可以把互聯(lián)網(wǎng)上的內(nèi)容統(tǒng)統(tǒng)抓取一遍，但是很不幸，搜索引擎的Spider時(shí)間也非常寶貴，單一方法的抓取時(shí)很奢侈的，所以一般搜索引擎都是采用兩種方式相結(jié)合的方式進(jìn)行的。這就涉及到一個(gè)有限選擇的問(wèn)題。一般情況下，

Spider可以在域名級(jí)別的網(wǎng)頁(yè)使用廣度的優(yōu)先抓取策略，這樣可以盡可能抓取更多的網(wǎng)站。在網(wǎng)站內(nèi)部頁(yè)面級(jí)別一般會(huì)根據(jù)網(wǎng)站權(quán)重綜合使用廣度和深度優(yōu)先抓取，也就是說(shuō)網(wǎng)站權(quán)重，直接影響到抓取量的大小。剛上線的網(wǎng)站一般被抓去只有一個(gè)首頁(yè)。從抓取的特點(diǎn)上可以看出，對(duì)于重要網(wǎng)站優(yōu)先抓取，重要的網(wǎng)站和網(wǎng)站內(nèi)的重要頁(yè)面是優(yōu)先抓取的。大站鏈接也是優(yōu)先抓取的。重要頁(yè)面和大站的優(yōu)先抓取詳解1、如何界定頁(yè)面的重要性，除了受到自己的主站質(zhì)量和權(quán)重之外，就要看看導(dǎo)入鏈接的數(shù)量和質(zhì)量了。如果界定為重要頁(yè)面，一般的抓取策略就會(huì)隨之改變，等待抓取的排序依據(jù)就會(huì)是：頁(yè)面獲得已抓取頁(yè)面鏈接的多少和鏈接權(quán)重的高低?？倸w就是數(shù)量和質(zhì)量。2、大站一般是有穩(wěn)定服務(wù)器，良好網(wǎng)站結(jié)構(gòu)，優(yōu)秀的用戶體驗(yàn)，及時(shí)的咨詢內(nèi)容，權(quán)威的相關(guān)資料，豐富的內(nèi)容類別和龐大的網(wǎng)頁(yè)數(shù)量等特征。一般這樣站點(diǎn)信息會(huì)被搜索引擎重點(diǎn)關(guān)注和抓取收錄。Spider的抓取認(rèn)識(shí)Spider不會(huì)爬，不是根據(jù)鏈接爬到另一個(gè)網(wǎng)頁(yè)來(lái)進(jìn)行抓取的。他是首先抓取一個(gè)網(wǎng)頁(yè)，提取出來(lái)所有URL，同時(shí)記錄和計(jì)算URL形式，他的位置，錨文本，當(dāng)前頁(yè)面的所賦予的權(quán)重等信息，然后將這些地址合并抓取到列表中，并且根據(jù)每個(gè)URL的值來(lái)進(jìn)行抓取排序，spider就是不斷根據(jù)這個(gè)url排序的變化來(lái)抓取內(nèi)容頁(yè)面的。Spider的訪問(wèn)時(shí)單次訪問(wèn)，每次訪問(wèn)一個(gè)頁(yè)面就會(huì)把頁(yè)面信息抓取回來(lái)，不是說(shuō)一個(gè)小蜘蛛，到網(wǎng)站沿著鏈接爬行大量頁(yè)面之后再返回。Spider的再次抓取更新策略Spider抓取一次網(wǎng)頁(yè)，被分析索引并且參與排名后，并不是就不會(huì)被重新訪問(wèn)了，因?yàn)樗阉饕孀ト〉男畔⒋鎯?chǔ)在自己的服務(wù)器上，就需要和所訪問(wèn)的網(wǎng)站保持信息的更新同步，因此Spider會(huì)根據(jù)一定策略對(duì)已抓取網(wǎng)頁(yè)進(jìn)行再次訪問(wèn)。因?yàn)橘Y源有限，Spider只會(huì)有針對(duì)性的訪問(wèn)網(wǎng)站。一般來(lái)說(shuō)：用戶體驗(yàn)，歷史更新頻率，網(wǎng)頁(yè)類型和網(wǎng)頁(yè)權(quán)重，直接影響了再次訪問(wèn)抓取的頻率。1、何為用戶體驗(yàn)因?yàn)橛脩粢话銥g覽自己搜索內(nèi)容的前三頁(yè)結(jié)果，第四頁(yè)以后都會(huì)很少瀏覽，所以搜素引擎會(huì)收集所有用戶的搜索請(qǐng)求，統(tǒng)計(jì)所有搜索結(jié)果中，用戶可能看到的網(wǎng)頁(yè)，進(jìn)行再次的優(yōu)先抓取和更新。理論上網(wǎng)頁(yè)被搜索的次數(shù)越多，再次被抓取的頻率就會(huì)越高。歷史更新頻率網(wǎng)站頁(yè)面的主體內(nèi)容部分穩(wěn)定的更新頻率，也會(huì)帶來(lái)搜索的穩(wěn)定關(guān)注。但是更新的區(qū)域主要是內(nèi)容區(qū)域，不是周圍的廣告和導(dǎo)航和推薦模塊。網(wǎng)頁(yè)類型一個(gè)網(wǎng)站有不同的網(wǎng)頁(yè)類型，有著不同的更新頻率，Spider的關(guān)注和抓取的頻率也會(huì)有所不同。同一個(gè)站點(diǎn)內(nèi)：分為：首頁(yè)、欄目頁(yè)、專題頁(yè)和內(nèi)容頁(yè)，一般情況下，首頁(yè)和欄目頁(yè)都是Spider經(jīng)常關(guān)顧的頁(yè)面。根據(jù)專題頁(yè)面的時(shí)效性和特點(diǎn)，Spider可能會(huì)在一段時(shí)間內(nèi)進(jìn)行頻繁抓取，時(shí)效性過(guò)后就會(huì)降低頻率，內(nèi)容頁(yè)可能在第一次抓取之后就基本不會(huì)再來(lái)網(wǎng)頁(yè)權(quán)重值除了上述的因素，網(wǎng)頁(yè)權(quán)重也會(huì)影響到網(wǎng)頁(yè)的再次抓取的頻率。因此在SEO工作中，有時(shí)候?yàn)榱颂岣吣骋痪W(wǎng)站的抓取頻率，一般會(huì)重點(diǎn)為該頁(yè)面的鏈接提高權(quán)重，加大該網(wǎng)頁(yè)的更新頻率。在用戶體驗(yàn)方面我們可以用標(biāo)題和描述吸引點(diǎn)擊，不僅可以提升排名，也可以間接增加頁(yè)面被Spider抓取的頻率。Spider的優(yōu)缺點(diǎn)1，Spider不能很好的讀取JS、Ajax和flash中的內(nèi)容。2，Spider是直接訪問(wèn)網(wǎng)站的。3，Spider不會(huì)主動(dòng)注冊(cè)登錄，不會(huì)分析和抓取robots中已經(jīng)屏蔽的內(nèi)容。4，Spider對(duì)于多個(gè)動(dòng)態(tài)參數(shù)的網(wǎng)站抓取，可能會(huì)陷入死循環(huán)。5，Spider對(duì)于列表中前幾頁(yè)的新內(nèi)容抓取可能不好。6，Spider暫時(shí)還不能判斷文章是不是原創(chuàng)的。搜索引擎的內(nèi)容處理、中文分詞和索引內(nèi)容處理1，判斷頁(yè)面類型，是普通網(wǎng)頁(yè)還是各種格式的文件。2，提取網(wǎng)頁(yè)的文本信息。搜索引擎對(duì)于網(wǎng)頁(yè)的索引還是以文本為主，還會(huì)提取下網(wǎng)頁(yè)的Title、Kewords、Description.3,去除頁(yè)面噪音，去除廣告、導(dǎo)航、鏈接、圖片、登陸框、網(wǎng)站版權(quán)信息等內(nèi)容。只提取該網(wǎng)頁(yè)的主體內(nèi)容。甚至與頁(yè)面不相干的鏈接文本也會(huì)被保留索引。4、去除內(nèi)容中的停止詞，對(duì)正文內(nèi)容的處理，搜索引擎去除諸如：得、的、啊、地、呀、卻之類的停止詞。經(jīng)過(guò)這些處理之后，抓取的內(nèi)容就比較干凈了，這樣搜索引擎就會(huì)對(duì)有價(jià)值的內(nèi)容進(jìn)行排序了。中文分詞分詞是中文才有的技術(shù)，因?yàn)橹形膯我坏淖质菦](méi)辦法表達(dá)一個(gè)完整的意思的。計(jì)算機(jī)沒(méi)辦法詞把中文分為單個(gè)字來(lái)理解，所以需要引入分詞技術(shù)。例如：我是一個(gè)學(xué)生，就會(huì)被切分為：我|是|一個(gè)|學(xué)生。1，基于詞典匹配2，基于統(tǒng)計(jì)索引搜索引擎使用的是倒排索引，就是以關(guān)鍵詞為核心，進(jìn)行內(nèi)容匹配。倒排索引中不僅僅記錄了相應(yīng)關(guān)鍵詞文件的ID，還會(huì)記錄關(guān)鍵詞頻率，每個(gè)關(guān)鍵詞對(duì)應(yīng)的文件頻率，以及關(guān)鍵詞出現(xiàn)在文件中的位置等信息。這些信息會(huì)在排名過(guò)程中分別進(jìn)行加權(quán)處理，應(yīng)用到最終的排名中去。網(wǎng)頁(yè)去重原理去重就是搜索引擎對(duì)于不同站點(diǎn)上的大量的重復(fù)信息進(jìn)行去除，屏蔽處理。搜索引擎一般會(huì)對(duì)已經(jīng)抓取的重復(fù)頁(yè)面進(jìn)行歸類處理。比如：判斷某個(gè)網(wǎng)站是否包含大量的重復(fù)頁(yè)面，判斷是否為完全采集站點(diǎn)，如果判定會(huì)予以處罰處理。用戶搜索需求分析搜索詞分析用戶提交搜索請(qǐng)求之后，搜索引擎會(huì)判斷搜索詞的類型：普通文本搜索、普通文本帶有高級(jí)指令搜索還是純粹的高級(jí)指令搜索。純粹高級(jí)指令搜索：例如：site:，inurl：和intitle：site:，inurl：要求搜索引擎之匹配網(wǎng)頁(yè)地址Intitle：要求只匹配網(wǎng)頁(yè)title。如果是純文本搜索，搜索引擎先對(duì)搜索詞進(jìn)行分詞，確定搜索意圖，然后進(jìn)行內(nèi)容匹配。搜索詞分析其實(shí)就用來(lái)明確搜索意圖的。搜索意圖分析搜索意圖分析是為了明確用戶的目的，為精準(zhǔn)匹配相關(guān)信息提供核心依據(jù)。但是當(dāng)用戶搜索一些比較寬泛的關(guān)鍵詞時(shí)候就需要分析用戶的搜索意圖，來(lái)進(jìn)行需求判斷，例如搜索范冰冰嗎，就會(huì)使用整合搜索，提供關(guān)于范冰冰的所有新，只是根據(jù)歷史統(tǒng)計(jì)中的用戶關(guān)注重點(diǎn)比例，來(lái)進(jìn)行相應(yīng)的排名調(diào)整如果搜索的是通用詞匯時(shí)候，例如搜索KFC，在南京和北京，就會(huì)分別顯示的是當(dāng)?shù)匦畔橹?。因?yàn)闀?huì)判斷大致的IP所處地址。如果用戶反復(fù)搜索一個(gè)寬泛的關(guān)鍵詞，搜索引擎會(huì)使用cookie記錄的信息，優(yōu)先顯示用戶頻繁點(diǎn)擊的頁(yè)面。如果對(duì)于同一關(guān)鍵詞搜索出來(lái)結(jié)果的同一網(wǎng)頁(yè)，搜索點(diǎn)擊人數(shù)比例過(guò)大，也會(huì)影響到常規(guī)網(wǎng)頁(yè)的排序，因此網(wǎng)頁(yè)點(diǎn)擊量，會(huì)影響排名。搜索引擎對(duì)搜索詞，用戶屬性，歷史記錄分析確定用戶需求，從索引庫(kù)中檢索與搜索詞最相關(guān)最重要的頁(yè)面，進(jìn)行排序后，再引入用戶搜索意圖對(duì)排序結(jié)果進(jìn)行調(diào)整。相關(guān)性計(jì)算相關(guān)性指的是：內(nèi)容和關(guān)鍵詞的相關(guān)程度?，F(xiàn)在的搜索引擎其實(shí)沒(méi)有真正解決相關(guān)性計(jì)算的問(wèn)題，只有通過(guò)關(guān)鍵詞分詞匹配，關(guān)鍵詞在內(nèi)容中的頻率密度，關(guān)鍵詞字體位置和頁(yè)面外鏈等外表特征來(lái)進(jìn)行內(nèi)容相關(guān)度計(jì)算。因?yàn)樗阉饕孢€沒(méi)辦法真正理解搜索詞和文章所表達(dá)的含義。為了更加精確，搜索引擎判斷相關(guān)性關(guān)鍵詞匹配和語(yǔ)義分析雙結(jié)合進(jìn)行判斷。關(guān)鍵詞匹配搜索引擎對(duì)搜索詞在索引庫(kù)中的檢索過(guò)程如下：1，采用分詞，把用戶提交的搜索詞分為詞1和詞22，同時(shí)使用1、

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

搜索引擎的原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

搜索引擎的原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔