Google搜索引擎的工作原理秘密原來都在這里_第1頁
Google搜索引擎的工作原理秘密原來都在這里_第2頁
Google搜索引擎的工作原理秘密原來都在這里_第3頁
Google搜索引擎的工作原理秘密原來都在這里_第4頁
Google搜索引擎的工作原理秘密原來都在這里_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

Google搜索引擎的工作原理,秘密原來都在這里2020年9月的某個清晨,美國北加州地區(qū)的民眾一覺醒來,發(fā)現(xiàn)野火濃煙后的西海岸上空一片橙紅。這種像是從《銀翼殺手》電影中走出來的景象,很多人在現(xiàn)實生活中可能從未見過。圖:LATimes到底發(fā)生了什么?自然而然地,就像國內(nèi)大多數(shù)網(wǎng)民會打開百度甚至知乎搜索答案一樣,一時間加州人民也紛紛潮涌至Google,鍵入了類似「為什么天空是橙色的」這樣的搜索關(guān)鍵字——這些在搜索引擎眼里或許有點無厘頭的問題,依然通過信息卡片、精選新聞資訊的方式得到了精準(zhǔn)而及時的解答。當(dāng)時的Google搜索頁面以上是Google不久前分享的一個案例。當(dāng)我們將Google搜索引擎從上面這個事件中剝離出來仔細(xì)審視時,不少人應(yīng)該都會心生疑竇:Google是如何知道用戶要搜什么的,為什么針對加州地區(qū)的當(dāng)?shù)刭Y訊會排在頁面頂部,其它地區(qū)的人搜索同樣的問題會得到類似的答案嗎,結(jié)果頁面左側(cè)的知識面板在這樣的搜索中發(fā)揮了怎樣的作用……為了讓你多了解一點這個世界上最受歡迎的搜索引擎,Google自2018年以來就開始陸續(xù)在TheKeyword博客中分享關(guān)于Google搜索引擎的各種細(xì)節(jié)與原理。如果你也有上面這些疑問,不妨跟隨本文一起探究Google搜索引擎背后的秘密。搜索建議是怎么「蹦」出來的?每天我們都要和搜索引擎打交道,而每次使用Google搜索信息時,鍵入搜索關(guān)鍵字的同時搜索框下方都會不斷「蹦」出各種各樣根據(jù)已輸入詞匯擴展而來的搜索建議。是此時的Google「能掐會算」,早就知道了你心里的那點小心思嗎?這種「能掐會算」的背后是Google的一項名為自動填充(autocomplete)的技術(shù)。從我們錄入開始,Google就開始在搜索框的下方顯示它所猜測的搜索關(guān)鍵字結(jié)果。只要有任意一條「猜測」命中,我們就能快速完成輸入。這種「猜測」(官方稱為「預(yù)測」)其實是系統(tǒng)在不斷使用我們鍵入的詞匯進行聯(lián)想查詢,我們不斷輸入的同時,搜索框下方提示的文字內(nèi)容也會根據(jù)「猜測」結(jié)果不斷調(diào)整。這其實也是為什么網(wǎng)絡(luò)環(huán)境不太好的時候搜索建議可能會表現(xiàn)得反應(yīng)遲滯甚至完全不會「蹦」出搜索建議的原因。為了提高這些搜索建議的命中率,Google還會進一步引入相關(guān)因素來進行預(yù)測校準(zhǔn),進行搜索的用戶所處的地理位置、當(dāng)下的熱門甚至用戶所使用的設(shè)備……這些都會對自動填充生成的搜索建議產(chǎn)生影響——當(dāng)然了,很多人應(yīng)該也知道,我們在Google上保存的搜索歷史和各種搜索設(shè)置同樣也會影響到具體的預(yù)測結(jié)果。搜索設(shè)置會影響搜索結(jié)果,但只是眾多影響因素的一部分舉個例子,在Google搜索引擎使用率更高的歐美地區(qū),Google往往會根據(jù)搜索用戶所處的地理位置預(yù)判他們使用的是英式英語還是美式英語,進而提供差異化的內(nèi)容顯示——在英式英語的語境下「football」通常會是足球,而在美式英語下往往是橄欖球,Google也會這么做;與之對應(yīng)的,Google還會在單詞拼寫上進行建議,比如根據(jù)搜索者的所在地區(qū)對「center」和「centre」的寫法進行區(qū)分。注意觀察圖中位置與單詞的拼寫由此其實也可以得出一個事實:每個人在Google中進行的每一次搜索都是高度個性化的,即便我們使用瀏覽器的隱私瀏覽模式排除個人搜索和瀏覽記錄的干擾,實際搜索結(jié)果還是會根據(jù)其它因素進行調(diào)整。精選摘要:不用翻查、即問即答我只是要找個答案而已,并不想點開網(wǎng)頁。經(jīng)常使用搜索引擎獲取信息的人一定會有類似的想法,讓他們養(yǎng)成這個習(xí)慣的原因之一,很有可能就是Google經(jīng)常會在搜索結(jié)果頁面上方直接生成的那個信息卡片——直接、干脆,你問、它答。這個答案是怎么來的?首先,這個卡片也有一個特定的名字:精選摘要(featuredsnippets),套用一句俗話,「生活就像水中的鴨子,表面上從容淡定,其實水底下在拼命劃水」。精選摘要的來源也是這樣——在我們鍵入、搜索的過程中,Google表面上只是從容淡定地搜索、跳轉(zhuǎn),背后的零點幾秒時間里,幕后其實也在「拼命劃水」。搜索系統(tǒng)算法會根據(jù)我們所搜索的問題檢索一些相對具備權(quán)威性的高質(zhì)量網(wǎng)站頁面,然后從這些網(wǎng)站中提取關(guān)鍵內(nèi)容來生成摘要,最后把這份摘要呈送到我們眼前,即上面所說的「精選摘要」。然而算法畢竟是算法,也會有陰溝翻船的時候,其中最著名的例子莫過于「古羅馬人夜間如何計時」這個問題,最初Google給出的答案是:日晷。羅馬人最初使用日晷來測量時間流逝。通過這種方法他們不僅可以相對準(zhǔn)確地獲取日出、日落和正午時間,還能根據(jù)日影長度估算一天中的其它時刻。日晷這種新工具的引入給了羅馬人一種更好的測量時間的方法……那么夜間沒有太陽如何用日晷計時呢?Google的精選摘要那時也不知道。是不是有點你學(xué)生時代答非所問但一定要把試題紙寫滿的味道了……知識圖譜:強力的信息補充上面我們已經(jīng)了解了「精選摘要」,也見識了它的「胡說八道」,那當(dāng)我們意識到精選摘要似乎在「亂侃」的時候怎么辦?或者這個搜索頁面根本就沒有精選摘要……你可能已經(jīng)有這個習(xí)慣了:向右看。頁面右側(cè)可能會出現(xiàn)一個知識面板,它包含了當(dāng)前搜索話題相關(guān)的知識信息,沒準(zhǔn)也能在你的搜索中派上用場。這個知識面板(KnowledgePanel)與早年Google精心搭建的知識圖譜(KnowledgeGraph)體系密切相關(guān)。圖片來自于維基百科簡單來說,知識圖譜是一個由各種不同頁面、不同來源的信息構(gòu)成的小「知識庫」,根據(jù)話題的不同,Google通過語義算法自動整理、歸納不同內(nèi)容的相關(guān)信息,這些信息同時會隨著原始來源頁面的變化而自動更新。因此當(dāng)我們在搜索人物、地點、組織等信息的時候,知識面板可以直接將相關(guān)內(nèi)容匯總為一張知識面板放在搜索頁面右側(cè)。目前這個面板中所收納的內(nèi)容已經(jīng)相當(dāng)豐富了,以Apple的知識面板為例,我們可以直接在知識面板中找到Apple這家公司的基本信息介紹、股價信息、業(yè)務(wù)范圍、售后電話、社交賬戶頁面、熱門產(chǎn)品甚至換電池業(yè)務(wù)頁面……比起跳轉(zhuǎn)到某個互聯(lián)網(wǎng)犄角旮旯里才能找到官網(wǎng)的體驗來說這樣的知識面板能夠大幅提高話題信息的檢索效率。盡管知識面板偏居一隅,但是Google對它還挺上心的。按照Google的說法,截至2020年5月,知識面板已經(jīng)收集了約50億個實體、超過5000億個名詞實例,說它是一本藏在Google搜索引擎里的「百科全書」不過分吧?哪些結(jié)果排前面?不是錢說了算精選摘要也好,知識面板也罷,這些都可以簡單歸納到快速答案范疇內(nèi)。假如把整個搜索過程比作是一頓飽餐,精選摘要、知識面板只不過是餐前甜點,頁面主體內(nèi)容里的搜索結(jié)果才是正餐。所以很多人在瀏覽Google搜索結(jié)果的時候,隨著鼠標(biāo)的滾輪不斷滑動、藍色的搜索鏈接飛速掠過,很自然地就會有一個不成熟的小想法:這么多的搜索結(jié)果是如何排序的,前面這幾個會不會跟某些搜索引擎一樣是收了錢的?「犯罪嫌疑人」是這樣說的這個問題就涉及到了搜索排名算法了。這里最為大眾所熟知的搜索排名算法應(yīng)該就是PageRank了。這也是Google最早使用的對網(wǎng)頁進行的排名算法。對,就是你的潛意識里的那個名字,拉里·佩奇(LarryPage),這個算法正是用Google創(chuàng)始人(之一)的名字命名。雖然Google主要靠廣告掙錢,影響搜索結(jié)果排名的主要還是算法本身,但金無足赤,算法同樣也有問題。PageRank的缺陷就包括「舊的頁面的排名往往會比新頁面高」,也同樣因此成為了一些人「刷排名」的漏洞。因此Google在2016年關(guān)閉了PageRank數(shù)據(jù)開放的大門。誠所謂條條大路通羅馬,盡管時間在變、算法在變,不過Google表示保證搜索結(jié)果排名質(zhì)量的初心并沒有變。按照Google的說法,目前Google搜索引擎的排名系統(tǒng)是以質(zhì)量為導(dǎo)向的,它由一系列算法組成,在搜索過程中,我們搜索的字詞、搜索目標(biāo)網(wǎng)頁的相關(guān)性、可用性、來源專業(yè)程度等等都會影響到算法和頁面的最終排名。用戶搜索話題的性質(zhì)不同也會影響頁面的內(nèi)容排序。所以從某種程度上來說,Google搜索引擎現(xiàn)階段的排名算法其實是有點「黑盒子」,它不像早年P(guān)ageRank那樣公開透明,但依然維持著較高的搜索結(jié)果排名質(zhì)量——當(dāng)然,Google用來「養(yǎng)家糊口」的廣告往往還是會排在搜索結(jié)果的上面,好在它們和少數(shù)派網(wǎng)站一樣都標(biāo)注得蠻清楚。用人力保證搜索結(jié)果質(zhì)量沒錯,講了這么多預(yù)測、知識圖譜與算法,保證Google搜索結(jié)果質(zhì)量最后一環(huán)的竟然還是人。就像上面提到的那個「羅馬人夜間用日晷計時」的笑話一樣,搜索結(jié)果詞不達意甚至答非所問的情況是有的,而算法很難自查。為了減少類似的情況發(fā)生,Google充分調(diào)動這樣幾波人的智慧:專家、權(quán)威機構(gòu)。在搜索健康財務(wù)、公民信息(civic-information)和危機情況等話題的時候,我們能直接在搜索結(jié)果中優(yōu)先看到來自當(dāng)?shù)卣?、衛(wèi)健、選舉等權(quán)威機構(gòu)的信息。這樣我們就能從源頭上得到靠譜的信息。Google內(nèi)部團隊。這當(dāng)中不得不提到的有兩支團隊:一支是專門的研究團隊,一支是內(nèi)容合規(guī)團隊(enforcementteam)。前者通過對世界各地的具體情況進行「實地考察」來改進個性化搜索質(zhì)量;后者依照Google的政策處理那些系統(tǒng)沒有攔住的違規(guī)內(nèi)容。搜索質(zhì)量評分員(SearchQualityRater)。他們是對搜索質(zhì)量進行E-A-T評級的人,E-A-T評級反映了搜索結(jié)果的專業(yè)性(Expertise)、權(quán)威性(Authoritativeness)和可信度(Trustworthiness);評分員同時也是幫助Google評估我們在搜索行為上實際體驗的人。根據(jù)Google的數(shù)據(jù),目前參與這些工作的評分員有10000多人。P.S.評分員在開始提供評級服務(wù)之前,需要學(xué)習(xí)Google發(fā)布的《搜索質(zhì)量評分者指南》并且通過相應(yīng)考試。整個評估工作也要遵照該《指南》進行。除了以人之智慧補算法之不足之外,Google同樣沒有放棄對算法優(yōu)化的努力。以「網(wǎng)頁的相關(guān)性和可用性」而言,Google擁有多種語言理解系統(tǒng)。這些語言理解系統(tǒng)中既有對應(yīng)拼寫錯誤、同義詞等內(nèi)容系統(tǒng),又有基于AI的系統(tǒng)。通過這些系統(tǒng),Google得以了解與我們搜索最相關(guān)的結(jié)果并進行改善。配合人為主導(dǎo)的并行實驗、實時流量實驗等一系列的工作,最終Google得以保證我們在Google搜索引擎中的實際體驗。根據(jù)Google披露的數(shù)據(jù),2019年他們與搜索質(zhì)量評分者一共進行了38

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論