搜索引擎的終極使命 關(guān)鍵詞云端之旅_第1頁
搜索引擎的終極使命 關(guān)鍵詞云端之旅_第2頁
搜索引擎的終極使命 關(guān)鍵詞云端之旅_第3頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索引擎的終極使命關(guān)鍵詞云端之旅

當(dāng)你向互聯(lián)網(wǎng)上傳一個(gè)頁面,來自世界各地的無數(shù)“蜘蛛”便會(huì)蜂擁而至。它們抓取并復(fù)制你的網(wǎng)頁,跟蹤著網(wǎng)頁中的鏈接,悄悄地爬上更多的頁面,用觸角將它們納入索引數(shù)據(jù)庫。數(shù)據(jù)庫像轟鳴的機(jī)器,拆解網(wǎng)頁上的文字內(nèi)容、標(biāo)記關(guān)鍵詞的位置、字體和顏色,并生成龐大的表格。這時(shí),你輸入一個(gè)單詞,點(diǎn)擊Google或百度上的“搜索”按鈕,它會(huì)在0.2秒內(nèi)得到響應(yīng),帶著單詞奔向索引數(shù)據(jù)庫的每個(gè)神經(jīng)末梢,檢索到所有包含搜索詞的網(wǎng)頁,依據(jù)它們的瀏覽次數(shù)與關(guān)聯(lián)性等一系列算法確定網(wǎng)頁級(jí)別、排列出順序,最終按你期望的格式呈現(xiàn)在網(wǎng)頁上。這就是一個(gè)“關(guān)鍵詞”的云端之旅。在過去的10多年里,類似的旅程總共進(jìn)行過數(shù)十萬億次。它催生了搜索引擎的先驅(qū)Overture,成就了本世紀(jì)最早期的創(chuàng)新明星Google,還有Yandex、Navar和百度等來自全球各地的Google效仿者。它讓搜索引擎成為人們最依賴的互聯(lián)網(wǎng)工具,以及推動(dòng)人類信息自由流動(dòng)的傳福音者……但現(xiàn)在,這一切可能都不再重要了。設(shè)想一下,當(dāng)你同時(shí)打開RSS訂閱工具、Twitter(新浪微博)和Facebook(開心網(wǎng))坐在電腦前的時(shí)候,你更傾向于用哪種方式獲得信息?那些通過社交工具推送到你面前的內(nèi)容,是不是通常比你主動(dòng)搜索的信息更有價(jià)值?你搜索“美洲豹最便宜的價(jià)格,”得到的結(jié)果是車還是棒球桿?如果你對(duì)騰訊與360的戰(zhàn)爭(zhēng)完全沒興趣的話,在你搜索“周鴻祎”的時(shí)候,真的一定希望“馬化騰”跳出來嗎?這就是當(dāng)下的搜索引擎在幾何級(jí)網(wǎng)頁數(shù)量爆炸時(shí)面臨的困境:即便搜索引擎優(yōu)化(SEO)工具越來越普遍地被網(wǎng)頁設(shè)計(jì)者們純熟地應(yīng)用,但它仍然不能確保人們?cè)诘谝粫r(shí)間搜索到他們需要的信息——甚至,成功幾率越來越低?!澳壳吧先f億的網(wǎng)頁,其中大約有250億的頁面可被檢索,有可能出現(xiàn)在用戶搜索結(jié)果里的頁面,最多占5%,未來幾年這個(gè)數(shù)字甚至?xí)档偷?%以下,”微軟亞洲研究院常務(wù)副院長(zhǎng)馬維英說。當(dāng)下的搜索引擎技術(shù)就像圖書館檢索那樣為所有的書建立檢索碼,但最后有可能帶給用戶的價(jià)值越來越少——它被持續(xù)膨脹的網(wǎng)頁數(shù)量稀釋了。那么,未來人們需要什么樣的搜索引擎?Google試圖提供最新的解決方案是:超快速的自動(dòng)搜索。Google首席執(zhí)行官施密特在最近的一次演講中提醒人們永遠(yuǎn)不要低估速度對(duì)搜索的重要性。他還認(rèn)為,搜索最終將不僅僅是搜索網(wǎng)頁,而是個(gè)人的幾乎所有信息——包括電子郵件、音樂和你關(guān)注的話題。在得到你的允許后,它將成為你專屬你個(gè)人的搜索。這似乎解決了搜索引擎的個(gè)性化需求和匹配問題,但Google未曾真正提及的是:與任何一類以“你”為中心的媒介相同,“你搜索”需要建立在社交網(wǎng)絡(luò)化的基礎(chǔ)之上——例如你搜索到的內(nèi)容被你的朋友推薦,它會(huì)在搜索結(jié)果中得到提升,從而進(jìn)入你個(gè)人搜索的優(yōu)先級(jí)。在這個(gè)過程中,朋友的“頂”就進(jìn)入了搜索引擎,成為整個(gè)搜索的一部分。但奉邏輯學(xué)與數(shù)學(xué)為宗教的Google卻并不擅長(zhǎng)社交網(wǎng)絡(luò)領(lǐng)域——它甚至站在全球最大社交網(wǎng)站Facebook的對(duì)立面。讓搜索“社交化”意味著賦予搜索引擎社會(huì)學(xué)和心理學(xué)的屬性,而這會(huì)改變Google的基本邏輯。事實(shí)上,搜索引擎領(lǐng)域邏輯更替的核心是:搜索引擎將越來越通曉人類的語言和意圖,為用戶抓取他們最想知道的網(wǎng)頁內(nèi)容,甚至能識(shí)別語音、圖像及表情等非文本材料——不但返回更精確的文本結(jié)果,還包括大量的多媒體內(nèi)容。越來越多中小型公司試圖沿著這條道路證明Google代表的當(dāng)下“客觀主義”搜索技術(shù)的簡(jiǎn)陋:當(dāng)你在一家名為Powerset的搜索引擎網(wǎng)站搜索“誰曾打敗過安德烈·阿加西(AndreAgassi,美國著名職業(yè)網(wǎng)球運(yùn)動(dòng)員)”的時(shí)候,呈現(xiàn)在第一位的搜索結(jié)果是另一位網(wǎng)球運(yùn)動(dòng)員皮特·桑普拉斯(PeteSampras)的頁面。而在Google上,最前面的結(jié)果仍然是阿加西的個(gè)人信息。如果在另一家搜索引擎Cognition的頁面上輸入相關(guān)的法律和訴訟問題,也能得到相關(guān)條款的精確回應(yīng)。這就是人們通常所謂的“語義搜索”,但割據(jù)的小型語義搜索網(wǎng)站采集的信息量有限,并不足以在全面抗衡Google這樣的巨頭。但它們被召集在一面旗幟下,意義就完全不同了。這個(gè)“召集者”不是別人,正是在互聯(lián)網(wǎng)時(shí)代落寞許久的巨頭微軟。在收購雅虎的交易失敗后,微軟對(duì)互聯(lián)網(wǎng)和搜索引擎的布局走向了一條隱蔽但頗具技巧的道路。2008年7月,微軟宣布收購上文中提到的語義搜索引擎Powerset。緊接著又推出了購物比較引擎LiveCashback、旅游搜索引擎Farecast以及健康搜索引擎等基于語義的搜索分支。2009年6月微軟發(fā)布全新搜索品牌Bing之后,它們又被整合進(jìn)入Bing的框架體系。但它們尚未構(gòu)成一個(gè)完整的搜索產(chǎn)品。這是因?yàn)檎Z義搜索技術(shù)的處理能力和速度仍是主要缺點(diǎn),有時(shí)甚至需要長(zhǎng)達(dá)20秒才能分析完一個(gè)頁面。但微軟的不同在于,它有能力投資更大型的服務(wù)器集群,這使語義搜索成為微軟在搜索引擎領(lǐng)域樹立的壁——當(dāng)然,你也可以把它看作微軟搜索引擎計(jì)劃的PlanB。不容忽視的是,支持微軟在語義搜索領(lǐng)域有望搶先獲得一席之地的,是它背后的基礎(chǔ)研究力量。在基礎(chǔ)的計(jì)算科學(xué)領(lǐng)域,語義搜索并非一個(gè)嶄新的話題。至少在微軟內(nèi)部,圍繞它的研究至少已經(jīng)有10多年的歷史。而現(xiàn)在,是它們集中爆發(fā)并轉(zhuǎn)化為現(xiàn)實(shí)產(chǎn)品的時(shí)候了?!氨M管人們不該讓科學(xué)家預(yù)測(cè)一項(xiàng)研究計(jì)劃轉(zhuǎn)化為現(xiàn)實(shí)產(chǎn)品的周期有多長(zhǎng),但是我們?cè)谒阉饕骖I(lǐng)域的多年基礎(chǔ)研究,正好到了收獲果實(shí)的時(shí)候,因?yàn)槿藗儗?duì)搜索的需求正在發(fā)生變化,這就是你現(xiàn)在看到的一切?!蔽④浫蚋呒?jí)副總裁里克·雷斯特(RickRashid)對(duì)《環(huán)球企業(yè)家》說?!靖兄阉鳌恐辽僭谀壳埃④浵嘈潘茉谡Z義搜索上扳回一局的原因,是因?yàn)樗阉饕婕夹g(shù)的門檻并非輕易地能被任何玩家企及。在雷斯特看來,搜索引擎的技術(shù)至少在四個(gè)方面設(shè)置了門檻,并把大量試圖覬覦這一領(lǐng)域的玩家過濾在了最終的游戲之外:其一是服務(wù)器抓取數(shù)據(jù)的能力,它將不僅僅來自普通網(wǎng)頁,還將來自各類垂直的數(shù)據(jù)庫與社交網(wǎng)站中的關(guān)鍵信息;其二是在幾何級(jí)增長(zhǎng)的互聯(lián)網(wǎng)數(shù)據(jù)和信息爆炸面前維系處理它們的速度;其三是巨額投資在全球各地建設(shè)大規(guī)模的服務(wù)器集群;最后一點(diǎn),是能追蹤分析用戶的行為與心理,通曉用戶的意圖和心理?!岸@也恰恰是語義搜索的基礎(chǔ),”雷斯特對(duì)本刊說。而有了龐大的服務(wù)器集群,也能夠保證處理幾何級(jí)增長(zhǎng)信息的速度,這種能感知人們輸入語言意圖的“智慧搜索”,又將如何實(shí)現(xiàn)?微軟給出的答案是:重新制定搜索引擎的規(guī)則。“搜索引擎必須了解到底需要在網(wǎng)上完成什么樣的任務(wù),我們現(xiàn)在需要看到的是一個(gè)任務(wù),然后幫助用戶做出決策并采取行動(dòng),而不是給用戶十個(gè)鏈接再讓他們逐個(gè)打開去尋找信息是否有用,”微軟亞洲研究院常務(wù)副院長(zhǎng)馬維英對(duì)《環(huán)球企業(yè)家》說,“這有機(jī)會(huì)對(duì)搜索的格局產(chǎn)生顛覆式的創(chuàng)新。”這意味著當(dāng)下搜索引擎的原理從一開始就被打破了——搜索的起點(diǎn)將不再是關(guān)鍵詞,而是一個(gè)包含著關(guān)鍵詞的短文本和信息群,機(jī)器需要通過對(duì)它的分析和判斷,再排列出相應(yīng)的文本和網(wǎng)頁順序,推送到用戶的瀏覽器上。也就是說,必應(yīng)(Bing)將更像是一個(gè)路由器:它了解用戶的搜索目的,把目的與任務(wù)結(jié)合起來,以更多的搜索表現(xiàn)形式,理解搜索目的,抽取出所有的知識(shí),把知識(shí)按照目的組織起來,甚至提供一個(gè)新的搜索生態(tài)系統(tǒng)。它對(duì)研究人員來說是完全不同的工作流程。傳統(tǒng)互聯(lián)網(wǎng)搜索的最小排序單元是網(wǎng)頁,但當(dāng)搜索的對(duì)象(entity)從網(wǎng)頁轉(zhuǎn)移到某一個(gè)人、事物和現(xiàn)象的時(shí)候,盡管搜索出結(jié)果仍然是網(wǎng)頁,但它需要機(jī)器對(duì)相關(guān)的內(nèi)容進(jìn)行知識(shí)抽取、整合并總結(jié),以一套完整的框架性結(jié)構(gòu)的呈現(xiàn)在網(wǎng)頁上。其中,搜索與社交網(wǎng)絡(luò)的結(jié)合,以及專業(yè)問答類社區(qū)可能會(huì)發(fā)揮更重要的價(jià)值。至少在微軟內(nèi)部,實(shí)現(xiàn)這一切并不容易。搜索團(tuán)隊(duì)必須滲透到微軟研究院的基礎(chǔ)架構(gòu)、機(jī)器學(xué)習(xí)、自然語言等領(lǐng)域的大量核心資源當(dāng)中。至少,它得允許研究員和工程師輕松地修改代碼,這是在微軟第一代搜索引擎的架構(gòu)中難以實(shí)現(xiàn)的。以微軟即將發(fā)布的“學(xué)術(shù)搜索”為例:它旨在幫助用戶快速找到某個(gè)學(xué)術(shù)研究領(lǐng)域內(nèi)的頂尖學(xué)者、學(xué)術(shù)會(huì)議和期刊,獲得一個(gè)學(xué)術(shù)領(lǐng)域的興趣與發(fā)展的詳細(xì)信息,發(fā)現(xiàn)某個(gè)研究領(lǐng)域的學(xué)術(shù)論文和學(xué)術(shù)新星。它是完全建立在“對(duì)象”基礎(chǔ)上的搜索,甚至可以搜索研究人員之間的關(guān)系、論文的共同作者,以及哪所院校在這某個(gè)領(lǐng)域研究最出色,過去五年哪些機(jī)構(gòu)排名上升等相當(dāng)“瑣碎”的信息——只要你向搜索引擎提出這些問題。更現(xiàn)實(shí)的應(yīng)用是微軟的中文旅游搜索——它沒有抓取浩如煙海的旅游網(wǎng)頁信息,而是將抓取的對(duì)象鎖定在社交網(wǎng)站和個(gè)人博客上的20多萬篇網(wǎng)友游記,從中提煉出超過3萬個(gè)熱門景點(diǎn)的旅游狀況。當(dāng)用戶提出針對(duì)某一景點(diǎn)的旅游問題時(shí),它會(huì)自動(dòng)抽取相應(yīng)的信息,組合答案呈現(xiàn)給用戶。它還與必應(yīng)(Bing)地圖相結(jié)合,鼓勵(lì)網(wǎng)友上傳旅游路線和圖片,創(chuàng)建旅行計(jì)劃,以期進(jìn)一步豐富旅游搜索的信息資源和語義庫。“它會(huì)提供給你最終的答案,直接找出答案的結(jié)果,而且完全不同于社區(qū)問答類產(chǎn)品,是搜索的結(jié)果,”微軟亞洲研究院院長(zhǎng)洪小文對(duì)《環(huán)球企業(yè)家》說。而這種顛覆式的數(shù)據(jù)挖掘、知識(shí)提取與算法邏輯,甚至使人們對(duì)多媒體的感知也可以通過搜索的形式呈現(xiàn)。微軟研究院還開發(fā)了一個(gè)可擴(kuò)展的解決方案,通過索引超過兩百萬張網(wǎng)頁圖片,建立了一個(gè)名為MindFinder的系統(tǒng),可以實(shí)現(xiàn)高效、基于素描的圖像尋回——這意味著你使用任何一種觸屏數(shù)字設(shè)備的時(shí)候,可以用簡(jiǎn)單的手勢(shì)勾勒某個(gè)事物的草圖——它將被視為搜索的指令,然后在屏幕上呈現(xiàn)出你預(yù)期中的畫面。你一動(dòng)念頭,搜索結(jié)果就會(huì)冒出來?!舅阉骷捶?wù)】盡管以語義搜索為代表的智能化未來充滿了想象力,但它卻并非下一代搜索引擎的終極使命。至少在微軟看來,搜索引擎并不一定局限在“必應(yīng)”(Bing)的搜索框當(dāng)中??纯此恼Z義搜索實(shí)驗(yàn)?zāi)茉赥witter上發(fā)生些什么:在全球已有1.45億注冊(cè)用戶的Twitter每天承載著9000多萬次的更新和超過8億次的搜索——它已經(jīng)成為世界上全面的和鮮活的數(shù)據(jù)庫,也是政府、企業(yè)和公共機(jī)構(gòu)體察輿情的重要來源。但這些Tweets(指Twitter上的用戶言論)中有很大的比例是毫無意義的空話和垃圾內(nèi)容,且夾雜著各種縮寫和不規(guī)范語言,這導(dǎo)致傳統(tǒng)的關(guān)鍵字搜索所返回的內(nèi)容列表,其分析價(jià)值相當(dāng)有限。而語義搜索能對(duì)海量Tweets和大規(guī)模用戶之間的聯(lián)系進(jìn)行分析,提取關(guān)鍵信息。當(dāng)你輸入“BarackObama”(美國總統(tǒng)奧巴馬)的時(shí)候,它能自動(dòng)統(tǒng)計(jì)出數(shù)十億條Twitter信息中對(duì)奧巴馬的“正面”(positive)和“負(fù)面”(negative)評(píng)價(jià)的比例,并列出諸如“聰明”、“善良”、“決斷”、“吝嗇”和“愚蠢”等一系列用戶形容奧巴馬的最頻繁的關(guān)鍵詞。這意味著搜索引擎本身不僅以搜索框的形式出現(xiàn),還可以化身成一種互聯(lián)網(wǎng)服務(wù)的工具?!爸挥挟?dāng)搜索引擎能夠被開發(fā)出更多應(yīng)用的時(shí)候,萬維網(wǎng)才會(huì)被帶到下一個(gè)時(shí)代,”微軟全球高級(jí)副總裁雷斯特對(duì)《環(huán)球企業(yè)家》說。而社交網(wǎng)站的搜索開發(fā)顯然是其中的一個(gè)方向——它不僅可以提升搜索本身在當(dāng)下的重要性,也符合語義搜索的趨勢(shì)需要。維基百科創(chuàng)始人吉米·威爾斯(JimmyWales)曾試圖創(chuàng)建一個(gè)結(jié)合用戶意志和語義關(guān)聯(lián)的搜索引擎網(wǎng)站W(wǎng)ikiaSearch(請(qǐng)于參看《我愛維基》),但后來放棄了。他曾表示過未來的搜索形態(tài)可能分散在各種互聯(lián)網(wǎng)的角落里,而不是搜索框。而據(jù)稱Facebook也試圖將其龐大的數(shù)據(jù)源進(jìn)行全面探索,以結(jié)構(gòu)化的數(shù)據(jù)和開放圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論