垂直搜索引擎_第1頁(yè)
垂直搜索引擎_第2頁(yè)
垂直搜索引擎_第3頁(yè)
垂直搜索引擎_第4頁(yè)
垂直搜索引擎_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎垂直搜索引擎01簡(jiǎn)介工作模式與通用搜索的區(qū)別數(shù)據(jù)特點(diǎn)特點(diǎn)關(guān)鍵技術(shù)目錄030502040607應(yīng)用價(jià)值發(fā)展趨勢(shì)應(yīng)用領(lǐng)域目錄0908基本信息垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是根據(jù)特定用戶(hù)的特定搜索請(qǐng)求,對(duì)站(頁(yè))庫(kù)中的某類(lèi)專(zhuān)門(mén)信息進(jìn)行深度挖掘與整合后,再以某種形式將結(jié)果返回給用戶(hù)。垂直搜索是相對(duì)通用搜索引擎的信息量大、查詢(xún)不準(zhǔn)確、深度不夠等提出來(lái)的新的搜索引擎服務(wù)模式,通過(guò)針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的、有特定用途的信息和相關(guān)服務(wù)。簡(jiǎn)介簡(jiǎn)介垂直搜索引擎(VerticalSearchEngines),是與綜合(或通用)搜索引擎相對(duì)的一個(gè)概念,就是有針對(duì)性地為某一特定領(lǐng)域、某一特定人群或某一特定需求提供有專(zhuān)門(mén)的信息檢索服務(wù),以滿(mǎn)足用戶(hù)個(gè)性化的信息需求。垂直搜索引擎也常常被稱(chēng)為專(zhuān)業(yè)搜索引擎(SpecialtySearchEngines)、專(zhuān)題搜索引擎(TopicalSearchEngines),是通過(guò)對(duì)專(zhuān)業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行專(zhuān)業(yè)和深入的分析挖掘、過(guò)濾篩選,信息定位為更精準(zhǔn)的專(zhuān)業(yè)搜索,實(shí)際上是搜索引擎的細(xì)分和延伸。

垂直搜索引擎的價(jià)值在于其占有的信息資源的數(shù)量,能否提供全面權(quán)威的行業(yè)信息,能否最大限度擁有行業(yè)資源是垂直搜索引擎發(fā)展的關(guān)鍵。從某種意義上講,行業(yè)門(mén)戶(hù)站是垂直搜索引擎嫡親的父母,同時(shí)也是往往不能分割的有機(jī)整體。數(shù)據(jù)特點(diǎn)數(shù)據(jù)特點(diǎn)(1)數(shù)據(jù)來(lái)源垂直搜索引擎的數(shù)據(jù)來(lái)源有兩個(gè)方面:①來(lái)源于所處行業(yè)的相關(guān)站點(diǎn)。②來(lái)源于自身平臺(tái):來(lái)源于自身平臺(tái)的搜索常被認(rèn)為是“站內(nèi)搜索”。但是,當(dāng)某一平臺(tái)上的信息達(dá)到足夠量大的時(shí)候,其實(shí)就是一種垂直搜索。況且,垂直搜索本身就是從這些行業(yè)站點(diǎn)提取出數(shù)據(jù)的。(2)數(shù)據(jù)特性垂直搜索引擎的數(shù)據(jù)傾向于結(jié)構(gòu)化和格式化。例如,在某個(gè)購(gòu)物類(lèi)的垂直搜索引擎上輸入“MP3”就會(huì)出現(xiàn)該產(chǎn)品的相關(guān)屬性,如內(nèi)存、尺寸、大小、電池型號(hào)、價(jià)格、生產(chǎn)廠家等相關(guān)技術(shù)屬性,有的還提供比價(jià)服務(wù)。在某餐飲搜索引擎的高級(jí)搜索針對(duì)一家餐館的搜索屬性設(shè)置多達(dá)300個(gè)選項(xiàng),把想到和沒(méi)想到都列出來(lái)了,這就把搜索服務(wù)專(zhuān)業(yè)化、細(xì)致化、個(gè)性化了

。工作模式工作模式就垂直搜索引擎的工作模式來(lái)說(shuō),很多垂直搜索引擎是依靠人工或者半人工的方式來(lái)提取結(jié)構(gòu)化信息的,但近年智能化的非結(jié)構(gòu)化信息提取技術(shù)取得了重大進(jìn)展,在一些領(lǐng)域也得到了有效應(yīng)用。具體而言,垂直搜索引擎的Spider更加專(zhuān)業(yè)化和可定制化,其能夠定向采集與垂直搜索范圍相關(guān)的頁(yè),對(duì)內(nèi)容相關(guān)的以及適于進(jìn)一步處理的頁(yè)進(jìn)行優(yōu)先采集。其信息采集可以通過(guò)人工設(shè)定和頁(yè)分析等方式共同進(jìn)行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶(hù)。比如,購(gòu)物搜索引擎的整體工作流程大致如下:在Spider抓取頁(yè)后,對(duì)頁(yè)中的商品信息進(jìn)行抽取,抽取出商品名稱(chēng)、價(jià)格、簡(jiǎn)介等信息,然后對(duì)信息進(jìn)行比較、去重、分類(lèi),最后提供給用戶(hù)搜索,還可以通過(guò)分析挖掘?yàn)橛脩?hù)提供市場(chǎng)行情報(bào)告。

特點(diǎn)特點(diǎn)①實(shí)時(shí)性:垂直搜索引擎需要獲取的信息來(lái)自于某一特定領(lǐng)域,這比起通用搜索引擎漫無(wú)邊際的信息抓取,有一個(gè)非常大的優(yōu)勢(shì),那就是信息的實(shí)時(shí)性。由于互聯(lián)上的信息量非常巨大,通用搜索引擎的數(shù)據(jù)更新周期短則十幾天,長(zhǎng)則幾個(gè)月,而垂直搜索引擎的數(shù)據(jù)更新完全可以以秒為單位。②數(shù)據(jù)挖掘分析、BI、報(bào)表:行業(yè)的歷史發(fā)展、最新動(dòng)向、趨勢(shì)都是行業(yè)從業(yè)人員非常的話(huà)題。垂直搜索引擎集中了行業(yè)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的商務(wù)智能分析,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增值服務(wù)。③個(gè)性化、社會(huì)化;查詢(xún)服務(wù)只是垂直搜索引擎的一部分,垂直搜索引擎在用戶(hù)的個(gè)性化方向的發(fā)展非常重要。垂直搜索引擎不能只提供一個(gè)窗口,它應(yīng)該是一個(gè)用戶(hù)高度參與交互的社會(huì)化平臺(tái)。這不光是用戶(hù)粘度、忠誠(chéng)度的問(wèn)題,更為重要的是,垂直搜索引擎需要能夠獲取并且分析用戶(hù)的偏好信息,從而提供更加完善而且準(zhǔn)確的數(shù)據(jù)服務(wù)。④智能化語(yǔ)義:語(yǔ)義(semanticweb)將有可能成為下一代互聯(lián),此類(lèi)絡(luò)上的數(shù)據(jù)和信息將被計(jì)算機(jī)程序所理解。這將為垂直搜索引擎提供一個(gè)巨大的機(jī)會(huì),Spider程序如果能理解絡(luò)上的數(shù)據(jù),將對(duì)信息的收集和整理更加準(zhǔn)確和專(zhuān)業(yè),搜索服務(wù)的查全率和查準(zhǔn)率將更高。⑤多元化查詢(xún):目前的搜索引擎,都只局限于關(guān)鍵字搜索,其中主要的原因是,對(duì)用戶(hù)的查詢(xún)需求無(wú)法建模,無(wú)法模式化。而關(guān)鍵字搜索帶來(lái)的問(wèn)題是,搜索結(jié)果過(guò)多,并且不準(zhǔn)確。與通用搜索的區(qū)別與通用搜索的區(qū)別(1)信息處理的區(qū)別垂直搜索引擎和普通的頁(yè)搜索引擎的最大區(qū)別是對(duì)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比頁(yè)搜索是以頁(yè)為最小單位,基于視覺(jué)的頁(yè)塊分析是以頁(yè)塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn)一步的加工處理,如去重、分類(lèi)等,最后分詞、索引再以搜索的方式滿(mǎn)足用戶(hù)的需求。舉個(gè)例子來(lái)說(shuō)明會(huì)更容易理解,比如購(gòu)物搜索引摹,整體流程大致如下:抓取頁(yè)后,對(duì)頁(yè)商品信息進(jìn)行抽取,抽取出商品名稱(chēng)、價(jià)格、簡(jiǎn)介……甚至可以進(jìn)一步將筆記本式計(jì)算機(jī)簡(jiǎn)介細(xì)分成品牌、型號(hào)、CPU、內(nèi)存、硬盤(pán)、顯示屏……然后對(duì)信息進(jìn)行清洗、去重、分類(lèi)、分析比較、數(shù)據(jù)挖掘,最后通過(guò)分詞索引提供用戶(hù)搜索、通過(guò)分析挖掘提供市場(chǎng)行情報(bào)告。在整個(gè)過(guò)程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶(hù)。(2)信息采集的區(qū)別垂直搜索引擎技術(shù)同信息采集技術(shù)不同的是,信息采集主要是將采集的信息導(dǎo)入本地?cái)?shù)據(jù)庫(kù),而垂直搜索引擎主要是以頁(yè)的形式展現(xiàn)給用戶(hù)。關(guān)鍵技術(shù)關(guān)鍵技術(shù)由于垂直搜索引擎服務(wù)具有其自身的特性,因此其技術(shù)要求特點(diǎn)上與通用搜索引擎有很多不同之處,主要有四大關(guān)鍵技術(shù)。(1)聚焦、實(shí)時(shí)和可管理的頁(yè)采集技術(shù)一般互聯(lián)搜索面向全信息,采集的范圍廣、數(shù)量大,但往往由于更新周期的要求,采集的深度或說(shuō)層級(jí)比較淺,采集動(dòng)態(tài)頁(yè)優(yōu)先級(jí)比較低,因而被稱(chēng)為水平搜索。而垂直搜索帶有專(zhuān)業(yè)性或行業(yè)性的需求和目標(biāo),所以只對(duì)局部來(lái)源的頁(yè)進(jìn)行采集,采集的頁(yè)數(shù)量適中。但其要求采集的頁(yè)全面,必須達(dá)到更深的層級(jí),采集動(dòng)態(tài)頁(yè)的優(yōu)先級(jí)也相對(duì)較高。在實(shí)際應(yīng)用中,垂直搜索的頁(yè)采集技術(shù)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動(dòng)態(tài)頁(yè)采集,即采集技術(shù)要能達(dá)到更加聚焦、縱深和可管控的需求,并且頁(yè)信息更新周期也更短,獲取信息更及時(shí)。(2)從非結(jié)構(gòu)化內(nèi)容到結(jié)構(gòu)化數(shù)據(jù)的頁(yè)解析技術(shù)水平搜索引擎僅能對(duì)頁(yè)的標(biāo)題和正文進(jìn)行解析和提取,但不提供其時(shí)間、來(lái)源、作者及其他元數(shù)據(jù)的解析和提取。由于垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時(shí)間、來(lái)源、作者及其他元數(shù)據(jù)解析,包括對(duì)頁(yè)中特定內(nèi)容的提取。應(yīng)用價(jià)值應(yīng)用價(jià)值垂直搜索從海量的商訊中直接選出用戶(hù)最需要的供求信息、買(mǎi)(賣(mài))家背景資料、交易方式、服務(wù)跟蹤等,它既是大量相關(guān)產(chǎn)品、企業(yè)信息的展示平臺(tái),又是行業(yè)站、電子商務(wù)的聚合平臺(tái),中小企業(yè)通過(guò)它可獲得傳統(tǒng)門(mén)戶(hù)站、通用搜索無(wú)法提供的閉合式絡(luò)體驗(yàn),這種附加值就是細(xì)分市場(chǎng)巨大的商業(yè)價(jià)值所在??偨Y(jié)起來(lái),垂直搜索引擎在企業(yè)中的應(yīng)用價(jià)值包括:1.整合企業(yè)內(nèi)外資源,打造企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的核心引擎企業(yè)的競(jìng)爭(zhēng)情報(bào)信息既包括外部的互聯(lián)信息、商業(yè)數(shù)據(jù)庫(kù)信息等,也包括內(nèi)部的辦公文檔資料、內(nèi)部交流信息等。垂直搜索引擎是整合這些內(nèi)外信息資源的有效手段之一,在資源整合的基礎(chǔ)上,形成以情報(bào)規(guī)劃、情報(bào)采集、情報(bào)加工、情報(bào)服務(wù)、評(píng)估反饋為全生命周期的、完善的、統(tǒng)一的企業(yè)競(jìng)爭(zhēng)情報(bào)平臺(tái),為企業(yè)的風(fēng)險(xiǎn)預(yù)警和決策支持提供信息服務(wù)。2.高效采集和組織管理企業(yè)內(nèi)外門(mén)戶(hù)信息,使信息共享更加便捷、有序隨著企業(yè)信息化的發(fā)展和深入,為了提高企業(yè)內(nèi)部、企業(yè)和客戶(hù)、企業(yè)和供應(yīng)商之間的信息傳遞和共享速度,加速企業(yè)的業(yè)務(wù)進(jìn)程,大部分企業(yè)(特別是分支機(jī)構(gòu)較多的大型集團(tuán)性企業(yè))都建立了內(nèi)外服務(wù)門(mén)戶(hù),以便通過(guò)垂直搜索引擎高效地采集內(nèi)外門(mén)戶(hù)信息,為企業(yè)職工、客戶(hù)、供應(yīng)商提供統(tǒng)一的信息檢索入口,并通過(guò)權(quán)限控制實(shí)現(xiàn)安全的檢索服務(wù),使得信息的傳遞和共享更加便捷和有序。

應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索、購(gòu)物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業(yè)、各類(lèi)信息都可以進(jìn)一步細(xì)化成各類(lèi)垂直搜索引擎。(一)音樂(lè)搜索除必應(yīng)外,各搜索引擎都提供了音樂(lè)搜索服務(wù),支持各種格式的音樂(lè)文件的搜索,并提供了各種榜單、音樂(lè)專(zhuān)題和挑歌功能。(二)視頻搜索除了谷歌,其他的搜索引擎都有其獨(dú)立的視頻搜索頁(yè)面,并提供了視頻分類(lèi)搜索。(三)新聞搜索各搜索引擎都提供了分類(lèi)搜索,例如,百度提供了國(guó)際、國(guó)內(nèi)、體育、娛樂(lè)等16個(gè)分類(lèi)的新聞搜索。(四)圖書(shū)搜索目前僅有百度與谷歌提供了圖書(shū)搜索的服務(wù),因?yàn)樯婕暗桨鏅?quán)的關(guān)系,只有那些已不再受版權(quán)保護(hù)或出版商已發(fā)展趨勢(shì)發(fā)展趨勢(shì)隨著新技術(shù)的發(fā)展和門(mén)檻的降低,垂直搜素引擎將向著以下適應(yīng)不同用戶(hù)需求的方向不斷發(fā)展。(1)目錄精細(xì)化方向發(fā)展。由于垂直搜索引擎相對(duì)于綜合搜素引擎的最大優(yōu)勢(shì),是對(duì)信息進(jìn)行深度的、精細(xì)化的處理。與早期的分類(lèi)搜索引擎相似,但垂直搜素引擎只選定了某一特定行業(yè)或某一主題進(jìn)行目錄的細(xì)化分類(lèi),結(jié)合機(jī)器抓取行業(yè)相關(guān)站點(diǎn)的信息提供專(zhuān)業(yè)化的搜素服務(wù)。這種專(zhuān)業(yè)化的分類(lèi)目錄,很容易讓用戶(hù)迅速知道自己要找的是什么,并且按目錄點(diǎn)擊就能找到。未來(lái)的垂直搜素引擎將會(huì)更加精細(xì)的劃分不同的行業(yè),用戶(hù)想要什么就可以得到什么。(2)深度挖掘分析元數(shù)據(jù)。其特點(diǎn)是:元數(shù)據(jù)模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論