移動搜索關(guān)鍵技術(shù)_第1頁
移動搜索關(guān)鍵技術(shù)_第2頁
移動搜索關(guān)鍵技術(shù)_第3頁
移動搜索關(guān)鍵技術(shù)_第4頁
移動搜索關(guān)鍵技術(shù)_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、移動搜索關(guān)鍵技術(shù)The Key Technology Of Mobile Search(華中科技大學(xué)電子與信息工程系,武漢430074)摘要:移動搜索是搜索引擎技術(shù)向無線網(wǎng)絡(luò)的拓展,利用先進的移動通信技術(shù)在移動終端上實現(xiàn)搜索引擎 系統(tǒng)。隨著移動終端的普及以及3G時代的來臨,移動搜索技術(shù)逐漸步入人們的視野,并成為人類獲取信 息的重要工具之一,極大的方便了人們的日常學(xué)習(xí)生活。本文簡單介紹了現(xiàn)有的一些移動搜索業(yè)務(wù)以及移 動搜索的幾種關(guān)鍵技術(shù),希望能夠幫助讀者更為簡單直接地了解移動搜索。關(guān)鍵詞:移動搜索;垂直搜索;綜合搜索Abstract: Mobile search is an expansion

2、of search engine technology in wireless networks. It uses advanced mobile communication technology to implement the search engine system on the mobile terminals. With the popularity of the mobile terminals and the coming of 3G era ,mobile search technology has gradually stepped into humans vision .

3、The new technology is becoming one of the most important tools for people to access the information . Of course ,it makes people5 s daily life more convenient. This article has briefly described some of the existing mobile search service, as well as several key technology of mobile search. However,

4、I hope it can help the readers to understand mobile search more simply and directly.Key words: mobile search ; vertical search ; comprehensive search移動搜索概述隨著科技的高速發(fā)展,信息的迅速膨脹,手機已經(jīng)成為了信息傳遞的主要設(shè)備之一。尤 其是近年來手機技術(shù)的不斷完善和功能的增加,利用手機上網(wǎng)也以成為一種獲取信息資源的 主流方式。在這一背景下,移動搜索的概念應(yīng)運而生,國內(nèi)外不少互聯(lián)網(wǎng)公司均看好移動搜 索這一領(lǐng)域。雅虎,Google,百度等傳統(tǒng)搜索引

5、擎也都相繼推出了基于短信和WAP的移動 搜索服務(wù)。毫無疑問,移動搜索將成為未來人們獲取信息的主要工具之一。移動搜索的基本定義移動搜索基本定義:移動搜索是指用戶在移動通信網(wǎng)絡(luò)中,通過移動終端,利用SMS, WAP, IVR等多種特定的搜索方式獲取所需信息的搜索行為。而移動搜素的核心是將搜索 引擎與移動設(shè)備有機結(jié)合,生成符合產(chǎn)品和用戶特點的搜索結(jié)果。移動搜索的分類1)依據(jù)搜索引擎的分類:基于瀏覽器的移動搜索:現(xiàn)代手機里面都內(nèi)置了類似網(wǎng)頁瀏覽器的微瀏覽器(如UC瀏 覽器等), 手機用戶可以通過微瀏覽器來連接互聯(lián)網(wǎng)。基于短信的移動搜索:移動搜索引擎通過短信接收用戶的查詢請求,然后將查詢結(jié)果通 過短信的

6、形式返回給用戶。這種方式可以被所有手機用戶所接受,但是,短信的信息表現(xiàn)能 力很差,提供的信息也非常有限。短信與微瀏覽器相結(jié)合的移動搜索:用戶可以使用移動搜索服務(wù)商的客戶端提交查詢請 求,客戶端會根據(jù)用戶的檢索行為去選擇以微瀏覽器或者短信方式返回查詢結(jié)果。2)依據(jù)搜索內(nèi)容的分類綜合搜索:類似于互聯(lián)網(wǎng)搜索,用戶通過編輯短信或鍵入關(guān)鍵詞進入WAP或直接接入 WEB網(wǎng)絡(luò),對WAP或WEB網(wǎng)絡(luò)上的內(nèi)容進行搜索,搜索引擎根據(jù)一定的規(guī)則將內(nèi)容結(jié)果 與鏈接結(jié)果反饋給用戶終端。這種搜索模式可以看作是互聯(lián)網(wǎng)搜索直接延伸到手機平臺上的 移動搜索模式。垂直搜索:指用戶通過多種接入方式(短信,彩信,WAP,IVR等)提

7、出搜索特定類 型的內(nèi)容或服務(wù)的搜索請求,例如一些音樂,圖片或本地信息等。這樣的搜索模式可以使用 戶進行個性化的搜索定制,更加快速的得到自己需要的信息,此模式的搜索引擎可以更好的 理解用戶的搜索請求,提高搜索的的針對性和準(zhǔn)確性。現(xiàn)有移動搜索業(yè)務(wù)1)AQA應(yīng)答搜索:AQA全稱Any Question Answered,該服務(wù)可以為用戶提供各種問題的 答案,將計算機的自動化搜索和人工搜索很好地整合起來,從而為用戶服務(wù)。該服務(wù)由 英國手機運營服務(wù)商Orange等推出,每回答一個問題,用戶需支付1.76英鎊的費用。2)比價搜索:用戶通過向服務(wù)提供商發(fā)送商品名,就回收到該商品各零售商的不同報價。3)位置搜

8、索:這項服務(wù)提供用戶想知道的位置信息,既可以是了解自己周圍的地圖又可以 是搜索他人的地理位置。4)“空中搜”:該業(yè)務(wù)具有搜索引擎與傳統(tǒng)黃頁兩種功能,是手機搜索引擎的商務(wù)版,能 在手機上搜索到全國大部分省市的企業(yè)、事業(yè)、政府機關(guān)、公共設(shè)施的相關(guān)信息。5)企業(yè)信息搜索,圖片搜索,音樂搜索,新聞搜索,游戲搜索等等移動搜索關(guān)鍵技術(shù)分析移動搜索引擎的基本原理與工作流程1) 綜合搜索綜合搜索實際上是互聯(lián)網(wǎng)搜索引擎在移動終端上的簡單延伸,其結(jié)構(gòu)與通用搜索引擎是 一樣的,只是用戶訪問時將Web頁面轉(zhuǎn)換為WAP頁面。(a)手機進行互聯(lián)網(wǎng)搜索的結(jié)構(gòu)示意圖用戶A網(wǎng)頁轉(zhuǎn)換A 用戶A網(wǎng)頁轉(zhuǎn)換A ?卜網(wǎng)頁數(shù)據(jù)庫在索引數(shù)據(jù)

9、庫(b) WAP搜索結(jié)構(gòu)示意圖2)垂直搜索(c(c)垂直搜索結(jié)構(gòu)示意圖垂直搜索是針對某一行業(yè)的專業(yè)搜索引擎,是對網(wǎng)頁庫中的某類專門的信息進行一次 整合,定向分字段抽取需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。垂直搜索的關(guān)鍵在 于對網(wǎng)頁信息進行結(jié)構(gòu)化信息抽取,即以結(jié)構(gòu)化數(shù)據(jù)為最小單位,將這些數(shù)據(jù)存儲到數(shù)據(jù)庫, 進行進一步的加工處理:去重,分類,分詞,索引,最后以搜索的方式滿足用戶的需求。結(jié)構(gòu)化信息抽取技術(shù)結(jié)構(gòu)化信息抽取技術(shù)主要應(yīng)用于垂直搜索,將網(wǎng)頁中的非結(jié)構(gòu)化的數(shù)據(jù)按照一定的需求 抽取成結(jié)構(gòu)化的數(shù)據(jù)。結(jié)構(gòu)化信息提取技術(shù)主要有兩種方式可以實現(xiàn),模板方式和網(wǎng)頁庫結(jié) 構(gòu)化信息抽取。模板方式:該方式是

10、對特定的網(wǎng)頁進行模板配置,抽取模板內(nèi)設(shè)置好的需要的信息,可 以針對有限個網(wǎng)站進行精確的信息采集。該方式簡單,精確,技術(shù)難度低且方便部署。但是, 該方式需要針對每一個信息源的網(wǎng)站模板進行單獨的設(shè)定,在信息源多樣性的情況下,維護 量巨大。所以這種方式適合少量信息源的信息處理,不是搜索引擎級的應(yīng)用,很難滿足用戶 對查全率的需求。網(wǎng)頁庫結(jié)構(gòu)化抽?。涸摲绞绞遣扇№撁娼Y(jié)構(gòu)分析與智能節(jié)點分析轉(zhuǎn)換的方法,自動抽取 結(jié)構(gòu)化的數(shù)據(jù)。對任意的正常網(wǎng)頁進行抽取,完全自動化,不用對具體網(wǎng)站事先生成模板, 對每個網(wǎng)頁自動實時得生成抽取規(guī)則,完全不需要人工干預(yù)。智能抽取準(zhǔn)確率高,不是機械 的匹配,采用智能分析技術(shù),準(zhǔn)確率能

11、達到98%以上。能保證較快處理速度,由于采用頁 面的智能分析技術(shù),先去除了垃圾塊,降低分析的壓力,是處理速度大大提高。通用性較好, 易于維護,只需設(shè)定參數(shù)、配置相應(yīng)的特征就能改進相應(yīng)的抽取性能;一般的非專業(yè)人員經(jīng) 過簡單培訓(xùn)就能維護。缺點是技術(shù)難度高,前期研發(fā)成本高,周期長。比較適合網(wǎng)頁庫級別 的結(jié)構(gòu)化數(shù)據(jù)采集和搜索的高端應(yīng)用。2.3.信息過濾技術(shù)信息過濾技術(shù)是根據(jù)用戶的興趣或偏好自動地收集和用戶相關(guān)的信息并推薦給用戶的 過程。信息過濾即所謂的信息選擇性傳播,該技術(shù)關(guān)注的是用戶的長期需求。信息過濾技術(shù) 期望為用戶處理大量的信息,對動態(tài)的信息流進行篩選,著重于排除用戶不希望得到的信息, 基于用戶

12、模板從輸入的信息流中濾掉數(shù)據(jù)。在信息過濾中,用戶的需求表示成用戶模板,一 個模板是一個數(shù)據(jù)結(jié)構(gòu),通常包括一組用于描述用戶興趣的主題。對進入系統(tǒng)的信息依據(jù)模 板進行評價,同時將評價結(jié)果返回給用戶,用戶在瀏覽結(jié)果時提供反饋信息并及時更新模板。 1)信息過濾系統(tǒng)的基本組成:信息分析器,用戶模板,過濾過程和學(xué)習(xí)過程。信息分析器:負(fù)責(zé)從信息源獲得信息,對信息進行分析并用適當(dāng)?shù)母袷矫枋?,然后作為輸?信息傳遞給過濾處理模塊,并對該信息進行過濾,只將相關(guān)信息傳遞給用戶。用戶模板:用戶模板負(fù)責(zé)從用戶那收集與其感興趣的信息有關(guān)的顯性以及隱形的各種信息, 并將這些信息作為過濾處理模塊的輸入信息。過濾過程:過濾處理

13、模塊利用描述信息與用戶模板匹配,決定將要傳送給用戶的相關(guān)項。 學(xué)習(xí)過程:用戶會評價剩余信息的相關(guān)性,該評價會被反饋到學(xué)習(xí)部分,學(xué)習(xí)部分會根據(jù)這 些反饋信息更新用戶模板。(d)信息過濾系統(tǒng)基本構(gòu)成2)信息過濾模型:信息過濾中的一個關(guān)鍵步驟是信息與用戶模板的匹配,用戶模板與信息 匹配常用的模型有布爾模型,向量空間模型,潛在語義索引模型,概率模型,神經(jīng)網(wǎng)絡(luò)模型。每種模型首先要解決用戶模板與信息的表示問題,然后在某種表示的基礎(chǔ)上才能進行用 戶模板和信息的相似性的比較,然后再根據(jù)相似性的大小選出和用戶模板匹配的信息傳遞給 用戶。信息有多種格式,為了方便計算機處理,布爾模型和向量空間用索引項描述信息的內(nèi)

14、容。一個索引項可以是一個單詞或是一個短語,不同形式的一條信息統(tǒng)稱為一個信息項,這 樣,一個信息項可以表示為多個索引項的集合。對一個信息項建立索引的過程叫做標(biāo)引或索 引。用戶興趣智能代理在互聯(lián)網(wǎng)上實現(xiàn)用戶偏好的記憶和儲存主要有兩種辦法,一種是將用戶興趣信息存儲 搜索引擎的服務(wù)器上,另一種是將用戶的興趣信息存儲在用戶的個人機器上。在移動互聯(lián)網(wǎng) 中,一般一個手機只被一個用戶使用,所以可以將用戶信息保存在本機,既不會泄露隱私也 不會發(fā)生一機多戶導(dǎo)致興趣記錄紊亂的情況。用戶興趣代理就是信息過濾系統(tǒng)基于搜索引擎 的實現(xiàn)載體。用戶興趣代理的主要作用:1)負(fù)責(zé)用戶模板的建立和更新,每次用戶登錄時,如果用戶模板

15、不存在,那么用戶模板生 成算法會自動生成一個新的用戶模板。2)與用戶的交互,用戶興趣代理接收用戶的反饋,利用更新算法對用戶模板更新。3)對搜索結(jié)果進行過濾Web頁面向WAP頁面的轉(zhuǎn)換技術(shù)移動用戶通進入WAP頁面來訪問Web頁面,由于現(xiàn)在Web頁面和主要是由HTML標(biāo) 記語言,內(nèi)容十分豐富,而WAP頁面僅限于手機顯示,支持的元素遠不如HTML文檔豐富。 直接的標(biāo)記語言轉(zhuǎn)換會出現(xiàn)某些HTML中的標(biāo)簽在WAP中沒有相對應(yīng)的標(biāo)簽的問題,所以 需要先對Web頁面進行一些預(yù)處理,然后進行標(biāo)記語言轉(zhuǎn)換。1)網(wǎng)頁元素的解析及處理:給定一篇HTML網(wǎng)頁,順序整理出容器標(biāo)簽就可以得到對應(yīng)的標(biāo)簽樹框架。而后,整理

16、每個內(nèi)容塊(對應(yīng)標(biāo)簽樹上的一個節(jié)點)中的超鏈標(biāo)簽、圖片標(biāo)簽、重要信息標(biāo)簽,并在標(biāo) 簽樹中對應(yīng)的節(jié)點記錄下來,這樣既有構(gòu)造出了一顆基本的標(biāo)簽樹。對上述標(biāo)簽樹信息做適 當(dāng)?shù)姆治?、整理就可以得到?nèi)容分析過程中需要的一些描述信息。在得到網(wǎng)頁的標(biāo)簽樹后,就可以對取舍哪些標(biāo)簽和內(nèi)容作出具體分析了,根據(jù)WAP標(biāo) 簽元素與Web標(biāo)簽元素的對等關(guān)系,將沒有對等關(guān)系的標(biāo)簽刪除。在進行以上處理后,應(yīng) 該對頁面的布局重新調(diào)整。2)標(biāo)記語言轉(zhuǎn)換技術(shù)一般來說會按照HTML,XHTML,WML的順序?qū)?biāo)記語言進行轉(zhuǎn)換,主要是考慮了如下 幾個原因:XHTML與WML同為需要轉(zhuǎn)換出的語言,將XHTML作為轉(zhuǎn)換的中間步驟,不 僅

17、可以方便XML的轉(zhuǎn)換,還可以作為轉(zhuǎn)換結(jié)果直接輸出。XHTML與WML都符合XML 的語言規(guī)范,嚴(yán)格的語法帶來了轉(zhuǎn)換的便利性。需要轉(zhuǎn)換的頁面是經(jīng)過信息過濾以后的,僅 僅剩下文字和鏈接的頁面,這就不需要在轉(zhuǎn)換時對頁面元素做過多的處理了。元搜索引擎元搜索引擎即為將用戶的查詢請求同時發(fā)給多個獨立的搜索引擎,然后通過對這些搜 索引擎的返回結(jié)果進行匯集、篩選、刪并等優(yōu)化處理后,以統(tǒng)一的格式在界面中集中顯示。 搜索引擎是為彌補傳統(tǒng)搜索引擎的不足而出現(xiàn)的一種輔助檢索工具,有著傳統(tǒng)搜索引擎所不 具備的許多優(yōu)勢。但是,元搜索引擎依賴于數(shù)據(jù)庫選擇技術(shù)、文本選擇技術(shù)、查詢分派技術(shù) 和結(jié)果綜合技術(shù)等。用戶界面的改進、調(diào)

18、用策略的完善、返回信息的整合以及最終檢索結(jié)果 的排序,仍然是未來元搜索引擎研究的重點。(e)元搜索引擎結(jié)構(gòu)圖移動搜索的發(fā)展前景移動搜索是搜索技術(shù)發(fā)展的必然結(jié)果,通過手持設(shè)備或移動終端平臺,將搜索無線化、 移動化,將為長期依賴于互聯(lián)網(wǎng)的搜索引擎服務(wù)的手機用戶,提供兼具WAP、Web等多樣 性的搜索產(chǎn)品。互聯(lián)網(wǎng)搜索帶來的是海量的信息,而移動搜索的主旨確實盡量帶給用戶準(zhǔn)確 的信息。綜合搜索在移動搜索所提供的服務(wù)中,其適合用戶體驗的需求是相對較弱的,因為 綜合搜索難以滿足用戶對信息簡潔、及時、準(zhǔn)確的要求特點,綜合搜索的需求將遠不如垂直 搜索。目前,影響移動搜索的積極因素主要有:廣闊的市場前景,幾乎所有的手機移動用戶都 可以看做是移動搜索業(yè)務(wù)的潛在客戶。移動搜索打破了電腦的線纜約束,讓用戶能通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論