垂直搜索引擎技術(shù)指標_第1頁
垂直搜索引擎技術(shù)指標_第2頁
垂直搜索引擎技術(shù)指標_第3頁
垂直搜索引擎技術(shù)指標_第4頁
垂直搜索引擎技術(shù)指標_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、垂直搜索引擎技術(shù)指標一、什么是垂直搜索 垂直搜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。 垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對網(wǎng)頁信息進行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進行進一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。整個過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)

2、化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。 垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索幾乎各行各業(yè)各類信息都可以進一步細化成各類的垂直搜索引擎。二、垂直搜索技術(shù)概述 垂直搜索技術(shù)主要分為兩個層次:模板級和網(wǎng)頁庫級。 模板級是針對網(wǎng)頁進行模板設(shè)定或者自動生成模板的方式抽取數(shù)據(jù),對網(wǎng)頁的采集也是針對性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求,優(yōu)點是快速實施、成本低、靈活性強,缺點是后期維護成本高,信息源和信息量小。 網(wǎng)頁庫級就是在信息源數(shù)量上、數(shù)據(jù)容量上檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁庫

3、搜索引擎級別的要求,和模板方式最大的區(qū)別是對具體網(wǎng)頁不依賴,可針對任意正常的網(wǎng)頁進信息采集信息抽取。這就導(dǎo)致這種方式數(shù)據(jù)容量上和模板方式有質(zhì)的區(qū)別,但是其靈活性差、成本高。當然模板方式和網(wǎng)頁庫級的方式不是對立的,這兩者對于垂直搜索引擎來說是相互補充的,因為技術(shù)只是手段,目的是切反用戶之需。本文談及的技術(shù)主要是指網(wǎng)頁庫級別垂直搜索引擎技術(shù)。下圖為垂直搜索引擎結(jié)構(gòu)的拓撲圖。三、垂直搜索引擎的主要技術(shù)指標、信息采集技術(shù): 垂直搜索引擎spider和網(wǎng)頁庫的spider相比應(yīng)該是更加專業(yè),可定制化。可定向性的采集和垂直搜索范圍相關(guān)的網(wǎng)頁忽略不相關(guān)的網(wǎng)頁和不必要的網(wǎng)頁,選擇內(nèi)容相關(guān)的以及適合做進一步處理

4、的網(wǎng)頁深度優(yōu)先采集、對頁面有選擇的調(diào)整更新頻率,采集可通過人工設(shè)定網(wǎng)址和網(wǎng)頁分析url方式共同進行。垂直搜索對信息的更新有著特別的要求,根據(jù)這些特點可以從以下幾點考慮1.信息源的穩(wěn)定性(不能讓信息源網(wǎng)站感覺到spider的壓力)2.抓取的成本問題3.對用戶體驗改善程度。根據(jù)以上幾點制定一種比較好的策略,要做到恰到好處。策略上可以評估網(wǎng)站/網(wǎng)頁更新的系數(shù)、網(wǎng)站/網(wǎng)頁的重要系數(shù)、用戶點擊系數(shù)(或曝光系數(shù))、網(wǎng)站穩(wěn)定系數(shù),根據(jù)這些系數(shù)來確定對這些網(wǎng)站/網(wǎng)頁更新的頻率。再由于新信息和更新了的信息list頁面前面或者首頁,所以對網(wǎng)頁進行很好的分級可以以低成本很好的解決更新問題,系數(shù)比較低的網(wǎng)頁一月upd

5、ate一次,稍微高點的一周update一次、中等的幾天到一天一次、高的幾小時到幾分鐘一次。類似搜索引擎的大庫、周庫、日庫,小時庫聚焦、實時和可管理一般互聯(lián)網(wǎng)搜索面向全網(wǎng)信息,采集的范圍廣、數(shù)量大,但往往由于更新周期的要求,采集的深度或說層級比較淺,采集動態(tài)網(wǎng)頁優(yōu)先級比較低,因而被稱為水平搜索。而垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標,所以只對局部來源的網(wǎng)頁進行采集,采集的網(wǎng)頁數(shù)量適中。但其要求采集的網(wǎng)頁全面,必須達到更深的層級,采集動態(tài)網(wǎng)頁的優(yōu)先級也相對較高。在實際應(yīng)用中,垂直搜索的網(wǎng)頁采集技術(shù)能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復(fù)雜的動態(tài)網(wǎng)頁采集,即采集技術(shù)要能達到更加聚焦

6、、縱深和可管控的需求,并且網(wǎng)頁信息更新周期也更短,獲取信息更及時。一般信息采集軟件(爬蟲)的基本結(jié)構(gòu)包含以下模塊:(1)保存種子的url和待取的url的數(shù)據(jù)結(jié)構(gòu)。(2)保存已抓取過的url的數(shù)據(jù)結(jié)構(gòu),防止重復(fù)抓取。(3)頁面獲取模塊。(4)對已經(jīng)獲取的頁面內(nèi)容的各個部分進行抽取的模塊。以下為其他可選模塊:(5)負責連接前處理模塊(6)負責連接后處理模塊(7)過濾器模塊(8)負責多線程模塊(9)負責分布式的模塊信息采集實質(zhì)上也就是搜索引擎對頁面的收錄頁面收錄-就是指搜索引擎通過蜘蛛程序在互聯(lián)網(wǎng)上抓取頁面并進行存儲的過程,為搜索引擎開展各項工作提供數(shù)據(jù)支持。(包括:域名列表、url列表、網(wǎng)頁快照頁

7、面)1)頁面收錄方式:廣度優(yōu)先、深度優(yōu)先、用戶提交等三種方式。廣 度優(yōu)先如果把整個網(wǎng)站看作是一棵樹,首頁就是根,每個頁面就是葉子。廣度優(yōu)先是一種橫向的頁面抓取方式,先從樹的較淺層開始抓取頁面,直至抓取完同一層 次上的所有頁面后才進入下一層。因些,在對網(wǎng)站進行優(yōu)化的時候,我們應(yīng)該把網(wǎng)站中相對重要的信息展示在層次較淺的頁面上(例如,在首頁上推薦一些熱門產(chǎn)品 或者內(nèi)容)。如下圖所示(廣度優(yōu)先抓取流程)。首先,搜索引擎從網(wǎng)站首頁出發(fā),抓取首頁上所有鏈接指向的頁面,形成頁面集合(a),并解析出集合(a)中所有頁面的鏈接;再跟蹤這些鏈接抓取下一層的頁面,形成集合(b)。遞歸地抓取完所有淺層頁面,再進一步抓

8、取深層頁面。深度優(yōu)先是一種縱向的頁面抓取方式,首先抓取淺層頁面中的某一個鏈接,然后順著該鏈接進一步抓取該鏈接的下一層頁面,直至抓取完最深層次的頁面后才返回淺 層頁面再繼續(xù)抓取。使用深度優(yōu)先的抓取方式,搜索引擎就可以抓取到網(wǎng)站中較為隱蔽、冷門的頁面,以滿足更多用戶的需求。 如 下圖2-3所示(深度優(yōu)先抓取流程)。首先,搜索引擎從網(wǎng)站首頁出發(fā),提取首頁中的所有鏈接;再沿著其中的一個鏈接抓取到頁面1-1,同時提取頁面1-1 中的所有鏈接;接著,沿著頁面1-1中的一個鏈接a-1抓取到頁面2-1,同時提取頁面2-1中的所有鏈接;再沿著頁面2-1中的一個鏈接b-1繼續(xù)抓取 更深一層的頁面。遞歸地抓取到網(wǎng)站

9、最深層次的頁面,才返回首頁繼續(xù)抓取。用戶提交為了抓取到更多的網(wǎng)頁,搜索引擎還允許網(wǎng)站管理員主動提交頁面。網(wǎng)站管理員只需把網(wǎng)站中頁面的url按照指定的格式制作成文件,提交給搜索引擎,搜索引擎就可以通過該文件對網(wǎng)站中的頁面進行抓取及更新。這種由網(wǎng)站管理員主動提交頁面的方式大大提高了搜索引擎抓取頁面的效率及質(zhì)量;而對于網(wǎng)站本身來說,也大大提高了網(wǎng)站頁面被收錄的數(shù)量(目前google及yahoo!都支持這種頁面抓取方式)。為了提高抓取頁面的效率及質(zhì)量,搜索引擎會結(jié)合多種方式去抓取頁面。例如,先使用廣度優(yōu)先的方式,把抓取范圍鋪得盡可能寬,獲取到盡可能多的重要頁面;再使用深度優(yōu)先的方式,抓取更多隱蔽的頁面

10、;最后,結(jié)合用戶提交的信息,抓取那些被遺漏的頁面。2)搜索引擎對頁面的維護方式:定期抓取、增量抓取、分類定位抓取等三種方式。定期抓取-也稱周期性抓取,即搜索引擎周期性地對網(wǎng)站中已收錄的頁面進行全面的更新。(包括:替換舊頁面、刪掉不存在頁面、存儲新頁面) 增量抓取-對網(wǎng)站中某些重要的頁面進行了定時監(jiān)控,以實現(xiàn)對頁面的更新及維護。(這也是為什么搜索引擎對重要頁面的更新周期會更快的原因,例如,內(nèi)容經(jīng)常更新的頁面,搜索引擎也會經(jīng)常對其進行更新,從而及時發(fā)現(xiàn)新內(nèi)容、刪除不存在信息) 分類定位抓取-根據(jù)網(wǎng)站頁面的類別或性質(zhì)來制定相應(yīng)的更新周期來定時監(jiān)控頁面。(例如,“新聞資訊”類頁面的更新周期可以精確到每

11、分鐘,而“資源下載”類頁面的更新周期就可以定為一天或更長時間)為 了提高頁面的更新頻率及質(zhì)量,搜索引擎會結(jié)合多種方式去更新。例如,一個網(wǎng)站中更新比較頻繁的首頁,可以使用增量抓取方式對其進行監(jiān)控,以便對網(wǎng)站中相對 重要的頁面進行及時更新;而對于實時性非常高的論壇頁面,則可以采用分類定位的抓取方式;而為了防止遺漏網(wǎng)站中的某些頁面,還需要采用定期抓取的方式。3)搜索引擎對頁面的存儲 搜索引擎在抓取頁面時,除了存儲原始頁面(即網(wǎng)頁快照)外,還會附加一系列信息(例如,文件類型、文件大小、最后修改時間、url、ip地址、抓取時間等),再把這些信息作為開展某項工作的依據(jù)。、網(wǎng)頁信息抽取技術(shù): 結(jié)構(gòu)化信息抽取

12、技術(shù),將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。有兩種方式,簡單的就是模板方式,另外就是對網(wǎng)頁不依賴web結(jié)構(gòu)化信息抽取方式,這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區(qū)別就是對網(wǎng)頁信息結(jié)構(gòu)化抽取后再結(jié)構(gòu)化數(shù)據(jù)進行深度的處理,提供專業(yè)的搜索服務(wù)。所以web結(jié)構(gòu)化信息抽取的技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標。水平搜索引擎僅能對網(wǎng)頁的標題和正文進行解析和提取,但不提供其時間、來源、作者及其他元數(shù)據(jù)的解析和提取。由于垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時間、來源、作者及其他元數(shù)據(jù)解析,包括對網(wǎng)頁中特定內(nèi)容的提取。比如:在論壇搜索

13、、生活服務(wù)、訂票服務(wù)、求職服務(wù)、風險信用、競爭情報、行業(yè)供需、產(chǎn)品比較等特定垂直搜索服務(wù)中,要求對于作者、主題、地區(qū)、機構(gòu)名稱、產(chǎn)品名稱以及特定行業(yè)用語進行提取,才能進一步提供更有價值的搜索服務(wù)。這里又包括: 簡單的語法分析:簡單的語法分析在搜索引擎中非常重要,可以通過簡單的語法分析來改善數(shù)據(jù)的質(zhì)量,低成本的獲得某類信息,改善排序,尋找需要的內(nèi)容信息處理技術(shù):信息處理包括的范圍比較廣,主要包括去重、聚類、分析。數(shù)據(jù)挖掘:找出您的信息的關(guān)聯(lián)性對于垂直搜索來說非常重要,有效,可以在這些相關(guān)性上為用戶提供更細致的服務(wù)。高度智能化的數(shù)據(jù)挖掘垂直搜索與水平搜索的最大區(qū)別是它對網(wǎng)頁信息進行了結(jié)構(gòu)化信息抽取

14、加工,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位?;诮Y(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶提供更加到位、更有價值的服務(wù)。整個結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁解析到網(wǎng)頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標引、自動排重,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術(shù)在一些海量信息處理的場合能夠起到很好的應(yīng)用效果。下面配合圖標詳細說明:搜索引擎對頁面的分析 頁面分析-首先是對頁面(下載到搜索引擎本地的頁面-網(wǎng)

15、頁快照)建立索引,以實現(xiàn)對頁面的快速定位;然后,提取頁面的正文信息(過濾掉html標簽),并對正文信息進行切詞以及為這些詞(即關(guān)鍵字)建立索引,從而得到頁面與關(guān)鍵字的之間對應(yīng)關(guān)系(一個頁面對應(yīng)多個關(guān)鍵字);最后,對所有關(guān)鍵字進行重組,并建立關(guān)鍵字與網(wǎng)頁間對應(yīng)關(guān)系的反向索引列表(一個關(guān)鍵字對應(yīng)多個網(wǎng)頁url),從而實現(xiàn)根據(jù)關(guān)鍵字快速定位至相應(yīng)的網(wǎng)頁。(包括:網(wǎng)頁索引表、切詞后形成的關(guān)鍵字索引表、頁面與關(guān)鍵字的”一對多”的關(guān)系列表、重組關(guān)鍵字與頁面的”一對多”的關(guān)系列表)。1)網(wǎng)頁索引-為頁面url建立索引表,這樣通過url就可以快速定位到對應(yīng)的頁面。2)正文信息提取- 過濾網(wǎng)頁標簽(如:html

16、標簽、js標簽、php標簽、asp標簽等),這就是js 對搜索引擎無效的原因。3)切詞/分詞- 兩種切詞方法:字符串匹配切詞、統(tǒng)計分詞。 字符串匹配切詞-是基于一個足夠大、足夠權(quán)威的“詞典(詞庫)”進行的。如果頁面上的詞與“詞典”中的詞匹配,則為命中。這樣就可以得到一個詞或者短語。 統(tǒng)計分詞- 是根據(jù)相鄰的兩個(或多個)字出現(xiàn)的概率來判斷這兩個(或多個)字組合后是否會形成一個詞。統(tǒng)計分詞也常常結(jié)合“詞典”進行匹配,常用于識別一些新詞匯。4)頁面正文信息經(jīng)過切詞系統(tǒng)處理后,形成了關(guān)鍵字列表。其中包含了關(guān)鍵字編號、網(wǎng)頁編號、關(guān)鍵字出現(xiàn)次數(shù)、關(guān)鍵字在頁面中的位置區(qū)域。搜索引擎對頁面排序頁面排序-搜索

17、引擎結(jié)合頁面的內(nèi)外部因素計算出頁面與某個關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面排序列表。影響頁面排序因素:頁面相關(guān)性、鏈接權(quán)重、用戶行為等。1)頁面相關(guān)性 頁面相關(guān)性-是指頁面內(nèi)容與用戶所查詢的關(guān)鍵字在意義上的接近程度。主要由關(guān)鍵字匹配度、關(guān)鍵字密度、關(guān)鍵字分布、關(guān)鍵字權(quán)重標簽等決定。關(guān)鍵字匹配度 - 頁面中是否包含關(guān)鍵字k、關(guān)鍵字k在頁面中出現(xiàn)的次數(shù)。關(guān)鍵字密度 = 關(guān)鍵字詞頻 / 網(wǎng)頁總詞匯量。關(guān)鍵字分布 - 關(guān)鍵字在頁面中出現(xiàn)的位置。關(guān)鍵字權(quán)重標簽 - 如:字體樣式、字號、顏色等。(.、)w(頁面相關(guān)性)= w(關(guān)鍵字匹配度)+ w(關(guān)鍵字密度)+ w(關(guān)鍵字分布)+ w(關(guān)鍵字

18、權(quán)重標簽)2)鏈接權(quán)重 鏈接權(quán)重- 鏈接主要分為內(nèi)部鏈接、外部鏈接兩種。某一頁面得到的鏈接(包括內(nèi)、外部鏈接)越多,那么該頁面的鏈接權(quán)重值就越高。3)用戶行為 用戶行為- 搜索引擎會根據(jù)用戶對搜索結(jié)果的點擊次數(shù)來對排序結(jié)果進行定期改進。w(頁面權(quán)重值)= w(頁面相關(guān)性)+ w(鏈接權(quán)重)+ w(用戶行為)、分詞技術(shù):面向搜索的分詞技術(shù),建立和您的行業(yè)相關(guān)的詞庫。注意這是面向搜索的分詞,不是面向識別和準確的分詞。引用地址: 注意: 該地址僅在今日23:59:59之前有效信息的飛速增長,使搜索引擎成為人們查找信息的首選工具,google、百度、中國搜索等大型搜索引擎一直是人們討論的話題。隨著搜索

19、市場價值的不斷增加,越來越多的公司開發(fā)出自己的搜索引擎,阿里巴巴的商機搜索、8848的購物搜索等也陸續(xù)面世,自然,搜索引擎技術(shù)也成為技術(shù)人員關(guān)注的熱點。搜索引擎技術(shù)的研究,國外比中國要早近十年,從最早的archie,到后來的excite,以及altvista、overture、google等搜索引擎面世,搜索引擎發(fā)展至今,已經(jīng)有十幾年的歷史,而國內(nèi)開始研究搜索引擎是在上世紀末本世紀初。在許多領(lǐng)域,都是國外的產(chǎn)品和技術(shù)一統(tǒng)天下,特別是當某種技術(shù)在國外研究多年而國內(nèi)才開始的情況下。例如操作系統(tǒng)、字處理軟件、瀏覽器等等,但搜索引擎卻是個例外。雖然在國外搜索引擎技術(shù)早就開始研究,但在國內(nèi)還是陸續(xù)涌現(xiàn)出

20、優(yōu)秀的搜索引擎,像百度()、中搜()等。目前在中文搜索引擎領(lǐng)域,國內(nèi)的搜索引擎已經(jīng)和國外的搜索引擎效果上相差不遠。之所以能形成這樣的局面,有一個重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對于計算機涉及的技術(shù)就是中文分詞。什么是中文分詞眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子i am a student,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有

21、些人也稱為切詞。我是一個學生,分詞的結(jié)果是:我 是 一個 學生。中文分詞和搜索引擎中文分詞到底對搜索引擎有多大影響?對于搜索引擎來說,最重要的并不是找到所有結(jié)果,因為在上百億的網(wǎng)頁中找到所有結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。中文分詞的準確與否,常常直接影響到對搜索結(jié)果的相關(guān)度排序。筆者最近替朋友找一些關(guān)于日本和服的資料,在搜索引擎上輸入“和服”,得到的結(jié)果就發(fā)現(xiàn)了很多問題。下面就以這個例子來說明分詞對搜索結(jié)果的影響,在現(xiàn)有三個中文搜索引擎上做測試,測試方法是直接在google()、百度()、中搜(http: /)上以“和服”為關(guān)鍵詞進行

22、搜索:在google上輸入“和服”搜索所有中文簡體網(wǎng)頁,總共結(jié)果507,000條,前20條結(jié)果中有14條與和服一點關(guān)系都沒有。在第一頁就有以下錯誤:“通信信息報:瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場”“使用純html的通用數(shù)據(jù)管理和服務(wù)- 開發(fā)者- zdnet .”“陳慧琳心口不一化妝和服裝自己包辦”“:外交部:中國境外領(lǐng)事保護和服務(wù)指南(2003年版) .”“產(chǎn)品和服務(wù)”等等。第一頁只有三篇是真正在講“和服”的結(jié)果。在百度上輸入“和服”搜索網(wǎng)頁,總共結(jié)果為287,000條,前20條結(jié)果中有6條與和服一點關(guān)系都沒有。在第一頁有以下錯誤:“福建省晉江市恒和服裝有限公司系獨資企業(yè)”“關(guān)于商品和服務(wù)實行

23、明碼標價的規(guī)定”“青島東和服裝設(shè)備”在中搜上輸入“和服”搜索網(wǎng)頁,總共結(jié)果為26,917條,前20條結(jié)果都是與和服相關(guān)的網(wǎng)頁。這次搜索引擎結(jié)果中的錯誤,就是由于分詞的不準確所造成的。通過筆者的了解,google的中文分詞技術(shù)采用的是美國一家名叫basis technology()的公司提供的中文分詞技術(shù),百度使用的是自己公司開發(fā)的分詞技術(shù),中搜使用的是國內(nèi)海量科技()提供的分詞技術(shù)。由此可見,中文分詞的準確度,對搜索引擎結(jié)果相關(guān)性和準確性有相當大的關(guān)系。中文分詞技術(shù)中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過

24、程就是分詞算法?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。1、基于字符串匹配的分詞方法這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(

25、由右到左的方向);3)最少切分(使每一句中切出的詞數(shù)最?。?。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。一種方法是改進掃描方式,稱為特征掃描或標志切分,優(yōu)先在待分析字符串中

26、識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。對于機械分詞方法,可以建立一個一般的模型,在這方面有專業(yè)的學術(shù)論文,這里不做詳細論述。2、基于理解的分詞方法這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下

27、,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。3、基于統(tǒng)計的分詞方法從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算兩個漢字x、y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的

28、緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應(yīng)用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。到底哪種分詞算法的準確度更

29、高,目前并無定論。對于任何一個成熟的分詞系統(tǒng)來說,不可能單獨依靠某一種算法來實現(xiàn),都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,相當于用中藥中的復(fù)方概念,即用不同的藥才綜合起來去醫(yī)治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。分詞中的難題有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠非如此。中文是一種十分復(fù)雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。1、歧義識別歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因為“表面”和“面的”都是詞,那么這個短語就可以分成“表面

30、的”和“表面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的“和服”的例子,其實就是因為交叉歧義引起的錯誤。“化妝和服裝”可以分成“化妝 和服裝”或者“化妝 和服 裝”。由于沒有人的知識去理解,計算機很難知道到底哪個方案正確。交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別?如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個

31、難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應(yīng)該是詞,哪個應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。2、新詞識別新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“王軍虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工

32、程。即使這項工作可以完成,還是會存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?新詞中除了人名以外,還有機構(gòu)名、地名、產(chǎn)品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對于搜索引擎來說,分詞系統(tǒng)中的新詞識別十分重要。目前新詞識別準確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標志之一。中文分詞的應(yīng)用目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因為中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機器翻譯(mt)、語音合成、自動分

33、類、自動摘要、自動校對等等,都需要用到分詞。因為中文需要分詞,可能會影響一些研究,但同時也為一些企業(yè)帶來機會,因為國外的計算機處理技術(shù)要想進入中國市場,首先也是要解決中文分詞問題。在中文研究方面,相比外國人來說,中國人有十分明顯的優(yōu)勢。分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內(nèi)容更新的速度。因此對于搜索引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。目前研究中文分詞的大多是科研院校,清華、北大、中科院、北京語言學院、東北大學、ibm研究院、微軟中國研

34、究院等都有自己的研究隊伍,而真正專業(yè)研究中文分詞的商業(yè)公司除了海量科技以外,幾乎沒有了。科研院校研究的技術(shù),大部分不能很快產(chǎn)品化,而一個專業(yè)公司的力量畢竟有限,看來中文分詞技術(shù)要想更好的服務(wù)于更多的產(chǎn)品,還有很長一段路。 、索引技術(shù): 索引技術(shù)對于垂直搜索非常關(guān)鍵,一個網(wǎng)頁庫級的搜索引擎必須要支持分布索引、分層建庫、分布檢索、靈活的更新、靈活的權(quán)值調(diào)整、靈活的索引和靈活的升級擴展、高可靠性穩(wěn)定性冗余性。還需要支持各種技術(shù)的擴展,如偏移量計算等。 精、準、全的全文索引和聯(lián)合檢索技術(shù) 水平搜索引擎并不能提供精確和完整的檢索結(jié)果,只是給出預(yù)估的數(shù)量和排在前面部分的結(jié)果信息,但響應(yīng)速度是水平搜索引擎所

35、追求的最重要因素;在文本索引方面,它也僅對部分網(wǎng)頁中特定位置的文本而不是精確的網(wǎng)頁正文全文進行索引,因而其最終檢索結(jié)果是不完全的。 垂直搜索由于在信息的專業(yè)性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式,比如按內(nèi)容相關(guān)度排序(與水平檢索的pagerank不同)或按時間、來源排序。另外,一些垂直搜索引擎還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,比如結(jié)合作者、內(nèi)容、分類進行組合檢索等。、搜索用戶界面 一般須具有以下功能:(1) 輸入提示詞:在用戶在輸入框中輸入查詢詞的過程中給予查詢提示詞。對中文來說,用戶輸入拼音時,也能提示。(2) 相關(guān)搜索提示詞:當用

36、戶對當前搜索結(jié)果不滿意時,也許換一個搜索詞就能夠得到更有用的息。 一般會根據(jù)用戶當前搜索詞給出多個提示詞。可以看成是協(xié)同過濾在搜索詞上的一種具體應(yīng)用。(3) 相關(guān)文檔:返回和搜索結(jié)果中的某一個文檔相似的文檔。例如:google搜索結(jié)果中的“類似結(jié)果”(4) 在結(jié)果中查詢:如果返回的結(jié)果很多,則用戶在返回結(jié)果再次輸入查詢詞以縮小查詢范圍。(5) 分類統(tǒng)計:返回搜索結(jié)果在類別中的分布圖。用戶可以按類別縮小搜索范圍,或者在搜索結(jié)果中導(dǎo)航。(6) 搜索熱詞統(tǒng)計界面:往往按用戶類別統(tǒng)計搜索詞,例如按用戶所屬區(qū)域或者按用戶所屬部門,當然也可以直接按用戶統(tǒng)計搜索熱詞。綜上所述,用戶界面改進以用戶體驗為導(dǎo)向,以求和用戶的交互達到最大的效果。以下為用戶關(guān)鍵字查詢 的詳細說明:關(guān)鍵字查詢-搜索引擎接收來自用戶的查詢請求,并對查詢信息進行切詞及匹配后,再向用戶返回相應(yīng)的頁面排序表。在為用戶提供搜索查詢前的準備工作:在用戶發(fā)出查詢請求前就完成被查詢關(guān)鍵字的反向索引、相關(guān)頁面的計算等工作。為那些查詢最頻繁的關(guān)鍵字對應(yīng)的頁面排序列表建立緩存機制。、基于solr技術(shù)的全文搜索解決方案優(yōu)點:封裝及擴展性較好,提供了較為完備的解決方案。1、 solr簡介solr是一個基于lucene的java搜索引擎服務(wù)器。sol

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論