InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)_第1頁(yè)
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)_第2頁(yè)
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)_第3頁(yè)
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)_第4頁(yè)
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)2024/3/30InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)InfoMall萬(wàn)維網(wǎng)信息博物館中國(guó)萬(wàn)維網(wǎng)歷史信息的存儲(chǔ)和展示系統(tǒng)維護(hù)2001年以來(lái)從中國(guó)萬(wàn)維網(wǎng)上搜集的近12億篇網(wǎng)頁(yè)(約20TeraByte)以每月1000萬(wàn)的速度增長(zhǎng)InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)現(xiàn)有服務(wù)及問(wèn)題目前提供三種服務(wù)根據(jù)URL檢索歷史網(wǎng)頁(yè)提供人工整理的歷史事件專題回放免費(fèi)提供網(wǎng)頁(yè)和日志數(shù)據(jù)局限訪問(wèn)途徑單一(只能通過(guò)URL)整理歷史事件專題需要大量的人工工作只能獲得某個(gè)時(shí)間段搜集的全部網(wǎng)頁(yè),且免費(fèi)數(shù)據(jù)的獲取需要很多人工維護(hù)工作InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)InfoMall數(shù)據(jù)檢索服務(wù)目的整合現(xiàn)有服務(wù)通過(guò)統(tǒng)一的數(shù)據(jù)訪問(wèn)接口,提供更加豐富,更加自動(dòng)和便利的數(shù)據(jù)服務(wù)InfoMall數(shù)據(jù)檢索服務(wù)提供以InfoMall歷史網(wǎng)頁(yè)文檔為核心數(shù)據(jù),以內(nèi)容、空間、時(shí)間為查詢緯度的,面向高層應(yīng)用的客戶服務(wù)器體系結(jié)構(gòu)的數(shù)據(jù)檢索服務(wù)。InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)“三維”的數(shù)據(jù)模型InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)檢索服務(wù)原語(yǔ)AugmentedBNF語(yǔ)法定義(部分摘錄如下)<query>=“select”<data-type>“from”<data-repository>“where”1*<conditions>[“max”<maximum-item-number>]<conditions>=<content-condition>/<time-condition>/<location-condition>例子selectWebsfrom:1234wherecontentcontains民主timebetween1997-02to2005-02locationatGEO:150000locationatURL:*.”InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)系統(tǒng)組成InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)全文檢索系統(tǒng)InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)索引構(gòu)建流程(1)從文檔源取得文檔(2)對(duì)文檔進(jìn)行分詞得到<DocID,Term,Positions>三元組(3)查看詞典,把新出現(xiàn)的索引詞合并到詞典中,得到<DocID,TermID,Positions>(4)當(dāng)<DocID,TermID,Positions>三元組的數(shù)量恰好填滿內(nèi)存時(shí),對(duì)整個(gè)三元組集合執(zhí)行快速排序(5)使用“游程編碼”處理遞增排序的三元組,然后編碼壓縮,輸出到臨時(shí)順串文件(runfile)(6)對(duì)所有順串文件執(zhí)行多路歸并,結(jié)果輸出為最終索引文件(7)將最終得到的詞典存入文件InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)索引壓縮目的減少索引數(shù)據(jù)空間提高索引構(gòu)建的速度方法第一步,游程編碼,也就是把遞增整數(shù)序列變換為差分序列(原來(lái)相鄰整數(shù)之間的增量序列)第二步,采用某種編碼方法對(duì)整數(shù)進(jìn)行編碼InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)編碼方法統(tǒng)計(jì)方法哈夫曼編碼(Huffmancoding)算術(shù)編碼(arithmeticcoding)特定分布的ad-hoc編碼UnaryCode(Pr[x]=2-x)DeltaCodeGolombCode字典方法Ziv-Lempel編碼InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)實(shí)驗(yàn)結(jié)果InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計(jì)以及全文檢索系統(tǒng)的初步實(shí)本文貢獻(xiàn)設(shè)計(jì)了一個(gè)服務(wù):如何利用寶貴的歷史網(wǎng)頁(yè)數(shù)據(jù)提供公共信息服務(wù)以充分發(fā)揮信息作為研究工作基礎(chǔ)設(shè)施的作用設(shè)計(jì)和實(shí)現(xiàn)了全文索引系統(tǒng):重點(diǎn)討論了利用壓縮技術(shù)減少全文索引的倒排文件索引的大小,為海量歷史網(wǎng)頁(yè)數(shù)據(jù)的檢索服務(wù)提供現(xiàn)實(shí)可行的基礎(chǔ)設(shè)施保障InfoMa

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論