美國信息檢索技術(shù)研究會議sigir簡介_第1頁
美國信息檢索技術(shù)研究會議sigir簡介_第2頁
美國信息檢索技術(shù)研究會議sigir簡介_第3頁
美國信息檢索技術(shù)研究會議sigir簡介_第4頁
美國信息檢索技術(shù)研究會議sigir簡介_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

美國信息檢索技術(shù)研究會議sigir簡介

1sigir對新的基礎(chǔ)理論的研究西吉r是美國計算機(jī)協(xié)會的一個特殊組織,負(fù)責(zé)信息存儲、研究策略、計劃和評估系統(tǒng)。隨著科技的飛速發(fā)展,SIGIR又?jǐn)U展到對新的基礎(chǔ)理論的研究如全球計算機(jī)信息網(wǎng)絡(luò)定位技術(shù)、數(shù)字圖書館以及如何整合信息檢索系統(tǒng)與其他應(yīng)用系統(tǒng)。從1973年開始,SIGIR每年都舉行一次國際信息檢索技術(shù)研究會議,截至2006年共舉辦了29屆。全球的研究組織都通過這個會議來展示自己的研究成果。因此,SIGIR可以說是當(dāng)今信息檢索研究的一面旗幟。在2006年年會上SIGIR共收到了超過35個國家的399篇論文。有超過74%的論文被接受。從地區(qū)來看,49%來自美洲,11%來自歐洲,14%來自亞洲,可以說匯集了當(dāng)今信息檢索最尖端的研究課題和研究方向。本次會議上的研究內(nèi)容分布在24個不同的研究方向上,下面簡要介紹其中的一些研究方向。2sigir的最新研究趨勢2.1簡化的檢索流程由于音頻數(shù)據(jù)(基于內(nèi)容和語義)與傳統(tǒng)的文本數(shù)據(jù)(基于文本)不同,文本檢索中的相關(guān)技術(shù)不能簡單地應(yīng)用到音頻信息檢索中。即:用戶提交的檢索要求往往是對于音頻數(shù)據(jù)的語義描述,從原始數(shù)據(jù)中抽取檢索項的這種用于文本檢索的方法并不適用于音頻數(shù)據(jù)這樣的數(shù)字信號。通常,我們可以將音頻數(shù)據(jù)分為語音、音樂和噪聲等類型,而不同類型的音頻數(shù)據(jù)可以用不同的方式進(jìn)行處理和索引。2.1.1語音識別系統(tǒng)的適用性將語音識別成文本,再利用文本檢索技術(shù)就可以初步實(shí)現(xiàn)對語音內(nèi)容的檢索。語音識別的研究已經(jīng)經(jīng)歷了比較長的時間,技術(shù)發(fā)展也相對成熟,已經(jīng)達(dá)到實(shí)用的階段,如IBM公司推出的ViaVoice語音識別系統(tǒng)。實(shí)踐證明,盡管在一些比較特殊的條件下(如背景噪音很低,說話人語音很清晰、標(biāo)準(zhǔn)等),語音識別系統(tǒng)可以得到很好的結(jié)果,但對于大詞匯量和自然情況下的語音識別,其效果還不是十分理想,即使是美國最先進(jìn)的大詞匯連續(xù)語音識別系統(tǒng),其產(chǎn)生的錯誤率都高達(dá)30%以上。正如當(dāng)今廣為應(yīng)用的語音服務(wù),我們從呼叫中心的語音資料庫中進(jìn)行資料檢索,而這個資料是自動錄音系統(tǒng)記錄的,語音質(zhì)量或者通話質(zhì)量不佳等都可能導(dǎo)致音質(zhì)比較低,最終影響語音檢索的效果。因此,先進(jìn)的語音檢索系統(tǒng)應(yīng)該不僅能夠輸出文本,還應(yīng)該能夠進(jìn)行錯誤識別和糾錯,如何減少錯誤并且提高檢索效率成為未來所要攻克的重點(diǎn)。2.1.2關(guān)于所使用的調(diào)式音頻壓縮由于人們對于人類的聽覺系統(tǒng)認(rèn)識有限,并且音樂是組成最復(fù)雜的音頻類型,因此相對語音來說,音樂在基于語義檢索的技術(shù)方面還有相當(dāng)?shù)牟罹?還處在比較初級的階段。目前主要有兩種解決方式:其一,基于音調(diào)的音樂檢索。由于音樂的每個音符都由它的音調(diào)表示,檢索時以查詢音樂和每個存儲音樂片段相應(yīng)的音調(diào)串之間的相似性為基礎(chǔ)。常用的查詢請求形式是哼唱,再利用字串匹配技術(shù)將音符映射成字符,然后進(jìn)行檢索。但是,這種性能的好壞依賴于哼唱輸入信號的音調(diào)跟蹤的準(zhǔn)確性;其二,針對結(jié)構(gòu)化音樂進(jìn)行檢索。最常見的結(jié)構(gòu)化音樂是MIDI,它是一種合成音樂,把音樂表示成大量的音符和控制指令。由于結(jié)構(gòu)化音樂的特性,可以比較直接地從音頻信號中抽取特征,因此結(jié)構(gòu)化音頻更便于檢索。2.2空間通信聯(lián)當(dāng)前主流的反垃圾郵件技術(shù)包括:黑名單技術(shù)、白名單技術(shù)、郵件過濾器技術(shù)、客戶端反垃圾郵件技術(shù)、貝葉斯過濾技術(shù)。黑名單過濾技術(shù):將已知的垃圾郵件地址存放在一個列表(黑名單)中,系統(tǒng)會自動過濾黑名單中的郵件。白名單過濾技術(shù):將可靠的郵件地址存放在一個列表(白名單)中,系統(tǒng)會自動對其進(jìn)行接受。由于白名單技術(shù)花費(fèi)時間相對較短,所以白名單過濾一般在黑名單過濾執(zhí)行后,其他過濾方法執(zhí)行前進(jìn)行。郵件過濾器技術(shù):針對未知地址的郵件進(jìn)行過濾。按照一定的規(guī)則把垃圾郵件過濾掉,主要過濾發(fā)件人、收件人、郵件頭、郵件主題、郵件這五部分內(nèi)容。貝葉斯IBayes過濾技術(shù)(貝葉斯過濾系統(tǒng)需維護(hù)下列三個表):正常哈希表(goodhashtable):存儲已出現(xiàn)的單元串在正常郵件中的出現(xiàn)次數(shù)。垃圾哈希表(badhashtable):存儲已出現(xiàn)的單元串在垃圾郵件中的出現(xiàn)次數(shù)。概率哈希表(probabilityhashtable):存儲在郵件中出現(xiàn)過的單元串在垃圾郵件中出現(xiàn)的概率值。基于貝葉斯技術(shù)來實(shí)現(xiàn)反垃圾郵件系統(tǒng)是當(dāng)今趨勢。在2006年年會上就有一篇論文提到了基于本技術(shù)開發(fā)的一套垃圾郵件過濾系統(tǒng),它整合了其他簡單的過濾方式來達(dá)到遠(yuǎn)遠(yuǎn)超過任何一個單獨(dú)過濾器的過濾效果。在TREC(TextRetrievalConference),美國國家技術(shù)標(biāo)準(zhǔn)局(NationalInstituteofStandardsandTechnology,簡稱NIST)和美國國防部高等研究計劃署(DefenseAdvancedResearchProjectsAgency,簡稱DARPA)共同舉辦的文本檢索會議,2005年的垃圾郵件過濾研究項目中,一共收到了53個過濾器研究作品,而該作者的作品在評估中獲得了最佳的成績。2.3設(shè)計一種多語言信息系統(tǒng)跨語言信息檢索(CrossLanguageInformationRetrieval,簡稱CLIR)是指用某一種語言提出檢索要求,計算機(jī)在其他不同語種的信息資料中進(jìn)行自動搜索,得到的檢索結(jié)果甚至可以翻譯成用戶指定的特定語種??缯Z言信息檢索結(jié)合了傳統(tǒng)文本信息檢索技術(shù)和機(jī)器翻譯(MachineTranslation,簡稱MT)技術(shù)。設(shè)計一套多語言信息系統(tǒng),必須考慮下列四項要素:(1)數(shù)據(jù)輸入:數(shù)據(jù)輸入的方法;(2)數(shù)據(jù)表現(xiàn)和傳輸方式:牽涉到字符集合,編碼系統(tǒng)和傳輸規(guī)范;(3)數(shù)據(jù)運(yùn)算:例如信息檢索;(4)數(shù)據(jù)輸出:信息的呈現(xiàn)。在這四項要素中,數(shù)據(jù)輸入、表現(xiàn)和輸出技術(shù)上都已經(jīng)很成熟,可以直接引用現(xiàn)有的系統(tǒng)。在跨語言信息檢索中需要面對和解決的幾個主要的問題有:(1)詢問與文件分屬不同語言。這是跨語言信息檢索的主要特征,因此詢問與文件之間,必須有一個對應(yīng),翻譯是重要的運(yùn)算之一。(2)詢問中的詞可能是多義。原始詢問的歧義性,必須輔以歧義性分析機(jī)制。(3)詢問通常很簡短。由于使用者的習(xí)慣,輸入的詢問一般比較簡短,這樣就增大了歧義性分析和翻譯的困難度,進(jìn)而影響檢索的效率。適度的詢問擴(kuò)張是可能考慮的方向。(4)詢問中如何斷詞。一些語言例如中文、日文、韓文等,詞與詞之間沒有明顯的分隔符號,斷詞也是一個難題。(5)文件的多語性。由于目標(biāo)文件的多語言特征,提供語言識別是跨語言檢索的基本工作。(6)輸出結(jié)果的呈現(xiàn)。如何合并所得的多語言文件的檢索結(jié)果,呈現(xiàn)在使用者面前,也是跨語言檢索必須面對的挑戰(zhàn)。2.4分布式控制模塊分布式信息檢索(DistributedInformationRetrieva1)是信息檢索的一種類型,它是針對網(wǎng)絡(luò)環(huán)境下信息分布存儲而產(chǎn)生的一種檢索形式,常見的有跨庫和跨服務(wù)器檢索。在網(wǎng)絡(luò)環(huán)境下,信息資源往往存儲在地理上分散的多個不同場地(即結(jié)點(diǎn))中。這些結(jié)點(diǎn)具有資源建設(shè)的自主性和獨(dú)立性,如果將其相互連接,形成一個彼此協(xié)調(diào)的系統(tǒng),便成為分布式處理系統(tǒng)(DistributedProcessingSystem)。而分布式系統(tǒng)已經(jīng)越來越頻繁地應(yīng)用于當(dāng)今的社會中,因此基于分布式系統(tǒng)的檢索將是一個非常重要的課題。下面簡要介紹兩個主要的研究方向:2.4.1測量集的測量本身計算公式與實(shí)驗(yàn)物測試集合是指一種在規(guī)范化環(huán)境中測試系統(tǒng)效能的機(jī)制,包括測試問題、測試文件集及相關(guān)判斷等三個部分。其研究設(shè)計的概念是假設(shè)在給定的查詢問句與文件集中,某些文件是與查詢問句相關(guān)的。系統(tǒng)研究的目的是檢索出相關(guān)的文件,并拒絕不相關(guān)的文件,通常采用回收率及精確率作為測量準(zhǔn)則。現(xiàn)代分布式的信息檢索技術(shù)需要準(zhǔn)確地掌握測試集合的大小。在一個分布式的環(huán)境中統(tǒng)計出詳細(xì)的測試集幾乎是不可能的,雖然已經(jīng)有一些估算測試集合大小的方法,但是實(shí)驗(yàn)分析證明這些方法的準(zhǔn)確率還是比較低的。2006年SIGIR就有研究成果建議了兩種方法來估算測試集合的大小,并且作者在其文章中證明了自己的方法比其他方法能提供更準(zhǔn)確的精度,能更有效地利用資源。2.4.2p2p搜索技術(shù)P2P(PeerToPeer)計算技術(shù)出現(xiàn)的目的就是希望能夠充分利用互聯(lián)網(wǎng)中所蘊(yùn)含的潛在計算資源。P2P中文稱為對等網(wǎng)絡(luò),是指分布式系統(tǒng)中的各個節(jié)點(diǎn)是邏輯對等的(與目前互聯(lián)網(wǎng)上比較流行的C/S計算模型不同,P2P計算模型中不再區(qū)分服務(wù)器以及客戶端),系統(tǒng)中的各個節(jié)點(diǎn)之間可以直接進(jìn)行數(shù)據(jù)通信而不需要通過中間的服務(wù)器。采用P2P的搜索技術(shù)可以有效地跟蹤數(shù)據(jù)的更新速度、提高訪問的有效性以及檢索的效率。隨著如Emule及Napster等P2P信息共享應(yīng)用程序的流行,P2P計算技術(shù)受到人們越來越多的關(guān)注,因此基于P2P的信息檢索技術(shù)也是研究的熱點(diǎn)。而其主要的搜索方式有:(1)基于DHT網(wǎng)絡(luò)(結(jié)構(gòu)化P2P網(wǎng)絡(luò))的搜索技術(shù)。(2)非結(jié)構(gòu)化P2P網(wǎng)絡(luò)的搜索技術(shù):Flooding搜索方法、Modified-BFS方法、IterativeDeepening搜索方法、RandomWalk搜索方法、Gnutella2搜索方法、基于移動Agent的搜索方法及QueryRouting方法。2.5新主題及其應(yīng)用2.5.1檢索內(nèi)容的問題信息圖形是我們現(xiàn)在運(yùn)用到的用來描述屬性或者實(shí)體關(guān)系的圖片如餅狀圖、柱狀圖及線圖等。這種信息圖形能從直觀上表示各種統(tǒng)計信息的結(jié)果并有廣泛的應(yīng)用,因此它逐漸形成了一種語言,也應(yīng)該能在數(shù)字圖書館中檢索到這些寶貴的知識資源。但是這個基于信息圖形檢索的技術(shù)還沒有運(yùn)用到現(xiàn)在的數(shù)字圖書館檢索中。如果要做到這一點(diǎn),必須正確理解信息圖形所表達(dá)的內(nèi)容。有研究者提出了用貝葉斯系統(tǒng)來識別簡單的餅狀圖的關(guān)聯(lián)信息并且指出了用來檢索這些信息圖形的潛在的應(yīng)用及解決方案。2.5.2廣告投放成本與效益的關(guān)系網(wǎng)絡(luò)廣告的泛濫給我們提出了一些新的研究課題。舉個例子,如何設(shè)計一個排名機(jī)制來讓網(wǎng)站經(jīng)營者及廣告商們知道他們的哪個廣告點(diǎn)擊率高而且能給他們帶來經(jīng)濟(jì)效益,這樣,廣告商就能有的放矢地去投放廣告,降低成本,同時也可以適當(dāng)?shù)販p少廣告數(shù)量,凈化我們的網(wǎng)絡(luò)環(huán)境。已有研究針對網(wǎng)上廣告提出一個新的基于GeneticPogramming(GP)的框架,旨在優(yōu)化整體排名的準(zhǔn)確性以及最小程度地減小誤差等。由于運(yùn)用真實(shí)的廣告數(shù)據(jù)以及真實(shí)的網(wǎng)頁信息作為測試集,這個框架的準(zhǔn)確度已獲得了很高的評價。2.5.3從遠(yuǎn)超前沿的身份關(guān)聯(lián)起來在網(wǎng)絡(luò)世界中,人們樂于展現(xiàn)出自己的不同方面:你可能會用一個假名在一個你的Blog上面措辭激烈地評價一部電影,當(dāng)然你也可能會用你的真實(shí)姓名參加一個學(xué)術(shù)討論,不過將這些不同的身份聯(lián)系起來是極有可能的。因?yàn)樵谀闾岬降碾娪啊㈦s志或者作者等信息中,總是有些蛛絲馬跡可以將他們關(guān)聯(lián)起來確定你的身份。但是這些動作違背了人們的意愿,侵犯了人們的隱私,并且有著消極的影響。現(xiàn)在就有研究分析如何來保證我們的隱私不受到侵犯。2.5.4跨網(wǎng)站鏈接的隨機(jī)補(bǔ)充技術(shù)網(wǎng)站是網(wǎng)絡(luò)中最重要的組織結(jié)構(gòu),如何有效地進(jìn)行網(wǎng)站排名對于一些網(wǎng)絡(luò)程序來說是很重要的。為了得到網(wǎng)站的排名,研究者過去習(xí)慣用一種叫做HostGraph的結(jié)構(gòu)圖來描述跨網(wǎng)站鏈接。在這個結(jié)構(gòu)圖中節(jié)點(diǎn)表示網(wǎng)站,交界則表示鏈接是跨網(wǎng)站的,再采用隨機(jī)模型對這個結(jié)構(gòu)圖進(jìn)行評估。但是,這種隨機(jī)的模型是不合理的,因?yàn)樗环暇W(wǎng)民的真實(shí)瀏

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論