論信息存儲(chǔ)與檢索技術(shù)_第1頁(yè)
論信息存儲(chǔ)與檢索技術(shù)_第2頁(yè)
論信息存儲(chǔ)與檢索技術(shù)_第3頁(yè)
論信息存儲(chǔ)與檢索技術(shù)_第4頁(yè)
論信息存儲(chǔ)與檢索技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

論信息存儲(chǔ)與檢索技術(shù)

信息存儲(chǔ)和檢索技術(shù)是信息存儲(chǔ)的重要組成部分。信息存儲(chǔ)方式設(shè)計(jì)檢索效率,檢索語(yǔ)言和檢索效率密切相關(guān),它在信息檢索過(guò)程中起著語(yǔ)言保障的作用,是溝通信息的存儲(chǔ)和檢索兩個(gè)過(guò)程以及標(biāo)引人員和檢索人員雙方思想交流的橋梁。隨著網(wǎng)絡(luò)信息資源的日益豐富和復(fù)雜化,為滿(mǎn)足不同用戶(hù)能夠檢索到所需信息,檢索語(yǔ)言必然朝著自然語(yǔ)言、用戶(hù)界面友好的方向發(fā)展,這給存儲(chǔ)與檢索技術(shù)提出了更高的要求。因此,我認(rèn)為有以下問(wèn)題值得深入研究:1網(wǎng)絡(luò)搜索引擎檢索機(jī)制計(jì)算機(jī)處理的數(shù)據(jù)量呈指數(shù)增長(zhǎng),隨著數(shù)據(jù)信息庫(kù)積累的數(shù)據(jù)和主題越來(lái)越多,怎樣快速、有效、經(jīng)濟(jì)地檢索某個(gè)主題的所有信息,就成為一個(gè)十分熱門(mén)的課題。解決這個(gè)難題的方法之一是采用智能搜索技術(shù)。網(wǎng)絡(luò)信息檢索系統(tǒng)的核心是搜索引擎,它需要從紛繁復(fù)雜的大量信息中,篩選出符合用戶(hù)需求的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、向量空間模型和概率模型等。布爾型信息檢索模型是最簡(jiǎn)單的信息檢索模型,用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢(xún),搜索引擎根據(jù)事先建立的倒排文件結(jié)構(gòu),確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢(xún)相關(guān),要么與查詢(xún)無(wú)關(guān),查詢(xún)結(jié)果一般不進(jìn)行相關(guān)性排序。與布爾型信息檢索模型不同,向量空間模型用檢索項(xiàng)的向量空間來(lái)表示用戶(hù)的查詢(xún)要求和數(shù)據(jù)庫(kù)文檔信息。根據(jù)向量空間的相似性,排列查詢(xún)結(jié)果。向量空間模型不僅可以方便地產(chǎn)生有效的查詢(xún)結(jié)果,而且能提供相關(guān)文檔的文摘,并進(jìn)行查詢(xún)結(jié)果分類(lèi),為用戶(hù)提供準(zhǔn)確定位所需的信息。基于貝葉斯概率論原理的概率模型不同于布爾和向量空間模型,它利用相關(guān)反饋的歸納學(xué)習(xí)方法獲取匹配函數(shù)。雖然不同檢索模型使用的方法不同,但所要達(dá)到的目標(biāo)是相同的,即按照用戶(hù)要求,提供用戶(hù)所需的信息。事實(shí)上,大多數(shù)檢索系統(tǒng)往往將上述各種模型混合以達(dá)到最佳的檢索效果。搜索引擎構(gòu)成信息檢索系統(tǒng)的核心,搜索引擎信息檢索系統(tǒng)還包括對(duì)索引信息文檔格式的預(yù)處理、索引信息的分析、信息索引和用戶(hù)信息檢索等幾個(gè)階段:①信息預(yù)處理包括信息格式轉(zhuǎn)換和信息過(guò)濾兩個(gè)不同層次。信關(guān)作為訪(fǎng)問(wèn)不同信息的機(jī)構(gòu)訪(fǎng)問(wèn)不同組織形式的數(shù)據(jù)信息,同時(shí)過(guò)濾不同格式的文檔,這使得搜索引擎不僅能夠檢索正文文檔,而且能夠檢索原始格式的文檔信息;②信息索引就是創(chuàng)建文檔信息的特征記錄,使用戶(hù)能夠檢索到所需信息。建立索引需要進(jìn)行下列處理:信息語(yǔ)詞切分和語(yǔ)詞詞法分析,識(shí)別出各個(gè)語(yǔ)詞的詞干,以便根據(jù)詞干建立信息索引;進(jìn)行詞性標(biāo)注及相關(guān)的自然語(yǔ)言處理,也就是在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計(jì)方法進(jìn)行詞性標(biāo)注,識(shí)別出重要的短語(yǔ)結(jié)構(gòu);建立檢索項(xiàng)索引,一般使用倒排文件的方法建立檢索項(xiàng)相關(guān)信息,以易于文檔信息的更新處理;③查詢(xún)擴(kuò)展處理的目的是提高信息檢索的精度和召回率。所謂精度是指檢索結(jié)果中相關(guān)信息文檔數(shù)與查詢(xún)結(jié)果總數(shù)之比;所謂召回率是指實(shí)際檢索出的相關(guān)信息文檔數(shù)與信息庫(kù)中總的相關(guān)信息文檔數(shù)之比。為了提高信息檢索的召回率,需要根據(jù)同義詞詞典和語(yǔ)義蘊(yùn)涵詞典擴(kuò)展查詢(xún)檢索項(xiàng);而提高信息檢索的精度,可利用向量空間模型實(shí)行相關(guān)查詢(xún)反饋處理,即用戶(hù)從初次查詢(xún)的結(jié)果中,選擇內(nèi)容重要的文檔或文檔片斷,讓搜索引擎依據(jù)所選文檔的特征,重新進(jìn)行查詢(xún),從而提高查詢(xún)精度;④信息分類(lèi)和摘要,即根據(jù)文本檢索項(xiàng)的統(tǒng)計(jì)特征,對(duì)查詢(xún)結(jié)果進(jìn)行分類(lèi)和摘要,便于用戶(hù)從多種途徑找到相關(guān)信息。搜索引擎除了被動(dòng)搜索外,也可以利用智能代理技術(shù)進(jìn)行主動(dòng)信息檢索。信息檢索系統(tǒng)智能用戶(hù)代理,可根據(jù)用戶(hù)事先定義的信息檢索要求,在網(wǎng)絡(luò)上實(shí)時(shí)監(jiān)視信息源,如指定Web頁(yè)面的更新、網(wǎng)絡(luò)新聞、電子郵件、數(shù)據(jù)庫(kù)信息變化等,并將用戶(hù)所需的信息,通過(guò)電子郵件或其它方式,主動(dòng)提供給用戶(hù);用戶(hù)無(wú)須反復(fù)搜索所需信息,這樣將大大減少用戶(hù)檢索信息的時(shí)間。目前信息檢索系統(tǒng)主要以布爾模糊邏輯加向量空間模型為主,輔以部分自然語(yǔ)言處理。自然語(yǔ)言在信息檢索中的應(yīng)用,將會(huì)提高信息檢索的精度和相關(guān)性。2人工語(yǔ)言與自然語(yǔ)言世界著名咨詢(xún)研究公司Gartner集團(tuán)于1999年1月20日發(fā)表的未來(lái)技術(shù)發(fā)展十大趨勢(shì)預(yù)測(cè)曾明確指出:“自然語(yǔ)言信息檢索未來(lái)兩年內(nèi)將取代目前的關(guān)鍵字檢索而成為最重要的搜索技術(shù)”。張琪玉教授也認(rèn)為:在計(jì)算機(jī)的系統(tǒng)中,人工語(yǔ)言與自然語(yǔ)言、先控制與后控制的界限可淡化或取消。信息檢索的語(yǔ)言模式包括:①純?nèi)斯ふZ(yǔ)言模式在標(biāo)引中使用人工語(yǔ)言,檢索中也使用人工語(yǔ)言,即標(biāo)引控制+檢索控制的模式;②純自然語(yǔ)言模式在標(biāo)引中使用自然語(yǔ)言,檢索也使用自然語(yǔ)言,即標(biāo)引不加控制,檢索也不加控制,不使用任何控制工具(分類(lèi)表或詞表)的模式;③人工語(yǔ)言+自然語(yǔ)言接口模式在標(biāo)引中使用人工語(yǔ)言,機(jī)內(nèi)存有一部“自然語(yǔ)言—人工語(yǔ)言對(duì)應(yīng)表”,標(biāo)引只使用人工語(yǔ)言,檢索則既可使用人工語(yǔ)言,也可使用自然語(yǔ)言表達(dá)檢索提問(wèn),通過(guò)對(duì)應(yīng)表自動(dòng)轉(zhuǎn)換成人工語(yǔ)言進(jìn)行檢索;④自然語(yǔ)言+后控制詞模式,標(biāo)引只使用自然語(yǔ)言,檢索是既可直接使用自然語(yǔ)言不加控制,也可使用后控制詞表加以控制;⑤人工語(yǔ)言與自然語(yǔ)言混合模式,標(biāo)引或者使用具有大量自然語(yǔ)言人工詞的人工語(yǔ)言詞表(相當(dāng)于增加了自然語(yǔ)言—人工語(yǔ)言對(duì)應(yīng)表功能),并允許同時(shí)使用自然語(yǔ)言進(jìn)行標(biāo)引(不象使用自由詞那樣作雙重標(biāo)引)?;蛘呤褂煤罂刂圃~表作為人工語(yǔ)言詞表的代用品,將屬于真正等同關(guān)系的自然語(yǔ)言詞自動(dòng)轉(zhuǎn)換成控制詞。檢索則既可使用控制詞,也可使用自然語(yǔ)言詞。具有大量自然語(yǔ)言入口詞的人工語(yǔ)言詞表,其主要功能就是將自然語(yǔ)言詞轉(zhuǎn)換成人工語(yǔ)言詞。而作為人工語(yǔ)言系統(tǒng)的自然語(yǔ)言接口的自然語(yǔ)言—人工語(yǔ)言對(duì)應(yīng)表,其功能也是要檢索時(shí)將用戶(hù)所使用的自然語(yǔ)言檢索用語(yǔ)轉(zhuǎn)換成檢索系統(tǒng)所使用的人工語(yǔ)言標(biāo)引用語(yǔ),以便使兩者能進(jìn)行相符性比較。所以在自然語(yǔ)言系統(tǒng)中,將屬于真正等同關(guān)系的部分自然語(yǔ)言詞通過(guò)這兩種工具使其自動(dòng)轉(zhuǎn)換成控制詞用于標(biāo)引文獻(xiàn)是完全可能的。將自然語(yǔ)言詞轉(zhuǎn)換成控制詞作為標(biāo)引用詞,可以簡(jiǎn)化檢索過(guò)程中的相符比較。但是,對(duì)于在人工語(yǔ)言中意義上并非真正概念等同的詞作了等同關(guān)系處理的專(zhuān)指詞、近義詞等,可能不易于檢索;若保留自然語(yǔ)言原詞不作轉(zhuǎn)換,則可提高檢準(zhǔn)率。所以,在計(jì)算機(jī)系統(tǒng)中采用人工語(yǔ)言與自然語(yǔ)言混合模式,標(biāo)引用詞既有控制詞,也有自然語(yǔ)言詞,控制工具是開(kāi)放、靈活的,無(wú)疑具有更多的優(yōu)點(diǎn)。人工語(yǔ)言與自然語(yǔ)言、先控制與后控制的界限在計(jì)算機(jī)系統(tǒng)中淡化或取消,實(shí)際上井沒(méi)有削弱對(duì)標(biāo)引、檢索過(guò)程的控制,相反可提高檢索效率。其前提條件是純?nèi)斯ふZ(yǔ)言模式檢索系統(tǒng)所用詞表應(yīng)大量增加入口詞,或配備自然語(yǔ)言接口。純自然語(yǔ)言模式檢索系統(tǒng)應(yīng)配備后控制詞表,檢索軟件應(yīng)有自動(dòng)轉(zhuǎn)換功能。3數(shù)字圖書(shū)館的檢索技術(shù)數(shù)字圖書(shū)館所包含的內(nèi)容和涉及的領(lǐng)域非常廣泛,其檢索技術(shù)五花八門(mén),但基本上集中在兩個(gè)方面,一是解決目前Internet上信息檢索問(wèn)題,二是多媒體信息的檢索。當(dāng)前,Internet上的信息檢索模式是在交互的過(guò)程中進(jìn)行瀏覽和自由詞全文檢索。自由詞是指檢索的關(guān)鍵詞由用戶(hù)自由選擇,不受任何限制??蛻?hù)端的WWW瀏覽和全文查找分別是在服務(wù)器端的HTTP服務(wù)器和由WebCrawler等自動(dòng)搜索軟件產(chǎn)生的索引表的支持完成的。面對(duì)網(wǎng)上巨大的信息量,目前的瀏覽方法費(fèi)時(shí)費(fèi)力,網(wǎng)絡(luò)門(mén)戶(hù)的分類(lèi)索引難以從根本上解決問(wèn)題。全文檢索的自由詞,也就是無(wú)控詞,可能來(lái)自于文獻(xiàn)的標(biāo)題、作者、文摘或全文;而用戶(hù)所選擇的詞又有很大的隨意性。這樣的全文查找,其查準(zhǔn)率之低是難以避免的,更不要說(shuō)查找圖像、聲頻、視頻等多媒體文檔了。造成上述問(wèn)題的主要原因有:①自動(dòng)搜索及索引軟件只是進(jìn)行關(guān)鍵詞匹配,而信息檢索需要的是概念匹配;②網(wǎng)上電子文獻(xiàn)的無(wú)結(jié)構(gòu)性。當(dāng)前網(wǎng)絡(luò)上的電子文獻(xiàn)以HTML為主,HTML基本上是無(wú)結(jié)構(gòu)的,其主要功能是提供資源的超級(jí)鏈接;③在傳統(tǒng)圖書(shū)館中,用戶(hù)的文獻(xiàn)查找過(guò)程是在圖書(shū)館員的協(xié)助下完成的,他們幫助用戶(hù)確定準(zhǔn)確的檢索詞,選擇查找的信息源。而現(xiàn)在的網(wǎng)絡(luò)檢索機(jī)制沒(méi)有提供相應(yīng)的支持。改進(jìn)的方法有兩個(gè):第一是實(shí)現(xiàn)結(jié)構(gòu)檢索,第二是加強(qiáng)語(yǔ)義檢索。為了實(shí)現(xiàn)結(jié)構(gòu)檢索,需要在服務(wù)器端對(duì)信息資源進(jìn)行良好的組織和結(jié)構(gòu)化,將所有的信息文檔按照統(tǒng)一的方式進(jìn)行標(biāo)識(shí)、存儲(chǔ)和索引。在此基礎(chǔ)上,利用文檔中的結(jié)構(gòu)化描述實(shí)現(xiàn)高精度的檢索。首先,要利用SGML來(lái)標(biāo)記文檔的結(jié)構(gòu),包括全文、章節(jié)、圖表、公式、文摘和參考引文,借助一套規(guī)范的元數(shù)據(jù)和標(biāo)簽來(lái)實(shí)現(xiàn),將文檔對(duì)象化并保存在有組織的對(duì)象集合,并帶有索引和視圖,索引支持查找,視圖支持顯示,對(duì)分布式的倉(cāng)儲(chǔ)進(jìn)行鏈接操作,并利用這種結(jié)構(gòu)導(dǎo)引跨數(shù)據(jù)庫(kù)的查找。然后,按照每個(gè)查找的需求調(diào)整查找界面,用戶(hù)可以用布爾連接符來(lái)指定一個(gè)短語(yǔ)或多個(gè)短語(yǔ),用不同的鄰近度來(lái)限定,并使用SGML將查找限制在文檔的某個(gè)指定部分。在用戶(hù)的全文查詢(xún)界面中進(jìn)行交互式的術(shù)語(yǔ)提示,提供主題詞表和同現(xiàn)詞表,用戶(hù)可以從任一詞表中選取詞匯進(jìn)行全文查詢(xún)。最后,狀態(tài)網(wǎng)關(guān)要保留WEB交互的狀態(tài)信息,通過(guò)網(wǎng)關(guān)提供會(huì)話(huà)歷史。關(guān)于語(yǔ)義檢索。信息檢索的目的是在信息收藏中查找包含用戶(hù)所需的信息內(nèi)容的文檔,這里有兩個(gè)問(wèn)題需要解決:一是描述文檔的信息內(nèi)容,二是表達(dá)用戶(hù)的信息需求。傳統(tǒng)的解決方法是受控詞匹配,其優(yōu)點(diǎn)是雙方參照統(tǒng)一詞表選用相同的詞語(yǔ)表達(dá)概念,缺點(diǎn)是受限于詞表。當(dāng)前的網(wǎng)絡(luò)信息系統(tǒng)采用自由詞匹配,其優(yōu)點(diǎn)是靈活,缺點(diǎn)是有大量的誤匹配和漏查。未來(lái)的信息系統(tǒng)應(yīng)當(dāng)是概念匹配,又稱(chēng)為語(yǔ)義檢索,即自動(dòng)抽取文檔的概念,加以標(biāo)引;用戶(hù)在系統(tǒng)的輔助下選用合適的詞語(yǔ)表達(dá)自己的信息需求,然后在兩者之間執(zhí)行概念匹配。語(yǔ)義檢索只有在相應(yīng)的信息基礎(chǔ)結(jié)構(gòu)上才能實(shí)現(xiàn),實(shí)現(xiàn)語(yǔ)義檢索的概念匹配是數(shù)字圖書(shū)館所面臨的最大挑戰(zhàn)。從技術(shù)角度看,語(yǔ)義索引首先要識(shí)別并抽取表達(dá)文檔內(nèi)容的概念,其方法是上下文同現(xiàn)統(tǒng)計(jì)分析,分析哪些詞一同出現(xiàn)在同一句中,并統(tǒng)計(jì)其頻率,構(gòu)造同現(xiàn)詞概念圖,然后用抽取出來(lái)的這些概念詞對(duì)文檔自動(dòng)標(biāo)引。語(yǔ)義互操作即跨專(zhuān)業(yè)領(lǐng)域的詞匯切換,在不同學(xué)科領(lǐng)域的同現(xiàn)概念圖之間交叉互連,這樣就提供了一條在不同圖書(shū)館間進(jìn)行概念映射的途徑,實(shí)現(xiàn)跨專(zhuān)業(yè)、跨圖書(shū)館的語(yǔ)義互操作。完全的語(yǔ)義檢索有待于人工智能技術(shù)和自然語(yǔ)言理解技術(shù)的成熟。未來(lái)的期盼是將概念空間納入到網(wǎng)絡(luò)信息系統(tǒng)的基礎(chǔ)體系結(jié)構(gòu)中,實(shí)現(xiàn)全網(wǎng)的無(wú)縫語(yǔ)義檢索。4多媒體檢索技術(shù)的發(fā)展數(shù)字圖書(shū)館檢索技術(shù)研究的另一個(gè)熱點(diǎn)是多媒體信息檢索技術(shù),如地圖、航測(cè)照片、聲頻、視頻等基于內(nèi)容的檢索。影像是一種與文本完全不同的媒體類(lèi)型,影像的組織、存儲(chǔ)、檢索、傳遞與利用,需要一系列新的技術(shù),其中的核心問(wèn)題是如何表示影像的內(nèi)容。其次,數(shù)字影像需要大量的存儲(chǔ)空間,影像含有豐富的內(nèi)容,這些借助視頻信號(hào)和聲頻信號(hào)來(lái)傳達(dá)的信息用基于文本的處理技術(shù)很難處理,無(wú)法想象用關(guān)鍵詞等人工標(biāo)引方法來(lái)解決。怎樣對(duì)影像進(jìn)行有效的索引是數(shù)字影像圖書(shū)館要解決的一個(gè)關(guān)鍵問(wèn)題。20世紀(jì)70年代,人們就對(duì)圖像數(shù)據(jù)庫(kù)進(jìn)行研究,方法是利用人工輸入圖像的各種屬性,建立圖像的元數(shù)據(jù)庫(kù)來(lái)支持查詢(xún)。但是,隨著20世紀(jì)90年代多媒體技術(shù)的發(fā)展,可獲取的圖像和其它多媒體數(shù)據(jù)越來(lái)越多,數(shù)據(jù)庫(kù)容量不斷增大,而這種用人工輸入屬性和注釋的方法就暴露出了它的缺點(diǎn)。其一是人工注釋需要大量的人力;其二是人工注釋難以解決蘊(yùn)藏在多媒體數(shù)據(jù)中豐富的內(nèi)容以及內(nèi)容感知描述的主觀性;其三是對(duì)于實(shí)時(shí)流媒體的處理,手工處理是完全不可行的,必須用計(jì)算機(jī)進(jìn)行實(shí)時(shí)的內(nèi)容分析。由此,基于內(nèi)容的多媒體信息檢索研究應(yīng)運(yùn)而生。實(shí)現(xiàn)多媒體信息檢索,影像內(nèi)容的理解和分段是影像處理的關(guān)鍵所在。由于影像數(shù)據(jù)的復(fù)雜性,對(duì)上述問(wèn)題的完全解決方案,即從影像中自動(dòng)抽取語(yǔ)義信息或通用的視覺(jué)識(shí)別系統(tǒng),目前還難以實(shí)現(xiàn)。唯有全方位地綜合應(yīng)用文字描述、圖像處理、語(yǔ)音識(shí)別、自然語(yǔ)言理解、視頻分析等技術(shù)才是一條可行的途徑。也就是盡可能地收集與影像有關(guān)的文字描述,利用語(yǔ)音識(shí)別盡可能采取聲頻信息中所包含的文字和語(yǔ)音信息源,提供自然語(yǔ)言理解,利用圖像處理技術(shù)理解影像的關(guān)鍵內(nèi)容等。20世紀(jì)90年代初,國(guó)際上就開(kāi)始了對(duì)基于內(nèi)容的多媒體信息檢索的研究。從基本的顏色檢索,到綜合利用多種多媒體特征進(jìn)行檢索,該項(xiàng)技術(shù)已經(jīng)發(fā)展到了高級(jí)階段,大量原型系統(tǒng)已經(jīng)推出,同時(shí)多媒體內(nèi)容描述標(biāo)準(zhǔn)MPEG-7也正在制定當(dāng)中。用戶(hù)習(xí)慣于通過(guò)概念來(lái)提交查詢(xún)。概念查詢(xún)的一種實(shí)現(xiàn)方式是基于文本式的描述,用關(guān)鍵詞、關(guān)鍵詞邏輯組合或自然語(yǔ)言來(lái)表達(dá)查詢(xún)的概念。當(dāng)詞語(yǔ)難以足夠形象而準(zhǔn)確地描述視覺(jué)和聽(tīng)覺(jué)感知時(shí),用戶(hù)就需要利用媒體呈現(xiàn)的視覺(jué)和聽(tīng)覺(jué)特性來(lái)查詢(xún)。多媒體內(nèi)容可以在多個(gè)層次上說(shuō)明:概念級(jí)內(nèi)容利用文本形式描述,感知特性包括視覺(jué)特性和聽(tīng)覺(jué)特性用邏輯關(guān)系表示音視頻對(duì)象的時(shí)空關(guān)系,信號(hào)特性通過(guò)信號(hào)處理方法獲得媒體區(qū)分特征等等。獲得媒體內(nèi)容的方式可以是人工方式或自動(dòng)方式,最好采用半自動(dòng)方式,使人和計(jì)算機(jī)各自發(fā)揮特長(zhǎng),通過(guò)交互和學(xué)習(xí)獲取媒體的內(nèi)容。多媒體內(nèi)容的處理分為三個(gè)部分:一是內(nèi)容獲取,二是內(nèi)容描述,三是內(nèi)容操縱。這也可將其看成是內(nèi)容處理的三個(gè)步驟,即先對(duì)原始媒體進(jìn)行處理,提取內(nèi)容,然后用標(biāo)準(zhǔn)形式對(duì)它們進(jìn)行描述,以支持各種內(nèi)容的操縱。內(nèi)容獲取是通過(guò)內(nèi)容結(jié)構(gòu)化和特征抽取獲得媒體內(nèi)容的過(guò)程。多媒體數(shù)據(jù)具有時(shí)空特性,內(nèi)容的一個(gè)重要成分是空間和時(shí)間結(jié)構(gòu)。內(nèi)容結(jié)構(gòu)化就是分割出圖像對(duì)象、視頻的時(shí)間結(jié)構(gòu)、運(yùn)動(dòng)對(duì)象以及這些對(duì)象之間的關(guān)系。特征抽取就是提取顯著的區(qū)分特征和人的視覺(jué)、聽(tīng)覺(jué)方面的感知特征來(lái)表示媒體對(duì)象的性質(zhì)。內(nèi)容描述是指描述在以上過(guò)程中獲取的內(nèi)容,目前MPEG-7專(zhuān)家組正在制定多媒體內(nèi)容描述標(biāo)準(zhǔn)。內(nèi)容操縱包括摘要、查詢(xún)、索引、檢索、瀏覽、過(guò)濾等技術(shù)。5全文檢索的發(fā)展目前,全文檢索技術(shù)的應(yīng)用領(lǐng)域主要包括:企業(yè)信息門(mén)戶(hù)、媒體網(wǎng)站、政府網(wǎng)站、數(shù)字圖書(shū)館、搜索引擎及商業(yè)網(wǎng)站。所謂全文檢索,就是以各類(lèi)數(shù)據(jù)諸如文字、聲音、圖像等為主要處理對(duì)象,根據(jù)數(shù)據(jù)資料的內(nèi)容,而不是外在特征來(lái)實(shí)現(xiàn)的信息檢索手段。通過(guò)提供快捷的數(shù)據(jù)管理工具和強(qiáng)大的數(shù)據(jù)查詢(xún)手段,幫助人們進(jìn)行大量文檔資料的整理和管理工作,使人們能快速方便地查找到他們想要的任何信息。全文檢索在技術(shù)上日趨成熟。目前看來(lái),無(wú)論是軟件的商品化發(fā)展,還是技術(shù)都取得了較大進(jìn)步,國(guó)內(nèi)廠(chǎng)商自主開(kāi)發(fā)的全文檢索系統(tǒng)市場(chǎng)占有率已經(jīng)超過(guò)90%。盡管如此,要在整體上提高全文檢索系統(tǒng)的水平和可用性,仍需要在以下幾個(gè)方面爭(zhēng)取有更大的突破。①中文自然語(yǔ)言處理技術(shù)。無(wú)論從數(shù)據(jù)挖掘角度來(lái)提高全文檢索的查全率和查準(zhǔn)率,還是提供更易使用的自然語(yǔ)言查詢(xún)接口方面,中文自然語(yǔ)言處理仍然是關(guān)鍵因素。沒(méi)有領(lǐng)先的中文自然語(yǔ)言處理技術(shù),信息檢索就無(wú)法實(shí)現(xiàn)檢索效果“質(zhì)”的突破,這里首先要解決的是中文字/詞索引問(wèn)題。②全文檢索系統(tǒng)的評(píng)價(jià)。我國(guó)全文檢索技術(shù)的研究和系統(tǒng)開(kāi)發(fā)缺乏科學(xué)的評(píng)價(jià),國(guó)際上TRECConference()被認(rèn)為是最具有權(quán)威的信息檢索技術(shù)評(píng)測(cè)規(guī)范,很多實(shí)驗(yàn)室系統(tǒng)、商業(yè)系統(tǒng)均積極參加。我國(guó)也應(yīng)研制信息檢索技術(shù)評(píng)測(cè)規(guī)范標(biāo)準(zhǔn)。③系統(tǒng)的可靠性和響應(yīng)速度。應(yīng)該分析用戶(hù)檢索表達(dá)式的使用頻度,加速在子集里檢索的速度,因?yàn)橛脩?hù)經(jīng)常只在某

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論