資訊檢索系統(tǒng)概論課件_第1頁
資訊檢索系統(tǒng)概論課件_第2頁
資訊檢索系統(tǒng)概論課件_第3頁
資訊檢索系統(tǒng)概論課件_第4頁
資訊檢索系統(tǒng)概論課件_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

資訊檢索技術(shù)參考資料: 林秋燕 曾元顯 卜小蝶,Chap.1、3 Chowdhury,Chap.91資訊檢索技術(shù)參考資料:1資訊檢索技術(shù)簡(jiǎn)介目的利用電腦儲(chǔ)存與計(jì)算能力,協(xié)助使用者從大量缺乏結(jié)構(gòu)化(Non-structural)資料中,快速擷取所需分析使用者資訊檢索需求意涵,嘗試提供解決方案涵蓋各種類型資料之處理文字、表格、圖片、文件結(jié)構(gòu)化v.s.非結(jié)構(gòu)化包含所有分類、管理、儲(chǔ)存、搜尋大量電子資訊所需技術(shù),以及對(duì)於使用者需求的認(rèn)知2資訊檢索技術(shù)簡(jiǎn)介目的2資訊檢索技術(shù)的發(fā)展—1/2發(fā)展歷程人工分類關(guān)鍵詞技術(shù)KWICKWOC全文檢索索引搜尋快速比對(duì)高品質(zhì)全文檢索各種技術(shù)標(biāo)準(zhǔn)問世MARCSGMLHTMLZ39.50XML兩大發(fā)展族群System-centredmodelsUser-centredorcognitivemodels3資訊檢索技術(shù)的發(fā)展—1/2發(fā)展歷程各種技術(shù)標(biāo)準(zhǔn)問世3資訊檢索技術(shù)的發(fā)展—2/2比較重點(diǎn)早期研究方向最新研究方向資訊型態(tài)文字型態(tài)為主擴(kuò)展至多媒體型式資料特性歷史性靜態(tài)資料及時(shí)性動(dòng)態(tài)資料資料庫收錄範(fàn)圍學(xué)術(shù)性,如書目文獻(xiàn)多元化,如即時(shí)新聞、WebPage等檢索技術(shù)以文字比對(duì)為基礎(chǔ)發(fā)展智慧型檢索技術(shù)服務(wù)層面允許有限人次檢索允許全球每日千萬人次上線檢索服務(wù)範(fàn)疇限制在區(qū)域網(wǎng)路幾乎皆以廣域網(wǎng)路為目標(biāo)服務(wù)型態(tài)以公眾服務(wù)為主開始個(gè)人化資訊服務(wù)參與學(xué)門資訊科學(xué)、圖書資訊學(xué)大量科際整合,如電腦工程、電機(jī)工程、語言學(xué)、新聞傳播等4資訊檢索技術(shù)的發(fā)展—2/2比較重點(diǎn)早期研究方向最新研究方向資系統(tǒng)導(dǎo)向之資訊檢索技術(shù)模組Booleanmodel(布林邏輯查詢)Cluster-BasedModel(串聯(lián)基礎(chǔ)模式)Vector-SpaceModel(向量模式)ProbabilisticModel(機(jī)率模式)Bestmatchsearchingmodel(最佳化查詢模式)Relevancefeedbackmodel(相關(guān)回饋模式)Naturallanguageprocessingmodel(自然語言處理模式)Hypertextmodel(超文件模式)5系統(tǒng)導(dǎo)向之資訊檢索技術(shù)模組Booleanmodel(布林邏Booleanmodel提供檢索詞彙間AND、OR、NOT的組合製作簡(jiǎn)單、檢索速度快可用不同欄位資料來限定檢索範(fàn)圍,對(duì)主題明確的檢索(如明確的作者名稱、標(biāo)題名稱)非常有效但一般使用者比較難以利用此種模式表達(dá)較為複雜的查詢6Booleanmodel提供檢索詞彙間AND、OR、NOTCluster-BasedModel理論基礎(chǔ)假設(shè)相似的文件,應(yīng)能符合類似的資訊需求以串聯(lián)技術(shù)分析文件中所使用的詞?。═erm),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個(gè)串聯(lián)(Cluster)。利用此種自動(dòng)歸類(AutomaticClustering)方式,便能將內(nèi)容相近的文件歸成一類,除能藉由此關(guān)連找出未包含檢索詞彙的相關(guān)文件,更能提供進(jìn)一步的歸納、摘要,與主題辨識(shí)。7Cluster-BasedModel理論基礎(chǔ)7Vector-SpaceModel將檢索系統(tǒng)所有的文件視為一個(gè)文件向量空間每一篇文件則為這個(gè)空間內(nèi)的一個(gè)點(diǎn)(一個(gè)向量)使用者的查詢問句(query)亦視為文件向量空間的一個(gè)點(diǎn)計(jì)算代表文件的向量與代表查詢問句的向量的相似性系統(tǒng)依照文件與查詢問句相似性的大小,排列系統(tǒng)認(rèn)為相關(guān)的文件

8Vector-SpaceModel將檢索系統(tǒng)所有的文件視為ProbabilisticModel以文件(document)機(jī)率的大小決定該文件是否與使用者之查詢問句(query)相關(guān)使用者之查詢問句為已知條件,依據(jù)該查詢問句計(jì)算文件之機(jī)率P(d|q)=P(d,q)/P(q)超過一定機(jī)率的文件則被檢索系統(tǒng)認(rèn)為符合使用者的檢索需求機(jī)率的大小則為文件排序的依據(jù)9ProbabilisticModel以文件(documenBestmatchsearchingmodel採用Ranking理念(重要性排序)檢索結(jié)果按符合程度排序,以加快檢索結(jié)果的檢視整理與利用,此為布林邏輯模式難以達(dá)到的重要功能排序方式Termweighting將查詢字串或文獻(xiàn)內(nèi)的索引詞彙,依重要性分別給予加權(quán)比數(shù)。呈現(xiàn)檢索結(jié)果時(shí),權(quán)重高的詞彙排序在前面。DocumentRanking利用詞彙權(quán)重評(píng)比,來判斷文獻(xiàn)和檢索詞彙的相似度,可節(jié)省瀏覽無關(guān)資料的時(shí)間10Bestmatchsearchingmodel採用RaRelevancefeedbackmodel使用者根據(jù)系統(tǒng)對(duì)檢索條件的回應(yīng),將相關(guān)資料或條件回饋給系統(tǒng),以導(dǎo)引系統(tǒng)搜尋的方向,逐步獲取自己所要的資料執(zhí)行初次檢索後,使用者根據(jù)系統(tǒng)回應(yīng),指出哪些文件或相關(guān)詞跟他的檢索主題相關(guān)或完全不相關(guān),並將此訊息回饋給系統(tǒng),系統(tǒng)便據(jù)此訊息,再作進(jìn)一步的搜尋相關(guān)回饋表現(xiàn)出來的檢索方式,常成為漸進(jìn)式查詢(progressivequery)或範(fàn)例查詢(querybyexample)的模式。11Relevancefeedbackmodel使用者根據(jù)系Naturallanguageprocessingmodel允許使用者以不限定的自然詞語、句法與系統(tǒng)溝通,因此使用者的負(fù)擔(dān)更輕,但系統(tǒng)的介面部份必須具備相當(dāng)程度的人工智慧能力,以瞭解自然語言的意義。三種處理層次Syntacticanalysis(語句結(jié)構(gòu)分析)Semanticanalysis(語意分析)Pragmaticanalysis(實(shí)際意涵分析)12NaturallanguageprocessingmoHypertextmodel採用互動(dòng)導(dǎo)覽方式,允許使用者瀏覽文件中個(gè)別不同內(nèi)容,或同一文獻(xiàn)集中的不同文件。跳脫原有線性循序閱讀方式惟仍受限於設(shè)計(jì)者的思維模式13Hypertextmodel採用互動(dòng)導(dǎo)覽方式,允許使用者瀏改善檢索品質(zhì)的使用者查詢模式InformationfilteringPersonalizedserviceQuerybyvoiceQuerybydialogFuzzysearchIntelligentsearchagentInformationMining14改善檢索品質(zhì)的使用者查詢模式InformationfiltInformationfiltering(資訊過濾)此種模式與使用者主動(dòng)查詢資料而系統(tǒng)被動(dòng)反應(yīng)相反。使用者向系統(tǒng)登錄自己的資訊需求、興趣或檢索條件後,由系統(tǒng)主動(dòng)、持續(xù)的為使用者蒐集相關(guān)的資料,再定時(shí)或不定時(shí)傳給使用者,使用者只需被動(dòng)接受檢索與過濾後的結(jié)果即可。因此,在一段期間內(nèi),使用者只需做一次檢索,即可獲得持續(xù)的檢索結(jié)果。15Informationfiltering(資訊過濾)此種Personalizedservice(個(gè)人化服務(wù))AdaptiveInformationRetrieval檢索系統(tǒng)記錄個(gè)別使用者的資訊需求,或是把相同需求的使用者的記錄組合運(yùn)用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時(shí),系統(tǒng)提供較符合個(gè)人興趣的回應(yīng),做到個(gè)別化的服務(wù)16Personalizedservice(個(gè)人化服務(wù))AdQuerybyvoice(語音檢索)ConversationalInformationRetrieval由文字介面轉(zhuǎn)變?yōu)檩^為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運(yùn)用。Speechrecognitionvoice-to-textSpeechsynthesistext-to-voice17Querybyvoice(語音檢索)ConversatQuerybydialog(對(duì)話式查詢)系統(tǒng)以文字或語音為介面同使用者對(duì)話,從對(duì)話中透露使用者的資訊需求與意圖,系統(tǒng)再據(jù)以檢索。此種模式強(qiáng)調(diào)的是使用者端運(yùn)用較為精緻的人機(jī)介面技術(shù),因此與檢索技術(shù)的實(shí)際運(yùn)作原理可以較無關(guān)係。18Querybydialog(對(duì)話式查詢)系統(tǒng)以文字或語Fuzzysearch(模糊搜尋)即容錯(cuò)式、全文式、非控制字彙、近似字串(proximity)、允許利用近似自然語言的方式表達(dá)檢索字串與條件的檢索模式。此種模式大大降低資訊檢索的複雜度,對(duì)不明確自己檢索主題的使用者幫助尤其顯著。尋易(CSmart)智慧型中文文件檢索系統(tǒng)

.tw/csmart/index.html19Fuzzysearch(模糊搜尋)即容錯(cuò)式、全文式、非控Intelligentsearchagent

(智慧型檢索精靈)使用者將自己的資訊需求交代檢索精靈程式,由此精靈代替使用者到各個(gè)相關(guān)資料庫檢索資料,再回報(bào)回使用者。此種模式是以上各種模式與人機(jī)介面技術(shù)的綜合運(yùn)用,使得資訊檢索可以達(dá)到時(shí)空無礙、虛擬實(shí)境的境界。20Intelligentsearchagent

(智慧型InformationMining(資訊探勘)發(fā)掘隱沒在大量文件內(nèi)的訊息,協(xié)助使用者發(fā)現(xiàn)知識(shí)、蒐集情報(bào)。DataMining(資料探勘)從結(jié)構(gòu)化資料中,找出資料的相關(guān)性DocumentMining(文本探勘)從非結(jié)構(gòu)化的資料中,找出資料的相關(guān)性21InformationMining(資訊探勘)發(fā)掘隱沒在大使用者導(dǎo)向資訊檢索模式Ingwersen’smodel使用者的認(rèn)知因其工作或興趣而不同,也造成其資訊需求和資訊行為的差異社會(huì)和組織環(huán)境也會(huì)影響之Belkin’smodelScanningtosearching、Goalofinteraction、Modeofretrieval、ResourcecondiseredSaracevic’smodelCognitive、Affective、Situational22使用者導(dǎo)向資訊檢索模式Ingwersen’smodel22資訊檢索技術(shù)參考資料: 林秋燕 曾元顯 卜小蝶,Chap.1、3 Chowdhury,Chap.923資訊檢索技術(shù)參考資料:1資訊檢索技術(shù)簡(jiǎn)介目的利用電腦儲(chǔ)存與計(jì)算能力,協(xié)助使用者從大量缺乏結(jié)構(gòu)化(Non-structural)資料中,快速擷取所需分析使用者資訊檢索需求意涵,嘗試提供解決方案涵蓋各種類型資料之處理文字、表格、圖片、文件結(jié)構(gòu)化v.s.非結(jié)構(gòu)化包含所有分類、管理、儲(chǔ)存、搜尋大量電子資訊所需技術(shù),以及對(duì)於使用者需求的認(rèn)知24資訊檢索技術(shù)簡(jiǎn)介目的2資訊檢索技術(shù)的發(fā)展—1/2發(fā)展歷程人工分類關(guān)鍵詞技術(shù)KWICKWOC全文檢索索引搜尋快速比對(duì)高品質(zhì)全文檢索各種技術(shù)標(biāo)準(zhǔn)問世MARCSGMLHTMLZ39.50XML兩大發(fā)展族群System-centredmodelsUser-centredorcognitivemodels25資訊檢索技術(shù)的發(fā)展—1/2發(fā)展歷程各種技術(shù)標(biāo)準(zhǔn)問世3資訊檢索技術(shù)的發(fā)展—2/2比較重點(diǎn)早期研究方向最新研究方向資訊型態(tài)文字型態(tài)為主擴(kuò)展至多媒體型式資料特性歷史性靜態(tài)資料及時(shí)性動(dòng)態(tài)資料資料庫收錄範(fàn)圍學(xué)術(shù)性,如書目文獻(xiàn)多元化,如即時(shí)新聞、WebPage等檢索技術(shù)以文字比對(duì)為基礎(chǔ)發(fā)展智慧型檢索技術(shù)服務(wù)層面允許有限人次檢索允許全球每日千萬人次上線檢索服務(wù)範(fàn)疇限制在區(qū)域網(wǎng)路幾乎皆以廣域網(wǎng)路為目標(biāo)服務(wù)型態(tài)以公眾服務(wù)為主開始個(gè)人化資訊服務(wù)參與學(xué)門資訊科學(xué)、圖書資訊學(xué)大量科際整合,如電腦工程、電機(jī)工程、語言學(xué)、新聞傳播等26資訊檢索技術(shù)的發(fā)展—2/2比較重點(diǎn)早期研究方向最新研究方向資系統(tǒng)導(dǎo)向之資訊檢索技術(shù)模組Booleanmodel(布林邏輯查詢)Cluster-BasedModel(串聯(lián)基礎(chǔ)模式)Vector-SpaceModel(向量模式)ProbabilisticModel(機(jī)率模式)Bestmatchsearchingmodel(最佳化查詢模式)Relevancefeedbackmodel(相關(guān)回饋模式)Naturallanguageprocessingmodel(自然語言處理模式)Hypertextmodel(超文件模式)27系統(tǒng)導(dǎo)向之資訊檢索技術(shù)模組Booleanmodel(布林邏Booleanmodel提供檢索詞彙間AND、OR、NOT的組合製作簡(jiǎn)單、檢索速度快可用不同欄位資料來限定檢索範(fàn)圍,對(duì)主題明確的檢索(如明確的作者名稱、標(biāo)題名稱)非常有效但一般使用者比較難以利用此種模式表達(dá)較為複雜的查詢28Booleanmodel提供檢索詞彙間AND、OR、NOTCluster-BasedModel理論基礎(chǔ)假設(shè)相似的文件,應(yīng)能符合類似的資訊需求以串聯(lián)技術(shù)分析文件中所使用的詞?。═erm),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個(gè)串聯(lián)(Cluster)。利用此種自動(dòng)歸類(AutomaticClustering)方式,便能將內(nèi)容相近的文件歸成一類,除能藉由此關(guān)連找出未包含檢索詞彙的相關(guān)文件,更能提供進(jìn)一步的歸納、摘要,與主題辨識(shí)。29Cluster-BasedModel理論基礎(chǔ)7Vector-SpaceModel將檢索系統(tǒng)所有的文件視為一個(gè)文件向量空間每一篇文件則為這個(gè)空間內(nèi)的一個(gè)點(diǎn)(一個(gè)向量)使用者的查詢問句(query)亦視為文件向量空間的一個(gè)點(diǎn)計(jì)算代表文件的向量與代表查詢問句的向量的相似性系統(tǒng)依照文件與查詢問句相似性的大小,排列系統(tǒng)認(rèn)為相關(guān)的文件

30Vector-SpaceModel將檢索系統(tǒng)所有的文件視為ProbabilisticModel以文件(document)機(jī)率的大小決定該文件是否與使用者之查詢問句(query)相關(guān)使用者之查詢問句為已知條件,依據(jù)該查詢問句計(jì)算文件之機(jī)率P(d|q)=P(d,q)/P(q)超過一定機(jī)率的文件則被檢索系統(tǒng)認(rèn)為符合使用者的檢索需求機(jī)率的大小則為文件排序的依據(jù)31ProbabilisticModel以文件(documenBestmatchsearchingmodel採用Ranking理念(重要性排序)檢索結(jié)果按符合程度排序,以加快檢索結(jié)果的檢視整理與利用,此為布林邏輯模式難以達(dá)到的重要功能排序方式Termweighting將查詢字串或文獻(xiàn)內(nèi)的索引詞彙,依重要性分別給予加權(quán)比數(shù)。呈現(xiàn)檢索結(jié)果時(shí),權(quán)重高的詞彙排序在前面。DocumentRanking利用詞彙權(quán)重評(píng)比,來判斷文獻(xiàn)和檢索詞彙的相似度,可節(jié)省瀏覽無關(guān)資料的時(shí)間32Bestmatchsearchingmodel採用RaRelevancefeedbackmodel使用者根據(jù)系統(tǒng)對(duì)檢索條件的回應(yīng),將相關(guān)資料或條件回饋給系統(tǒng),以導(dǎo)引系統(tǒng)搜尋的方向,逐步獲取自己所要的資料執(zhí)行初次檢索後,使用者根據(jù)系統(tǒng)回應(yīng),指出哪些文件或相關(guān)詞跟他的檢索主題相關(guān)或完全不相關(guān),並將此訊息回饋給系統(tǒng),系統(tǒng)便據(jù)此訊息,再作進(jìn)一步的搜尋相關(guān)回饋表現(xiàn)出來的檢索方式,常成為漸進(jìn)式查詢(progressivequery)或範(fàn)例查詢(querybyexample)的模式。33Relevancefeedbackmodel使用者根據(jù)系Naturallanguageprocessingmodel允許使用者以不限定的自然詞語、句法與系統(tǒng)溝通,因此使用者的負(fù)擔(dān)更輕,但系統(tǒng)的介面部份必須具備相當(dāng)程度的人工智慧能力,以瞭解自然語言的意義。三種處理層次Syntacticanalysis(語句結(jié)構(gòu)分析)Semanticanalysis(語意分析)Pragmaticanalysis(實(shí)際意涵分析)34NaturallanguageprocessingmoHypertextmodel採用互動(dòng)導(dǎo)覽方式,允許使用者瀏覽文件中個(gè)別不同內(nèi)容,或同一文獻(xiàn)集中的不同文件。跳脫原有線性循序閱讀方式惟仍受限於設(shè)計(jì)者的思維模式35Hypertextmodel採用互動(dòng)導(dǎo)覽方式,允許使用者瀏改善檢索品質(zhì)的使用者查詢模式InformationfilteringPersonalizedserviceQuerybyvoiceQuerybydialogFuzzysearchIntelligentsearchagentInformationMining36改善檢索品質(zhì)的使用者查詢模式InformationfiltInformationfiltering(資訊過濾)此種模式與使用者主動(dòng)查詢資料而系統(tǒng)被動(dòng)反應(yīng)相反。使用者向系統(tǒng)登錄自己的資訊需求、興趣或檢索條件後,由系統(tǒng)主動(dòng)、持續(xù)的為使用者蒐集相關(guān)的資料,再定時(shí)或不定時(shí)傳給使用者,使用者只需被動(dòng)接受檢索與過濾後的結(jié)果即可。因此,在一段期間內(nèi),使用者只需做一次檢索,即可獲得持續(xù)的檢索結(jié)果。37Informationfiltering(資訊過濾)此種Personalizedservice(個(gè)人化服務(wù))AdaptiveInformationRetrieval檢索系統(tǒng)記錄個(gè)別使用者的資訊需求,或是把相同需求的使用者的記錄組合運(yùn)用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時(shí),系統(tǒng)提供較符合個(gè)人興趣的回應(yīng),做到個(gè)別化的服務(wù)38Personalizedservice(個(gè)人化服務(wù))AdQuerybyvoice(語音檢索)ConversationalInformationRetrieval由文字介面轉(zhuǎn)變?yōu)檩^為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運(yùn)用。Speechrecognitionvoice-to-textSpeechsynthesistext-to-voice39Querybyvoice(語音檢索)ConversatQuerybydialog(對(duì)話式查詢)系統(tǒng)以文字或語音為介面同使用者對(duì)話,從對(duì)話中透露使用者的資訊需求與意圖,系統(tǒng)再據(jù)以檢索。此種模式強(qiáng)調(diào)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論