版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)基礎(chǔ)信息檢索ppt課件目前一頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.1信息檢索的概念7.1信息檢索概述目前二頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.1信息檢索的概念信息檢索包括兩個(gè)層次的含義:廣義的信息檢索和狹義的信息檢索。廣義的信息檢索包括信息的存儲(chǔ)和查找兩個(gè)過(guò)程,如圖7.1所示的全部過(guò)程就是廣義的信息檢索。信息的存儲(chǔ)就是將大量無(wú)序的文獻(xiàn)信息進(jìn)行搜集、整理、歸類,采用規(guī)范的方法進(jìn)行編排,編制出各種檢索系統(tǒng)。信息查找必須先有信息存儲(chǔ),而信息存儲(chǔ)就是為了更快捷地查找信息。信息查找則是信息存儲(chǔ)的逆向過(guò)程,是人們根據(jù)特定需要,運(yùn)用已有的檢索系統(tǒng),有序查詢并找出符合要求的信息。狹義的信息檢索是指信息的查找過(guò)程,只包括圖7.1中的后半部分,本書(shū)中討論的信息檢索就是狹義的信息檢索。7.1信息檢索概述目前三頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.2信息檢索的類型1.根據(jù)檢索對(duì)象劃分根據(jù)檢索對(duì)象的不同,信息檢索分為文獻(xiàn)檢索、事實(shí)檢索和數(shù)據(jù)檢索三種。(1)文獻(xiàn)檢索。文獻(xiàn)檢索以文獻(xiàn)為檢索對(duì)象,查找含有用戶所需信息的文獻(xiàn)。文獻(xiàn)檢索是一種相關(guān)性檢索而非確定性檢索,系統(tǒng)不直接回答用戶所提出的問(wèn)題本身,它提供的是與用戶信息需求相關(guān)文獻(xiàn)的線索或原文。(2)事實(shí)檢索。事實(shí)檢索以特定的事實(shí)為檢索對(duì)象,是存儲(chǔ)有關(guān)課題(如機(jī)構(gòu)、人物等)的指示性描述,或關(guān)于某一事件發(fā)生的時(shí)間、地點(diǎn)、經(jīng)過(guò)等信息,并將其查找出來(lái)的檢索,屬于確定性檢索。(3)數(shù)據(jù)檢索。數(shù)據(jù)檢索以數(shù)據(jù)為檢索對(duì)象,屬于確定性檢索,它是將經(jīng)過(guò)選擇、整理、鑒定的數(shù)據(jù)存入數(shù)據(jù)庫(kù)中,根據(jù)需要查出可回答某一問(wèn)題的數(shù)據(jù)的檢索。例如,查找公式、數(shù)據(jù)、圖表、成分、性能等都屬于數(shù)據(jù)檢索的范疇。7.1信息檢索概述目前四頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.2信息檢索的類型2.按檢索方式劃分按檢索方式的不同,信息檢索可以分為手工檢索、機(jī)械檢索和計(jì)算機(jī)檢索三種方式。(1)手工檢索。手工檢索就是以人工的方式直接查找所需的信息,多利用各種檢索工具的印刷版來(lái)實(shí)現(xiàn),例如印刷的目錄、題錄、文摘、索引等。手工檢索直觀,不需要輔助設(shè)備,但速度慢、漏檢嚴(yán)重。(2)機(jī)械檢索。機(jī)械檢索也稱機(jī)電式檢索,是指運(yùn)用打孔機(jī)、分類機(jī)及光電感應(yīng)設(shè)備等進(jìn)行的檢索。機(jī)械檢索過(guò)分依賴設(shè)備,成本較高,檢索效果和質(zhì)量都不太理想。(3)計(jì)算機(jī)檢索。計(jì)算機(jī)信息檢索是將大量的文獻(xiàn)資料或數(shù)據(jù)進(jìn)行加工整理,按一定格式存儲(chǔ)在數(shù)據(jù)庫(kù)中,利用計(jì)算機(jī)對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索的信息檢索方式。與手工檢索相比,計(jì)算機(jī)檢索速度快、效率高、查全率高、不受時(shí)空限制、檢索結(jié)果輸出方式多樣。除上述兩種主要的分類方式外,信息檢索還有另外多種分類方式。例如按照檢索對(duì)象的信息組織方式可以分為全文檢索、超文本檢索和超媒體檢索;按照檢索對(duì)象的形式可分為文本檢索和多媒體檢索;按照檢索要求可分為強(qiáng)相關(guān)檢索和弱相關(guān)檢索;按檢索的時(shí)間跨度可分為定題檢索和回溯檢索。7.1信息檢索概述目前五頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.3信息檢索模型1.布爾檢索模型布爾檢索模型是基于集合論和布爾代數(shù)的一種簡(jiǎn)單檢索模型。由于集合是一個(gè)相當(dāng)直觀的概念,所以布爾檢索模型為信息檢索系統(tǒng)的普通用戶提供了一種易于掌握的框架。在布爾檢索模型中,查詢被描述為具有精確語(yǔ)義的布爾表達(dá)式。因?yàn)樵撃P偷暮?jiǎn)單性和易于表示的形式方法,在很長(zhǎng)一段時(shí)間內(nèi)都受到重視。然而,布爾檢索模型的缺點(diǎn)也是相當(dāng)明顯的。首先,該模型的檢索策略是基于二值決策準(zhǔn)則,即一個(gè)文檔只被判別為相關(guān)的或無(wú)關(guān)的,而沒(méi)有任何等級(jí)變化,難以提高檢索性能,因此布爾檢索模型主要用于實(shí)現(xiàn)數(shù)據(jù)檢索模型,而不是信息檢索模型;其次,這種方法將構(gòu)造一個(gè)合適的查詢的責(zé)任推到用戶身上,用戶必須詳細(xì)規(guī)劃自己的查詢,其復(fù)雜程度不亞于編寫(xiě)程序,普通用戶無(wú)法用布爾表達(dá)式描述他們的查詢請(qǐng)求。于是一些研究人員改進(jìn)了布爾模型,提出了向量空間模型。7.1信息檢索概述目前六頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.3信息檢索模型2.向量空間模型向量空間模型是一種基于代數(shù)理論的檢索模型。在向量空間模型中,一個(gè)文檔被描述成由一系列關(guān)鍵詞組成的向量,每一個(gè)關(guān)鍵詞都是這個(gè)向量空間中的一維。同樣道理,來(lái)自用戶的查詢也可以用向量來(lái)表示。當(dāng)進(jìn)行一個(gè)查詢時(shí),向量空間模型將計(jì)算查詢和文檔表示之間的相似度,例如可以用兩個(gè)向量之間的歐氏距離或兩個(gè)向量之間的余弦?jiàn)A角表示二者之間的相似度,然后對(duì)檢出的文檔按照相似度進(jìn)行降序排列,以實(shí)現(xiàn)文檔與查詢項(xiàng)的部分匹配,于是查詢結(jié)果集中文檔的排列順序要合理的多。與布爾檢索模型相比,向量空間模型改善了檢索性能,其部分匹配的策略允許所檢索的文檔與查詢條件相近似,同時(shí)還能夠按照文檔與查詢的相似度對(duì)文檔進(jìn)行排序。但在向量空間模型中,各索引項(xiàng)之間是互相獨(dú)立的,無(wú)法對(duì)文檔中的索引項(xiàng)提供相關(guān)性信息,而在實(shí)際中,需要考慮各索引項(xiàng)之間的相關(guān)性才能得到滿意的查詢結(jié)果。向量空間模型適合一般的文檔集的相似性排序,通過(guò)查詢擴(kuò)展或相關(guān)反饋,可以改善模型產(chǎn)生的結(jié)果集。向量空間模型與其他檢索模型相比較,即使不是最優(yōu)的,其性能也相當(dāng)好的,因此該模型是目前普遍采用的信息檢索模型。7.1信息檢索概述目前七頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.3信息檢索模型3.概率檢索模型概率檢索模型是一種基于概率論的檢索模型,試圖在一個(gè)概率框架內(nèi)處理信息檢索問(wèn)題。概率檢索模型假設(shè)給定一個(gè)用戶的查詢,則有一個(gè)只包含相關(guān)文檔且不包含無(wú)關(guān)文檔的理想結(jié)果集,如果能夠給出這個(gè)理想結(jié)果集的描述,檢索文檔時(shí)就十分方便了。最初我們并不能精確給出理想結(jié)果集,但猜測(cè)允許我們產(chǎn)生一個(gè)初步的對(duì)理想結(jié)果集的概率描述,用于檢索出初始的文檔集,然后引入用戶的交互,以改善理想結(jié)果集的概率描述。用戶瀏覽檢索出文檔,并決定哪些文檔是相關(guān)的,哪些是無(wú)關(guān)的。然后信息檢索系統(tǒng)利用這個(gè)信息,修改理想結(jié)果集的描述。通過(guò)多次重復(fù)這個(gè)過(guò)程,不斷修改描述并逐步接近理想結(jié)果集的真實(shí)描述。從理論上講,概率檢索模型檢出的文檔將按照相關(guān)的概率降序排列,這符合我們的查詢要求。但在該模型中,需要最初將文檔分為相關(guān)的和無(wú)關(guān)的兩個(gè)集合,并且與向量空間模型一樣,各索引項(xiàng)之間是獨(dú)立的,無(wú)法對(duì)文檔中的索引項(xiàng)提供相關(guān)性信息。7.1信息檢索概述目前八頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.4信息檢索效果的評(píng)價(jià)檢索效果(RetrievalEffectiveness)是指用戶利用檢索系統(tǒng)實(shí)施檢索的有效程度,也是某次檢索滿足用戶信息需求的程度,它直接反映了檢索系統(tǒng)的性能和本次檢索的成敗。判定信息檢索效果的主要標(biāo)準(zhǔn)包括查全率、查準(zhǔn)率、漏查率、誤查率等。1.查全率查全率(RecallRatio)又稱檢全率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)檢索出的所有信息量與檢索系統(tǒng)中相關(guān)信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述目前九頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.4信息檢索效果的評(píng)價(jià)2.查準(zhǔn)率查準(zhǔn)率(PrecisionRatio)又稱檢準(zhǔn)率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)檢索出的符合課題需要的相關(guān)信息量與檢索出的信息總量的比率,具體可用下面的公式表示:3.漏查率漏查率(OmissionRatio)又稱漏檢率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)未檢索出的相關(guān)信息量與檢索系統(tǒng)中相關(guān)信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述目前十頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.4信息檢索效果的評(píng)價(jià)4.誤查率誤查率(MissRatio)又稱誤檢率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)檢索出的不相關(guān)信息量與檢索出的信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述目前十一頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法1.網(wǎng)絡(luò)瀏覽網(wǎng)絡(luò)瀏覽是Internet上發(fā)現(xiàn)和檢索信息的最原始方法。在日常的網(wǎng)絡(luò)閱讀中,人們都有過(guò)意外發(fā)現(xiàn)有用信息的體驗(yàn),尤其是網(wǎng)頁(yè)中提供的超鏈接,使用戶可以在Internet中“順鏈而行”,從一個(gè)網(wǎng)頁(yè)轉(zhuǎn)到另一個(gè)網(wǎng)頁(yè)。追蹤某個(gè)網(wǎng)頁(yè)的相關(guān)鏈接有些類似于傳統(tǒng)文獻(xiàn)檢索中的“追溯檢索”,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)追溯相關(guān)文獻(xiàn),一輪一輪地不斷擴(kuò)大范圍。這種方式可以在很短時(shí)間內(nèi)獲得大量相關(guān)信息,但也可能會(huì)偏離檢索目標(biāo),因此搜索的結(jié)果可能帶有某種偶然性和片面性。嚴(yán)格地說(shuō),網(wǎng)絡(luò)瀏覽并不是一種真正的網(wǎng)絡(luò)信息檢索方法。當(dāng)我們?cè)诰W(wǎng)絡(luò)瀏覽中發(fā)現(xiàn)有價(jià)值的信息后,應(yīng)及時(shí)收藏這些信息頁(yè)面,為今后的使用提供方便。7.2Internet網(wǎng)絡(luò)信息檢索目前十二頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法1.網(wǎng)絡(luò)瀏覽網(wǎng)絡(luò)瀏覽是Internet上發(fā)現(xiàn)和檢索信息的最原始方法。在日常的網(wǎng)絡(luò)閱讀中,人們都有過(guò)意外發(fā)現(xiàn)有用信息的體驗(yàn),尤其是網(wǎng)頁(yè)中提供的超鏈接,使用戶可以在Internet中“順鏈而行”,從一個(gè)網(wǎng)頁(yè)轉(zhuǎn)到另一個(gè)網(wǎng)頁(yè)。追蹤某個(gè)網(wǎng)頁(yè)的相關(guān)鏈接有些類似于傳統(tǒng)文獻(xiàn)檢索中的“追溯檢索”,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)追溯相關(guān)文獻(xiàn),一輪一輪地不斷擴(kuò)大范圍。這種方式可以在很短時(shí)間內(nèi)獲得大量相關(guān)信息,但也可能會(huì)偏離檢索目標(biāo),因此搜索的結(jié)果可能帶有某種偶然性和片面性。嚴(yán)格地說(shuō),網(wǎng)絡(luò)瀏覽并不是一種真正的網(wǎng)絡(luò)信息檢索方法。當(dāng)我們?cè)诰W(wǎng)絡(luò)瀏覽中發(fā)現(xiàn)有價(jià)值的信息后,應(yīng)及時(shí)收藏這些信息頁(yè)面,為今后的使用提供方便。7.2Internet網(wǎng)絡(luò)信息檢索目前十三頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法2.使用搜索引擎檢索信息搜索引擎作為主要的Internet網(wǎng)絡(luò)信息檢索工具,能夠向用戶提供關(guān)鍵詞、詞組或自然語(yǔ)言檢索,在網(wǎng)絡(luò)信息檢索中具有重要的地位。在進(jìn)行信息檢索時(shí),由戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫(kù)中進(jìn)行查找,并將檢索結(jié)果反饋給用戶。一般情況下,搜索引擎具有布爾檢索、詞組檢索、截詞檢索、字段檢索等多種功能。利用搜索引擎實(shí)施檢索省時(shí)省力、簡(jiǎn)單方便、檢索速度快、能及時(shí)獲取新增網(wǎng)絡(luò)信息。但由于搜索引擎使用計(jì)算機(jī)程序自動(dòng)進(jìn)行信息的加工、處理,檢索軟件的智能性不是很高,會(huì)造成檢索的準(zhǔn)確性不是很理想,與人們的檢索需求及對(duì)檢索效率的期望存在一定的差距。7.2Internet網(wǎng)絡(luò)信息檢索目前十四頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法3.使用網(wǎng)絡(luò)資源指南檢索信息開(kāi)發(fā)網(wǎng)絡(luò)資源指南的目的是可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的智能性查找。為了對(duì)Internet上的信息資源加以組織和管理,使大量有價(jià)值的信息納入一個(gè)有序的組織體系,便于用戶全面掌握網(wǎng)絡(luò)資源的分布,專業(yè)人員基于對(duì)網(wǎng)絡(luò)信息資源的產(chǎn)生、傳遞與利用機(jī)制的廣泛了解,以及對(duì)網(wǎng)絡(luò)信息資源分布狀況的熟悉,使用采集、組織、評(píng)價(jià)、過(guò)濾、控制、檢索等各種手段,開(kāi)發(fā)出用于快速檢索信息的網(wǎng)絡(luò)資源指南。網(wǎng)絡(luò)資源指南會(huì)根據(jù)網(wǎng)絡(luò)信息的主題內(nèi)容進(jìn)行分類,并以等級(jí)目錄的形式進(jìn)行組織。在Internet上,綜合性的網(wǎng)絡(luò)資源指南廣受歡迎,最著名的就是Yahoo目錄;而專業(yè)性的網(wǎng)絡(luò)資源指南也很普遍,幾乎每一個(gè)學(xué)科專業(yè)、重要課題、研究領(lǐng)域的網(wǎng)絡(luò)資源指南都可以在Internet上找到,例如中國(guó)高等教育文獻(xiàn)保障系統(tǒng)CALIS()就是一個(gè)含有多學(xué)科的網(wǎng)絡(luò)資源指南。但使用網(wǎng)絡(luò)資源指南也存在著很大的局限性,由于對(duì)網(wǎng)絡(luò)資源指南的管理和維護(hù)跟不上網(wǎng)絡(luò)信息的增長(zhǎng)速度,因此其中收錄信息的范圍不夠全面,新穎性、及時(shí)性不夠強(qiáng),同時(shí)用戶還要受開(kāi)發(fā)人員分類思想的限制。7.2Internet網(wǎng)絡(luò)信息檢索目前十五頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法4.使用在線數(shù)據(jù)庫(kù)檢索信息使用Internet上的在線數(shù)據(jù)庫(kù)進(jìn)行查詢,是用戶獲取學(xué)術(shù)性信息的最有效方法。目前,Internet上在線數(shù)據(jù)庫(kù)有很多,比較著名的有維普數(shù)據(jù)庫(kù)、CNKI中國(guó)期刊網(wǎng)、萬(wàn)方數(shù)據(jù)庫(kù)資源系統(tǒng)、超星數(shù)字圖書(shū)館等。5.使用其他類型的網(wǎng)絡(luò)信息檢索工具在Internet發(fā)展的初期,相繼開(kāi)發(fā)了一系列的網(wǎng)絡(luò)信息查詢工具。例如,使用Telnet遠(yuǎn)程登錄到各類圖書(shū)館的公共目錄系統(tǒng)、信息服務(wù)機(jī)構(gòu)的綜合信息系統(tǒng)等進(jìn)行查詢;使用分布式數(shù)據(jù)庫(kù)檢索系統(tǒng)Archie在FTP文件服務(wù)器中查詢信息;使用USENET新聞組在Internet上讀取新聞組消息并開(kāi)展討論;使用基于菜單驅(qū)動(dòng)的Internet信息查詢工具檢索文本信息;使用廣域信息查詢工具WAIS在Internet上檢索信息資源。需要注意的是,由于WWW系統(tǒng)的快速發(fā)展,成為Internet網(wǎng)絡(luò)信息發(fā)布的主流,隨著時(shí)間的不斷推移,在上述網(wǎng)絡(luò)信息查詢工具中,有些還在繼續(xù)使用,有些已無(wú)人問(wèn)津。7.2Internet網(wǎng)絡(luò)信息檢索目前十六頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎1.搜索引擎的工作原理搜索引擎通常由搜索器、索引器、檢索器、數(shù)據(jù)庫(kù)和用戶接口五個(gè)部分組成。搜索器是一個(gè)自動(dòng)運(yùn)行的程序,人們通常也將其稱為蜘蛛(Spider)、機(jī)器人(Robot)、網(wǎng)頁(yè)爬行者(WebCrawler)等,搜索器的功能是在Internet中自動(dòng)漫游,發(fā)現(xiàn)信息并生成信息摘要。它日夜不停地運(yùn)行,盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)還要定期更新已經(jīng)搜集過(guò)的舊信息,避免無(wú)效鏈接的出現(xiàn)。索引器也稱標(biāo)引器,它的主要功能是對(duì)搜索器捕獲的信息進(jìn)行分析,從中抽取出索引項(xiàng),建立文檔的索引表。索引器的標(biāo)引方法因系統(tǒng)的不同而異,大多數(shù)都采取自動(dòng)標(biāo)引技術(shù),可以建立對(duì)WWW網(wǎng)頁(yè)內(nèi)容的全文索引,也可以按某些分類或特征從網(wǎng)頁(yè)中抽取信息。數(shù)據(jù)庫(kù)是搜索引擎所包含信息資源的集合,它不僅存放搜索器從網(wǎng)絡(luò)中收集的信息摘要,同時(shí)還存放了索引器對(duì)這些信息摘要建立的索引項(xiàng),以備將來(lái)用戶查詢時(shí)使用。檢索器是根據(jù)用戶的查詢要求在信息數(shù)據(jù)庫(kù)中快速匹配文檔,對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性的反饋機(jī)制。用戶接口供用戶輸入查詢,顯示匹配結(jié)果。主要目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效及時(shí)的信息。7.2Internet網(wǎng)絡(luò)信息檢索目前十七頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎1.搜索引擎的工作原理在搜索引擎中,首先利用搜索器從Internet上收集各網(wǎng)絡(luò)站點(diǎn)的摘要信息,再使用索引器對(duì)網(wǎng)頁(yè)上的某些關(guān)鍵詞建立索引,并存放到本地?cái)?shù)據(jù)庫(kù)中。當(dāng)用戶在檢索時(shí),通過(guò)搜索引擎的用戶接口訪問(wèn)摘要信息數(shù)據(jù)庫(kù),檢索器根據(jù)用戶的查詢條件快速檢索出文檔,并對(duì)將要輸出的結(jié)果進(jìn)行排序和相關(guān)性處理,最后再通過(guò)用戶接口將檢索結(jié)果反饋給用戶。7.2Internet網(wǎng)絡(luò)信息檢索目前十八頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎2.搜索引擎的基本檢索功能搜索引擎使用輸入的檢索關(guān)鍵詞進(jìn)行檢索。一般地,可以將搜索引擎的檢索功能分為基本檢索功能和高級(jí)檢索功能兩類。搜索引擎支持的基本檢索功能主要有字符串檢索、布爾邏輯檢索、截詞檢索、字段限制檢索等。(1)布爾邏輯檢索搜索引擎大都支持布爾邏輯檢索,即用布爾算符AND、OR、NOT連接檢索關(guān)鍵詞進(jìn)行邏輯運(yùn)算。例如檢索關(guān)鍵詞“計(jì)算機(jī)AND數(shù)碼相機(jī)”表示查詢既含有計(jì)算機(jī)又含有數(shù)碼相機(jī)的信息內(nèi)容,而檢索關(guān)鍵詞“計(jì)算機(jī)OR數(shù)碼相機(jī)”則表示查詢含有計(jì)算機(jī)或含有數(shù)碼相機(jī)的信息內(nèi)容。需要注意的是,不同的搜索引擎對(duì)邏輯檢索支持的程度不同,邏輯運(yùn)算符的表示也不相同,使用時(shí)應(yīng)參考具體的搜索引擎。(2)字符串檢索字符串檢索是一種精確的查找方式,它將一個(gè)字符串當(dāng)成一個(gè)獨(dú)立的運(yùn)算單元進(jìn)行嚴(yán)格地匹配。字符串檢索不僅規(guī)定了檢索關(guān)鍵詞中各個(gè)具體的檢索詞及其相互的邏輯關(guān)系,而且規(guī)定了檢索詞之間的位置關(guān)系。幾乎所有的搜索引擎都支持字符串檢索,而且都采用雙引號(hào)“”來(lái)代表字符串。例如在搜索引擎中使用字符串“計(jì)算機(jī)軟件”作為檢索關(guān)鍵詞,就等于告訴搜索引擎只檢索網(wǎng)頁(yè)中含有“計(jì)算機(jī)軟件”的信息內(nèi)容,而忽略哪些包含有“計(jì)算機(jī)軟件行情”的信息內(nèi)容。7.2Internet網(wǎng)絡(luò)信息檢索目前十九頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎(3)截詞檢索截詞檢索是能夠有效防止漏檢的檢索技術(shù),尤其在西文檢索中應(yīng)用更加廣泛。截?cái)嗉夹g(shù)可以擴(kuò)大檢索范圍,具有方便用戶、增強(qiáng)檢索效果的特點(diǎn),但一定要合理使用,否則會(huì)造成誤檢。大多數(shù)搜索引擎都支持截詞功能,一般提供右截?cái)啵行┧阉饕娌捎米詣?dòng)截詞,有的搜索引擎則是在一定條件下才能截詞。常用的截詞符有“?”、“*”和“$”,例如在搜索引擎中可以輸入檢索關(guān)鍵詞“comput?”,則搜索引擎可以檢索出包含computer、computers、computing等的信息內(nèi)容。(4)字段限制檢索在搜索引擎中,字段檢索一律表現(xiàn)為前綴符限制的形式,如屬于主題字段限制的有Title、Keywords、Subject、Summary等;屬于非主題字段限制的有Image、Text、Applet等。此外搜索引擎還提供了帶有典型的網(wǎng)絡(luò)檢索特征的字段限制類型,如主機(jī)名限制Host、網(wǎng)站地址限制Site、域名限制Domain、新聞組限制Newsgroups、URL限制URL等。例如希望限制在新浪網(wǎng)中檢索信息,可在檢索關(guān)鍵詞后添加字符串“Site:”。7.2Internet網(wǎng)絡(luò)信息檢索目前二十頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎3.搜索引擎的高級(jí)檢索功能搜索引擎的高級(jí)檢索功能包括自然語(yǔ)言檢索、模糊檢索、概念檢索、區(qū)分大小寫(xiě)的檢索、管道檢索、相關(guān)信息反饋檢索等。(1)自然語(yǔ)言檢索自然語(yǔ)言檢索即直接采用自然語(yǔ)言中的字、詞、句作為檢索關(guān)鍵詞進(jìn)行檢索,例如可以使用“什么是信息檢索?”或“當(dāng)前計(jì)算機(jī)的發(fā)展趨勢(shì)如何?”這樣的語(yǔ)句充當(dāng)檢索關(guān)鍵詞。自然語(yǔ)言檢索使網(wǎng)絡(luò)檢索變得簡(jiǎn)單、直接,目前大多數(shù)的搜索引擎都支持自然語(yǔ)言檢索,因而備受廣大用戶的歡迎。(2)模糊檢索模糊檢索是一種常用的檢索技術(shù),當(dāng)輸入一個(gè)檢索關(guān)鍵詞時(shí),搜索引擎就把與關(guān)鍵詞相關(guān)的詞條同時(shí)檢索出來(lái)供用戶加以選擇。例如使用關(guān)鍵詞“搜索引擎”進(jìn)行檢索時(shí),模糊檢索就會(huì)同時(shí)檢索出包含搜索引擎、搜尋引擎、引擎等相關(guān)詞條的信息內(nèi)容。(3)概念檢索概念檢索主要是同義詞和近義詞檢索,即使用某檢索關(guān)鍵詞時(shí),概念檢索技術(shù)會(huì)同時(shí)對(duì)與該詞概念類似的同義詞和近義詞進(jìn)行檢索,以達(dá)到擴(kuò)大檢索、避免漏檢的目的。例如用戶使用“計(jì)算機(jī)”作為檢索關(guān)鍵詞時(shí),模糊檢索就會(huì)檢索出包含有“計(jì)算機(jī)”、“電腦”、“PC機(jī)”等相關(guān)詞條的信息內(nèi)容。7.2Internet網(wǎng)絡(luò)信息檢索目前二十一頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎(4)區(qū)分大小寫(xiě)的檢索區(qū)分大小寫(xiě)的檢索有助于提高查準(zhǔn)率,為此許多搜索引擎都可以讓用戶選擇是否要求區(qū)分英文字母的大小寫(xiě),在檢索含有的人名、地名等專有名詞的關(guān)鍵詞中經(jīng)常使用。(5)管道檢索管道檢索即用管道檢索符號(hào)“|”連接兩個(gè)或更多檢索關(guān)鍵詞,先使用前一個(gè)關(guān)鍵詞進(jìn)行檢索,再在查詢結(jié)果的基礎(chǔ)上對(duì)后一個(gè)關(guān)鍵詞進(jìn)行檢索,以此類推,以達(dá)到逐步縮小檢索結(jié)果、提高查準(zhǔn)率的目的。(6)相關(guān)信息反饋檢索搜索引擎往往能進(jìn)一步提供與檢索結(jié)果類似的結(jié)果,這稱為相關(guān)信息反饋檢索。7.2Internet網(wǎng)絡(luò)信息檢索目前二十二頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.3常用搜索引擎介紹目前,在Internet上用戶常用的搜索引擎有百度、谷歌、雅虎、必應(yīng)、愛(ài)問(wèn)和搜搜等,下面列出了它們的其網(wǎng)絡(luò)地址。百度()谷歌()雅虎()必應(yīng)()愛(ài)問(wèn)()搜搜()7.2Internet網(wǎng)絡(luò)信息檢索目前二十三頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)中國(guó)知識(shí)基礎(chǔ)設(shè)施(ChinaNationalKnowledgeInfrastructure,CNKI)是以建設(shè)社會(huì)化的知識(shí)基礎(chǔ)設(shè)施為目標(biāo)的國(guó)家級(jí)大規(guī)模信息化工程,該項(xiàng)目由清華大學(xué)發(fā)起,1999年6月開(kāi)始實(shí)施,目前已建成世界上全文信息量最大的CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái),涵蓋了期刊、報(bào)紙、專利文獻(xiàn)、學(xué)位論文、會(huì)議論文等各類文獻(xiàn),使我國(guó)教育、科研、政府、企業(yè)、醫(yī)療衛(wèi)生等各行業(yè)獲取與交流信息的能力達(dá)到了國(guó)際先進(jìn)水平。CNKI以網(wǎng)絡(luò)形式發(fā)布信息,因而又稱為中國(guó)知網(wǎng)(),其主頁(yè)如圖7.8所示。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前二十四頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前二十五頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)CNKI目前已建成并投入使用的數(shù)據(jù)庫(kù)主要包括:中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù)中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù)中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù)中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù)中國(guó)專利全文數(shù)據(jù)庫(kù)高等教育文獻(xiàn)總庫(kù)中國(guó)基礎(chǔ)教育知識(shí)倉(cāng)庫(kù)醫(yī)院知識(shí)倉(cāng)庫(kù)中國(guó)城市規(guī)劃知識(shí)倉(cāng)庫(kù)7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前二十六頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)1.中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)簡(jiǎn)介中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)是在《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》的基礎(chǔ)上開(kāi)發(fā)的基于Internet的一種大規(guī)模集成化、多功能、動(dòng)態(tài)學(xué)術(shù)期刊全文檢索系統(tǒng),全文收錄國(guó)內(nèi)7400多種重要的學(xué)術(shù)類期刊,內(nèi)容覆蓋自然科學(xué)、工程技術(shù)、農(nóng)業(yè)、哲學(xué)、醫(yī)學(xué)、人文社會(huì)科學(xué)等各個(gè)領(lǐng)域,累積的學(xué)術(shù)期刊文獻(xiàn)總量超過(guò)2400萬(wàn)篇。中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)收錄的內(nèi)容共分為10個(gè)專輯,分別是基礎(chǔ)科學(xué)、工程科技I輯、工程科技II輯、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、信息科技、人文與社會(huì)科學(xué)文獻(xiàn)、社會(huì)科學(xué)I輯、社會(huì)科學(xué)II輯、經(jīng)濟(jì)管理科學(xué),共168個(gè)專題文獻(xiàn)數(shù)據(jù)庫(kù),7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前二十七頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(/)2.登錄CNKI由于CNKI的全文數(shù)據(jù)庫(kù)均為收費(fèi)檢索數(shù)據(jù)庫(kù),因此使用CNKI的用戶必須是注冊(cè)用戶或是CNKI中心網(wǎng)站、CNKI開(kāi)放式鏡像站點(diǎn)的包庫(kù)用戶。在如圖7.8所示的CNKI主頁(yè)中,輸入注冊(cè)賬號(hào)和密碼后即可登錄CNKI。一般情況下,校園網(wǎng)用戶可首先登錄到學(xué)校圖書(shū)館網(wǎng)站,再通過(guò)超鏈接進(jìn)入CNKI主頁(yè),輸入學(xué)校圖書(shū)館提供的賬號(hào)和密碼,登錄CNKI。登錄后,可通過(guò)CNKI主頁(yè)面中的超鏈接進(jìn)入文獻(xiàn)檢索頁(yè)面。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前二十八頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)3.CNKI的檢索方式在如圖7.8所示的頁(yè)面中,右邊列出了學(xué)科領(lǐng)域分類細(xì)目,用戶可根據(jù)需要逐級(jí)選擇使用;下方列出了各類數(shù)據(jù)庫(kù),用戶可以選擇中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)、中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù)及其他用于檢索的數(shù)據(jù)庫(kù)。CNKI提供了包括簡(jiǎn)單檢索、標(biāo)準(zhǔn)檢索、高級(jí)檢索、專業(yè)檢索、引文檢索、學(xué)者檢索、科研基金檢索、句子檢索等在內(nèi)的多種檢索方式。(1)簡(jiǎn)單檢索簡(jiǎn)單檢索界面如圖7.10所示,提供了類似搜索引擎的檢索方式,用戶只需要輸入所要找的檢索關(guān)鍵詞,單擊“簡(jiǎn)單檢索”按鈕就能查到相關(guān)的文獻(xiàn)。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前二十九頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(2)標(biāo)準(zhǔn)檢索標(biāo)準(zhǔn)檢索是CNKI檢索系統(tǒng)默認(rèn)的檢索方式,標(biāo)準(zhǔn)檢索界面如圖7.11所示。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前三十頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(3)高級(jí)檢索高級(jí)檢索界面如圖7.12所示,用戶應(yīng)首先輸入范圍控制條件,再輸入文獻(xiàn)內(nèi)容特征信息,最后對(duì)檢索得到的結(jié)果分組排序。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前三十一頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)4)專業(yè)檢索專業(yè)檢索面向從事圖書(shū)情報(bào)檢索工作的專業(yè)用戶,用戶需要使用邏輯運(yùn)算符和關(guān)鍵詞構(gòu)造檢索式進(jìn)行檢索,其檢索界面如圖7.13所示。在專業(yè)檢索中,可使用主題、題名(篇名)、關(guān)鍵詞、摘要、全文、作者、第一責(zé)任人(第一作者)、機(jī)構(gòu)(單位)、中文刊名或英文刊名、引文(參考文獻(xiàn))、發(fā)表時(shí)間、年、基金、中圖分類號(hào)、ISSN、統(tǒng)一刊號(hào)、ISBN、被引頻次等檢索字段構(gòu)造檢索表達(dá)式,多個(gè)檢索項(xiàng)的檢索表達(dá)式之間用AND、OR、NOT邏輯運(yùn)算符進(jìn)行組合。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前三十二頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(5)引文檢索引文檢索以被引文獻(xiàn)的特征信息和文獻(xiàn)的引用關(guān)系為出發(fā)點(diǎn)進(jìn)行文件檢索,其檢索界面如圖7.14所示。引文檢索的檢索過(guò)程與標(biāo)準(zhǔn)檢索一致,這里就不在贅述。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)目前三十三頁(yè)\總數(shù)四十頁(yè)\編于十九點(diǎn)青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(6)學(xué)者檢索學(xué)者檢索對(duì)學(xué)者信息及發(fā)表文獻(xiàn)的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年冀教新版選修化學(xué)下冊(cè)月考試卷含答案
- 2025年滬科版選修4歷史下冊(cè)月考試卷含答案
- 2025年度門(mén)衛(wèi)值班人員交通秩序管理聘用合同4篇
- 南京二手房2025年度電子合同簽訂流程規(guī)范4篇
- 技能再教育培訓(xùn)合同(2篇)
- 房頂防水安全合同(2篇)
- 美容院2025年度美容師職業(yè)發(fā)展規(guī)劃與晉升合同3篇
- 二零二五年度城市軌道交通出渣車輛勞務(wù)分包合同范本3篇
- 二零二五年度美容美發(fā)行業(yè)美容產(chǎn)品進(jìn)出口代理合同4篇
- 二零二五版滅火器產(chǎn)品安全使用指南編寫(xiě)合同3篇
- 2024版?zhèn)€人私有房屋購(gòu)買合同
- 2024爆炸物運(yùn)輸安全保障協(xié)議版B版
- 2025年度軍人軍事秘密保護(hù)保密協(xié)議與信息安全風(fēng)險(xiǎn)評(píng)估合同3篇
- 《食品與食品》課件
- 讀書(shū)分享會(huì)《白夜行》
- 光伏工程施工組織設(shè)計(jì)
- DB4101-T 121-2024 類家庭社會(huì)工作服務(wù)規(guī)范
- 化學(xué)纖維的鑒別與測(cè)試方法考核試卷
- 2024-2025學(xué)年全國(guó)中學(xué)生天文知識(shí)競(jìng)賽考試題庫(kù)(含答案)
- 自動(dòng)駕駛汽車道路交通安全性探討研究論文
- 術(shù)后譫妄及護(hù)理
評(píng)論
0/150
提交評(píng)論