版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)基礎(chǔ)信息檢索ppt課件現(xiàn)在是1頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.1信息檢索的概念7.1信息檢索概述現(xiàn)在是2頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.1信息檢索的概念信息檢索包括兩個(gè)層次的含義:廣義的信息檢索和狹義的信息檢索。廣義的信息檢索包括信息的存儲(chǔ)和查找兩個(gè)過程,如圖7.1所示的全部過程就是廣義的信息檢索。信息的存儲(chǔ)就是將大量無序的文獻(xiàn)信息進(jìn)行搜集、整理、歸類,采用規(guī)范的方法進(jìn)行編排,編制出各種檢索系統(tǒng)。信息查找必須先有信息存儲(chǔ),而信息存儲(chǔ)就是為了更快捷地查找信息。信息查找則是信息存儲(chǔ)的逆向過程,是人們根據(jù)特定需要,運(yùn)用已有的檢索系統(tǒng),有序查詢并找出符合要求的信息。狹義的信息檢索是指信息的查找過程,只包括圖7.1中的后半部分,本書中討論的信息檢索就是狹義的信息檢索。7.1信息檢索概述現(xiàn)在是3頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.2信息檢索的類型1.根據(jù)檢索對(duì)象劃分根據(jù)檢索對(duì)象的不同,信息檢索分為文獻(xiàn)檢索、事實(shí)檢索和數(shù)據(jù)檢索三種。(1)文獻(xiàn)檢索。文獻(xiàn)檢索以文獻(xiàn)為檢索對(duì)象,查找含有用戶所需信息的文獻(xiàn)。文獻(xiàn)檢索是一種相關(guān)性檢索而非確定性檢索,系統(tǒng)不直接回答用戶所提出的問題本身,它提供的是與用戶信息需求相關(guān)文獻(xiàn)的線索或原文。(2)事實(shí)檢索。事實(shí)檢索以特定的事實(shí)為檢索對(duì)象,是存儲(chǔ)有關(guān)課題(如機(jī)構(gòu)、人物等)的指示性描述,或關(guān)于某一事件發(fā)生的時(shí)間、地點(diǎn)、經(jīng)過等信息,并將其查找出來的檢索,屬于確定性檢索。(3)數(shù)據(jù)檢索。數(shù)據(jù)檢索以數(shù)據(jù)為檢索對(duì)象,屬于確定性檢索,它是將經(jīng)過選擇、整理、鑒定的數(shù)據(jù)存入數(shù)據(jù)庫中,根據(jù)需要查出可回答某一問題的數(shù)據(jù)的檢索。例如,查找公式、數(shù)據(jù)、圖表、成分、性能等都屬于數(shù)據(jù)檢索的范疇。7.1信息檢索概述現(xiàn)在是4頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.2信息檢索的類型2.按檢索方式劃分按檢索方式的不同,信息檢索可以分為手工檢索、機(jī)械檢索和計(jì)算機(jī)檢索三種方式。(1)手工檢索。手工檢索就是以人工的方式直接查找所需的信息,多利用各種檢索工具的印刷版來實(shí)現(xiàn),例如印刷的目錄、題錄、文摘、索引等。手工檢索直觀,不需要輔助設(shè)備,但速度慢、漏檢嚴(yán)重。(2)機(jī)械檢索。機(jī)械檢索也稱機(jī)電式檢索,是指運(yùn)用打孔機(jī)、分類機(jī)及光電感應(yīng)設(shè)備等進(jìn)行的檢索。機(jī)械檢索過分依賴設(shè)備,成本較高,檢索效果和質(zhì)量都不太理想。(3)計(jì)算機(jī)檢索。計(jì)算機(jī)信息檢索是將大量的文獻(xiàn)資料或數(shù)據(jù)進(jìn)行加工整理,按一定格式存儲(chǔ)在數(shù)據(jù)庫中,利用計(jì)算機(jī)對(duì)數(shù)據(jù)庫進(jìn)行檢索的信息檢索方式。與手工檢索相比,計(jì)算機(jī)檢索速度快、效率高、查全率高、不受時(shí)空限制、檢索結(jié)果輸出方式多樣。除上述兩種主要的分類方式外,信息檢索還有另外多種分類方式。例如按照檢索對(duì)象的信息組織方式可以分為全文檢索、超文本檢索和超媒體檢索;按照檢索對(duì)象的形式可分為文本檢索和多媒體檢索;按照檢索要求可分為強(qiáng)相關(guān)檢索和弱相關(guān)檢索;按檢索的時(shí)間跨度可分為定題檢索和回溯檢索。7.1信息檢索概述現(xiàn)在是5頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.3信息檢索模型1.布爾檢索模型布爾檢索模型是基于集合論和布爾代數(shù)的一種簡(jiǎn)單檢索模型。由于集合是一個(gè)相當(dāng)直觀的概念,所以布爾檢索模型為信息檢索系統(tǒng)的普通用戶提供了一種易于掌握的框架。在布爾檢索模型中,查詢被描述為具有精確語義的布爾表達(dá)式。因?yàn)樵撃P偷暮?jiǎn)單性和易于表示的形式方法,在很長(zhǎng)一段時(shí)間內(nèi)都受到重視。然而,布爾檢索模型的缺點(diǎn)也是相當(dāng)明顯的。首先,該模型的檢索策略是基于二值決策準(zhǔn)則,即一個(gè)文檔只被判別為相關(guān)的或無關(guān)的,而沒有任何等級(jí)變化,難以提高檢索性能,因此布爾檢索模型主要用于實(shí)現(xiàn)數(shù)據(jù)檢索模型,而不是信息檢索模型;其次,這種方法將構(gòu)造一個(gè)合適的查詢的責(zé)任推到用戶身上,用戶必須詳細(xì)規(guī)劃自己的查詢,其復(fù)雜程度不亞于編寫程序,普通用戶無法用布爾表達(dá)式描述他們的查詢請(qǐng)求。于是一些研究人員改進(jìn)了布爾模型,提出了向量空間模型。7.1信息檢索概述現(xiàn)在是6頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.3信息檢索模型2.向量空間模型向量空間模型是一種基于代數(shù)理論的檢索模型。在向量空間模型中,一個(gè)文檔被描述成由一系列關(guān)鍵詞組成的向量,每一個(gè)關(guān)鍵詞都是這個(gè)向量空間中的一維。同樣道理,來自用戶的查詢也可以用向量來表示。當(dāng)進(jìn)行一個(gè)查詢時(shí),向量空間模型將計(jì)算查詢和文檔表示之間的相似度,例如可以用兩個(gè)向量之間的歐氏距離或兩個(gè)向量之間的余弦夾角表示二者之間的相似度,然后對(duì)檢出的文檔按照相似度進(jìn)行降序排列,以實(shí)現(xiàn)文檔與查詢項(xiàng)的部分匹配,于是查詢結(jié)果集中文檔的排列順序要合理的多。與布爾檢索模型相比,向量空間模型改善了檢索性能,其部分匹配的策略允許所檢索的文檔與查詢條件相近似,同時(shí)還能夠按照文檔與查詢的相似度對(duì)文檔進(jìn)行排序。但在向量空間模型中,各索引項(xiàng)之間是互相獨(dú)立的,無法對(duì)文檔中的索引項(xiàng)提供相關(guān)性信息,而在實(shí)際中,需要考慮各索引項(xiàng)之間的相關(guān)性才能得到滿意的查詢結(jié)果。向量空間模型適合一般的文檔集的相似性排序,通過查詢擴(kuò)展或相關(guān)反饋,可以改善模型產(chǎn)生的結(jié)果集。向量空間模型與其他檢索模型相比較,即使不是最優(yōu)的,其性能也相當(dāng)好的,因此該模型是目前普遍采用的信息檢索模型。7.1信息檢索概述現(xiàn)在是7頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.3信息檢索模型3.概率檢索模型概率檢索模型是一種基于概率論的檢索模型,試圖在一個(gè)概率框架內(nèi)處理信息檢索問題。概率檢索模型假設(shè)給定一個(gè)用戶的查詢,則有一個(gè)只包含相關(guān)文檔且不包含無關(guān)文檔的理想結(jié)果集,如果能夠給出這個(gè)理想結(jié)果集的描述,檢索文檔時(shí)就十分方便了。最初我們并不能精確給出理想結(jié)果集,但猜測(cè)允許我們產(chǎn)生一個(gè)初步的對(duì)理想結(jié)果集的概率描述,用于檢索出初始的文檔集,然后引入用戶的交互,以改善理想結(jié)果集的概率描述。用戶瀏覽檢索出文檔,并決定哪些文檔是相關(guān)的,哪些是無關(guān)的。然后信息檢索系統(tǒng)利用這個(gè)信息,修改理想結(jié)果集的描述。通過多次重復(fù)這個(gè)過程,不斷修改描述并逐步接近理想結(jié)果集的真實(shí)描述。從理論上講,概率檢索模型檢出的文檔將按照相關(guān)的概率降序排列,這符合我們的查詢要求。但在該模型中,需要最初將文檔分為相關(guān)的和無關(guān)的兩個(gè)集合,并且與向量空間模型一樣,各索引項(xiàng)之間是獨(dú)立的,無法對(duì)文檔中的索引項(xiàng)提供相關(guān)性信息。7.1信息檢索概述現(xiàn)在是8頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.4信息檢索效果的評(píng)價(jià)檢索效果(RetrievalEffectiveness)是指用戶利用檢索系統(tǒng)實(shí)施檢索的有效程度,也是某次檢索滿足用戶信息需求的程度,它直接反映了檢索系統(tǒng)的性能和本次檢索的成敗。判定信息檢索效果的主要標(biāo)準(zhǔn)包括查全率、查準(zhǔn)率、漏查率、誤查率等。1.查全率查全率(RecallRatio)又稱檢全率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)檢索出的所有信息量與檢索系統(tǒng)中相關(guān)信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述現(xiàn)在是9頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.4信息檢索效果的評(píng)價(jià)2.查準(zhǔn)率查準(zhǔn)率(PrecisionRatio)又稱檢準(zhǔn)率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)檢索出的符合課題需要的相關(guān)信息量與檢索出的信息總量的比率,具體可用下面的公式表示:3.漏查率漏查率(OmissionRatio)又稱漏檢率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)未檢索出的相關(guān)信息量與檢索系統(tǒng)中相關(guān)信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述現(xiàn)在是10頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.1.4信息檢索效果的評(píng)價(jià)4.誤查率誤查率(MissRatio)又稱誤檢率,是指用戶進(jìn)行某次檢索時(shí),系統(tǒng)檢索出的不相關(guān)信息量與檢索出的信息總量的比率,具體可用下面的公式表示:7.1信息檢索概述現(xiàn)在是11頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法1.網(wǎng)絡(luò)瀏覽網(wǎng)絡(luò)瀏覽是Internet上發(fā)現(xiàn)和檢索信息的最原始方法。在日常的網(wǎng)絡(luò)閱讀中,人們都有過意外發(fā)現(xiàn)有用信息的體驗(yàn),尤其是網(wǎng)頁中提供的超鏈接,使用戶可以在Internet中“順鏈而行”,從一個(gè)網(wǎng)頁轉(zhuǎn)到另一個(gè)網(wǎng)頁。追蹤某個(gè)網(wǎng)頁的相關(guān)鏈接有些類似于傳統(tǒng)文獻(xiàn)檢索中的“追溯檢索”,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)追溯相關(guān)文獻(xiàn),一輪一輪地不斷擴(kuò)大范圍。這種方式可以在很短時(shí)間內(nèi)獲得大量相關(guān)信息,但也可能會(huì)偏離檢索目標(biāo),因此搜索的結(jié)果可能帶有某種偶然性和片面性。嚴(yán)格地說,網(wǎng)絡(luò)瀏覽并不是一種真正的網(wǎng)絡(luò)信息檢索方法。當(dāng)我們?cè)诰W(wǎng)絡(luò)瀏覽中發(fā)現(xiàn)有價(jià)值的信息后,應(yīng)及時(shí)收藏這些信息頁面,為今后的使用提供方便。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是12頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法1.網(wǎng)絡(luò)瀏覽網(wǎng)絡(luò)瀏覽是Internet上發(fā)現(xiàn)和檢索信息的最原始方法。在日常的網(wǎng)絡(luò)閱讀中,人們都有過意外發(fā)現(xiàn)有用信息的體驗(yàn),尤其是網(wǎng)頁中提供的超鏈接,使用戶可以在Internet中“順鏈而行”,從一個(gè)網(wǎng)頁轉(zhuǎn)到另一個(gè)網(wǎng)頁。追蹤某個(gè)網(wǎng)頁的相關(guān)鏈接有些類似于傳統(tǒng)文獻(xiàn)檢索中的“追溯檢索”,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)追溯相關(guān)文獻(xiàn),一輪一輪地不斷擴(kuò)大范圍。這種方式可以在很短時(shí)間內(nèi)獲得大量相關(guān)信息,但也可能會(huì)偏離檢索目標(biāo),因此搜索的結(jié)果可能帶有某種偶然性和片面性。嚴(yán)格地說,網(wǎng)絡(luò)瀏覽并不是一種真正的網(wǎng)絡(luò)信息檢索方法。當(dāng)我們?cè)诰W(wǎng)絡(luò)瀏覽中發(fā)現(xiàn)有價(jià)值的信息后,應(yīng)及時(shí)收藏這些信息頁面,為今后的使用提供方便。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是13頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法2.使用搜索引擎檢索信息搜索引擎作為主要的Internet網(wǎng)絡(luò)信息檢索工具,能夠向用戶提供關(guān)鍵詞、詞組或自然語言檢索,在網(wǎng)絡(luò)信息檢索中具有重要的地位。在進(jìn)行信息檢索時(shí),由戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中進(jìn)行查找,并將檢索結(jié)果反饋給用戶。一般情況下,搜索引擎具有布爾檢索、詞組檢索、截詞檢索、字段檢索等多種功能。利用搜索引擎實(shí)施檢索省時(shí)省力、簡(jiǎn)單方便、檢索速度快、能及時(shí)獲取新增網(wǎng)絡(luò)信息。但由于搜索引擎使用計(jì)算機(jī)程序自動(dòng)進(jìn)行信息的加工、處理,檢索軟件的智能性不是很高,會(huì)造成檢索的準(zhǔn)確性不是很理想,與人們的檢索需求及對(duì)檢索效率的期望存在一定的差距。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是14頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法3.使用網(wǎng)絡(luò)資源指南檢索信息開發(fā)網(wǎng)絡(luò)資源指南的目的是可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的智能性查找。為了對(duì)Internet上的信息資源加以組織和管理,使大量有價(jià)值的信息納入一個(gè)有序的組織體系,便于用戶全面掌握網(wǎng)絡(luò)資源的分布,專業(yè)人員基于對(duì)網(wǎng)絡(luò)信息資源的產(chǎn)生、傳遞與利用機(jī)制的廣泛了解,以及對(duì)網(wǎng)絡(luò)信息資源分布狀況的熟悉,使用采集、組織、評(píng)價(jià)、過濾、控制、檢索等各種手段,開發(fā)出用于快速檢索信息的網(wǎng)絡(luò)資源指南。網(wǎng)絡(luò)資源指南會(huì)根據(jù)網(wǎng)絡(luò)信息的主題內(nèi)容進(jìn)行分類,并以等級(jí)目錄的形式進(jìn)行組織。在Internet上,綜合性的網(wǎng)絡(luò)資源指南廣受歡迎,最著名的就是Yahoo目錄;而專業(yè)性的網(wǎng)絡(luò)資源指南也很普遍,幾乎每一個(gè)學(xué)科專業(yè)、重要課題、研究領(lǐng)域的網(wǎng)絡(luò)資源指南都可以在Internet上找到,例如中國高等教育文獻(xiàn)保障系統(tǒng)CALIS()就是一個(gè)含有多學(xué)科的網(wǎng)絡(luò)資源指南。但使用網(wǎng)絡(luò)資源指南也存在著很大的局限性,由于對(duì)網(wǎng)絡(luò)資源指南的管理和維護(hù)跟不上網(wǎng)絡(luò)信息的增長(zhǎng)速度,因此其中收錄信息的范圍不夠全面,新穎性、及時(shí)性不夠強(qiáng),同時(shí)用戶還要受開發(fā)人員分類思想的限制。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是15頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.1Internet網(wǎng)絡(luò)信息檢索方法4.使用在線數(shù)據(jù)庫檢索信息使用Internet上的在線數(shù)據(jù)庫進(jìn)行查詢,是用戶獲取學(xué)術(shù)性信息的最有效方法。目前,Internet上在線數(shù)據(jù)庫有很多,比較著名的有維普數(shù)據(jù)庫、CNKI中國期刊網(wǎng)、萬方數(shù)據(jù)庫資源系統(tǒng)、超星數(shù)字圖書館等。5.使用其他類型的網(wǎng)絡(luò)信息檢索工具在Internet發(fā)展的初期,相繼開發(fā)了一系列的網(wǎng)絡(luò)信息查詢工具。例如,使用Telnet遠(yuǎn)程登錄到各類圖書館的公共目錄系統(tǒng)、信息服務(wù)機(jī)構(gòu)的綜合信息系統(tǒng)等進(jìn)行查詢;使用分布式數(shù)據(jù)庫檢索系統(tǒng)Archie在FTP文件服務(wù)器中查詢信息;使用USENET新聞組在Internet上讀取新聞組消息并開展討論;使用基于菜單驅(qū)動(dòng)的Internet信息查詢工具檢索文本信息;使用廣域信息查詢工具WAIS在Internet上檢索信息資源。需要注意的是,由于WWW系統(tǒng)的快速發(fā)展,成為Internet網(wǎng)絡(luò)信息發(fā)布的主流,隨著時(shí)間的不斷推移,在上述網(wǎng)絡(luò)信息查詢工具中,有些還在繼續(xù)使用,有些已無人問津。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是16頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎1.搜索引擎的工作原理搜索引擎通常由搜索器、索引器、檢索器、數(shù)據(jù)庫和用戶接口五個(gè)部分組成。搜索器是一個(gè)自動(dòng)運(yùn)行的程序,人們通常也將其稱為蜘蛛(Spider)、機(jī)器人(Robot)、網(wǎng)頁爬行者(WebCrawler)等,搜索器的功能是在Internet中自動(dòng)漫游,發(fā)現(xiàn)信息并生成信息摘要。它日夜不停地運(yùn)行,盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)還要定期更新已經(jīng)搜集過的舊信息,避免無效鏈接的出現(xiàn)。索引器也稱標(biāo)引器,它的主要功能是對(duì)搜索器捕獲的信息進(jìn)行分析,從中抽取出索引項(xiàng),建立文檔的索引表。索引器的標(biāo)引方法因系統(tǒng)的不同而異,大多數(shù)都采取自動(dòng)標(biāo)引技術(shù),可以建立對(duì)WWW網(wǎng)頁內(nèi)容的全文索引,也可以按某些分類或特征從網(wǎng)頁中抽取信息。數(shù)據(jù)庫是搜索引擎所包含信息資源的集合,它不僅存放搜索器從網(wǎng)絡(luò)中收集的信息摘要,同時(shí)還存放了索引器對(duì)這些信息摘要建立的索引項(xiàng),以備將來用戶查詢時(shí)使用。檢索器是根據(jù)用戶的查詢要求在信息數(shù)據(jù)庫中快速匹配文檔,對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性的反饋機(jī)制。用戶接口供用戶輸入查詢,顯示匹配結(jié)果。主要目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效及時(shí)的信息。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是17頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎1.搜索引擎的工作原理在搜索引擎中,首先利用搜索器從Internet上收集各網(wǎng)絡(luò)站點(diǎn)的摘要信息,再使用索引器對(duì)網(wǎng)頁上的某些關(guān)鍵詞建立索引,并存放到本地?cái)?shù)據(jù)庫中。當(dāng)用戶在檢索時(shí),通過搜索引擎的用戶接口訪問摘要信息數(shù)據(jù)庫,檢索器根據(jù)用戶的查詢條件快速檢索出文檔,并對(duì)將要輸出的結(jié)果進(jìn)行排序和相關(guān)性處理,最后再通過用戶接口將檢索結(jié)果反饋給用戶。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是18頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎2.搜索引擎的基本檢索功能搜索引擎使用輸入的檢索關(guān)鍵詞進(jìn)行檢索。一般地,可以將搜索引擎的檢索功能分為基本檢索功能和高級(jí)檢索功能兩類。搜索引擎支持的基本檢索功能主要有字符串檢索、布爾邏輯檢索、截詞檢索、字段限制檢索等。(1)布爾邏輯檢索搜索引擎大都支持布爾邏輯檢索,即用布爾算符AND、OR、NOT連接檢索關(guān)鍵詞進(jìn)行邏輯運(yùn)算。例如檢索關(guān)鍵詞“計(jì)算機(jī)AND數(shù)碼相機(jī)”表示查詢既含有計(jì)算機(jī)又含有數(shù)碼相機(jī)的信息內(nèi)容,而檢索關(guān)鍵詞“計(jì)算機(jī)OR數(shù)碼相機(jī)”則表示查詢含有計(jì)算機(jī)或含有數(shù)碼相機(jī)的信息內(nèi)容。需要注意的是,不同的搜索引擎對(duì)邏輯檢索支持的程度不同,邏輯運(yùn)算符的表示也不相同,使用時(shí)應(yīng)參考具體的搜索引擎。(2)字符串檢索字符串檢索是一種精確的查找方式,它將一個(gè)字符串當(dāng)成一個(gè)獨(dú)立的運(yùn)算單元進(jìn)行嚴(yán)格地匹配。字符串檢索不僅規(guī)定了檢索關(guān)鍵詞中各個(gè)具體的檢索詞及其相互的邏輯關(guān)系,而且規(guī)定了檢索詞之間的位置關(guān)系。幾乎所有的搜索引擎都支持字符串檢索,而且都采用雙引號(hào)“”來代表字符串。例如在搜索引擎中使用字符串“計(jì)算機(jī)軟件”作為檢索關(guān)鍵詞,就等于告訴搜索引擎只檢索網(wǎng)頁中含有“計(jì)算機(jī)軟件”的信息內(nèi)容,而忽略哪些包含有“計(jì)算機(jī)軟件行情”的信息內(nèi)容。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是19頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎(3)截詞檢索截詞檢索是能夠有效防止漏檢的檢索技術(shù),尤其在西文檢索中應(yīng)用更加廣泛。截?cái)嗉夹g(shù)可以擴(kuò)大檢索范圍,具有方便用戶、增強(qiáng)檢索效果的特點(diǎn),但一定要合理使用,否則會(huì)造成誤檢。大多數(shù)搜索引擎都支持截詞功能,一般提供右截?cái)?,有些搜索引擎采用自?dòng)截詞,有的搜索引擎則是在一定條件下才能截詞。常用的截詞符有“?”、“*”和“$”,例如在搜索引擎中可以輸入檢索關(guān)鍵詞“comput?”,則搜索引擎可以檢索出包含computer、computers、computing等的信息內(nèi)容。(4)字段限制檢索在搜索引擎中,字段檢索一律表現(xiàn)為前綴符限制的形式,如屬于主題字段限制的有Title、Keywords、Subject、Summary等;屬于非主題字段限制的有Image、Text、Applet等。此外搜索引擎還提供了帶有典型的網(wǎng)絡(luò)檢索特征的字段限制類型,如主機(jī)名限制Host、網(wǎng)站地址限制Site、域名限制Domain、新聞組限制Newsgroups、URL限制URL等。例如希望限制在新浪網(wǎng)中檢索信息,可在檢索關(guān)鍵詞后添加字符串“Site:”。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是20頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎3.搜索引擎的高級(jí)檢索功能搜索引擎的高級(jí)檢索功能包括自然語言檢索、模糊檢索、概念檢索、區(qū)分大小寫的檢索、管道檢索、相關(guān)信息反饋檢索等。(1)自然語言檢索自然語言檢索即直接采用自然語言中的字、詞、句作為檢索關(guān)鍵詞進(jìn)行檢索,例如可以使用“什么是信息檢索?”或“當(dāng)前計(jì)算機(jī)的發(fā)展趨勢(shì)如何?”這樣的語句充當(dāng)檢索關(guān)鍵詞。自然語言檢索使網(wǎng)絡(luò)檢索變得簡(jiǎn)單、直接,目前大多數(shù)的搜索引擎都支持自然語言檢索,因而備受廣大用戶的歡迎。(2)模糊檢索模糊檢索是一種常用的檢索技術(shù),當(dāng)輸入一個(gè)檢索關(guān)鍵詞時(shí),搜索引擎就把與關(guān)鍵詞相關(guān)的詞條同時(shí)檢索出來供用戶加以選擇。例如使用關(guān)鍵詞“搜索引擎”進(jìn)行檢索時(shí),模糊檢索就會(huì)同時(shí)檢索出包含搜索引擎、搜尋引擎、引擎等相關(guān)詞條的信息內(nèi)容。(3)概念檢索概念檢索主要是同義詞和近義詞檢索,即使用某檢索關(guān)鍵詞時(shí),概念檢索技術(shù)會(huì)同時(shí)對(duì)與該詞概念類似的同義詞和近義詞進(jìn)行檢索,以達(dá)到擴(kuò)大檢索、避免漏檢的目的。例如用戶使用“計(jì)算機(jī)”作為檢索關(guān)鍵詞時(shí),模糊檢索就會(huì)檢索出包含有“計(jì)算機(jī)”、“電腦”、“PC機(jī)”等相關(guān)詞條的信息內(nèi)容。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是21頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.2Internet搜索引擎(4)區(qū)分大小寫的檢索區(qū)分大小寫的檢索有助于提高查準(zhǔn)率,為此許多搜索引擎都可以讓用戶選擇是否要求區(qū)分英文字母的大小寫,在檢索含有的人名、地名等專有名詞的關(guān)鍵詞中經(jīng)常使用。(5)管道檢索管道檢索即用管道檢索符號(hào)“|”連接兩個(gè)或更多檢索關(guān)鍵詞,先使用前一個(gè)關(guān)鍵詞進(jìn)行檢索,再在查詢結(jié)果的基礎(chǔ)上對(duì)后一個(gè)關(guān)鍵詞進(jìn)行檢索,以此類推,以達(dá)到逐步縮小檢索結(jié)果、提高查準(zhǔn)率的目的。(6)相關(guān)信息反饋檢索搜索引擎往往能進(jìn)一步提供與檢索結(jié)果類似的結(jié)果,這稱為相關(guān)信息反饋檢索。7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是22頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.2.3常用搜索引擎介紹目前,在Internet上用戶常用的搜索引擎有百度、谷歌、雅虎、必應(yīng)、愛問和搜搜等,下面列出了它們的其網(wǎng)絡(luò)地址。百度()谷歌()雅虎()必應(yīng)()愛問()搜搜()7.2Internet網(wǎng)絡(luò)信息檢索現(xiàn)在是23頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)中國知識(shí)基礎(chǔ)設(shè)施(ChinaNationalKnowledgeInfrastructure,CNKI)是以建設(shè)社會(huì)化的知識(shí)基礎(chǔ)設(shè)施為目標(biāo)的國家級(jí)大規(guī)模信息化工程,該項(xiàng)目由清華大學(xué)發(fā)起,1999年6月開始實(shí)施,目前已建成世界上全文信息量最大的CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái),涵蓋了期刊、報(bào)紙、專利文獻(xiàn)、學(xué)位論文、會(huì)議論文等各類文獻(xiàn),使我國教育、科研、政府、企業(yè)、醫(yī)療衛(wèi)生等各行業(yè)獲取與交流信息的能力達(dá)到了國際先進(jìn)水平。CNKI以網(wǎng)絡(luò)形式發(fā)布信息,因而又稱為中國知網(wǎng)(),其主頁如圖7.8所示。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是24頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是25頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)CNKI目前已建成并投入使用的數(shù)據(jù)庫主要包括:中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫中國博士學(xué)位論文全文數(shù)據(jù)庫中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫中國重要會(huì)議論文全文數(shù)據(jù)庫中國重要報(bào)紙全文數(shù)據(jù)庫中國專利全文數(shù)據(jù)庫高等教育文獻(xiàn)總庫中國基礎(chǔ)教育知識(shí)倉庫醫(yī)院知識(shí)倉庫中國城市規(guī)劃知識(shí)倉庫7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是26頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)1.中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫簡(jiǎn)介中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫是在《中國學(xué)術(shù)期刊(光盤版)》的基礎(chǔ)上開發(fā)的基于Internet的一種大規(guī)模集成化、多功能、動(dòng)態(tài)學(xué)術(shù)期刊全文檢索系統(tǒng),全文收錄國內(nèi)7400多種重要的學(xué)術(shù)類期刊,內(nèi)容覆蓋自然科學(xué)、工程技術(shù)、農(nóng)業(yè)、哲學(xué)、醫(yī)學(xué)、人文社會(huì)科學(xué)等各個(gè)領(lǐng)域,累積的學(xué)術(shù)期刊文獻(xiàn)總量超過2400萬篇。中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫收錄的內(nèi)容共分為10個(gè)專輯,分別是基礎(chǔ)科學(xué)、工程科技I輯、工程科技II輯、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、信息科技、人文與社會(huì)科學(xué)文獻(xiàn)、社會(huì)科學(xué)I輯、社會(huì)科學(xué)II輯、經(jīng)濟(jì)管理科學(xué),共168個(gè)專題文獻(xiàn)數(shù)據(jù)庫,7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是27頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(/)2.登錄CNKI由于CNKI的全文數(shù)據(jù)庫均為收費(fèi)檢索數(shù)據(jù)庫,因此使用CNKI的用戶必須是注冊(cè)用戶或是CNKI中心網(wǎng)站、CNKI開放式鏡像站點(diǎn)的包庫用戶。在如圖7.8所示的CNKI主頁中,輸入注冊(cè)賬號(hào)和密碼后即可登錄CNKI。一般情況下,校園網(wǎng)用戶可首先登錄到學(xué)校圖書館網(wǎng)站,再通過超鏈接進(jìn)入CNKI主頁,輸入學(xué)校圖書館提供的賬號(hào)和密碼,登錄CNKI。登錄后,可通過CNKI主頁面中的超鏈接進(jìn)入文獻(xiàn)檢索頁面。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是28頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)3.CNKI的檢索方式在如圖7.8所示的頁面中,右邊列出了學(xué)科領(lǐng)域分類細(xì)目,用戶可根據(jù)需要逐級(jí)選擇使用;下方列出了各類數(shù)據(jù)庫,用戶可以選擇中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士學(xué)位論文全文數(shù)據(jù)庫及其他用于檢索的數(shù)據(jù)庫。CNKI提供了包括簡(jiǎn)單檢索、標(biāo)準(zhǔn)檢索、高級(jí)檢索、專業(yè)檢索、引文檢索、學(xué)者檢索、科研基金檢索、句子檢索等在內(nèi)的多種檢索方式。(1)簡(jiǎn)單檢索簡(jiǎn)單檢索界面如圖7.10所示,提供了類似搜索引擎的檢索方式,用戶只需要輸入所要找的檢索關(guān)鍵詞,單擊“簡(jiǎn)單檢索”按鈕就能查到相關(guān)的文獻(xiàn)。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是29頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(2)標(biāo)準(zhǔn)檢索標(biāo)準(zhǔn)檢索是CNKI檢索系統(tǒng)默認(rèn)的檢索方式,標(biāo)準(zhǔn)檢索界面如圖7.11所示。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是30頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(3)高級(jí)檢索高級(jí)檢索界面如圖7.12所示,用戶應(yīng)首先輸入范圍控制條件,再輸入文獻(xiàn)內(nèi)容特征信息,最后對(duì)檢索得到的結(jié)果分組排序。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是31頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)4)專業(yè)檢索專業(yè)檢索面向從事圖書情報(bào)檢索工作的專業(yè)用戶,用戶需要使用邏輯運(yùn)算符和關(guān)鍵詞構(gòu)造檢索式進(jìn)行檢索,其檢索界面如圖7.13所示。在專業(yè)檢索中,可使用主題、題名(篇名)、關(guān)鍵詞、摘要、全文、作者、第一責(zé)任人(第一作者)、機(jī)構(gòu)(單位)、中文刊名或英文刊名、引文(參考文獻(xiàn))、發(fā)表時(shí)間、年、基金、中圖分類號(hào)、ISSN、統(tǒng)一刊號(hào)、ISBN、被引頻次等檢索字段構(gòu)造檢索表達(dá)式,多個(gè)檢索項(xiàng)的檢索表達(dá)式之間用AND、OR、NOT邏輯運(yùn)算符進(jìn)行組合。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是32頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(5)引文檢索引文檢索以被引文獻(xiàn)的特征信息和文獻(xiàn)的引用關(guān)系為出發(fā)點(diǎn)進(jìn)行文件檢索,其檢索界面如圖7.14所示。引文檢索的檢索過程與標(biāo)準(zhǔn)檢索一致,這里就不在贅述。7.3網(wǎng)絡(luò)文獻(xiàn)檢索系統(tǒng)現(xiàn)在是33頁\一共有40頁\編輯于星期五青島大學(xué)公共計(jì)算機(jī)基礎(chǔ)教學(xué)中心第7章信息檢索7.3.1CNKI知識(shí)網(wǎng)絡(luò)服務(wù)平臺(tái)(6)學(xué)者檢索學(xué)者檢索對(duì)學(xué)者信息及發(fā)表文獻(xiàn)的檢索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年計(jì)算器及貨幣專用設(shè)備合作協(xié)議書
- 2025年棕、藤、草制品合作協(xié)議書
- 2025年壓力校驗(yàn)器合作協(xié)議書
- 2025年高壓化成箔合作協(xié)議書
- 2022-2023學(xué)年山東省德州市夏津縣四年級(jí)(上)期末數(shù)學(xué)試卷
- 惠州惠東縣幼兒教師招聘幼兒考試試題及答案
- 滬教版四年級(jí)下冊(cè)數(shù)學(xué)小數(shù)的加減法測(cè)試題
- 歷年高級(jí)財(cái)務(wù)會(huì)計(jì)試題及部分答案
- 四年級(jí)下冊(cè)人教版數(shù)學(xué)教學(xué)計(jì)劃
- 2025年交通事故一次性終結(jié)賠償協(xié)議范文(2篇)
- 2025年魯泰集團(tuán)招聘170人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024-2025學(xué)年成都高新區(qū)七上數(shù)學(xué)期末考試試卷【含答案】
- 企業(yè)員工食堂管理制度框架
- 電力溝施工組織設(shè)計(jì)-電纜溝
- 2024年煤礦安全生產(chǎn)知識(shí)培訓(xùn)考試必答題庫及答案(共190題)
- 《法律援助》課件
- 2024年山東鐵投集團(tuán)招聘筆試參考題庫含答案解析
- (完整word版)中國銀行交易流水明細(xì)清單模版
- 軟件功能點(diǎn)估算.xls
- 燃?xì)廨啓C(jī)LM2500介紹
- (精選)淺談在小學(xué)數(shù)學(xué)教學(xué)中如何進(jìn)行有效提問
評(píng)論
0/150
提交評(píng)論