網(wǎng)絡(luò)信息的檢索_第1頁(yè)
網(wǎng)絡(luò)信息的檢索_第2頁(yè)
網(wǎng)絡(luò)信息的檢索_第3頁(yè)
網(wǎng)絡(luò)信息的檢索_第4頁(yè)
網(wǎng)絡(luò)信息的檢索_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)絡(luò)信息的檢索第一頁(yè),共三十四頁(yè),2022年,8月28日3/9/2023Internet的基本概念TCP/IP協(xié)議:TCP/IP是由美國(guó)國(guó)防部高級(jí)計(jì)劃局資助的Internet技術(shù)和方法,也稱為傳輸控制/網(wǎng)間協(xié)議,是一個(gè)標(biāo)準(zhǔn)協(xié)議集合,專門適用于廣域網(wǎng)(WAN)。WWW:WWW的含義是“環(huán)球網(wǎng)”,是超文本方式的信息查詢工具。WWW基于HTTP協(xié)議,用HTML語(yǔ)言將多媒體信息組織成超文本,并通過(guò)這種方式將全世界Internet上的不同地點(diǎn)的相關(guān)信息有機(jī)結(jié)合起來(lái)。第二頁(yè),共三十四頁(yè),2022年,8月28日3/9/20232HTTP超文本傳輸協(xié)議HTTP是基于TCP/IP之上的協(xié)議,是用于分布式協(xié)作超媒體信息系統(tǒng)的快速實(shí)用協(xié)議。它不僅需要保證正確傳送超文本文檔,還必須能夠確定傳送文檔中的某一部分,以及哪部分內(nèi)容首先顯示。第三頁(yè),共三十四頁(yè),2022年,8月28日3/9/20233HTML(超文本標(biāo)識(shí)語(yǔ)言)在HTML中,可以嵌入圖像、聲音等,可通過(guò)超鏈接無(wú)縫引用其他WWW網(wǎng)址資源。用HTML組織起來(lái)的信息文檔稱為頁(yè)面,由瀏覽器進(jìn)行解釋、執(zhí)行和顯示輸出。HOMEPAGE:又稱為主頁(yè),是WWW服務(wù)的起始信息頁(yè)。Browser:又稱為瀏覽器,是用來(lái)閱讀HTML文件的專用軟件系統(tǒng),可通過(guò)FTP、NNTP、Gopher等許多方式來(lái)獲取信息。第四頁(yè),共三十四頁(yè),2022年,8月28日3/9/20234URL(統(tǒng)一資源定位器)URL可以將世界上所有的聯(lián)機(jī)信息資源組織成有序結(jié)構(gòu)。它的格式有三部分組成:第一部分是協(xié)議(或稱服務(wù)方式),大部分Internet文檔用http,其他常用的協(xié)議有fp、news、gopher、telnet等;第二部分是存有該資源的主機(jī)IP地址;第三部分是主機(jī)資源的具體地址。第五頁(yè),共三十四頁(yè),2022年,8月28日3/9/20235IP地址和域名Internet上的眾多計(jì)算機(jī)和信息資源必須通過(guò)名字和地址來(lái)進(jìn)行識(shí)別。接入Internet的計(jì)算機(jī)或節(jié)點(diǎn)被賦予一個(gè)惟一的數(shù)字作為地址,稱為IP地址,用小數(shù)點(diǎn)隔開(kāi)的四組數(shù)字組成。IP地址通常由Internet服務(wù)機(jī)構(gòu)從Internet網(wǎng)絡(luò)信息中心注冊(cè)申請(qǐng)(例如:中央財(cái)經(jīng)大學(xué)圖書館的IP地址為01)。IP是網(wǎng)絡(luò)中的重要資源,有多少個(gè)IP地址就意味著有多少臺(tái)計(jì)算機(jī)能夠連入Internet。第六頁(yè),共三十四頁(yè),2022年,8月28日3/9/20236由于IP地址由四組數(shù)字構(gòu)成,不易記憶,所以Internet采用域名系統(tǒng)(DNS),作為表示Internet上特定主機(jī)的助記名稱。Internet中每臺(tái)計(jì)算機(jī)的域名結(jié)構(gòu)為:主機(jī)名、機(jī)構(gòu)名、網(wǎng)絡(luò)名、最高層域名。域名是由有規(guī)律的英文單詞組成的,非常便于記憶,而且還可以根據(jù)域名組成的規(guī)律,猜測(cè)某一個(gè)站點(diǎn)的域名。常見(jiàn)的標(biāo)準(zhǔn)域名結(jié)構(gòu)為:主機(jī)名、機(jī)構(gòu)名、網(wǎng)絡(luò)名、最高層域名。在Internet的域名系統(tǒng)中最高層域名有三種:第七頁(yè),共三十四頁(yè),2022年,8月28日3/9/20237第一類為國(guó)別域名,由兩個(gè)英文字母組成,如:“.CN(中國(guó))”、“.JP(日本)”、“.US(美國(guó))”、“.UK(英國(guó))”、“.CA(加拿大)”。第二類為國(guó)際域名,現(xiàn)只有一個(gè)“.INT”代表國(guó)際組織。第三類為通用域名,目前用到的有13個(gè):.net——網(wǎng)絡(luò)服務(wù)機(jī)構(gòu);.edu——教育部門;.web——web服務(wù)機(jī)構(gòu);.arts——文化娛樂(lè)部門;.info——信息部門;.rec——娛樂(lè)機(jī)構(gòu);.org——非贏利機(jī)構(gòu);.Store——銷售部門.Firm——公司企業(yè);.gov——政府部門;.com.——商業(yè)機(jī)構(gòu).mil——軍事部門;.nom——個(gè)人。中國(guó)的域名注冊(cè)由國(guó)務(wù)院信息化工作領(lǐng)導(dǎo)小組辦公室授權(quán)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)負(fù)責(zé)辦理。

第八頁(yè),共三十四頁(yè),2022年,8月28日3/9/20238Internet可提供的信息服務(wù)1.E-mail(電子郵件):每個(gè)網(wǎng)絡(luò)用戶可以申請(qǐng)一個(gè)電子郵箱,用于接送電子郵件。用戶可以脫機(jī)處理郵件。2.Telnet(遠(yuǎn)程登錄):允許用戶從一臺(tái)計(jì)算機(jī)登錄到遠(yuǎn)程的另一臺(tái)計(jì)算機(jī)上并使用其資源。3.FTP(文件傳輸協(xié)議):它允許用戶把一臺(tái)計(jì)算機(jī)上的文件傳到另一臺(tái)計(jì)算機(jī)上。可以大大節(jié)省用戶的聯(lián)機(jī)通訊費(fèi)用。第九頁(yè),共三十四頁(yè),2022年,8月28日3/9/20239Internet可提供的信息服務(wù)4.Usenet(新聞組)、Listserv(討論組)、MailingList(用戶組):這幾種工具主要用于信息交流。用戶可以利用這些工具在網(wǎng)絡(luò)中參與自己感興趣的主題討論。5.WAIS(文檔檢索):這是一種基于關(guān)鍵詞的文檔檢索工具。通過(guò)將網(wǎng)絡(luò)上的文獻(xiàn)、數(shù)據(jù)做成索引,用戶只要在WAIS給出的信息資源列表中用光標(biāo)選取希望查詢的信息資源名稱并鍵入關(guān)鍵字,系統(tǒng)就能自動(dòng)進(jìn)行遠(yuǎn)程查詢。第十頁(yè),共三十四頁(yè),2022年,8月28日3/9/202310Internet可提供的信息服務(wù)6.BBS電子公告牌:BBS規(guī)模較小,大都是地區(qū)性的,僅提供一個(gè)信息交流、經(jīng)驗(yàn)交流的園地。每個(gè)討論主題稱為一個(gè)公告牌。目前國(guó)內(nèi)各大專院校幾乎都有自己的BBS站,可從這些BBS站獲得一些校園信息、公告事項(xiàng)、馬路消息、電腦知識(shí)等。7.IRC網(wǎng)絡(luò)聊天:是國(guó)際性的多人聊天系統(tǒng),有成百上千個(gè)不同主題的頻道。進(jìn)入感興趣的頻道以后,從屏幕上可以看到來(lái)自各地的網(wǎng)絡(luò)用戶熱烈地聊天。第十一頁(yè),共三十四頁(yè),2022年,8月28日3/9/202311在因特網(wǎng)上可以做些什么?訪問(wèn)虛擬圖書館和虛擬博物館查檢圖書館聯(lián)機(jī)目錄獲取電子出版物獲取科研、學(xué)習(xí)資料(訪問(wèn)各種數(shù)據(jù)庫(kù))咨詢各方面專家接受遠(yuǎn)程教育獲取全球最新政治、財(cái)經(jīng)、商業(yè)、教育、科技消息購(gòu)書、預(yù)訂機(jī)票和車票查找旅游、度假等資料上網(wǎng)聊天、玩網(wǎng)絡(luò)游戲、發(fā)電子郵件及賀卡等第十二頁(yè),共三十四頁(yè),2022年,8月28日3/9/202312網(wǎng)絡(luò)資源檢索方法

利用URL(統(tǒng)一定位器)直接訪問(wèn):URL是各種專門的計(jì)算機(jī)和文獻(xiàn)資源在因特網(wǎng)上的“地址”。一般格式為:

〈通訊協(xié)議〉://〈主機(jī)IP地址或域名〉/路徑/文件名其中,以“http://”開(kāi)頭表示超文本傳輸協(xié)議。

WWW的全稱為“WorldWideWeb”。其含義是“環(huán)球網(wǎng)”,也叫“萬(wàn)維網(wǎng)、全球網(wǎng)”,是超文本方式的信息查詢工具利用搜索工具:與普通網(wǎng)站不同,搜索引擎網(wǎng)站的主要資源是索引數(shù)據(jù)庫(kù)。它的工作原理是通過(guò)搜索引擎數(shù)據(jù)庫(kù)的采集、調(diào)用來(lái)實(shí)現(xiàn)它的導(dǎo)航功能。利用已知站點(diǎn)的引導(dǎo)與鏈接。第十三頁(yè),共三十四頁(yè),2022年,8月28日3/9/202313因特網(wǎng)信息檢索信息檢索具有廣義何狹義兩重含義。廣義地講,信息檢索包含信息儲(chǔ)存何信息查找兩個(gè)過(guò)程。直到20世紀(jì)40年代以前,檢索工具的主要形式就是各種檢索期刊和檢索工具書。從20世紀(jì)50年代起,信息檢索經(jīng)歷了脫機(jī)檢索、聯(lián)機(jī)檢索、光盤檢索和網(wǎng)絡(luò)檢索三個(gè)階段。1994年4月,因特網(wǎng)上的第一個(gè)搜索引擎——WebCrawler問(wèn)世后,網(wǎng)絡(luò)信息搜索技術(shù)突飛猛進(jìn),因特網(wǎng)上出現(xiàn)了數(shù)以千計(jì)的搜索工具。第四代搜索引擎以Google和百度為代表,它們?cè)跀?shù)據(jù)處理能力方面有了很大突破,使人們能以分秒時(shí)間查詢數(shù)十億級(jí)的海量數(shù)據(jù)庫(kù)。第十四頁(yè),共三十四頁(yè),2022年,8月28日3/9/202314搜索引擎簡(jiǎn)介搜索引擎是采用信息自動(dòng)跟蹤標(biāo)引等技術(shù)、建立在因特網(wǎng)上專門提供網(wǎng)絡(luò)信息資源導(dǎo)航服務(wù)檢索工具。搜索引擎的檢索系統(tǒng)由以下幾部分組成:搜索器、分析器、索引器、檢索器和用戶接口。同檢索數(shù)據(jù)庫(kù)一樣,利用搜索工具檢索,也需要用戶能夠?qū)⒆约旱臋z索需求編制成合適的檢索策略,并且需要一定的檢索技巧。搜索引擎采用的檢索詞和信息標(biāo)識(shí)詞匹配運(yùn)算的主要方法有:布爾邏輯檢索、截詞檢索、限制檢索、加權(quán)檢索、詞位置檢索和全文檢索等。第十五頁(yè),共三十四頁(yè),2022年,8月28日3/9/202315搜索引擎分類

檢索型搜索引擎:它使用自動(dòng)索引軟件來(lái)發(fā)現(xiàn)、收集并標(biāo)引網(wǎng)頁(yè),建立數(shù)據(jù)庫(kù),并以Web形式讓用戶找到所需信息資源。比較著名的有:AltaVista、Google、天網(wǎng)、百度、悠游等。目錄型搜索引擎:這類引擎將信息系統(tǒng)地分門歸類,經(jīng)過(guò)人工整理后形成龐大而有序的分類目錄體系,用戶可以在目錄體系的導(dǎo)引下通過(guò)逐級(jí)瀏覽,發(fā)現(xiàn)、檢索到有關(guān)的信息。雅虎就是以卓越的分類目錄型導(dǎo)航服務(wù)而稱譽(yù)全球?;旌闲退阉饕妫核嬗袡z索型和目錄型兩種方式。如:新浪、搜狐、網(wǎng)易、中華等門戶網(wǎng)站。多元搜索引擎:也稱為集合型搜索引擎。它是將多個(gè)搜索引擎集成在一起,通過(guò)統(tǒng)一的檢索界面進(jìn)行網(wǎng)絡(luò)信息多元搜索的檢索工具。按照工作方式的不同可分為并行處理式和串行處理式兩大類。著名的有:Dogpile、Mamma和萬(wàn)維搜索(Http:///)等。第十六頁(yè),共三十四頁(yè),2022年,8月28日3/9/202316國(guó)外綜合型檢索工具目前有記錄可查的國(guó)外的搜索引擎數(shù)量已達(dá)到2500個(gè),其中有不少優(yōu)秀的綜合型搜索引擎,如:Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、Google、OpenText等。訪問(wèn)AltaVista()的次數(shù)超過(guò)1億次。HotBot(

)是美國(guó)享有盛譽(yù)的綜合型、混合型搜索引擎。第十七頁(yè),共三十四頁(yè),2022年,8月28日3/9/202317著名綜合型檢索工具Google

Google():是目前世界上最大的搜索引擎,它提供70多種界面語(yǔ)言和35種檢索語(yǔ)言,有分類查詢和關(guān)鍵詞檢索兩種檢索功能。Google不支持“詞干法”和“通配符”,但可使用布爾邏輯檢索,且邏輯“與”不用算符,詞與詞之間留一空格,邏輯“或(|)”和“非(-)”算符前必須留一空格。簡(jiǎn)單檢索可直接使用字段限定檢索。

site:限定在某個(gè)特定的域或站點(diǎn)中進(jìn)行檢索。命令格式:檢索詞site:域名示例:要搜索北京大學(xué)山鷹社的信息。檢索式:山鷹社

inurl:表示限定搜索結(jié)果網(wǎng)頁(yè)的URL必須包含所規(guī)定的字符串。命令格式:inurl:限定的字符串檢索詞示例:搜索電子商務(wù)軟件環(huán)境的專題資料。許多中文網(wǎng)站都以“dzsw”作為電子商務(wù)專題目錄或頻道名稱。檢索式:inurl:dzsw軟件環(huán)境

filetype:用來(lái)限定命中文件的類型。命令格式:filetype:文件類型檢索詞

試析檢索式:filetype:ppt信息檢索第十八頁(yè),共三十四頁(yè),2022年,8月28日3/9/202318著名綜合型檢索工具Yahoo!Yahoo!():是因特網(wǎng)上歷史最悠久、用戶數(shù)最多的綜合型、混合型搜索引擎,是分類式搜索引擎的典范。它擁有10余種語(yǔ)言版本,且各版本的內(nèi)容互不相同。如果用戶的檢索詞在Yahoo!中查詢不到結(jié)果,它會(huì)自動(dòng)將查詢轉(zhuǎn)交給Google搜索引擎做進(jìn)一步的檢索。Yahoo!支持詞語(yǔ)檢索和“+”和“–”限制檢索等,它還提供日期限定、URL和題名限制檢索等?!?”限定關(guān)鍵字串一定要出現(xiàn)在結(jié)果中;“–”限定關(guān)鍵字串一定不要出現(xiàn)在結(jié)果中?!把呕⒅袊?guó)”()提供了一份細(xì)蜜、層次豐富的中文網(wǎng)站分類目錄。雅虎允許用多個(gè)關(guān)鍵詞檢索,各個(gè)關(guān)鍵詞之間必須留一個(gè)空格,系統(tǒng)默認(rèn)邏輯“與”檢索。雅虎支持詞組短語(yǔ)檢索和“+”和“–”限定符,提供兩種字段限定功能:t:網(wǎng)站名稱搜索和u:網(wǎng)址(URLs)搜索。第十九頁(yè),共三十四頁(yè),2022年,8月28日3/9/202319第二十頁(yè),共三十四頁(yè),2022年,8月28日3/9/202320第二十一頁(yè),共三十四頁(yè),2022年,8月28日3/9/202321第二十二頁(yè),共三十四頁(yè),2022年,8月28日3/9/202322第二十三頁(yè),共三十四頁(yè),2022年,8月28日3/9/202323第二十四頁(yè),共三十四頁(yè),2022年,8月28日3/9/202324第二十五頁(yè),共三十四頁(yè),2022年,8月28日3/9/202325第二十六頁(yè),共三十四頁(yè),2022年,8月28日3/9/202326綜合型中文搜索引擎目前形成規(guī)模的綜合型中文搜索引擎有:搜狐、網(wǎng)易、新浪、天網(wǎng)、北極星、搜索客、悠游、FM365搜索引擎、263在線搜索引擎、21cn搜索引擎、TOM中文搜索、常春藤、焦點(diǎn)搜索引擎、看中國(guó)、中國(guó)導(dǎo)航、視訊、華好網(wǎng)景、司南等。新浪搜索():采用具有世界先進(jìn)水平的百度搜索技術(shù)。提供“分類檢索”和“關(guān)鍵詞”查找兩種查找方法。搜狐搜索():采用先進(jìn)的Google檢索技術(shù),提供多語(yǔ)言檢索。天網(wǎng)搜索():支持中英文搜索,只提供關(guān)鍵詞查詢方式。第二十七頁(yè),共三十四頁(yè),2022年,8月28日3/9/202327第二十八頁(yè),共三十四頁(yè),2022年,8月28日3/9/202328百度搜索引擎百度():百度搜索引擎是目前最有影響的中文網(wǎng)絡(luò)信息檢索系統(tǒng)。它的檢索詞可以是中文、英文、數(shù)字,或中英文數(shù)字的混合體。百度提供邏輯與、或、非檢索,多個(gè)關(guān)鍵詞之間必須留一個(gè)空格,系統(tǒng)默認(rèn)為邏輯“與”檢索,其他同Google的檢索方法。百度的字段限定檢索同Google第二十九頁(yè),共三十四頁(yè),2022年,8月28日3/9/202329第三十頁(yè),共三十四頁(yè),2022年,8月28日3/9/202330專題型搜索引擎專題型檢索工具專門提供某一學(xué)科/主題范圍的網(wǎng)絡(luò)信息資源導(dǎo)航系統(tǒng)。塞迪網(wǎng)“IT羅盤”():塞迪網(wǎng)是國(guó)內(nèi)著名的面向IT行業(yè)提供全面信息服務(wù)的垂直門戶站點(diǎn)。因特網(wǎng)法律資源指南(InternetLegalResourceGuide,簡(jiǎn)稱ILRG。():是1995年美國(guó)推出的第一家系統(tǒng)、全面提供法律網(wǎng)絡(luò)信息資源導(dǎo)航網(wǎng)站。它選擇收集了來(lái)自238個(gè)國(guó)家、地區(qū)的4000多個(gè)與法律密切相關(guān)的網(wǎng)站,提供了較全面的法律信息檢索。第三十一頁(yè),共三十四頁(yè),2022年,8月28日3/9/202331中文多元型搜索引擎多元搜索引擎又稱為集合式搜索引擎。它是將多個(gè)搜索引擎集成在一起,通過(guò)一個(gè)統(tǒng)一的檢索界面方便、快速、全面獲取網(wǎng)絡(luò)信息的檢索工具。萬(wàn)維搜索引擎():是上海萬(wàn)維信息技術(shù)有限公司2000年推出的多元搜索引擎。網(wǎng)絡(luò)燈塔():集成了50多個(gè)中文搜索引擎,分別提供簡(jiǎn)繁體中文網(wǎng)站、網(wǎng)頁(yè)和新聞的多元信息搜索服務(wù)。第三十二頁(yè),共三十

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論