




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第3講 網(wǎng)絡(luò)信息資源采集3.1 爬行器與搜索引擎3.2 收割器3.3 語(yǔ)義化數(shù)據(jù)的采集3.1搜索引擎與爬行器 搜索引擎發(fā)展史:人們將搜索引擎劃分為四代:以經(jīng)典信息檢索理論為基礎(chǔ)的第一代(1994-1996):代表技術(shù)是信息檢 索技術(shù)以分布式為特征的第二代(1996-1998):代表技術(shù)是分布式爬行器與分 布式數(shù)據(jù)技術(shù)以人工智能為特點(diǎn)的第三代(1998-現(xiàn)在):主要技術(shù)包括主題搜索、數(shù) 據(jù)挖掘、自動(dòng)分類等技術(shù)。主題搜索引擎為第四代(下一代):主要特點(diǎn)是主題覆蓋率高、智能化程 度高、檢索對(duì)象多樣化、服務(wù)個(gè)性化與專業(yè)化。3.1搜索引擎與爬行器 搜索引擎分類:根據(jù)基于的技術(shù)原理不同,搜索引擎可以分成三
2、種類型: 爬行器式搜索引擎 目錄(Directory,也叫做Catalog)式搜索引擎 元搜索引擎。3.1搜索引擎與爬行器 爬行器式搜索引擎原理: 搜索引擎系統(tǒng)結(jié)構(gòu)一般有爬行器(Crawler)、頁(yè)面數(shù)據(jù)庫(kù)(Page Repository)、索引器(Indexer)、檢索引擎(Query Engine)等幾個(gè)部分。3.1搜索引擎與爬行器 爬行器式搜索引擎原理:爬行器類型:普通爬行器 深層網(wǎng)絡(luò)爬行器 語(yǔ)義web爬行器爬行策略:起始URL集合 IP地址爬行協(xié)議:robots.txt與sitemap.txt3.1搜索引擎與爬行器 爬行器式搜索引擎原理:爬行器 (1) user-agent:* 不允許
3、所有的Robot爬行任何網(wǎng)頁(yè) disallow:/ (2) user-agent:* 允許所有的Robot爬行任何網(wǎng)頁(yè) disallow: (3)user-agent:WebCrawler 不允許WebCrawler爬行器爬行任何網(wǎng)頁(yè) disallow:/ (4)user-agent:* 任何爬行器都不能爬行下述三個(gè)目錄中的網(wǎng)頁(yè) disallow:/project disallow:/web disallow:/team3.1搜索引擎與爬行器 爬行器式搜索引擎原理:爬行器Mercator爬行器結(jié)構(gòu)組成3.1搜索引擎與爬行器 爬行器式搜索引擎原理:爬行器深層網(wǎng)絡(luò)爬行器 見(jiàn)基于通用搜索引擎的深層網(wǎng)
4、絡(luò)表面化方法研究3.1搜索引擎與爬行器 爬行器式搜索引擎原理:爬行器步驟1):從多個(gè)線程共享的URL隊(duì)列(URL Frontier)中移出絕對(duì)路徑的URL來(lái)。絕對(duì)路徑的 URL中指明了這個(gè)URL采用什么方式下載;步驟2):系統(tǒng)選擇了相應(yīng)的協(xié)議,通過(guò)了DNS解析并從web上下裁了頁(yè)面;步驟3):將頁(yè)面放入RewindInPut Stream(RIS),RIS相當(dāng)于一個(gè)緩存,能夠多次快速地讀內(nèi)容;步驟4):一旦文件被放進(jìn)RIS,這個(gè)工作線程就啟動(dòng)內(nèi)容檢測(cè)模塊看是否此頁(yè)面已經(jīng)被采集過(guò), 如果采集過(guò),系統(tǒng)就拋棄此頁(yè)并跳至步驟1),如果此頁(yè)沒(méi)有采集過(guò),就進(jìn)入步驟5);步驟5):Processing Mo
5、dules,在這里對(duì)頁(yè)面進(jìn)行初步的分析,比如提取標(biāo)題、摘要和鏈接。 缺省狀況下,頁(yè)面中的所有鏈接都被提取出來(lái),并轉(zhuǎn)換成絕對(duì)URL。然后進(jìn)行步驟6);步驟6):根據(jù)用戶要求對(duì)URL進(jìn)行過(guò)濾(Filtering),如果URL通過(guò)了過(guò)濾器,則檢查此URL是否 已經(jīng)在URL待采集庫(kù)中(步驟7),如果此URL沒(méi)有,則將它加入到URL Frontier中,等 著被選中進(jìn)入下一輪循環(huán)(步驟8)。3.1搜索引擎與爬行器 爬行器式搜索引擎原理:爬行器設(shè)計(jì)一個(gè)性能良好的爬行器應(yīng)該考慮一下幾個(gè)問(wèn)題:爬行器應(yīng)該下載什么網(wǎng)頁(yè)?爬行器不可能下載所有的網(wǎng)頁(yè),小心地選擇高質(zhì)量網(wǎng)頁(yè)優(yōu)先下載就顯得很重要了,如何評(píng)價(jià)網(wǎng)頁(yè)質(zhì)量是爬行
6、器的一個(gè)關(guān)鍵技術(shù)。爬行器怎樣刷新網(wǎng)頁(yè)?因?yàn)閃eb上網(wǎng)頁(yè)變化迅速,爬行器需要仔細(xì)決定哪些網(wǎng)頁(yè)重新訪問(wèn),哪些網(wǎng)頁(yè)跳過(guò),這些決定了頁(yè)面文檔庫(kù)的新鮮度。怎樣降低被爬行網(wǎng)站的負(fù)擔(dān)?因?yàn)槭菍?duì)別人的服務(wù)器進(jìn)行爬行,索引爬行器應(yīng)該降低被爬服務(wù)器的負(fù)擔(dān),遵循Robot Exclusion協(xié)議即使就是一種方法。怎樣使得爬行過(guò)程并行化?并行化可以使得在合理的時(shí)間內(nèi)下載大量的網(wǎng)頁(yè),但必須作到準(zhǔn)確地協(xié)同工作。3.1搜索引擎與爬行器 爬行器式搜索引擎原理:頁(yè)面數(shù)據(jù)庫(kù)頁(yè)面數(shù)據(jù)庫(kù)也稱存儲(chǔ)器,它是一個(gè)具有可擴(kuò)展能力的存儲(chǔ)系統(tǒng),管理超大規(guī)模的Web頁(yè)面。它有兩個(gè)基本功能:其一是為爬行器提供存儲(chǔ)接口,其二是為索引器和檢索引擎提供有
7、效的訪問(wèn)API。3.1搜索引擎與爬行器 爬行器式搜索引擎原理:索引器索引器的作用是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表,通過(guò)犧牲存儲(chǔ)器空間來(lái)?yè)Q取響應(yīng)時(shí)間。3.1搜索引擎與爬行器 爬行器式搜索引擎原理:檢索引擎信息檢索的基本任務(wù)是根據(jù)用戶的信息需求,在文檔集合中檢索出符合信息需求的文檔。在這里需要注意的有三點(diǎn):(1)怎樣表達(dá)用戶的信息需求?(2)怎樣表示文檔?(3)用戶需求表示與文檔表示之間如何匹配?。在經(jīng)典信息檢索模型中,都是用詞(terms)來(lái)表示文檔和信息需求的,只考慮了詞法,而沒(méi)有考慮語(yǔ)法,更沒(méi)有考慮語(yǔ)義。但是詞并不能真正將文檔的內(nèi)容表達(dá)出來(lái),同樣
8、,也無(wú)法真正將用戶的信息需求明確表示出來(lái)。同時(shí),更沒(méi)有考慮用戶的上下文特性。同一個(gè)查詢?cè)~(式)在不同的上下文中,得到的結(jié)果應(yīng)該是不一樣的。3.1搜索引擎與爬行器 爬行器式搜索引擎原理:檢索引擎檢索引擎的作用是接收用戶查詢提問(wèn),檢索網(wǎng)頁(yè)數(shù)據(jù)庫(kù),相關(guān)度匹配計(jì)算,顯示查詢結(jié)果,提供用戶相關(guān)性反饋機(jī)制等。在實(shí)際的信息檢索中,很多返回的檢索結(jié)果與用戶信息需求無(wú)關(guān),主要原因有三:用戶提交的查詢式不能反映用戶的信息需求;文檔的邏輯表示不能真正反映其內(nèi)容;匹配公式計(jì)算出的相關(guān)度大小并不能完全反映真實(shí)文檔與真實(shí)需求之間的相關(guān)程度。3.1搜索引擎與爬行器 目錄式搜索引擎:Yahoo目錄3.1搜索引擎與爬行器 目錄
9、式搜索引擎:3.1搜索引擎與爬行器 元搜索引擎:3.1搜索引擎與爬行器 注意開(kāi)源搜索引擎和開(kāi)源爬行器的區(qū)別開(kāi)源搜索引擎的常用語(yǔ)言:Python、Java、Perl、C+,其中以Java居多較好的開(kāi)源搜索引擎:Lucene和Oxyus ,均用java書(shū)寫關(guān)鍵技術(shù):爬行、全文索引(包括文本解析)、全文檢索類型:完整型如Oxyus,工具包型如lucene具體的安裝、調(diào)試:由于開(kāi)源軟件一般不是exe文件,其安裝調(diào)試需要一定的相關(guān)知識(shí)3.2 OAI協(xié)議及收割器MARC數(shù)據(jù)的分發(fā)方式:ISO2709 基于OAI的方式3.2 OAI協(xié)議及收割器 OAI數(shù)據(jù)模型:倉(cāng)儲(chǔ)(repository)是一種可被訪問(wèn)的網(wǎng)
10、絡(luò)服務(wù)器,由數(shù)據(jù)提供者管理,可將元數(shù)據(jù)發(fā)布給收集器(harvester)。OAI數(shù)據(jù)模型包括三個(gè)層次:記錄、條目、資源。OAI Protocol for Metadata Harvesting (OAI-PMH)3.2 OAI協(xié)議及收割器 OAI數(shù)據(jù)模型:倉(cāng)儲(chǔ)(repository)是一種可被訪問(wèn)的網(wǎng)絡(luò)服務(wù)器,由數(shù)據(jù)提供者管理,可將元數(shù)據(jù)發(fā)布給收集器(harvester)。OAI數(shù)據(jù)模型包括三個(gè)層次:記錄、條目、資源。OAI Protocol for Metadata Harvesting (OAI-PMH)3.2 OAI協(xié)議及收割器 OAI數(shù)據(jù)模型:Dublin Coremetadata M
11、ARCXMLmetadata MPEG-21DIDL recordsOAI-PMH identifier = entry point to all records pertaining to the resourceMETS metadata pertainingto the resourcemodeled representation of the resourcesimplemodelmore expressivemodelcomplexmodelcomplexmodelresourceitem3.2 OAI協(xié)議及收割器 OAI數(shù)據(jù)模型:記錄(Record):是具有特定元數(shù)據(jù)格式的元數(shù)據(jù)。
12、在對(duì)一個(gè)OAI-PMH請(qǐng)求的響應(yīng)中,記錄以XML編碼的字節(jié)流的形式被返回,它是從基本組織單元中返回的特定元數(shù)據(jù)。 包括三個(gè)部分: header 部分:唯一標(biāo)識(shí)符,如oai:arXiv:cs/0112017 記錄的時(shí)間戳,如2002-02-28 記錄所屬的集合,如math metadata部分:記錄實(shí)際的資源的元數(shù)據(jù)內(nèi)容; about部分: 非必備部分,提供有關(guān)資料的相關(guān)說(shuō)明,如版權(quán)聲明等。條目(Item):all records pertaining to the resource。條目是倉(cāng)儲(chǔ)的基本組織單元。概念上,一個(gè)條目是用來(lái)存儲(chǔ)和以多種形式動(dòng)態(tài)產(chǎn)生元數(shù)據(jù)的關(guān)于單個(gè)資源的容器,其中每個(gè)條目
13、均可以通過(guò)OAI-PMH協(xié)議以記錄的形式獲得。每個(gè)條目有一個(gè)標(biāo)識(shí)符,在由這些條目組成的倉(cāng)儲(chǔ)的范圍內(nèi),該標(biāo)識(shí)符是唯一的。資源(Resource):是一個(gè)對(duì)象或有元數(shù)據(jù)說(shuō)明的資料。OAI-PMH不考慮資源的本質(zhì),即不管它是物理的還是數(shù)字的,也不管它是存儲(chǔ)于倉(cāng)儲(chǔ)中的還是存在于其他數(shù)據(jù)庫(kù)中的。3.2 OAI協(xié)議及收割器 數(shù)據(jù)收割原理:3.2 OAI協(xié)議及收割器 數(shù)據(jù)收割原理: 收割器以POST或GET方式將OAI請(qǐng)求提交給數(shù)據(jù)提供者,數(shù)據(jù)提供者對(duì)請(qǐng)求進(jìn)行處理后,將結(jié)果信息包裝成XML文檔返回給收獲器。收獲器收到結(jié)果數(shù)據(jù)后,要對(duì)XML文檔進(jìn)行解析,生成本地存儲(chǔ)格式的數(shù)據(jù),然后建立本地索引,提供檢索服務(wù)。
14、為實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的連續(xù)傳送,OAI定義了一個(gè)數(shù)據(jù)流控制機(jī)制。同時(shí),OAI還定義了意外與出錯(cuò)等信息類型。OAI-PMH實(shí)現(xiàn)OAI數(shù)據(jù)庫(kù)與收獲器之間的協(xié)議解釋與轉(zhuǎn)換。OAI-PMH是基于HTTP之上的協(xié)議。收割器的請(qǐng)求按通過(guò)HTTP協(xié)議按GET 或 POST方式發(fā)出。OAI-PMH支持六類請(qǐng)求,基本格式如下所示:?verb=ListRecords&from=2002-11-01數(shù)據(jù)提供者給出的響應(yīng)被包裝成格式良好的XML文檔,該文檔由三部分組成,即XML聲明、附帶三個(gè)屬性的根元素、三個(gè)子元素(響應(yīng)日期、請(qǐng)求、錯(cuò)誤/請(qǐng)求命令)。 3.2 OAI協(xié)議及收割器
15、數(shù)據(jù)收割原理: 2005-02-22T00:21:48Z /oai/oai.php /根據(jù)請(qǐng)求不同,此處還可以是ListRecords、ListSets、 GetRecord、ListIdentifiers和ListMetadataFormats 3.2 OAI協(xié)議及收割器 數(shù)據(jù)收割原理:OAI-PMH包括6個(gè)請(qǐng)求方法,其中一些方法包括一些必備參數(shù)與可選參數(shù)。 Identify查詢關(guān)于倉(cāng)儲(chǔ)的信息,包括管理、標(biāo)識(shí)、社團(tuán)的專門信息。 ListMetadataFormats查詢倉(cāng)儲(chǔ)的元數(shù)據(jù)格式。 ListSets得到倉(cāng)儲(chǔ)的集合結(jié)構(gòu)。 GetRecord從倉(cāng)儲(chǔ)中
16、獲取單條記錄。 ListRecords從倉(cāng)儲(chǔ)中獲取多條記錄。 Listldentifiers查詢可以從倉(cāng)儲(chǔ)中得到的記錄的標(biāo)識(shí)符。3.2 OAI協(xié)議及收割器 數(shù)據(jù)收割原理:動(dòng)詞的用法如下:/oai?verb=Identify/oai?verb=ListMetadataFormats/oai?verb=ListMetadataFormats&identifier=oai:HUBerlin.de:3000218/oai?verb=ListSetsht
17、tp://oai?verb=ListIdentifiers&metadataPrefix=oai_dc/oai?verb=ListRecords&metadataPrefix=oai_dc/oai/oai2.php?verb=ListRecords&resumptionToken=992/dice/oai?verb=ListRecords&metadataPrefix=marc21http:/www.div
18、/dice/oai?verb=ListRecords&metadataPrefix=oai_dc3.2 OAI協(xié)議及收割器 數(shù)據(jù)收割原理:/dice/oai?verb=ListRecords&metadataPrefix=oai_dc的返回結(jié)果見(jiàn)oai.xml3.2 OAI協(xié)議及收割器 OAI技術(shù)架構(gòu):OAI包含兩類角色,即數(shù)據(jù)提供者和服務(wù)提供者,前者負(fù)責(zé)生成元數(shù)據(jù),并提供基于OAI-PMH的元數(shù)據(jù)收割服務(wù),后者負(fù)責(zé)利用OAI-PMH協(xié)議從多個(gè)數(shù)據(jù)提供者那里收割元數(shù)據(jù),合并、索引并為用戶提供檢索服務(wù)。數(shù)據(jù)
19、提供者和服務(wù)提供者之間完全通過(guò)OAI-PMH協(xié)議進(jìn)行交互。另外,在數(shù)據(jù)提供者和服務(wù)提供者之間還可以存在身兼二任的aggregator。 3.2 OAI協(xié)議及收割器 OAI技術(shù)架構(gòu):Data ProviderData ProviderRepositoryRepositoryRepositoryData ProviderOAI VerbRecordRequestResponseData ProviderData ProviderService ProviderUser(a)基本結(jié)構(gòu)官方登記3.2 OAI協(xié)議及收割器 OAI技術(shù)架構(gòu):Harvestingbased onOAI-PMHService
20、providersdata providers(b)DP與SP之間的關(guān)系3.2 OAI協(xié)議及收割器 OAI技術(shù)架構(gòu):AggregatorService providersdata providers(c)DP與SP之間的關(guān)系3.2 OAI協(xié)議及收割器 OAI技術(shù)架構(gòu):數(shù)據(jù)提供者數(shù)據(jù)提供者的必備條件:元數(shù)據(jù) 數(shù)據(jù)庫(kù)(或文件系統(tǒng)) 能通過(guò)Internet訪問(wèn)的Web server 編程接口(Perl, PHP, Java-Servlet,asp等) archive identifier和base URL 每個(gè)item都具有一個(gè)庫(kù)內(nèi)唯一的identifier 元數(shù)據(jù)格式 (one or more;
21、at least: unqualified Dublin Core).datestamps for metadata (created / last modified) logical set hierarchy (may have) 流控制機(jī)制 3.2 OAI協(xié)議及收割器 OAI技術(shù)架構(gòu):服務(wù)提供者的前提條件服務(wù)提供者的前提條件:an Internet-connected server ;a database system (relational or XML) ;a programming environment. (The programming environment must be
22、one that can issue HTTP requests to web servers, can issue database requests, and includes an XML parser.)3.2 OAI協(xié)議及收割器 OAI資源:相關(guān)工具相關(guān)工具:目前,常用的OAI工具軟件有很多種,包括使用不同語(yǔ)言開(kāi)發(fā)的(如C、JAVA、PERL、VB等)、面向不同系統(tǒng)平臺(tái)的(如windows、Unix或linux)、支持不同數(shù)據(jù)庫(kù)系統(tǒng)的(如Oracle、SQLserver、MySQL等)軟件。著名的有Dspace、Eprints、CDSware、i-Tor、MyCore、DP9、Arc
23、等。根據(jù)功能組成,可以將其分為三類: 數(shù)據(jù)提供者使用的軟件數(shù)據(jù)提供者使用的軟件。它包括全文數(shù)據(jù)收集與組織、元數(shù)據(jù)管理及與收獲器的訪問(wèn)接口等功能,如OCLC的OAIcat、Dominion University大學(xué)的DP9等。 服務(wù)提供者使用的軟件服務(wù)提供者使用的軟件。主要包括收獲器、存儲(chǔ)模塊、索引模塊、用戶檢索接口等功能,如Old Dominion大學(xué)開(kāi)發(fā)的Arc軟件,它包括元數(shù)據(jù)收獲、索引、Web檢索接口、系統(tǒng)管理接口等功能模塊,在Oracle、MySQL等關(guān)系數(shù)據(jù)庫(kù)的支持下,提供跨庫(kù)檢索服務(wù)。 集成軟件集成軟件。為適應(yīng)科學(xué)信息組織、管理與服務(wù)需求,有些軟件同時(shí)集成以上兩項(xiàng)功能,并將OAI功能集成到一個(gè)完整的信息管理系統(tǒng)中。如Southampton大學(xué)的Eprints、荷蘭科學(xué)信息服務(wù)研究院開(kāi)發(fā)的i-Tor等。3.2 O
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆廣東省高三下學(xué)期第一次調(diào)研考試歷史試題(解析版)
- 提高混合動(dòng)力技術(shù)在鐵路運(yùn)輸
- 科研項(xiàng)目中的資源共享
- 心衰患者高血壓護(hù)理查房
- 不續(xù)約合同范例
- 買地合同范例
- 農(nóng)村拍賣荒山合同標(biāo)準(zhǔn)文本
- 護(hù)理專項(xiàng)質(zhì)控年度總結(jié)
- 幼兒園防踩踏安全教育
- 護(hù)理安全警示案例及分析
- 建筑智能化系統(tǒng)考核試卷
- 醫(yī)院門診部固定資產(chǎn)管理
- 2025年太倉(cāng)市文化旅游發(fā)展集團(tuán)限公司及子公司公開(kāi)招聘12名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 急性心房顫動(dòng)中國(guó)急診管理指南(2024)解讀
- 小學(xué)二年級(jí)有余數(shù)的除法口算題(共300題)
- 區(qū)域醫(yī)學(xué)檢測(cè)中心的建設(shè)與管理V3
- 林下中藥材種植項(xiàng)目可行性研究報(bào)告
- 2025年中國(guó)巖棉行業(yè)發(fā)展現(xiàn)狀、市場(chǎng)前景、投資方向分析報(bào)告(智研咨詢發(fā)布)
- 經(jīng)銷商管理制度(15篇)
- 高溫熔融金屬企業(yè)安全知識(shí)培訓(xùn)
- 技能競(jìng)賽(電工電氣設(shè)備賽項(xiàng))備考試題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論