網(wǎng)絡(luò)信息采集技術(shù)介紹_第1頁(yè)
網(wǎng)絡(luò)信息采集技術(shù)介紹_第2頁(yè)
網(wǎng)絡(luò)信息采集技術(shù)介紹_第3頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2 網(wǎng)絡(luò)信息采集技術(shù)介紹學(xué)習(xí)內(nèi)容1. 網(wǎng)絡(luò)信息采集概述2. 網(wǎng)絡(luò)信息采集技術(shù)的發(fā)展3. 網(wǎng)絡(luò)信息采集軟件簡(jiǎn)介實(shí)訓(xùn)內(nèi)容網(wǎng)絡(luò)信息采集軟件的使用學(xué)習(xí)目標(biāo)掌握:網(wǎng)絡(luò)信息資源采集的質(zhì)量標(biāo)準(zhǔn)、途徑與策略,網(wǎng)絡(luò)檢索自動(dòng)化技術(shù)的發(fā)展,常用網(wǎng)絡(luò)信息采集軟件的使用方法。理解:網(wǎng)絡(luò)信息采集的特點(diǎn)、原則,網(wǎng)絡(luò)檢索多媒體技術(shù)的應(yīng)用及檢索工具的智能化發(fā)展。了解:網(wǎng)絡(luò)信息采集系統(tǒng)的應(yīng)用前景,常用網(wǎng)絡(luò)信息采集軟件的種類。2.1 網(wǎng)絡(luò)信息采集概述網(wǎng)絡(luò)信息采集是指從互聯(lián)網(wǎng)共享服務(wù)資源中收集、處理和分析網(wǎng)絡(luò)實(shí)體信息的過程。網(wǎng) 絡(luò)信息采集不僅包括對(duì)互聯(lián)網(wǎng)公共實(shí)體信息的查詢和存儲(chǔ),還包括對(duì)信息的歸類、提取和解 析,更重要的是在已收集信

2、息的基礎(chǔ)上分析數(shù)據(jù),并將分析結(jié)果用于實(shí)際問題的解決。網(wǎng)絡(luò)資源紛繁而復(fù)雜,為了避免網(wǎng)絡(luò)信息資源采集的隨意性、無(wú)計(jì)劃性和盲目性,對(duì)網(wǎng) 絡(luò)資源的采集必須嚴(yán)格執(zhí)行統(tǒng)一的采集標(biāo)準(zhǔn),主要包括以下幾個(gè)方面的原則:全面性原則: 全面性原則是對(duì)網(wǎng)絡(luò)信息采集網(wǎng)羅度的要求。對(duì)于所要采集的某方面的信 息,要盡可能全面地采集,保證為收集到盡可能多的信息。針對(duì)性原則: 指應(yīng)依據(jù)用戶的實(shí)際需要,有目的、有針對(duì)性、有重點(diǎn)、有選擇地獲取利 用價(jià)值大的、符合需求的信息。針對(duì)性原則能夠提高信息采集的準(zhǔn)確性和價(jià)值性。時(shí)效性原則: 及時(shí)收集最新的、有效的信息,并定期對(duì)原有信息資源進(jìn)行更新,方能使 所保有的信息常新。這樣既能夠保證資源得

3、到有效的保存,又能保證信息資源的高質(zhì)量。選擇性原則: 采集時(shí)首先應(yīng)對(duì)信息來源有所選擇,重點(diǎn)采用信譽(yù)高、穩(wěn)定性強(qiáng)的網(wǎng)站的 信息。其次,資源采集所用的方法要有所選擇,應(yīng)用不同的信息采集方法所獲得的信息往往 不同,要善于通過多種途徑進(jìn)行信息的采集工作。再次,采集的信息應(yīng)把質(zhì)量放在首位,在 保證質(zhì)量的情況下兼顧數(shù)量。全程性原則: 信息采集是一個(gè)全過程的連續(xù)性的工作。信息資源必須持續(xù)不斷地補(bǔ)充, 進(jìn)行長(zhǎng)期的積累。這樣才能反映這些資源的歷史、發(fā)展?fàn)顩r、特點(diǎn)及規(guī)律,從而保證所收集 的資源具有較高的使用價(jià)值。網(wǎng)絡(luò)信息資源采集的特點(diǎn)主要表現(xiàn)為采集對(duì)象的多樣化、采集方式的多元化以及采集手 段的現(xiàn)代化。1采集對(duì)象多

4、樣化 傳統(tǒng)的文獻(xiàn)信息資源采集是以紙張為載體的印刷型文獻(xiàn)為主,采集種類單一。而在網(wǎng)絡(luò) 環(huán)境下,各種各樣名目繁多的電子文獻(xiàn)和網(wǎng)絡(luò)文獻(xiàn)層出不窮,文獻(xiàn)信息資源的種類呈現(xiàn)出多 樣化發(fā)展的趨勢(shì),文獻(xiàn)信息資源的采集種類不僅包括傳統(tǒng)的印刷型文獻(xiàn) ( 如各類紙質(zhì)型圖書、 期刊、報(bào)刊等 ) ,還包括各類電子文獻(xiàn) (如電子圖書、 電子報(bào)刊、 計(jì)算機(jī)軟件等 )和各類網(wǎng)上信 息資源 ( 即以數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)為基礎(chǔ),通過聯(lián)機(jī)系統(tǒng)或互聯(lián)網(wǎng)向用戶提供的文獻(xiàn)信息)。2采集方式多元化 傳統(tǒng)的文獻(xiàn)信息資源采集主要是根據(jù)需要,通過訂單向出版社或書商訂購(gòu)或直接到書店 選書,采集方式比較單一。而在網(wǎng)絡(luò)環(huán)境下,由于信息存儲(chǔ)、傳輸和再現(xiàn)發(fā)生了變

5、化,文獻(xiàn) 信息資源的出版發(fā)行渠道變得更加復(fù)雜多樣, 人們采集文獻(xiàn)信息資源的方式除了訂購(gòu)、 現(xiàn)購(gòu)、 交換、接受贈(zèng)送等傳統(tǒng)方式外,還包括入網(wǎng)、聯(lián)機(jī)使用、租用、免費(fèi)獲取等方式,采集方式 呈現(xiàn)出多元化的趨勢(shì)。3采集手段現(xiàn)代化 傳統(tǒng)的文獻(xiàn)信息資源采集,主要是以手工操作的方式進(jìn)行,程序復(fù)雜、煩瑣,不但花費(fèi) 大量的時(shí)間,而且容易出現(xiàn)差錯(cuò)。網(wǎng)絡(luò)環(huán)境下的文獻(xiàn)信息資源的采集實(shí)現(xiàn)了現(xiàn)代化、電子化 和網(wǎng)絡(luò)化, 用先進(jìn)的計(jì)算機(jī)技術(shù)可以從事查重、 打印訂單、統(tǒng)計(jì)、驗(yàn)收等工作,不僅速度快、 效率高,而且不容易出現(xiàn)差錯(cuò)。另外,現(xiàn)代化的采集工具不僅提高了工作質(zhì)量和工作效率, 也節(jié)約了采集人員的時(shí)間和精力,使他們能夠有足夠的精力

6、了解、掌握、研究文獻(xiàn)信息資源 方面的出版動(dòng)態(tài),保證文獻(xiàn)信息資源的采集質(zhì)量不斷提高。嚴(yán)格的資源采集標(biāo)準(zhǔn)是信息資源可靠性的關(guān)鍵保障之一??梢詮膬?nèi)容和形式兩個(gè)方面對(duì) 網(wǎng)絡(luò)信息資源的質(zhì)量進(jìn)行評(píng)價(jià)。1內(nèi)容標(biāo)準(zhǔn)內(nèi)容標(biāo)準(zhǔn)主要包括權(quán)威性、實(shí)用性、準(zhǔn)確性、實(shí)效性、獨(dú)特性、全面性等。權(quán)威性:信息發(fā)布者是學(xué)術(shù)權(quán)威或者是有影響的學(xué)術(shù)機(jī)構(gòu),專業(yè)性網(wǎng)站評(píng)價(jià)機(jī)構(gòu)對(duì)其有 較好的評(píng)價(jià)結(jié)果,資源在本領(lǐng)域有一定知名度與學(xué)術(shù)號(hào)召力,得到本領(lǐng)域相當(dāng)數(shù)量專業(yè)學(xué)者 的公認(rèn)。實(shí)用性:廣告所占比例低,對(duì)信息進(jìn)行了深度揭示,包括與其他外部信息的鏈接,對(duì)鏈 接列表中的資源有注釋說明。準(zhǔn)確性:資源內(nèi)容基本覆蓋資源標(biāo)題所言范疇,內(nèi)容客觀,信息 ( 包

7、括引用信息 )準(zhǔn)確可 靠,語(yǔ)法和拼寫錯(cuò)誤很少甚至是沒有,轉(zhuǎn)載的內(nèi)容有來源說明,鏈接有效性高。時(shí)效性: 資源內(nèi)容反映學(xué)科的最新發(fā)展, 近期內(nèi)進(jìn)行過內(nèi)容更新且注明了最后更新日期。 獨(dú)特性:資源包含信息基本上是其他網(wǎng)絡(luò)資源不具有的,網(wǎng)站上的內(nèi)容主要為原始信息 而非轉(zhuǎn)載或指向其他網(wǎng)站的鏈接。全面性:資源內(nèi)容包含了該領(lǐng)域的盡可能全的信息,資源來源渠道多樣化。2形式標(biāo)準(zhǔn)形式標(biāo)準(zhǔn)主要從三個(gè)方面去衡量,即資源的組織與利用方式、資源的接入條件、網(wǎng)站的 頁(yè)面設(shè)計(jì)。資源的組織與利用方式:包括資源的分類與組織是否科學(xué)、合理,瀏覽導(dǎo)航結(jié)構(gòu)是否清 晰、易用,網(wǎng)站資源是否具有供用戶檢索的搜索引擎,搜索引擎是否允許邏輯運(yùn)算,

8、搜索結(jié) 果能否按相關(guān)度排序等。資源的接入條件:資源的接入是否便利,對(duì)用戶的硬件和軟件是否有特別的要求 ( 比如 安裝插件或特殊軟件 ) ,是否有知識(shí)產(chǎn)權(quán)方面的限制條件, 是否需要注冊(cè)才能訪問, 資源接入 時(shí)反應(yīng)是否快捷。網(wǎng)站的頁(yè)面設(shè)計(jì):用戶界面是否友好,頁(yè)面是否整潔、柔和、協(xié)調(diào)、美觀,網(wǎng)頁(yè)各部分 的位置關(guān)系和所占比例是否合適,是否具有準(zhǔn)確的站點(diǎn)導(dǎo)航圖。1網(wǎng)絡(luò)信息資源采集的途徑目前流行的采集技術(shù)主要是人工采集、網(wǎng)站系統(tǒng)抓取以及定制信息等。(1)人工采集 人工采集是通常的網(wǎng)絡(luò)信息采集方式。在現(xiàn)在的互聯(lián)網(wǎng)世界里,用戶接觸最多的網(wǎng)絡(luò)信息是以 Web頁(yè)面形式存在的。另外,電子郵件、FTP、BBS電子論壇

9、、新聞組也是互聯(lián)網(wǎng)上獲取信息的常見渠道。以學(xué)科信息為例,常見的人工獲取網(wǎng)絡(luò)信息的主要方式有: 通過相關(guān)領(lǐng)域的學(xué)科主題指南或?qū)W科信息門戶進(jìn)行搜索:學(xué)科主題指南一般是由學(xué)會(huì)、 大學(xué)、研究所和圖書館等學(xué)術(shù)團(tuán)體和機(jī)構(gòu)編制的網(wǎng)絡(luò)學(xué)科資源導(dǎo)航目錄。學(xué)科主題指南經(jīng)過 專業(yè)人士的加工和組織,所含的信息切合主題,實(shí)用價(jià)值較高。使用搜索引擎采集信息:搜索引擎是最常用的搜索相關(guān)信息的工具,使用搜索引擎可采 用兩種方法:一是利用關(guān)鍵詞來檢索,二是通過學(xué)科分類體系來查找。專業(yè)搜索引擎是查找 網(wǎng)上某種信息的檢索工具。利用專業(yè)搜索引擎所查找出來的信息具有學(xué)術(shù)性強(qiáng)、質(zhì)量高等優(yōu) 點(diǎn)。利用專業(yè)網(wǎng)站查找:專業(yè)網(wǎng)站是獲取相關(guān)學(xué)科信息

10、的一個(gè)捷徑,它提供與學(xué)科有關(guān)的電 子出版物、專利、標(biāo)準(zhǔn)、會(huì)議和專業(yè)數(shù)據(jù)庫(kù)等信息。跟蹤綜合性門戶的相關(guān)欄目:許多綜合性門戶都設(shè)置有一些學(xué)科專業(yè)欄目,并定期更新 和發(fā)布一些重要學(xué)科信息,也具有很好的參考價(jià)值。跟蹤相關(guān)的重要國(guó)際組織或機(jī)構(gòu)的網(wǎng)站:重要國(guó)際組織或機(jī)構(gòu)的網(wǎng)站本身就是待收錄的 高質(zhì)量資源,并且質(zhì)量越高的網(wǎng)站所給出的相關(guān)鏈接質(zhì)量也可能越高。這些鏈接往往已經(jīng)是 經(jīng)過專業(yè)人員選擇的結(jié)果,需要納入跟蹤和搜索的范圍。了解相關(guān)學(xué)科領(lǐng)域的專家并搜尋他們的個(gè)人網(wǎng)站:這些網(wǎng)站本身或者其中給出的鏈接列 表都可能是高質(zhì)量的資源。搜索和加入相關(guān)領(lǐng)域的重要主題性郵件列表:相關(guān)領(lǐng)域的重要主題性郵件列表大都以免 費(fèi)訂閱

11、的方式將其更新、公告或出版物發(fā)送給訂閱者,也是一種很有用的信息源。上面所介紹的通過IE瀏覽器瀏覽 Web頁(yè)面,通過 Outlook收發(fā)電子郵件,通過登陸 FTP 服務(wù)器上下載資料等等都是利用客戶端軟件手工鏈接到信息源去獲取信息,屬于人工采 集。這種采集方法有一個(gè)共同點(diǎn):用戶手工鍵入一個(gè)URL或電子郵件地址,這些客戶端軟件就鏈接到信息源,用戶可以從信息源上獲取所需信息。(2)采集器自動(dòng)抓取(信息采集技術(shù)) 隨著互聯(lián)網(wǎng)的迅速發(fā)展,僅僅依靠人工搜集、整理信息已愈來愈不能滿足實(shí)際需要。于 是人們開始探索新的信息獲取方式,采集技術(shù)和推送技術(shù)就是應(yīng)這種需求而產(chǎn)生的。信息采集技術(shù)是目前時(shí)興的一種信息獲取方式

12、。信息采集技術(shù)是在用戶設(shè)定某些信息源 的某類信息后,采集器就自動(dòng)地定期從這些信息源中取出用戶所需的最新信息。這是一種定 向收集和定題收集相結(jié)合的主動(dòng)的、跟蹤式的多向收集,它的特點(diǎn)是獲取信息主動(dòng)、靈活。資料:采集器自動(dòng)抓取的優(yōu)缺點(diǎn)利用采集技術(shù)的優(yōu)點(diǎn)是:用戶自己可以設(shè)置信息源和所需信息類型;具有信息自動(dòng)化、本地化、集成化、最新化的特點(diǎn)。信息自動(dòng)化是指用戶不必一個(gè)一個(gè)的去各個(gè)信息源去取信息;信息本地化是指用戶不必到遠(yuǎn)程信息源去取信息,采集器已經(jīng)把用戶所要的信息采到本地了;信息集成化是指采集器可以一次性把各個(gè)信息源的同類信息都采過來;信息最新 化則是指采集器采過來的都是最新信息,用戶不再需要從信息源的

13、新舊信息中分辨出新信息 了。采集技術(shù)在定向收集和定題收集、主動(dòng)收集、跟蹤收集等方面都較推送技術(shù)有明顯的 優(yōu)勢(shì),另外在個(gè)性化方面也是推送技術(shù)無(wú)法比擬的。但采集技術(shù)也有它的缺點(diǎn),那就是所獲 取的信息都是原始信息,還需要進(jìn)行加工。( 3)定制信息(推送技術(shù)) 雖然在信息處理系統(tǒng)中,信息推送屬于信息服務(wù)提供的手段。但從需要獲取信息的用戶 角度來看,接受信息服務(wù)也是一種獲取信息的方式。因此信息推送也是一種信息獲取技術(shù)。 這種方式有點(diǎn)類似傳統(tǒng)的廣播,有人稱它為“網(wǎng)絡(luò)廣播”。網(wǎng)絡(luò)公司通過一定的技術(shù)標(biāo)準(zhǔn)或 協(xié)議,從網(wǎng)上的信息源或信息制作商獲取信息,經(jīng)過加工之后,通過固定的頻道向用戶發(fā)送 信息。這種方式的特點(diǎn)是

14、用戶獲取信息比較被動(dòng),只能定制自己的頻道,信息的來源以及信 息的具體內(nèi)容往往不能靈活地控制。資料:定制信息的優(yōu)缺點(diǎn)通過推送技術(shù)獲取信息的優(yōu)點(diǎn)主要有:可以定制自己所需的信息;自己不必過問信 息從哪里得到;接受的信息都是推送服務(wù)提供者從信息源獲取的、經(jīng)過加工的有效信息。通過推送技術(shù)獲取信息的缺點(diǎn)是:用戶定制的選擇空間是有限的;雖然用戶可以中止或 更改所要的服務(wù),但是被動(dòng)的和不方便的;目前多數(shù)推送服務(wù)提供者只推送信息的主題, 具體的內(nèi)容還要用戶去信息源去取。2網(wǎng)絡(luò)信息資源采集的策略 網(wǎng)絡(luò)信息資源采集的策略主要有以下幾種:(1) 限制采集的深度:從采集深度考慮,通常情況下,如果用戶通過IE 瀏覽器看新

15、聞 的話,從首頁(yè)開始,最多點(diǎn)擊三層,就可以看到所需的所有新聞內(nèi)容。同樣的道理,采集器 只要采集三層就能得到各個(gè)具體的新聞內(nèi)容,而沒有必要采集更深的層次。(2)限制某些鏈接:從采集廣度考慮,對(duì)于那些大家都不感興趣的鏈接,完全可以設(shè) 定不采這些鏈接,這樣就大大地減小了采集工作量,從而也大大地減少了過濾的工作量。這 是限制采集廣度的一個(gè)強(qiáng)有力的手段。(3)限制搜索跳轉(zhuǎn):作為專業(yè)搜索引擎,要采集的信息資源通常集中在幾個(gè)固定的初 始網(wǎng)站內(nèi),這樣就不希望網(wǎng)站采集器跳轉(zhuǎn)到其它的網(wǎng)站。(4)限制采集的文件類型:如果用戶只想采集或者不想采集具有某些擴(kuò)展名的文件, 就可以對(duì)采集的文件類型進(jìn)行規(guī)定或限制。(5)采集

16、或不采集某些目錄下的文件。用戶在設(shè)置這樣的過濾策略時(shí),必須保證所需 的信息在這樣的過濾策略下能夠獲取,這一點(diǎn)要尤為注意。因?yàn)?,這樣的設(shè)置有可能斷了由 首頁(yè)到所需頁(yè)面的鏈接,從而取不到所需信息。除以上策略外,還可過濾舊的信息、限制采集文件的最大長(zhǎng)度、限制站點(diǎn)采集的最大頁(yè)2.2 網(wǎng)絡(luò)信息采集技術(shù)的發(fā)展信息采集技術(shù)的發(fā)展以計(jì)算機(jī)技術(shù)、電子技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)的發(fā)展為依托, 逐步向全球網(wǎng)絡(luò)化、全自動(dòng)化、智能化、多功能化、家庭化和個(gè)人化的方向發(fā)展。隨著智能 科學(xué)研究的進(jìn)展,模擬人腦認(rèn)知和思維過程的新概念計(jì)算機(jī)將會(huì)問世,這為信息采集技術(shù)的 發(fā)展指明了方向。網(wǎng)絡(luò)信息檢索技術(shù)基礎(chǔ)網(wǎng)絡(luò)信息檢索工具最早產(chǎn)生

17、于1994年,首個(gè)中文 WW網(wǎng)絡(luò)檢索系統(tǒng) Goyoyo也于1997年在香港問世。進(jìn)入 21 世紀(jì)后,網(wǎng)絡(luò)信息檢索技術(shù)不斷深入發(fā)展,取得了更大的進(jìn)步。1 資源定位檢索技術(shù)互聯(lián)網(wǎng)是以TCP/IP(傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議)和HTTP超文本傳送協(xié)議)為核心而發(fā)展 起來的。 URL(Uniform Resource Locator) ,俗稱網(wǎng)址,是描述網(wǎng)絡(luò)信息資源的字符串統(tǒng) 一資源定位符。 它包括傳輸協(xié)議、 信息資源的主機(jī) IP 地址和主機(jī)目錄及文件名的具體地址三 個(gè)部分。網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、網(wǎng)上出版物、網(wǎng)絡(luò)機(jī)構(gòu)等有固定的URL聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索中心,期刊、報(bào)紙等電子出版物,圖書館、高校、企業(yè)、政府等機(jī)構(gòu)都有唯一

18、明確的網(wǎng)址。利用網(wǎng)絡(luò)瀏覽 器( 如 IE) 查找網(wǎng)址,可以快捷、方便地獲得針對(duì)性極強(qiáng)的“對(duì)口”網(wǎng)絡(luò)信息。 2“超鏈接”搜索技術(shù)Web信息以超文本鏈接方式組織,基本組織單元是信息節(jié)點(diǎn)而不是字符串,信息節(jié)點(diǎn)之 間通過鏈接進(jìn)行聯(lián)系。超鏈接是網(wǎng)頁(yè)必不可少的一個(gè)元素,同一主題或相關(guān)的信息因超級(jí)鏈 接構(gòu)成了龐大的無(wú)形的跳躍式的信息網(wǎng)。超文本信息檢索技術(shù),以超文本信息節(jié)點(diǎn)之間的多 種鏈接關(guān)系為基礎(chǔ),根據(jù)思維聯(lián)想或查找信息的需要,通過鏈接從一個(gè)信息節(jié)點(diǎn)轉(zhuǎn)到另一個(gè) 信息節(jié)點(diǎn)。人們可以根據(jù)它順藤摸瓜,在網(wǎng)上自由地瀏覽信息,邊瀏覽點(diǎn)擊邊分析篩選,一 步一步根據(jù)鏈接跳轉(zhuǎn)查閱,直至獲得令人滿意的結(jié)果。3網(wǎng)絡(luò)搜索引擎技術(shù)

19、搜索引擎 ( Search Engine) ,也稱導(dǎo)航站點(diǎn)。搜索引擎技術(shù)集中體現(xiàn)在四個(gè)方面:訪問、 閱讀、整理 Web信息的信息采集,建立包含關(guān)鍵信息的索引數(shù)據(jù)庫(kù),根據(jù)用戶請(qǐng)求查找索引 數(shù)據(jù)庫(kù)相關(guān)文檔的搜索軟件, 以及為用戶提供可視化的查詢輸入和結(jié)果輸出界面的用戶接口。 目前,實(shí)現(xiàn)網(wǎng)絡(luò)信息檢索的搜索引擎技術(shù)可以分為兩類,即網(wǎng)站分類目錄技術(shù)和全文索引檢 索技術(shù)。4 web 挖掘技術(shù)web挖掘技術(shù)是從www及其相關(guān)的資源和行為中抽取有用的模式和隱含信息,利用web技術(shù)中的文本總結(jié)技術(shù),可以從文檔中抽取出關(guān)鍵信息,以簡(jiǎn)潔的形式對(duì)web 文檔的信息進(jìn) 行摘要或表示,使用戶大致了解 web 文檔的內(nèi)容,

20、對(duì)其相關(guān)性進(jìn)行取舍。 除以上技術(shù)外,知識(shí)發(fā)現(xiàn)技術(shù)、通用信息檢索技術(shù)、自然語(yǔ)言處理技術(shù)等也有了很大的 發(fā)展。隨著計(jì)算機(jī)及通訊技術(shù)的發(fā)展,網(wǎng)絡(luò)信息采集技術(shù)也在不斷發(fā)展。網(wǎng)絡(luò)信息采集技術(shù)的 發(fā)展趨勢(shì)主要表現(xiàn)在以下幾方面:1檢索工具的多語(yǔ)種化 多語(yǔ)種檢索即提供多語(yǔ)種的檢索環(huán)境供檢索者選擇,系統(tǒng)按指定的語(yǔ)種進(jìn)行檢索并輸出 檢索結(jié)果。隨著各地上網(wǎng)人數(shù)的不斷增多,各種語(yǔ)言的網(wǎng)站也在不斷增長(zhǎng),語(yǔ)言障礙使人們 不能充分利用網(wǎng)上信息資源??缯Z(yǔ)言檢索系統(tǒng)仍然在摸索中,許多搜索引擎也在構(gòu)造跨語(yǔ)言 搜索引擎來解決這個(gè)問題。建立跨語(yǔ)言檢索系統(tǒng)要涉及到語(yǔ)言學(xué)、情報(bào)學(xué)、計(jì)算機(jī)科學(xué)等多 門學(xué)科知識(shí),是一個(gè)綜合性能強(qiáng)富有挑戰(zhàn)性的

21、研究領(lǐng)域。2檢索工具的綜合化和專業(yè)化 從內(nèi)容與提供信息的深度上看,網(wǎng)絡(luò)檢索工具分別向綜合化與專業(yè)化兩個(gè)方向發(fā)展。綜 合性的檢索工具要求面向一切學(xué)科,跨越所有領(lǐng)域,提供全面的信息。另一方面,由于有些 用戶對(duì)所需信息的深度、內(nèi)容的精確性和相關(guān)性要求較高,綜合性的檢索工具往往不能滿足 專業(yè)用戶的需求。為了提高檢索質(zhì)量,專業(yè)網(wǎng)絡(luò)檢索工具必須面向特定的專業(yè)領(lǐng)域,滿足專 業(yè)用戶的信息需求。3檢索尋址的內(nèi)容化基于內(nèi)容的檢索(Content Based Retrieval, CBR),是指根據(jù)媒體對(duì)象的語(yǔ)義、特征進(jìn)行檢索,如圖像中的顏色、紋理、形狀,視頻中的鏡頭、場(chǎng)景、鏡頭的運(yùn)動(dòng),聲音中的音調(diào)、 響度、音色等

22、。利用多媒體信息分析處理程序,對(duì)其內(nèi)容進(jìn)行全面準(zhǔn)確的標(biāo)引,建立“內(nèi)容 對(duì)象”關(guān)系型索引多媒體數(shù)據(jù)庫(kù)。檢索時(shí)計(jì)算機(jī)程序自動(dòng)獲取用戶查詢內(nèi)容,然后與多媒 體索引庫(kù)匹配并提供內(nèi)容完全一致的檢索結(jié)果。4檢索工具的智能化 智能檢索技術(shù)就是采用人工智能進(jìn)行信息檢索的技術(shù)。它可以模擬人腦的思維方式,分 析用戶以自然語(yǔ)言表達(dá)的檢索請(qǐng)求,自動(dòng)形成檢索策略進(jìn)行智能、快速、高效的信息檢索。 智能檢索技術(shù)主要體現(xiàn)在語(yǔ)義理解、知識(shí)管理和知識(shí)檢索三個(gè)方面。它利用語(yǔ)義分析模塊自 動(dòng)智能分詞, 進(jìn)行用戶請(qǐng)求和知識(shí)庫(kù) “數(shù)據(jù)” 的語(yǔ)義理解, 最終把知識(shí)庫(kù)中匹配的信息篩選、 整序后提供給用戶??傊?,網(wǎng)絡(luò)信息檢索不受時(shí)空限制,檢索

23、速度快,檢索功能強(qiáng)大。智能化、知識(shí)化、多 語(yǔ)種化等多途徑一體化網(wǎng)絡(luò)信息檢索技術(shù),為人們跨越信息時(shí)空描繪了波瀾壯闊的藍(lán)圖。網(wǎng)絡(luò)信息采集系統(tǒng)的應(yīng)用前景1網(wǎng)絡(luò)信息采集系統(tǒng)概述 網(wǎng)絡(luò)信息采集系統(tǒng)是一個(gè)匯集了各種網(wǎng)絡(luò)信息收集技術(shù)的計(jì)算機(jī)程序集成系統(tǒng),其最終 目標(biāo)是給廣大讀者提供網(wǎng)絡(luò)信息資源服務(wù),整個(gè)過程經(jīng)過網(wǎng)絡(luò)信息收集、整合、保存和服務(wù) 四個(gè)步驟,其流程圖如圖 2.1 所示。圖2. 1網(wǎng)絡(luò)信息采集系統(tǒng)流程圖網(wǎng)絡(luò)信息收集是基于網(wǎng)絡(luò)信息采集系統(tǒng)自 動(dòng)完成的。網(wǎng)絡(luò)信息采集系統(tǒng)首先按照用戶指 定的信息或主題,調(diào)用各種搜索引擎進(jìn)行網(wǎng)頁(yè) 搜索和數(shù)據(jù)挖掘,將采集的信息經(jīng)過濾等處理 過程剔除無(wú)關(guān)信息,從而完成網(wǎng)絡(luò)信息資

24、源的 “收集”;然后通過計(jì)算機(jī)自動(dòng)排重等處理過 程剔除重復(fù)信息,再根據(jù)不同類別或主題自動(dòng) 進(jìn)行信息的分類,從而完成網(wǎng)絡(luò)信息的“整合”; 分類整合后的網(wǎng)絡(luò)信息采用元數(shù)據(jù)方案進(jìn)行編 目,并采用數(shù)據(jù)壓縮、解壓及數(shù)據(jù)傳輸技術(shù)實(shí) 現(xiàn)本地化的海量數(shù)據(jù)存儲(chǔ),從而完成網(wǎng)絡(luò)信息的“保存”;經(jīng)過編目組織的網(wǎng)絡(luò)信息正式發(fā) 布后,即可通過檢索對(duì)讀者實(shí)現(xiàn)網(wǎng)絡(luò)信息資源的“服務(wù)”。名詞術(shù)語(yǔ):元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))。它是一種廣元數(shù)據(jù)最本質(zhì)、最抽象的定義為:data about data泛存在的現(xiàn)象,在許多頂域有其具體的定義和應(yīng)用。在圖書館與信息界,元數(shù)據(jù)被定義為: 提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù),是對(duì)信息資源的結(jié)

25、構(gòu)化的描述。其作用為:描述信息資源或數(shù)據(jù)本身的特征和屬性,規(guī)定數(shù)字化信息的組織,具有定位、發(fā)現(xiàn)、證明、 評(píng)估、選擇等功能。2 網(wǎng)絡(luò)信息采集系統(tǒng)的應(yīng)用前景網(wǎng)絡(luò)信息采集系統(tǒng)具有廣闊的應(yīng)用前景,可以廣泛地用于以下方面:(1) 數(shù)字圖書館建設(shè)建設(shè)現(xiàn)代化數(shù)字圖書館的一個(gè)核心問題就是網(wǎng)絡(luò)信息資源的收集和保存問題。在當(dāng)今這 個(gè)信息爆炸的時(shí)代,如果不能實(shí)現(xiàn)網(wǎng)絡(luò)信息資源的自動(dòng)收集和保存,那么建設(shè)數(shù)字圖書館就 是一句空言。網(wǎng)絡(luò)信息采集系統(tǒng)可以自動(dòng)地收集網(wǎng)絡(luò)信息資源,并將其分門別類地存入各個(gè) 主題數(shù)據(jù)庫(kù),從而可以為構(gòu)建學(xué)科門戶網(wǎng)站打下基礎(chǔ)。(2) 企業(yè)情報(bào)采集信息化時(shí)代,一個(gè)企業(yè)若要在行業(yè)中立足并取得優(yōu)勢(shì)地位,離不

26、開對(duì)政府部門的相關(guān)政 策以及對(duì)競(jìng)爭(zhēng)對(duì)手行動(dòng)的跟蹤與調(diào)查。網(wǎng)絡(luò)信息采集系統(tǒng)可以根據(jù)企業(yè)自己的需求,自動(dòng)地 為企業(yè)收集相關(guān)情報(bào),并提出預(yù)警分析等。這樣,企業(yè)就可以對(duì)政府有關(guān)的政策導(dǎo)向和對(duì)手 的動(dòng)向了如指掌,從而制定正確的企業(yè)運(yùn)行戰(zhàn)略,并最終在競(jìng)爭(zhēng)中取勝。(3) 知識(shí)信息積累對(duì)于任何提供信息服務(wù)的部門而言,如何獲取大量的信息都是一個(gè)相當(dāng)棘手的問題。網(wǎng) 絡(luò)信息采集系統(tǒng)可以自動(dòng)地進(jìn)行網(wǎng)絡(luò)信息資料的收集,并對(duì)信息進(jìn)行分類處理,最終形成知 識(shí)信息的積累。(4) 個(gè)性化信息采集某些專業(yè)用戶 ( 如某個(gè)領(lǐng)域的科技人員等 )對(duì)信息的需求是非常特殊和專業(yè)的,網(wǎng)絡(luò)信息 采集系統(tǒng)可以根據(jù)他們的個(gè)人興趣為他們進(jìn)行個(gè)性化專

27、題的自動(dòng)收集,為他們提供其所在領(lǐng) 域的最新信息??傊W(wǎng)絡(luò)信息采集系統(tǒng)作為網(wǎng)絡(luò)信息收集工具有著很好的應(yīng)用前景。2.3 網(wǎng)絡(luò)信息采集軟件簡(jiǎn)介 互聯(lián)網(wǎng)為我們提供了海量的信息,當(dāng)我們需要某些信息的時(shí)候,就要直接登錄網(wǎng)站或是 通過搜索引擎來進(jìn)行查找, 這樣操作非常麻煩。 如果能夠把自己需要的信息全部下載到本地, 就大大方便了用戶操作,網(wǎng)絡(luò)信息采集軟件就是幫助用戶解決這一問題的。這類軟件一般都 是集數(shù)據(jù)采集及管理為一體的軟件,可以幫助用戶有針對(duì)性地下載自己需要的數(shù)據(jù)。網(wǎng)絡(luò)信息采集軟件是進(jìn)行將非結(jié)構(gòu)化的信息從大量的網(wǎng)頁(yè)中抽取出來保存到結(jié)構(gòu)化的數(shù) 據(jù)庫(kù)中的過程的軟件。無(wú)論是公司、企業(yè)還是個(gè)人,基于各種目的,

28、都需要從網(wǎng)絡(luò)中采集信 息,然而,從浩如煙海的網(wǎng)絡(luò)中采集到自己需要的信息實(shí)在是需要耗費(fèi)太多的時(shí)間與精力, 信息采集軟件的出現(xiàn)使用戶獲得了解脫。信息采集軟件的開發(fā)者從用戶角度出發(fā),都具有任務(wù)管理、信息采集、數(shù)據(jù)管理、數(shù)據(jù) 發(fā)布等方面的功能。 這類軟件一般都有比較便捷的任務(wù)管理功能, 可以隨意添加、 修改任務(wù), 都支持批量添加任務(wù);在信息采集方面都可以通過設(shè)置實(shí)現(xiàn)從網(wǎng)絡(luò)自動(dòng)采集信息,顯得比較 人性化和智能化; 在數(shù)據(jù)管理上各有千秋, 一般都支持目前流行的主流數(shù)據(jù)庫(kù), 都有很方便、 很智能化的數(shù)據(jù)發(fā)布功能。目前市場(chǎng)上的信息采集軟件很多,質(zhì)量也良莠不齊,比較常用的網(wǎng)絡(luò)信息采集軟件主要 有網(wǎng)絡(luò)信息采集專家

29、、網(wǎng)站萬(wàn)能信息采集器以及網(wǎng)絡(luò)信息采集大師等。總之, 網(wǎng)絡(luò)信息采集軟件可以幫助用戶有效、 快速地進(jìn)行網(wǎng)站抓取采集、 網(wǎng)頁(yè)信息下載、 情報(bào)采集等工作,提高用戶以及用戶所在組織的生產(chǎn)力和情報(bào)獲得能力。相信在這類軟件的 幫忙下,網(wǎng)絡(luò)信息的采集會(huì)更加自動(dòng)化、智能化,網(wǎng)站的更新和維護(hù)會(huì)變得更簡(jiǎn)單。資料:常用網(wǎng)絡(luò)信息采集軟件簡(jiǎn)介(1) 網(wǎng)絡(luò)信息采集專家網(wǎng)絡(luò)信息采集專家可以將網(wǎng)絡(luò)信息按規(guī)則多任務(wù),多線程采集保存到數(shù)據(jù)庫(kù)中。主要功 能有網(wǎng)站登錄、信息自動(dòng)識(shí)別、網(wǎng)頁(yè)正文提取、采集結(jié)果分類、預(yù)留編程接口、過濾重復(fù)內(nèi) 容等??梢酝ㄟ^設(shè)置“計(jì)劃執(zhí)行采集任務(wù)”實(shí)現(xiàn)信息采集自動(dòng)化??梢詫⒉杉臄?shù)據(jù)儲(chǔ)存為 Micsoft A

30、ccess 、SQL Server 2000 、MySQL 、Web 等類型的數(shù)據(jù)庫(kù),并支持?jǐn)?shù)據(jù)信息的 發(fā)布。(2)網(wǎng)站萬(wàn)能信息采集器網(wǎng)站萬(wàn)能信息采集器具有信息采集添加全自動(dòng)、 網(wǎng)站登錄、 文件自動(dòng)下載和 N 級(jí)頁(yè)面采 集等四大特色功能。采集器任務(wù)管理很方便,新建任務(wù)、載入任務(wù)、修改任務(wù)、刪除任務(wù), 任務(wù)開始、暫停、繼續(xù)等功能應(yīng)有盡有,也支持批量添加任務(wù)。在軟件啟動(dòng)設(shè)置中可以設(shè)置 定時(shí)自動(dòng)抓取網(wǎng)絡(luò)信息,實(shí)現(xiàn)采集自動(dòng)化。采集器可以將采集的信息直接發(fā)布到自己的數(shù)據(jù) 庫(kù)中,并且支持任意數(shù)據(jù)庫(kù)類型,兼容性相當(dāng)不錯(cuò)。(3)網(wǎng)絡(luò)信息采集大師網(wǎng)絡(luò)信息采集大師功能強(qiáng)大,采集速度快,信息準(zhǔn)確。任務(wù)管理非常方便,

31、不僅可以隨 意添加、修改任務(wù),而且可以通過設(shè)置,讓任務(wù)隨軟件自動(dòng)運(yùn)行或在某個(gè)時(shí)間運(yùn)行,甚至可 以設(shè)置運(yùn)行次數(shù)或循環(huán)運(yùn)行,實(shí)現(xiàn)信息采集自動(dòng)化。網(wǎng)絡(luò)信息采集大師支持目前流行的 SqlServer 、 Access 、 Oracel 、DB2 、Mysql 等類型的數(shù)據(jù)庫(kù),可以發(fā)布數(shù)據(jù)到網(wǎng)站,還可 以將采集的信息直接導(dǎo)出為文本文件或 Excel 格式的文件。圖2. 2軟件主界面網(wǎng)絡(luò)信息采集大師(NetGet)的使用在各類信息采集軟件中,網(wǎng)絡(luò)信息采集大師(NetGet)是其中比較出色的一款軟件,其功能強(qiáng)大,使用也較為方便。1 軟件主界面軟件安裝完成后運(yùn)行,可以看到如圖2.2所示的軟件主界面及懸浮窗口。

32、軟件主界面非常簡(jiǎn)潔。軟件最頂端是菜單欄及工具 欄,工具欄提供了最常用的一些工具按鈕, 為用戶操作軟件提供了方便。左側(cè)是分類數(shù) 據(jù)區(qū),對(duì)數(shù)據(jù)進(jìn)行分類,便于管理。右側(cè)上 半部分是任務(wù)區(qū),在這里列出了正在運(yùn)行的 任務(wù)。接下來是采集數(shù)據(jù)區(qū),在這里顯示正在運(yùn)行任務(wù)的數(shù)據(jù)。2 采集數(shù)據(jù)使用網(wǎng)絡(luò)信息采集大師采集網(wǎng)站上的信息非常簡(jiǎn)單,只要在建立任務(wù)時(shí)填寫上要采集的 網(wǎng)址,然后按自己的要求來設(shè)置采集規(guī)則即可。具體操作如下:(1) 任務(wù)概述單擊工具欄上的“新建”按鈕,出現(xiàn)如圖2.3所示的“任務(wù)概述”對(duì)話框。在該窗口中對(duì)任務(wù)概述進(jìn)行設(shè)置。設(shè)置好任務(wù)名稱、網(wǎng)站首頁(yè)、類別、保存位置、文件名、任務(wù)類型及 自動(dòng)保存采集數(shù)據(jù)

33、時(shí)間等,建立一個(gè)新的任務(wù)。設(shè)置好后,單擊“下一步”按鈕,進(jìn)入采集 規(guī)則設(shè)置。圖2. 3任務(wù)概述對(duì)話框圖2. 4采集規(guī)則對(duì)話框(2) 采集規(guī)則在如圖2.4所示的采集規(guī)則對(duì)話框中,設(shè)置任務(wù)的采集規(guī)則。此頁(yè)數(shù)據(jù)的填寫較為關(guān)鍵,直接關(guān)系到數(shù)據(jù)能否采集。起始地址:要采集頁(yè)面的開始地址。也可以是一個(gè)本地文件,如c:list.txt,該文本文件里是采集頁(yè)面的地址集合。導(dǎo)航關(guān)鍵字:可連接到下一頁(yè)的關(guān)鍵字符串。一般來說采集的信息是多頁(yè)的,如,頁(yè)碼數(shù)字前面的字符串page就是導(dǎo)航關(guān)鍵字。若不添該項(xiàng),則只采集起始地址的數(shù)據(jù)。采集頁(yè)數(shù)范圍:采集哪一頁(yè)到哪一頁(yè)之間的數(shù)據(jù)。若不添該項(xiàng)則只采集起始地址的數(shù)據(jù)。增量:默認(rèn)為

34、采集網(wǎng)址標(biāo)識(shí):1。一般來說頁(yè)碼變化是連續(xù)的。需要抓取數(shù)據(jù)的頁(yè)面URL地址關(guān)鍵字。若采集本級(jí)頁(yè)面,為空即可。過濾網(wǎng)址標(biāo)識(shí):不打算采集的頁(yè)面地址里的關(guān)鍵字,一般情況下不用。關(guān)聯(lián)網(wǎng)址標(biāo)識(shí):一次采集多個(gè)頁(yè)面的信息組合成一條數(shù)據(jù)。在此填寫關(guān)聯(lián)網(wǎng)址的關(guān)鍵字。注意該標(biāo)識(shí)符在整個(gè)網(wǎng)頁(yè)源碼中具有唯一性,可以組合 URL 前后的字符串來標(biāo)識(shí)。 采集數(shù)據(jù)頁(yè)包含分頁(yè):一般用來采集新聞,文章等一篇文章用多個(gè)頁(yè)面來顯示的情況, 關(guān)鍵字就是分頁(yè)地址里的關(guān)鍵字符串。采集關(guān)鍵字替換:一般不用,為了提高采集效率設(shè)置。目的是把某些 URL 地址直接替 換成自己想要采集數(shù)據(jù)的 URL 地址。設(shè)置好后,單擊“下一步”按鈕,進(jìn)入數(shù)據(jù)提取

35、規(guī)則的設(shè)置。圖 2. 5 數(shù)據(jù)提取規(guī)則對(duì)話框圖 2. 6 修改任務(wù)設(shè)置窗口(3)數(shù)據(jù)提取規(guī)則在如圖 2.5 所示的數(shù)據(jù)提取規(guī)則對(duì)話框中,設(shè)置數(shù)據(jù)提取規(guī)則。 本頁(yè)提取多行同類數(shù)據(jù):比如只采集文章的標(biāo)題列表等。 中文名稱:自己隨便命名,比如“姓名”、“聯(lián)系地址”等。 前標(biāo)識(shí)符:確定一個(gè)數(shù)據(jù)值的前符號(hào)。在源文件里查找。(先在軟件的瀏覽器里打開要 分析的網(wǎng)頁(yè), 然后點(diǎn) “源文件” 按鈕,可顯示要分析的源文件數(shù)據(jù)。 注意不要直接用 IE 瀏覽 器得到網(wǎng)頁(yè)源代碼,一定要用軟件的“源文件”按鈕。)后標(biāo)識(shí)符:確定一個(gè)數(shù)據(jù)值的后符號(hào)。參考前標(biāo)識(shí)符的解釋。信息類型:其中有幾種最為常用。URL類型:當(dāng)一個(gè)數(shù)據(jù)項(xiàng)被設(shè)

36、置成 URL類型時(shí),假如采集到地址不完整, 會(huì)自動(dòng)格式化成一個(gè)完整的地址。 附加類型: 采集的信息里, 有循環(huán)的, 有不循環(huán)的,這時(shí)不參與循環(huán)的要設(shè)置為附加類型。常量:有時(shí)采集的數(shù)據(jù)項(xiàng)里,有一個(gè)或 多個(gè)數(shù)據(jù)項(xiàng)不需要采集,要和采集結(jié)果在一起,把這些數(shù)據(jù)項(xiàng)設(shè)置為常量。提取數(shù)據(jù)頁(yè)的全部數(shù)據(jù)作為一個(gè)數(shù)據(jù)列:把采集的數(shù)據(jù)整個(gè)輸出。一般適用于數(shù)據(jù)很難 拆分的情況。若使用該項(xiàng),下面的不用再設(shè)置。保存對(duì)應(yīng)的URL有時(shí)候URL能標(biāo)識(shí)一行具體的數(shù)據(jù),這樣數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)后,用戶能 很方便地分辨。區(qū)分大小寫:采集英文的數(shù)據(jù),可選中此項(xiàng),因?yàn)橹形臎]有大小寫之分(采集新聞最好 選中該項(xiàng),有些圖片地址對(duì)大小寫敏感)。自動(dòng)截

37、取字串:使用默認(rèn)即可。保留 html 代碼:默認(rèn)情況下,采集到的 html 代碼中, < >之間的部分會(huì)自動(dòng)清除,選中 該項(xiàng)后可保留代碼。該選項(xiàng)是針對(duì)每個(gè)數(shù)據(jù)項(xiàng)的,有比較大的靈活性。任務(wù)設(shè)置完成后,只要在任務(wù)分類區(qū)選擇任務(wù)名稱,然后直接單擊工具欄上的“運(yùn)行” 按鈕,即可按設(shè)定好的規(guī)則采集數(shù)據(jù)到本地。3任務(wù)管理如果想修改任務(wù)的采集規(guī)則,只要選擇要修改的任務(wù),然后雙擊即可打開如圖2.6 所示的任務(wù)修改窗口,在這里可以對(duì)任務(wù)概述、采集規(guī)則及數(shù)據(jù)提取規(guī)則進(jìn)行修改設(shè)置。圖2. 7任務(wù)調(diào)度窗口另外,還可以通過任務(wù)調(diào)度設(shè)置 任務(wù)自動(dòng)運(yùn)行。單擊工具欄中的“調(diào) 度”按鈕,出現(xiàn)如圖 2.7所示的任務(wù)

38、調(diào)度對(duì)話框。在該對(duì)話框中可以設(shè)置 任務(wù)為自動(dòng)隨軟件運(yùn)行,或是在某個(gè) 時(shí)間運(yùn)行,可以設(shè)置運(yùn)行指定的資數(shù) 或是循環(huán)運(yùn)行,從而使采集的數(shù)據(jù)同 步??傊W(wǎng)絡(luò)信息采集大師對(duì)任務(wù) 的管理非常方便,可以按要求隨意修 改任務(wù)設(shè)置,設(shè)置任務(wù)自動(dòng)運(yùn)行,讓 采集數(shù)據(jù)能夠全自動(dòng)完成,同時(shí)還可 以備份分類數(shù)據(jù)庫(kù)。4 采集數(shù)據(jù)管理使用網(wǎng)絡(luò)信息采集大師采集完成數(shù)據(jù)后,所有的被采集數(shù)據(jù)都會(huì)在采集數(shù)據(jù)區(qū)里顯示出 來,如圖2.8所示。用戶可以對(duì)這些數(shù)據(jù)進(jìn)行各項(xiàng)操作。圖2. 8采集到的數(shù)據(jù)可以把采集數(shù)據(jù)區(qū)中的所有數(shù)據(jù)導(dǎo)出為文本或是Excel,然后對(duì)其進(jìn)行保存,在導(dǎo)出的同時(shí),還可以配置數(shù)據(jù)庫(kù),讓其與數(shù)據(jù)庫(kù)直接鏈接,能夠把采集的數(shù)據(jù)

39、直接進(jìn)行發(fā)布,使其 與數(shù)據(jù)庫(kù)完美對(duì)接。同時(shí)還可以只是導(dǎo)出所有數(shù)據(jù)的標(biāo)題、鏈接。(1) 輸出為文本單擊工具欄中的“文本”按鈕,出現(xiàn)如圖2.9所示的“數(shù)據(jù)輸出到文本”對(duì)話框。在該對(duì)話框中,只有窗口的上半部分的功能有效,下半部分為數(shù)據(jù)庫(kù)功能,不用設(shè)置。若打算把圖2. 9數(shù)據(jù)輸岀到文本對(duì)話框采集數(shù)據(jù)項(xiàng)的標(biāo)題一起導(dǎo)出,可勾選“輸出列標(biāo)題”,默 認(rèn)只輸出采集的數(shù)據(jù);可選擇輸出的數(shù)據(jù)范圍,比如1-1000 行等。(2) 輸出為Excel單擊工具欄中的“ Excel”按鈕,出現(xiàn)“數(shù)據(jù)輸出到Excel ”對(duì)話框,該對(duì)話框與“數(shù)據(jù)輸出到文本”對(duì)話框基 本一致。注意:導(dǎo)出 Excel時(shí)不要對(duì)Excel文件有任何操

40、作(點(diǎn)擊,調(diào)整寬度等),否則可能導(dǎo)致異常;若沒任何 操作情況下仍有異常,一般重裝Ofice軟件可得到徹底解 決。(3) 輸出到數(shù)據(jù)庫(kù)單擊工具欄中的“數(shù)據(jù)庫(kù)”按鈕,出現(xiàn)“數(shù)據(jù)輸出到 數(shù)據(jù)庫(kù)”對(duì)話框。該對(duì)話框與“數(shù)據(jù)輸出到文本”基本一致。輸出到數(shù)據(jù)庫(kù)時(shí),窗口的上半部分只有“輸出行范圍”有效,列標(biāo)題不會(huì)導(dǎo)入到數(shù)據(jù)庫(kù)。窗口的下半部分,即標(biāo)志“數(shù)據(jù) 庫(kù)”的部分需要重點(diǎn)設(shè)置。一般需要進(jìn)行以下步驟:配置數(shù)據(jù)庫(kù)連接:目前完整測(cè)試的數(shù)據(jù)庫(kù)有Access、Sqlserver 、 Oracle 、 MySql。選擇導(dǎo)入哪個(gè)表: 假如已經(jīng)配置好了數(shù)據(jù)庫(kù)連接, 點(diǎn)“刷新”, 可得到連接數(shù)據(jù)庫(kù)的表, 選擇一個(gè)表導(dǎo)入?;蛘?/p>

41、使用新表,勾選“使用新表”,添入表名稱,可自動(dòng)創(chuàng)建表。假如是導(dǎo)入數(shù)據(jù)庫(kù)里已經(jīng)存在的表,并且表里的字段個(gè)數(shù)(或叫列個(gè)數(shù))與采集數(shù)據(jù)項(xiàng) 的個(gè)數(shù)完全一致,并且字段長(zhǎng)度可容納采集的數(shù)據(jù),可直接點(diǎn)“確定”,數(shù)據(jù)會(huì)自動(dòng)導(dǎo)入數(shù) 據(jù)庫(kù)。假如不能滿足這兩個(gè)條件(即字段和采集項(xiàng)個(gè)數(shù)一一對(duì)應(yīng),字段長(zhǎng)度足夠長(zhǎng)),導(dǎo)入 數(shù)據(jù)庫(kù)會(huì)發(fā)生異常;字段長(zhǎng)度不夠可到數(shù)據(jù)庫(kù)里更改字段長(zhǎng)度;不是一一對(duì)應(yīng)的,單擊“定 義數(shù)據(jù)接口”,在“數(shù)據(jù)列接口設(shè)置”對(duì)話框中設(shè)置哪個(gè)數(shù)據(jù)項(xiàng)對(duì)應(yīng)哪個(gè)字段,還可設(shè)置不 可重復(fù)數(shù)據(jù)列(發(fā)現(xiàn)重復(fù)的數(shù)據(jù)自動(dòng)過濾掉),非常方便??傊?,使用網(wǎng)絡(luò)信息采集大師采集的信息可以直接導(dǎo)出為文本文件或是 Excel 格式的文 件,即使是數(shù)據(jù)庫(kù)文件也能夠方便地導(dǎo)出,方便了用戶的操作,同時(shí)能夠直接把采集的數(shù)據(jù) 導(dǎo)入數(shù)據(jù)庫(kù),數(shù)據(jù)查詢功能大大方便了用戶對(duì)數(shù)據(jù)庫(kù)內(nèi)容的搜索。2.4 實(shí)訓(xùn)實(shí)訓(xùn) 1:網(wǎng)絡(luò)信息采集軟

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論