信息采集技術(shù)_第1頁
信息采集技術(shù)_第2頁
信息采集技術(shù)_第3頁
信息采集技術(shù)_第4頁
信息采集技術(shù)_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信息采集技術(shù)信息采集的途徑與方法〔二〕一、光盤檢索采集方法光盤檢索簡介 光盤檢索:光盤的運(yùn)用起始于70年代,最初主要用于制造激光唱片。80年代以來,隨著計(jì)算機(jī)技術(shù)和數(shù)字化計(jì)算機(jī)的開展,光盤才開場運(yùn)用于文獻(xiàn)信息領(lǐng)域。光盤在文獻(xiàn)信息領(lǐng)域的運(yùn)用對信息的存儲介質(zhì)〔紙、磁介質(zhì)、縮微膠片等〕帶來了革命性的影響,并劇烈地沖擊著聯(lián)機(jī)產(chǎn)業(yè)。由于以CD-ROM為代表的光盤技術(shù)具有易用、存儲容量大等獨(dú)特的特點(diǎn),因此遭到了人們的普遍歡迎,并很快開展成為一種新的檢索系統(tǒng)——光盤檢索系統(tǒng)。90年代初期,光盤數(shù)據(jù)庫檢索系統(tǒng)以它存儲數(shù)據(jù)量大、操作簡單、檢索效率高、本錢低廉、運(yùn)轉(zhuǎn)環(huán)境要求簡單等特性,在高校圖書館中的到了廣泛的運(yùn)用,到達(dá)了它的頂峰時(shí)期。近兩年來隨著Internet的普及使得光盤數(shù)據(jù)庫檢索系統(tǒng)逐漸開展為光盤網(wǎng)絡(luò)檢索系統(tǒng),但是目前光盤數(shù)據(jù)庫的獨(dú)特的優(yōu)點(diǎn)使它依然成為利用現(xiàn)代化手段進(jìn)展文獻(xiàn)檢索的主要方式之一。

光盤檢索的特點(diǎn)優(yōu)點(diǎn):

〔1〕運(yùn)轉(zhuǎn)速度快

光盤數(shù)據(jù)庫采用單機(jī)檢索,不受檢索線路能否擁堵的影響,即使銜接在校園網(wǎng)上,由于傳輸間隔較近,其運(yùn)轉(zhuǎn)速度也比較快。

〔2〕本錢低,檢索效果好

普通而言,CD-ROM數(shù)據(jù)庫的檢索費(fèi)用比聯(lián)機(jī)檢索費(fèi)用低得多,并具有很好的檢索效果。購買CD-ROM數(shù)據(jù)庫后,在一年內(nèi)可以恣意運(yùn)用,利用率愈高,分?jǐn)偟谋惧X愈低,且在整個檢索過程中不涉及遠(yuǎn)程通訊網(wǎng)絡(luò)問題,也不需求運(yùn)用專線之類的通訊線路,并思索機(jī)時(shí)費(fèi)與流通量的問題,沒有聯(lián)機(jī)檢索按時(shí)間收費(fèi)的緊張感,可為用戶提供良好的檢索條件和環(huán)境氣氛。

〔3〕下載方便

用戶可以方便地將光盤上的部分所需數(shù)據(jù)拷貝到軟盤或其他計(jì)算機(jī)系統(tǒng)里,從而形本錢部門或個人的部分?jǐn)?shù)據(jù)庫,以便隨時(shí)查詢。

〔4〕平安性能高

對于光盤數(shù)據(jù)庫來講,它是只讀光盤,具有不可擦除性,更不會因病毒而呵斥文獻(xiàn)喪失。

光盤檢索的特點(diǎn)缺陷:

〔1〕運(yùn)用范圍有限

目前光盤數(shù)據(jù)庫的規(guī)模和容量有限,普通都以某一領(lǐng)域?qū)W科為主,不能夠囊括一切學(xué)科,而且遭到所購置光盤專業(yè)種類的限制,有時(shí)會影響查全率。

〔2〕更新周期長

普通的光盤數(shù)據(jù)庫更新需求3個月,最快也需求1個月。

〔3〕檢索系統(tǒng)不兼容

不同出版商制造的光盤數(shù)據(jù)庫不能在一個系統(tǒng)中兼容,運(yùn)用上有很多不便。

〔4〕需求不斷換盤

一個大型數(shù)據(jù)庫,普通都是幾張光盤,特別是全文數(shù)據(jù)庫,例如中國學(xué)術(shù)期刊全文光盤數(shù)據(jù)庫,每年都有一百多張光盤,檢索時(shí)需求不斷改換光盤。光盤檢索提供的效力〔1〕追溯檢索效力

目前引進(jìn)的CD-ROM數(shù)據(jù)庫普通存儲近5~10年的文獻(xiàn),對科研工程的研討提供追溯檢索的效力。〔2〕定題效力

定題效力是為了跟蹤某課題的最新動態(tài),按用戶事先預(yù)定的檢索內(nèi)容,自動延續(xù)地重新到的文獻(xiàn)庫中檢出有關(guān)信息,提供應(yīng)用戶。CD-ROM數(shù)據(jù)庫檢索系統(tǒng)還具備保管和重新執(zhí)行檢索戰(zhàn)略的功能,可以對檢索戰(zhàn)略進(jìn)展恣意修正和補(bǔ)充,因此實(shí)施定題效力是比較方便易行的。〔3〕專題追溯檢索效力

教育技術(shù)研討者在開場一項(xiàng)新課題研討時(shí),需求系統(tǒng)全面地了解這一課題的進(jìn)展情況,需查找過去假設(shè)干年中前人有關(guān)此課題的文獻(xiàn)資料。由于CD-ROM數(shù)據(jù)庫的運(yùn)用幾乎不受時(shí)間限制,因此可以為特定用戶制定的專題提供專題追溯檢索效力。由于受機(jī)時(shí)和費(fèi)用的限制,聯(lián)機(jī)檢索系統(tǒng)普通不提供這類效力。光盤檢索系統(tǒng)1.光盤檢索系統(tǒng)的組成

光盤檢索系統(tǒng)由光盤、光驅(qū)、計(jì)算機(jī)和相應(yīng)軟件組成。

〔1〕光盤

數(shù)據(jù)存儲單元,普通由數(shù)據(jù)庫供應(yīng)商提供,數(shù)據(jù)在制造過程中固定在其物理介質(zhì)上,不能抹掉也無法修正,稱為CD-ROM。

〔2〕CD-ROM驅(qū)動器或光盤塔

光盤讀取的公用設(shè)備,其發(fā)射的激光束聚焦在光盤的信息軌道上,在有小孔或無小孔處構(gòu)成不同的光反射,這兩種不同的光反射經(jīng)光學(xué)系統(tǒng)接納后轉(zhuǎn)換成電信號,計(jì)算機(jī)二進(jìn)制信息“0〞或“1〞,經(jīng)計(jì)算機(jī)解碼后,成為原紀(jì)錄的數(shù)字化信息。

〔3〕計(jì)算機(jī)及相應(yīng)軟件

光盤本身是一種機(jī)讀文獻(xiàn),需在計(jì)算機(jī)上讀取。目前運(yùn)用的光盤檢索系統(tǒng)都以計(jì)算機(jī)為根底設(shè)備,在普通的計(jì)算機(jī)上加載光盤驅(qū)動器的驅(qū)動軟件和數(shù)據(jù)庫的檢索軟件,即可成為光盤檢索系統(tǒng)。

光盤檢索系統(tǒng)2.光盤檢索網(wǎng)絡(luò)系統(tǒng)

光盤檢索網(wǎng)絡(luò)系統(tǒng)是90年代開展起來的計(jì)算機(jī)文獻(xiàn)檢索系統(tǒng)。隨著光盤數(shù)據(jù)庫的大量涌現(xiàn),單機(jī)光盤檢索需頻繁換盤,給用戶帶來不便。而且在同一時(shí)辰只能有一個讀者運(yùn)用,無法充分發(fā)揚(yáng)昂貴的光盤數(shù)據(jù)庫的效益。在計(jì)算機(jī)網(wǎng)絡(luò)的硬件和軟件環(huán)境的支持下,產(chǎn)生了光盤網(wǎng)絡(luò)檢索系統(tǒng)。目前建成的光盤網(wǎng)絡(luò)檢索系統(tǒng)都是以計(jì)算機(jī)的局域網(wǎng)為根底,有多種方式,其共同特點(diǎn)是擁有能同時(shí)運(yùn)轉(zhuǎn)幾十張光盤的光盤塔驅(qū)動器,它可供上百個用戶同時(shí)檢索同一張光盤。

光盤數(shù)據(jù)庫網(wǎng)絡(luò)的組成包括光盤塔和各種光盤組網(wǎng)軟件以及光盤塔效力器等。

光盤檢索的根本流程 光盤檢索的根本流程為根據(jù)檢索的課題選擇適宜的數(shù)據(jù)庫,并確定檢索詞,根據(jù)檢索要求編寫檢索式,開場檢索,檢索終了后,分析判別檢索結(jié)果,如不適宜需修正檢索詞和檢索式進(jìn)展二次檢索,最終得到稱心的檢索結(jié)果。

1.分析研討課題,明確查找要求

明確所需信息及文獻(xiàn)內(nèi)容、性質(zhì)、程度等情況;在分析課題的根底上構(gòu)成主題概念;根據(jù)檢索主題概念的學(xué)科性質(zhì),確定檢索的學(xué)科范圍。

2.選擇檢索數(shù)據(jù)庫

由于當(dāng)前數(shù)據(jù)庫的種類繁多,各數(shù)據(jù)庫的內(nèi)容相差很大,從國內(nèi)外出版的數(shù)據(jù)庫來看,普通從數(shù)據(jù)庫的學(xué)科范圍、數(shù)據(jù)庫的文獻(xiàn)范圍、數(shù)據(jù)庫的國別或語種范圍三個方面來確定數(shù)據(jù)庫的內(nèi)容。

光盤檢索的根本流程3.確定檢索詞

所謂檢索詞,就是將檢索要求概括成的簡約詞語。檢索詞的選擇必需符合兩個要求,一是能準(zhǔn)確反映課題的檢索要求,二是必需符合數(shù)據(jù)庫對輸入詞的要求。4.編寫檢索式

一個課題往往需求用多個檢索詞來描畫其含義,這些檢索詞又往往需求用一定的語法規(guī)那么來規(guī)定,才干完好描畫檢索要求,這就要編寫檢索式。檢索式是將檢索詞之間的關(guān)系用布爾邏輯算符和位置算符來描畫的式子。5.檢索結(jié)果顯示及判別

根據(jù)顯示文獻(xiàn)信息的內(nèi)容和篇數(shù),可以判別檢索結(jié)果能否符合要求,假設(shè)不符合要求,那么調(diào)整檢索詞和檢索式再次進(jìn)展檢索。

常用的光盤數(shù)據(jù)庫1.<中文科技期刊數(shù)據(jù)庫>光盤

<中文科技期刊數(shù)據(jù)庫>光盤由中國科技信息研討所重慶分所于1992年6月開發(fā)勝利。1993年面世,其前身為中文科技期刊篇名數(shù)據(jù)庫軟盤版。“中刊庫〞是目前國內(nèi)最大的綜合性文獻(xiàn)數(shù)據(jù)庫,收錄了自1989年以來的中文科技期刊文獻(xiàn)200多萬條,援用期刊達(dá)5400余種,年報(bào)道量26萬條,該庫每季更新一次。

2.<中國專利文獻(xiàn)>光盤數(shù)據(jù)庫

中國專利文獻(xiàn)光盤數(shù)據(jù)庫〔CNPAT〕由中國專利信息中心出版,該數(shù)據(jù)庫1992年開發(fā)勝利,收錄了自1985年至今在中國專利局懇求并公開的全部專利信息約43萬件,內(nèi)容有題錄、文摘和主權(quán)項(xiàng),提供了關(guān)鍵詞、發(fā)明稱號、國際專利分類號、范疇分類號、懇求號、發(fā)明人、公告號、優(yōu)先權(quán)項(xiàng)、國別省市代碼、懇求日、公告日、懇求人地址、代理機(jī)構(gòu)代碼共14個檢索入口,其中懇求人、發(fā)明人、發(fā)明稱號為全文檢索。3.英國<科學(xué)文摘>光盤數(shù)據(jù)庫

英國<科學(xué)文摘>光盤數(shù)據(jù)庫〔INSPECOndisc〕由英國IEE學(xué)會出版,是書本型ScienceAbstract〔<科學(xué)文摘>〕的機(jī)讀版。其信息來源于世界范圍內(nèi)已出版了的計(jì)算機(jī)、電子學(xué)、物理學(xué)方面的文獻(xiàn),涉及期刊4200余種,會議、圖書、技術(shù)報(bào)告和學(xué)位論文1000余種,每年提供25萬條信息。INSPEC數(shù)據(jù)庫中每條記錄的著錄工程有:論文標(biāo)題、作者姓名、作者單位、期刊、會議、圖書、報(bào)告、學(xué)位論文的信息、文摘、分類、敘詞、自在詞等主要工程,同時(shí)提供了分類號、主題詞、自在詞、數(shù)值索引、化學(xué)索引等27項(xiàng)檢索入口。光盤檢索采集的方式方式:單用戶的光盤數(shù)據(jù)庫信息采集方式點(diǎn)對點(diǎn)光盤數(shù)據(jù)庫信息采集方式以局域網(wǎng)為依托的光盤數(shù)據(jù)庫信息采集方式文件效力器方式/對等方式以廣域網(wǎng)為根底的光盤數(shù)據(jù)庫信息采集方式在虛擬網(wǎng)絡(luò)根底上的光盤數(shù)據(jù)庫信息采集方式,FTP、、程控等光盤檢索采集的途徑與方法途徑與方法運(yùn)用規(guī)范化的言語檢索采集運(yùn)用非規(guī)范化的言語檢索采集運(yùn)用規(guī)范化與非規(guī)范化言語相結(jié)合的檢索采集運(yùn)用文獻(xiàn)的外形特征檢索采集運(yùn)用延續(xù)出版物的國際規(guī)范號碼檢索二、全文檢索采集方法全文檢索一種將文件中一切文本與檢索項(xiàng)匹配的文字資料檢索方法。

全文檢索是計(jì)算機(jī)程序經(jīng)過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于經(jīng)過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索實(shí)際建立起來的用于提供全文檢索效力的軟件系統(tǒng)。

功能上全文檢索系統(tǒng)需求具有建立索引,處置查詢前往結(jié)果集,添加索引,優(yōu)化索引構(gòu)造等功能。構(gòu)造上具有索引引擎,查詢引擎,文本分析引擎和對外接口等。全文檢索西文全文檢索數(shù)據(jù)庫的索引機(jī)制是心自然言語的單詞為根本單元的,詞與詞之前有自然界限〔以空格為標(biāo)志〕漢語的詞那么是以單音節(jié)為根底層層組合構(gòu)成的,常用方法有“詞典匹配法〞、“詞頻統(tǒng)計(jì)法〞、“聯(lián)想詞群法〞、“設(shè)立標(biāo)志法〞、“知識與規(guī)那么法〞、“人工智能法〞等等全文數(shù)據(jù)庫的構(gòu)造與特點(diǎn)構(gòu)造:包括兩個部分順序文檔構(gòu)造倒排文檔構(gòu)造特點(diǎn):文本客觀性/言語自然性/后控詞表性/檢索徹底性/較大穩(wěn)定性全文檢索系統(tǒng)的方式單漢字無標(biāo)引全文檢索系統(tǒng)此系統(tǒng)是為了讓原文每一個字都具有可檢性,便經(jīng)過計(jì)算機(jī)替原文的各個字都建立倒排檔,以便信息人員或用戶以各個單字檢索入口進(jìn)展檢索的過程。全文檢索系統(tǒng)在主文檔中包括題名、著者、正文等字段;在倒排檔中,包括字與地址集合,其中地址集合由三元組成,即文獻(xiàn)記錄號、添加字段標(biāo)識與字的起始位置。特點(diǎn):容易實(shí)現(xiàn),維護(hù)方便,檢索速度慢,浪費(fèi)存儲空間,查全率與查準(zhǔn)率不高例:為有效檢索主文檔中的信息,根據(jù)主文檔抽取一些字建立的倒排檔:檢索過程全文后控檢索系統(tǒng)是為了在詞與詞之間建立一種指引關(guān)系,而運(yùn)用后控詞給予控制的體系。詞與詞之間有從屬關(guān)系、等同關(guān)系、相關(guān)關(guān)系等。后控詞表是由專家編制的一種輔助表,并由專家定期檢查、更新與完善。系統(tǒng)特點(diǎn):提高了查全和查準(zhǔn)率;易產(chǎn)生歧義,量大時(shí)長;B2B1BEFGAA是B與E的上位詞,E是B的同位詞,B1、B2是B的同義詞,F(xiàn)、G是B的相關(guān)詞或近義詞例:與信息產(chǎn)業(yè)相關(guān)之詞詞間聯(lián)絡(luò)的參照符號:三、現(xiàn)代信息間諜采集方法現(xiàn)代信息間諜采集方法概念-現(xiàn)代信息間諜采集方法,是間諜機(jī)構(gòu)經(jīng)過派遣間諜,運(yùn)用現(xiàn)代化手段,以合法或非法的方式,采集本國或本單位所急需的、競爭對手中有極大價(jià)值的信息的方法現(xiàn)代信息間諜活動現(xiàn)狀現(xiàn)代信息間諜盛行的緣由是兩軍決用的武器是搞跨競爭對手的法寶是獲得奇效的上等秘訣現(xiàn)代信息間諜活動的特點(diǎn)間諜與工具結(jié)合公開與隱蔽并施盟國與友軍不存企業(yè)與企業(yè)競賽專家與學(xué)者出動政府與民間攜手生態(tài)間諜游蕩現(xiàn)代間諜采集信息的方式方法方式:高空拍攝/竊取/行賄拉攏/美人利誘/安插內(nèi)線/要挾恫嚇/破譯密碼/假而實(shí)之公開方式衛(wèi)星偵查/觀賞調(diào)查/分析文獻(xiàn)/會議交流/留學(xué)搜集/無償饋贈/發(fā)表論文/外交活動四、社會調(diào)查采集信息的方法社會調(diào)查采集信息的方法是針對用戶的需求,向各種社會活動了解其活動情況、數(shù)據(jù)與資料的方法社會調(diào)查的方法普遍調(diào)查〔普查〕:對采集對象的運(yùn)動情況、特征與趨向等進(jìn)展全面采集與分析的方法,是統(tǒng)計(jì)調(diào)查的一種重要方式。有自上而下式和自下而上式如大規(guī)模的全國人口普查/經(jīng)濟(jì)普查等社會調(diào)查的方法問卷調(diào)查:是采用出題與回答的方式采集信息的一種方法。是進(jìn)展市場調(diào)查常用的有效方法之一。具有準(zhǔn)確、可靠、及時(shí)的特點(diǎn)問卷標(biāo)題的擬定要準(zhǔn)確、簡約、易答、省時(shí)等社會調(diào)查的方法問卷調(diào)查常見的題型:是非題選擇題品等題比較題填空題〔比較式填空/定距定量填空〕問答題社會調(diào)查的方法察看調(diào)查:是信息人員深化現(xiàn)場后,借助于人的覺得器官與現(xiàn)代化設(shè)備(錄音機(jī)、錄像機(jī)、攝像機(jī)等〕而采集信息的方法。詳細(xì)方法有:閱讀與訊問結(jié)合扮演與混入相結(jié)合代銷與察看相結(jié)合留心與捕捉相結(jié)合社會調(diào)查的方法實(shí)驗(yàn)調(diào)查:是采用市場營銷與直接消費(fèi)的方式而采集信息的方式。途徑有:營銷實(shí)驗(yàn)直接消費(fèi)社會調(diào)查的方法追蹤調(diào)查:是將征求用戶對本企業(yè)產(chǎn)品意見的卡片,放入產(chǎn)品包裝盒、袋、柜等之中,待用戶購買此產(chǎn)品時(shí),用戶便收到卡片

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論