版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第二章 信息組織的基本原理學習目的和要求通過對本章的學習,使學生對信息組織最常用的基本原理從宏觀上有一個把握和了解,為后面章節(jié)的學習打下基礎(chǔ)。本章學習重點掌握情報檢索語言的涵義、類型;掌握檢索語言的語法和句法控制;信息檢索系統(tǒng)的評價及評價指標;了解概念的種類、概念之間的各種關(guān)系;內(nèi)容安排第一節(jié) 語言學原理第二節(jié) 系統(tǒng)論原理第三節(jié) 知識分類原理第四節(jié) 概念邏輯原理第一節(jié) 語言學原理一、信息組織的語言工具檢索語言是信息檢索系統(tǒng)的重要組成部分,是信息組織和檢索的語言保證。張琪玉對情報檢索語言的定義情報檢索語言根據(jù)情報檢索的需要而創(chuàng)制的,專門用于各種手工的和計算機化的文獻情報存貯檢索系統(tǒng),能夠唯一地表
2、達各種概括文獻情報內(nèi)容(主題概念),能夠顯示概念之間的相互關(guān)系,并便于進行系統(tǒng)排列,便于將標引用語和檢索用語進行相符性比較的人工語言。含義分析:檢索語言的目的是用于標引和檢索,而根本的目的是滿足檢索的需要;它是一個規(guī)范化的概念體系,能準確表達信息主題并顯示其相互關(guān)系;它是有序的,可用于系統(tǒng)排序;它是一種人工語言。切爾內(nèi)對檢索語言的闡述檢索語言一種專門的人工語言,它用于描述(表示)文獻的中心問題或主題和外表特征,以便以后在其他文獻集合中查找需要的文獻,或者用于表示情報提問的內(nèi)容和檢索需要的文獻。二、檢索語言的類型基本劃分二、檢索語言的類型譜系分類譜系分類是將檢索語言按語系、語族、語支和語種體系劃
3、分的一種方法。三、語言學原理在信息組織中的應(yīng)用普通語言學的應(yīng)用英國的奧斯?。―.Austin) 設(shè)計“保留上下文索引系統(tǒng)”(PRECIS)時,就運用了喬姆斯基(N.Chomsky)轉(zhuǎn)換生成語言學及其表層桔構(gòu)和深層結(jié)構(gòu)理論。陶布單元詞語言,就是根據(jù)美國描寫語言學的“分布理論”制定了單元詞之間的“同現(xiàn)關(guān)系”(Cooccurence)。計算語言學的應(yīng)用用詞頻統(tǒng)計分析方法進行標引和檢索詞匯的選擇。標引詞在文獻庫中的分布服從正態(tài)分布分類號在大型文獻庫中的頻率分布符合雙曲線分布:出現(xiàn)頻率最高的詞不一定是最具描述率的。逆文獻加權(quán)四、檢索語言的語法(一)檢索語言語法體系的構(gòu)成檢索語言由詞匯和語法組成,語法包括
4、詞法和句法兩大部分。檢索語言通過制定的詞法規(guī)則來創(chuàng)造詞匯或從自然語言中擇取可用的自然語詞組成詞匯集合,并建立詞間的語義關(guān)系,以及通過一定的句法規(guī)則來規(guī)定這些詞匯在標引和檢索過程中的使用。詞匯控制的內(nèi)容:詞量控制詞類控制詞形控制詞義控制詞間關(guān)系控制專指度控制(二)檢索語言的詞匯控制優(yōu)選自然語言建立詞間關(guān)系計算機編表輸出各種詞表 自然語言 人工語言 檢索語言 控制語言選定敘詞 詞類、詞形控制詞義控制 詞間關(guān)系控制專指度控制檢索語言提供外部形式的句法手段主要是指:引用次序控制符號句式變換(三)檢索語言的句法控制1.引用次序引用次序(Citation Order)或稱組配次序(Combination
5、Order),和語言學中的“詞序”這一術(shù)語相對應(yīng)。檢索語言把引用次序作為重要句法手段。引用次序主要有四類:“顯著性引用次序”;“范疇職能引用次序”;“概念關(guān)系引用次序”;“上下文從屬引用次序”阮岡納贊提出本體、物質(zhì)、動力、空間、時間五個范疇,即著名的PMEST公式“范疇職能引用次序”上下文從屬引用次序(Context dependency)上下文從屬引用次序保留了部分自然語言句法手段(虛詞)和自然語序。如:“題內(nèi)關(guān)鍵詞索引”(KWIC) 和“題外關(guān)鍵詞索引”(KWOC) “掛接主題索引”“保留上下文索引系統(tǒng)”(PRECIS)“嵌套短語索引系統(tǒng)”(NEPHIS)和“鏈接短語索引系統(tǒng)”(LIPHI
6、S)等。ERIC題內(nèi)關(guān)鍵詞索引MeSH詞表題外關(guān)鍵詞索引樣例2.控制符號句法控制符號采用人工制定的成套的控制符號控制符號包括聯(lián)號、職號、關(guān)系符號(組配分類法中的“+”、“:”)、加權(quán)等類型并列符號“+”“41 +73 ”表示英美,“510 +47”表示中蘇關(guān)聯(lián)符號 “:”“31 統(tǒng)計學”、“63 農(nóng)業(yè)科學”,用“:”連接表示“63:31 農(nóng)業(yè)統(tǒng)計學”?!?.句式變換句式變換檢索語言句子有一個檢索入口問題,即句首詞起著引導檢索者的作用。主要方式:輪排和倒置輪排是最主要的句式變換的手法。簡單輪排詞對式輪排循環(huán)輪排循環(huán)輪排第二節(jié) 系統(tǒng)論原理一、系統(tǒng)論的基本原理和核心思想系統(tǒng)論認為,整體性、關(guān)聯(lián)性、等
7、級結(jié)構(gòu)性、動態(tài)平衡性、時序性等是所有系統(tǒng)的共同基本特征。系統(tǒng)論的核心思想是系統(tǒng)的整體觀念。任何系統(tǒng)都是一個有機的整體,它不是各個部分的機械組合或簡單相加,系統(tǒng)的整體功能是各要素在孤立狀態(tài)下無法實現(xiàn)的。二、信息檢索系統(tǒng)理想的信息檢索系統(tǒng)具有信息組織和檢索兩大功能,并能實現(xiàn)較為理想的信息檢索效率。信息檢索系統(tǒng)生命周期信息檢索系統(tǒng)的系統(tǒng)構(gòu)成從系統(tǒng)分析的角度信息檢索系統(tǒng)的構(gòu)成有五個方面:硬件、軟件、數(shù)據(jù)件、人員件和系統(tǒng)件。從完整的結(jié)構(gòu)分析來分析信息檢索系統(tǒng)一般有六個子系統(tǒng):(1)資源采集與選擇子系統(tǒng);(2)詞表子系統(tǒng);(3)標引子系統(tǒng);(4)查尋子系統(tǒng);(5)系統(tǒng)用戶接口子系統(tǒng);(6)匹配子系統(tǒng)。其中
8、,檢索語言和標引是系統(tǒng)的中心環(huán)節(jié),它起著承上啟下,連接用戶與系統(tǒng)的關(guān)鍵作用。三、信息檢索系統(tǒng)的評價信息檢索系統(tǒng)性能評價的方面:檢索系統(tǒng)效能評價檢索性能評價(一)檢索系統(tǒng)效能評價檢索系統(tǒng)效能評價度量指標:系統(tǒng)響應(yīng)時間+系統(tǒng)所需空間度量參數(shù):索引結(jié)構(gòu)的性能;與操作系統(tǒng)交互的效能;通信信道的延遲;軟件開銷 通常時間越短,占用的空間越少,系統(tǒng)的性能越好。但是,在空間和時間之間有一個折衷的問題。(二)檢索系統(tǒng)效能評價檢索性能評價信息檢索的關(guān)鍵問題相關(guān)性如何從文檔集中找出與用戶查詢要求相關(guān)的文檔,因此度量文檔與查詢之間的相關(guān)性是檢索任務(wù)的核心?!跋嚓P(guān)性”是一個多維的概念、動態(tài)的、復雜而系統(tǒng)的、可以定量化測
9、量的一個度量體系。主要取決于用戶對檢索結(jié)果集滿足用戶信息需求之間程度的判斷。一個比較具有代表性的觀點,相關(guān)性=滿意度+有用性+針對性+時效性檢索性能定量評價指標檢索性能評價指標查全率查準率Lancaster的評價指標查全率(Recall)查準率(Precision)響應(yīng)時間(檢索速度)收錄范圍用戶負擔輸出形式三、網(wǎng)絡(luò)檢索系統(tǒng)性能評價版本一數(shù)據(jù)庫規(guī)模和內(nèi)容(覆蓋范圍、索引組成、更新周期);索引方法(自動、人工索引);檢索功能(布爾邏輯檢索、截詞檢索、字面檢索、大小寫區(qū)分、概念檢索、詞語加權(quán)、詞語位置限定、字段限定、重復辨別、上下文關(guān)鍵詞、查詢集操作);檢索結(jié)果(相關(guān)性排序(單純排序或注明排序分值
10、)、顯示內(nèi)容(注釋或摘要)、輸出數(shù)量選擇(限定或改變顯示數(shù)量)、顯示格式選擇);用戶負擔(幫助文件、數(shù)據(jù)庫和檢索功能說明、查詢舉例、構(gòu)造檢索式的幫助措施,);檢索效率(檢全率、檢準率和響應(yīng)時間)。版本二在技術(shù)方面:對新網(wǎng)站登錄的支持;數(shù)據(jù)庫的更新頻率和時效性;錯誤鏈接和重復鏈接的數(shù)量;搜索的速度;搜索結(jié)果排序的相關(guān)度;中文還有對英文和多內(nèi)碼的支持; 在用戶使用方面:有首頁設(shè)計的美觀性;幫助文件的實用性;查詢操作的便利性;搜索結(jié)果的準確性。版本三與“檢索技術(shù)”密切相關(guān)的測試指標:索引數(shù)據(jù)庫構(gòu)成:標引深度、更新頻率;檢索功能:基本檢索功能與高級檢索功能;檢索效果:響應(yīng)時間、相對查全率R,查準率P、
11、重復率R,、死鏈接率Rd;檢索結(jié)果組織和顯示:結(jié)果顯示格式的種類與內(nèi)容(反饋信息)、相關(guān)性排序依據(jù)等;用戶負擔:用戶界面(用戶檢索界面也非決定搜索引擎性性能的關(guān)鍵因素)、相關(guān)文獻,信息過濾等。第三節(jié) 知識分類原理一、檢索語言的知識分類體系(一)哲學家的知識分類體系培根知識分類體系圖毛澤東關(guān)于知識的概括和分類 (二)大學教學知識分類體系聯(lián)合國教科文組織的分類體系.普通高等學校本科專業(yè)目錄(1998年頒布)學科體系(三)科學學知識分類體系學科分類與代碼(GB/T 13745-92)學科體系示意圖第四節(jié) 概念邏輯原理一、概念種類、內(nèi)涵與外延概念集合概念和非集合概念;普遍概念和單獨概念。概念的含義與適
12、用的范圍就是一個概念的內(nèi)涵與外延。當概念的內(nèi)涵擴大(加深)時,則它的外延就縮??;當概念的內(nèi)涵縮小(變淺)時,則它的外延就擴大。二、概念之間的關(guān)系屬種關(guān)系一個概念的外延包含另一概念的全部外延同一關(guān)系兩個概念在外延上完全重合交叉關(guān)系兩個概念之間有且只有一部分外延是重合的三、概念邏輯方法(一)概念的限定與概括概念的限定是指通過增加概念(限定詞)的內(nèi)涵以縮小概念的外延,由屬概念過渡到種概念的邏輯方法。概念的概括是通過減少概念的內(nèi)涵從而擴大其外延,由外延較小的種概念到屬概念。(二)概念的劃分概念的劃分是以事物的某種屬性為分類標準,將一個屬概念的外延劃分成若干個種概念的方法。事物有各種各樣的屬性,根據(jù)不同
13、的屬性就可作不同的劃分。概念劃分的基本規(guī)則劃分得到的子項的外延之和應(yīng)當?shù)扔谀疙椀耐庋樱粍澐值玫降母髯禹椀耐庋颖仨毾嗷ヅ懦?;每次劃分?yīng)當使用同一標準進行;劃分必須是按逐級進行。(三)概念的分析與綜合概念的分析是對整體事件和復雜事物進行分解的研究方法,包括把整體事物分解為各個部分和把復雜事物分解為簡單的要素并對分解的部分和要素進行考察。概念的綜合是在思維過程中把對象的各個部分、各個方面和各個因素聯(lián)系起來考察,得出有關(guān)它們共性的、本質(zhì)的認識。概念分析與綜合的關(guān)系綜合建立在分析基礎(chǔ)上。分析與綜合按其思維的方向是相反的,一是在整體基礎(chǔ)上去認識部分,一是在對部分認識的基礎(chǔ)上又去重新認識整體,二者是辯證統(tǒng)一的。四、概念邏輯方法的應(yīng)用概念的邏輯方法是編制信息分類法基本方法??疾旄鱾€知識領(lǐng)域的要素及其屬性,從眾多的知識領(lǐng)域依據(jù)它們共同的屬性概括出分類法的基本大類,這就是分析與綜合的方法。對每一個類目通過選取適當?shù)姆诸悩藴剩捶诸悩藴室么涡颍┻M行逐級地劃分,一層層展開就構(gòu)成一個等級并列關(guān)系分明、概念內(nèi)涵外延清晰的類目體系,這個過程始終是概念邏輯方法的運用。分類標準引用次序的選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中國移動湖北公司春季招聘高頻重點提升(共500題)附帶答案詳解
- 2025中國交建基礎(chǔ)設(shè)施養(yǎng)護集團限公司招聘4人高頻重點提升(共500題)附帶答案詳解
- 2025下半年重慶市屬事業(yè)單位歷年高頻重點提升(共500題)附帶答案詳解
- 2025下半年福建省福安市事業(yè)單位招聘87人歷年高頻重點提升(共500題)附帶答案詳解
- 2025下半年浙江紹興嵊州市水投集團員工招聘28人高頻重點提升(共500題)附帶答案詳解
- 2025下半年廣東省陽江陽東區(qū)招聘合同制職員59人歷年高頻重點提升(共500題)附帶答案詳解
- 2025下半年四川阿壩州事業(yè)單位歷年高頻重點提升(共500題)附帶答案詳解
- 2025上海市寶山區(qū)青年儲備人才公開招聘30人高頻重點提升(共500題)附帶答案詳解
- 2025上半年江蘇省南通市屬事業(yè)單位招聘95人歷年高頻重點提升(共500題)附帶答案詳解
- 2025上半年四川省內(nèi)江市事業(yè)單位招聘歷年高頻重點提升(共500題)附帶答案詳解
- (完整版)食堂管理制度及流程
- 某醫(yī)院后備人才梯隊建設(shè)方案
- 二年級上冊英語教案Unit6 Lesson22︱北京課改版
- 桂枝加龍骨牡蠣湯_金匱要略卷上_方劑加減變化匯總
- 《2021國標建筑專業(yè)圖集資料》96S821鋼筋混凝土清水池附屬構(gòu)配件圖集
- CHEETAH高壓制備色譜操作手冊
- 水利基本建設(shè)項目竣工財務(wù)決算報表編制說明
- 公司勞動工資結(jié)構(gòu)圖(doc 1頁)
- 《AFM簡介實驗》ppt課件
- 客運公司崗位安全生產(chǎn)操作規(guī)程
- 中學學生評教實施方案
評論
0/150
提交評論