信息資源組織基礎ppt課件.ppt_第1頁
信息資源組織基礎ppt課件.ppt_第2頁
信息資源組織基礎ppt課件.ppt_第3頁
信息資源組織基礎ppt課件.ppt_第4頁
信息資源組織基礎ppt課件.ppt_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第一講 信息資源組織基礎,元數(shù)據(jù)與信息資源組織,1,啤酒與尿布的故事,美國沃爾瑪超市建立數(shù)據(jù)倉庫,按周期統(tǒng)計產(chǎn)品的銷售信息,經(jīng)過科學建模后提煉決策層數(shù)據(jù)。結果,他們發(fā)現(xiàn):每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時購買尿布和啤酒的記錄非常普遍。分析人員經(jīng)過深入分析得知,通常周末購買尿布的是男士,他們在完成了太太交給的任務后,經(jīng)常會順便買一些啤酒。得出這樣的結果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷售,結果,尿布與啤酒的銷售額雙雙增長 。,2,生活中的信息組織,你怎么組織你的 書籍或資料 衣物或任何其他生活雜物 電腦文件 大腦中的信息,3,你

2、怎么組織,藏書 按用途:興趣愛好的(小說、旅游、烹調(diào)),學習類的,收藏類,工具書類 按載體:刊物、報紙、圖書、畫冊 按學科或專題:(藏書家) ,4,你怎么整理,CD/DVD 按類型:古典、流行、爵士、藍調(diào).或故事片、文藝片、MTV、動畫片、紀錄片; 按人物:貝多芬、柴可夫斯基或布魯斯威利斯、李連杰、007 綜合方法 ,5,你怎么整理,衣物 類型; 季節(jié); 面料; 喜歡程度; 上述綜合,6,你怎么整理,計算機文件? 你頭腦中的信息?,7,總結,分類方法是人類最本能認識世界的方法,因而也應用于任何資源的組織; 按使用方便(多數(shù)是內(nèi)容)分類而不是按物理順序(或字順等)排列; 用于類分事物的性質(zhì)叫做“

3、屬性”,試行分內(nèi)部屬性和外部屬性; 不作索引或簡單的書本式索引; 憑記憶查找,因而強調(diào)助記性。,8,總結:信息資源組織常用方法,分類法 主題法 字順法 號碼法(賦予號碼后的字順法) 時空法(例如大事記,年鑒等) 序列法(大小/多少/好壞/貴賤) 超文本法(鏈接法),9,相關因素,信息資源組織與下列因素有關: 信息資源組織的對象是什么? 信息資源組織的目的是什么? 信息資源組織對象有什么顯著特性? 如何更方便的使用(達到目的),10,第二章信息資源組織的基本問題,11,基本問題,什么是信息? 什么是信息資源? 什么是信息資源組織? 信息資源組織的對象是什么?(數(shù)據(jù)、信息、知識、智慧及其他相關概念

4、的關系是什么?) 信息資源組織的目的是什么? 信息資源組織的相關應用領域 傳統(tǒng)圖書館(博物館/檔案館)的信息資源組織 現(xiàn)代信息資源組織面臨的問題與挑戰(zhàn),12,數(shù)據(jù):離散、互不關聯(lián)的客觀事實,孤立的文字、數(shù)據(jù)和符號,缺乏關聯(lián)和目的性 信息:人們對數(shù)據(jù)進行系統(tǒng)組織、整理和分析,使其產(chǎn)生相關性,但沒有與特定用戶行動相關聯(lián) 知識:與行動和決策密切相關,人們做決策的行動能力,知識創(chuàng)造與環(huán)境相關 智慧:對事務發(fā)展的前瞻性看法,智慧得益于人的內(nèi)在價值觀和信仰,什么是數(shù)據(jù)、信息、知識、智慧,13,什么是數(shù)據(jù)、信息、知識、智慧,Data:數(shù)據(jù)= 沒有加工的事實數(shù)據(jù) 對應于人、物理對象、事件或其它實體的原始事實。

5、 單獨的數(shù)據(jù)沒有意義 計算機中表示為數(shù)字或其它符號形式(不僅是數(shù)字形式。Number強調(diào)數(shù)字的內(nèi)容,Digital強調(diào)數(shù)的形式) 例如10000 Information:信息= 數(shù)據(jù)+語境 將數(shù)據(jù)放到一個語境(context)中,從而給予它一定的含義,它就成為信息 經(jīng)過處理的有用的數(shù)據(jù),用來回答Who/What/Where/When的問題 信息是經(jīng)人組織的數(shù)據(jù)組成 例如¥10000 Knowledge:知識= 信息+判斷 是一種由人創(chuàng)造的,并且反映他們是如何來進行判斷、選擇并且采取行動的know-how,知識一般與人們所受的教育、經(jīng)驗、思考方法、決策及其他能力相關。 信息被閱讀、告知或可視與理

6、解等等 例如¥10000是上海外環(huán)線附近2005年房產(chǎn)的單價 Wisdom:智慧= 知識+整合 對知識進行組合、創(chuàng)造以及理解知識要義的能力 Wisdom is not a product of schooling but of the lifelong attempt to acquire it. (Albert Einstein) 例如”以¥10000的單價購買外環(huán)線的房子肯定虧本” 文獻Document:記錄有知識的一切載體。信息資源的一種形式;,14,其他有關信息的定義,信息如同反饋指機器利用其行為造成的結果作為自適應信息以調(diào)整自身,作為正在進行的過程的一個部分 維納控制論1949年In

7、formation as feedback-the ability of a machine to use the results of its own performance as self-regulating information and adjust itself as part of its ongoing process -Norbert Weiner, Cybernetics, 1949 信息是能夠被編碼而通過連接信源和信宿的通道進行傳輸?shù)臇|西申農(nóng)1949年Information is whatever can be coded for transmission through

8、 a mechanical channel connecting a source with a receiver-Shannon, 1949 “Information is commonly used to denote some population of objects to which some significant probability of being usefully informative in the future has been attributed.” - Buckland, 1991. Unlike knowledge or belief “the concept

9、 of information has connotations of neutrality-it is homogeneous and noncontroversial. The reality, of course, is more complicated”-Agre, 1995 信息是負熵(申農(nóng)信息論),15,什么是知識?,知識是能夠指導思考、行為和交流的正確和真實的觀察、經(jīng)驗和過程的總結。知識包含真理和信念,觀點和概念,判斷和預期,方法和訣竅等內(nèi)容,也可以理解為用于解決問題的結構化信息。,16,Worlds of Knowledge (from Poppers Objective Kn

10、owledge),World 1 is the physical world World 2 is subjective knowledge or experience-mental states and processes. World 3 is objective knowledge-recorded knowledge, public knowledge-created by people.,17,Knowledge Hierarchy, Source: Karl Sveiby, Tacit Knowledge in KM Yearbook 1999-2000 ,18,數(shù)據(jù)、信息、知識、

11、智慧之間的關系,19,知識的類型,事實知識(Know-what) 原理知識(Know-why) 技能知識(Know-how) 人力知識(know-who) 檢索知識( know-where ),20,再舉一例,“8,000 和 10,000- 數(shù)據(jù) 10,000 米的高山與 8,000 米的飛機飛行最大高度 是信息 “飛機無法飛越這座高山” 是知識 必須飛得比地形高 是智慧,21,什么是信息資源,信息資源即“作為資源的信息”,可以理解為有價值的信息。然而信息的價值是體現(xiàn)在使用中的,對于不同的使用者,信息可以有不同的價值,而且信息的不同組合、不同的關聯(lián)也能使信息具有不同的價值。這反映了信息的特性

12、:信息是具有語境(context,也譯成“上下文”)的數(shù)據(jù)。 從計算機操作的角度來看,“信息資源是具有標識的任何東西”。其價值由用戶去判斷。信息資源組織的目的就是以靈活的方式揭示信息之間的關聯(lián)(包括結構關聯(lián)和語義關聯(lián)),滿足不同用戶的需要,使其成為“資源”。 世間萬物,只要人能夠識別出來的東西,給它一個標識(最常用的標識就是名稱),它就成了“資源” 作為元數(shù)據(jù)描述的對象,DCMI和W3C強調(diào),其“資源”只是在互聯(lián)網(wǎng)上,由命名域給出URI標識的實體。,22,什么是信息資源組織?,即信息資源的有序化的活動:對于信息資源有序化的規(guī)律的認識,以及應用認識得來的規(guī)律從事有序化工作 知識組織=信息資源組織

13、 利用一定科學規(guī)則和方法,通過對信息外在特征和內(nèi)容特征的描述和序化,實現(xiàn)無需信息流向有序信息流的轉換,從而保證用戶對信息的有效獲取和利用及信息的有效流通和組合。 信息的外在特征:信息的(物質(zhì))載體所直接反應的特征; 信息的內(nèi)容特征:信息所包含和承載的具體內(nèi)容,即通過信息載體所傳遞和交流的具體內(nèi)容。,23,信息資源組織的目的,查找Find 標識Identify 選擇Select 獲取Obtain,24,信息資源組織體系,根據(jù)對象區(qū)分信息組織的不同領域: 哲學認識論以知識的抽象本質(zhì)組織知識; 圖書情報機構傳統(tǒng)上結合實物載體組織信息資源; 數(shù)字圖書館以數(shù)字化的信息形式組織資源; 情報檢索系統(tǒng)可以看成

14、是DL中的一個部分,通過數(shù)字化信息內(nèi)容的各種結構組織資源, 人為標注的結構; 本身的結構被人發(fā)現(xiàn)而利用; 企業(yè)知識管理圍繞企業(yè)管理中信息的利用組織資源; 搜索引擎的信息組織; 語義萬維網(wǎng)中的信息組織; 其他各種領域知識根據(jù)領域的特點組織知識,25,圖書館的信息資源組織,圖書館學的目的宗旨:信息資源整序 圖書館工作的組成(采分編典流)的目的 主要方法: 目錄學(關于傳統(tǒng)圖書館信息組織的科學) 分類法 主題法 文摘與索引 圖書編目 無數(shù)的經(jīng)驗,26,圖書館如何組織/整理圖書?,由于數(shù)量和體積龐大,引入圖書代用品:目錄卡片;(書、卡的分離圖書館管理上的一大進步。博物館、檔案館等任何涉及載體管理的機構

15、莫不如此) 泥版、羊皮卷、紙莎草、竹簡乃至半導體零件、各類倉儲物資,在計算機發(fā)明之前,卡片目錄是最先進管理方式。其意義甚至不亞于結繩記事、文字發(fā)明、書籍產(chǎn)生 目錄是館藏的縮影和“代用品”;為了達到方便存取的目的,多套目錄卡片提供多種查詢途徑; 圖書采取唯一方式排架,目錄卡片指引到唯一的圖書排架號; 每種途徑反映了圖書的某一屬性,例如先按載體類型或語種分,再按學科分類,或其他屬性分,如著者目錄; 卡片目錄/圖書典藏的排列是分類與字順等多種方式的結合; 目錄卡片的種類有限,不可能窮盡用戶認識的角度和使用需求與習慣; 圖書是知識的載體,部分目錄反映館藏知識體系,圖書館通過管理知識載體,間接地整理知識

16、。,27,圖書館的信息資源組織(續(xù)),連續(xù)出版物有一點不同 二次文獻(情報)服務有很大不同 電子資源使傳統(tǒng)圖書館的信息組織方寸大亂,28,信息資源組織面臨的數(shù)字環(huán)境,傳統(tǒng)情報檢索的挑戰(zhàn) 處理單元變?yōu)椤扒閳筝d體”:期刊論文、科研報告、報紙文章、專利文獻; 解決方案:文獻數(shù)據(jù)庫+原文提供; 數(shù)字化浪潮的挑戰(zhàn) 處理單元復雜化,包含書本、期刊、論文、報告、以及“事實”、“數(shù)據(jù)”(傳統(tǒng)的事實數(shù)據(jù)以工具書形式存在) 并且需要整合利用 需要研究信息/知識整個生命周期的完整過程,甚至包括部分認知過程 需要從數(shù)據(jù)、信息層面上升到“知識”層面 這個過程是正在進行時,隨著技術的發(fā)展正在變化。,29,Collecti

17、ons grid 信息資源類型,high,low,low,high,Stewardship 權威性,Uniqueness 稀缺性,Books Journals Newspapers Gov. docs CD, DVD Maps Scores,Special collectionsArchives Rare books Local history materials Archives & Manuscripts Theses & dissertations,Freely-accessible web resources,Research and learning materials ePrint

18、s/tech reports Learning objects Courseware E-portfolios Research data Untransferred records,From: Lorcan Dempsey,30,Web上的信息,Google當前索引80多億網(wǎng)頁,每天平均收到2000萬個查詢。 中國的公開網(wǎng)頁在3-4億,百度每天大概收到500萬個查詢 每篇網(wǎng)頁的平均大小在12KB左右,于是總共約40TB容量(10年) 人類的1億種書,每本算10萬字,200KB,總共約20TB容量。(5000年),31,搜索引擎,搜索引擎(Search Engines)是對互聯(lián)網(wǎng)上的信息資源(

19、主要是網(wǎng)頁)進行搜集整理,然后提供查詢服務的系統(tǒng),通常包括信息搜集、信息整理和用戶查詢?nèi)糠?,但提供給用戶的往往只是一個查詢界面。 兩類搜索服務 Google Yahoo,32,網(wǎng)絡信息資源的挑戰(zhàn),數(shù)量巨大 沒有一個搜索引擎能夠覆蓋萬維網(wǎng)的16% 網(wǎng)站; 所有搜索引擎加起來覆蓋了萬維網(wǎng)的42% 極端異質(zhì) 信息值不同 長度不同 語法或輸入錯誤 內(nèi)容錯誤、過時或不可靠 多種格式 多語種 速度問題 每分鐘需要接受15,000 20,000次查詢請求,33,數(shù)字化信息量舉例,音樂作品(莫扎特):約100MB 報紙(華爾街雜志):100MB/年(文本) 卡片目錄(美國國會圖書館):17GB 廣播(WAB

20、C) :270GB/年(未經(jīng)壓縮) 網(wǎng)絡論壇(Netnews):300GB/年 地區(qū)圖書館(加州大學圖書館):1.4TB(圖書掃描版) Internet出版(WWW):1997年約4TB 電視(CNN新聞):1GB/1小時, 6TB/年(經(jīng)壓縮) 錄像帶出租(Blockbuster Video):9TB 科研圖書館(美國會圖書館):全部圖書館數(shù)字化20TB 來源:美國伯克利加州大學教授Peter Lyman和Alex Internet公司總裁Brewster Kahle所著文化制品數(shù)字化存檔行動綱要。,34,信息檢索的問題,查找非結構信息有困難 多數(shù)數(shù)據(jù)庫在結構化字段上工作 多數(shù)商業(yè)信息是非結構化的. 報告、電子郵件、來往公函 . 美國商業(yè)每年產(chǎn)生4500億份文件 波音747文件比飛機重量還重 索引是主觀的 索引者之間不一致, 經(jīng)驗統(tǒng)計表明索引者之間僅20% 相同. 作者與索引者之間、檢索者與用戶之間不一致. 信息超載 信息太多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論