《信息學(xué)概論》第3章-信息組織存儲與檢索課件_第1頁
《信息學(xué)概論》第3章-信息組織存儲與檢索課件_第2頁
《信息學(xué)概論》第3章-信息組織存儲與檢索課件_第3頁
《信息學(xué)概論》第3章-信息組織存儲與檢索課件_第4頁
《信息學(xué)概論》第3章-信息組織存儲與檢索課件_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

信息學(xué)概論第三章信息組織、存儲與檢索主要內(nèi)容本章內(nèi)容提要信息組織概述信息組織的基本方法分類法、主題法、信息標(biāo)記語言信息存儲體系語義網(wǎng)信息檢索技術(shù)與工具3.1信息組織概述3.1.1信息組織的概念1.定義“我們淹沒在信息中,但卻渴求知識”,“失去控制和無組織的信息不再是一種資源”-JohnNaisbitt,Megatrends

面對海量的、無序的信息,是人的個體生命(時間)的有限性和知識使用的選擇性。解決尖銳對立的矛盾的根本途徑是進行信息的組織。信息組織也稱為信息整序,即信息的序化,是按照一定的科學(xué)規(guī)則和方法,通過對信息的外在特征和內(nèi)容特征的描述和序化,實現(xiàn)無序信息向有序信息的轉(zhuǎn)化。3.1信息組織概述序是事物的一種結(jié)構(gòu)形式,是指事物或系統(tǒng)的各個結(jié)構(gòu)要素之間的相互關(guān)系以及這種關(guān)系在時間和空間中的表現(xiàn)。當(dāng)事物結(jié)構(gòu)要素具有某種約束性且在時間序列和空間序列上呈現(xiàn)某種規(guī)律性時,這一事物就處于有序狀態(tài);否則就處于無序狀態(tài)。信息的外在特征指信息的物質(zhì)載體所直接反映的特征,它們構(gòu)成信息載體外在的、形式的特征,如信息的物理形態(tài)、題名、責(zé)任者、信息的類型、生產(chǎn)流通等方面的特征。信息的內(nèi)容特征是對信息具體內(nèi)容的規(guī)范化概括。通常的信息組織指的是針對信息內(nèi)容特征的描述。3.1信息組織概述2.信息組織的要求信息特征有序。將特征相同或相關(guān)的信息集中,并按一定標(biāo)志呈現(xiàn)某種秩序,表達(dá)某種意義;相關(guān)信息單元之間的關(guān)系必須明確。信息流向明確。根據(jù)用戶信息活動特征和信息環(huán)境的變化適當(dāng)調(diào)整信息流動的方向。信息流速適度。不適當(dāng)?shù)男畔⒘魉賹θ说臎Q策效率會有負(fù)面影響。3.信息組織的目的降低社會信息流的混亂程度;提高信息產(chǎn)品的質(zhì)量和價值;建立信息產(chǎn)品與用戶的關(guān)聯(lián);節(jié)省社會信息活動的總成本。3.1信息組織概述3.1.2信息組織的理論與方法1.信息組織的理論基礎(chǔ)(1)系統(tǒng)科學(xué)理論

LudwigVonBertalanffy。系統(tǒng)是相互作用的各個要素的復(fù)合體。系統(tǒng)是處于一定的相互關(guān)系中并與環(huán)境發(fā)生關(guān)系的各個組成部分的總體。系統(tǒng)具有整體性、內(nèi)部相關(guān)性、環(huán)境相關(guān)性、層次性、有序性、目的性等特征。3.1信息組織概述(2)耗散結(jié)構(gòu)理論DissipativeStructureIlyaPrigogine1969。耗散結(jié)構(gòu)理論主要討論一個系統(tǒng)從混沌向有序轉(zhuǎn)化的機理、條件和規(guī)律,研究耗散結(jié)構(gòu)的性質(zhì)及其形成、穩(wěn)定和演化的規(guī)律。它指出,一個遠(yuǎn)離平衡態(tài)的開放系統(tǒng),當(dāng)某個變量變化到一定的臨界值時,會通過漲落發(fā)生突變,即發(fā)生非平衡相變。原來的混沌無序狀態(tài)就有可能轉(zhuǎn)變?yōu)橐环N空間、時間、功能有序的新狀態(tài)。這種在遠(yuǎn)離平衡態(tài)的非線性區(qū)形成的宏觀有序結(jié)構(gòu),需要與外界不斷交換物質(zhì)和能量才能保持一定的穩(wěn)定性,或不再因外界的微小擾動而消失。這種需要耗散物質(zhì)和能量才能維持其有序性的結(jié)構(gòu)稱為耗散結(jié)構(gòu)。3.1信息組織概述按照熱力學(xué)第二定律,一個封閉的平衡系統(tǒng)總是趨于最大熵狀態(tài),即最無序狀態(tài)。為了擺脫這種穩(wěn)定的無序狀態(tài)(平衡態(tài)),只有設(shè)法把系統(tǒng)改造成開放系統(tǒng),并且通過與外界環(huán)境進行物質(zhì)和能量的交換,使系統(tǒng)進入遠(yuǎn)離平衡態(tài)的不可逆非平衡過程,才可能出現(xiàn)機會,導(dǎo)出新的穩(wěn)定的有序結(jié)構(gòu)。信息系統(tǒng)是一種耗散結(jié)構(gòu)的系統(tǒng),其無序程度用“信息熵”來衡量。信息熵的存在與增長給信息的交流與利用造成了極大的障礙。信息系統(tǒng)要自覺形成一個有序的結(jié)構(gòu),并使其內(nèi)部結(jié)構(gòu)產(chǎn)生的熵逐漸減小,就必須與外界環(huán)境進行交流,通過系統(tǒng)不間斷的輸入、輸出和轉(zhuǎn)換的過程,抵消系統(tǒng)內(nèi)熵的產(chǎn)生和增長,促使系統(tǒng)總熵減小,從而推動信息系統(tǒng)形成非平衡態(tài)的有序結(jié)構(gòu)。這種交流即所謂“負(fù)熵流”。3.1信息組織概述信息系統(tǒng)從外界引入的負(fù)熵流,就是一定量、一定質(zhì)的人、財、物、能量和信息。系統(tǒng)在運行過程中對它們加以運用消耗,才能維持系統(tǒng)的正常運行,使系統(tǒng)趨于有序的狀態(tài)。與此同時,信息系統(tǒng)還需要利用各種手段將信息有效地提供給用戶,從用戶那里交換物質(zhì)、能量和信息,最終使系統(tǒng)從近平衡狀態(tài)走向動態(tài)穩(wěn)定的有序結(jié)構(gòu),并得以發(fā)展和完善。從管理的角度看,輸入負(fù)熵流體現(xiàn)為信息組織(信息整序)。3.1信息組織概述(3)協(xié)同理論SynergeticsHarmannHaken1977。協(xié)同理論研究由很多子系統(tǒng)構(gòu)成的系統(tǒng)如何通過協(xié)作從無序到有序演化的規(guī)律。任何系統(tǒng)都可以看作由大量子系統(tǒng)組成,這些子系統(tǒng)之間的聯(lián)系和作用決定著系統(tǒng)整體的演化過程。Haken研究了很多學(xué)科中的非平衡有序結(jié)構(gòu)的形成過程,發(fā)現(xiàn)它們遵循著一些相同或相似的規(guī)律。他從隨機理論出發(fā),在逐步約束的條件下,導(dǎo)出無規(guī)則子系統(tǒng)組成的整體隨時間演化的規(guī)律,即主方程。通過解方程可以得出主宰系統(tǒng)演化的序參量(描述系統(tǒng)的有序程度)。以此為基礎(chǔ)建立了有序結(jié)構(gòu)形成的自組織結(jié)構(gòu)理論。3.1信息組織概述很多不同的學(xué)科存在著一些共同的特征。從表面上看,支配各學(xué)科的現(xiàn)象和理論極不相同,但完全不同的子系統(tǒng),在宏觀結(jié)構(gòu)上所產(chǎn)生的質(zhì)變行為(即從舊結(jié)構(gòu)演變?yōu)樾陆Y(jié)構(gòu)的機理)是相同的,它們遵從共同的規(guī)律。Haken指出,存在著一個一般的原理,它支配著這些彼此協(xié)同作用著的系統(tǒng)。比如可以為兩個學(xué)科領(lǐng)域F1和F2建立某種類比,將F1的結(jié)果應(yīng)用到F2上去。協(xié)同理論揭示了范圍相當(dāng)廣泛的一些學(xué)科的共同特征。系統(tǒng)的序化或平衡化,都是大量子系統(tǒng)間相互作用又協(xié)調(diào)一致的結(jié)果。完全不同的系統(tǒng),在它們經(jīng)過非穩(wěn)定點時,表現(xiàn)出深刻的相似。因此可以使用類比的方法,采用共同的數(shù)學(xué)模型與理論方案來研究。3.1信息組織概述協(xié)同理論的研究表明,在一定的條件下,系統(tǒng)原來的穩(wěn)定平衡狀態(tài)可以變成非穩(wěn)定的。然后,在非穩(wěn)定的基礎(chǔ)上,由于漲落的作用,系統(tǒng)有可能過渡到一個新的穩(wěn)定的平衡狀態(tài),從而實現(xiàn)系統(tǒng)的自組織過程,完成從無序到有序的轉(zhuǎn)變。3.1信息組織概述信息的有序化是信息學(xué)基礎(chǔ)理論的核心部分。信息學(xué)研究的重要內(nèi)容在于如何對現(xiàn)有的信息進行整序,并加工提供給社會使用。信息的生產(chǎn)、加工、交流和利用可以利用協(xié)同理論所闡述的從混沌向有序轉(zhuǎn)化的條件、機理和規(guī)律性等基本原理為指導(dǎo),建立相應(yīng)的理論體系。信息系統(tǒng)是一個綜合系統(tǒng),只有系統(tǒng)內(nèi)各個子系統(tǒng)相互配合,發(fā)揮協(xié)同效應(yīng),才能使整個系統(tǒng)結(jié)構(gòu)合理化和信息有序化。一旦失去這種協(xié)同,系統(tǒng)內(nèi)部各個子系統(tǒng)將由開放轉(zhuǎn)為封閉,導(dǎo)致系統(tǒng)混亂趨向最大,使其有序結(jié)構(gòu)被破壞。因此需要從整體協(xié)同效應(yīng)出發(fā),探討信息系統(tǒng)內(nèi)部結(jié)構(gòu)相互聯(lián)系的規(guī)律性,以及系統(tǒng)結(jié)構(gòu)與外部環(huán)境的關(guān)系,不斷增強協(xié)同機制。3.1信息組織概述信息學(xué)研究信息系統(tǒng)由舊結(jié)構(gòu)不斷演變?yōu)樾陆Y(jié)構(gòu)這一過程的規(guī)律性,而協(xié)同理論正是以不同學(xué)科中現(xiàn)象復(fù)雜多樣但宏觀質(zhì)變行為卻遵從共同規(guī)律的系統(tǒng)為研究對象。這就提供了運用協(xié)同理論方法研究信息學(xué)問題的可能性。這種研究的優(yōu)越性還在于,信息系統(tǒng)是隨時間變化的動態(tài)的開放系統(tǒng),其內(nèi)部存在著眾多相互作用的子系統(tǒng),運用協(xié)同理論無需從微觀上具體掌握其中每一個子系統(tǒng)的細(xì)節(jié),使用少量序參量就可以表征系統(tǒng)的宏觀特性(有序度),進而可以用序參量方程描述系統(tǒng)由舊結(jié)構(gòu)向新結(jié)構(gòu)轉(zhuǎn)變的復(fù)雜過程。3.1信息組織概述(4)突變理論CatastropheTheoryR.Thom1972。突變是產(chǎn)生有序性的重要源泉。系統(tǒng)內(nèi)部的非平衡狀態(tài)是有序化的原因,開放系統(tǒng)通過與外界交換物質(zhì)、能量來維持或增加有序性。事物連續(xù)性中斷的質(zhì)變過程需要使用精確的數(shù)學(xué)模型進行揭示和預(yù)測。在自然界和人類的社會活動中,除了漸變的和連續(xù)平滑的變化現(xiàn)象外,還存在著大量的突然變化和躍遷現(xiàn)象。突變理論是研究客觀世界非連續(xù)變化現(xiàn)象的一門新興學(xué)科,它著力于解釋事物從一種穩(wěn)定狀態(tài)躍遷到另一種穩(wěn)定狀態(tài)的現(xiàn)象與規(guī)律,并用形象而精確的數(shù)學(xué)模型來描述和預(yù)測事物連續(xù)性中斷現(xiàn)象的質(zhì)變過程。3.1信息組織概述突變理論表明,質(zhì)變可以通過漸變的方式實現(xiàn),也可以通過飛躍的方式實現(xiàn)。它給出了實現(xiàn)這兩種質(zhì)變方式的條件和范圍。它還指出,系統(tǒng)的熵可以增加也可以減少,這種熵的變化可以在宏觀無限小的時間內(nèi)突然發(fā)生??梢哉J(rèn)為外界條件在突變發(fā)生的過程中沒有發(fā)生變化,時間間隔t

0,外界的輸入輸出也可以認(rèn)為是0,突變過程造成了一個精確的孤立系統(tǒng)。突變是產(chǎn)生有序性的重要源泉。通常認(rèn)為熱力學(xué)第二定律在連續(xù)變化過程中的普遍性,但在突變過程中卻發(fā)生了與之完全相反的現(xiàn)象。突變熵減小而產(chǎn)生的有序性可以抵消自然界某些自發(fā)的熵增趨勢,可能造成有序性的發(fā)展,在一定程度上將非平衡性對有序性的影響發(fā)展到突變對有序性的影響。3.1信息組織概述突變理論方法可應(yīng)用于研究信息對知識結(jié)構(gòu)改變的影響。B.C.Brookes信息和知識方程式:k(S)+I=k(S+S)。方程式指出,知識結(jié)構(gòu)k(S)通過獲得信息I而變換為新的知識結(jié)構(gòu)k(S+S),其中S表示改進的效果。知識的增長并非是單純的疊加。信息被吸收于知識結(jié)構(gòu)內(nèi),可能引起知識結(jié)構(gòu)的某種調(diào)整。在科學(xué)各領(lǐng)域中信息的增加,還可能引起知識結(jié)構(gòu)的突變。突變理論還可用于信息系統(tǒng)的設(shè)計。突變理論指出,高度優(yōu)化的設(shè)計很可能有許多不理想的性質(zhì)。因為結(jié)構(gòu)上最優(yōu),常常聯(lián)系著對缺陷的高度敏感性以致可能發(fā)生突變。結(jié)構(gòu)上最優(yōu)的信息系統(tǒng),由于其高度敏感性反而會容易受外部的影響而導(dǎo)致全面失靈。3.1信息組織概述(5)知識組織理論 H.E.Bliss。知識組織是對知識客體進行整理、加工、揭示、控制等一系列組織化過程。主觀知識的組織在人的大腦中進行,表現(xiàn)為復(fù)雜的神經(jīng)生理活動,其內(nèi)在機理是人工智能、認(rèn)知心理學(xué)的研究內(nèi)容;客觀知識的組織通過人的認(rèn)知進行分類,是信息組織的研究內(nèi)容。3.1信息組織概述2.信息組織的方法學(xué)基礎(chǔ)(1)語言學(xué) 要實現(xiàn)信息的有序化,必須建立符號系統(tǒng)。采用適當(dāng)?shù)姆栂到y(tǒng)或形式語言描述信息,它具有構(gòu)詞和語法的基本語言學(xué)特征。(2)邏輯學(xué) 信息組織過程中必然要應(yīng)用形式邏輯的基本方法。(3)知識分類學(xué) 信息組織活動必須建立在人們對知識體系結(jié)構(gòu)認(rèn)識的基礎(chǔ)之上。3.1信息組織概述3.1.3信息組織的研究內(nèi)容信息組織的研究領(lǐng)域包括三個層次:理論層面、規(guī)范層面和操作層面。理論層面:研究信息組織的基本規(guī)律和理論基礎(chǔ),為規(guī)范層面和方法層面提供理論依據(jù),指導(dǎo)信息組織的實施。規(guī)范層面:為信息組織的操作實現(xiàn)建立描述規(guī)范、檢索語言和標(biāo)記語言。操作層面:在理論層面的指導(dǎo)下,遵循規(guī)范層面規(guī)定的規(guī)則,實現(xiàn)信息組織的具體技術(shù)方法。3.2信息組織基本方法3.2.1分類法及其類目體系分類:“類”是指具有某種共同屬性的一組事物的集合。分類是認(rèn)識事物、區(qū)別事物,并在此基礎(chǔ)上組織事物的一種科學(xué)方法,使根據(jù)事物的屬性對其進行區(qū)分或類聚的過程。信息分類:是根據(jù)信息內(nèi)容的學(xué)科屬性與其它相關(guān)特征,對各種類型的信息予以系統(tǒng)的揭示和區(qū)分,并進行組織的一種方法。文獻分類法:信息分類法主要指文獻分類法,包括等級列舉式、分面組配式和半分面分類三種基本方法。類目體系:主表(基本部類、基本大類、簡表、詳表)、復(fù)分表。3.2信息組織基本方法3.2.2主題法主題法:直接以表達(dá)主題內(nèi)容的詞語作為檢索標(biāo)識,以字順為主要檢索途徑。主題法的類型:按照選詞方法的不同,包括標(biāo)題法、元詞法、敘詞法(如《漢語主題詞表》)、關(guān)鍵詞法等。3.2信息組織基本方法3.2.3標(biāo)記語言現(xiàn)代標(biāo)記語言與計算機信息處理的發(fā)展密切相關(guān)。它用于對信息文件的結(jié)構(gòu)描述,也用于一些控制處理的目的。經(jīng)典的SGML(StandardGeneralizedMarkupLanguage)HTML(HyperTextMarkupLanguage)XML(eXtensibleMarkupLanguage)3.3信息的存儲3.3.1信息存儲技術(shù)信息存儲是指通過多種形式記錄和排序信息的過程。它包括三層含義:一是將所收集的信息按照一定規(guī)則記錄在相應(yīng)的信息載體上;二是將這些載體按照一定的特征和內(nèi)容組織成系統(tǒng)有序的、可供檢索的集合體;三是充分應(yīng)用計算機通信等現(xiàn)代技術(shù)手段,提高信息存儲的效率和利用水平。信息存儲技術(shù)可以從四個方面(對應(yīng)于文獻概念的四個基本要素)即信息內(nèi)容、載體材料、記錄符號和記錄方式來討論它們的產(chǎn)生和發(fā)展的物理背景和人文背景,需要注意它們的使用條件和局限性。而現(xiàn)代的信息存儲技術(shù)與管理技術(shù)關(guān)系更加密切(如云存儲技術(shù))。3.3信息的存儲信息存儲技術(shù)大體上可以分為印刷存儲、磁存儲、縮微存儲、光存儲等幾大類別。1.信息的印刷存儲造紙和印刷術(shù)的發(fā)明對信息的存儲和交流有著深刻的影響。印刷是指將文字、圖像等信息經(jīng)過一定的工藝過程成批量復(fù)制。在歷史上,紙質(zhì)印刷文獻一直是信息存儲的主要方式。優(yōu)點和缺點。3.3信息的存儲2.信息的磁存儲隨著技術(shù)工藝的發(fā)展,磁存儲逐漸成為現(xiàn)代信息存儲技術(shù)的主要手段。磁存儲的特點:磁可以用來存儲一切可以轉(zhuǎn)換成電信號的信息包括文字、聲音、圖片、視頻等等。信息可以在磁介質(zhì)中長期保留,重復(fù)使用,原位擦除重寫。支持多路存儲。支持寬頻信號存儲。主要存儲介質(zhì):磁帶、磁鼓、硬磁盤、軟磁盤。優(yōu)點和缺點。3.3信息的存儲3.信息的縮微存儲縮微技術(shù)是所謂攝影技術(shù)的簡稱,它以膠片為介質(zhì),采用感光攝影原理,并逐步與計算機微電子技術(shù)、靜電復(fù)印與傳真等現(xiàn)代技術(shù)相結(jié)合,組成高效的信息存儲與檢索系統(tǒng)??s微存儲的特點:存儲容量大,密度高。存儲介質(zhì)占用空間小,重量輕??s微品完全忠于原件。保存時間長(50~100年)。便于檢索。需要特殊的閱讀器支持。與計算機技術(shù)的結(jié)合計算機輸出縮微膠片(ComputerOutputMicrofilms,COM):將計算機輸出數(shù)據(jù)直接記錄在縮微膠片上。CIM:將COM重新讀入計算機,或取得原始膠片的數(shù)據(jù)復(fù)制品。3.3信息的存儲計算機輔助縮微品檢索系統(tǒng):包括計算機系統(tǒng)、縮微品存取設(shè)備、縮微品閱讀設(shè)備等。視頻縮微系統(tǒng):由縮微技術(shù)、視頻處理技術(shù)和計算機技術(shù)結(jié)合的影像資料全文存儲檢索系統(tǒng)。優(yōu)點和缺點。4.信息的光存儲光存儲是繼磁存儲后的重要信息存儲技術(shù)。它以特殊波長的激光為光源,以光敏感涂層為存儲材料。光存儲的特點:存儲密度高,容量大。存儲介質(zhì)更換或攜帶方便。存儲壽命長。生產(chǎn)成本低,數(shù)據(jù)操作簡單高效。5.其它的存儲技術(shù)(半導(dǎo)體存儲技術(shù)、鐵電存儲技術(shù))3.3信息的存儲3.3.2計算機信息存儲體系計算機存儲信息體系是利用計算機對一定范圍內(nèi)的信息集合進行選擇、記錄和存儲,為用戶獲取信息提供支持的計算機系統(tǒng)。1.硬件需要大容量的輔助存儲器、高性能IO控制器和必要的傳輸帶寬。2.軟件需要支持自動標(biāo)引、詞表管理、匹配的應(yīng)用軟件以及必要的DBMS。3.數(shù)據(jù)庫3.3信息的存儲4.數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(non-Volatile)、反映歷史變化(Time-variant)的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫不同于傳統(tǒng)意義上的數(shù)據(jù)庫,它面向分析型數(shù)據(jù)管理,用于支持管理決策;其次,數(shù)據(jù)倉庫可以面對多個異構(gòu)的數(shù)據(jù)源進行主題重組,其中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉庫體系上應(yīng)該包括數(shù)據(jù)源、存儲管理、OLAP(On-LineAnalyticalProcessing)服務(wù)器和前端工具集(報表、查詢、分析、挖掘等)四個層次。3.4語義網(wǎng)1.語義網(wǎng)的提出互聯(lián)網(wǎng)的核心是超文本體系,它通過統(tǒng)一的資源標(biāo)識符(URI,UniformResourceIdentifier)對互聯(lián)網(wǎng)上的信息進行標(biāo)記,從而實現(xiàn)網(wǎng)上信息資源的定位。在大多數(shù)情況下,用戶所關(guān)心的是信息資源的意義,而URI并未涉及信息的內(nèi)容。通過擴展現(xiàn)有的互聯(lián)網(wǎng)結(jié)構(gòu),在資源管理上增加對信息含義的描述,實現(xiàn)計算機與人的自動協(xié)同工作,是下一代互聯(lián)網(wǎng)的核心。我們使用“語義網(wǎng)(semanticweb)”來描述下一代網(wǎng)絡(luò),“語義”指文本的含義。這將是一種能夠理解人類語言,根據(jù)信息語義進行選擇判斷的智能網(wǎng)絡(luò)。通過語義網(wǎng)可以構(gòu)建基于網(wǎng)頁內(nèi)數(shù)據(jù)語義的鏈接,使網(wǎng)絡(luò)能按照用戶的要求自動搜尋和檢索信息。3.4語義網(wǎng)語義網(wǎng)的創(chuàng)始人TimBerners-Lee表示,即使是Google,終有一日也可能會被下一代網(wǎng)絡(luò)技術(shù)公司取代。Google在開發(fā)高效的網(wǎng)絡(luò)搜索方式和技術(shù)方面已經(jīng)極為成功,但是這種成功與“未來網(wǎng)絡(luò)”可能達(dá)到的程度相比顯得太一般?!拔磥砭W(wǎng)絡(luò)”將能讓任何人輕松鏈接到任何信息(甚至是片斷的信息),比如一張照片或是一張銀行報表。同樣,隨著語義網(wǎng)的突破性技術(shù)的發(fā)展,社群網(wǎng)站(如Facebook和MySpace一類)最終也將被能連接一切事物(而不僅僅是人)的新型網(wǎng)站取代。語義網(wǎng)能夠識別網(wǎng)頁里所包含的每項具體信息的意義,使用戶輕易地在更具體的信息片斷間實現(xiàn)連接,這種能力反過來肯定會觸發(fā)新的服務(wù)。3.4語義網(wǎng)2.語義網(wǎng)的體系結(jié)構(gòu)XML+NS+XMLSchemaUnicodeURIRDF+RDFSchemaOntologyVocabularyLogicProofTrust3.4語義網(wǎng)語義網(wǎng)的體系結(jié)構(gòu)共分七層,自下而上分別是編碼定位層(Unicode+URI)XML結(jié)構(gòu)層(XML+NameSpace+XMLSchema)資源描述層(RDF+RDFSchema)本體層(Ontologyvocabulary)邏輯層(Logic)證明層(Proof)信任層(Trust)。 各層之間相互聯(lián)系,通過自下而上的逐層拓展形成了一個功能逐漸增強的體系。它以現(xiàn)有的Web為基礎(chǔ),通過逐層的功能擴展,為實現(xiàn)語義網(wǎng)構(gòu)想提供了基本的思路與方法。3.4語義網(wǎng)(1)編碼定位層(Unicode+URI)編碼定位層是整個體系結(jié)構(gòu)的基礎(chǔ)。其中Unicode負(fù)責(zé)處理資源的編碼,URI負(fù)責(zé)資源的標(biāo)識。語義網(wǎng)要實現(xiàn)機器之間的相互交流與合作,需要使用共同的“語言”,而編碼是語言的基礎(chǔ),只有編碼相同才能保證語言相通。在當(dāng)前的www中存在著各種各樣不同的語言及相應(yīng)的字符集,要實現(xiàn)不同計算機系統(tǒng)之間的協(xié)同,必須對這些不同的字符集進行統(tǒng)一的編碼。Unicode字符集中的所有字符都用兩個字節(jié)表示,可以表示65536個字符,基本上包括了世界上所有語言的字符。數(shù)據(jù)格式采用Unicode的好處就是它支持世界上所有主要語言的混合,并且可以同時進行檢索。3.4語義網(wǎng)URI(UniformResourceIdentifier)即統(tǒng)一資源標(biāo)識符,用于標(biāo)識、定位網(wǎng)絡(luò)上的資源。URI有多種形式并可擴展,其中最常見的是我們熟悉的URL,如指google公司,/People/Berners-Lee指的就是TimBerners-Lee。此外URI還有其它多種形式,包括UUID、TAG和els等。我們可以用URI唯一地標(biāo)識任一事物,并且任一擁有URI的事物都可以說它是在Web上的,都可以使用URI在網(wǎng)絡(luò)上上進行標(biāo)識。編碼定位層處于語義網(wǎng)體系的最底層。只有在對資源進行編碼與標(biāo)識的基礎(chǔ)上才能對資源進行進一步的處理。3.4語義網(wǎng)(2)XML結(jié)構(gòu)層(XML+NameSpace+XMLSchema)XML在語法上表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu),通過格式語言將信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分離。XML允許個人創(chuàng)造自己的標(biāo)簽來標(biāo)注網(wǎng)頁或網(wǎng)頁的部分文本,它允許用戶自行添加結(jié)構(gòu)信息,但沒有提供對這些結(jié)構(gòu)的含義(語義)的說明,在語義網(wǎng)結(jié)構(gòu)中作為語法層為語義網(wǎng)的建立提供語法基礎(chǔ)。[例]

閱讀文本“李開復(fù),男,1961年12年生于臺灣,1998年任微軟中國研究院院長,現(xiàn)任Google全球副總裁兼中國區(qū)總裁?!蔽覀兒苋菀桌斫馍鲜鑫谋舅[藏的信息。將這些信息顯式地表達(dá)出來就是:3.4語義網(wǎng)姓名:

李開復(fù)性別:

男出生年月:1961年12月出生地:

臺灣單位名稱:Google職務(wù):

全球副總裁,中國區(qū)總裁履歷:

1998年任微軟中國研究院院長這些標(biāo)記為藍(lán)色的隱藏的信息稱為元數(shù)據(jù)。元數(shù)據(jù)是指數(shù)據(jù)的數(shù)據(jù)。例如數(shù)據(jù)“姓名”,就是關(guān)于數(shù)據(jù)“李開復(fù)”的數(shù)據(jù)。只有顯式地說明關(guān)于數(shù)據(jù)的元數(shù)據(jù)信息,才能進行完整、清晰、準(zhǔn)確的交流。例如對于文本“Google”,如果不顯式地說明它表示“單位名稱”,那么有人會把它當(dāng)作是一個人的名字或是一個地區(qū)名字。元數(shù)據(jù)對于人與人之間的信息交換以及機器之間的相互交流都是至關(guān)重要的。3.4語義網(wǎng)為了顯式地表達(dá)數(shù)據(jù)的元數(shù)據(jù),必須對數(shù)據(jù)進行一定的“標(biāo)記”,并用標(biāo)記名稱(標(biāo)簽)表達(dá)數(shù)據(jù)的元數(shù)據(jù)信息。例如對數(shù)據(jù)“李開復(fù)”所做的標(biāo)記“姓名”。對數(shù)據(jù)進行標(biāo)記的規(guī)則和方法的總和稱為標(biāo)記語言。目前最常見的標(biāo)記語言是超文本標(biāo)記語言HTML(HyperTextMarkupLanguage)。不同的是,HTML所做的標(biāo)記并不是關(guān)于數(shù)據(jù)內(nèi)容的元數(shù)據(jù),而是關(guān)于數(shù)據(jù)顯示格式和顯示樣式的元數(shù)據(jù)。例如在HTML中,標(biāo)簽<B>的含義是要求網(wǎng)頁瀏覽器將一段文本加粗表示,而標(biāo)簽<CENTER>的含義是告訴瀏覽器將這段文本在一行的中間顯示。即<CENTER><B>李開復(fù)</B></CENTER>只是要求瀏覽器將文本“李開復(fù)”以加粗的格式顯示在行中間位置。3.4語義網(wǎng)可擴展標(biāo)記語言XML(eXtensibleMarkupLanguage)功能強大又易于使用,是Web上數(shù)據(jù)表示的標(biāo)準(zhǔn)。它允許用戶在文檔中加入任意的結(jié)構(gòu)而無需說明這些結(jié)構(gòu)的含意,從而可以表達(dá)豐富的信息資源。用戶可以在XML中創(chuàng)建自己的標(biāo)簽、對網(wǎng)頁進行注釋,腳本(或程序)可以利用這些標(biāo)簽來獲得信息。因此XML適用于不同應(yīng)用間的數(shù)據(jù)交換,而且這種交換是不以預(yù)先規(guī)定一組數(shù)據(jù)結(jié)構(gòu)定義為前提,具備很強的開放性。XML并非像HTML那樣提供了一套事先定義好的標(biāo)簽,而是提供了一個標(biāo)準(zhǔn),利用這個標(biāo)準(zhǔn),可以根據(jù)實際需要定義自己的置標(biāo)語言,并為這個置標(biāo)語言規(guī)定它特有的一套標(biāo)簽。因此XML是一種元標(biāo)記語言,即定義標(biāo)記語言的語言。3.4語義網(wǎng)NS(NameSpace)即命名空間,由URI索引確定,目的是為了簡化URI的書寫。例如URI

“/1999/02/22-rdf-syntax-ns#”

就可以簡寫為“RDF”。通過在命名前加上URI索引前綴,即使具有相同命名的兩個事物,只要它們的URI索引前綴不同,二者就不會混淆。XMLSchema是XML的一種應(yīng)用,它本身采用XML語法,所以XML文檔是一種自描述文檔。XMLSchema是DTD(DocumentTypeDefinition)的替代品,但比DTD更加靈活。它不僅提供了一套完整的機制以約束XML文檔中標(biāo)簽的使用,而且支持更多的數(shù)據(jù)類型,能更好地為有效的XML文檔服務(wù)并提供數(shù)據(jù)校驗機制。3.4語義網(wǎng)XML靈活的結(jié)構(gòu)性、由URI索引的命名空間而帶來的數(shù)據(jù)可確定性以及由XMLSchema所提供的多種數(shù)據(jù)類型及檢驗機制使得XML結(jié)構(gòu)層(XML+NS+xmlschema)成為語義網(wǎng)體系結(jié)構(gòu)的重要組成部分。該層主要負(fù)責(zé)從語法上表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu),通過使用標(biāo)準(zhǔn)的置標(biāo)語言將網(wǎng)絡(luò)信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)和信息內(nèi)容相分離。但XML數(shù)據(jù)模式是一種被固定的、樹狀的文本表示模式,在描述元數(shù)據(jù)上缺乏靈活性。XML所表達(dá)的語義是隱含在文檔的標(biāo)記和結(jié)構(gòu)中的,它只能被了解其標(biāo)簽含義的程序人員或網(wǎng)頁制作者所使用。因此,XML只能表達(dá)數(shù)據(jù)的語法,而不能表達(dá)機器可理解的形式化的語義。3.4語義網(wǎng)(3)資源描述層(RDF+RDFSchema)資源描述層提供用于描述網(wǎng)絡(luò)信息類型的語義模型。在RDF模型下,信息以RDF子句的形式存儲,機器可以理解讀取對象所蘊含的意義,在語義協(xié)議和語法編碼之間建立聯(lián)系。抽象的RDF數(shù)據(jù)模型表示為一個帶標(biāo)記的有向圖。RDF(ResourceDescriptionFramework)即資源描述框架,是W3C(WorldWideWebConsortium)推薦的用來描述www上的信息資源及其之間關(guān)系的語言規(guī)范。RDF在語法上符合XML規(guī)范,從這個意義上可以把RDF看成是利用XML規(guī)范而定義的一種置標(biāo)語言。但在語義描述上,RDF與XML卻有很大分別。3.4語義網(wǎng)RDF適合描述Web資源的元數(shù)據(jù)信息,如題名、作者、修改日期以及版權(quán)信息等,具有簡單、開放、易擴展、易交換和易綜合等特點。實際上RDF可用來描述任何可以在網(wǎng)絡(luò)上標(biāo)識的信息。因此在資源描述上,RDF更像是一個數(shù)據(jù)模型。該模型以“資源-屬性-屬性值”的形式描述網(wǎng)絡(luò)信息資源。資源、屬性和屬性值在RDF中分別用術(shù)語主語(Subject)、謂語(Predicate)、賓語(Object)表示,由主語、謂語、賓語構(gòu)成的三元組(Triple)稱為RDF陳述或陳述(Statement)。如果把主語和賓語看作是節(jié)點,屬性看成是一條邊,則一個簡單的RDF陳述就可以表示成一個RDF有向圖。3.4語義網(wǎng)RDF數(shù)據(jù)模型實質(zhì)上是一種二元關(guān)系的表達(dá),由于任何復(fù)雜的關(guān)系都可以分解為多個簡單的二元關(guān)系,因此RDF的數(shù)據(jù)模型可以作為Web上任何復(fù)雜關(guān)系模型的基礎(chǔ)模型。RDF定義了一套用來描述資源類型及其之間相互的詞匯集,稱為RDFSchema(RDFS)。在用RDF描述資源時,首先使用RDFSchema提供的建模原語構(gòu)建被描述資源的Schema信息,然后再利用此Schema描述目標(biāo)信息資源。通過RDFSchema可以定義資源的類型、屬性并顯式地揭示它們之間豐富的語義關(guān)系。3.4語義網(wǎng)RDF(S)是語義網(wǎng)的重要組成部分,它使用URI來標(biāo)識不同的對象(包括資源節(jié)點、屬性類或?qū)傩灾担┎⒖蓪⒉煌腢RI連接起來,清楚表達(dá)對象間的關(guān)系。為揭示對象間關(guān)系而由URI連接而成的RDF有向圖擺脫了XML文檔所隱含的樹形資源結(jié)構(gòu)的限制,可以更加靈活地表達(dá)網(wǎng)絡(luò)上的知識或資源,揭示它們之間的相互關(guān)系,而這更加符合www開放、分布式以及結(jié)構(gòu)松散的特征。在此框架下,以前在XML文檔中只能為程序人員或網(wǎng)頁制作者所理解和使用的標(biāo)簽轉(zhuǎn)換成了定義清晰的詞匯,并可顯式地表達(dá)機器可理解的形式化的語義。如果把XML看作是一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語法規(guī)范的話,那么就可以把RDF看作是一種標(biāo)準(zhǔn)化的元數(shù)據(jù)語義描述規(guī)范。3.4語義網(wǎng)與XML中使用的標(biāo)簽類似,RDF對屬性的定義沒有任何限制,不同的詞匯可能表示的是同一個屬性概念(或稱同義詞)。如使用Creator和Author都可以表示一篇論文的作者。當(dāng)兩個不同的系統(tǒng)或軟件代理分別使用不同的詞匯來表達(dá)同一個概念并需要進行數(shù)據(jù)交換時,同義詞會帶來問題。另一個問題是一詞多義,表達(dá)概念的同一個詞匯在不同的應(yīng)用背景下其含義不同。RDF不具備解決這兩個問題的能力。此外,RDFS所提供的構(gòu)造元素雖然可以表達(dá)比XML更為豐富的語義信息,但仍不能滿足語義網(wǎng)強大推理能力的要求;RDF允許把類作為實例和屬性使用,并且也可以把陳述作為資源,這在理論化模型語義下相當(dāng)于高階邏輯,不可判定。從這個意義上講,RDF的表達(dá)能力又太強了。因此必須在語言的表達(dá)能力與推理能力之間進行一定的折衷,在保障足夠的表達(dá)能力的同時,提供充分的推理能力。3.4語義網(wǎng)(4)本體層(OntologyVocabulary)本體(Ontology)的概念最初起源于哲學(xué)領(lǐng)域,用于研究客觀世界的本質(zhì)。在語義網(wǎng)范疇內(nèi),本體是關(guān)于領(lǐng)域知識的概念化、形式化的明確規(guī)范。作用包括:概念描述即通過概念描述揭示領(lǐng)域知識;語義揭示本體具有比RDF更強的表達(dá)能力,可以揭示更為豐富的語義關(guān)系;一致性本體作為領(lǐng)域知識的明確規(guī)范,可以保證語義的一致性,從而解決一詞多義、多詞一義和詞義含糊現(xiàn)象;推理支持本體在概念描述上的確定性及其強大的語義揭示能力在數(shù)據(jù)層面有力地保證了推理的有效性。3.4語義網(wǎng)與資源描述層相比,本體提供了對領(lǐng)域知識的共同理解和描述,具有更強的表達(dá)能力,支持可保證計算完整性和可判定性的邏輯推理。從整個語義網(wǎng)體系結(jié)構(gòu)來看,本體層起著關(guān)鍵的作用。它不僅彌補了資源描述層的不足,而且其概念模型也是邏輯層(Logic)以上各層發(fā)揮作用的基礎(chǔ),因為只有在對領(lǐng)域知識形成一致性描述的基礎(chǔ)上才能進行相應(yīng)的規(guī)則描述、推理和驗證。OWL(WebOntologyLanguage)是W3C開發(fā)的一種網(wǎng)絡(luò)本體語言,用于對本體進行語義描述。3.4語義網(wǎng)(5)邏輯層(Logic)、證明層(Proof)和信任層(Trust)在RDF和本體的幫助下,語義網(wǎng)將包含大量富含語義信息的網(wǎng)頁。整個語義網(wǎng)就像是一個巨大的全球互連的數(shù)據(jù)庫。這將徹底改變?nèi)藗兊慕涣鞣绞胶蜕罘绞?。有了語義信息的幫助,人們開發(fā)出的軟件代理(Agent)程序的智能和自動化程序?qū)⒋蟠筇岣?。它們可以從不同的資源中收集網(wǎng)頁內(nèi)容,搜索和處理信息并和其它代理進行交互、協(xié)調(diào),這將真正顯示和發(fā)揮語義網(wǎng)的巨大威力。在BernersLee的語義網(wǎng)構(gòu)想中,用戶將使用代理(Agent)完成各種各樣的任務(wù)。3.4語義網(wǎng)代理的基本任務(wù):服務(wù)發(fā)現(xiàn)代理在接到用戶的服務(wù)請求以后,首先將用戶的服務(wù)請求分解成若干個子任務(wù),確定每個子任務(wù)的功能,然后按功能需求對網(wǎng)絡(luò)服務(wù)進行定位,這個過程稱為服務(wù)發(fā)現(xiàn)。協(xié)調(diào)如果定位成功,代理必須協(xié)調(diào)每個子任務(wù)之間的功能接口和工作流程,以完成用戶的服務(wù)請求;如果定位失敗,代理必須對子任務(wù)進行再分解或向其它代理發(fā)出幫助請求,以期尋求完成該子任務(wù)的適當(dāng)途徑。驗證對于代理的每一步工作,語義網(wǎng)必須提供必要的驗證機制,通過建立信任關(guān)系以確保其可靠性。3.4語義網(wǎng)代理在執(zhí)行任務(wù)的過程中,不論是對任務(wù)的分解、定位、協(xié)調(diào),還是對任務(wù)執(zhí)行情況的驗證,都涉及到推理問題。推理必須依靠數(shù)據(jù)和規(guī)則(Rule)。本體的主要任務(wù)是以概念的形式提供對領(lǐng)域知識的共同理解與描述,即提供推理所必需的數(shù)據(jù)。雖然本體在構(gòu)建時也包含了一定的規(guī)則,但這些規(guī)則不僅數(shù)量有限,而且只與特定的本體數(shù)據(jù)相關(guān)聯(lián),描述能力有限。要實現(xiàn)語義網(wǎng)構(gòu)想所期望的強大的推理能力就必須要有一套高效的,與語義網(wǎng)開放、分布式的體系結(jié)構(gòu)相適應(yīng)的規(guī)則系統(tǒng),而這正是邏輯層(Logic)的主要任務(wù)。3.4語義網(wǎng)在語義網(wǎng)體系結(jié)構(gòu)中,本體層以上的各層統(tǒng)稱為規(guī)則層。邏輯層主要描述推理規(guī)則,因為它

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論