第四章置標(biāo)語(yǔ)言工具_(dá)第1頁(yè)
第四章置標(biāo)語(yǔ)言工具_(dá)第2頁(yè)
第四章置標(biāo)語(yǔ)言工具_(dá)第3頁(yè)
第四章置標(biāo)語(yǔ)言工具_(dá)第4頁(yè)
第四章置標(biāo)語(yǔ)言工具_(dá)第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章置標(biāo)語(yǔ)言工具第1頁(yè),共46頁(yè),2023年,2月20日,星期四4.1SGML

從信息組織的電子信息組織的發(fā)展來(lái)看,依發(fā)展的時(shí)間順序介紹三種電子文件格式:標(biāo)準(zhǔn)通用標(biāo)示語(yǔ)言(StandardGeneralizedMarkupLanguage;簡(jiǎn)稱SGML)、超文件標(biāo)示語(yǔ)言(HypertextMarkupLanguage;簡(jiǎn)稱HTML)與最新崛起的可擴(kuò)展標(biāo)示語(yǔ)言(ExtensibleMarkupLanguage,簡(jiǎn)稱XML)。第2頁(yè),共46頁(yè),2023年,2月20日,星期四SGML是ISO在1986年所頒布的國(guó)際標(biāo)準(zhǔn)(ISO8879),在電子圖書(shū)館相關(guān)計(jì)劃中,目前有TEI(TextEncodingInitiative)、EAD(EncodedArchivalDescription)、CIMI(ConsortiumfortheInterchangeofMuseumInformation)、DIAP(DigitalImageAccessProject)與美國(guó)國(guó)會(huì)圖書(shū)館的AmericanMemoryProject等采用SGML作為文件格式。第3頁(yè),共46頁(yè),2023年,2月20日,星期四HTML是SGML的一個(gè)應(yīng)用,是一種用以創(chuàng)造超文件(hypertext)的簡(jiǎn)易數(shù)據(jù)格式,目前在全球信息網(wǎng)(WorldWideWeb;簡(jiǎn)稱WWW或Web)獲得普遍的采用,是寫(xiě)作網(wǎng)頁(yè)(webpages)的標(biāo)準(zhǔn)語(yǔ)言;XML是全球信息網(wǎng)聯(lián)盟(WorldWideWebConsortium;簡(jiǎn)稱W3C)在1996年底所提出的標(biāo)準(zhǔn),1998年2月公布XML1.0Recommendation,相關(guān)標(biāo)準(zhǔn)目前仍在發(fā)展之中。這個(gè)新一代的標(biāo)示語(yǔ)言被期許能具有SGML的彈性,但又不像SGML般復(fù)雜,并能如HTML般能在Web上傳送。第4頁(yè),共46頁(yè),2023年,2月20日,星期四一.什么是標(biāo)示(markup)SGML、HTML、XML都是標(biāo)示語(yǔ)言(MarkupLanguage)。最早,標(biāo)示是文件在排版時(shí),用來(lái)指示文字如何編排的指令,包括控制字體的大小、字型的選擇(如楷體、細(xì)明體等)、字形的處理(如粗體、斜體、加底線等)、頁(yè)面的大小(如A4、B5等)、天地左右的留白寬度、標(biāo)題、段落、腳注、表格…等,這些標(biāo)示并不處理文件的內(nèi)容,主要用來(lái)處理文件實(shí)際的呈現(xiàn)外觀,這類的標(biāo)示稱為程序性標(biāo)示(ProceduralMarkup)。大部分的電子出版或文字處理軟件都使用專屬性的程序性標(biāo)示,也就是說(shuō)這些系統(tǒng)都使用專屬的句柄來(lái)執(zhí)行文件的處理,如字體的加粗、放大…等第5頁(yè),共46頁(yè),2023年,2月20日,星期四這些專屬的句柄大都只能在特定平臺(tái)的特定的系統(tǒng)或相關(guān)軟件中執(zhí)行,如果所使用的硬件或系統(tǒng)軟件換了,這些標(biāo)示過(guò)的文件往往必須進(jìn)行重新標(biāo)示的工作,這種數(shù)據(jù)轉(zhuǎn)換所花費(fèi)的代價(jià)通常相當(dāng)?shù)拇?;同樣的,使用程序性?biāo)示的文件在交換時(shí),文件交換的雙方通常必須使用相同的系統(tǒng)。一般而言,程序性標(biāo)示的作用都只針對(duì)單一文件,例如控制某一份文件以特定的格式輸出,如果同一份文件內(nèi)容希望以不同的呈現(xiàn)外觀再利用,必須移除先前的標(biāo)示,加入符合新的呈現(xiàn)外觀的標(biāo)示;或者將同樣的文件內(nèi)容復(fù)制一份,為新的呈現(xiàn)外觀進(jìn)行標(biāo)示。第6頁(yè),共46頁(yè),2023年,2月20日,星期四另一類的標(biāo)示稱為描述性標(biāo)示(DescriptiveMarkup),也稱為通用標(biāo)示(GenericMarkup或GeneralizedMarkup),所描述的是文件的內(nèi)容(content)或結(jié)構(gòu)(structure),而不是文件的呈現(xiàn)外觀。描述文件結(jié)構(gòu)的方式是以標(biāo)示指定結(jié)構(gòu)中的元素(elements),以文章為例,其結(jié)構(gòu)可能有標(biāo)題、章、節(jié)、參考書(shū)目…等;以書(shū)信為例,結(jié)構(gòu)可能有寄件人、收件人、書(shū)信內(nèi)容…等。通用標(biāo)示的基本概念是文件的內(nèi)容必須和文件的呈現(xiàn)信息(即所謂的樣式)分開(kāi),由于內(nèi)容、結(jié)構(gòu)與呈現(xiàn)信息分開(kāi),所以同一份文件內(nèi)容可以有多種呈現(xiàn)方式,例如同一個(gè)檔案可能以紙本、在線、CD-ROM與Web版本發(fā)行。

第7頁(yè),共46頁(yè),2023年,2月20日,星期四XML、SGML都是典型的通用標(biāo)示語(yǔ)言,HTML就比較特殊了,HTML的標(biāo)簽集(tagset)中大部分是用來(lái)設(shè)定文件在Web上的呈現(xiàn)外觀,少部分描述文件的結(jié)構(gòu)(如:<head>,<title>,<body>)。由于HTML是SGML的一種應(yīng)用,所以HTML并非程序性標(biāo)示語(yǔ)言,而是以描述性標(biāo)示的方式來(lái)控制文件的呈現(xiàn)外觀;HTML的樣式是內(nèi)建的,并不像XML、SGML有分離的樣式,所以HTML標(biāo)示的作用與程序性標(biāo)示類似是針對(duì)單一文件,并不像XML、SGML有較高的再利用彈性。第8頁(yè),共46頁(yè),2023年,2月20日,星期四SGML

SGML是ISO在1986年所訂定的標(biāo)準(zhǔn),編號(hào)是ISO8879。SGML是一種元語(yǔ)言(meta-language),元語(yǔ)言是一套可以用來(lái)定義其它更專門性的標(biāo)示語(yǔ)言的通用規(guī)則,HTML就是由SGML所定義出來(lái),專門使用在WWW上的標(biāo)示語(yǔ)言。SGML主要應(yīng)用在文字?jǐn)?shù)據(jù)的交換,但也適用于其它的數(shù)據(jù)型態(tài),SGML是很好的數(shù)據(jù)儲(chǔ)存格式,適用于任何復(fù)雜的文件結(jié)構(gòu),但缺點(diǎn)是在網(wǎng)絡(luò)傳輸(networkdelivery)方面較為不便。第9頁(yè),共46頁(yè),2023年,2月20日,星期四SGML的優(yōu)點(diǎn)

1.有彈性(flexibility):SGML能描述任何的信息結(jié)構(gòu)與任何復(fù)雜的文件,其應(yīng)用可以簡(jiǎn)單如HTML,也可復(fù)雜如TEI、EAD、CIMI;SGML是完全可擴(kuò)展的(extensible),可以針對(duì)各種類型的文件結(jié)構(gòu)訂定出合適的標(biāo)簽集(tagset);SGML是理想的資料儲(chǔ)存格式,提供了相當(dāng)多的選項(xiàng)功能,可以適用于最復(fù)雜的信息處理。

第10頁(yè),共46頁(yè),2023年,2月20日,星期四2.非專屬性(non-proprietary)、平臺(tái)獨(dú)立(platform-independent)與系統(tǒng)獨(dú)立(system-independent):SGML并不專屬于特定的平臺(tái)與特定的應(yīng)用系統(tǒng),因此SGML文件可以在彼此不兼容的系統(tǒng)間交換,不會(huì)造成信息遺失(informationloss),這個(gè)特性使得SGML文件可以長(zhǎng)久保存。第11頁(yè),共46頁(yè),2023年,2月20日,星期四3.信息再利用性(re-usability):透過(guò)SGML文件內(nèi)容模塊(contentmodule)的再利用,使得文件的產(chǎn)生更有效率、更經(jīng)濟(jì),SGML文件的內(nèi)容可以重復(fù)利用,或者被其它的SGML文件使用,不須重新產(chǎn)生內(nèi)容。同一份文件內(nèi)容也可以透過(guò)樣式表(style.sheet)以多種呈現(xiàn)方式出版。第12頁(yè),共46頁(yè),2023年,2月20日,星期四SGML的限制

1.SGML應(yīng)用程序不易開(kāi)發(fā):SGML龐大且復(fù)雜的選項(xiàng)功能雖然使得SGML具有較高的彈性,但也增加了應(yīng)用程序開(kāi)發(fā)上的難度,即使SGML工具的主要供應(yīng)廠商ArborText所發(fā)表的產(chǎn)品,也沒(méi)有百分之百支持SGML標(biāo)準(zhǔn)。事實(shí)上,SGML有許多選項(xiàng)很少被應(yīng)用,如果把這些不常用的選項(xiàng)去掉,將使得應(yīng)用程序的開(kāi)發(fā)變得更容易。第13頁(yè),共46頁(yè),2023年,2月20日,星期四2.SGML文件不易在Web上傳布:要能夠?yàn)g覽SGML文件,必須要有文件型別定義(DocumentTypeDefinition;簡(jiǎn)稱DTD)及樣式表(Style.Sheet)。DTD定義了文件結(jié)構(gòu)間的關(guān)系,樣式表定義了這些結(jié)構(gòu)的呈現(xiàn)格式,如果少了DTD與樣式表就只能看SGML文件的原始碼了。由于目前Web上的主流瀏覽器只支持HTML,HTML文件并不需要DTD與分離的樣式表,因此SGML文件在Web上只能透過(guò)特定了瀏覽器(如Panorama)才能閱讀,不過(guò)這類的瀏覽器并不普及。如果希望SGML信息能在Web上被大多數(shù)人瀏覽,只好透過(guò)轉(zhuǎn)換程序?qū)GML轉(zhuǎn)成HTML,但這樣的轉(zhuǎn)換往往會(huì)造成信息遺失(InformationLoss),原本SGML文件中所標(biāo)示的結(jié)構(gòu)在轉(zhuǎn)換成HTML文件后并無(wú)法繼續(xù)存在。第14頁(yè),共46頁(yè),2023年,2月20日,星期四3.缺法廠商的支持:Web上的主流瀏覽器廠商Microsoft與Netscape支持HTML的發(fā)展,但并沒(méi)有支持SGML的意愿;由于SGML過(guò)于復(fù)雜,也只有少數(shù)廠商愿意投資開(kāi)發(fā)SGML的相關(guān)應(yīng)用程序,這使得SGML在普及上造成很大的障礙。第15頁(yè),共46頁(yè),2023年,2月20日,星期四HTML是SGML最著名的應(yīng)用,是一種專為WWW網(wǎng)頁(yè)顯示及瀏覽而設(shè)計(jì)的簡(jiǎn)易標(biāo)示語(yǔ)言,目前是WWW上制作網(wǎng)頁(yè)的標(biāo)準(zhǔn)語(yǔ)言格式。WWW的開(kāi)山祖師TimBerners-Lee對(duì)HTML所下的定義是:「HTML是一種用以創(chuàng)造超文件的簡(jiǎn)易數(shù)據(jù)格式,其所創(chuàng)造出來(lái)的文件可在不同的作業(yè)平臺(tái)間移動(dòng)?!褂纱丝芍?,可移植性(portable)與簡(jiǎn)易性(simple)是HTML的兩大特征。(注18)HTML文件除了包含文字信息外,尚可包括聲音、影像等多媒體信息,而HTML的超鏈接除了網(wǎng)頁(yè)內(nèi)的鏈接,也包括網(wǎng)頁(yè)之間的鏈接。

第16頁(yè),共46頁(yè),2023年,2月20日,星期四HTML的特色1.HTMLDTD的設(shè)計(jì)主要是滿足在線顯示的需求。許多標(biāo)簽純粹是用來(lái)指定網(wǎng)頁(yè)的呈現(xiàn)細(xì)節(jié),例如:

lbr是換行(linebreak)。

lhr是畫(huà)一并行線(horizontalrule)。

lb表示粗體字(bold)。

li表示斜體字(italic)。第17頁(yè),共46頁(yè),2023年,2月20日,星期四2.HTML有內(nèi)建的樣式(style)。HTML希望直接使用SGML標(biāo)示來(lái)控制網(wǎng)頁(yè)呈現(xiàn)的樣式,亦即HTML不需要有分離的樣式表,這使得HTML更為簡(jiǎn)單易用,但缺點(diǎn)是較沒(méi)有彈性,同樣的文件內(nèi)容只能設(shè)定一種呈現(xiàn)樣式。

3.HTML引用SGML的標(biāo)示最簡(jiǎn)化特征(markupminimizationfeature)。這是為了盡量減少HTML文件標(biāo)示的數(shù)量,使HTML的標(biāo)示更簡(jiǎn)單,最明顯的例子是結(jié)束標(biāo)簽(end-tag)的省略。例如第18頁(yè),共46頁(yè),2023年,2月20日,星期四在HTML2.0DTD中,p(paragraph)的結(jié)束標(biāo)簽是可以省略的,其元素型別(elementtype)的宣告如下:

<!ELEMENTp-O(%text)*>

其中“-”

表示起始標(biāo)簽(start-tag)是必備的,大寫(xiě)字母”O(jiān)”

表示結(jié)束標(biāo)簽是可省略的(”O(jiān)”

是“omissible”

的意思);倘若結(jié)束卷標(biāo)是必備的,則元素型別宣告應(yīng)該如下:

<!ELEMENTp--(%text)*>

結(jié)束標(biāo)簽的省略雖然使得HTML的標(biāo)示更為簡(jiǎn)單,但也成為描述文件結(jié)構(gòu)時(shí)的限制,HTML文件中所有的段落標(biāo)示<p>在地位上都是平行的,省略了結(jié)束標(biāo)簽就無(wú)法描述「段落中又有段落」的結(jié)構(gòu)。第19頁(yè),共46頁(yè),2023年,2月20日,星期四4.HTML沒(méi)有采用SGML的超鏈接(hyperlinking)機(jī)制。HTML的超鏈接

是利用標(biāo)簽<a>(a是anchor的意思)的“href”

屬性來(lái)指向Web上的任意文件,例如:

<ahref=”/”>是一個(gè)外部鏈接(externallink)

<ahref=”#top”>是內(nèi)部鏈接(internallink)

而內(nèi)部鏈接的目標(biāo)點(diǎn)是利用卷標(biāo)<a>的“name”

屬性來(lái)指定,例如:

<aname=”top”>

SGML則是利用ENTITY或ENTITIES屬性型態(tài)及ID–IDREF機(jī)制來(lái)達(dá)到超鏈接的效果。第20頁(yè),共46頁(yè),2023年,2月20日,星期四HTML標(biāo)簽和屬性(1)基本標(biāo)簽與HTML文檔結(jié)構(gòu)A:基本標(biāo)簽<HTML><HEAD><TITLE><BODY><Hn><PRE>;

B:其他標(biāo)簽:段落(Paragraph)標(biāo)簽<P>、列表標(biāo)簽<UL>、<OL>和<LI>、定義列表的標(biāo)簽<DL>、<DT>和<DD>、強(qiáng)制換行標(biāo)簽<BR>、水平線(HorizontalRule)標(biāo)簽<HR>

第21頁(yè),共46頁(yè),2023年,2月20日,星期四C:屬性

(在標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言SGML和HTML語(yǔ)言中,屬性是指用來(lái)修改HTML標(biāo)簽之間的元素特性。例如,標(biāo)簽之間的元素的對(duì)齊方式、字體屬性、圖象的大小等。)

[例4.8]設(shè)置字體屬性

<P><FONTCOLOR="#FF0000"SIZE="5">慶祝中國(guó)共產(chǎn)黨成立80周年!</FONT></P>

這條語(yǔ)句表示“慶祝中國(guó)共產(chǎn)黨成立80周年!”這幾個(gè)字的顏色是紅色,字號(hào)等于5。

第22頁(yè),共46頁(yè),2023年,2月20日,星期四字符樣式1)物理樣式和邏輯樣式:HTML為單獨(dú)的詞或句子定義了兩種樣式:物理樣式(PhysicalStyle)和邏輯樣式(LogicalStyles)。物理樣式說(shuō)明標(biāo)簽之間的詞句的特定外貌,而邏輯樣式則按文本的意思顯示詞句的外貌。第23頁(yè),共46頁(yè),2023年,2月20日,星期四(2)轉(zhuǎn)義字符串:轉(zhuǎn)義字符串(EscapeSequence)也稱字符實(shí)體(CharacterEntity)。在HTML中,定義轉(zhuǎn)義字符串的原因有兩個(gè):第一個(gè)原因是像“<”和“>”這類符號(hào)已經(jīng)用來(lái)表示HTML標(biāo)簽,因此就不能直接當(dāng)作文本中的符號(hào)來(lái)使用。為了在HTML文檔中使用這些符號(hào),就需要定義它的轉(zhuǎn)義字符串。當(dāng)解釋程序遇到這類字符串時(shí)就把它解釋為真實(shí)的字符。在輸入轉(zhuǎn)義字符串時(shí),要嚴(yán)格遵守字母大小寫(xiě)的規(guī)則。第二個(gè)原因是,有些字符在ASCII字符集中沒(méi)有定義,因此需要使用轉(zhuǎn)義字符串來(lái)表示。

第24頁(yè),共46頁(yè),2023年,2月20日,星期四二、HTML的限制1.結(jié)構(gòu)上的限制:HTML最大的限制就是它的標(biāo)簽集是固定的,而這些卷標(biāo)大都屬于呈現(xiàn)導(dǎo)向(presentation-oriented)的卷標(biāo),主要用來(lái)指定網(wǎng)頁(yè)的顯示格式,這個(gè)特性使得HTML只能支持固定且簡(jiǎn)單的文件結(jié)構(gòu),而且在信息再利用、數(shù)據(jù)交換與自動(dòng)文件處理方面都造成很大的限制。

第25頁(yè),共46頁(yè),2023年,2月20日,星期四2.信息再利用的限制:許多企業(yè)組織都有需要將相同的信息以不同的形式來(lái)出版,例如印刷版本、CD-ROM版本、Web版本等,尤其隨著電子出版時(shí)代來(lái)臨,數(shù)字化數(shù)據(jù)不管在復(fù)制、編輯、傳布上皆較傳統(tǒng)出版來(lái)得便利,將同樣的信息以各種不同的形式出版也變得更可行。如果以HTML作為電子出版的數(shù)據(jù)格式,設(shè)定不同的呈現(xiàn)格式,如標(biāo)題字體的大小、條列(lists)與表格的使用等,就能產(chǎn)生不同的Web版本,如果打印出來(lái)就是相對(duì)應(yīng)的印刷版本,但由于HTML文件的數(shù)據(jù)內(nèi)容與呈現(xiàn)外觀是結(jié)合在一起,如果原始文件的內(nèi)容有所改變的話,所有不同形式的版本全部都要跟著轉(zhuǎn)換,這道轉(zhuǎn)換的程序必須耗費(fèi)不少的人力與時(shí)間。如果采用SGML作為電子出版的數(shù)據(jù)格式,由于數(shù)據(jù)內(nèi)容與呈現(xiàn)外觀是分開(kāi)處理,因此可以避免掉因原始文件內(nèi)容改變而造成所有的版本都必須轉(zhuǎn)換的問(wèn)題。第26頁(yè),共46頁(yè),2023年,2月20日,星期四3.數(shù)據(jù)交換的限制:由于Web的普及,上網(wǎng)人口不斷增加,使得Web成為許多企業(yè)組織交換數(shù)據(jù)最理想的場(chǎng)所,但由于HTML的標(biāo)簽集是固定的,且這些卷標(biāo)大都屬于呈現(xiàn)導(dǎo)向的卷標(biāo),利用HTML作為數(shù)據(jù)交換的格式,很難對(duì)每一項(xiàng)所要交換的數(shù)據(jù)作清楚的描述。例如:有一家網(wǎng)絡(luò)書(shū)店想要透過(guò)Web從出版商那里取得一些新出版書(shū)籍的書(shū)目資料,并希望把這些數(shù)據(jù)自動(dòng)轉(zhuǎn)入自己的數(shù)據(jù)庫(kù)中,再動(dòng)態(tài)地把新書(shū)信息呈現(xiàn)在網(wǎng)站上,書(shū)目數(shù)據(jù)包括了作者、書(shū)名、出版社、ISBN...等字段,以HTML標(biāo)簽來(lái)標(biāo)示這些書(shū)目數(shù)據(jù),并沒(méi)有辦法逐一標(biāo)示每個(gè)字段,通常是把它包裝成表格的形式,以利于瀏覽,但如此一來(lái)卻沒(méi)有辦法利用程序?qū)TML中的書(shū)目數(shù)據(jù)轉(zhuǎn)入數(shù)據(jù)庫(kù)中,因?yàn)槌绦驔](méi)法分辨HTML文件中哪一段信息是作者、哪一段信息是書(shū)名...,就算出版商以SGML來(lái)儲(chǔ)存書(shū)目數(shù)據(jù),清楚地描述每一個(gè)書(shū)目數(shù)據(jù)的字段,但一旦要透過(guò)Web傳送,將SGML轉(zhuǎn)成HTML后,這些書(shū)目數(shù)據(jù)的字段結(jié)構(gòu)就無(wú)法存在了。

第27頁(yè),共46頁(yè),2023年,2月20日,星期四4.自動(dòng)文件處理的限制:自動(dòng)文件處理可節(jié)省人力操作的成本,降低人工輸入的錯(cuò)誤,改善整體作業(yè)流程的質(zhì)量,并提高文件傳遞的速度。透過(guò)Web有許多的文件處理流程事實(shí)上可以被自動(dòng)化,尤其在Intranet或Extranet若能將數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)出后作自動(dòng)處理,或文件經(jīng)過(guò)自動(dòng)處理后直接轉(zhuǎn)入數(shù)據(jù)庫(kù),將能大幅提高效率。目前在Web上一些窗體應(yīng)用程序就是自動(dòng)文件處理簡(jiǎn)單應(yīng)用,如有些在線問(wèn)卷系統(tǒng)或在線投票系統(tǒng),使用者將填完的問(wèn)卷數(shù)據(jù)直接傳入伺服端的數(shù)據(jù)庫(kù)后,可以直接實(shí)時(shí)讀取數(shù)據(jù)庫(kù)的統(tǒng)計(jì)結(jié)果。由于HTML的標(biāo)簽集是固定的,而這些卷標(biāo)大都屬于呈現(xiàn)導(dǎo)向的卷標(biāo),因此HTML文件所能做的自動(dòng)化處理事實(shí)上有很大的限制。所有文件處理高度自動(dòng)化的流程,都必須透過(guò)統(tǒng)一的數(shù)據(jù)格式,而且這個(gè)數(shù)據(jù)格式必須能攜帶豐富的內(nèi)容語(yǔ)義,從這個(gè)角度來(lái)說(shuō)HTML并不是一種適合作自動(dòng)文件處理的數(shù)據(jù)格式。第28頁(yè),共46頁(yè),2023年,2月20日,星期四5.無(wú)法支持較精確的查詢:目前在Web上使用者可以透過(guò)搜尋引擎(searchengine)所提供的關(guān)鍵詞查詢(keywordsearch)來(lái)尋找相關(guān)的信息,但由于目前Web上的信息不斷增加,使得搜尋引擎的查詢結(jié)果往往會(huì)找到太多的信息,而這些信息又不一定能符合自己的信息需求,往往使用者花在過(guò)濾出所需信息的時(shí)間,會(huì)超過(guò)真正去看這些信息的時(shí)間。搜尋引擎的準(zhǔn)確率(precisionrate)不高是因?yàn)榈乃玫牟樵兡J绞菍?duì)網(wǎng)頁(yè)進(jìn)行全文檢索,雖然也可以將搜尋的目標(biāo)限制在HTML文件的Title部分來(lái)提高準(zhǔn)確率,但這樣又會(huì)降低查詢的回收率(recallrate)。一個(gè)較好的辦法是提供可以指定內(nèi)容(content-specific)的標(biāo)簽,例如:<author>莊子</author>與<title>莊子</title>便有所區(qū)分,如此一來(lái)查詢時(shí)便可做較精確的限定,其效果有如字段化查詢一般,不過(guò)HTML并無(wú)法讓網(wǎng)頁(yè)制作者自行定義可以指定內(nèi)容語(yǔ)義的標(biāo)簽,XML將能解決這個(gè)問(wèn)題。第29頁(yè),共46頁(yè),2023年,2月20日,星期四6.HTML的不斷修訂造成了許多網(wǎng)站維護(hù)的額外工作:由于HTML是一個(gè)演進(jìn)中的標(biāo)準(zhǔn),每當(dāng)HTML的標(biāo)簽集不能滿足需求時(shí),W3C就會(huì)為HTML加入新的標(biāo)簽,推出新的HTML版本。從HTML2.0到HTML3.2,再到HTML4.0,每當(dāng)新的HTML版本推出,一些必須維護(hù)大量HTML文件的單位就得重新回頭檢視這些舊版的HTML文件,看看有沒(méi)有需要重新標(biāo)示文件。除了W3C會(huì)以官方立場(chǎng)身分修訂HTML外,瀏覽器大廠Microsoft以及Netscape也會(huì)伴隨著新版的瀏覽器推出自己的HTML延伸標(biāo)準(zhǔn),而兩家廠商推出的延伸標(biāo)準(zhǔn)又不完全兼容,對(duì)于許多網(wǎng)站維護(hù)人員來(lái)說(shuō),每當(dāng)有新版的瀏覽器問(wèn)世,就代表著可能又要對(duì)部分的網(wǎng)頁(yè)重新標(biāo)示。有些組織為了徹底避免重新標(biāo)示文件的困擾,干脆決定采用SGML來(lái)標(biāo)示文件,再把SGML轉(zhuǎn)換成HTML,因?yàn)閷GML轉(zhuǎn)成HTML只要透過(guò)轉(zhuǎn)換程序批次進(jìn)行并不需花費(fèi)大多資源,但若要重新標(biāo)示成千上萬(wàn)的HTML網(wǎng)頁(yè)就工程浩大了。第30頁(yè),共46頁(yè),2023年,2月20日,星期四4.4XML

XML是W3C在1996年底提出的標(biāo)準(zhǔn),它是從SGML衍生出來(lái)的簡(jiǎn)化格式,也是一種元語(yǔ)言(meta-language),可以用來(lái)定義任何一種新的標(biāo)示語(yǔ)言。XML的制定是為了補(bǔ)足HTML的不完美,使得在Web上能夠傳輸、處理各類復(fù)雜的文件,它去除了SGML復(fù)雜不常用及不利于在Web傳送的選項(xiàng)功能,讓使用者可以很容易地定義屬于自己的文件型態(tài),程序設(shè)計(jì)師也能在更短的時(shí)間開(kāi)發(fā)XML相關(guān)應(yīng)用程序。XML1.0Recommendation已于1998年2月公布,相關(guān)標(biāo)準(zhǔn)目前仍在發(fā)展之中,XML的發(fā)展獲得了各界的支持,其中包括了SunMicrosystems,Microsoft,Netscape,Adobe,ArborText...等軟件大廠的背書(shū)第31頁(yè),共46頁(yè),2023年,2月20日,星期四第32頁(yè),共46頁(yè),2023年,2月20日,星期四第33頁(yè),共46頁(yè),2023年,2月20日,星期四XML的優(yōu)點(diǎn)吸收SGML的關(guān)鍵功能和HTML簡(jiǎn)易性1、靈活性和簡(jiǎn)潔性2、開(kāi)放性和可擴(kuò)展性3、實(shí)用性4、高效性第34頁(yè),共46頁(yè),2023年,2月20日,星期四目前,IE5中的XML解析器能夠根據(jù)文檔類型定義(DTD)或XMLSchema解析XML關(guān)于DOMDOM即DocumentObjectModel,它把XML文檔的內(nèi)容實(shí)現(xiàn)為一個(gè)對(duì)象模型,簡(jiǎn)單的說(shuō)就是應(yīng)用程序如何訪問(wèn)XML文檔,W3C的DOMLevel1定義了如何實(shí)現(xiàn)屬性、方法、事件等。關(guān)于XSLTXSLT即XMLStylesheetLanguageTransformation.在寫(xiě)本文時(shí)正式標(biāo)準(zhǔn)還沒(méi)有正式形成,在1999年的11月通過(guò)了《XSLT》。XSLT是一種用來(lái)進(jìn)行XML文檔間相互轉(zhuǎn)化的語(yǔ)言。簡(jiǎn)單的說(shuō),我們知道不同的開(kāi)發(fā)者對(duì)于各自的應(yīng)用會(huì)用不同的XML文檔,利用XSLT我們可以從一個(gè)已經(jīng)定義的XML文檔抽取我們需要的數(shù)據(jù),組成不同的形式,可以是XML,HTML和各種不同的SCRIPT。關(guān)于Xpointer和Xlinks類似于HTML中的HyperLink.Xpointer和Xlink用于聯(lián)結(jié)其他的XML文檔和其他XML文檔中的部分,第35頁(yè),共46頁(yè),2023年,2月20日,星期四其中Xpointer相當(dāng)于HTML中用于定位HTML文檔子內(nèi)容的錨!不過(guò)其聯(lián)結(jié)水平更強(qiáng)大。比如,在bookstore中,可以定位到有一個(gè)作者叫金庸,書(shū)中有四大惡人的那本書(shū),在HTML中,這是不可能實(shí)現(xiàn)的。當(dāng)然,XML的發(fā)展促使了許多的新技術(shù)的出現(xiàn),其他的還有RDF、Xfrom等等,其中的大部分W3C只是給出了建議,還沒(méi)有形成正式的標(biāo)準(zhǔn),有些內(nèi)容甚至還處于討論階段。我們將密切注視著方面內(nèi)容的變化。XML框架所謂框架即Framework。XML是一個(gè)通用的標(biāo)準(zhǔn)。它不屬于個(gè)人,認(rèn)證它的也不是一家公司,而是W3C。那么為什么那么多的大公司紛紛趨指如鶩呢?各家公司互相競(jìng)爭(zhēng)的是它的framework,是它的Schema.XMLframework是駕馭XML文件的結(jié)構(gòu),是一種高層次的結(jié)構(gòu)控制。利用XMLframework,可以把商業(yè)邏輯(businesslogic)分離出來(lái),實(shí)現(xiàn)數(shù)據(jù)與計(jì)算的分離。第36頁(yè),共46頁(yè),2023年,2月20日,星期四目前著名的framework有Microsoft的Biztalk以及聯(lián)合國(guó)(UN/CEFACT)和OASIS聯(lián)合于99年底推出了EBXML動(dòng)議。相信在不久的將來(lái)會(huì)有許多的Framwork.其中的一個(gè)問(wèn)題就是在W3C中關(guān)于XML的很多東西還處于建議的時(shí)候,就推出framework,是不是一種冒險(xiǎn)。不過(guò),互聯(lián)網(wǎng)的發(fā)展似乎就是這樣,關(guān)于framwwork的發(fā)展,我們將拭目以待第37頁(yè),共46頁(yè),2023年,2月20日,星期四XHTML可擴(kuò)展超文本置標(biāo)語(yǔ)言(eXtensibleHyperTextMarkupLanguage,XHTML),是一種置標(biāo)語(yǔ)言,表現(xiàn)方式與超文本置標(biāo)語(yǔ)言(HTML)類似,不過(guò)語(yǔ)法上更加嚴(yán)格。從繼承關(guān)系上講,HTML是一種基于標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言(SGML)的應(yīng)用,是一種非常靈活的置標(biāo)語(yǔ)言,而XHTML則基于可擴(kuò)展置標(biāo)語(yǔ)言(XML),XML是SGML的一個(gè)子集。XHTML1.0在2000年1月26日成為W3C的推薦標(biāo)準(zhǔn)。第38頁(yè),共46頁(yè),2023年,2月20日,星期四XHTML是基于XML的標(biāo)記語(yǔ)言,從本質(zhì)上說(shuō)是一種過(guò)渡技術(shù)。是基于XML的應(yīng)用。XML雖然數(shù)據(jù)轉(zhuǎn)換能力強(qiáng),但是,面對(duì)大量已有的基于HTML的網(wǎng)站,應(yīng)用XML為時(shí)過(guò)早,建立XHTML就是基于此的過(guò)渡,目前國(guó)際上比價(jià)推崇。從HTML過(guò)渡到XHTML變化比較小,主要是為了適應(yīng)XML。目前大部分瀏覽器都可以解釋XHTML。第39頁(yè),共46頁(yè),2023年,2月20日,星期四從HTML到XHTML過(guò)渡主要是為了適應(yīng)XML。最大的變化在于文檔必須是良構(gòu)的,所有標(biāo)簽必須閉合,也就是說(shuō)開(kāi)始標(biāo)簽要有相應(yīng)的結(jié)束標(biāo)簽。另外,XHTML中所有的標(biāo)簽必須小寫(xiě)。而按照HTML2.0以來(lái)的傳統(tǒng),很多人都是將標(biāo)簽大寫(xiě),這點(diǎn)兩者的差異顯著。在XHTML中,所有的參數(shù)值,包括數(shù)字,必須用雙引號(hào)括起來(lái)(而在SGML和HTML中,引號(hào)不是必須的,當(dāng)內(nèi)容只是數(shù)字、字母及其它允許的特殊字符時(shí),可以不用引號(hào))。所有元素,包括空元素,比如img、br等,也都必

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論