數(shù)字出版概論 課件 陳丹 第五章 數(shù)字出版流程和標(biāo)準(zhǔn);第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第1頁
數(shù)字出版概論 課件 陳丹 第五章 數(shù)字出版流程和標(biāo)準(zhǔn);第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第2頁
數(shù)字出版概論 課件 陳丹 第五章 數(shù)字出版流程和標(biāo)準(zhǔn);第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第3頁
數(shù)字出版概論 課件 陳丹 第五章 數(shù)字出版流程和標(biāo)準(zhǔn);第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第4頁
數(shù)字出版概論 課件 陳丹 第五章 數(shù)字出版流程和標(biāo)準(zhǔn);第六章 數(shù)字內(nèi)容加工、管理技術(shù)_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章數(shù)字出版流程和標(biāo)準(zhǔn)本章學(xué)習(xí)要點●了解數(shù)字出版流程與傳統(tǒng)出版流程的異同;●掌握數(shù)字出版流程再造所需要解決的基本問題和數(shù)字出版流程的基本構(gòu)成;●了解新技術(shù)環(huán)境下數(shù)字出版流程呈現(xiàn)的新特點;●掌握數(shù)字出版標(biāo)準(zhǔn)的定義與類型;●了解我國數(shù)字出版標(biāo)準(zhǔn)發(fā)展?fàn)顩r。第一節(jié)數(shù)字出版主要流程一、數(shù)字出版流程與傳統(tǒng)出版流程的異同二、數(shù)字出版流程再造的基本問題與解決方案三、數(shù)字出版流程基本構(gòu)成四、新技術(shù)環(huán)境下數(shù)字出版流程新特點五、全媒體流程再造——以煙臺日報傳媒集團(tuán)為例一、數(shù)字出版流程與傳統(tǒng)出版流程的異同(一)流程再造當(dāng)出版單位采用了以數(shù)字內(nèi)容為核心的管理系統(tǒng)以后,傳統(tǒng)的編、印、發(fā)環(huán)節(jié)將被改變,這就是所謂的“流程再造”。(二)數(shù)字出版流程與傳統(tǒng)出版流程的相同之處紙質(zhì)圖書的出版需要經(jīng)歷選題策劃、約稿、審稿、編輯加工、發(fā)稿、排版、校對、質(zhì)檢、印刷、發(fā)行等主要環(huán)節(jié)。同樣,數(shù)字出版產(chǎn)品的創(chuàng)作過程中有些環(huán)節(jié)是必不可少的,如都需進(jìn)行選題策劃、產(chǎn)品加工制作、校對、發(fā)行等,數(shù)字出版通過兼顧傳統(tǒng)出版流程,進(jìn)一步提高自身更新和迭代的能力。(三)數(shù)字出版流程與傳統(tǒng)出版流程的不同之處數(shù)字出版不再僅僅是對傳統(tǒng)出版物的數(shù)字化處理,還包括生成多形態(tài)的數(shù)字化產(chǎn)品,主要有電子書、有聲書、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)游戲、數(shù)字音樂、數(shù)字報紙等等,其內(nèi)容資源的管理、資源加工與內(nèi)容制作、產(chǎn)品發(fā)布都需要數(shù)字化技術(shù)做支撐。同時,隨著產(chǎn)品形態(tài)的豐富,企業(yè)在數(shù)字出版生產(chǎn)過程中會更加注重考量產(chǎn)品的受眾范圍,通過利用自建平臺和第三方平臺進(jìn)行用戶數(shù)據(jù)收集,捕捉用戶瀏覽習(xí)慣和喜好,形成用戶畫像,在產(chǎn)品制作與分發(fā)的過程中能夠更具針對性,從而更好地滿足不同用戶的個性化需求,增強(qiáng)用戶黏性。二、數(shù)字出版流程再造的基本問題與解決方案(一)數(shù)字出版流程再造的基本問題基于效率和效益原則,一方面要解決資源集聚整合的效率與成本問題,另一方面要解決產(chǎn)品譜系(矩陣)成本收益率最大化問題。同時還要解決企業(yè)內(nèi)部資源聚合規(guī)劃效益問題,產(chǎn)品譜系(矩陣)開放度問題,自有平臺渠道和第三方平臺渠道的適配問題,不同格式或開發(fā)序列的敏捷開發(fā)適配問題。(二)數(shù)字出版流程再造四要素數(shù)字出版流程再造包括四個要素:技術(shù)、人才、觀念、制度。其中技術(shù)創(chuàng)新是圖書數(shù)字化流程再造的核心,人才和觀念創(chuàng)新是圖書數(shù)字化流程再造的支撐,制度創(chuàng)新是圖書數(shù)字化流程再造的保障。1技術(shù)互聯(lián)網(wǎng)和人工智能技術(shù)的迅猛發(fā)展,一定程度上改變了人們的生產(chǎn)工具和生產(chǎn)方式。2人才數(shù)字出版流程再造離不開出版人才隊伍建設(shè)。3觀念編輯人員需要在短時間內(nèi)轉(zhuǎn)變傳統(tǒng)的圖書生產(chǎn)觀念,革新理念來落實數(shù)字出版流程再造。4制度健全的管理制度和激勵機(jī)制是出版單位開展數(shù)字化流程再造的重要保障。三、數(shù)字出版流程基本構(gòu)成(一)前期策劃前期策劃是數(shù)字出版物開發(fā)的第一步,策劃設(shè)計的內(nèi)容是否全面、調(diào)研是否充分、對產(chǎn)品的思考和規(guī)劃是否到位,與對應(yīng)產(chǎn)品開發(fā)時的順利程度、最終形成的產(chǎn)品質(zhì)量息息相關(guān)。首先要確定產(chǎn)品的選題,確定其內(nèi)容和整體風(fēng)格。同時還需要對產(chǎn)品的受眾范圍進(jìn)行考量,同時把握社會效益和經(jīng)濟(jì)效益。其次,市場調(diào)研是前期策劃中不可缺少的重要部分。(二)素材采集文字材料是組成數(shù)字出版物的基本素材。圖片材料既可以作為數(shù)字出版物的主要內(nèi)容,也可以是文字內(nèi)容的輔助素材,使內(nèi)容的表達(dá)更為直觀、生動。圖片可通過相關(guān)的資源庫獲得,也能通過相機(jī)拍攝、照片掃描獲得,還能通過制圖軟件進(jìn)行自主創(chuàng)作。表格可以通過多種形態(tài)和色彩來表達(dá)含義。音視頻素材也是數(shù)字出版物區(qū)別于傳統(tǒng)出版物之處,通過音視頻素材的插入能夠帶來更為精彩的視聽體驗。不同類型的數(shù)字出版物素材獲取方式也不盡相同,可以根據(jù)產(chǎn)品的內(nèi)容策劃和框架構(gòu)想,通過互聯(lián)網(wǎng)檢索、文獻(xiàn)查詢、音視頻創(chuàng)作、采訪調(diào)研等多種方式獲得,之后對素材進(jìn)行加工處理,調(diào)整格式和尺寸等。(三)產(chǎn)品制作與檢測產(chǎn)品制作是整個數(shù)字出版流程的核心所在。在進(jìn)行產(chǎn)品制作時,需要整合所獲得的素材,根據(jù)產(chǎn)品的不同形態(tài)選用適配的創(chuàng)作工具,按照前期策劃設(shè)想一步一步地進(jìn)行產(chǎn)品創(chuàng)作。在進(jìn)行產(chǎn)品制作時,既要保證質(zhì)量和產(chǎn)品規(guī)范化,也要確保產(chǎn)品本身符合法律法規(guī)。為了保證產(chǎn)品的質(zhì)量,在完成數(shù)字出版產(chǎn)品的制作后,還應(yīng)該在正式發(fā)布前對產(chǎn)品進(jìn)行系統(tǒng)測試。(四)分發(fā)在完成數(shù)字出版物制作并進(jìn)行產(chǎn)品檢測與調(diào)試后,便可對產(chǎn)品進(jìn)行發(fā)布,使產(chǎn)品真正到達(dá)用戶手中,為用戶所用。數(shù)字出版可以打破時空限制,利用專業(yè)系統(tǒng)對口、聯(lián)機(jī)數(shù)據(jù)庫、網(wǎng)絡(luò)等手段,在極短的時間內(nèi)完成傳統(tǒng)出版幾周才能完成的出版物的布貨、上架、推銷等工作,從而實現(xiàn)全世界范圍內(nèi)的同步發(fā)行。根據(jù)不同數(shù)字出版產(chǎn)品的形態(tài)特征,選用相應(yīng)的發(fā)布形式,能實現(xiàn)多渠道分發(fā)。四、新技術(shù)環(huán)境下數(shù)字出版流程新特點(一)產(chǎn)品形態(tài)更具開放性伴隨著市場和用戶需求的不斷變化,數(shù)字出版產(chǎn)品形態(tài)也日益豐富,具有更強(qiáng)的開放性和包容性。目前,數(shù)字出版的產(chǎn)品形態(tài)大體上可以分為五個類別:一是以電子圖書、電子期刊、有聲讀物為代表的數(shù)字出版物;二是以手機(jī)報、手機(jī)閱讀為特色的手機(jī)出版物;三是針對手持閱讀器、平板電腦等移動終端的數(shù)字出版產(chǎn)品;四是定制開發(fā)的數(shù)據(jù)庫數(shù)字出版增值產(chǎn)品;五是多形態(tài)數(shù)字出版衍生的互動產(chǎn)品。(二)不同類型內(nèi)容資源的匯編式和序列式開發(fā)近年來,很多出版單位在獲得大眾類型的紙質(zhì)書的版權(quán)之后,對其進(jìn)行數(shù)字化加工和專業(yè)化配音,推出各種電子書和有聲書產(chǎn)品,憑借其新穎的形式和更好的體驗獲得了大量讀者的青睞。從紙質(zhì)書、電子書、有聲書三者的版權(quán)簽訂和編輯加工等流程上可以看出,形成了一種數(shù)字出版產(chǎn)品的序列式開發(fā)方式,這也是專業(yè)類或知識類聚類型的數(shù)據(jù)庫結(jié)構(gòu)化重組的體現(xiàn)。(三)數(shù)字資源保值增值效率要求提升以基于XML的一體化數(shù)字出版流程為例,其能夠形成各種可重復(fù)利用的結(jié)構(gòu)化數(shù)據(jù)文件,為數(shù)據(jù)重復(fù)使用、實現(xiàn)多渠道的立體出版提供了基礎(chǔ),并為跨平臺的數(shù)據(jù)讀取和數(shù)據(jù)交換以及數(shù)據(jù)的重新組織和再利用創(chuàng)造了條件。以上種種都體現(xiàn)出在數(shù)字出版流程再造的過程中,數(shù)字資源的管理效率得到了不斷提升。五、全媒體流程再造——以煙臺日報傳媒集團(tuán)為例煙臺日報傳媒集團(tuán)建立在煙臺日報社基礎(chǔ)上,成立于2005年9月,以報刊出版為主業(yè),目前擁有《煙臺日報》《煙臺晚報》以及黃海數(shù)字出版社和水母網(wǎng)等十家媒體。煙臺日報傳媒集團(tuán)原有的出版流程是:不同媒體機(jī)構(gòu)前往新聞事件發(fā)生地采集素材,并分別回到各自所在的部門進(jìn)行編輯加工,次日進(jìn)行出版印刷后,將內(nèi)容通過水母網(wǎng)進(jìn)行網(wǎng)絡(luò)發(fā)布產(chǎn)生電子報、手機(jī)報等。在新時代背景下,原有的出版流程無法適應(yīng)新媒體傳播的需要,煙臺日報傳媒集團(tuán)嘗試對原有的出版流程進(jìn)行改造,向全媒體化的傳媒集團(tuán)轉(zhuǎn)型。(一)構(gòu)建數(shù)字資產(chǎn)管理平臺(二)構(gòu)建全媒體新聞中心(三)采用全媒體數(shù)字復(fù)合出版系統(tǒng)(四)實行全媒體數(shù)字出版復(fù)合流程煙臺日報社水母網(wǎng)第二節(jié)數(shù)字出版相關(guān)標(biāo)準(zhǔn)一、數(shù)字出版標(biāo)準(zhǔn)概述二、我國數(shù)字出版標(biāo)準(zhǔn)化道路三、國外數(shù)字出版標(biāo)準(zhǔn)化一、數(shù)字出版標(biāo)準(zhǔn)概述(一)標(biāo)準(zhǔn)1定義標(biāo)準(zhǔn)是按照規(guī)定的程序經(jīng)協(xié)商一致制定,為各種活動或其結(jié)果提供規(guī)則、指南或特性,供共同使用和重復(fù)使用的文件。標(biāo)準(zhǔn)需要一個編制、發(fā)布、實施的過程,我們稱之為標(biāo)準(zhǔn)化。2分類按照作用范圍,可以將標(biāo)準(zhǔn)分為國際標(biāo)準(zhǔn)、區(qū)域標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)(專業(yè)、協(xié)會和部門)、地方標(biāo)準(zhǔn)和企業(yè)標(biāo)準(zhǔn)。按照作用種類,標(biāo)準(zhǔn)可以分為基礎(chǔ)標(biāo)準(zhǔn)、產(chǎn)品標(biāo)準(zhǔn)、方法標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、衛(wèi)生標(biāo)準(zhǔn)、安全標(biāo)準(zhǔn)、環(huán)境標(biāo)準(zhǔn)等。根據(jù)《中華人民共和國標(biāo)準(zhǔn)化法》的規(guī)定,我國標(biāo)準(zhǔn)分為國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)和團(tuán)體標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)。3作用標(biāo)準(zhǔn)的制定,有利于國家資源的合理利用,便于科學(xué)技術(shù)成果的推廣,便于在各行各業(yè)形成良好運行秩序,保證產(chǎn)品質(zhì)量,有利于產(chǎn)品的通用互換及標(biāo)準(zhǔn)的協(xié)調(diào)配套等,提高社會效益和經(jīng)濟(jì)效益,保障社會安全和人民安全。(二)數(shù)字出版標(biāo)準(zhǔn)1定義數(shù)字出版標(biāo)準(zhǔn)是在國家范圍內(nèi)或新聞出版行業(yè)內(nèi)及相關(guān)企業(yè)內(nèi)經(jīng)協(xié)商一致制定并由公認(rèn)機(jī)構(gòu)批準(zhǔn),共同使用和重復(fù)使用的一種規(guī)范性文件。我國的數(shù)字出版標(biāo)準(zhǔn)體系主要包括標(biāo)準(zhǔn)整體架構(gòu)、通用類標(biāo)準(zhǔn)、內(nèi)容產(chǎn)品類標(biāo)準(zhǔn)、數(shù)據(jù)規(guī)格類標(biāo)準(zhǔn)、平臺傳播類標(biāo)準(zhǔn)、管理類標(biāo)準(zhǔn)、版權(quán)類標(biāo)準(zhǔn)七大方面。2我國新聞出版標(biāo)準(zhǔn)化管理體制目前新聞出版業(yè)的標(biāo)準(zhǔn)化技術(shù)委員會包括全國新聞出版標(biāo)準(zhǔn)化技術(shù)委員會、全國出版物發(fā)行標(biāo)準(zhǔn)化技術(shù)委員會、全國印刷標(biāo)準(zhǔn)化技術(shù)委員會和全國新聞出版信息標(biāo)準(zhǔn)化技術(shù)委員會等。(二)數(shù)字出版標(biāo)準(zhǔn)3我國數(shù)字出版標(biāo)準(zhǔn)發(fā)展情況2009年手機(jī)出版標(biāo)準(zhǔn)發(fā)布。2010年,制定了電子書相關(guān)基礎(chǔ)標(biāo)準(zhǔn)。2011年,全國新聞出版標(biāo)準(zhǔn)化技術(shù)委員會在制定《MPR出版物》(多媒體印刷閱讀出版物)系列國家標(biāo)準(zhǔn)的同時,積極與全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會進(jìn)行溝通。自2013年1月至2014年1月國家新聞出版廣電總局就發(fā)布了37項數(shù)字出版標(biāo)準(zhǔn),我國數(shù)字出版標(biāo)準(zhǔn)的體系搭建初見規(guī)模。4數(shù)字出版標(biāo)準(zhǔn)的類型(1)數(shù)字出版基礎(chǔ)術(shù)語標(biāo)準(zhǔn)。(2)數(shù)字出版資源的分類標(biāo)準(zhǔn)。(3)數(shù)字出版資源的標(biāo)識標(biāo)準(zhǔn)。(4)數(shù)字出版參與方的標(biāo)識標(biāo)準(zhǔn)。(5)技術(shù)標(biāo)準(zhǔn)。(二)數(shù)字出版標(biāo)準(zhǔn)5我國數(shù)字出版相關(guān)標(biāo)準(zhǔn)匯總(1)國家標(biāo)準(zhǔn)。2017—2021年,我國數(shù)字出版相關(guān)的國家標(biāo)準(zhǔn)既涵蓋了傳統(tǒng)的數(shù)字出版產(chǎn)品(音像出版物、連續(xù)出版物)領(lǐng)域,也增加了知識服務(wù)等新興領(lǐng)域的相關(guān)標(biāo)準(zhǔn)。(2)國標(biāo)計劃。截至2021年底,我國已下達(dá)、未批準(zhǔn)發(fā)布的數(shù)字出版相關(guān)國標(biāo)計劃主要涉及出版物在線信息交換、聲像數(shù)字出版物技術(shù)檢測和印前數(shù)據(jù)交換等方面。(3)行業(yè)標(biāo)準(zhǔn)。2014—2021年,我國數(shù)字出版相關(guān)的行業(yè)標(biāo)準(zhǔn)涵蓋音像出版物、電子圖書、網(wǎng)絡(luò)游戲、有聲讀物等產(chǎn)品種類,信息采集、資源加工、數(shù)據(jù)傳輸、數(shù)字閱讀、數(shù)據(jù)統(tǒng)計等生產(chǎn)傳播流程,以及物聯(lián)網(wǎng)、AR等相關(guān)技術(shù)。二、我國數(shù)字出版標(biāo)準(zhǔn)化道路(一)政策層面的宏觀標(biāo)準(zhǔn)設(shè)計2016年底,國家新聞出版廣電總局發(fā)布了“首批新聞出版業(yè)科技與標(biāo)準(zhǔn)重點實驗室名單”,里面有些是做標(biāo)準(zhǔn)建設(shè)的,諸如CNONIX國家標(biāo)準(zhǔn)、ISLI國家標(biāo)準(zhǔn)等。ISLI即國際標(biāo)準(zhǔn)關(guān)聯(lián)標(biāo)識符(InternationalStandardLinkIdentifier),這是由我國主導(dǎo)制定的,于2015年5月被國際標(biāo)準(zhǔn)化組織全票通過,成為信息與文獻(xiàn)領(lǐng)域發(fā)布的第11項國際標(biāo)準(zhǔn)。2016年8月,ISLI中國國家標(biāo)準(zhǔn)正式發(fā)布。ISLI標(biāo)志碼及圖標(biāo)的申領(lǐng)應(yīng)用示意圖(二)企業(yè)層面的自主參與(1)咪咕數(shù)媒牽頭發(fā)布移動閱讀電子書格式標(biāo)準(zhǔn)。(2)夢想人科技助力《出版物AR技術(shù)應(yīng)用規(guī)范》的制定。新聞出版行業(yè)標(biāo)準(zhǔn)《出版物AR技術(shù)應(yīng)用規(guī)范》于2019年正式發(fā)布,蘇州夢想人軟件科技有限公司全程主導(dǎo)參與了標(biāo)準(zhǔn)的論證、起草與制定,中國大地出版社有限公司、中地數(shù)媒(北京)科技文化有限責(zé)任公司、中國新聞出版研究院等單位參與標(biāo)準(zhǔn)的起草制定。(3)校企聯(lián)手牽頭起草《出版物VR技術(shù)應(yīng)用要求》。三、國外數(shù)字出版標(biāo)準(zhǔn)化國際標(biāo)準(zhǔn)和國外先進(jìn)標(biāo)準(zhǔn)很多是依據(jù)不同需求來制定的,例如數(shù)字出版領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)就已被發(fā)達(dá)國家覆蓋,且各自支持不同的技術(shù)方案,存在著相互交叉、重復(fù)制定的現(xiàn)象,這也反映出標(biāo)準(zhǔn)化領(lǐng)域的競爭局面。我國的數(shù)字出版標(biāo)準(zhǔn)也需要走國際化道路,在符合有關(guān)法律法規(guī)和考慮我國實際情況的前提之下,大力采用國際標(biāo)準(zhǔn),對我國的相關(guān)工作起到促進(jìn)作用,提高效率,降低成本。同時,還要認(rèn)真研究國際數(shù)字出版相關(guān)標(biāo)準(zhǔn)的變化與發(fā)展,積極參與國際標(biāo)準(zhǔn)的討論和制定,并爭取把我國的標(biāo)準(zhǔn)發(fā)展成國際標(biāo)準(zhǔn)。本章通過分析數(shù)字出版流程與傳統(tǒng)出版流程的異同,梳理了數(shù)字出版流程再造需要解決的基本問題、數(shù)字出版流程的基本構(gòu)成,分析了新技術(shù)環(huán)境下數(shù)字出版流程呈現(xiàn)的新特點。并且,闡明了數(shù)字出版標(biāo)準(zhǔn)的定義、分類,介紹了我國數(shù)字出版標(biāo)準(zhǔn)的發(fā)展情況。本章小結(jié)1.簡述數(shù)字出版流程與傳統(tǒng)出版流程的不同之處。2.簡述新技術(shù)環(huán)境下數(shù)字出版流程的新特點。3.查找傳統(tǒng)出版單位成功進(jìn)行數(shù)字化轉(zhuǎn)型升級的典型案例,并分析其對原有出版流程進(jìn)行了哪些改造。4.舉例說明數(shù)字出版標(biāo)準(zhǔn)的類型。5.查找2020年至今我國發(fā)布的數(shù)字出版相關(guān)標(biāo)準(zhǔn)并簡要分析。6.簡述ISLI的內(nèi)涵及應(yīng)用。7.思考我國目前的數(shù)字出版相關(guān)標(biāo)準(zhǔn)還存在哪些不足。思考題第六章數(shù)字內(nèi)容加工、管理技術(shù)本章學(xué)習(xí)要點●掌握數(shù)字內(nèi)容加工與管理工作內(nèi)容;●了解數(shù)字內(nèi)容加工技術(shù)及其應(yīng)用狀況;●了解數(shù)字內(nèi)容管理技術(shù)及其應(yīng)用狀況。第一節(jié)數(shù)字內(nèi)容加工與管理概述數(shù)字內(nèi)容加工與管理是數(shù)字出版的基礎(chǔ)工作。數(shù)字內(nèi)容加工即按照一定規(guī)范,將數(shù)字內(nèi)容進(jìn)行統(tǒng)一生產(chǎn)、制作、修改、拆分、整合,以滿足用戶的使用目的或達(dá)到行業(yè)常用標(biāo)準(zhǔn)水平的過程。數(shù)字內(nèi)容管理即將數(shù)字內(nèi)容按照一定的邏輯組織方式,進(jìn)行收集、整理、存貯、利用的過程。數(shù)字內(nèi)容加工一般要通過系列軟件加以實現(xiàn),如OCR軟件、格式轉(zhuǎn)換軟件等;數(shù)字內(nèi)容管理一般依托一個大型的資源管理系統(tǒng),如知識庫、數(shù)據(jù)庫系統(tǒng)等。第二節(jié)數(shù)字內(nèi)容加工技術(shù)數(shù)字內(nèi)容加工技術(shù)包含三種類型:版面理解技術(shù)、編輯工具集和XML編輯工具集。而在一些數(shù)字出版實踐中,經(jīng)常根據(jù)復(fù)雜程度將數(shù)字內(nèi)容加工技術(shù)分為初加工深加工兩種類型。國家數(shù)字復(fù)合出版系統(tǒng)工程的相關(guān)技術(shù)可以看作一種理論性技術(shù),而初加工與深加工技術(shù)可以看作一種操作技術(shù)。一、國家數(shù)字復(fù)合出版系統(tǒng)工程的內(nèi)容加工技術(shù)二、數(shù)字出版實踐中常用的相關(guān)技術(shù)三、數(shù)字內(nèi)容加工技術(shù)的作用一、國家數(shù)字復(fù)合出版系統(tǒng)工程的內(nèi)容加工技術(shù)國家數(shù)字復(fù)合出版系統(tǒng)工程可以理解為一種理論性、通用性的技術(shù)。首先,版面理解技術(shù),主要指文檔資產(chǎn)結(jié)構(gòu)化整理工作;其次,編輯工具集,主要為作者和編輯提供一組專業(yè)化的內(nèi)容編輯工具;最后,XML編輯工具集,主要用于圖書、期刊和新聞文稿的XML格式轉(zhuǎn)換和編輯處理過程,包括Word或Excel文件轉(zhuǎn)換為XML文件之前的整理工作、XML轉(zhuǎn)換工作、轉(zhuǎn)換后的XML整理工作和XML編輯工作。在實際應(yīng)用中,內(nèi)容加工技術(shù)也可以分為以下八種類型:一是文檔編輯工具類二是輔助翻譯工具類三是文件格式轉(zhuǎn)換工具類四是缺字補字管理工具類五是特征抽取與檢查工具類六是水印處理工具類七是版面理解技術(shù)類八是自動標(biāo)引工具類二、數(shù)字出版實踐中常用的相關(guān)技術(shù)(一)OCR技術(shù)OCR技術(shù)主要利用光學(xué)技術(shù)和計算機(jī)技術(shù),通過檢測印刷體字符每個像素的亮、暗模式,將其轉(zhuǎn)換成一個黑白圖像的文件,然后再使用識別手段將黑白圖像文件轉(zhuǎn)換成計算機(jī)可以識別的文字。其工業(yè)化流程主要包括六個方面:1文件掃描和圖像處理(一)OCR技術(shù)1文件掃描和圖像處理首先是掃描前的文件整理環(huán)節(jié)。對紙質(zhì)文件逐頁檢查并把影響掃描的污損、粘連等問題頁處理好。如果文件可以拆分掃描則要將文件拆分好,并在掃描結(jié)束后重新裝訂。接著是文件掃描環(huán)節(jié)。目前的快速掃描技術(shù)可以每秒鐘完成50頁A4紙的掃描工作。掃描后的圖片一般會按照設(shè)定格式存在規(guī)定存儲設(shè)備中,圖片的像素要求一般在300dpi以上。文件掃描常用的圖像格式有TIF、JPEG、PNG等,目前較為通用的是無損壓縮的TIF格式。掃描完成后是圖像處理環(huán)節(jié)。這一環(huán)節(jié)的主要工作是對掃描后的圖像去臟、糾偏,調(diào)整版心,使圖像更適合閱讀和識別。圖像處理環(huán)節(jié)可以使用通用圖像處理軟件(Photoshop、InDesign、AI等)或?qū)iT工具軟件。(一)OCR技術(shù)2版面分析圖像處理后的數(shù)據(jù)在進(jìn)行OCR識別前需要進(jìn)行版面分析。版面分析就是標(biāo)記各類內(nèi)容區(qū)域并確定其屬性的過程。例如,橫排文本區(qū)、豎排文本區(qū)、公式區(qū)、表格區(qū)和圖像區(qū)等。OCR識別引擎會根據(jù)區(qū)域的屬性識別需要識別的區(qū)域,而公式、分子式等不易識別區(qū)域就會以圖片的方式存儲并應(yīng)用。版面分析使用專門軟件工具處理,可以自動處理,也可以手動處理。(一)OCR技術(shù)3

OCR識別OCR識別是指把圖像中的文字、符號等轉(zhuǎn)化為計算機(jī)編碼的過程。現(xiàn)代OCR識別技術(shù)已經(jīng)可以處理多語種混排、多字體混排、簡繁體混排和表格等復(fù)雜的文本類型,同時識別率可達(dá)到95%以上。在紙質(zhì)圖書加工系統(tǒng)中,一般都會采用多個識別技術(shù)方案同時識別,再對識別結(jié)果進(jìn)行智能比較,以提高識別率。OCR識別過程是全自動批量處理的。OCR識別后的文本還會有較多的編碼錯誤和格式錯誤,需要人工校對和修改。校對分為橫向校對和縱向校對。(一)OCR技術(shù)4縱向校對縱向校對是將文件中的每個字符逐個切分成小圖形,并將程序認(rèn)為相同的圖形逐一排列。當(dāng)我們打開這一工序的界面時,屏幕顯示的都是同樣的字符。但在其中會含有一些相似的字符,如漢字中的“土”和“士”,英文中的“X”與“x”等。這就要求操作人員對照原圖形文件。如果是程序轉(zhuǎn)換錯誤,要根據(jù)圖像加以改正,從而保持與原文一致。由于同一屏幕出現(xiàn)的是同一個字符,因此,如有不同,操作人員極易發(fā)現(xiàn)并加以改正。經(jīng)過這道工序,可基本完成錯字符的校對修改。(一)OCR技術(shù)5橫向校對橫向校對采用類似傳統(tǒng)的人工校對方法,即通過人工逐字逐句地將識別結(jié)果與原始圖像進(jìn)行比對,找到錯誤的地方并修改。基于前道工序(縱向校對)的工作,橫向校對工作是將轉(zhuǎn)換后的文本文件對照原文件,在版式上加以修正。要求操作時,現(xiàn)有文件盡量保持原版式。操作界面分為上下兩個部分:上半部分是已經(jīng)轉(zhuǎn)換完成、需要校對的文本文件,下半部分則是用來對照的原文件的掃描圖像。在上半部分我們同時可以看到一行底色略深的文字,它與下面緊挨的一行內(nèi)容相同。這是在程序設(shè)計時,將當(dāng)前校對一行的圖像剪切提取,擺放在正在校對一行的上面,便于操作員比照校對,相當(dāng)于紙件校對的折校。(一)OCR技術(shù)6文審與校驗最后要對數(shù)字化的文件進(jìn)行文審校驗,根據(jù)質(zhì)檢標(biāo)準(zhǔn)調(diào)整數(shù)據(jù)的格式,改正之前未能發(fā)現(xiàn)的錯誤,差錯率一般要求控制在萬分之三以內(nèi)。OCR技術(shù)能夠提供基礎(chǔ)的TXT文件,然后再根據(jù)客戶要求,進(jìn)行深加工,形成最終數(shù)據(jù)文件。OCR技術(shù)對應(yīng)國家數(shù)字復(fù)合出版系統(tǒng)工程中的版面理解技術(shù),是對版面理解技術(shù)的深化。多核心(多重)OCR技術(shù)則進(jìn)一步提高了識別效率。多核心OCR技術(shù)即利用多個不同OCR系統(tǒng)進(jìn)行文字識別處理,然后將多個系統(tǒng)的文字識別結(jié)果進(jìn)行比對。通常,經(jīng)三個系統(tǒng)識別一致的文件,文字差錯率不超過十萬分之一,因此不需要進(jìn)行人工校對。這樣,多核心的比對過濾掉了大量有錯誤的文字,大大提高了識別和校對效率。(二)XML技術(shù)1

XML概念XML(ExtensibleMarkupLanguage),即可擴(kuò)展標(biāo)記語言。標(biāo)記指計算機(jī)所能理解的信息符號,可以用來標(biāo)記數(shù)據(jù)和定義數(shù)據(jù)類型。通過此種標(biāo)記,計算機(jī)可以處理包含各種信息的文本等。(二)XML技術(shù)2

XML發(fā)展XML是從標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)演化而來的。SGML是一種在Web出現(xiàn)之前就早已存在的用標(biāo)記來描述文檔資料的通用語言。由于SGML比較復(fù)雜,人們推出了HTML。隨著Web應(yīng)用的不斷深入,HTML也難以適應(yīng)技術(shù)發(fā)展需要。于是Web標(biāo)準(zhǔn)化組織W3C建議使用一種精簡的SGML版本——XML。XML與SGML一樣,是一個用來定義其他語言的元語言。與SGML相比,XML開放性強(qiáng),簡單易懂,是一門既無標(biāo)簽集也無語法的新一代標(biāo)記語言。(二)XML技術(shù)3

XML功能(1)XML可以從HTML中分離數(shù)據(jù),即能夠在HTML文件之外將數(shù)據(jù)存儲在XML文檔中,這樣可以使開發(fā)者集中精力使用HTML做好數(shù)據(jù)的顯示和布局工作,并確保數(shù)據(jù)改動時不會導(dǎo)致HTML文件也需要改動,從而方便維護(hù)頁面。(2)XML可用于數(shù)據(jù)共享。(3)XML可應(yīng)用于B2B商業(yè)模式中,例如在網(wǎng)絡(luò)中交換金融信息。(4)XML可以充分利用數(shù)據(jù)。(5)XML可以用于創(chuàng)建新的語言。比如,WAP和WML語言都由XML發(fā)展而來。(二)XML技術(shù)4XML編輯加工的流程對XML的編輯加工即內(nèi)容結(jié)構(gòu)化加工。首先,根據(jù)不同類型圖書的知識體系特點,通過自動分析和人機(jī)交互兩種方式對圖書資源進(jìn)行元數(shù)據(jù)標(biāo)引。然后,按照圖書目錄拆分章節(jié)內(nèi)容,包括章節(jié)下的文本段落、圖片、表格、公式等內(nèi)容。最后,將標(biāo)引和拆分完后生成的數(shù)據(jù)導(dǎo)出為XML、PDF、EPUB、Word等文檔格式。圖書的XML加工流程如下:(1)安裝編輯加工軟件;(2)分析文件;(3)制作;(4)設(shè)置目錄級別;(5)元數(shù)據(jù)提??;(6)導(dǎo)出XML;(7)使用XML編輯器檢查文件;(8)使用DTD/Schema校驗XML結(jié)構(gòu)規(guī)范。(二)XML技術(shù)5

XML數(shù)字出版標(biāo)準(zhǔn)按照2014年國家新聞出版廣電總局?jǐn)?shù)字出版司發(fā)布的《圖書數(shù)字資源內(nèi)容標(biāo)引規(guī)則》,結(jié)合圖書的結(jié)構(gòu)建立DTD/Schema。DTD(DocumentTypeDefinition)是一種定義標(biāo)記語言的語言,它可以定義XML文件使用的標(biāo)記、屬性和實體以及它們之間的嵌套關(guān)系。DTD相當(dāng)于XML的法律性文件,如果不滿足DTD文件的約束,就不能稱為一個有效的XML文件。(二)XML技術(shù)6

XML數(shù)據(jù)轉(zhuǎn)換一個基于XML的內(nèi)容深加工系統(tǒng),包含了內(nèi)容預(yù)處理、格式轉(zhuǎn)換、內(nèi)容校驗等環(huán)節(jié)。內(nèi)容前期處理以兼容多種源文件格式的內(nèi)容預(yù)處理系統(tǒng)為核心。該系統(tǒng)采用轉(zhuǎn)換模板配置的方式,以滿足不同項目對各類排版文件前期預(yù)處理的轉(zhuǎn)換要求。數(shù)據(jù)成品轉(zhuǎn)換以兼容多項目標(biāo)準(zhǔn)的多格式數(shù)字內(nèi)容制作系統(tǒng)為核心。該系統(tǒng)采用輸出標(biāo)準(zhǔn)模板配置的方式來滿足各項目多格式產(chǎn)品輸出標(biāo)準(zhǔn)。紙質(zhì)資源利用掃描識別系統(tǒng)實現(xiàn)高效轉(zhuǎn)換,電子資源利用排版文件反解技術(shù)實現(xiàn)高效轉(zhuǎn)換。質(zhì)檢管理以兼容多項目標(biāo)準(zhǔn)的加工數(shù)據(jù)內(nèi)容校驗系統(tǒng)為核心。該系統(tǒng)可針對XML、HTML、EPUB等格式電子書、圖片、封面等,分別按照各項目標(biāo)準(zhǔn)配置質(zhì)檢指標(biāo),實現(xiàn)批量數(shù)據(jù)一次處理,保障數(shù)據(jù)質(zhì)檢效果。基于XML的內(nèi)容加工界面三、數(shù)字內(nèi)容加工技術(shù)的作用數(shù)字內(nèi)容加工的目標(biāo)是實現(xiàn)數(shù)字內(nèi)容產(chǎn)品更好地傳播和利用。目前產(chǎn)業(yè)環(huán)境中,相關(guān)技術(shù)能夠?qū)崿F(xiàn)以下目標(biāo)。(一)高效實現(xiàn)數(shù)據(jù)格式轉(zhuǎn)換(二)精準(zhǔn)實現(xiàn)內(nèi)容結(jié)構(gòu)標(biāo)引(一)高效實現(xiàn)數(shù)據(jù)格式轉(zhuǎn)換數(shù)字出版中的經(jīng)常性數(shù)據(jù)轉(zhuǎn)換是將方正書版文件、飛翔文件、WPS文件、InDesign文件和Word文件等排版文件轉(zhuǎn)換輸出為PDF格式的文件。在實際工作中,會經(jīng)常出現(xiàn)的問題有文字亂碼、內(nèi)容缺失、版面錯頁(跑版)、英文單詞間空格丟失等。數(shù)字內(nèi)容加工工具有效地解決了這些問題。格式轉(zhuǎn)換后的PDF文件按其中圖片的質(zhì)量可分為瀏覽級PDF和印刷級PDF,瀏覽級可作為成品數(shù)據(jù)應(yīng)用到電子圖書產(chǎn)品中。數(shù)字內(nèi)容也包括圖像及音視頻內(nèi)容,如圖像處理技術(shù)涉及圖像數(shù)字化、圖像增強(qiáng)和復(fù)原、圖像數(shù)據(jù)編碼、圖像分割和圖像識別等,音視頻處理技術(shù)涉及音視頻的編碼、壓縮、轉(zhuǎn)換、還原等,這些也屬于廣義的數(shù)據(jù)格式轉(zhuǎn)換范疇。(二)精準(zhǔn)實現(xiàn)內(nèi)容結(jié)構(gòu)標(biāo)引傳統(tǒng)出版物的內(nèi)容標(biāo)引受限于載體,所以多數(shù)側(cè)重于內(nèi)容的外部特征,例如標(biāo)題、關(guān)鍵詞、作者、作品分類、載體以及出版者等。而數(shù)字內(nèi)容拓展到了用戶生成內(nèi)容、專業(yè)生成內(nèi)容、職業(yè)生成內(nèi)容(Occupationally

GeneratedContent,OGC)以及設(shè)備驅(qū)動內(nèi)容(DeviceGeneratedContent,DGC)等多種內(nèi)容生成模式。同時,數(shù)字內(nèi)容既有文字、圖像、音頻、視頻以及AR/VR等不同形式,也有融這些交付形式于一體的綜合形式。借助于當(dāng)前的標(biāo)引工具,可以精準(zhǔn)地對這些內(nèi)容進(jìn)行有序化處理,并利用一定的規(guī)則、技術(shù)和方法,通過對內(nèi)容的深度挖掘,精確表達(dá)內(nèi)容之間的邏輯關(guān)系。第三節(jié)數(shù)字內(nèi)容管理技術(shù)一、信息資源管理系統(tǒng)二、出版ERP一、信息資源管理系統(tǒng)(一)信息資源管理系統(tǒng)概述信息資源管理系統(tǒng)是對加工后的數(shù)字內(nèi)容進(jìn)行全面管理的系統(tǒng),它對數(shù)字內(nèi)容進(jìn)行采集、分類、存儲、發(fā)布等流程化管理。信息資源管理系統(tǒng)的目標(biāo)是為數(shù)字出版單位提供一整套統(tǒng)一編目、統(tǒng)一存儲、統(tǒng)一管理的平臺,將數(shù)字化的圖書、期刊、圖像、音頻、視頻等多種資源建立關(guān)聯(lián)關(guān)系,實現(xiàn)數(shù)字資源快速、便捷、高效地調(diào)用和產(chǎn)品重組,為出版單位的數(shù)字資源長期保存、檢索、加工、發(fā)布、服務(wù)提供數(shù)據(jù)支撐。信息資源管理系統(tǒng)一般由底層數(shù)據(jù)庫及平臺頁面、應(yīng)用軟件等部分組裝在一起形成完整的平臺。(二)信息資源管理系統(tǒng)運行1數(shù)字內(nèi)容的采集在信息資源管理系統(tǒng)進(jìn)行數(shù)字內(nèi)容采集時,需要內(nèi)容使用權(quán)所有者運用模板采集、標(biāo)準(zhǔn)采集或直接上傳等方式上傳內(nèi)容。模板采集指上傳者從系統(tǒng)下載符合XML要求的Excel表單,填寫數(shù)字內(nèi)容的元數(shù)據(jù)信息和資源路徑,然后上傳數(shù)字內(nèi)容。標(biāo)準(zhǔn)采集指在選定資源類型后,指定文件路徑,系統(tǒng)將數(shù)字內(nèi)容元數(shù)據(jù)信息、源文件和成品文件同時采集入庫。除了內(nèi)容上傳之外,還有數(shù)據(jù)轉(zhuǎn)儲與網(wǎng)絡(luò)爬蟲采集等數(shù)字內(nèi)容采集方式。(二)信息資源管理系統(tǒng)運行2數(shù)字內(nèi)容的存儲經(jīng)過分類或者主題標(biāo)引的數(shù)字內(nèi)容采集完成后,就進(jìn)入了存儲環(huán)節(jié)。數(shù)字內(nèi)容存儲對象包括數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或加工過程中需要查找的信息。這些內(nèi)容以某種格式記錄在計算機(jī)內(nèi)部或外部存儲介質(zhì)上,如磁盤和磁帶都屬于存儲介質(zhì)。數(shù)字內(nèi)容存儲組織方式因存儲介質(zhì)而異。數(shù)字內(nèi)容存儲過程中,經(jīng)常會涉及數(shù)據(jù)遷移和云存儲兩種存儲模式。數(shù)據(jù)遷移,又稱分級存儲管理(HerarchicalStorageManagement),是一種將離線存儲與在線存儲融合的技術(shù)。云存儲是一種網(wǎng)上在線存儲的模式,即把數(shù)字內(nèi)容存放在第三方托管的多臺虛擬服務(wù)器(非專屬的服務(wù)器)上。(二)信息資源管理系統(tǒng)運行3數(shù)字內(nèi)容的管理信息資源管理系統(tǒng)采用源文檔庫、中間文檔庫、產(chǎn)品文檔庫的三級庫結(jié)構(gòu)對數(shù)字內(nèi)容資源實施管理。源文檔庫將存儲所有電子文檔和其他數(shù)字資源,以方便后續(xù)數(shù)字內(nèi)容產(chǎn)品的編輯工作;中間文檔庫將根據(jù)開發(fā)需求,構(gòu)建各類素材庫,將加工完成的素材分別存儲于相應(yīng)素材庫中,以供數(shù)字內(nèi)容產(chǎn)品研發(fā)使用;產(chǎn)品文檔存儲于用于分發(fā)的第三級文檔庫,如基于電子書的EP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論