版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第6章政務(wù)信息資源分類6.1政務(wù)信息資源分類概述6.1.1分類簡述類,是具有共同屬性或特征的事物、對象或概念的集合;分類,是按對象的特征屬性進(jìn)行區(qū)分,將具有某種共同屬性或特征的分類對象劃分在一起、或彼此區(qū)別的過程?!洞笥倏迫珪氛J(rèn)為分類的關(guān)鍵是:人類在認(rèn)識和理解世界的過程中需要解決3個問題:(1)區(qū)分對象及其屬性;(2)區(qū)分整體對象及其組成部分;(3)不同對象類的形成及區(qū)分。解決這3個命題的過程就是分類過程,其實(shí)現(xiàn)就是人類對上述3方面實(shí)踐與認(rèn)知的積累。6.1.2政務(wù)信息資源分類依據(jù)GB/T25647《電子政務(wù)術(shù)語》的定義,政務(wù)信息資源分類是“為了有序管理和開發(fā)利用政務(wù)信息資源,把具有某種共同屬性或特征的政務(wù)信息歸并在一起,通過其類別的屬性或特征來對政務(wù)信息進(jìn)行的歸類。”通過分類將實(shí)現(xiàn)政務(wù)信息資源的有序采集、科學(xué)管理、共享使用與交換增值等。從形態(tài)上,政務(wù)信息資源分類也是文件檔案、資料、公文、作業(yè)與服務(wù)對象等的資源組織與處理的過程,它涉及文獻(xiàn)著錄、主題標(biāo)引、特征描述、內(nèi)容編目、賦予標(biāo)識代碼等作業(yè),成果是生成相應(yīng)的政務(wù)資源目錄。6.2政務(wù)信息資源的分類原理6.2.1信息資源的基本分類原理信息資源的分類,主要考慮其分類體系架構(gòu)、分類對象描述、分類節(jié)點(diǎn)間的關(guān)聯(lián)等,由此產(chǎn)生相應(yīng)的分類原理與方法,如線分類、面分類、混合分類、復(fù)雜分類與多重分類等。線分類法線分類又稱層次分類、樹型分類或體系分類。它將分類對象按選定的若干屬性或特征,從上而下逐次分為若干層級,各層級又分為若干類目。同一分支的同層級類目之間構(gòu)成并列關(guān)系,不同層級類目之間構(gòu)成隸屬關(guān)系。面分類法選定對象的若干屬性或特征,將分類對象按每一屬性或特征集劃分成一組獨(dú)立的類目,每一類目構(gòu)成一個“面”,再按一定順序?qū)⒏鱾€“面”平行排列。使用時根據(jù)需要將有關(guān)“面”中的相應(yīng)類目按“面”的指定排列順序組配在一起,形成一個新的復(fù)合類目的分類方法。如服裝可按“性別”、“年齡”、“款式”、“布料”、“顏色”等分類,各組之間可按任何有實(shí)際意義的概念進(jìn)行組合?;旌戏诸愂蔷€分類與面分類結(jié)合的分類方式?,F(xiàn)實(shí)世界中,許多事物或概念間既具有層次性特征,又顯示出多面并列的屬性關(guān)系。如信息系統(tǒng)中,樹型分類目錄下掛接數(shù)據(jù)表的現(xiàn)象比比皆是,就是這種混合結(jié)構(gòu)的具體體現(xiàn)。許多應(yīng)用系統(tǒng)中,人們往往采用線分類為主導(dǎo)分類,以顯示資源的體系化組織的層級脈絡(luò);又對其末端條目采用一系列特征面來描述,面越多,對象描述就越豐富與細(xì)致。復(fù)雜分類面分類中“對象-屬性”為二維關(guān)系,可用表格描述;線分類中“層級-對象”也可用表格描述;二者混合后的“層級-對象-屬性”關(guān)系,也能用關(guān)系型數(shù)據(jù)數(shù)據(jù)庫來定義。但現(xiàn)實(shí)中有許多對象間呈現(xiàn)復(fù)雜的網(wǎng)狀關(guān)聯(lián),一些不同來源的信息資源在融合時也呈現(xiàn)多維的樹-網(wǎng)復(fù)合型關(guān)聯(lián),節(jié)點(diǎn)間層級關(guān)系不清,上下位屬彼此糾纏,不能用簡單的關(guān)系規(guī)則與剛性路徑來定義。多重分類對象可按不同的屬性、特征、應(yīng)用等劃分不同的分類體系。同一對象可能在一個系統(tǒng)中被多重分類,如“太陽能”可能出現(xiàn)在能源類中,又可能在環(huán)保類下,還可能在高新技術(shù)類中。同一對象在不同系統(tǒng)中會有不同分類與代碼標(biāo)識。上述幾種分類模式構(gòu)成了政務(wù)信息資源分類的多種性和復(fù)雜性,它是客觀世界多重性和復(fù)雜性在信息領(lǐng)域的反映。在政務(wù)資源領(lǐng)域中,線分類法能反映某個領(lǐng)域的知識輪廓、層級架構(gòu)與總體容量,各節(jié)點(diǎn)概念在分類體系中有穩(wěn)定的位置和次序,適于作資源架構(gòu)的總體描述。面分類適于對末端條目的屬性進(jìn)行描述,描述面越多,對象特征呈現(xiàn)就越詳細(xì)。而在多系統(tǒng)融合、跨領(lǐng)域交互的綜合系統(tǒng)中,信息資源分類就可能呈現(xiàn)網(wǎng)狀嵌套的復(fù)雜結(jié)構(gòu)。6.2.2政務(wù)信息資源的分類原則電子政務(wù)具有跨部門、跨區(qū)域、跨行業(yè)等特點(diǎn),其信息資源分類應(yīng)遵循如下原則??茖W(xué)性系統(tǒng)性兼容性規(guī)范性可擴(kuò)展性實(shí)用性6.3政務(wù)信息分類系統(tǒng)6.3.1政務(wù)信息分類技術(shù)架構(gòu)
政務(wù)系統(tǒng)中,信息資源分類是相對獨(dú)立的子系統(tǒng),其技術(shù)架構(gòu)與功能如圖6-1所示。圖6-1從內(nèi)容、特征與外表外表特征等角度提供了政務(wù)信息資源的4重分類,“資源形態(tài)分類”從外表特征或載體來區(qū)分其形式,是唯一與內(nèi)容無關(guān)的分類;而主題分類、行業(yè)分類和服務(wù)分類均與內(nèi)容相關(guān)。其中,主題分類是基礎(chǔ),它從對象最客觀、穩(wěn)定、與應(yīng)用無關(guān)的本質(zhì)屬性出發(fā)對資源進(jìn)行分類,當(dāng)其他分類不便或不詳時,當(dāng)以主題分類為依據(jù)。圖6-1也表明了它對行業(yè)分類與服務(wù)分類的支持。行業(yè)分類是從行業(yè)角度對資源的分類,此分類便于行業(yè)應(yīng)用,但對跨行業(yè)、多領(lǐng)域的場合就顯不足;服務(wù)分類是對政府公共服務(wù)的劃分,便于公眾檢索,但顯得較為粗放。電子政務(wù)系統(tǒng)可根據(jù)上述4種分類,對信息資源進(jìn)行采集、注冊與歸納,產(chǎn)生相應(yīng)的分類元數(shù)據(jù)項。使用時,機(jī)構(gòu)可根據(jù)所需服務(wù)對信息資源進(jìn)行識別、導(dǎo)航和定位;也可根據(jù)提供服務(wù)的職能部門的所屬行業(yè)或領(lǐng)域,或根據(jù)其資源主題內(nèi)容等,對政務(wù)信息資源進(jìn)行識別、導(dǎo)航與定位等。6.3.2四種政務(wù)資源分類和編碼結(jié)構(gòu)
國家標(biāo)準(zhǔn)GB/T21063.4-2007《政務(wù)信息資源分類》給出了主題分類、行業(yè)分類、服務(wù)分類與形態(tài)分類等4種應(yīng)用分類法。6.3.2.1主題分類法主題分類是政務(wù)資源的基礎(chǔ)性分類,GB/T21063.4-2007《政務(wù)信息資源分類》規(guī)定了政務(wù)信息資源目錄體系中政務(wù)信息資源的分類原則和方法,明確以及主題分類為基礎(chǔ),用于各機(jī)構(gòu)在建立政務(wù)信息資源目錄時提供分類依據(jù)。該標(biāo)準(zhǔn)將政務(wù)信息資源的主題分為21個一級類和133個二、三級類。表6-1為該標(biāo)準(zhǔn)中政務(wù)資源的主題分類示例。表6-1采用線性分類法,3級4位編碼,第1級用2位數(shù)字,2級和3級類目各用1位大寫羅馬字符(A-Z中除I、O)表示,結(jié)構(gòu)如圖6-2所示。6.3.2.2行業(yè)分類法政務(wù)信息資源的行業(yè)分類是在參照GB/T4754《國民經(jīng)濟(jì)行業(yè)分類與代碼》的基礎(chǔ)上,作了部分增減形成的。GB/T21063.4-2007中的行業(yè)分類示例如表6-2所示。
其編碼方法采用3層4位的線分類結(jié)構(gòu),如圖6-3所示。一級類由1位大寫羅馬字符(A-Z中除I、O)表示,代表國民經(jīng)濟(jì)“產(chǎn)業(yè)門類”;二級類由2位數(shù)字代表“行業(yè)分類”;三級類目由1位數(shù)字組成,代表行業(yè)“細(xì)目”。6.3.2.3服務(wù)分類法
此分類描述政府公共服務(wù),用于:(一)指導(dǎo)構(gòu)建服務(wù)型政府;(二)體現(xiàn)政府的經(jīng)濟(jì)調(diào)節(jié)、市場監(jiān)管、社會管理、公共服務(wù)等職能;(三)利于機(jī)構(gòu)間跨部門、跨行業(yè)、跨地區(qū)的信息共享。服務(wù)分類是近年面向公眾需求發(fā)展起來的分類體系,在美國獲得成功。它以構(gòu)建面向公眾的政府服務(wù)為宗旨,打破機(jī)構(gòu)間的界限,以公眾服務(wù)為軸心,涉及各相關(guān)機(jī)構(gòu)時,均從其履行的職能出發(fā),無縫地組織民提供的服務(wù),使社會公眾感覺其是面向“一個政府”。為此,美國推出了聯(lián)邦電子政務(wù)體系架構(gòu)(FederalEnterpriseArchitecture),描述服務(wù)的業(yè)務(wù)模型,運(yùn)用業(yè)務(wù)分解和分類描述方法,確定政府不同職能的邊界和范圍,界定、定義各類業(yè)務(wù),以形成統(tǒng)一的、滿足電子政務(wù)總體要求的政務(wù)信息資源分類體系。政府服務(wù)邏輯上可分為目標(biāo)、方式、方式支持環(huán)境、資源等4方面,按公眾服務(wù)屬性就相應(yīng)體現(xiàn)為公眾服務(wù)、服務(wù)方式、服務(wù)方式支持環(huán)境、服務(wù)資源等4領(lǐng)域。表6-3為GB/T21063.4-2007中的政府服務(wù)分類與代碼示例。編碼結(jié)構(gòu)采用線分類表示信息間的層次關(guān)系,采用無含義代碼。第1層用1位數(shù)字代碼,表示4種服務(wù)性質(zhì)之一;第2、3層各采用2位數(shù)字代碼,分別表示業(yè)務(wù)類、服務(wù)細(xì)目等分類。代碼結(jié)構(gòu)如圖6-4示意。6.3.2.4資源形態(tài)分類法此分類按政務(wù)信息資源的不同形態(tài)進(jìn)行。表6-4為GB/T21063.4-2007的政務(wù)資源的形態(tài)分類示例,此分類只反映資源的外在形態(tài)與記載形式,與內(nèi)容無關(guān),主要用于對不同形態(tài)的政務(wù)資源進(jìn)行管理。其代碼結(jié)構(gòu)采用3層5位的線分類,具體如圖6-5所示。建立政務(wù)信息資源目錄體系時,應(yīng)首先采用主題分類、再根據(jù)應(yīng)用情況同時選擇其他3種分類,且這些分類均應(yīng)與主題分類建立映射,既保證系統(tǒng)的完備性、可管理性,又能為用戶提供多種檢索途徑。其中,資源形態(tài)分類與內(nèi)容無關(guān),不需建立內(nèi)容映射。但任何信息都必須以一定的形態(tài)表現(xiàn),故描述具體政務(wù)資源時,應(yīng)引用表6-4來說明其資源形態(tài)。6.3.3面向資源共享的政務(wù)信息分類體系面向多機(jī)構(gòu)、跨系統(tǒng)信息資源共享的分類體系,是深化政務(wù)資源服務(wù)的基礎(chǔ)。由于共享資源的內(nèi)容與屬性不同,就使分類具有了多樣性與復(fù)合性,可按資源屬性、層級屬性、共享屬性和涉密屬性等進(jìn)行4面分類。6.3.3.1資源屬性分類
資源屬性按基礎(chǔ)類、主題類、開放類與需求類劃分如下。(1)基礎(chǔ)信息資源目錄(2)主題信息資源目錄(3)部門信息資源目錄(4)信息資源開放目錄(5)信息資源需求目錄6.3.3.2層級屬性分類
從國家級開始逐級向下的分層分類,具體如下。(1)國家政務(wù)信息資源目錄(2)國家部委政務(wù)信息資源目錄(3)省級政務(wù)信息資源目錄(4)部門政務(wù)信息資源目錄6.3.3.3共享屬性分類
政務(wù)信息資源類型分為無條件共享、有條件共享、不予共享等3種。6.3.3.4涉密屬性分類政務(wù)信息資源目錄按涉密屬性,分為涉密和非涉密政務(wù)信息資源目錄。涉密政務(wù)信息資源目錄和非涉密政務(wù)信息資源目錄的梳理、編制、管理、應(yīng)用等,應(yīng)分別依托國家數(shù)據(jù)共享交換平臺(政務(wù)內(nèi)網(wǎng))、國家數(shù)據(jù)共享交換平臺(政務(wù)外網(wǎng))開展。涉密政務(wù)信息資源目錄和非涉密政務(wù)信息資源目錄,均有相應(yīng)的資源屬性分類、元數(shù)據(jù)、目錄代碼等要求,應(yīng)予分別編制。6.4共享政務(wù)信息資源分類體系為確保各地各級各領(lǐng)域的電子政務(wù)系統(tǒng)能資源共享與交換,必須構(gòu)建統(tǒng)一的政府信息資源分類體系。6.4.1共享政務(wù)信息資源分類體系架構(gòu)1)分類結(jié)構(gòu)圖6-7體系架構(gòu)是從全國出發(fā),宏觀統(tǒng)一了政務(wù)資源的分類與編碼結(jié)構(gòu),實(shí)現(xiàn)對共享的支持,又允許各類機(jī)構(gòu)按需在其基礎(chǔ)上擴(kuò)展或剪裁,將其私有分類體系與之映射。編碼結(jié)構(gòu)圖6-7對應(yīng)的編碼體系如與圖6-8所示。從中可看出,共享政務(wù)信息分類體系只對“類”、“項”、“目”3級分類給出的定長碼位,也就限定了各級的對象容量,第4級“細(xì)目”采用不定長結(jié)構(gòu),具有無限容量。編碼體系在宏觀、中觀與微觀層面分類與代碼的統(tǒng)一,支持此3層以上的資源共享與交換,同時對細(xì)目放開,允許各機(jī)構(gòu)或應(yīng)用自行對細(xì)目對象分類與編碼,從而使整個體系具有較大的靈活性與實(shí)用性。圖6-8中分隔符“/”以后是不定長碼段,可標(biāo)識細(xì)目下無限量的具體信息資源。6.4.2分類層級與結(jié)構(gòu)6.4.2.1“類”與“項”圖6-7的根節(jié)點(diǎn)“政務(wù)信息資源目錄”下,一級設(shè)有基礎(chǔ)、主題和部門3個“類”,具體內(nèi)容在二級“項”下初步展開如下。1)基礎(chǔ)信息資源類是為構(gòu)建政務(wù)應(yīng)用提供基礎(chǔ)信息的資源層。主要包括:人口基礎(chǔ)信息、法人單位基礎(chǔ)信息、其他組織基礎(chǔ)信息、自然資源和空間地理基礎(chǔ)信息、宏觀經(jīng)濟(jì)數(shù)據(jù)基礎(chǔ)信息、法律法規(guī)基礎(chǔ)信息、文化基礎(chǔ)信息、金融基礎(chǔ)信息、信用基礎(chǔ)信息、統(tǒng)計基礎(chǔ)信息、科技基礎(chǔ)信息、電子證照基礎(chǔ)信息,等等。2)主題信息資源類主題分類將政務(wù)服務(wù)從頂層分為全民健康保障、全民住房保障、全民社會保障、藥品安全監(jiān)管、食品安全監(jiān)管、安全生產(chǎn)監(jiān)督、市場價格監(jiān)管、金融監(jiān)管、能源安全保障、信用體系建設(shè)、生態(tài)環(huán)境保護(hù)、應(yīng)急維穩(wěn)保障、行政執(zhí)法監(jiān)督、民主法治建設(shè)、執(zhí)政能力建設(shè)、投資審批等主題。主題分類按政務(wù)活動與對象的本質(zhì)屬性分類,不是按機(jī)構(gòu)設(shè)置分類。因?yàn)檎畵Q屆時可能對政府部門設(shè)置進(jìn)行調(diào)整,故機(jī)構(gòu)分類的穩(wěn)定性較;其次,同一業(yè)務(wù)會有多個機(jī)構(gòu)行使相關(guān)職能,如食品藥品衛(wèi)生與安全監(jiān)管,就涉及工商、質(zhì)監(jiān)、衛(wèi)生防疫、海關(guān)等一系列部門,將其劃歸任一部門都不妥當(dāng),只有按主題職能進(jìn)行分類,各相關(guān)機(jī)構(gòu)與之建立映射。部門信息資源類部門信息資源對從中央到地方的各級職能機(jī)構(gòu)進(jìn)行分類,用于識別政務(wù)資源中各類信息“源”和“宿”,以及中間各參與單位等。由于不同政府機(jī)構(gòu)行使不同的行政職能,所以這一分類就具有行業(yè)分類特征,如金融管理、稅務(wù)管理、財政管理、醫(yī)療衛(wèi)生管理、經(jīng)濟(jì)貿(mào)易、公共安全、國民教育、社會保障、國家安全、外交、國防等等。6.4.2.2“目”、“細(xì)目”與后段碼“項”以下分類為“目”,如圖6-6中“法人單位信息資源庫”項下就分為“行政”、“事業(yè)”、“企業(yè)”等法人單位之“目”。對其再進(jìn)一步的劃分就用“細(xì)目”,如行政類法人單位信息資源下的內(nèi)部管理,就有公文管理、人事管理、辦公管理、財務(wù)管理、土地管理、項目管理、房屋管理、資產(chǎn)管理、采購管理、車輛管理等。“細(xì)目”是對“目”的擴(kuò)展,其不定長代碼中允許使用者視需求可再分類或不分類。如公文管理對象為:決定、通知、報告、請示、批復(fù)、意見、函、會議紀(jì)要等9種主要形式;行政公文有:命令、公告、通知、方案議案4種;常務(wù)行政公文有:決議、指示、公報、條例、規(guī)定等5種。這些分類只能在細(xì)目中按行業(yè)標(biāo)準(zhǔn)或規(guī)范再度分類,納入體系中。細(xì)目后為圖6-8中分隔符后的后段碼,因細(xì)目代碼不定長,故后段碼可視為細(xì)目內(nèi)的一種邏輯劃分。后段碼中也可進(jìn)一步分類,或直接采用流水號,對對象作順序編碼,如機(jī)關(guān)公文就可按上述各種文件成文順序編排發(fā)布。6.4.3主題分類GB/T21063.4-2007《政務(wù)信息資源目錄體系第4部分:政務(wù)信息資源分類》要求以主題分類為主體,其他形式的分類均要與主題分類建立映射,故主題分類為基礎(chǔ)分類。6.4.3.1GB/T21063.4的主題分類GB/T21063.4-2007《政務(wù)信息資源目錄體系第4部分:政務(wù)信息資源分類》給出了電子政務(wù)主題分類,表7-5是其中“經(jīng)濟(jì)管理”的部分主題內(nèi)容示例。代碼名稱描述說明………………ZB經(jīng)濟(jì)管理關(guān)于經(jīng)濟(jì)的管理、規(guī)劃、發(fā)展概況ZBA00經(jīng)濟(jì)管理綜合類ZBB00經(jīng)濟(jì)發(fā)展計劃關(guān)于經(jīng)濟(jì)的宏觀發(fā)展規(guī)劃ZBC00經(jīng)濟(jì)管理關(guān)于經(jīng)濟(jì)的宏觀管理現(xiàn)狀ZBD00經(jīng)濟(jì)體制改革關(guān)于經(jīng)濟(jì)體制改革的管理和規(guī)劃、發(fā)展情況ZBE00經(jīng)貿(mào)管理關(guān)于經(jīng)濟(jì)貿(mào)易的宏觀管理和發(fā)展調(diào)查報告、統(tǒng)計資料ZBF00統(tǒng)計關(guān)于統(tǒng)計工作的管理和發(fā)展情況ZBG00物價關(guān)于物價的管理和調(diào)查報告、統(tǒng)計資料,以及物價體系規(guī)劃ZBH00工商關(guān)于市場監(jiān)督管理和維護(hù)公平競爭的市場秩序………………1)代碼結(jié)構(gòu)第一列類目代碼的編制規(guī)則從右至左含義如下:(1)分類類別用1位大寫羅馬字符表示,“Z”代表主題分類,其它分類還有行業(yè)分類(H)、部門分類(B)、服務(wù)分類(F)和資源形態(tài)(X)分類等,以不同字母表示。(2)一級類用1位大寫羅馬字符表示,如“A”代表“綜合政務(wù)”、“B”代表“經(jīng)濟(jì)管理”等。本級代碼采用除字符“I、O”以外的字母,代碼容量為24。(3)二級類用1位大寫羅馬字符及2位阿拉伯字符表示,如表中“ZBD00”代表“主題分類、經(jīng)濟(jì)管理一級類、經(jīng)濟(jì)體制改革二級類”。2)主題目錄代碼對應(yīng)的主題名稱與描述,是定義某個政務(wù)信息資源特征的一組信息。這些主題詞既代表了政務(wù)領(lǐng)域的公共資源核心元數(shù)據(jù),又是系統(tǒng)交換時的核心元數(shù)據(jù),通過它們間的對照可實(shí)現(xiàn)其類目下的資源交換。本表只給出“名稱”和“描述說明”,而規(guī)范的元數(shù)據(jù)描述應(yīng)包括:對象定義、英文名稱、數(shù)據(jù)類型、值域、短名、注解等。顯然,本標(biāo)準(zhǔn)僅提供最簡單、必要元數(shù)據(jù)描述框架,給各類應(yīng)用系統(tǒng)的開發(fā)留下擴(kuò)展空間。6.4.3.2GB/T21063.4-2007的主題擴(kuò)展分類顯然,表6-5的主題分類過于粗放,與面向事務(wù)的應(yīng)用需求還有頗大距離,故實(shí)用中還要進(jìn)行拓展。拓展既包括對原標(biāo)準(zhǔn)的類目進(jìn)行擴(kuò)充與細(xì)化,也包括對元數(shù)據(jù)描述字段的擴(kuò)充。拓展的依據(jù),仍應(yīng)采用國際與國家相關(guān)的標(biāo)準(zhǔn),以及如聯(lián)合國、世界銀行等權(quán)威機(jī)構(gòu)實(shí)際使用的目錄體系及架構(gòu)模型、一些國際知名的專業(yè)機(jī)構(gòu)的成熟的分類體系等,這些分類目錄已成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)。1)“經(jīng)濟(jì)管理”類目擴(kuò)展架構(gòu)模型如表6-6,GB/T21063.4-2007對“經(jīng)濟(jì)管理”的描述是“關(guān)于經(jīng)濟(jì)的管理、規(guī)劃、發(fā)展概況”,這是個龐大而籠統(tǒng)的定義,實(shí)用中應(yīng)進(jìn)行擴(kuò)展。此處參照世界銀行知識管理系統(tǒng)中“宏觀經(jīng)濟(jì)與經(jīng)濟(jì)管理”子系統(tǒng)進(jìn)行擴(kuò)充。主題擴(kuò)展要先建立擴(kuò)展分類模型,“經(jīng)濟(jì)管理”的擴(kuò)展模型如圖6-9所示。2)類目擴(kuò)展原則無論此處的初級擴(kuò)展,還是后續(xù)的多級拓展,都應(yīng)遵循以下原則。系統(tǒng)性科學(xué)性完整性規(guī)范性實(shí)用性可擴(kuò)展性3)拓展類目與編碼依據(jù)圖6-9模型,采用GB/T21063.4-2007體系結(jié)構(gòu),參照引進(jìn)世界銀行體系對“經(jīng)濟(jì)管理”分類拓展的結(jié)果如表6-6所示。代碼二級類目名稱(中文)二級類目名稱(英文)描述和說明ZBC01市場與商貿(mào)Markets&Commerce600ZBC02消費(fèi)Consumption280ZBC03經(jīng)濟(jì)理論與研究EconomicTheory&Research650ZBC04財政與貨幣政策Fiscal&MonetaryPolicy1302ZBC05政治經(jīng)濟(jì)PoliticalEconomy39ZBC06經(jīng)濟(jì)狀況EconomicConditions311ZBC07經(jīng)濟(jì)體系EconomicSystems180ZBC08收入Income140ZBC09區(qū)域經(jīng)濟(jì)SubnationalRegionalEconomics98ZBC10稅收與補(bǔ)貼Taxation&Subsidies534ZBC11投資Investments1376ZBC12日用商品Commodities134ZBC13經(jīng)濟(jì)行業(yè)調(diào)整EconomicSectorAdjustment83ZBC14信貸調(diào)控AdjustmentLending747ZBC15援助效力AidEffectiveness392ZBC16投資、儲蓄與增長EconomicGrowth,Investment&Savings95ZBC17國家戰(zhàn)略與實(shí)施CountryStrategy&Performance355ZBC18…………各類下級詞目數(shù)表6-6中代碼按順序規(guī)則從“ZBC00”起直接延續(xù)。在與用戶系統(tǒng)資源對接時,可通過代碼對照表建立映射。第4列“描述和說明”中的數(shù)字代表該類目下目前已擴(kuò)展的3級詞條數(shù),可看出,世界銀行運(yùn)行的“經(jīng)濟(jì)管理”是一個龐大而縝密的分類目錄體系。4)類目的二級拓展與編目對專業(yè)應(yīng)用,表6-6的分類仍嫌粗放。電子政務(wù)對經(jīng)濟(jì)監(jiān)測和管理朝科學(xué)化、精細(xì)化發(fā)展,分類管理也越來越精細(xì),往往需要再度拓展。以表6-6中“ZBC06經(jīng)濟(jì)狀況”為例,其3級類目收錄了311個詞目,部分拓展實(shí)例如表6-7所示。代碼三級類目名稱(中文)三級類目名稱(英文)ZBC06001經(jīng)濟(jì)狀況EconomicconditionsZBC06002邊際收入MarginalrevenueZBC06003財富WealthZBC06004財富分配WealthdistributionZBC06005財政鴻溝FiscalgapZBC06006財政壓力FiscalpressuresZBC06007成長率GrowthrateZBC06008城市經(jīng)濟(jì)功能EconomicfunctionsofcitiesZBC06009遲滯StagnationZBC06010遲滯經(jīng)濟(jì)學(xué)StagnationeconomicsZBC06011出口引導(dǎo)經(jīng)濟(jì)增長ExportleadeconomicgrowthZBC06012地下經(jīng)濟(jì)UndergroundeconomiesZBC06015發(fā)展障礙ObstaclestodevelopmentZBC06016發(fā)展中國家DevelopingcountriesZBC06017發(fā)展中地區(qū)DevelopingareasZBC06020國際經(jīng)濟(jì)InternationaleconomyZBC06194住屋開支HousingexpendituresZBC06195…………表6-7中“代碼”的前3位仍按GB/T21063.4-2007結(jié)構(gòu)編制,低位可采用定長或不定長位碼向右拓展,原則是保證其中的前5位代碼不被“脹破”?!癦BC06經(jīng)濟(jì)狀況”有300多詞目,故增加3位碼就可。以上只是示例性的分類擴(kuò)展,在下一道工序的資源編目中,還需要增加一批數(shù)據(jù)項如詞條定義、內(nèi)容描述、位屬標(biāo)識、名詞來源、版本與日期等說明性與管理性字段。6.4.4其他主題政務(wù)分類標(biāo)準(zhǔn)1)聯(lián)合國系列標(biāo)準(zhǔn)針對GB/T21063.4-2007,還有一些權(quán)威機(jī)構(gòu)的主題分類標(biāo)準(zhǔn)可參照采用,如聯(lián)合國統(tǒng)計分類署(UNSD)制定的,在各國政務(wù)系統(tǒng)中廣泛采用的一套綜合性管理、統(tǒng)計與信息交換UNSD標(biāo)準(zhǔn)。這套標(biāo)準(zhǔn)有COFOG、COICOP、COPNI和COPP共4件,既可用于政府機(jī)構(gòu)之間、政府對公眾、政府對企業(yè)與社會機(jī)構(gòu)之間的業(yè)務(wù)往來,又在分類結(jié)構(gòu)和編碼上一致,彼此兼容的成熟分類標(biāo)準(zhǔn)。聯(lián)合國制定UBSD分類標(biāo)準(zhǔn)的初衷,是對聯(lián)合國系統(tǒng)內(nèi)部及與各國往來的業(yè)務(wù)進(jìn)行管理和統(tǒng)計分析。冷戰(zhàn)結(jié)束后,促進(jìn)經(jīng)濟(jì)、發(fā)展貿(mào)易、推進(jìn)產(chǎn)業(yè)和招商引資等已成各國政務(wù)的主題,這套以經(jīng)濟(jì)、行政、社會管理、文化促進(jìn)、環(huán)境保護(hù)、人類和自然遺產(chǎn)保護(hù)、教育援助等為主導(dǎo)內(nèi)容的分類系統(tǒng)就非常適于作為各國政府的電子政務(wù)資源分類架構(gòu)。這4套標(biāo)準(zhǔn)分別是:(1)政府職能分類體系(ClassificationoftheFunctionsofGovernment,COFOG)。(2)個體消費(fèi)目的分類體系(ClassificationofIndividualConsumptionAccordingtoPurpose,COICOP)。(3)非營利機(jī)構(gòu)家庭服務(wù)項目分類體系(ClassificationofthePurposesofNon-ProfitInstitutionsServingHouseholds,COPNI)。(4)生產(chǎn)經(jīng)營開支項分類體系(ClassificationoftheOutlaysofProducersAccordingtoPurpose,COPP)。這4套分類體系不僅能實(shí)現(xiàn)電子政務(wù)系統(tǒng)的一致與兼容,還解決了其與電子商務(wù)系統(tǒng)的兼容問題,也解決了政府的公共行政、公共管理與公共服務(wù)信息資源的共享問題。此套系統(tǒng)與聯(lián)合國的其他信息分類體系兼容,所以能保證其建立的政務(wù)系統(tǒng)具有實(shí)用性和穩(wěn)定性。2)聯(lián)合國《政府職能分類(COFOG)》標(biāo)準(zhǔn)聯(lián)合國的《政府職能分類(COFOG)》體系,是在考慮各國政府最普遍、最一般的行政職能基礎(chǔ)上,制訂出的適用性最廣的政府職能標(biāo)準(zhǔn)。(1)標(biāo)準(zhǔn)結(jié)構(gòu)COFOG目錄體系采用分層代碼結(jié)構(gòu),3層如下。層級1——主題類(2位數(shù))。層級2——分組類(3位數(shù))。層級3——細(xì)目類(4位數(shù))。由于層級上可再分且總代碼不定長,就使其結(jié)構(gòu)上能無限擴(kuò)展,直至滿足中最基層、最細(xì)致的業(yè)務(wù)項描述。所以,這4套標(biāo)準(zhǔn)的擴(kuò)展空間無限、故能支持的資源內(nèi)容也無限。(2)分類本體結(jié)構(gòu)
聯(lián)合國在綜合各國政府的基本職能基礎(chǔ)上,本著分類實(shí)用與寬窄適度的原則,將政府的最一般職能分為10個大類,分別為“公共服務(wù),國防,公共事務(wù)與安全,經(jīng)濟(jì),環(huán)境保護(hù),醫(yī)療保健,娛樂、文化和宗教,教育和社會保護(hù)”。這10大類為政府職能的一級目錄,再設(shè)立2級、3級目錄等。1級目錄下有2級分類,示例如下:01——公共服務(wù)。01.1——行政與立法機(jī)構(gòu),財政和金融,外交。01.2——外國經(jīng)濟(jì)幫助。01.3——一般公共服務(wù)。01.4——基礎(chǔ)研究。01.5——綜合公共服務(wù)研發(fā)。
……
以上是1、2級類目示例,往下為3級類目,示例為:01.1.1——行政和立法機(jī)構(gòu)(CS)。01.1.2——財政與金融(CS)。01.1.3——外交(CS)?!?/p>
COFOG分類體系的特點(diǎn),是其采用了一般編碼系統(tǒng)中較少使用的后綴碼,來區(qū)分同一描述對象所在的不同場合。例如:“06.2社區(qū)發(fā)展”和“06.2.0社區(qū)發(fā)展(CS)”,以及“10.4家庭和兒童”和“10.4.0家庭和兒童(IS)”,就有不加第3位代碼“0”描述對象名稱后加后綴碼(CS)與(IS)等3種形態(tài)。區(qū)別是:不加“0”與后綴碼者為一般意義的描述對象,通常表示類;加后綴碼(CS)表示“集體服務(wù)”項目,(IS)表示“個體服務(wù)”項目,由此可識別同一對象在G2G、G2P、G2B與G2C的應(yīng)用場景。6.5信息資源的自動分類6.5.1信息資源自動分類概述大數(shù)據(jù)環(huán)境下,電子政務(wù)領(lǐng)域知識龐大、結(jié)構(gòu)復(fù)雜,傳統(tǒng)分類方式在內(nèi)容范圍、動態(tài)服務(wù)的靈活性和方便性等方面,已不能滿足政務(wù)應(yīng)用創(chuàng)新和所涉領(lǐng)域迅速擴(kuò)展的需求。且實(shí)際上,按圖6-8結(jié)構(gòu)的基本分類編碼已近30位,擴(kuò)展編碼更可能多至50余位,已接近人工識別與分類編目的極限,將給政務(wù)資源應(yīng)用帶來日益增加的困難。以下為傳統(tǒng)分類方式在信息爆炸時代面臨的挑戰(zhàn)。1)分類體系的限制傳統(tǒng)分類強(qiáng)調(diào)分類體系的穩(wěn)定性和類目的單一性,而實(shí)際使用中要面臨全社會中新現(xiàn)象、新知識、新表述的不斷出現(xiàn),導(dǎo)致分類的多元性和動態(tài)性。如:傳統(tǒng)分類中,對象基本以一種分類歸屬為主,且不允許經(jīng)常性類目變動。但在快速發(fā)展的社會及其變革中,同一概念分屬多個政務(wù)類目已是常見情況。如“艾滋病”按科學(xué)分類屬于傳染病學(xué)科,而在公共行政領(lǐng)域,它同時從屬于衛(wèi)生防疫、公共安全、社會教育、倫理道德、貧困扶持、民政安置、公益宣傳、科普教育等領(lǐng)域,單一分類顯然不能滿足政務(wù)應(yīng)用之需。2)對象顆粒度傳統(tǒng)分類對象的“顆粒度”較粗,而政務(wù)應(yīng)用涉及的對象顆粒度越來越細(xì)。如傳統(tǒng)分類對象可能是一冊圖書,一份文件或一段視頻;知識管理對象則要求細(xì)化到文章中的各種概念、主題詞、數(shù)字、與視頻段對應(yīng)幀的一句解說語、一個關(guān)鍵詞等。3)分類方法傳統(tǒng)分類采用矩陣法,而知識描述采用矢量法。如一份文件、圖書館資料等多以線分類、面分類法等二維表格來描述其外在特征;但文獻(xiàn)內(nèi)容中的數(shù)據(jù)、概念、主題等的描述可形成一組特征矢量,再將所有資源的概念組成矢量集,將一批文獻(xiàn)看作多維資源空間中的概念集,映射到不同資源類中,實(shí)現(xiàn)對知識的多角度關(guān)聯(lián)與展示,大數(shù)據(jù)統(tǒng)計與動態(tài)分析等。4)分類體系適應(yīng)性傳統(tǒng)分類體系結(jié)構(gòu)是剛性的,一旦制訂就難隨意增刪減改,更不能隨意改變其層級架構(gòu)。信息爆炸導(dǎo)致一些綱目下的內(nèi)容急劇膨脹另一些則不斷萎縮;社會急劇變革,對剛性分類體系架構(gòu)形成沖擊;各種新知識新業(yè)態(tài)的產(chǎn)生與突破,一再打破既定的政務(wù)知識結(jié)構(gòu),產(chǎn)生各種新概念、新知識領(lǐng)域與關(guān)系空間,以及對原來概念的重新理解。反映到分類體系上,就會產(chǎn)生新類目、新層級、新體系等。6.5.2自動分類技術(shù)的需求背景信息爆炸也導(dǎo)致了信息的雜亂與冗余,少量有用信息稀釋在大量雜亂、重復(fù)與低質(zhì)頁面中。人們對具有實(shí)用價值、能提升資源檢索與呈現(xiàn)效率的自動分類技術(shù)產(chǎn)生了強(qiáng)烈的需求。同時,非結(jié)構(gòu)化信息的爆炸性增長帶來巨大挑戰(zhàn),傳統(tǒng)分類需要耗費(fèi)大量人力從事元數(shù)據(jù)標(biāo)記、創(chuàng)建分類、定義詞組與概念,以及按分類原則劃歸等工作,但已難以應(yīng)對這些問題。自動分類是指系統(tǒng)按特定算法對信息資源進(jìn)行自動采集、整理與歸類的技術(shù),它將關(guān)鍵詞搜索、知識管理與目錄組織等技術(shù)結(jié)合,提高用戶在海量資源環(huán)境下對所需信息的高速搜集與呈現(xiàn),根據(jù)不同用戶的使用習(xí)慣進(jìn)行個性化搜索與組織。自動分類源于“網(wǎng)絡(luò)蜘蛛”一類信息資源探測器,它能自動監(jiān)測其跟蹤的信息源中的內(nèi)容變化,進(jìn)行動態(tài)采集與分類,代表了網(wǎng)絡(luò)時代應(yīng)對海量資源的信息組織與呈現(xiàn)技術(shù)變革。6.5.3自動分類算法簡介6.5.3.1自動分類的處理流程自動分類的處理流程如圖6-10所示。
圖中左上側(cè)為待定義類別名稱C1、C2、C3…Cn,取S1、S2、S3…Sn為分類訓(xùn)練樣本,計算機(jī)通過對分類資源的內(nèi)容特征進(jìn)行處理、與樣本資源作比對與學(xué)習(xí),產(chǎn)生分類特征序列,將對應(yīng)資源通過特定算法在分類器中進(jìn)行自動劃分并呈現(xiàn)結(jié)果。6.5.3.2自動分類的幾種算法
算法是自動分類的核心,常用的有KNN法、SVM法、VSM法、貝葉斯法等,簡介如下。KNN法(K-NearestNeighbor)
(1)KNN算法簡述
即K最近鄰法,思路簡單直觀:如一個樣本在特征空間中的k個最相似樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于此類別,并具有此類別樣本的特性。KNN算法中,所選擇的鄰居都是已正確分類的對象,故分類決策就只與少量的相鄰樣本有關(guān),即其只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。圖6-11表示圖中心點(diǎn)將被決定歸于何類,是三角形還是四邊形?如K=3,由于三角形占比為2/3,中心點(diǎn)就將被賦予三角形類;如K=5,由于四方形比例為3/5,因此它將被賦予四方形類。2)KNN的算法流程KNN的算法流程如下:準(zhǔn)備數(shù)據(jù),對其預(yù)處理。選用合適的數(shù)據(jù)結(jié)構(gòu)存儲訓(xùn)練數(shù)據(jù)和測試元組。設(shè)定參數(shù),如k。維護(hù)一個大小為k的距離由大到小的優(yōu)先級隊列,存儲最近鄰的訓(xùn)練元組。隨機(jī)從訓(xùn)練元組中選取k個元組作為初始的最近鄰元組,分別計算測試元組到這k個元組的距離,將訓(xùn)練元組標(biāo)號和距離存入優(yōu)先級隊列。遍歷訓(xùn)練元組集,計算當(dāng)前訓(xùn)練元組與測試元組的距離。將所得距離L與優(yōu)先級隊列中的最大距離Lmax比較,若L>=Lmax,則舍棄該元組,遍歷下一個元組。若L<Lmax,刪除優(yōu)先級隊列中最大距離的元組,將當(dāng)前訓(xùn)練元組存入優(yōu)先級隊列。遍歷完畢,計算優(yōu)先級隊列中k個元組的多數(shù)類,并將其作為測試元組的類別。測試元組集測試完畢后計算誤差率,繼續(xù)設(shè)定不同的k值重新進(jìn)行訓(xùn)練,最后取誤差率最小的k值。(3)KNN法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):該法簡單,易理解,易實(shí)現(xiàn),無需估計參數(shù),無需訓(xùn)練;適于對稀有事件分類;適于多分類問題(multi-model,對象具有多個類別標(biāo)簽),KNN比SVM(支持向量機(jī)法)的表現(xiàn)要好。KNN法主要靠周圍有限的鄰近樣本,而非靠判別類域的方法來確定所屬類別的,故對類域的交叉或重疊較多的待分樣本集,以及樣本容量較大的類域,該方法較為適合。KNN法不僅用于分類,還可用于回歸。通過找出一個樣本的k個最近鄰居,將其屬性的平均值賦予該樣本,就可得到其屬性。更好的方法是將不同距離的鄰居對該樣本產(chǎn)生的影響給予不同的權(quán)重值,通過調(diào)節(jié)不同特征的影響力來使分類更精確適用。缺點(diǎn):當(dāng)樣本不平衡時,如一個類的樣本容量大而其他類樣本容量小時,就可能導(dǎo)致當(dāng)輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數(shù),而只計算“最近的”鄰居樣本就會產(chǎn)生偏差甚至錯誤。
另一不足之處是計算量較大,因?yàn)閷γ恳粋€待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點(diǎn)。同時,它的可理解性差,無法給出像決策樹那樣的規(guī)則。(4)改進(jìn)方向
主要從分類效率和分類效果兩方面入手。分類效率:先對樣本屬性作約簡處理,刪除對分類結(jié)果影響小的屬性,快速得出待分類樣本的類別。該算法適于對樣本容量大的類域的自動分類,而樣本容量小的類域則比較容易產(chǎn)生誤分。分類效果:采用權(quán)值法(和該樣本距離小的鄰居權(quán)值大)來改進(jìn),可針對分類做可調(diào)整權(quán)重的k最近鄰居法WAkNN(weightedadjustedk-nearestneighbor),以促進(jìn)分類效果;另一改進(jìn)途徑是提出由不同分類對象的本身數(shù)量的差異,依照訓(xùn)練集合中各種分類的文件數(shù)量,選取不同數(shù)目的最近鄰居,來參與分類。
(5)適用方向KNN法較適用于以下應(yīng)用場合有:(一)模式識別,特別是光學(xué)字符識別(OCR);(二)統(tǒng)計分類;(三)計算機(jī)視覺;(四)基于內(nèi)容的圖像檢索應(yīng)用,如人臉識別;(五)導(dǎo)航系統(tǒng);(六)網(wǎng)絡(luò)營銷;(七)DNA測序;(八)拼寫檢查,推薦正確拼寫;(九)剽竊檢查,等等,使其能在政務(wù)信息資源特征描述與分類領(lǐng)域獲得廣泛應(yīng)用。2)SVM法(SupportVectorMachine)(1)SVM法簡述SVM即支持向量機(jī)法,是一種有監(jiān)督的學(xué)習(xí)模型,用于模式識別、自動分類以及回歸分析,是一種常見判別方法。其思路可簡單地以圖6-12表示。圖6-12左側(cè)劃分兩種不同形狀對象的線不是直線,可視為距離兩類點(diǎn)都有相同距離的許多條直線組成的圖形。支持向量就是離這些分類最近的點(diǎn),通過與對象特征的逐個劃分形成分類空間。如果是高維的點(diǎn),SVM的分界線就是平面或超平面。通過非線性映射p,把樣本空間映射到一個高維乃至無窮維的對象特征空間中,如圖6-12右側(cè)所示。使得在原來樣本空間中非線性可分問題,轉(zhuǎn)化為在特征空間中的線性可分問題。簡言之,就是升維和線性化處理。升維把樣本向高維空間映射,在對象分類、回歸等領(lǐng)域,它將低維樣本空間無法線性處理的樣本集,在高維特征空間中通過一個線性超平面實(shí)現(xiàn)線性劃分。該方法是建立在統(tǒng)計學(xué)習(xí)理論上的機(jī)器學(xué)習(xí)法。通過學(xué)習(xí)算法,SVM可自動尋找出那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造的分類器可以最大化類與類之間的間隔,因而有較好的適應(yīng)能力和較高的分類準(zhǔn)確率。該法對小樣本的自動分類有較好的結(jié)果。(2)SVM的主要思想
它針對線性可分情況進(jìn)行分析,對線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,使高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能。它基于結(jié)構(gòu)風(fēng)險最小化理論,在特征空間中構(gòu)建最優(yōu)超平面,使學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望以某個概率滿足一定上界。(3)SVM的適用領(lǐng)域SVM主要適用于:(一)文本分類(SVM有助于文本和超文本分類,因其程序可顯著減少對標(biāo)準(zhǔn)感應(yīng)和轉(zhuǎn)換設(shè)置中標(biāo)記的訓(xùn)練實(shí)例的需求);(二)圖像分類(實(shí)驗(yàn)表明,支持向量機(jī)的搜索精度要比傳統(tǒng)的查詢優(yōu)化方案高。圖像分割系統(tǒng)也如此,包括使用特定的修改版SVM的系統(tǒng));(三)手寫字符識別;(四)生物識別(SVM法用于對高達(dá)90%正確分類的化合物進(jìn)行蛋白質(zhì)分類。一些專用的解釋SVM模型為識別模型使用特征預(yù)測,在生物科學(xué)中有特殊意義)。(4)SVM的優(yōu)缺點(diǎn)優(yōu)點(diǎn):應(yīng)用范圍較廣且理論較成熟。缺點(diǎn):需要對輸入數(shù)據(jù)進(jìn)行全面標(biāo)注,SVM只適用于兩類任務(wù)。因此,必須應(yīng)用將多類任務(wù)減少到幾個二進(jìn)制問題的算法,對于多類問題分類的效果不好。同時,其求解模型的參數(shù)難以解釋。
(5)改進(jìn)方向
主要向多類SVM分類發(fā)展,旨在通過使用支持向量機(jī)為實(shí)例分配標(biāo)簽,其中標(biāo)簽從有限的幾個元素集中描述,將單個多類問題減少為多個二進(jìn)制分類問題。3)VSM法(VectorSpaceModel)(1)VSM向量空間模型法簡介
基本思想是將文檔內(nèi)容表示為加權(quán)特征向量,即把文本內(nèi)容的處理簡化為詞匯向量空間中的向量運(yùn)算,通過分詞、去除虛詞、抽取、計算詞頻與加權(quán)等處理,建立文本在語義空間中的向量模型,如圖6-13。再通過計算各文檔間內(nèi)容相似度的方法來確定待分樣本的類別。當(dāng)文檔被表示為空間向量模型時,其間的相似度就可借助特征向量間的特征集來表示,故VSM法更適合于專業(yè)文獻(xiàn)的分類。(2)VSM法的特點(diǎn)
此法通過先建立文檔的內(nèi)容空間,再用相似度分析比較其內(nèi)容表達(dá)的相似度,直觀易懂。比較是通過計算向量間的相似性來度量文檔間的相似性,最常用的相似性度量是余弦距離。根據(jù)余弦定理,如三角形的三條邊為a,b和c,對應(yīng)的三個角為A,B和C,則角A的余弦為:cosA=(c2+b2-c2)/2bc如將三角形的兩邊bc看為兩個向量,則上式可表為:分母表示兩向量b和c的長度,分子表示兩向量的積。VSM法的實(shí)例:如文檔X和文檔Y對應(yīng)向量分別是x1、x2、…、x64000和y1、y2、…、y64000,那么它們間夾角的余弦為:在文本相似度計算中,向量中的維度x1、x2、…xn是詞項的權(quán)重,就是詞項特征tf-idf值。
文本相似度計算的處理流程是:對所有文檔進(jìn)行分詞。分詞的同時計算各詞的tf值。所有文檔分詞完畢后果計算idf值。生成每篇文檔對應(yīng)的n維向量(n是切分出的詞數(shù),向量的項是各詞的tf-idf值)。
對文章的向量兩篇兩篇地代入余弦定理公式計算,得到的值就是它們間的相似度。(3)選擇余弦定理的特點(diǎn)
余弦計算為介于0到1的數(shù),如向量一致就是1,正交就是0;符合相似度百分比的特性;余弦為零表示分類詞向量垂直于文檔向量,即兩者內(nèi)容無重合,該文檔不應(yīng)歸入此類目。
詞組向量空間模型是一個應(yīng)用于信息過濾,信息擷取,索引以及評估相關(guān)性的代數(shù)模型。通過此模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù)。檔中的語料被視為索引詞(關(guān)鍵詞)形成的多元向量空間,索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。搜尋時,輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量,這個模型假設(shè),文件和搜尋詞的相關(guān)程度,可以經(jīng)由比較每個文件(向量)和檢索詞(向量)的夾角偏差程度而得知。4)貝葉斯法(1)貝葉斯分類法簡述
貝葉斯分類是一種利用概率統(tǒng)計進(jìn)行自動分類的算法,貝葉斯分類器是在具有模式的完整統(tǒng)計知識條件下,按貝葉斯決策理論設(shè)計的一種最優(yōu)分類器。所謂分類器,是對每一個輸入模式賦予一個類別名稱的邏輯實(shí)體或硬件,貝葉斯分類器是各種分類器中分類錯誤概率最小或在預(yù)定代價的情況下平均風(fēng)險最小的分類器,其設(shè)計法是一種統(tǒng)計分類方法。把代表樣本的特征向量x分到c個類別(ω1,ω2,...,ωc)中,某一類的最基本方法是計算在x的條件下,該模式屬于各類的概率,用符號P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數(shù)值所對應(yīng)的類別ωi就是該模式所屬的類。例如表示某個待查細(xì)胞的特征向量x屬于正常細(xì)胞類的概率是0.2,屬于癌變細(xì)胞類的概率是0.8,就把它歸類為癌變細(xì)胞。這一定義的條件概率也稱為后驗(yàn)概率,在特征向量為一維的情況下,一般有圖6-14中的變化關(guān)系。當(dāng)x=x*時,P(ω1|x)=P(ω2|x),對于x>x*的區(qū)域,由于P(ω2|x)>P(ω1|x),因此x屬ω2類,對于x<x*的區(qū)域,由于P(ω1|x)>P(ω2|x),x屬ω1類,x*就相當(dāng)于區(qū)域的分界點(diǎn)。圖中陰影面積反映了這種方法的錯誤分類概率,對于以任何其他的x值作為區(qū)域分界點(diǎn)的分類方法都對應(yīng)一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤概率的分類器。(2)算法原理
一般情況下,不能直接得到后驗(yàn)概率而是要通過貝葉斯公式進(jìn)行計算。式中P(x│ωi)為在模式屬于ωi類的條件下出現(xiàn)x的概率密度,稱為x的類條件概率密度;P(ωi)為在所識別問題中出現(xiàn)ωi類的概率,又稱先驗(yàn)概率;P(x)是特征向量x的概率密度。分類器在比較后驗(yàn)概率時,對于確定的輸入x,P(x)是常數(shù),因此在實(shí)際應(yīng)用中,通常不是直接用后驗(yàn)概率作為分類器的判決函數(shù)gi(x),而采用下面兩種形式:對所有的c個類計算gi(x)(i=1,2,...,c)與gi(x)中最大值相對應(yīng)的類別就是x的所屬類。(3)樸素貝葉斯算法
樸素貝葉斯(Na?veBayes)分類算法在許多情況下可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用規(guī)范大型數(shù)據(jù)庫,方法簡單、分類準(zhǔn)確率高、速度快。設(shè)每個數(shù)據(jù)樣本用一個n維特征向量來描述n個屬性的值,即:X={x1,x2,…,xn},假定有m個類,分別用C1,C2,…,Cm表示。給定一個未知的數(shù)據(jù)樣本X(即沒有類標(biāo)號),若樸素貝葉斯分類法將未知的樣本X分配給類Ci,則一定是P(Ci|X)>P(Cj|X)1≤j≤m,j≠i根據(jù)貝葉斯定理,由于P(X)對于所有類為常數(shù),最大化后驗(yàn)概率P(Ci|X)可轉(zhuǎn)化為最大化先驗(yàn)概率P(X|Ci)P(Ci)。如果訓(xùn)練數(shù)據(jù)集有許多屬性和元組,計算P(X|Ci)的開銷可能非常大,為此,通常假設(shè)各屬性的取值互相獨(dú)立,這樣:先驗(yàn)概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以從訓(xùn)練數(shù)據(jù)集求得。根據(jù)此方法,對一個未知類別的樣本X,可以先分別計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度安徽公司二零二五氨水集中采購合同3篇
- 2024年版公司股東權(quán)益保障協(xié)議版B版
- 2025年度林地生態(tài)環(huán)境治理合同范本3篇
- 2024年酒店整體出租協(xié)議文本
- 2024年高速鐵路隧道工程合同
- 2024年美甲師雇傭協(xié)議
- 2024年高級木材門購銷協(xié)議XXX一
- 2024年飲用水安全知識普及與工程實(shí)施二零二四年度合同3篇
- 2024年特許經(jīng)營合同與勞動合同3篇
- 2024年采購合同產(chǎn)品質(zhì)量驗(yàn)收及售后服務(wù)協(xié)議
- 2024年二級造價師題庫(鞏固)
- 業(yè)主與物業(yè)公司調(diào)解協(xié)議書
- 師德師風(fēng)防性侵知識講座
- 寫字樓項目風(fēng)險評估報告
- 庫存周轉(zhuǎn)率與庫存周轉(zhuǎn)天數(shù)
- 絕緣子鹽密、灰密試驗(yàn)
- 農(nóng)業(yè)信息感知與傳輸技術(shù)
- 燃?xì)庑孤╊A(yù)警系統(tǒng)設(shè)計
- 腸易激綜合癥
- 設(shè)備采購 投標(biāo)方案(技術(shù)方案)
- 高中數(shù)學(xué) 必修一課件全冊
評論
0/150
提交評論