自標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)設(shè)計初探_第1頁
自標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)設(shè)計初探_第2頁
自標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)設(shè)計初探_第3頁
自標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)設(shè)計初探_第4頁
自標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)設(shè)計初探_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、自標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)設(shè)計初探 王權(quán)、夏艷波、張彥國、田鵬、唐力偉自標(biāo)準(zhǔn)數(shù)據(jù)定義:所謂自標(biāo)準(zhǔn)數(shù)據(jù)=數(shù)據(jù)體+數(shù)據(jù)格式(數(shù)據(jù)體解釋)。自標(biāo)準(zhǔn)數(shù)據(jù)也是標(biāo)準(zhǔn),它是局部自治的標(biāo)準(zhǔn)。其用于描述數(shù)據(jù)的標(biāo)準(zhǔn)定義語言,是遵循自標(biāo)準(zhǔn)數(shù)據(jù)描述定義標(biāo)準(zhǔn)的。在自標(biāo)準(zhǔn)數(shù)據(jù)體系結(jié)構(gòu)中建議包含:ü 數(shù)據(jù)標(biāo)準(zhǔn)定義語言ü 數(shù)據(jù)港口ü 數(shù)據(jù)泵ü 數(shù)據(jù)規(guī)則ü 標(biāo)準(zhǔn)解析引擎ü 數(shù)據(jù)港口組件ü 港口鏈路所謂自標(biāo)準(zhǔn)數(shù)據(jù)體系是指,對自標(biāo)準(zhǔn)數(shù)據(jù)概念的標(biāo)準(zhǔn)模型。自標(biāo)準(zhǔn)數(shù)據(jù)體系實現(xiàn)遵循原則:Ø Open;整個體系結(jié)構(gòu)中,所有數(shù)據(jù)體中數(shù)據(jù)均完全。使得所有數(shù)據(jù)使用者可方便調(diào)用。&

2、#216; 自治;自標(biāo)準(zhǔn)數(shù)據(jù)中,標(biāo)準(zhǔn)是采用自治管理方式。也就是自標(biāo)準(zhǔn)數(shù)據(jù)中,標(biāo)準(zhǔn)是可以進行變更的,標(biāo)準(zhǔn)變更意味數(shù)據(jù)同時按照變更后標(biāo)準(zhǔn)提供,是數(shù)據(jù)提供方對數(shù)據(jù)進行的描述。Ø 簡單標(biāo)準(zhǔn);自標(biāo)準(zhǔn)數(shù)據(jù)遵循簡單原則,數(shù)據(jù)定義過程中,數(shù)據(jù)的標(biāo)準(zhǔn)定義使用簡單標(biāo)注。減少數(shù)據(jù)使用繁瑣度。Ø 集中管理關(guān)鍵;整個體系結(jié)構(gòu)中,僅對各數(shù)據(jù)來源單位的服務(wù)ID信息、自標(biāo)準(zhǔn)數(shù)據(jù)體、數(shù)據(jù)緩存周期、數(shù)據(jù)權(quán)限進行管理。其他數(shù)據(jù)具體業(yè)務(wù)不進行過度干預(yù)。Ø 即插即用;自標(biāo)準(zhǔn)體系中,凡遵守數(shù)據(jù)描述定義語言標(biāo)準(zhǔn)的自標(biāo)準(zhǔn)數(shù)據(jù)所有數(shù)據(jù)供應(yīng)商接入即可使用。即使數(shù)據(jù)提供商對數(shù)據(jù)未進行任何標(biāo)準(zhǔn)定義的私密數(shù)據(jù),由使用者自

3、行解決對應(yīng)數(shù)據(jù)體。Ø 適配;自標(biāo)準(zhǔn)體系中,數(shù)據(jù)港口可提供一定的自標(biāo)準(zhǔn)數(shù)據(jù)適配功能。保障數(shù)據(jù)體標(biāo)準(zhǔn)變更后,可提供部分自動適配功能。使所有數(shù)據(jù)使用者避免由于標(biāo)準(zhǔn)變更產(chǎn)生更大的變更活動。Ø 自發(fā)展;1. 數(shù)據(jù)標(biāo)準(zhǔn)定義語言數(shù)據(jù)標(biāo)準(zhǔn)定義語言是由總體平臺框架定義的對數(shù)據(jù)體進行自描述的語言結(jié)構(gòu)。數(shù)據(jù)標(biāo)準(zhǔn)定義語言應(yīng)能夠盡量對數(shù)據(jù)進行描述,除了因技術(shù)或其他原因計算機無法描述的部分由用戶描述,由用戶描述的部分應(yīng)越少越好??梢钥紤]xml風(fēng)格的描述,通過自定義標(biāo)簽的方式實現(xiàn)。技術(shù)來說這樣的標(biāo)簽數(shù)量上不應(yīng)超過20個。這方面非常期望能參考袁滿老師的意見。其中必須包括廣義元數(shù)據(jù)定義:名稱(Title)標(biāo)

4、識:Title定義:分配給資源的名稱。解釋:使資源為眾所周知的有代表性的正規(guī)名稱。創(chuàng)作、制作者(Creator)標(biāo)識:Creator定義:制作資源內(nèi)容的主要責(zé)任實體。解釋:創(chuàng)作、制作者包括個人、組織或機構(gòu)。應(yīng)該是用于標(biāo)識創(chuàng)作、制作者實體的具有代表性的名稱。主題及關(guān)鍵詞(Subject and Keywords)標(biāo)識:Subject定義:資源內(nèi)容的主題。解釋:用以描述資源主要內(nèi)容的關(guān)鍵詞語或分類號碼表示的有代表性的主題詞。說明(Description)標(biāo)識:Description定義:有關(guān)資源內(nèi)容的說明。解釋:該說明可以包括但并不限于:摘要,內(nèi)容目次,內(nèi)容圖示或內(nèi)容的文字說明。出版者(Publi

5、sher)標(biāo)識:Publisher定義:制作資源有重要作用的責(zé)任實體。解釋:如包括個人、組織或機構(gòu)的出版者。應(yīng)是用于標(biāo)識出版者實體的有代表性的名稱。發(fā)行者(Contributor)標(biāo)識:Contributor定義:對資源內(nèi)容負有發(fā)行責(zé)任的實體。解釋:發(fā)行者包括個人、組織或機構(gòu)。應(yīng)是用于標(biāo)識發(fā)行者實體的有代表性的名稱。時間(Date)標(biāo)識:Date定義:與資源使用期限相關(guān)的日期、時間。解釋:資源產(chǎn)生或有效使用的日期、時間。類型(Type)標(biāo)識:Type定義:資源內(nèi)容方面的特征或體裁。解釋:類型包括種類、功能、體裁或作品集成級別等描述性術(shù)語。推薦從可控詞表(如Dublin Core TypesDC

6、T1)中選用有關(guān)術(shù)語。對于資源物理或數(shù)字化方面表示,采用"格式"項描述。格式(Format)標(biāo)識:Format定義:資源物理或數(shù)字化的特有表示。解釋:格式可包括媒體類型或資源容量。也可用于限定資源顯示或操作所需的軟件、硬件或其它設(shè)備,如容量包括數(shù)據(jù)所占空間和存在期間。標(biāo)識(Identifier)標(biāo)識:Identifier定義:依據(jù)有關(guān)規(guī)定分配給資源的標(biāo)識性信息。解釋:推薦使用依據(jù)格式化標(biāo)識系統(tǒng)規(guī)定的字符或號碼標(biāo)識資源。如正規(guī)標(biāo)識系統(tǒng)包括統(tǒng)一資源標(biāo)識(URI),統(tǒng)一資源地址(URL)、數(shù)字對象標(biāo)識(DOI)以及國際標(biāo)準(zhǔn)書號(ISBN)、國際標(biāo)準(zhǔn)刊號(ISSN)等。來源(Sou

7、rce)標(biāo)識:Source定義:可獲取現(xiàn)存資源的有關(guān)信息。解釋:可從原資源整體或部分獲得現(xiàn)有資源。建議使用正規(guī)標(biāo)識系統(tǒng)確定的字符或號碼標(biāo)引資源來源信息。語言(Language)標(biāo)識:Language定義:資源知識內(nèi)容使用的語種。解釋:推薦使用由RFC1766定義的語種代碼,它由兩位字符(源自ISO639)組成。隨后可選用兩字符的國家代碼(源自ISO 3166)。如"en"表示英語,"fr"表示法語。相關(guān)資源(Relation)標(biāo)識:Relation定義:對相關(guān)資源的參照。解釋:推薦用依據(jù)正規(guī)標(biāo)識系統(tǒng)確定的字符或號碼標(biāo)引資源參照信息。范圍(Coverage

8、)標(biāo)識:Coverage定義:資源內(nèi)容的領(lǐng)域或范圍。解釋:范圍包括空間定位(地名或地理坐標(biāo)),時代(年代、日期或日期范圍)或權(quán)限范圍。版權(quán)(Rights)標(biāo)識:Rights定義:持有或擁有該資源權(quán)力的信息。解釋:版權(quán)項包括資源版權(quán)管理的說明。2. 數(shù)據(jù)港口數(shù)據(jù)港口是不是數(shù)據(jù)中心,它是物流中心,是用于數(shù)據(jù)交換與流通的,僅存儲少量數(shù)據(jù),它不是資產(chǎn)。數(shù)據(jù)描述定義語言標(biāo)準(zhǔn)、數(shù)據(jù)港口、數(shù)據(jù)泵是總體結(jié)構(gòu)中不可或缺的部分。港口擁有唯一帶解析規(guī)則的港口ID,類似于KKS碼格式。區(qū)別于常用的搜索引擎,自標(biāo)準(zhǔn)的搜索引擎是精確搜索的,供計算機使用的搜索引擎。它能夠主動收集和消化數(shù)據(jù),會適應(yīng)數(shù)據(jù)、數(shù)據(jù)源的產(chǎn)生和消逝。

9、數(shù)據(jù)港口上存放的數(shù)據(jù)不是資產(chǎn)而是流動的數(shù)據(jù),是中間環(huán)節(jié),是信息交換的平臺。數(shù)據(jù)港口的數(shù)據(jù)具有短存儲,非資產(chǎn)的特性。這些數(shù)據(jù)只是為了數(shù)據(jù)交換而短暫存貯在數(shù)據(jù)港口,即使這些數(shù)據(jù)丟失也不會直接影響生產(chǎn)。數(shù)據(jù)港口的數(shù)據(jù)主要包含被供應(yīng)數(shù)據(jù)、數(shù)據(jù)交換、被使用數(shù)據(jù)。數(shù)據(jù)除了其內(nèi)容本身外,最少應(yīng)包含標(biāo)識和名稱,其中標(biāo)識是由數(shù)據(jù)碼頭產(chǎn)生的。標(biāo)識(ID)的生成規(guī)則是數(shù)據(jù)港口核心的算法之一。有句話說數(shù)據(jù)多了就智能,在數(shù)據(jù)港口堆放的數(shù)據(jù)會形成數(shù)據(jù)生態(tài)的基礎(chǔ)。數(shù)據(jù)港口會提供數(shù)據(jù)熱點等服務(wù),提示某些熱區(qū)數(shù)據(jù)具有一致性,需要標(biāo)準(zhǔn)化。這樣整齊堆放的數(shù)據(jù)會被促使逐步形成標(biāo)準(zhǔn),并且這些標(biāo)準(zhǔn)會自我完善和自我改進。數(shù)據(jù)港口中定義包括

10、:Ø 資源管理資源管理可以理解為,所有數(shù)據(jù)供應(yīng)商提供出來的所有內(nèi)容均為資源,資源分類大致包括:n 數(shù)據(jù)管理:當(dāng)前港口存放的數(shù)據(jù)相關(guān)信息的管理設(shè)定。包括數(shù)據(jù)所有特性(例如:版本、數(shù)據(jù)項、發(fā)行者、有效期)等。同時,對供應(yīng)商接入的數(shù)據(jù)登記,并對其數(shù)據(jù)設(shè)定存儲區(qū)域、存儲空間、存儲周期管理、數(shù)據(jù)質(zhì)量審查。n 標(biāo)準(zhǔn)管理n 港口管理n 認證管理n 提供商資源:連接信息、服務(wù)類別、服務(wù)范圍、服務(wù)清單。n 數(shù)據(jù)資源:n 標(biāo)準(zhǔn)資源:已有遵循數(shù)據(jù)描述定義語言標(biāo)準(zhǔn)的反復(fù)使用多次的標(biāo)準(zhǔn)定義清單。n 港口資源:已掛接在本港口上的港口鏈路。用于對多個數(shù)據(jù)港口間進行數(shù)據(jù)交換時適用。n .Ø 資源檢索:對數(shù)

11、據(jù)資源的檢索利用引擎。檢索引擎中至少包括:n 全港口(全文)檢索n 定向資源檢索:定向資源即定向資源類型、以及資源類型的高速檢索。例如:產(chǎn)量指標(biāo)n 數(shù)據(jù)檢索規(guī)則:用于定向資源檢索優(yōu)先級序列排名。排名算法根據(jù)數(shù)據(jù)參數(shù)范圍決定,例如:產(chǎn)量指標(biāo)在特定的語義空間內(nèi),含義差異。小隊跟集團的語義環(huán)境就有差異。檢索系統(tǒng)就來源多個環(huán)節(jié)。Ø 權(quán)限管理:至港口中所有資源的權(quán)限分配管理。權(quán)限分配也是權(quán)限的一部分。Ø 數(shù)據(jù)港口鏈路:港口鏈路用于實現(xiàn)多個數(shù)據(jù)港口之間的數(shù)據(jù)共享與交換。其港口鏈路過程中,均需要交換并登記對方港口的數(shù)據(jù)資源、標(biāo)準(zhǔn)資源列表等信息。Ø 港口管理:提供港口的配套管理功

12、能。Ø 數(shù)據(jù)服務(wù):數(shù)據(jù)港口中所有的存在于數(shù)據(jù)港口中的數(shù)據(jù)對數(shù)據(jù)港口本身是完全開放的(僅有少量數(shù)據(jù)是由數(shù)據(jù)提供商指定了數(shù)據(jù)權(quán)限,為特定的數(shù)據(jù)使用者服務(wù))。數(shù)據(jù)港口將對所有堆放至港口的數(shù)據(jù)進行梳理分析,直接對外提供標(biāo)準(zhǔn)的數(shù)據(jù)訪問服務(wù)。其中數(shù)據(jù)解析由數(shù)據(jù)解析引擎進行。解析后的數(shù)據(jù)可以通過標(biāo)準(zhǔn)的對外數(shù)據(jù)服務(wù)進行提供,例如:webservice、JSON、BSON、JDBC、ODBC、API等。Ø 標(biāo)準(zhǔn)資源服務(wù):標(biāo)準(zhǔn)資源服務(wù)是指,系統(tǒng)中所有存在于港口中的數(shù)據(jù),均可被數(shù)據(jù)港口Ø .還在思考3. 數(shù)據(jù)泵,數(shù)據(jù)泵是所有進出港口的標(biāo)準(zhǔn)活動。數(shù)據(jù)泵分數(shù)據(jù)抽取泵與數(shù)據(jù)推送泵。Ø

13、; 數(shù)據(jù)抽取泵:數(shù)據(jù)抽取泵是提取數(shù)據(jù)的主要活動。數(shù)據(jù)抽取泵中需包括對原數(shù)據(jù)轉(zhuǎn)換的檢索、抽取、清洗、分類活動,同時若原數(shù)據(jù)不滿足自標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn),可選擇數(shù)據(jù)通過SDK將數(shù)據(jù)轉(zhuǎn)換為自標(biāo)準(zhǔn)數(shù)據(jù)。Ø 數(shù)據(jù)推送泵:數(shù)據(jù)推送泵是負責(zé)將數(shù)據(jù)使用者關(guān)注的訂閱數(shù)據(jù)通過推送的方式將數(shù)據(jù)發(fā)送至使用者指定位置。在數(shù)據(jù)由數(shù)據(jù)港口推送不僅僅是單純的運送,還包含數(shù)據(jù)使用者與港口之間的數(shù)據(jù)代理,或者可以理解為商家。數(shù)據(jù)港口是倉庫,而商家需要包含跟使用者進行標(biāo)準(zhǔn)協(xié)商;同時還需要負責(zé)數(shù)據(jù)打包、數(shù)據(jù)裝箱、運送、直至數(shù)據(jù)簽收。4. 數(shù)據(jù)規(guī)則數(shù)據(jù)港口會根據(jù)數(shù)據(jù)的使用頻度和熱度提示該數(shù)據(jù)應(yīng)形成標(biāo)準(zhǔn)或為該數(shù)據(jù)產(chǎn)生標(biāo)準(zhǔn)。數(shù)據(jù)不和具體

14、的人綁定,數(shù)據(jù)與數(shù)據(jù)之間是平等的關(guān)系,沒有層級之分。數(shù)據(jù)在不同的域內(nèi)可能有不同的定義,相同的數(shù)據(jù)可以提供不同的自標(biāo)準(zhǔn)格式。數(shù)據(jù)港口僅存放廣泛公開供域內(nèi)使用和交換的數(shù)據(jù),如果存在私有數(shù)據(jù)需要自行加密。數(shù)據(jù)港口業(yè)提供對數(shù)據(jù)進行同比、環(huán)比等數(shù)據(jù)比對功能。u 在數(shù)據(jù)港口中,所有由數(shù)據(jù)供應(yīng)商提供的數(shù)據(jù)均需要定義其數(shù)據(jù)整理與堆放規(guī)則。整理規(guī)則中可通過定義的整理規(guī)則將供應(yīng)商提供的數(shù)據(jù)進行最大限度的優(yōu)化梳理,對數(shù)據(jù)進行進行清洗、過濾、切片等活動,保障數(shù)據(jù)質(zhì)量。整理規(guī)則不是必須的。u 數(shù)據(jù)堆放規(guī)則是用于對數(shù)據(jù)塊定義其存儲周期、存儲位置、存儲空間優(yōu)化等劃分的具體活動,堆放規(guī)則也不是必須的。港口默認提供數(shù)據(jù)整理與數(shù)

15、據(jù)堆放規(guī)則。5. 標(biāo)準(zhǔn)適配引擎標(biāo)準(zhǔn)適配是用于數(shù)據(jù)供應(yīng)商版本變更或升級時,數(shù)據(jù)調(diào)用者用于版本適配協(xié)的活動。用于解決數(shù)據(jù)提供商與數(shù)據(jù)使用者之間標(biāo)準(zhǔn)差異化。數(shù)據(jù)港口可以對數(shù)據(jù)進行自行封裝,即便不合標(biāo)準(zhǔn)的數(shù)據(jù)也可放在港口上,由港口自行封裝。封裝的數(shù)據(jù)類似于集裝箱,有著最簡單統(tǒng)一的形態(tài)和規(guī)格,并且具備一些最基本的標(biāo)簽數(shù)據(jù)。港口擔(dān)負著數(shù)據(jù)格式版本變遷的向下兼容,數(shù)據(jù)裝箱等任務(wù)。港口還需要清理過期、無用、錯誤的數(shù)據(jù)。從軟件的時效性來看數(shù)據(jù)的主動適配是需要的,但不是緊要的功能。6. 數(shù)據(jù)港口組件數(shù)據(jù)港口組件是指,為應(yīng)對大多數(shù)大型數(shù)據(jù)整合系統(tǒng),數(shù)據(jù)若采用統(tǒng)一接入數(shù)據(jù)港口方式可能存在問題:1. 數(shù)據(jù)吞吐需求量大,

16、小型數(shù)據(jù)港口無法承載,大型數(shù)據(jù)港口建設(shè)浪費資源。2. 系統(tǒng)已基本完善,已構(gòu)建為標(biāo)準(zhǔn)數(shù)據(jù)中心,需要提供大量對外數(shù)據(jù),改造難度高。在上述比較典型系統(tǒng)中,是可獨立構(gòu)建數(shù)據(jù)港口的。所以,數(shù)據(jù)港口因局部拆分為中間件的特性,可提供方便的組件為其他系統(tǒng)集成。就像網(wǎng)卡,只有主板還有空間,插上重啟,即可接入網(wǎng)絡(luò)。7. 港口鏈路港口鏈路是指,數(shù)據(jù)港口中可提供對外數(shù)據(jù)鏈路與其他港口鏈路接口。單個港口的數(shù)據(jù)資源可能在一定范圍內(nèi)是有限的,港口與港口之間應(yīng)具備數(shù)據(jù)聯(lián)通共享的特性,使數(shù)據(jù)提供高效利用。港口鏈路用于對多個數(shù)據(jù)港口間進行數(shù)據(jù)交換時適用。港口與港口間需要對接,就象藍牙。適配成功即可對接,雙方可交換資源、服務(wù)清單等,形成互為代理的特性,組件網(wǎng)狀結(jié)構(gòu)。港口的數(shù)量不會太多,港口之間都是平級關(guān)系,類似于國家之間的關(guān)系,有戰(zhàn)略合作、敵對、友好等關(guān)系。對于有點內(nèi)陸國數(shù)據(jù)港口還能提供港口鏈路為該數(shù)據(jù)提供者提供代理港口。港口鏈路從軟件的時效性來看港口間關(guān)系是需要的,但不是緊要的功能。綜上所述基于自標(biāo)準(zhǔn)的數(shù)據(jù)港口就是為建立開放自由的數(shù)據(jù)生態(tài)環(huán)境,促進數(shù)據(jù)交流與共享。在這樣的數(shù)據(jù)生態(tài)環(huán)境下會加速和促進數(shù)據(jù)標(biāo)準(zhǔn)化的自演變、成型與發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論