多源數(shù)據(jù)融合平臺建設方案_第1頁
多源數(shù)據(jù)融合平臺建設方案_第2頁
多源數(shù)據(jù)融合平臺建設方案_第3頁
多源數(shù)據(jù)融合平臺建設方案_第4頁
多源數(shù)據(jù)融合平臺建設方案_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多源數(shù)據(jù)融合平臺建設方案2019年12月目錄TOC\o"1-2"\h\u28909一、元數(shù)據(jù)管理子系統(tǒng) 3279961.元數(shù)據(jù)管理 3237732.數(shù)據(jù)定義 3288923.元數(shù)據(jù)存儲 467944.元數(shù)據(jù)查詢 412645.元數(shù)據(jù)維護 515726.元數(shù)據(jù)檢查 574937.元數(shù)據(jù)分析 513274二、數(shù)據(jù)采集子系統(tǒng) 660501.采集方式 68662.采集技術 645533.采集功能 827859三、數(shù)據(jù)清洗加工子系統(tǒng) 95986數(shù)據(jù)清洗結構設計 10146861.清洗轉換 10123862.數(shù)據(jù)加工 12119333.數(shù)據(jù)加載 12234354.數(shù)據(jù)校驗 14106445.異常處理 1576656.數(shù)據(jù)標準化 1620129四、數(shù)據(jù)質量管理子系統(tǒng) 16224451.數(shù)據(jù)質量 16240352.數(shù)據(jù)評估 18202613.稽核管理 1930691五、統(tǒng)一調度子系統(tǒng) 20121751.統(tǒng)一調度功能 21154942.調度配置 22237103.調度運行 22160174.調度策略 23195725.調度監(jiān)控 2322597六、數(shù)據(jù)共享交換子系統(tǒng) 24251701.數(shù)據(jù)交換 2445722.數(shù)據(jù)共享 2622430七、數(shù)據(jù)存儲子系統(tǒng) 31一、元數(shù)據(jù)管理子系統(tǒng)1.元數(shù)據(jù)管理元數(shù)據(jù)的范圍包括數(shù)據(jù)結構、數(shù)據(jù)詞典、字段維度、程序映射邏輯、數(shù)據(jù)生命周期等。元數(shù)據(jù)管理包括元數(shù)據(jù)定義、存儲、查詢、維護、檢查和分析應用。2.數(shù)據(jù)定義元數(shù)據(jù)的定義可參考以下步驟:(1)基礎分類信息制定設置基本的分類編碼信息。如主題的分類,層次的分類,表級別分類配置管理。(2)元模型制定根據(jù)管理需要,自定義元模型信息。元模型是指管理數(shù)據(jù)的基本信息模型,配置了表元模型的信息要素,規(guī)范管理要素等。(3)數(shù)據(jù)分層定義歸納分類是認識和理解對一個復雜的對象的最有效的辦法,在對數(shù)據(jù)進行管理我們認為從分層、再分主題對數(shù)據(jù)進行分類是行之有效的方法,制定好數(shù)據(jù)分層分主題,每個表歸屬到層次和主題上。(4)數(shù)據(jù)主題管理根據(jù)數(shù)據(jù)交換共享數(shù)據(jù)目錄為基礎,按照相關業(yè)務,劃分主題并對各主題進行管理。通過分類來約定表數(shù)據(jù)資源的存儲周期;預置多個表資源分類(層次、主題、存儲周期等),分類可動態(tài)擴展,通過分類的表命名規(guī)則,可以快速把表資源歸屬到各個分類下。(5)模型規(guī)范制定制定表的命名規(guī)范,字段的命名規(guī)范。解決各源系統(tǒng)不規(guī)范的命名方式,避免同名不同義,同義不同名的現(xiàn)象。(6)維表管理從各層次、主題,提取出公共維度和維度的統(tǒng)一編碼,以了解系統(tǒng)數(shù)據(jù)的非常關鍵的內容。(7)指標管理從各層次、主題提取基礎的指標,并定義其業(yè)務含義,技術口徑。另外,元數(shù)據(jù)定義主要需實現(xiàn)兩類規(guī)則定義:標準化的命名規(guī)則和統(tǒng)一的擴展規(guī)則。(8)標準化的命名規(guī)則標準化數(shù)據(jù)的名稱、編碼、層級、層的屬性名稱,確保協(xié)調一致,統(tǒng)一管理,解決各源系統(tǒng)不規(guī)范的命名方式,避免同名不同義,同義不同名的現(xiàn)象,解決系統(tǒng)之間數(shù)據(jù)集成的標準,解決跨部門數(shù)據(jù)分析時數(shù)據(jù)一致理解,同時也是溝通IT和業(yè)務的一致理解。(9)提供統(tǒng)一數(shù)據(jù)擴展規(guī)則系統(tǒng)對指標代碼,元數(shù)據(jù),子類等擴展要素的擴展規(guī)則進行統(tǒng)一限定,保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。3.元數(shù)據(jù)存儲元數(shù)據(jù)存儲的信息管理范圍:數(shù)據(jù)源接口、ETL和前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié),并提供對技術元數(shù)據(jù)及業(yè)務元數(shù)據(jù)存儲。(1)業(yè)務元數(shù)據(jù)面向業(yè)務分析人員,是數(shù)據(jù)中心數(shù)據(jù)處理規(guī)則的業(yè)務化描述,主要包括業(yè)務規(guī)則、業(yè)務術語、業(yè)務指標、信息分類等;業(yè)務指標基本屬性包括:指標標識、指標名稱、指標描述、指標數(shù)據(jù)來源、指標業(yè)務口徑、指標統(tǒng)計周期、指標度量單位、指標創(chuàng)建日期、指標最后修訂日期和指標備注等。維度數(shù)據(jù)基本屬性包括:維度標識、維度名稱、維度描述、維度層級數(shù)、維度生效時間和維度失效時間等。(2)技術元數(shù)據(jù)面向運維技術人員,偏重數(shù)據(jù)結構和數(shù)據(jù)處理細節(jié)方面的技術化描述,是用于開發(fā)和維護的基本信息,主要包括源系統(tǒng)接口規(guī)范、數(shù)據(jù)結構的描述以及數(shù)據(jù)處理過程的描述等信息。4.元數(shù)據(jù)查詢元數(shù)據(jù)查詢必須支持對元數(shù)據(jù)庫中的元數(shù)據(jù)基本信息進行查詢與檢索的功能,可查詢數(shù)據(jù)庫表、維表、指標、過程及參與的輸入輸出對象信息,以及其它納入管理的對象基本信息,查詢的信息按處理的層次及業(yè)務主題進行組織,查詢功能返回實體及其所屬的相關信息。提供可視化的界面,實現(xiàn)元數(shù)據(jù)信息的查詢展現(xiàn),支持按照元數(shù)據(jù)的查詢、按指標定義和指標名稱的查詢。查詢的信息內容包括:數(shù)據(jù)字典、數(shù)據(jù)目錄、服務目錄等。提供對歷史信息的查詢,方便維護人員了解具體對象的歷史變更情況。查詢功能包括快速查詢功能和屬性查詢。查詢功能表查詢功能描述快速查詢以關鍵字為核心,通過對元數(shù)據(jù)的關鍵屬性進行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某一元數(shù)據(jù)的詳細信息。屬性查詢指定元數(shù)據(jù)類型、元數(shù)據(jù)屬性,并輸入查詢屬性的值,對該類型元數(shù)據(jù)進行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某元數(shù)據(jù)的詳細信息。5.元數(shù)據(jù)維護隨著本項目的深入,元數(shù)據(jù)是動態(tài)更新的,因此元數(shù)據(jù)的維護需提供對元數(shù)據(jù)的增加、刪除和修改等基本操作。對于元數(shù)據(jù)的增量維護,可以保留歷史版本信息。用戶使用元數(shù)據(jù)基本維護功能,可以統(tǒng)一管理所有系統(tǒng)中的元數(shù)據(jù)。元數(shù)據(jù)的維護操作是原子操作,這些原子操作可通過服務封裝的形式向性能管理系統(tǒng)的其它模塊提供元數(shù)據(jù)維護接口。使用者可基于業(yè)務和管理的層面對業(yè)務、管理需求進行建模,定義元數(shù)據(jù)的屬性;支持Excel批量操作和外部接口導入功能。6.元數(shù)據(jù)檢查數(shù)據(jù)質量檢查機制能及時發(fā)現(xiàn)、報告和處理元數(shù)據(jù)的數(shù)據(jù)質量問題,因此,平臺應提供對元數(shù)據(jù)數(shù)據(jù)質量的檢查手段,在元數(shù)據(jù)上線時,對元數(shù)據(jù)進行稽核檢查,保證元數(shù)據(jù)信息的完整性,合理性。元數(shù)據(jù)檢查應包括SQL解析成功率、表級關系完整率、字段關系完整率等評估指標進行元數(shù)據(jù)質量檢查。7.元數(shù)據(jù)分析當數(shù)據(jù)出現(xiàn)問題時,元數(shù)據(jù)管理能夠通過血緣分析和影響分析,定位數(shù)據(jù)問題產生的路徑,并評估出該問題對平臺其他數(shù)據(jù)或應用的影響。數(shù)據(jù)采集子系統(tǒng)1.采集方式通過多源數(shù)據(jù)采集接口,與其他系統(tǒng)對接,系統(tǒng)提供多種類型的采集手段,以滿足IT系統(tǒng)對數(shù)據(jù)采集現(xiàn)狀的要求,如:采集手段可包括“推”模式、“拉”模式、web上傳模式、直連模式等,如下圖所示:數(shù)據(jù)采集方式示意圖2.采集技術如何快速從業(yè)務系統(tǒng)獲取采集實時數(shù)據(jù),而不能對源業(yè)務系統(tǒng)產生大的性能影響。數(shù)據(jù)共享交換平臺數(shù)據(jù)采集可參考以下關鍵技術:(1)服務接口的數(shù)據(jù)采集服務接口數(shù)據(jù)采集方法原理優(yōu)點缺點基于快照法快照是數(shù)據(jù)庫中存儲對象在某一時刻的即時映像。周期性的提取源數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)快照加載到目標數(shù)據(jù)庫中它不需要依賴于特別的機制,系統(tǒng)資源占用較小,容易管理和操作由于對于快照對象并不區(qū)分具體的變動記錄,而且采用快照集合完全刷新,因此效率較低基于觸發(fā)器法在源數(shù)據(jù)庫為同步對象創(chuàng)建相應的觸發(fā)器,當對同步對象進行修改、插入或刪除等DML命令時,觸發(fā)器被喚醒,將變化傳播到目標數(shù)據(jù)庫極大提高了系統(tǒng)效率使用的系統(tǒng)資源比較多,需要對系統(tǒng)進行改動基于日志法數(shù)據(jù)庫日志作為維護數(shù)據(jù)完整性和數(shù)據(jù)庫恢復的重要工具,其中已經包含了全部成功提交的數(shù)據(jù)庫操作記錄信息。基于日志法就是通過分析數(shù)據(jù)庫日志的這些信息來捕獲復制對象的變化序列?;谌罩痉ú粌H方便,而且也不會占用太多額外的系統(tǒng)資源,對任何類型的復制都適合,不但能提高效率和保證數(shù)據(jù)的完整性,還能在對等式復制時提供詳細的控制信息數(shù)據(jù)庫日志的格式是不公開的,因而不得不基于某一同定的數(shù)據(jù)庫日志分析工具或接口,這給異構數(shù)據(jù)庫復制帶來了問題?;贏PI法在大部分應用程序和數(shù)據(jù)庫之間引入一類中間件,由它提供一系列API(包括ODBC/JDBC驅動程序),這些中間件在完成應用程序對數(shù)據(jù)庫修改的同時,也把復制對象的變化序列記錄下來,從而達到捕獲的目的不需要改變現(xiàn)有的數(shù)據(jù)庫,也不依賴具體的數(shù)據(jù)庫對那些不經過API操作進行的SQL語句而產生的數(shù)據(jù)變化基于影子表法影子表法是在初始化時為復制對象表T

建立一張影子表S,也就是作一份當時的拷貝,以后就可在適當時機通過比較當前T

和S

的內容來獲取凈變化信息能在任何數(shù)據(jù)庫上實現(xiàn)資源開銷比較大基于時間戳法基于表中數(shù)據(jù)的時間戳增量提取變化的內容能在任何數(shù)據(jù)庫上實現(xiàn)依賴于源系統(tǒng)表結構設計(2)FTP文件采集文本文件輸入:處理有列分隔符(限定符、逃逸字符)的文本文件。功能選項豐富、有錯誤處理機制。CSV文件輸入:簡化了文本文件輸入通過NIO、并行、延遲轉換提高性能固定寬度:列固定寬度的文件,不用解析字符串,性能好。(3)Socket消息采集Socket消息采集模塊主要功能:1、Socket客戶端接收流量系統(tǒng)提供的A信令消息保存到本地文件。2、Socket服務端將接收的A信令消息實時傳輸數(shù)據(jù)給下游其他系統(tǒng),同時支持將本地文件轉為消息后轉發(fā)。(4)Sqoop數(shù)據(jù)高速同步采集可采用開源的Sqoop來實現(xiàn)大數(shù)據(jù)平臺和DB2庫、HBASE的高效數(shù)據(jù)同步。共用基礎平臺數(shù)據(jù)分發(fā)的功能。應用場景:可以使用于數(shù)據(jù)抽取,或從數(shù)據(jù)中心同步到其他數(shù)據(jù)庫。3.采集功能(1)離線采集離線采集,即非實時采集;采集可分為“推”模式和“拉”模式兩種。離線采集“推”模式:即,各行政單位定期將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺指定的前置機存儲設備進行存儲,可采用FTP可SFTP等相關方式;平臺負責周轉前置機設備實現(xiàn)數(shù)據(jù)的入庫等相關操作。離線采集“拉”模式:即,各行政單位具備自有IT系統(tǒng)數(shù)據(jù)緩沖前置機的,由數(shù)據(jù)交換共享平臺定期到指定設備進行數(shù)據(jù)采集。(2)實時采集實時采集主要以“推”模為主,即在數(shù)據(jù)交換共享平臺前置設備建立數(shù)據(jù)監(jiān)聽機制,監(jiān)聽各行政單位是否將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺指定的前置機存儲位置,當發(fā)現(xiàn)存儲設備有數(shù)據(jù)產生時,實時地將數(shù)據(jù)采集到數(shù)據(jù)交換共享平臺,用于數(shù)據(jù)的處理工作。(3)WEB服務采集針對各行政單位IT系統(tǒng)無法提供數(shù)據(jù)文件的,通過數(shù)據(jù)交換共享平臺提供WEB采集系統(tǒng),用戶登錄系統(tǒng),可進行數(shù)據(jù)錄入或直接上傳文件數(shù)據(jù)?;赪EB的采集,系統(tǒng)提供自定義表單的功能,以滿足不同行政單位數(shù)據(jù)采集的需要。(4)接口服務采集基于各行政單位IT系統(tǒng)提供的數(shù)據(jù)接口,數(shù)據(jù)交換共享平臺通過調用接口服務,實現(xiàn)數(shù)據(jù)文件的采集。(5)采集異常處理系統(tǒng)提供采集異常處理機制,包括:采集任務中斷、采集數(shù)據(jù)失敗等相關異?,F(xiàn)象時,實現(xiàn)相關的補采機制,或通過告警的方式通知系統(tǒng)用戶;如采集各行政單位數(shù)據(jù)時,系統(tǒng)監(jiān)聽采集任務中斷或網(wǎng)絡中斷等異常故障時,系統(tǒng)可智能觸發(fā)補采機制,若無法補采,可通知系統(tǒng)用戶進行故障檢查,以保障源數(shù)據(jù)采集的可靠性。(6)配置管理配置觸發(fā)采集的方式,如:實時采集、按小時采集、按天采集、按月采集等不同的時間方式。配置各行政單位數(shù)據(jù)采集的存儲位置,以便于安全存放與管理。三、數(shù)據(jù)清洗加工子系統(tǒng)處理采集過來的數(shù)據(jù),實現(xiàn)數(shù)據(jù)的清洗、轉換、加載功能,一方面保障采集的數(shù)據(jù)能正確、完整、規(guī)范地加載到目的地;另一方面,實現(xiàn)數(shù)據(jù)整合過程中的異常處理機制,如:處理傳輸異常、數(shù)據(jù)加載異常、數(shù)據(jù)結構與質量異常等。圖5-42數(shù)據(jù)清洗整體能力結構圖建議采用成熟的ETL工具實現(xiàn)數(shù)據(jù)的清洗整理過程。數(shù)據(jù)清洗結構設計1.清洗轉換數(shù)據(jù)清洗轉換指對前端采集過來的數(shù)據(jù)進行清洗與轉換處理,包括數(shù)據(jù)過濾、數(shù)據(jù)剔重、類型轉換、編碼映射、文件拆分與合并、維度轉換等功能。數(shù)據(jù)清洗轉換的任務主要是進行不一致的數(shù)據(jù)轉換、數(shù)據(jù)粒度的轉換、數(shù)據(jù)去臟和一些轉換規(guī)則的計算。其中不一致轉換過程是數(shù)據(jù)整合的過程,側重于將來源于不同業(yè)務系統(tǒng)的相同類型的數(shù)據(jù)進行統(tǒng)一處理;數(shù)據(jù)粒度轉換需要對數(shù)據(jù)進行統(tǒng)一歸整;轉換規(guī)則計算按照設計的計算歸則對數(shù)據(jù)進行重新計算。系統(tǒng)支持批量清洗和實時清洗,針對批量離線數(shù)據(jù)進行分布式并行清洗轉換,針對實時數(shù)據(jù)進行不落地清洗轉換。(1)轉換規(guī)則配置數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)轉換規(guī)則配置,以圖形化的界面來實現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置,主要提供的數(shù)據(jù)轉換規(guī)則設置包括:對數(shù)據(jù)進行計算、合并、拆分的規(guī)則配置、對空值替換規(guī)則的配置、對數(shù)據(jù)格式化規(guī)則的配置等。(2)處理過程記錄數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)處理過程記錄功能,支持對數(shù)據(jù)處理過程的日志進行記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉換后數(shù)據(jù)記錄、運用的轉換規(guī)則、轉換的時間等內容。(3)數(shù)據(jù)轉換組件數(shù)據(jù)清洗系統(tǒng)提供豐富的數(shù)據(jù)轉換處理組件,主要包含如下:1)支持任意合理的數(shù)據(jù)格式轉換,包括但不限于:時間類型的轉換、字符編碼轉換、數(shù)據(jù)類型轉換;2)支持統(tǒng)一編碼映射,為了保障數(shù)據(jù)的一致性,需要對不同來源的數(shù)據(jù)進行統(tǒng)一的編碼,如公民唯一標識,各種緯度參數(shù)等。3)支持多字段的混合運算,運算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg等;4)支持各種字符操作,包括但不限于:字符替換、字符截取、字符連接;5)支持數(shù)據(jù)粒度的轉換,保證轉換后的誤差在規(guī)定的范圍內;6)支持數(shù)據(jù)格式化,包括時間、數(shù)值、字符、計量單位等數(shù)據(jù);7)支持復雜條件過濾,過濾條件可靈活配置;8)支持數(shù)據(jù)去重處理,可按照用戶定義的規(guī)則自動判斷重復數(shù)據(jù),并按照用戶定義的規(guī)則處理重復的數(shù)據(jù);9)支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄;10)支持行、列變換;11)支持數(shù)據(jù)清洗及標準化;12)支持處理過程支持各種字符集的轉換等。13)硬編碼數(shù)據(jù)轉換14)基于硬編碼實現(xiàn)數(shù)據(jù)轉換依托于插件方式來實現(xiàn),采用將不同的數(shù)據(jù)轉換過程通過硬編碼的形式封裝為相應的處理插件置入到數(shù)據(jù)處理工作流程,針對此類模式主要支撐以下應用場景:15)時間類型的轉換;16)碼表映射;17)記錄拆分;18)字符集轉換(4)庫外數(shù)據(jù)轉換基于庫外計算進行數(shù)據(jù)轉換操作,需要借助Hadoop、流式計算引擎等海量數(shù)據(jù)計算處理平臺來完成,借助并行計算處理能力來滿足復雜數(shù)據(jù)轉換來進行。主要支撐以下業(yè)務應用場景:1)多字段的混合運算。2)過濾、去重、清洗。3)復雜條件過濾。4)排序、統(tǒng)計、合并計算、行列變換等。2.數(shù)據(jù)加工數(shù)據(jù)加工是指對采集數(shù)據(jù)庫和基礎數(shù)據(jù)庫中的數(shù)據(jù)進行加工,匯總到綜合指標數(shù)據(jù)庫,并在此基礎上進一步挖掘分析,按照主題邏輯設計和轉換規(guī)則設計,形成主題數(shù)據(jù)庫的過程。如下圖所示,包含了主題加工流程管理、數(shù)據(jù)加工設計、數(shù)據(jù)加工實現(xiàn)。建議采用成熟的ETL工具實現(xiàn)數(shù)據(jù)加工的過程。在實現(xiàn)數(shù)據(jù)加工活動時,定義數(shù)據(jù)加工相關的元數(shù)據(jù)并將元數(shù)據(jù)存儲于元數(shù)據(jù)庫中,與基于數(shù)據(jù)倉庫的其他應用元數(shù)據(jù)統(tǒng)一進行管理和使用。數(shù)據(jù)加工元數(shù)據(jù)主要可分為:對象描述元數(shù)據(jù)和運行管理元數(shù)據(jù)。對象描述元數(shù)據(jù)用于描述主題派生分組、主題派生指標、主題轉換規(guī)則、流程定義等信息。運行管理元數(shù)據(jù)用于描述流程執(zhí)行記錄等操作信息。3.數(shù)據(jù)加載數(shù)據(jù)加載主要指將采集與清洗轉換的數(shù)據(jù),準確、及時地存儲到不同目標庫中(如:RDBMS、MPP、Hadoop等)中,依據(jù)數(shù)據(jù)的加載方式包括文件加載、流加載、壓縮加載、不落地加載等。依據(jù)數(shù)據(jù)加載技術特點,可分為全量數(shù)據(jù)加載、流式(實時)數(shù)據(jù)加載、文件落地雙加載、內存不落地加載。對于不同的數(shù)據(jù)庫加載、不同的方式加載,在數(shù)據(jù)加載過程的工作原理基本相同,數(shù)據(jù)加載能力要求包含:1)默認情況下提供基礎通用的加載控件,支持將數(shù)據(jù)源加載到不同的數(shù)據(jù)庫中,加載的數(shù)據(jù)支持接口、文件加載策略或流式策略。2)加載方式支持全量或實時方式,全量加載方式則采用落地加載策略,并且需要結合運用不同平臺的加載工具;實時加載與實時采集必須配套使用,二者之間共享內存實現(xiàn)同步數(shù)據(jù)交換,通過引入插件機制來屏敝不同數(shù)據(jù)源差異性。3)支持加載時事物提交的參數(shù)配置,允許設定數(shù)據(jù)文件相關輸入路徑與加載文件匹配規(guī)則等信息,由數(shù)據(jù)裝載完成發(fā)現(xiàn)文件、文件獲取、加載數(shù)據(jù)、數(shù)據(jù)校驗等操作流程后完成數(shù)據(jù)入庫操作。4)在加載實現(xiàn)過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調起相應的腳本執(zhí)行來加載到數(shù)據(jù)。5)數(shù)據(jù)加載結束或失敗時,都需要記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問題排查提供詳細信息。6)在加載觸發(fā)模式上支持自動加載與手工執(zhí)行的二大類型。支持數(shù)據(jù)自動加載的設計與執(zhí)行,當數(shù)據(jù)加載出錯時,應提供操作界面以人工干預的方式來重新啟動數(shù)據(jù)的接收和加載。(1)全量數(shù)據(jù)加載全量加載是將數(shù)據(jù)一次性加載到接口機上,是準實時加載,主要應對數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對外提供數(shù)據(jù)時可采用此種采集模式,全量數(shù)據(jù)加載取具備多協(xié)議數(shù)據(jù)加載和并發(fā)加載控制兩種能力,多協(xié)議數(shù)據(jù)加載提供了文件和數(shù)據(jù)庫等多種目標數(shù)據(jù)庫進行加載,包括支持:高性能關系型數(shù)據(jù)倉庫、MPP分布式數(shù)據(jù)倉庫、HDFS等,接口協(xié)議可以根據(jù)需要隨時添加;并發(fā)加載控制是運用大規(guī)模并行計算多個加載任務發(fā)布到集群中并行處理,可控制并發(fā)數(shù)和任務優(yōu)先級。(2)流式(實時)數(shù)據(jù)加載流式數(shù)據(jù)加載主要應對海量數(shù)據(jù),采用流式計算方法進行高性能的實時計算實時加載。(3)文件落地雙加載包括文件從接口機到ETL服務器不同的傳輸方式;管道、FTP傳輸、CFS傳輸?shù)葌鬏敺绞剑浑p進程異步方式讀取接口文件多節(jié)點/多分區(qū)加載到雙庫,兩個進程互不影響。(4)內存不落地加載不落地實時加載主要是采用分布式內存數(shù)據(jù)計算,以多進程管道方式并行讀取不同的接口文件,每個接口文件以KEY<VALUE>的方式分塊計算,計算完把各節(jié)點上聚合結果匯總到內存池,調用LOADAPI加載到數(shù)據(jù)庫。(5)數(shù)據(jù)加載過程控制數(shù)據(jù)裝載過程中,針對數(shù)據(jù)加載中斷或者出錯,支持采用斷點續(xù)傳、一致性保障等方法進行過程控制,避免重新啟動數(shù)據(jù)的接收和加載。數(shù)據(jù)裝載過程控制主要包括如下功能:1)斷點續(xù)傳:由于網(wǎng)絡中斷或者其他原因造成傳輸中斷,提供斷點續(xù)傳功能,在下次傳輸時能夠接著前面的傳輸進度繼續(xù)進行,節(jié)省時間,提高速度。2)一致性保障:支持兩階段提交,提供訪問的多種數(shù)據(jù)源發(fā)起兩階段提交任務,兩階段提交可以保證在多個數(shù)據(jù)源上執(zhí)行的任務包含在一個事務中,當一個數(shù)據(jù)源加載失敗時,其他數(shù)據(jù)源可做數(shù)據(jù)回滾,確保多個數(shù)據(jù)源的數(shù)據(jù)保持一致。4.數(shù)據(jù)校驗數(shù)據(jù)校驗包括數(shù)據(jù)采集、數(shù)據(jù)加載、數(shù)據(jù)分發(fā)等過程中數(shù)據(jù)校驗。在數(shù)據(jù)采集過程中通過對數(shù)據(jù)源與目標數(shù)據(jù)庫之間的數(shù)據(jù)進行對比分析,從而進一步來分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過程可能產生的異常錯誤信息。數(shù)據(jù)校驗包含以下能力:數(shù)據(jù)校驗能力序號功能功能描述1數(shù)據(jù)校驗記錄文件獲取與信息解析支持對數(shù)據(jù)抽取過程中記錄的文件進行獲取,并對信息記錄進行解析提取,為后續(xù)分析提供輸入數(shù)據(jù);2提供豐富的數(shù)據(jù)校驗手段支持數(shù)據(jù)文件級校驗;支持數(shù)據(jù)文件分隔符校驗;支持記錄級校驗;包括但不限于:格式校驗、類型校驗、取值范圍校驗、長度校驗、非空校驗、字段關系校驗、異常值校驗、按照用戶定義的邏輯規(guī)則校驗等。3提供靈活的數(shù)據(jù)校驗規(guī)則設置支持對數(shù)據(jù)校驗規(guī)則進行靈活定義,可以自定義數(shù)據(jù)校驗規(guī)則結構;提供圖形化數(shù)據(jù)校驗規(guī)則設置功能,允許對校驗規(guī)則進行維護、優(yōu)化等處理。4依托數(shù)據(jù)校驗提供全面的數(shù)據(jù)質量監(jiān)控管理能夠根據(jù)設置的數(shù)據(jù)校驗與監(jiān)控規(guī)則或算法,對需要進行校驗的數(shù)據(jù)進行采集后執(zhí)行相應校驗檢查,并依據(jù)稽核和檢查過程中發(fā)現(xiàn)的數(shù)據(jù)質量異常情況進行告警過程。數(shù)據(jù)校驗從校驗對象細粒度維度分析,支持文件級校驗與記錄級校驗二大類。數(shù)據(jù)校驗模塊還內置了部分的數(shù)據(jù)檢查功能,如數(shù)據(jù)唯一性檢查、外鍵完整性檢查。數(shù)據(jù)校驗內容有類型,長度,是否為空,精度,范圍,格式等信息。如果數(shù)據(jù)不符合,會進行過濾,只有正確的數(shù)據(jù)才能繼續(xù)使用。對于錯誤的數(shù)據(jù),可以進行輸出,包括錯誤原因和錯誤字段序號等信息。相關的錯誤類型和數(shù)量等統(tǒng)計信息也會綁定到流程變量中,以便后續(xù)節(jié)點進行判斷使用。5.異常處理在數(shù)據(jù)整合過程中會出現(xiàn)不同種類的異?,F(xiàn)象,如:數(shù)據(jù)節(jié)點異常、數(shù)據(jù)清洗轉換異常、數(shù)據(jù)加載異常等,系統(tǒng)通過異常處理機制來保障系統(tǒng)的穩(wěn)定性。(1)計算節(jié)點異常針對數(shù)據(jù)計算節(jié)點異常,如:作業(yè)過程采用分布式多節(jié)點并發(fā)作業(yè)來提升系統(tǒng)處理速度,在作業(yè)過程中某個節(jié)點失效會導致作業(yè)中斷或掛起現(xiàn)象,處理機制如下:1)Agent節(jié)點與Master節(jié)點通過Heartbeat進行狀態(tài)通信,使Master第一時間掌握節(jié)點狀態(tài)。2)Agent節(jié)點所有Task皆由Master分發(fā),并周期性向Master匯報每個Task執(zhí)行狀態(tài)。3)當Agent1節(jié)點出現(xiàn)異常,將由Master重新將Task分發(fā)到其它節(jié)點重新運行。(2)數(shù)據(jù)清洗轉換異常針對數(shù)據(jù)清洗轉換:支持校驗點,當外部數(shù)據(jù)記錄特別龐大時,如果因為某種原因發(fā)生故障中斷后,可以從最近的校驗點開始恢復處理。(3)數(shù)據(jù)加載異常針對數(shù)據(jù)裝載過程中異常:支持異常自動重試、超時重試、將任務轉移到其它節(jié)點執(zhí)行、任務掛起等待人工介入等異常處理機制,執(zhí)行器數(shù)據(jù)轉載支持分布式數(shù)據(jù)轉載,在單一節(jié)點數(shù)據(jù)轉載異常情況下,可實現(xiàn)將轉載工作轉發(fā)到其它節(jié)點重新執(zhí)行。在任務內數(shù)據(jù)裝載,采用雙向加載線程同時檢查、匯報機制,只有最終狀態(tài)一致,工作任務才宣告完成,否則將進行重試等操作。6.數(shù)據(jù)標準化對清洗后的數(shù)據(jù)進行標準化處理,以解決系統(tǒng)之間數(shù)據(jù)差異問題,解決跨部門數(shù)據(jù)調用時數(shù)據(jù)一致問題。通過技術工具實現(xiàn)標準化數(shù)據(jù)處理,是對政府數(shù)據(jù)交換共享標準規(guī)范體系的有效執(zhí)行,也是溝通業(yè)務和IT一致理解、有機融合的關鍵。標準化處理過程包括標準的執(zhí)行、標準的控制、標準執(zhí)行和稽核,以及標準化問題的管理。四、數(shù)據(jù)質量管理子系統(tǒng)1.數(shù)據(jù)質量(1)質量規(guī)則管理1)質量規(guī)則配置依據(jù)質量需求,靈活配置質量規(guī)則。如開發(fā)質量規(guī)則(如命名不規(guī)范、不必要的跨層數(shù)據(jù)訪問、不合理的大表關聯(lián)操作)、數(shù)據(jù)波動規(guī)則(接口/指標數(shù)據(jù)同環(huán)比)。2)質量規(guī)則自動優(yōu)化根據(jù)歷史運行信息,自動給出調整監(jiān)控算法、閥值、優(yōu)先級建議,使得規(guī)則更合理。(2)質量規(guī)則執(zhí)行依據(jù)質量規(guī)則執(zhí)行的時機需求,配置執(zhí)行方式,依據(jù)執(zhí)行規(guī)則,管控平臺自動執(zhí)行質量規(guī)則檢查。質量規(guī)則執(zhí)行觸發(fā)方式支撐按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式。(3)數(shù)據(jù)質量監(jiān)控依據(jù)質量檢查規(guī)則對數(shù)據(jù)質量進行監(jiān)控,如接口波動率的監(jiān)控,如果發(fā)現(xiàn)異?,F(xiàn)象可及時告知或預警相關人員可參考檢查方法列表數(shù)據(jù)質量檢查方法檢查方法檢查描述適用場景數(shù)值檢查指標數(shù)值與閾值上下限的比較,閾值可以手工錄入經驗值或采用n個周期內指標的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對指標的影響等主要適用變化趨勢平穩(wěn)的業(yè)務關鍵指標波動檢查波動檢查包括同比波動檢查和環(huán)比波動檢查,先計算指標的同比或環(huán)比波動率,然后與預定的波動率上下限(閾值)進行比較,閾值可以手工錄入經驗值或采用n個周期內指標的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對指標的影響等如業(yè)務發(fā)展類指標、用戶數(shù)類指標等平衡性檢查通過對若干個指標值的簡單四則運算(加、減、乘、除),來檢驗各個指標間潛在的平衡或其他比較關系需要進行相關性檢查的指標,如日指標匯總與月指標的平衡檢查加權波動檢查通過對單個指標的基礎檢查結果和影響因素的加權計算分析,綜合檢查指標的波動和變化情況關聯(lián)性檢查定義相關性指標,和指標相關系數(shù),如正強相關,負相關,定義兩個指標當前值是否滿足相關性的特點主要用于考察多個指標之間的邏輯關系是否符合規(guī)律,如量收匹配的問題一致性檢查計算一個指標在不同的采集計算點的值是否一致在倉庫底層的值,在應用匯總表值,在前臺應用1,應用2中的值是否一致值域評判直接對某個值進行評判或是否在允許的取值范圍內容進行評判(4)質量問題管理統(tǒng)一收集數(shù)據(jù)質量問題、形成數(shù)據(jù)質量知識庫,提升數(shù)據(jù)質量問題解決效率。(5)質量評估報告依據(jù)質量檢查評估規(guī)則對數(shù)據(jù)質量進行評估,形成數(shù)據(jù)質量評估報告,定期對評估報告進行分析得出優(yōu)化建議,并付諸優(yōu)化動作,持續(xù)改進數(shù)據(jù)質量。2.數(shù)據(jù)評估(1)數(shù)據(jù)使用評估對數(shù)據(jù)及應用使用情況進行評估,并據(jù)此數(shù)據(jù)存儲、處理、應用進行優(yōu)化。以下為數(shù)據(jù)評估示例:數(shù)據(jù)評估方法科目分攤方法數(shù)據(jù)評估前臺應用使用次數(shù)應用的點擊次數(shù)平均分攤給應用鏈路上的所有表分發(fā)給外部系統(tǒng)接口數(shù)據(jù)(分發(fā)給外部表,平均分攤給分發(fā)接口表鏈路上的所有表)*加權系數(shù)采集外部系統(tǒng)數(shù)據(jù)(采集外部表,平均分攤給采集接口表鏈路上的所有表)*加權系數(shù)外部應用調用次數(shù)(外部應用調用表次數(shù)平均分攤給應用表鏈路上的所有表)*加權系數(shù)(2)數(shù)據(jù)關系評估數(shù)據(jù)關系的類別可以分為以下幾種:1)主外鍵關系。2)參考關系。主要描述實體表與維度表的關系。3)輸入與輸出。4)歷史拍照。5)冗余備份。從目的可以劃分為:分工提速、轉儲優(yōu)化、應用分流、數(shù)據(jù)統(tǒng)計臨時備份。數(shù)據(jù)交換共享平臺通過建立處理程序解析、元數(shù)據(jù)解析、及上線登記等方式實現(xiàn)數(shù)據(jù)關系評估。(3)時效性評估通過對數(shù)據(jù)關系的分析,發(fā)現(xiàn)孤立表或無效表。根據(jù)表名判斷此表大約含義,建表日期、狀態(tài)日期,表內數(shù)據(jù)時間等判斷此表最后更新時間。通過數(shù)據(jù)的使用日志,對孤立表和無效表進行判斷是否有使用。(4)冗余數(shù)據(jù)評估數(shù)據(jù)交換共享平臺將來納入大量數(shù)據(jù),可能存在著大量冗余的數(shù)據(jù)。冗余數(shù)據(jù)一方面給數(shù)據(jù)的精確性和可靠性將帶來影響,同時也影響著數(shù)據(jù)庫的性能。系統(tǒng)必須要解決冗余問題,主要有兩個環(huán)節(jié):發(fā)現(xiàn)冗余數(shù)據(jù)和冗余進行消除合并。圖5-45冗余數(shù)據(jù)評估(5)重要性評估在數(shù)據(jù)使用過程中和數(shù)據(jù)應用中對表和數(shù)據(jù)的重要性進行評估,通過訪問頻次,數(shù)據(jù)質量,數(shù)據(jù)熱度,數(shù)據(jù)標準化等指標,進行全面評估,并輸出表重要性級別。3.稽核管理根據(jù)預先配置的規(guī)則、算法和質量檢查度量,對數(shù)據(jù)的準確性、合理性等多角度的檢查,以及時發(fā)現(xiàn)問題,解決問題。對于稽核結果,進行統(tǒng)計分析,形成結果報告,為以后的數(shù)據(jù)倉庫建設、實施和維護的改進打下堅實的基礎。(1)稽核規(guī)則管理接口數(shù)據(jù)檢驗:對接口數(shù)據(jù)的過程進行稽核和校驗,分為文件接口,DB-LINK接口,其他異構數(shù)據(jù)庫接口。處理過程檢驗:對數(shù)據(jù)處理過程進行監(jiān)控和稽核,分為JOB稽核,工作流稽核,其他處理方式稽核等。處理環(huán)境檢驗:對數(shù)據(jù)處理環(huán)境進行檢查,針對不同的應用環(huán)境,主要分為數(shù)據(jù)庫系統(tǒng)檢查、主機系統(tǒng)檢查、接口機檢查、應用服務器檢查。日志監(jiān)控:在平臺運行的過程中可能出現(xiàn)各種各樣的錯誤,通過檢測運行過程的日志可以判斷出過程輸出的目標表數(shù)據(jù)是否完整。提供選擇日志監(jiān)控的各種信息供選擇,如:過程名、所屬模塊、執(zhí)行時間、完成時間、執(zhí)行時長、執(zhí)行用戶、執(zhí)行結果、預警等。維度檢驗:如:所屬模塊、日期、表名、維度名稱、緯度格式、緯度說明、緯度關聯(lián)編碼表、各緯度記錄分布情況、是否有空值、空值記錄數(shù)、空值率、預警區(qū)間等指標。指標值檢驗:包括數(shù)據(jù)量校驗、單指標校驗、交叉校驗等。(2)稽核任務調度在設定數(shù)據(jù)稽核的模板后,可以對稽核任務實行自動化處理,也可以通過定制方式來完成,可以定時調用或觸發(fā)。由不同類型數(shù)據(jù)檢驗確定。(3)稽核結果分析對于稽核的結果,進行統(tǒng)計分析,回答經典的“4W”問題:該報表是否異常、該報表在哪里發(fā)生、該報表什么時候發(fā)生異常和為什么該報表會發(fā)生異常。(4)數(shù)據(jù)問題管理對系統(tǒng)使用者或數(shù)據(jù)倉庫開發(fā)者遇到的問題及解決方案,進行收集和整理,形成知識庫,便于用戶咨詢,同時也提高開發(fā)團隊的效率,避免很多重復工作。五、統(tǒng)一調度子系統(tǒng)統(tǒng)一調度指完成多源數(shù)據(jù)融合平臺所有數(shù)據(jù)處理工作的統(tǒng)一執(zhí)行調度,包括采集任務調度、資源調度、優(yōu)先級設定等,統(tǒng)一調度能力包括統(tǒng)一調度配置、統(tǒng)一調度運行、資源控制、調度策略、調度監(jiān)控等功能。利用統(tǒng)一調度可視化界面創(chuàng)建任務,支持基于內部調度任務,也支持基于外部接口的任務,在此基礎上可將任務進行細分成多個任務,形成調度任務線程池。如下圖所示:圖5-46任務調度步驟任務管理相關功能依據(jù)所配置的任務驅動條件啟動調度任務,對調度流程的新增、修改、刪除,調度任務分配執(zhí)行,并向執(zhí)行代理客戶端發(fā)送任務,代理執(zhí)行完成后返回任務執(zhí)行結果和日志。1.統(tǒng)一調度功能(1)跨平臺統(tǒng)一調度:能夠跨平臺的統(tǒng)一任務作業(yè)調度能力。(2)統(tǒng)一調度配置:通過對圖形化組件進行拖拽、流程連接等頁面操作,完成調度配置。(3)智能調度運行:傳統(tǒng)的調度平臺需要人工去配置作業(yè)流程、運行時間窗口。調度系統(tǒng)能夠對資源情況智能調度運行。(4)資源控制:可以將各種運行操作資源、權限合理的分配給作業(yè),使核心權限得到有效保護,資源得到合理利用。(5)優(yōu)先級管理評估:根據(jù)靜態(tài)優(yōu)先級評估計算、動態(tài)優(yōu)先級評估計算,實現(xiàn)調度系統(tǒng)根據(jù)優(yōu)先級執(zhí)行任務。(6)調度策略管控:前臺頁面提供簡單任務邏輯的組合處理及配置,支持多個平臺獨立調度,及多個平臺間依賴調度,對各種各樣的調度情況提供統(tǒng)一的策略管控。(7)調度全面監(jiān)控:能夠監(jiān)控多種作業(yè)的執(zhí)行情況,并分析作業(yè)執(zhí)行效率,發(fā)現(xiàn)作業(yè)執(zhí)行的關鍵環(huán)節(jié)。(8)集中的作業(yè)告警與錯誤反饋:統(tǒng)一的作業(yè)告警,支持多種告警方式,并集中作業(yè)運行錯誤反饋,將問題日志抓取在平臺統(tǒng)一查看。2.調度配置在統(tǒng)一調度平臺中以數(shù)據(jù)流作為驅動,通過控制中心統(tǒng)一進行調度配置、進行作業(yè)命令下發(fā)、狀態(tài)收集進行控制,達到Agent調度。圖5-47agent調度以一個業(yè)務量生產過程為例。統(tǒng)一調度平臺圍繞作業(yè)(Job)與任務(Task)為核心展開整個調度執(zhí)行流程。通過Server服務器,將一個作業(yè)分布到Agent集群上,再由Agent根據(jù)資源控制、調度策略等,分發(fā)到一個或多個節(jié)點(node)上。Server服務器根據(jù)Job描述文件將不同任務分發(fā)至多個節(jié)點(node)執(zhí)行,任務執(zhí)行嚴格按照依賴關系執(zhí)行并實時返回狀態(tài)。同時,Server服務器實時采集Agent節(jié)點的系統(tǒng)資源與任務執(zhí)行狀態(tài)數(shù)據(jù),并形成任務執(zhí)行預警信息及時告警給運維人員。3.調度運行支持基于shell腳本的調度,簡化調度過程并判斷任務成功與否;支持基于存儲過程的調度,如:支持調用Oracle、DB2等傳統(tǒng)關系型數(shù)據(jù)庫系統(tǒng)中的存儲過程,并且需要支持調用GreenPlum,Vertica等MPP數(shù)據(jù)庫系統(tǒng)中的腳本;支持外部程序的調度,如:開發(fā)IDE觸發(fā)ETL調度流程實現(xiàn)調度的運行。(1)數(shù)據(jù)存儲模塊通過不同方式進行數(shù)據(jù)的入庫,實現(xiàn)自動入庫和手動入庫,在數(shù)據(jù)入庫的過程中,需要對采集的數(shù)據(jù)進行校驗,同時還需要實現(xiàn)數(shù)據(jù)的出庫功能。(2)數(shù)據(jù)管理模塊構建基于云的分布式數(shù)據(jù)庫系統(tǒng),實現(xiàn)對采集存儲的各類數(shù)據(jù)進行增加、刪除、修改和查詢功能;建立數(shù)據(jù)庫索引,提高數(shù)據(jù)庫信息檢索效率。(3)數(shù)據(jù)維護歸檔模塊圍繞儲存在數(shù)據(jù)綜合管理系統(tǒng)中的數(shù)據(jù),通過質量檢測、標準化處理、歸檔、遷移等方法,實現(xiàn)對各類數(shù)據(jù)的編目存檔,并對歸檔的數(shù)據(jù)進行質量檢測及管理。對存儲的數(shù)據(jù)實現(xiàn)數(shù)據(jù)的備份和恢復,達到對數(shù)據(jù)進行更新和維護的功能。(4)數(shù)據(jù)安全模塊對應用軟件和數(shù)據(jù)庫操作情況等內容進行監(jiān)視和控制,對操作行為信息進行授權權限方面的審計跟蹤。(5)數(shù)據(jù)檢索模塊通過模糊檢索、分類檢索、高級復合檢索等多種檢索途徑,實現(xiàn)檢索服務,它接受用戶的查詢請求,并根據(jù)高效的優(yōu)化算法從數(shù)據(jù)庫中提取出符合條件的記錄并顯示。4.調度策略依據(jù)業(yè)務要求,調度策略可分為:時間調度、手工調度、消息/API接口調度、優(yōu)先級調度等。時間調度:源系統(tǒng)每天都在不斷產生新的數(shù)據(jù),系統(tǒng)需要將數(shù)據(jù)及時同步的目標系統(tǒng)中。系統(tǒng)需要支持周期性自動進行數(shù)據(jù)處理,以減少維護工程師的工作量。支持以年、月、日、小時、分鐘為單位進行周期性調度。手工調度:對于某些一次性的數(shù)據(jù)處理任務,系統(tǒng)支持手工調度功能,用戶可以隨時啟動這些數(shù)據(jù)處理任務。消息/API接口調度:對于其他系統(tǒng)需要調用企業(yè)級ETL的流程進行數(shù)據(jù)處理的情況,可以由第三方系統(tǒng)發(fā)送消息或者調用API,由統(tǒng)一調度進行處理流程的調度。優(yōu)先級調度:為避免服務器負荷過載,甚至導致系統(tǒng)崩潰,一方面系統(tǒng)需要提供最大任務并發(fā)數(shù)限制,另一方面要防止任務擁塞的問題。通過提供流程優(yōu)先級控制功能,當資源消耗達到系統(tǒng)上限時,系統(tǒng)需要優(yōu)先保障優(yōu)先級較高的任務執(zhí)行,讓優(yōu)先級較低的任務處于等待狀態(tài),直到其它任務釋放出足夠的資源。5.調度監(jiān)控(1)總體任務監(jiān)控:系統(tǒng)支持對所有任務按照系統(tǒng)、按日期對任務總體運行情況進行匯總展現(xiàn),使得總體任務執(zhí)行情況一目了然。(2)作業(yè)組監(jiān)控:系統(tǒng)支持對作業(yè)任務的分組,展現(xiàn)不同組作業(yè)的執(zhí)行情況,方便系統(tǒng)使用用戶、使用角色快速實現(xiàn)對所關心的作業(yè)的監(jiān)控與處理。任務組監(jiān)控內容包括作業(yè)總數(shù)、掛起作業(yè)數(shù)、運行作業(yè)數(shù)、延時作業(yè)數(shù)、停止作業(yè)數(shù)、暫停作業(yè)等指標??赏ㄟ^可視化界面查看具體作業(yè)的作業(yè)執(zhí)行狀態(tài)、執(zhí)行進度、執(zhí)行節(jié)點數(shù)、成功任務數(shù)、正在執(zhí)行數(shù)、失敗任務數(shù)、延時任務數(shù)、未執(zhí)行任務數(shù)等。(3)使用用戶可通過選擇具體作業(yè)或者批量作業(yè),完成對相關作業(yè)的啟動、停止、手工運行等操作。(4)作業(yè)運行監(jiān)控任務狀態(tài)監(jiān)控指前臺通過表格形式實時展現(xiàn)任務的運行狀態(tài),通過前端頁面監(jiān)控各個任務的實時運行狀態(tài)及運行日志。(5)集群監(jiān)控系統(tǒng)可通過調度中心的自定義集群監(jiān)控功能實現(xiàn)對主、從服務器的監(jiān)控,如服務器的內存使用率、I/O吞吐量、CPU使用率、物理機器資源占用等信息。六、數(shù)據(jù)共享交換子系統(tǒng)數(shù)據(jù)交換依據(jù)數(shù)據(jù)提供單位、數(shù)據(jù)使用單位的特點,數(shù)據(jù)交換主要提供三種服務能力,即:(1)對接入的各IT系統(tǒng)提供公共基礎數(shù)據(jù),為IT系統(tǒng)提供通用信息資源以及數(shù)據(jù)的導入;(2)對大數(shù)據(jù)主題應用提供元數(shù)據(jù)信息及主題數(shù)據(jù)信息;(3)對前端門戶界面展示提供數(shù)據(jù)傳輸服務。總體如下圖所示數(shù)據(jù)共享交換平臺數(shù)據(jù)交換示意圖1)數(shù)據(jù)交換請求管理用戶通過門戶發(fā)起數(shù)據(jù)交換請求,該請求總體分為兩大類:第一類指數(shù)據(jù)傳輸采集交換,即由接入單位的IT系統(tǒng)、大數(shù)據(jù)主題應用發(fā)起數(shù)據(jù)采集請求;該請求通過審核審批后,直接傳輸?shù)綌?shù)據(jù)采集抽取系統(tǒng);第二類指數(shù)據(jù)界面展現(xiàn)請求,即用戶通過門戶查詢基礎數(shù)據(jù)、主題數(shù)據(jù)及目錄數(shù)據(jù)等,通過API形式(含jdbc等)將數(shù)據(jù)傳輸?shù)介T戶界面進行展示,該請求無須審核,根據(jù)用戶的權限進行數(shù)據(jù)展示。系統(tǒng)提供數(shù)據(jù)交換請求的管理與審批。2)ETL數(shù)據(jù)抽取與加載服務ETL采集與抽取工具,接收到數(shù)據(jù)采集指令后,執(zhí)行數(shù)據(jù)采集任務,對基礎數(shù)據(jù)、主題數(shù)據(jù)、非結構化數(shù)據(jù)進行采集,支持離線批量采集與實時采集;采集完成的數(shù)據(jù)通過ETL工具壓縮進行傳輸。采集的數(shù)據(jù)由ETL傳輸?shù)綌?shù)據(jù)交換共享平臺的前置服務設備進行存儲,待接入單位或主題應用單位進行采集。3)消息通知服務用戶請求交換的數(shù)據(jù)完成采集后,系統(tǒng)通知相關用戶,告知用戶數(shù)據(jù)已完成采集,由用戶自行到數(shù)據(jù)交換共享平臺的前置服務設備進行下載。4)API數(shù)據(jù)交換服務用戶通過門戶檢索、查詢目錄系統(tǒng)等相關數(shù)據(jù)時,由系統(tǒng)自動調用API服務,根據(jù)數(shù)據(jù)量、計算規(guī)模的大小,實時或非實時地將數(shù)據(jù)推送給門戶界面。數(shù)據(jù)共享(1)共享服務提供圖5-49共享服務數(shù)據(jù)共享基于數(shù)據(jù)虛擬化過程實現(xiàn)。數(shù)據(jù)虛擬化管理包括數(shù)據(jù)發(fā)現(xiàn)和注冊,數(shù)據(jù)目錄,共享管理及租戶管理。(2)數(shù)據(jù)注冊平臺在復雜數(shù)據(jù)環(huán)境中定位多個數(shù)據(jù)孤島中的相關實體,自動完成數(shù)據(jù)匹配工作,發(fā)現(xiàn)可用數(shù)據(jù),建立隱藏關系,并注冊在數(shù)據(jù)虛擬化平臺,形成邏輯上的數(shù)據(jù)倉庫。(3)數(shù)據(jù)目錄針對平臺發(fā)布的可共享數(shù)據(jù)接口,將數(shù)據(jù)接口最終封裝成一個一個的服務包對外發(fā)布,并進行分類整理。以數(shù)據(jù)目錄形式,提供在線服務查詢索引、服務展示及數(shù)據(jù)調用功能。(4)共享服務1)查詢服務對上層業(yè)務提供靈活的數(shù)據(jù)查詢,屏蔽下層不同存儲處理方式的查詢。通過統(tǒng)一的接口讓使用者和物理數(shù)據(jù)源隔離了開來。使不同的數(shù)據(jù)結構或異構的數(shù)據(jù)存儲,都不會對使用者產生不利影響。半/非結構化數(shù)據(jù)查詢:使用OpenApi的形式,通過HTTP協(xié)議來查詢小批量數(shù)據(jù),系統(tǒng)提供高穩(wěn)定性與低延遲的性能保證。適用與指標庫、標簽庫等類應用的數(shù)據(jù)訪問。結構化數(shù)據(jù)查詢:使用各種復雜的SQL中聚合分組語法來獲取數(shù)據(jù),導出XML、JSON等格式數(shù)據(jù),適用于稍大數(shù)據(jù)量的即時分析類查詢需求。以下為數(shù)據(jù)查詢的典型業(yè)務場景示例:指標類API使用同步HTTP協(xié)議來查詢單個指標數(shù)據(jù),該類接口要求系統(tǒng)提供高穩(wěn)定性及低延遲的性能保證。實體數(shù)據(jù)由云平臺完成運算后分發(fā)到關系數(shù)據(jù)庫中。查詢返回的數(shù)據(jù)為對象數(shù)據(jù)結構。2)資料服務對上層應用提供幫助文檔信息,主要包含數(shù)據(jù)模型:把元數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)表、模型定義信息通過接口開放給業(yè)務使用者,可以查詢出來表定義相關的數(shù)據(jù)處理流程指標口徑:開放指標的口徑信息,清晰的表達出來指標代表的含義API文檔:API列表,可以在線查詢API的參數(shù),幫助信息,并提供在線測試用戶界面。3)文件接口服務支持在內外部系統(tǒng)的不同存儲間(如Hadoop、DB2等),進行數(shù)據(jù)的交換、同步、分發(fā)。交換可以通過接口文件、JDBC等多種方式。針對大批量數(shù)據(jù)的交互,應通過調用底層事件服務與分發(fā)服務,提交一個異步分發(fā)請求,如輸入分發(fā)腳本、分發(fā)目錄包裝成消息,提交到事件服務,數(shù)據(jù)導出完成后分發(fā)到相應的主機目錄。4)數(shù)據(jù)權限管理主要面向平臺使用者和數(shù)據(jù)資源管理人員,提供信息資源查詢和展現(xiàn)能力,以及相應的信息資源權限管控。平臺使用者快速目錄檢索:通過數(shù)據(jù)資源目錄,由平臺實現(xiàn)數(shù)據(jù)快速檢索功能;權限快速申請:提供權限申請調用接口,用戶在圖列表中點擊申請權限,完成申請信息提交,由管理員進行審批。權限管控對內數(shù)據(jù)權限管控,驗證內部用戶是否有能夠訪問當前數(shù)據(jù)的權限。在具備權限條件下,才允許調用共享服務。提供待審批列表數(shù)據(jù)資源管理員通過待審批列表快速瀏覽到待審批的權限申請,包括申請時間、申請人帳號、表資產名稱、所屬庫、所屬表空間、權限狀態(tài)(待審批/已審批)、用途說明等,并能夠支持根據(jù)關鍵選項快速檢索;提供已審批列表查看已審批的數(shù)據(jù)權限列表;提供權限審批支持打開申請記錄,審批申請人的數(shù)據(jù)權限,完成授權;提供歷史審批查詢根據(jù)時間范圍、表資產、所屬庫等關鍵條件查詢歷史權限審批列表。(5)租戶管理共享服務調用通過多租戶形式進行管理。多租戶是將數(shù)據(jù)查詢、數(shù)據(jù)處理和數(shù)據(jù)調用能力按需、可控的進行開放,在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下,通過租戶的方式實現(xiàn)用戶及用戶組管理,以達到資源管控及數(shù)據(jù)權限控制的目的。多租戶注冊,由管理員創(chuàng)建并維護,每個租戶都被分配一定的計算資源和存儲資源,可以根據(jù)應用情況動態(tài)的調整。使用開發(fā)平臺的賬號,用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論