數(shù)據(jù)中心建設(shè)方案_第1頁
數(shù)據(jù)中心建設(shè)方案_第2頁
數(shù)據(jù)中心建設(shè)方案_第3頁
數(shù)據(jù)中心建設(shè)方案_第4頁
數(shù)據(jù)中心建設(shè)方案_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

企業(yè)數(shù)據(jù)中心系統(tǒng)平臺技術(shù)方案建議書``圖、數(shù)據(jù)中心構(gòu)建思路圖按照對數(shù)據(jù)中心的理解,完整的數(shù)據(jù)中心應該具備IT基礎(chǔ)設(shè)施(主機、存儲、網(wǎng)絡(luò))、企業(yè)級ETL平臺、數(shù)據(jù)存儲中心、數(shù)據(jù)共享服務、應用層、統(tǒng)一門戶、數(shù)據(jù)管控平臺。```系統(tǒng)功能框架分為企業(yè)級ETL平臺、存儲與計算中心、服務層、應用層、統(tǒng)一門戶、負責企業(yè)數(shù)據(jù)中心數(shù)據(jù)采集、加工、匯總、分發(fā)的過程,完成企業(yè)級數(shù)據(jù)標準化、集中化,實現(xiàn)數(shù)據(jù)脈絡(luò)化、關(guān)系化,實現(xiàn)統(tǒng)一的數(shù)據(jù)處理加工,包括:非實時數(shù)據(jù)處理和實時數(shù)據(jù)處理,提供數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)匯總、數(shù)據(jù)分發(fā)、數(shù)據(jù)挖掘等能力。建立統(tǒng)一的數(shù)據(jù)中心數(shù)據(jù)模型,以及統(tǒng)一的數(shù)據(jù)存儲與計算,具體提供關(guān)系數(shù)據(jù)庫、分布式非關(guān)系數(shù)據(jù)庫、分布式文件、分布式計算,實現(xiàn)統(tǒng)一的數(shù)據(jù)存儲與計算。``通過數(shù)據(jù)服務標準化開放訪問,幫助企業(yè)IT建設(shè)中,應用和數(shù)據(jù)分離,引入更多的應指標等數(shù)據(jù)查詢API封裝,實現(xiàn)與周邊系統(tǒng)實時互動,體現(xiàn)數(shù)據(jù)價值,減少數(shù)據(jù)冗余,保證數(shù)據(jù)安全,保證數(shù)據(jù)的一致性。ESOP應用、VGOP應用、指標庫、流量運營戰(zhàn)略地圖、掌上分析、自助業(yè)務分析、區(qū)域洞察、渠道運營、自助分析、客戶標簽庫、實時營銷、LTE互聯(lián)網(wǎng)管控策略。提供統(tǒng)一域名分配、負載均衡、鑒權(quán)管理、統(tǒng)一管控平臺接入、應用注冊、應用發(fā)布、應用訪問數(shù)據(jù)信息等功能,同時提供數(shù)據(jù)中心被應用訪問的頻次,被應用訪問的數(shù)據(jù)范圍,提供數(shù)據(jù)資產(chǎn)的評估,為應用上下線和數(shù)據(jù)開放提供依據(jù)。面向開發(fā)人員、運維人員實現(xiàn)數(shù)據(jù)、應用、資源的統(tǒng)一管控,包括:數(shù)據(jù)資產(chǎn)管控、開發(fā)管理、監(jiān)控管理、調(diào)度管理、系統(tǒng)管理、安全管理。`````系統(tǒng)技術(shù)架構(gòu)分為數(shù)據(jù)采集、計算存儲服務、數(shù)據(jù)共享服務、平臺管控。采用Hadoop采用Flume計算框架,實現(xiàn)文件和消息采集與解析;采用流式爬蟲、中文分詞、圖片識別技術(shù),實現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁信息實時采集;采用FTP文件方式實現(xiàn)對數(shù)據(jù)文件的采集;采Yarn提供跨平臺的資源管理,滿足資源的統(tǒng)一調(diào)度與管理;采用Hadoop實現(xiàn)非實時ETL,支撐流數(shù)據(jù)處理與復雜事件處理;利舊DB2提供ST層數(shù)據(jù)的存儲與計算,支持高并發(fā)的數(shù)據(jù)開放共享采用基于HTTP協(xié)議REST風格的OpenAPI完成同步處理與基于消息隊開放而又簡易的授權(quán)協(xié)議。數(shù)據(jù)共享服務部署在集群環(huán)境中把業(yè)務邏輯、數(shù)據(jù)、界面顯示分離的方法組織代碼,將業(yè)務邏輯聚集到一個部件里面,在改進和個性化定制界面及用戶交互的同時,不需要重新編寫業(yè)務邏輯。`````可滿足基于Gn信令、LTE信令的實時處理。對外數(shù)據(jù)服務可以由不同種類的API來完成:1、針對諸如客戶統(tǒng)一視圖、客戶標簽庫的數(shù)據(jù)探索查詢服務:將數(shù)據(jù)加載到Spark的來查詢數(shù)據(jù)):將數(shù)據(jù)加載到Hbase中,通過API將數(shù)據(jù)共享出去;將數(shù)據(jù)加載到DB2數(shù)據(jù)庫(利舊)中,通過API將數(shù)據(jù)共享出去;`````根據(jù)數(shù)據(jù)中心的建設(shè)需求,企業(yè)級的ETL平臺實現(xiàn)統(tǒng)一的數(shù)據(jù)采集、轉(zhuǎn)換、加載、處理以及統(tǒng)一調(diào)度、管控等功能。這里的ETL指的是廣義的ETL,具備以下的特點:統(tǒng)一數(shù)據(jù)獲取接入,支持B域數(shù)據(jù)、M域數(shù)據(jù)、O域數(shù)據(jù)或其他外部數(shù)據(jù)統(tǒng)一接入支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)采集、加工;對非結(jié)構(gòu)化數(shù)據(jù)要實現(xiàn)從非結(jié)構(gòu)化到結(jié)構(gòu)支持數(shù)據(jù)采集、轉(zhuǎn)換、加載等關(guān)鍵,.數(shù)據(jù)處理過程,實現(xiàn)企業(yè)數(shù)據(jù)的標準。從周期上,支持批量的數(shù)據(jù)采集,實時的數(shù)據(jù)采集滿足數(shù)據(jù)中心數(shù)據(jù)加工,處理以及對外提供數(shù)據(jù)分發(fā)、同步支持全過程的數(shù)據(jù)稽核。包括事前、事中、事后的稽核方式。以及靈活的稽核規(guī)則管理,算法管理全過程的可視化開發(fā)配置管理。通過可視化的開發(fā)配置,測試和部署上線。全過程元數(shù)據(jù)管理。重點要實現(xiàn)事前的元數(shù)據(jù)管理。管理的內(nèi)容包括:支持數(shù)據(jù)模型、數(shù)據(jù)流程、轉(zhuǎn)換規(guī)則、數(shù)據(jù)關(guān)系和轉(zhuǎn)換映射規(guī)則。企業(yè)級的ETL平臺產(chǎn)品DACP可以很好支持上述的關(guān)鍵功能特點。`````可滿足基于Gn信令、LTE信令的實時處理。`````ST層數(shù)據(jù)模型設(shè)計按照層次,主題的數(shù)據(jù)模型設(shè)計的思路。系統(tǒng)根據(jù)模型設(shè)計會自動轉(zhuǎn)成3.4.1分層規(guī)范依據(jù)數(shù)據(jù)倉庫建模理論,結(jié)合實際經(jīng)驗,數(shù)據(jù)計算平臺承載數(shù)據(jù)模型分為四層:接口層:ODS模型的數(shù)據(jù)結(jié)構(gòu)與業(yè)務系統(tǒng)接口文件結(jié)構(gòu)保持一致,接口層的數(shù)`````據(jù)在數(shù)據(jù)計算平臺進行暫存。存儲層:即明細數(shù)據(jù)層,是數(shù)據(jù)計算核心層數(shù)據(jù)模型之一,用于存放由清洗、轉(zhuǎn)換層來的數(shù)據(jù)或者接口層直接來的數(shù)據(jù),其設(shè)計目標是為后續(xù)的匯總數(shù)據(jù)層和信息子層提供數(shù)據(jù)基礎(chǔ)。匯總層:即輕度匯總數(shù)據(jù)層,也是數(shù)據(jù)計算核心層數(shù)據(jù)模型之一,該層實現(xiàn)對主題內(nèi)的數(shù)據(jù)做輕量匯總。設(shè)計目標是為應用層提供足夠靈活、方便的基礎(chǔ)數(shù)據(jù),并保證從該層獲取數(shù)據(jù)是性能最優(yōu)。應用層:在匯總數(shù)據(jù)層之上,數(shù)據(jù)按照應用需求做數(shù)據(jù)聚合,生成相關(guān)應用所需數(shù)據(jù)的數(shù)據(jù)層。應用數(shù)據(jù)層是面向應用的,但是也不是每個應用都在應用數(shù)據(jù)層對應一個表,對應用要在數(shù)據(jù)應用層中進行整合。3.4.2表命名規(guī)范OMG標準化組織建議,采用5分段的命名規(guī)范:如下3.4.3字段命名規(guī)范建立字段的命名規(guī)范,并固化為domain類型,指導模型設(shè)計字段命名。當有變更,可```3.4.4模型版本管理``l通過數(shù)據(jù)服務標準化開放訪問,幫助企業(yè)IT建設(shè)中,應用和數(shù)據(jù)分離,引入更多的應用開發(fā)商,促進應用的百花齊放和應用的專業(yè)性。l基于標準化接口,實現(xiàn)對標簽、客戶視圖、指標等數(shù)據(jù)查詢API封裝,實現(xiàn)與周邊系統(tǒng)實時互動,體現(xiàn)數(shù)據(jù)價值,減少數(shù)據(jù)冗余,保證數(shù)據(jù)安全,保證數(shù)據(jù)的一致l對于詳單級數(shù)據(jù),支持通過文件或授權(quán)的方式共享給周邊系統(tǒng)。l通過統(tǒng)一的技術(shù)平臺框架,制定企業(yè)數(shù)據(jù)標準體系規(guī)范,基礎(chǔ)數(shù)據(jù)采集匯總,可以引入多家廠商或多租戶進行標準化開發(fā)。要實現(xiàn)上述目標,需要解決的關(guān)鍵問題:3)開放什么內(nèi)容。包含兩部分,基礎(chǔ)數(shù)據(jù)的集成開發(fā)的開放和應用訪問層數(shù)據(jù)開放。4)開放的安全保障機制5)如何保證開放對象開發(fā)提交的結(jié)果的規(guī)范化、質(zhì)量。6)開放平臺運營的組織結(jié)構(gòu)和流程制度。要滿足建設(shè)目標的要求,數(shù)據(jù)服務開放的整個功能框架如下:`````4.2.1開放對象示例說明如下開放對象開放對象使用形式相關(guān)數(shù)據(jù)sql查詢數(shù)據(jù)能力,租戶可以在此基礎(chǔ)上匯總加工自己私有的數(shù)據(jù)SQL,進行數(shù)據(jù)處理各層的開放授權(quán)給數(shù)據(jù)通過文件接口將數(shù)據(jù)分發(fā)給對端系統(tǒng),滿足其數(shù)據(jù)分析需求客戶視圖,匯總模型等手機經(jīng)分通過在線同步API調(diào)用的方式獲取數(shù)據(jù)開放API指標類數(shù)據(jù)實時營銷客戶端通過事件注冊的方式監(jiān)聽主動通知監(jiān)聽客戶端消息服務信令位置信息等4.2.2開放共享方式```4.3.1概述采用多租戶的思路,將數(shù)據(jù)能力和數(shù)據(jù)平臺數(shù)據(jù)處理能力按需、可控的進行開放,在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下,通過標準化封裝的數(shù)據(jù)操作,可視化開發(fā)工具開放給業(yè)務運營部門,由其自行進行數(shù)據(jù)操作開發(fā)。使用企業(yè)級數(shù)據(jù)中心提供統(tǒng)一開發(fā)平臺來實現(xiàn)多租戶數(shù)據(jù)開發(fā),其功能結(jié)構(gòu)如下圖:``系統(tǒng)包括兩部分:開發(fā)管控和技術(shù)平臺。通過這兩部分互相配合實現(xiàn)系統(tǒng)開發(fā)能力的開這種模式下需要解決的關(guān)鍵問題包括如下:如何進行資源控制,數(shù)據(jù)權(quán)限管理,跨系統(tǒng)之間的數(shù)據(jù)交互,自動調(diào)度運行,元數(shù)據(jù)管理。4.3.2角色功能系統(tǒng)管理員:對開發(fā)團隊進行管理,數(shù)據(jù)權(quán)限和系統(tǒng)資源的分配、審批。1、設(shè)置開發(fā)團隊使用資源和賬號2、對開發(fā)團隊提出的數(shù)據(jù)權(quán)限申請進行審批授權(quán)3、表的敏感級別和敏感字段。不同團隊對同一數(shù)據(jù)安全級別可以不一樣4、對開發(fā)團隊上線進行審批。檢查性能,開發(fā)規(guī)范的滿足情況,調(diào)度申請周期是否合理5、對開發(fā)團隊數(shù)據(jù)導出安全進行審計租戶開發(fā):使用統(tǒng)一的技術(shù)架構(gòu)和開發(fā)工具,在可以使用的數(shù)據(jù)的基礎(chǔ),加工出私有2、新申請數(shù)據(jù)權(quán)限,如果需要新的數(shù)據(jù),可以進行申請,由管理員審批后就可以使用3、數(shù)據(jù)加工開發(fā),進行數(shù)據(jù)匯總、關(guān)聯(lián)查詢,數(shù)據(jù)導出等類型數(shù)據(jù)數(shù)據(jù)加工開發(fā)4、臨時上線、正式上線。5、對其所開發(fā)的程序數(shù)據(jù)運行情況監(jiān)控。4.3.3統(tǒng)一開發(fā)平臺技術(shù)詳解通過映射開發(fā)管理平臺帳號及執(zhí)行平臺帳號,以租戶的方式實現(xiàn)用戶及用戶組管理,以達到資源管控及數(shù)據(jù)權(quán)限控制的目的。如下圖,在管控平臺進行開發(fā)團隊的管理和對應賬號的設(shè)置,在數(shù)據(jù)平臺完成對租戶的`````每個開發(fā)團隊根據(jù)需要指定其在hadoop或關(guān)系數(shù)據(jù)現(xiàn)賬號的權(quán)限、資源的控制。在查詢或運行某個數(shù)據(jù)處理任務時,用其對應的賬號進行執(zhí)行。從而實現(xiàn)對開發(fā)團隊開發(fā)運行的任務資源、權(quán)限的控制。在管理平臺新建租戶的賬號或數(shù)據(jù)權(quán)限變更時,管理平臺根據(jù)配置參數(shù),實時調(diào)用在管控平臺統(tǒng)一對租戶進行計算資源的分配,分配完的參數(shù)部署到hadoop或關(guān)系數(shù)據(jù)計算資源控制原理資源池跟系統(tǒng)的賬號相關(guān)。一個系統(tǒng)賬號只能屬于一個資源池,YARN支持采用資源池方式對系統(tǒng)用戶進行CPU,內(nèi)存的運行控制。獨占資源:最小分配的資源。系統(tǒng)確保此用戶有最小的資源。共享資源:系統(tǒng)空閑時可以使用的最大資源如何設(shè)置租戶的資源參數(shù),是一個需要不斷根據(jù)運行情況進行優(yōu)化的過程。`````在DB29.5版本推出了工作負載管理WLM(參考分配給某個服務類的最小資源百分比。缺省值為0。),最少資源比例。在沒有沖突的情況下,服務類可獲得的資源可以超過該值設(shè)定的比例。缺省值100說明:hadoop存儲控制采用的是操作系統(tǒng)的享可用空間。即一個目錄大小分配出去之后,意味其就占有了這個空間。因此一般做法是由小到大慢慢分配空間。數(shù)據(jù)權(quán)限的控制包括:表級權(quán)限控制和字段級的權(quán)限控制:進行執(zhí)行完成權(quán)限控制。注:在管理平臺分配的是邏輯模板表,數(shù)據(jù)平臺控制的是實際的表。因此有一個模塊專門按模板表的權(quán)限規(guī)則轉(zhuǎn)換為物理表的授權(quán)腳本執(zhí)行。方式1:建立視圖,過濾掉沒有權(quán)限的字段,然后將視圖授權(quán)給相關(guān)賬號。實現(xiàn)字`````方式2:通過應用級的控制。通過開發(fā)人員編寫的sql語句解析,分析其查詢中所用到的字段,如果字段超出權(quán)限范圍,則給出提示,不允許執(zhí)行。開發(fā)人員可以查看到所有的數(shù)據(jù)字典。查看內(nèi)容包括數(shù)據(jù)表名,中文名稱,描述信息,存儲位置、數(shù)據(jù)結(jié)構(gòu)。通過調(diào)用基礎(chǔ)平臺的元數(shù)據(jù)實現(xiàn)數(shù)據(jù)字典查看。通過開發(fā)平臺配置數(shù)據(jù)處理流程,可支持庫內(nèi)與庫外、云平臺與關(guān)系數(shù)據(jù)庫的混搭```在界面上可以立即執(zhí)行某個節(jié)點或整個處理流程,執(zhí)行過程和日志信息會實時輸出到前開發(fā)人員在界面上直接提交上線。包括臨時上線和正式上線兩種。臨時上線需要開發(fā)人員填寫生效的開始日期,結(jié)束日期,調(diào)度周期。正式上線,系統(tǒng)管理管理員會進行審批。審批的項目包括:程序名稱,表名是否規(guī)范,字段名稱和中文信息是否完整。程序上線后,調(diào)度平臺就會根據(jù)程序數(shù)據(jù)依賴關(guān)系自動進行調(diào)度。如果是臨時上線的只有調(diào)度運行在有效期內(nèi)的程序才會被調(diào)度執(zhí)行。程序開發(fā)人員可以申請延長有效期或申請固定上線。多租戶調(diào)度使用平臺提供的統(tǒng)一調(diào)度功能,實現(xiàn)過程如下:``依據(jù)輸入表關(guān)系,根據(jù)數(shù)據(jù)關(guān)系實現(xiàn)正確調(diào)度依賴運行。對租戶的臨時程序調(diào)度時,只會調(diào)度在有效期的程序才會調(diào)度。開發(fā)人員開發(fā)好的SQL腳本,可以到多個數(shù)據(jù)平臺上運行,系統(tǒng)需要進行正確選擇投入到相應的數(shù)據(jù)平臺運行。a)開發(fā)人員可以指定節(jié)點運行的數(shù)據(jù)庫,如下圖b)系統(tǒng)會對開發(fā)人員的編寫的sql進行解析,獲取其依賴的輸入表和輸出表。再跟元數(shù)據(jù)進行對比自動選擇相應數(shù)據(jù)庫。選擇策略如下:`````應用層的所有業(yè)務應用具備與底層數(shù)據(jù)松耦合特性,通過接口層提供的各種數(shù)據(jù)接口,向業(yè)務人員或第三方廠商提供開放API服務。根據(jù)不同的應用場景,通過對相應的API進行選擇和組合,從而快速生成所需要的業(yè)務應用,以滿足對應用的快速開發(fā)、部署、上線的對于應用的開發(fā)可通過兩種方式進行實現(xiàn):1、數(shù)據(jù)中心平臺內(nèi)應用開發(fā):通過數(shù)據(jù)中心提供的應用開發(fā)平臺直接進行應用開發(fā),開發(fā)平臺提供高效的可視化開發(fā)界面,包括對各類API可以追根溯源,展現(xiàn)詳細API元數(shù)據(jù)信息等。同時對應用設(shè)計、應用開發(fā)、應用測試、應用上線、應用下線進行全流程、全生命周期的開發(fā)管控。此類開發(fā)場景主要適用于不具備硬件資源的用戶(如業(yè)務部門開發(fā)人員)進行應用開發(fā)。2、數(shù)據(jù)中心平臺外應用開發(fā):通過Http協(xié)議數(shù)據(jù)服務接口,直接調(diào)用數(shù)據(jù)中心服務層中的各類API服務,通過開發(fā)編寫相應的計算過程形成對應的業(yè)務應發(fā)場景主要適用于具備硬件資源(如第三方廠商)的用戶進行應用開發(fā)。本期從外部系統(tǒng)接入8類數(shù)據(jù)源,所有清單數(shù)據(jù)在企業(yè)數(shù)據(jù)中心進行基礎(chǔ)匯總,提供數(shù)`````標簽庫應用:所有標簽數(shù)據(jù)計算、存儲在數(shù)據(jù)中心,標簽結(jié)果數(shù)據(jù)在HIVE和HBASE分別存儲一份數(shù)據(jù),HIVE上存儲的數(shù)據(jù)通過Spark的RDD對外提供“根據(jù)標簽查用戶群”API,HBASE上存儲的數(shù)據(jù)對外提供“根據(jù)號碼查標簽信息”API。指標庫:所有指標計算、存儲在數(shù)據(jù)中心,結(jié)果數(shù)據(jù)存儲在RDB,通過“KPI查詢”掌上經(jīng)分應用支撐:掌上經(jīng)分需要的KPI由經(jīng)分提供,改為由數(shù)據(jù)中心“KPI查詢”實時營銷支撐:將MC位置信令事件集成到數(shù)據(jù)中心,由數(shù)據(jù)中心提供消息事件給實LTE互聯(lián)網(wǎng)管控策略(PCC)、自有業(yè)務分析平臺、區(qū)域價值洞察:對于這些規(guī)劃中的系統(tǒng),建議采用多租戶的方式,在企業(yè)數(shù)據(jù)中心完成數(shù)所需的數(shù)據(jù)源,統(tǒng)一由數(shù)據(jù)中心將DWD、DW層數(shù)據(jù)分發(fā)文件給各系統(tǒng),由應用系統(tǒng)自行進行數(shù)據(jù)加工及展現(xiàn)。```企業(yè)數(shù)據(jù)中心統(tǒng)一門戶的建設(shè)是為了降低系統(tǒng)使用人員訪問數(shù)據(jù)中心的難度,提高系統(tǒng)的易用性,并且實現(xiàn)數(shù)據(jù)中心的資源有機整合和統(tǒng)籌管理。1.數(shù)據(jù)開放服務門戶:對于數(shù)據(jù)開放服務提供開發(fā)者門戶,含有數(shù)據(jù)服務授權(quán)申請、開發(fā)者幫助文檔、服務注冊、創(chuàng)建、注銷等。2.管控平臺門戶:對整個數(shù)據(jù)中心管控平臺使用者門戶,系統(tǒng)管理、運維調(diào)度、質(zhì)量3.應用使用門戶:對于應用使用者的門戶,支持多租戶應用、第三方應用的集成統(tǒng)一統(tǒng)一門戶功能框架如下圖所示門戶功能框架包括門戶接入、門戶功能兩部分;通過功能適配到角色工作臺形成不同的門戶功能:包括角色工作臺、認證管理、權(quán)限管理、用戶管理、流程審批、數(shù)據(jù)開發(fā)、應用開發(fā)、數(shù)據(jù)授權(quán)、運維監(jiān)控、多租戶管理等界面。7.2.1功能框架元數(shù)據(jù)管理是需要將各系統(tǒng)的信息、設(shè)計工具信息、生產(chǎn)平臺信息,進行收集管理,統(tǒng)一管理。提供一個視圖,以幫助使用人員了解系統(tǒng)的數(shù)據(jù)分布、數(shù)據(jù)關(guān)系、業(yè)務規(guī)則、指標口徑等。元數(shù)據(jù)包括:系統(tǒng)類元數(shù)據(jù)、技術(shù)類元數(shù)、管理類元數(shù)據(jù)??傮w功能框架圖``針對數(shù)據(jù)中心的要求,元數(shù)據(jù)管理需要具備的關(guān)鍵的特性如下:1)要求提供標準化的應用開發(fā)工具,滿足在不同平臺上的開發(fā)需求2)100%的ETL開發(fā)、數(shù)據(jù)模型開發(fā)、應用開發(fā)能基于開發(fā)工具實現(xiàn)3)95%以上的元數(shù)據(jù)能自動采集、解析與管理,元數(shù)據(jù)的范圍包括但不局限于數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)詞典、字段維度、程序映射邏輯、數(shù)據(jù)生命周期等4)多租戶的統(tǒng)一元數(shù)據(jù)管理7.2.2基于元數(shù)據(jù)的應用開發(fā)工具提供統(tǒng)一的應用開發(fā)工具,完成高效應用的開發(fā),并可以自動完成應用元數(shù)據(jù)的采集。提供諸如數(shù)據(jù)展示包括報表工具,儀表盤分析等工具如1、支持常見的各種報表樣式2、支持常見各種分析圖,同時支持圖表組合分析3、支持各種數(shù)據(jù)源方式`````7.2.3基于元數(shù)據(jù)的數(shù)據(jù)開發(fā)工具采用元數(shù)據(jù)驅(qū)動(MDA)設(shè)計理念,去規(guī)劃元數(shù)據(jù)對象的創(chuàng)建、運行、評估、維護各環(huán)節(jié)數(shù)據(jù)模型設(shè)計提供數(shù)據(jù)周期、數(shù)據(jù)表級字段級銘感設(shè)置、字段口徑定義。數(shù)據(jù)流程設(shè)計設(shè)計程序輸入表和輸出表的元數(shù)據(jù)信息。程序開發(fā)根據(jù)設(shè)計的內(nèi)容轉(zhuǎn)換成開發(fā)內(nèi)容。開發(fā)人員就可以在此基礎(chǔ)上進行開發(fā)。提供各個接入平臺統(tǒng)一封裝函數(shù),降低開發(fā)難度數(shù)據(jù)質(zhì)量控制1.常規(guī)檢查。包括及時性,運行狀態(tài),運行時長,處理記錄數(shù)等進行常規(guī)檢查。2.對程序日志進行稽核。包括單步的處理時長,記錄數(shù)的波動等3.對程序的目標表啟動檢查。檢查目標的統(tǒng)計指標值,關(guān)鍵字段維度、層次間數(shù)據(jù)的一致性進行檢查提供程序界面測試功能對開發(fā)內(nèi)容進行測試和調(diào)優(yōu),檢查質(zhì)量規(guī)范,性能,質(zhì)量是否滿足期望發(fā)布應用到正式運行環(huán)境開發(fā)人員程序的處理步驟信息。包括程序步驟編號,調(diào)用函數(shù),執(zhí)行腳本程序輸入輸出關(guān)系。輸入模型,輸出模型程序的字段映射規(guī)則。輸入模型到輸出模型的轉(zhuǎn)換規(guī)則`````設(shè)計數(shù)據(jù)模型,設(shè)置數(shù)據(jù)存儲周期,敏感級別,數(shù)據(jù)模型數(shù)據(jù)流設(shè)計,支持模型字段映射關(guān)系設(shè)計設(shè)計程序輸入表和輸出表.輸入表可以是文件,也可以是遠程數(shù)據(jù)庫上的某個表。目標表可以是文件也可以是遠程目標數(shù)據(jù)庫上的表。對輸入表和輸出表,進行表結(jié)構(gòu)的設(shè)計。包括表的基本信息,存儲信息和表的關(guān)系。根據(jù)不同的存儲類別,會有設(shè)計參數(shù)上的差異。根據(jù)表的關(guān)系和表模型信息,進行轉(zhuǎn)換映射。映射規(guī)則包括合并,拆分,規(guī)則轉(zhuǎn)換,函數(shù)轉(zhuǎn)換等常見的操作`````統(tǒng)一封裝的函數(shù)庫,屏蔽底層差異性,通過類sql編寫,或函數(shù)調(diào)度,實現(xiàn)跨平臺統(tǒng)一開發(fā)。根據(jù)數(shù)據(jù)倉庫處理過程抽象出5大類通用函數(shù)庫,統(tǒng)一調(diào)用參數(shù)接口,開發(fā)人員針對不同不平臺實現(xiàn)無差異的開發(fā)。如將某類數(shù)據(jù)文件加載到數(shù)據(jù)庫中,開發(fā)人員只要指定數(shù)據(jù)文件路徑和目標表。系統(tǒng)執(zhí)行時如果是要入庫到DB2調(diào)用DB2的命令,如果通過可視化的流程界面,拖拽方式實現(xiàn)對函數(shù)的編排,對每個節(jié)點函數(shù)編寫參數(shù),實現(xiàn)數(shù)據(jù)加工功能。降低開發(fā)難度。開發(fā)時候,對函數(shù)進行編排,填寫節(jié)點函數(shù)參數(shù)。實現(xiàn)一個具體的數(shù)據(jù)處理過程`````開發(fā)的腳本中自動解析建立元數(shù)據(jù):輸入表和輸出表的關(guān)系;腳本類的開發(fā)工具,集成了開發(fā),測試,上線集成操作。同時將函數(shù)庫,數(shù)據(jù)模型統(tǒng)一進行集成;7.2.4關(guān)鍵技術(shù)說明1、在開發(fā)過程中通過IDE工具產(chǎn)生結(jié)構(gòu)化的元數(shù)據(jù)信息。```2、在上線時,對元數(shù)據(jù)內(nèi)容進行稽核檢查,保證元數(shù)據(jù)信息的完整性,合理性。通過統(tǒng)一的上線作為管理的控制點。每個團隊提交要上線的內(nèi)容,存到統(tǒng)一元數(shù)據(jù)庫進行標準化上線時檢查的內(nèi)容:程序需要提交的內(nèi)容:程序本身的信息和程序輸出表的信息。``這些輸出到同一的元數(shù)據(jù)中心,進行統(tǒng)一的標準化和規(guī)范化檢查統(tǒng)一的標準與規(guī)范,統(tǒng)制定基本的規(guī)范和標準,不管哪個開發(fā)小組開發(fā)的內(nèi)容必須滿足這通過流程管理實現(xiàn)對數(shù)據(jù)處理過程的統(tǒng)一管控,并提供一系列工具實現(xiàn)數(shù)據(jù)處理過程可視化、可管控,它包括對系統(tǒng)資源、軟件資源、業(yè)務應用、參與人員等各種資源統(tǒng)一管理,綜合監(jiān)控平臺,隨時重現(xiàn)大數(shù)據(jù)環(huán)境中各個組成部分相互依賴,為各級IT管理人員提供從資源規(guī)劃、資源收集、性能分析、故障定位與處理、統(tǒng)計分析、知識沉淀與管理過程的支持7.3.1流程引擎流程管理集成自有輕量型流程引擎來完成各類流程快速配置開發(fā)。功能如下:在流程定義、執(zhí)行、管理控制等階段,業(yè)務和IT人員的高度一致流程運行,以及整體性能查看和監(jiān)控可視化提供靈活的手段實現(xiàn)流程的修改和演進支持流程模式以及部門協(xié)同,支持流程中的附件添加和查看自帶的業(yè)務規(guī)則和決策表支持分支選擇,路由到特定用戶、用戶組、角色、投票規(guī)`````則、例外和事件處理、服務水平監(jiān)控規(guī)則等2、流程仿真、優(yōu)化和分析3、開發(fā)管控、版本控制4、流程評估和監(jiān)控分析通過元數(shù)據(jù)獲取作業(yè)輸入表作為作業(yè)啟動的前置條件1、通過數(shù)據(jù)流程設(shè)計來確定數(shù)據(jù)關(guān)系2、人工進行修改作業(yè)輸入、輸出3、支持手工設(shè)置前置作業(yè)作業(yè)任務資源占用類型評估采集程序的歷史運行時長,處理記錄數(shù)等關(guān)鍵指標,支持系統(tǒng)自動測算和人工指定,對程序的資源占用類型分為三類:1、高:運行時長特別長,處理記錄數(shù)比較多2、中:處理記錄數(shù)相對較小,處理步驟多,時間較長。3、低:運行時間很短的程序作業(yè)任務靜態(tài)優(yōu)先級按照應用的重要性,根據(jù)血緣分析,尋找路徑上的所有處理任務。1、重要越高的應用,其路徑上的節(jié)點的任務優(yōu)先級越高。2、人工進行修改維護```7.5.1數(shù)據(jù)生命周期管理不管通過什么方式完成開發(fā),上線必須保證數(shù)據(jù)的相關(guān)的信息完整性,合理性。由數(shù)據(jù)管理員負責對上線要素信息的檢查。保證在上線時信息要素被正確保存,以作為后續(xù)使用。上線檢查基本信息要素權(quán)限信息要素:表的基本信息檢查表結(jié)構(gòu)表存儲信息設(shè)置系統(tǒng)規(guī)范性自動檢測檢查表的實際存儲情況和規(guī)劃存儲周期情況進行對比,發(fā)現(xiàn)規(guī)劃與實際的差距,查找原安全策略管理:對數(shù)據(jù)加密的密鑰管理,敏感數(shù)據(jù)定義,賬號權(quán)限,離線數(shù)據(jù)終端的注安全策略檢測:對安全策略是否實施到位進行自動檢測。如敏感信息是否有加密,賬號安全審計監(jiān)控:對數(shù)據(jù)所有的使用日志進行審計,是否涉及到敏感數(shù)據(jù)非法使用。檢查文件空間,表空間等信息是否滿足生產(chǎn)的要求。功能說明:對數(shù)據(jù)價值成本進行評估,對數(shù)據(jù)存儲、處理、應用進行優(yōu)化。評估算法:前臺應用使用次數(shù)支持前臺應用使用次數(shù)支持kpi,指標統(tǒng)計的個數(shù)分發(fā)給外部系統(tǒng)接口可外部應用調(diào)用次數(shù)存儲成本計算成本開發(fā)成本運維成本管理成本分攤應用的點擊次數(shù)平均分攤給應用鏈路上的所有表KPI應用次數(shù)平均分攤給KPI的統(tǒng)計表鏈路上的所有表(分發(fā)給外部表,平均分攤給分發(fā)接口表鏈路上的所有表)*加權(quán)系數(shù)(外部應用調(diào)用表次數(shù)平均分攤給應用表鏈路上的所有表)*加權(quán)系數(shù)表的大小*(存儲擴容的投資總額/總空間大小)處理表數(shù)據(jù)總時長*(主機擴容的投資總額/所有程序的運行總時長)表的字段數(shù)*(每年新業(yè)務開發(fā)費用/表的總字段數(shù)維護費用/表的總數(shù)成本項目管理總成本/表的總數(shù)成本項目應用場景:從表的在數(shù)據(jù)使用過程中和數(shù)據(jù)應用中對表的重要性進行評估,輸出表重要性級別。包括存儲規(guī)則的配置示例如下:``存儲周期的計算,計算表到期時間。如果到期了,則這個表可以進行刪除或轉(zhuǎn)儲。通過對數(shù)據(jù)關(guān)系的分析,發(fā)現(xiàn)孤立表或無效表。根據(jù)表名判斷此表大約含義,建表日期、狀態(tài)日期,表內(nèi)數(shù)據(jù)時間等判斷此表最后更新```通過數(shù)據(jù)的使用日志,對孤立表和無效表進行判斷是否有使用如果滿足以上3點,就可以判斷此表無使用和處理.就可以進行下線處理。系統(tǒng)中存在著大量的冗余的數(shù)據(jù)。比如從清單上的進行匯總的表就非常多,這些匯總表中有些存在相識性,這就造成了大量的冗余數(shù)據(jù),這些大量的冗余數(shù)據(jù),一方面給數(shù)據(jù)的精確性和可靠性將帶來影響,同時也影響著數(shù)據(jù)庫的性能。要解決這個問題有兩個環(huán)節(jié):發(fā)現(xiàn)冗余數(shù)據(jù)和冗余進行消除合并。輸出冗余表和合并輸入分析的起始表計算表的粒度層級數(shù)據(jù)關(guān)系的類別可以分為以下幾種:系統(tǒng)根據(jù)以上的關(guān)系類別,通過相識表的發(fā)現(xiàn)分析,自動建立數(shù)據(jù)之間的關(guān)系。1、表滿足存儲評估的到期條件2、同時滿足數(shù)據(jù)在各個已經(jīng)同步到優(yōu)化策略執(zhí)行策略下線清理位清理或轉(zhuǎn)儲下線清理1、滿足時效性分析發(fā)現(xiàn)的無效表清理人工確認轉(zhuǎn)存高端設(shè)備或內(nèi)存數(shù)性能優(yōu)化1、發(fā)現(xiàn)高查詢使用的表據(jù)人工確認冗余消除1、發(fā)現(xiàn)相似表或冗余表1、發(fā)現(xiàn)抽取過多的字段但沒有使用數(shù)據(jù)合并人工確認人工確認冗余字段到優(yōu)化抽取策略多系統(tǒng)協(xié)同生命周期管理:可以制定在不同的庫不同存儲策略,如最近數(shù)據(jù)和歷史數(shù)據(jù)自動管理與手工管理:支持系統(tǒng)自動管理,自動清理,同時對一些重點的表進行手工審對滿足下線的表的進行數(shù)據(jù)下線。為了安全起見,對重要的表、不確定的冗余表等,可以先預下線,再下線。將表的權(quán)限都收回,確保所有的使用者都無法使用此表。標識此表狀態(tài)為:預下線狀態(tài)。過了預下線期限后,就可以執(zhí)行下線的操作了。如果此期間,有人提出需要此表,就可以進行回退,恢復權(quán)限配置、狀態(tài)。對下線的表,刪除表,同時需要清理數(shù)據(jù)、程序。系統(tǒng)根據(jù)元數(shù)據(jù)信息自動分析給出,此表的獨有程序和輸入表。這些表和程序就是要下根據(jù)這些表獨有的程序和輸入表,從后臺調(diào)度系統(tǒng)停止移除相關(guān)的程序,清理的獨有表7.5.2數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理的總體目標:常態(tài)化、體系化、標準化、自動化的全面數(shù)據(jù)質(zhì)量管理,以達到數(shù)據(jù)質(zhì)量控制的全面性、可控性、可度量性、可迅速定位和有效解決。通過流程制度建設(shè)、質(zhì)量評估體系建設(shè)、質(zhì)量檢測IT平臺建設(shè)實現(xiàn)TDQM(TotalDataQualityManage),即企業(yè)級全面數(shù)據(jù)質(zhì)量管理。提供數(shù)據(jù)質(zhì)量稽核規(guī)則統(tǒng)一配置,并支持對質(zhì)量規(guī)則的定義和任意節(jié)點的附加。過程中所產(chǎn)生事件及信息形成告警信息,通過短信、彩信、郵件的形式進行發(fā)送。從上表格中可以看出在經(jīng)分的日常生產(chǎn)中產(chǎn)生的問題大部分都可以上線前的嚴格控制來避免,這說明了數(shù)據(jù)質(zhì)量的重要性。支持質(zhì)量規(guī)則的增、刪、改、查操作。支持定義元數(shù)據(jù)對象的質(zhì)量規(guī)則,如接口質(zhì)量規(guī)則,程序質(zhì)量規(guī)則,數(shù)據(jù)模型質(zhì)量規(guī)則,指標質(zhì)量規(guī)則,報表質(zhì)量規(guī)則?;藢ο竽0迮渲檬菚π枰藢ο蟮幕拘畔?,包括稽核對象的基礎(chǔ)實體配置,稽核所需要的數(shù)據(jù)實體,對象的稽核結(jié)果匯總及詳細信息。支持將質(zhì)量規(guī)則根據(jù)相關(guān)性附加到各個節(jié)點,分別進行不同類別的質(zhì)量規(guī)則檢查。``在點擊編輯后編輯規(guī)則的詳細配置,平臺提供十多種的檢查函數(shù)函數(shù)名稱函數(shù)說明數(shù)組比較比較單列數(shù)組是否一樣字符串比較如:是否通過SQL解析建立映射關(guān)系;檢查是否存在沒有與任何數(shù)據(jù)處理過程建立數(shù)據(jù)處理關(guān)系的數(shù)據(jù)實體跨庫字符串比滿足約定條件,得到預訂的結(jié)果,注意:else沒有條件時寫成{}較非空檢查選擇某個參數(shù),此參數(shù)不能為空數(shù)值比較選擇數(shù)值進行比較,比較參數(shù)可以是sql語句,也可以是常量或變量跨庫數(shù)值比較進行多庫之間的數(shù)值比較值域檢查判斷某個值是否在指定范圍之內(nèi)數(shù)組屬性對比取數(shù)組中某個時間的所有屬性值跟指定時間的所有屬性值進行對比,先要確保數(shù)組定義中包含時間字段和對比時間的數(shù)據(jù)數(shù)組維度波動取數(shù)組中某個時間的所有屬性值跟指定時間的所有屬性值進行對比,先要確保對比數(shù)組定義中包含時間字段和對比時間的數(shù)據(jù)數(shù)組分量與總總體波動與成員波動的允許范圍量波動對比相關(guān)性比較相關(guān)性對比,取相關(guān)對象的指標值范圍波動檢查`````靜態(tài)表屬性變動檢查靜態(tài)表屬性波動檢查檢查新增或減少的成員或當新增或減少的成員占比大于指定范圍時告警檢查成員自身的波動率范圍按SQL語句返回檢查結(jié)果,如果結(jié)果集為空則檢查通過,否則不通過上線前檢查在開發(fā)階段定義好各元數(shù)據(jù)對象的質(zhì)量規(guī)則,在上線時,調(diào)用檢查規(guī)則對上線的指標進行檢查是否滿足質(zhì)量的規(guī)則,在一開始規(guī)避一些常見的錯誤。源系統(tǒng)變更檢查能夠跟接口程序結(jié)合起來,當字段變更時,能夠判斷出對應接口的對應接口號和對應接口文件哪個字段發(fā)生了變更。```字段維值主要將一個表的某個字段的不同值的數(shù)量和值的大小與之前的快照進行對比,可發(fā)現(xiàn)值的數(shù)目或者值的大小的變化情況。檢查邏輯上的合理性,如成為大客戶時間必須晚于開戶時間,狀態(tài)在用的號碼必須是唯對運行過程的對象設(shè)置質(zhì)量規(guī)則,在運行過程中及時調(diào)用這些規(guī)則對運行結(jié)果第一時間進行稽核,以及時發(fā)現(xiàn)問題。發(fā)現(xiàn)問題后,及時展示監(jiān)控到的當前告警信息,并將錯誤信息發(fā)送至告警集中管理??梢詫Ω婢M行定位分析、相似問題分析、轉(zhuǎn)問題單或解除(誤報的告警信息)。業(yè)務指標監(jiān)控將指標的管理進行集中化、標準化、管理體系化和檢查自動化。如提供如下形式:基本數(shù)值和規(guī)則檢查、指標趨勢波動分析、指標對比檢查分析、成員占比變化異常分析、指標相關(guān)性檢查分析、維度成員排名變化異常分析等?;私Y(jié)果展示根據(jù)稽核對象模板配置展示展現(xiàn)稽核結(jié)果:``支持針對一個有問題的指標,利用元數(shù)據(jù)的血緣分析尋找出指標處理路徑上的程序、接口節(jié)點,在根據(jù)每個處理過程節(jié)點的質(zhì)量監(jiān)控檢測,發(fā)現(xiàn)有問題的處理環(huán)節(jié),以幫助快速定位,能幫助運維人員快速處理。1)支持質(zhì)量知識庫中知識條目的增、刪、改、查操作。2)支持將生產(chǎn)系統(tǒng)運行過程產(chǎn)生的問題、人員報告數(shù)據(jù)質(zhì)量問題、維護發(fā)現(xiàn)的問題、用戶投訴報障的問題經(jīng)過處理過程轉(zhuǎn)到知識庫,對問題的原因和解決方法進行分類,便于將來人員學習參考。3)支持按周期形成質(zhì)量分析報告,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論