企業(yè)大數(shù)據(jù)平臺功能優(yōu)化方案_第1頁
企業(yè)大數(shù)據(jù)平臺功能優(yōu)化方案_第2頁
企業(yè)大數(shù)據(jù)平臺功能優(yōu)化方案_第3頁
企業(yè)大數(shù)據(jù)平臺功能優(yōu)化方案_第4頁
企業(yè)大數(shù)據(jù)平臺功能優(yōu)化方案_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、企業(yè)大數(shù)據(jù)平臺功能優(yōu)化方案目 錄 TOC o 1-3 h z u HYPERLINK l _Toc54628153 1. 平臺優(yōu)化方案 PAGEREF _Toc54628153 h 3 HYPERLINK l _Toc54628154 1.1 概述 PAGEREF _Toc54628154 h 3 HYPERLINK l _Toc54628155 1.2 優(yōu)化完善方案 PAGEREF _Toc54628155 h 3 HYPERLINK l _Toc54628156 1.2.1 數(shù)據(jù)層優(yōu)化完善 PAGEREF _Toc54628156 h 3 HYPERLINK l _Toc54628157

2、1.2.2 數(shù)據(jù)服務及優(yōu)化 PAGEREF _Toc54628157 h 15 HYPERLINK l _Toc54628158 2. 其他功能描述 PAGEREF _Toc54628158 h 16 HYPERLINK l _Toc54628159 2.1 其他優(yōu)化需求 PAGEREF _Toc54628159 h 16 HYPERLINK l _Toc54628160 2.2 非功能性需求 PAGEREF _Toc54628160 h 16 HYPERLINK l _Toc54628161 2.2.1 范圍 PAGEREF _Toc54628161 h 16 HYPERLINK l _To

3、c54628162 2.2.2 可用性 PAGEREF _Toc54628162 h 17 HYPERLINK l _Toc54628163 2.2.3 易用性 PAGEREF _Toc54628163 h 17 HYPERLINK l _Toc54628164 2.2.4 可維護性 PAGEREF _Toc54628164 h 18 HYPERLINK l _Toc54628165 2.2.5 低耦合性 PAGEREF _Toc54628165 h 19 HYPERLINK l _Toc54628166 2.2.6 可伸縮性 PAGEREF _Toc54628166 h 19 HYPERLI

4、NK l _Toc54628167 2.2.7 架構(gòu)約束 PAGEREF _Toc54628167 h 19平臺優(yōu)化方案概述優(yōu)化完善和運維方案重點描述我公司在本項目實施過程中針對于大數(shù)據(jù)云平臺按照招標文件的要求是如何開展運維服務和優(yōu)化完善先關工作的,將分別從平臺層、數(shù)據(jù)層、功能應用優(yōu)化、數(shù)據(jù)服務優(yōu)化等多個維度展開相應的敘述。優(yōu)化完善方案數(shù)據(jù)層優(yōu)化完善數(shù)據(jù)集成優(yōu)化完善數(shù)據(jù)集成運維的優(yōu)化有以下2個方面:源端的優(yōu)化、平臺端的優(yōu)化源端的優(yōu)化對于數(shù)據(jù)集成的源端優(yōu)化來說,最重要的是對于要接入云平臺進行抽取的數(shù)據(jù)源進行安全策略的開通,這個步驟實施的時間長短直接影響到數(shù)據(jù)集成的效率乃至后續(xù)的加工流程。此過程建

5、議源端省局配置相關的對接人,當有需求提出的時候,盡量在規(guī)定時間內(nèi)進行需求的響應。其次,源端的帶寬也是一個重要的影響因素,因為每個省局的數(shù)據(jù)庫的配置和網(wǎng)絡不同,存在一些硬件上的差異,導致了各單位數(shù)據(jù)集成的結(jié)束時間不一致。在資源允許的情況下,建議將配置或帶寬配置到最優(yōu),這樣能保證云平臺對數(shù)據(jù)集成的最高效。平臺端的優(yōu)化對于每日的數(shù)據(jù)集成運行情況,開發(fā)任務監(jiān)控平臺,通過此平臺的監(jiān)控可以查看到各單位的部署的不同任務大類下的任務運行情況。此平臺功能包括失敗任務的重跑,日志查看等。此平臺的查詢效率要比odps的高,時效性較好,對于日常任務的運維效率提升較大。任務監(jiān)控平臺后續(xù)增加但不限于日常調(diào)度任務的數(shù)據(jù)量的

6、比對功能,通過對比源端和目標端集成的某個時間點的數(shù)據(jù)量,可將有差異的單位對應的表進行顯示。任務監(jiān)控平臺后續(xù)增加但不限于全量任務的初始化功能,通過前臺頁面的點擊事件就可以做到數(shù)據(jù)的修復以及完善,保證數(shù)據(jù)的高可用、高準確性。任務監(jiān)控平臺后續(xù)增加但不限于表結(jié)構(gòu)的對比功能,通過前臺的展示頁面,可以看到源端和目標端的字段級別的差異,哪一天新增了,修改了,刪除了哪些字段,為下游的供數(shù)提供支持。因為源端的某些表存在不定期的刪除數(shù)據(jù)的情況,導致云平臺在進行切片抽取的情況下,會產(chǎn)生差異,建議源端對于一些會刪數(shù)據(jù)的表對總局這邊進行通知,將這些會刪除數(shù)據(jù)的表進行一個統(tǒng)計,在進行差異比對的時候可以有所參考。數(shù)據(jù)集成鏈

7、路優(yōu)化目前稅務的業(yè)務系統(tǒng)都是部署在省局的單位的,如何把省局的數(shù)據(jù)準確快速的傳輸?shù)娇偩值脑破脚_進行數(shù)據(jù)分析是一個非常有挑戰(zhàn)性的工作。目前從地方單位到總局的數(shù)據(jù)鏈路是基于【生產(chǎn)庫-分發(fā)庫-副本庫-云平臺】鏈路,下階段計劃將鏈路修改為【生產(chǎn)庫-分發(fā)庫-云平臺】鏈路。兩種數(shù)據(jù)鏈路的對比圖。舊的數(shù)據(jù)鏈路總局云平臺是從分發(fā)庫通過ADG鏈路傳輸?shù)娇偩帜虾C房的副本庫,云平臺使用datax直接抽取副本庫中的數(shù)據(jù)。新的數(shù)據(jù)鏈路是分發(fā)庫通過OGG把增量數(shù)據(jù)文件落地文本,壓縮后傳輸?shù)娇偩帜虾C房,再使用datax傳輸?shù)皆破脚_。兩個鏈路比較:一、捕獲數(shù)據(jù)變化。舊的鏈路捕獲數(shù)據(jù)變化的方式,更新與插入主要靠業(yè)務庫同步到分

8、發(fā)庫后數(shù)據(jù)寫入時的數(shù)據(jù)同步時間識別,刪除只能通過同步全表主鍵的方式識別。因為刪除識別需要獲取大表全量數(shù)據(jù)的效率很難保障在8個小時內(nèi)都完成,對時效性有巨大的犧牲。新的鏈路自然在數(shù)據(jù)中就都捕獲到了增量數(shù)據(jù)的記錄插入、修改、刪除三種變化狀態(tài),默認就能識別刪除。所以,理論時效性會大大優(yōu)于舊的鏈路。二、傳輸量于延時。以廣東國稅為例,新鏈路工作日一般生成的數(shù)據(jù)文件(壓縮后)為2G,非工作日為1G。版本發(fā)布等特殊情況會暴增到20G+(500KB速度需要12小時),但是對數(shù)據(jù)采集傳輸影響也不會太大。相比起來,舊的ADG鏈路的數(shù)據(jù)傳輸數(shù)倍于這個量。舊的鏈路以分發(fā)庫到副本庫鏈路零延時來確定延時情況,所以,延時情況

9、較為常見。尤其發(fā)版本等特殊情況,延時會比較長,一般總有個別單位會突然延時幾條。但是新的鏈路只是以分發(fā)庫本身作為延時檢測的庫,不存在分發(fā)庫自己延時自己的情況。所以,延時只是分發(fā)庫數(shù)據(jù)落地文件的很小的時間片段,按照現(xiàn)在10分鐘獲取一次數(shù)據(jù),一般不會超過10分鐘。三、故障與運維。相比舊的鏈路,新的鏈路跳過了副本庫這個點,鏈路更短,遇到的故障會更少。但是運維從總局一級,分布到了地方70個單位,運維成本增加,復雜度也增加。四、復雜度。從整體上來看,新鏈路的路徑似乎縮短了。但是數(shù)據(jù)傳輸這一步需要云平臺程序保障。且還要新增加產(chǎn)品和鏈路,實際比舊的方案更復雜。總結(jié)起來就是新的鏈路時效性增強了,理論的技術鏈路縮

10、短導致穩(wěn)定性也增強了,但是引入了復雜性。所以,平衡復雜性帶入的穩(wěn)定性問題,保障時效性是方案最終成功的必要因素。從目前復雜且低速的網(wǎng)絡環(huán)境來看,要想在總局實現(xiàn)T+1,這是最為現(xiàn)實的一個方案。新鏈路的具體改造步驟如下:一、分發(fā)庫環(huán)境準備:服務器擴容、網(wǎng)絡環(huán)境測試;二、云平臺環(huán)境準備:安全策略的開通、用戶的創(chuàng)建、服務器資源的檢查;三、分發(fā)庫數(shù)據(jù)生成工具及傳輸腳本的部署;四、云平臺版本自動升級程序的部署;五、云平臺延時檢查腳本部署;六、云平臺文件傳輸腳本部署;七、云平臺數(shù)據(jù)加載任務的部署;八、基礎層MERGE任務的部署;九、調(diào)試所有部署的腳本及任務;十、比對抽取數(shù)據(jù)的一致性及準確性?;A層優(yōu)化完善基礎

11、層機器現(xiàn)階段所在的資源組有3臺,對于日常12w左右的sql任務的調(diào)度運行,在未來的運行期當中,如果要想平臺的運行效率達到更高,建議考慮擴容,提升基礎層運行性能。因為資源組的并發(fā)是固定的,除了日常的任務調(diào)度,還存在日常對平臺的查詢操作,當查詢并發(fā)數(shù)達到平臺的上限后,就要排隊運行。基礎層是一個實際存儲的供下游加工使用的數(shù)據(jù)層,對于數(shù)據(jù)的準確性的監(jiān)控至關重要。開發(fā)但不限于前臺展示基礎層與源端的數(shù)據(jù)的差異頁面,同時可以查看到每張表的集成開始時間、結(jié)束時間、運行時長的排序,對于同一張表,可以看到所有單位的各項運行時間,通過查看可以看到哪個單位的運行時間較短或過長,引起的集成瓶頸可以反過來去通知省局,達到

12、監(jiān)控并且最優(yōu)化的目的。中間層優(yōu)化優(yōu)化任務監(jiān)控現(xiàn)在日常任務運維還停留在每天上班前半小時人為檢查數(shù)據(jù)質(zhì)量,比如:每天8點半運維人員進行每天代碼表的去重檢查,如果有數(shù)據(jù)重復則人為處理數(shù)據(jù)異常問題。我方計劃將中間層數(shù)據(jù)異常列入自動檢查范圍,優(yōu)化任務加工流程,將數(shù)據(jù)檢查任務放在每天任務啟動之前,保證基礎層加工完畢數(shù)據(jù)后,中間層第一時間進行數(shù)據(jù)異常檢查。瘦身計劃表字段級目前很多的冗余字段沒有發(fā)揮作用,尤其是一些申報附表,無論是從下游的字段級依賴,還是從日常的使用中,利用率都很低,計劃將一些不常用的字段去除,在滿足上層使用的前提下精簡表結(jié)構(gòu),達到減少存儲占用、加快任務加工速度的目的。例如:表zj_zz_sb

13、_sds14nd_jmsds_mx(減免所得稅優(yōu)惠明細表),除業(yè)務字段外,冗余字段如下圖所示:字段英文名字段類型字段中文名hy_dmstring行業(yè)代碼hymcstring行業(yè)名稱hyzl_dmstring行業(yè)中類代碼hyzlmcstring行業(yè)中類名稱hydl_dmstring行業(yè)大類代碼hydlmcstring行業(yè)大類名稱hyml_dmstring行業(yè)門類代碼hymlmcstring行業(yè)門類名稱djzclx_dmstring登記注冊類型代碼djzclxmcstring登記注冊類型名稱djzclxzl_dmstring登記注冊類型中類代碼djzclxzlmcstring登記注冊類型中類名稱d

14、jzclxdl_dmstring登記注冊類型大類代碼djzclxdlmcstring登記注冊類型大類名稱xzqhsz_dmstring行政區(qū)劃代碼xzqhmcstring行政區(qū)劃名稱dsjxzqhsz_dmstring地市級行政區(qū)劃代碼dsjxzqhmcstring地市級行政區(qū)劃名稱ssjxzqhsz_dmstring省級行政區(qū)劃代碼ssjxzqhmcstring省級行政區(qū)劃名稱ssjxzqhjcstring省級行政區(qū)劃簡稱swjg_dmstring稅務機關代碼swjgmcstring稅務機關名稱qxjswjg_dmstring區(qū)縣級稅務機關代碼qxjswjgmcstring區(qū)縣級稅務機關名稱

15、dsjswjg_dmstring地市級稅務機關代碼dsjswjgmcstring地市級稅務機關名稱ssjswjg_dmstring省級稅務機關代碼ssjswjgmcstring省級稅務機關名稱由上表可以看出,行業(yè)代碼冗余了行業(yè)中類、大類、門類代碼以及對應名稱,登記注冊類型也冗余了登記注冊類型中類、大類代碼以及對應名稱,稅務機關更是冗余了從區(qū)縣到省級的所有機關代碼、名稱和行政區(qū)劃代碼、名稱。冗余字段方便下游取數(shù),也貼合了云平臺的特性,但是這張表目前沒有下游任務在使用,所以目前的狀態(tài)可以確定冗余的這些字段在一定程度上是浪費資源的,這張表每個月都存儲一份在云平臺中,但是下游沒有任務用到,偶爾可能用到

16、的地方就是臨時需求統(tǒng)計,故將這些不常用字段進行瘦身,刪除這些字段,減少表之間的關聯(lián),達到加快任務加工速度,減少存儲的目的。表級目前一些表在中間層是沒有下游任務依賴的,計劃梳理后,分析這些表的業(yè)務用途,如果一些表的使用場景較少,則考慮縮小加工頻率,從每天加工變成每周或者每月加工一次。比如目前自助查詢中的指標,目前都是每天在加工,如果需求允許,可以切換到每周、或者每月加工一次。如每天加工的自助查詢指標,目前為每天加工,如果需求允許可以修改為每周加工。任務加工流程優(yōu)化目前任務較多,但重要業(yè)務表的加工完成時間受到眾多任務同時并發(fā)加工的影響,導致任務加工時間較長,加工流程優(yōu)化主要優(yōu)化的點:一、梳理出主要

17、常用業(yè)務表單,調(diào)整表單中的任務的優(yōu)先級,比如稅款信息表、申報表等。任務調(diào)度中的 HYPERLINK /item/%E4%BC%98%E5%85%88%E7%BA%A7/5643121 t _blank 優(yōu)先級是指云平臺給任務指定的優(yōu)先等級。它決定任務在使用資源時的優(yōu)先次序。任務優(yōu)先級默認為1,任務的優(yōu)先級越高,它能夠獲取的資源也越多。目前我方已經(jīng)將稅款信息表的優(yōu)先級調(diào)整為3,調(diào)節(jié)之后稅款信息任務加工時間得到了有效縮短,從8小時左右降低到了2小時30分鐘,保證了每天動態(tài)大屏所需數(shù)據(jù)的優(yōu)先供應。二、目前一些匯總?cè)蝿盏募庸ゎl率都是每天加工,和相關應用確認后,適當縮小加工頻率,從側(cè)面減少每天任務運行時

18、間。匯總層的表比如增值稅申報表附表1,分為按月匯總和按年匯總,如果下游應用或者模型對于此表的數(shù)據(jù)加工頻率在一個月或者半個月,則可以將加工頻率從每天加工降低到每月2次加工或者每月1次加工,達到釋放資源、縮短任務加工時長的目的。表模型優(yōu)化對于表模型前期設計考慮不足的問題,以后計劃設計模型的時候充分考慮表的業(yè)務含義,禁止對于表之間進行物理合并。如ZJ_ZRR_SB_GSSBABKJXX_MX(個稅申報A、B和扣繳表)此表中包括了個稅自行申報A表、自行申報B表和個稅扣繳信息表的內(nèi)容,但是在創(chuàng)建表模型的時候沒有從業(yè)務角度出發(fā),將3個業(yè)務含義不同的表簡單的進行了物理合并,即相同字段對照后進行合并為1張表,

19、并用代碼進行3張表數(shù)據(jù)的區(qū)分,目前已經(jīng)對這張表進行了處理,移除了自行申報A表和自行申報B表,保留個稅扣繳信息表。另外,對現(xiàn)有模型中的一些設計不足,在使用過程中發(fā)現(xiàn)后我方會及時解決,如果通過簡單的注釋修改或者是增加字段不能解決問題,則需要進行表的重建來解決問題。數(shù)據(jù)準確性數(shù)據(jù)準確性在存在的問題中解釋過,原因在副本庫延遲和代碼表去重問題。計劃接下來要著重在基礎層代碼去重問題,以解決中間層數(shù)據(jù)的準確性問題。主題層建設通過分析各應用數(shù)據(jù),對主題層的建設主要分為:基礎信息層、風險信息層、納稅信息層、發(fā)票信息層四大類。一、基礎信息層基礎信息層匯總納稅人基本涉稅信息,通過對歸集后的納稅人信息表進行精簡重構(gòu),

20、將目前需求中一戶式查詢和增值稅風險平臺等需求中對納稅人的查詢需求進行合并,如:表中冗余領票人信息,去除納稅人信息擴展表中一些不常用字段,比如郵件地址、網(wǎng)址等,計劃設計出一張可以滿足納稅人基礎信息查詢的表,供應用和模型層使用。二、風險信息層風險信息層匯總納稅人的風險信息,因風險信息大部分指標有獨立性,不能進行整合,故只進行指標的匯總。人為分類,可以按照納稅人人群區(qū)分,如增值稅發(fā)票風險指標,人群為一般納稅人。三、納稅信息層納稅信息層匯總納稅人粒度的申報和征收信息。如納稅人的月入庫、月凈入庫、年累計入庫、年累計凈入庫、當月入庫最大值、當月入庫最小值等指標。納稅信息層要整合納稅人粒度所有涉及到的申報和

21、征收數(shù)據(jù)(可以參考目前的需求,如組織收入、自助查詢等),全方位反應納稅人的納稅信息。四、發(fā)票信息層發(fā)票信息層匯總納稅人粒度的發(fā)票數(shù)據(jù),計劃分為3種粒度建設。1、購方銷方粒度。購方和銷方粒度同時存在,反應銷方和對應的下游購方的發(fā)票開具情況,可用于自助查詢等分析場景。2、銷方粒度??梢哉夏壳暗脑鲋刀惏l(fā)票風險指標,全面反映銷方開票行為。如加入指標:有銷無進、有無半夜開票、一次最大開票份數(shù)、一次最大開票金額等。3、購方粒度。反映企業(yè)購入發(fā)票信息,根據(jù)匯總數(shù)據(jù),可以快速查詢出企業(yè)購入發(fā)票的上游企業(yè)、份數(shù)、金額等信息。模型層優(yōu)化完善按照標準的工作規(guī)范和管理流程,對其數(shù)據(jù)模型、數(shù)據(jù)處理進行優(yōu)化完善,確保模

22、型挖掘?qū)尤蝿盏姆€(wěn)定性和數(shù)據(jù)的準確性,優(yōu)化包括以下兩方面:一、數(shù)據(jù)模型優(yōu)化。通過深度了解應用功能需求以及中間層數(shù)據(jù)模型設計,靈活采用多種大數(shù)據(jù)的數(shù)據(jù)模型設計方法,制定優(yōu)化計劃,對數(shù)據(jù)模型進行優(yōu)化。模型優(yōu)化原則:模型簡單、小表結(jié)構(gòu)、易擴展優(yōu)化方式:梳理模型設計以及處理邏輯,提煉重復以及設計復雜邏輯處理部分進行拆分,下層中間層或者做預處理,降低模型復雜度,發(fā)揮離線處理優(yōu)勢,簡化應用取數(shù)。二、任務加工流程優(yōu)化。通過對任務的監(jiān)控和巡檢,定位占用云平臺計算資源和存儲資源任務不合理的加工任務,并對其加工程序進行分析,根據(jù)分析結(jié)果制定優(yōu)化計劃,對加工程序進行優(yōu)化完善。三、數(shù)據(jù)準確性優(yōu)化加強數(shù)據(jù)核對機制,結(jié)合數(shù)

23、據(jù)治理梳理數(shù)據(jù)血緣,將任務加工鏈路透明化,易于數(shù)據(jù)核對與問題發(fā)現(xiàn),從而提高數(shù)據(jù)的準確性。四、新建應用模型處理模型層建設應用類數(shù)據(jù)模型分為稅收動態(tài)監(jiān)控和其他專項應用兩大類,根據(jù)應用建設需要擴充相應數(shù)據(jù)模型、指標。新增出口退稅風險分析挖掘類分析模型。短時動態(tài)數(shù)據(jù)優(yōu)化完善短時動態(tài)數(shù)據(jù)優(yōu)化完善需求包含以下內(nèi)容:1、數(shù)據(jù)性能優(yōu)化。對短時動態(tài)數(shù)據(jù)性能問題進行分析定位,根據(jù)分析結(jié)果制定優(yōu)化計劃,進行優(yōu)化完善。2、擴大數(shù)據(jù)范圍。根據(jù)招標人的實際需求,進一步擴大短時動態(tài)數(shù)據(jù)的數(shù)據(jù)范圍,滿足各類應用對短時動態(tài)數(shù)據(jù)的新增需求。3、加強數(shù)據(jù)核對。依照工作規(guī)范和管理流程,對短時動態(tài)數(shù)據(jù)結(jié)果進行核對,確保數(shù)據(jù)在各個環(huán)節(jié)的

24、準確性、一致性。在優(yōu)化使用前,對流式數(shù)據(jù)處理的全鏈路有個整體認識可以極大方便用戶梳理業(yè)務流程,制定相應的優(yōu)化設計方案。下面將簡單介紹下阿里云流計算全流程系統(tǒng)架構(gòu)情況。1、數(shù)據(jù)采集:廣義的實時數(shù)據(jù)采集指: 用戶使用流式數(shù)據(jù)采集工具將數(shù)據(jù)流式且實時地采集并傳輸?shù)酱髷?shù)據(jù)Pub/Sub系統(tǒng),該系統(tǒng)將為下游流計算提供源源不斷的事件源去觸發(fā)流式計算任務的運行。阿里云大數(shù)據(jù)生態(tài)中提供了諸多針對不同場景領域的流式數(shù)據(jù)Pub/Sub系統(tǒng),阿里云流計算天然集成上圖中諸多Pub/Sub系統(tǒng),以方便用戶可以輕松集成各類流式數(shù)據(jù)存儲系統(tǒng)。例如用戶可以直接使用流計算對接LogHub系統(tǒng),以做到快速集成并使用ECS日志。流

25、計算作為大數(shù)據(jù)計算類產(chǎn)品,天然集成打通了多類數(shù)據(jù)存儲系統(tǒng),流計算推薦使用DataHub作為通用流式數(shù)據(jù)存儲,同時亦對接了其他的數(shù)據(jù)Pub/Sub存儲系統(tǒng)。請各位讀者務必注意的是:流計算平臺的數(shù)據(jù)采集模塊,均是圍繞DataHub作為流式數(shù)據(jù)采集的目的Pub/Sub系統(tǒng)。DataHub流計算是一種事件觸發(fā)的模型,即一旦有新的事件(數(shù)據(jù))達到,流計算系統(tǒng)將完成一次計算,并繼續(xù)轉(zhuǎn)為等待下一次事件到來。源源不斷的數(shù)據(jù)流將為下游的流計算提供觸發(fā),流計算觸發(fā)的數(shù)據(jù)流就存放在DataHub,DataHub產(chǎn)品即可為下游的流式計算提供事件觸發(fā)機制,觸發(fā)流計算的運行。因此用戶只需要將驅(qū)動流計算運行的流式數(shù)據(jù)寫入D

26、ataHub,使用了該DataHub Topic的下游流計算任務即可被觸發(fā)進行一次運算。DataHub定義為大數(shù)據(jù)Pub/Sub系統(tǒng),為下游的流計算、ODPS等提供了實時數(shù)據(jù)的入口。2、流式計算:流數(shù)據(jù)作為流計算的觸發(fā)源驅(qū)動流計算運行。因此,一個流計算任務必須至少使用一個流數(shù)據(jù)作為數(shù)據(jù)源。同時,對于一些業(yè)務較為復雜的場景,流計算還支持和靜態(tài)數(shù)據(jù)存儲進行關聯(lián)查詢。例如針對每條DataHub流式數(shù)據(jù),流計算將根據(jù)流式數(shù)據(jù)的主鍵和RDS中數(shù)據(jù)進行關聯(lián)查詢(即join查詢);同時,阿里云流計算還支持針對多條數(shù)據(jù)流進行關聯(lián)操作。3、實時數(shù)據(jù)集成:為盡可能減少數(shù)據(jù)處理時延,同時減少數(shù)據(jù)鏈路復雜度。阿里云流

27、計算將計算的結(jié)果數(shù)據(jù)可不經(jīng)其他過程直接寫入目的數(shù)據(jù)源,從而最大程度降低全鏈路數(shù)據(jù)時延,保證數(shù)據(jù)加工的新鮮度。4、數(shù)據(jù)消費:流式計算的結(jié)果數(shù)據(jù)進入各類數(shù)據(jù)源后,用戶可以使用各類個性化的應用消費結(jié)果數(shù)據(jù),用戶可以使用數(shù)據(jù)存儲系統(tǒng)訪問數(shù)據(jù),使用消息投遞系統(tǒng)進行信息接收,或者直接使用告警系統(tǒng)進行告警。數(shù)據(jù)性能優(yōu)化根據(jù)上述短時動態(tài)數(shù)據(jù)采集的架構(gòu)來看數(shù)據(jù)性能優(yōu)化主要體現(xiàn)在數(shù)據(jù)傳輸以及最終數(shù)據(jù)加工落地兩部分,影響數(shù)據(jù)性能主要環(huán)節(jié)。一、副本庫OGG到DataHub此部分主要依賴于副本庫到云平臺的OGG網(wǎng)絡帶寬,此部分主要加強OGG鏈路監(jiān)控及時處理就能保障數(shù)據(jù)傳輸?shù)臅r效性。二、DataHub數(shù)據(jù)通過流式計算到目

28、標消費數(shù)據(jù)庫優(yōu)化加工處理邏輯,簡化處理流程,從而提高相應數(shù)據(jù)的時效性。擴大數(shù)據(jù)范圍根據(jù)建設需求擴大數(shù)據(jù)采集范圍,過程如下:一、數(shù)據(jù)采集數(shù)據(jù)來源包含了71家單位的征管基準分發(fā)庫、試點單位的電子稅務局數(shù)據(jù)庫以及金三應用日志信息。其中征管基準分發(fā)庫、試點單位的電子稅務局數(shù)據(jù)庫均采用DataHub進行采集;日志信息采用LogHub采集。將結(jié)果送入流失計算通道。本次項目建設以征管業(yè)務數(shù)據(jù)為采集重點。二、數(shù)據(jù)處理根據(jù)業(yè)務場景及目標要求,進行數(shù)據(jù)處理。需要說明的是,針對匯總數(shù)據(jù)基于ODPS計算結(jié)果的基礎上,并結(jié)合流式計算過程,將結(jié)果統(tǒng)一存儲在在線數(shù)據(jù)層。三、數(shù)據(jù)服務化在數(shù)據(jù)服務層中的在線數(shù)據(jù)層ADS、RDS

29、進行結(jié)果存儲與展示。加強數(shù)據(jù)核對依照工作規(guī)范和管理流程,對短時動態(tài)數(shù)據(jù)結(jié)果進行核對,確保數(shù)據(jù)在各個環(huán)節(jié)的準確性、一致性。核對過程中記錄數(shù)據(jù)核對情況,定期產(chǎn)出核對結(jié)果報告。第三方數(shù)據(jù)共享庫建設根據(jù)項目需要以及前期建設的成果,本項目將按照以下方式進行優(yōu)化完善一、數(shù)據(jù)的使用與完善對于云平臺中的已存在的第三方共享庫數(shù)據(jù),使用對象根據(jù)各版本的數(shù)據(jù)項范圍提出數(shù)據(jù)使用需求,平臺組根據(jù)需求完成數(shù)據(jù)加工并核對數(shù)據(jù),再按照雙方約定的數(shù)據(jù)推送方式進行數(shù)據(jù)推送。對于后續(xù)新增的共享數(shù)據(jù),使用對象可以提出數(shù)據(jù)使用需求,由項目組分析合理性和可行性,對于可實現(xiàn)加工的新數(shù)據(jù)項進行加工處理,并完善到對應的版本庫管理中。二、數(shù)據(jù)安

30、全管理的優(yōu)化和完善結(jié)合數(shù)據(jù)治理對數(shù)據(jù)的分類分級以及數(shù)據(jù)服務平臺的數(shù)據(jù)訪問權(quán)限的設置進一步優(yōu)化數(shù)據(jù)模型,完善數(shù)據(jù)安全機制,分別提供不同級別數(shù)據(jù)訪問。三、進一步提升數(shù)據(jù)的時效性1、優(yōu)化完善數(shù)據(jù)模型設計,避免數(shù)據(jù)重復加工、存儲;2、優(yōu)化數(shù)據(jù)加工,縮短數(shù)據(jù)加工時效;3、優(yōu)化數(shù)據(jù)推送,將全量數(shù)據(jù)推送方式改為增量數(shù)據(jù)推送,縮短數(shù)據(jù)推送時間,提高整體數(shù)據(jù)服務時效性。數(shù)據(jù)服務及優(yōu)化日常數(shù)據(jù)服務日常數(shù)據(jù)服務是指按照規(guī)范流程,針對各司局提出的臨時數(shù)據(jù)查詢需求,根據(jù)統(tǒng)計要求進行需求分析、口徑確認、腳本編寫及數(shù)據(jù)加工。并對加工的數(shù)據(jù)進行數(shù)據(jù)準確性校驗和提交物整理交付。日常數(shù)據(jù)服務優(yōu)化主要有以下兩點:規(guī)范流程優(yōu)化:流程

31、優(yōu)化不僅僅指做正確的事,還包括如何正確地做這些事。流程優(yōu)化是一項策略,通過不斷發(fā)展、完善、優(yōu)化 HYPERLINK /item/%E4%B8%9A%E5%8A%A1%E6%B5%81%E7%A8%8B/10590352 t /item/%E6%B5%81%E7%A8%8B%E4%BC%98%E5%8C%96/_blank 業(yè)務流程保持企業(yè)的競爭優(yōu)勢。在流程的設計和實施過程中,要對流程進行不斷的改進,以期取得最佳的效果。對現(xiàn)有 HYPERLINK /item/%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%A8%8B/7870986 t /item/%E6%B5%81%E7%A8%

32、8B%E4%BC%98%E5%8C%96/_blank 工作流程的梳理、完善和改進的過程,稱為流程的優(yōu)化。流程即一系列共同給客戶創(chuàng)造價值的相互關聯(lián)活動的過程。需求分析優(yōu)化:合理地歸類你接收的需求、明確需求的業(yè)務訴求、明確目標用戶的用戶訴求、分析總結(jié)需求目標,并給你的設計做導向。專項數(shù)據(jù)服務專項數(shù)據(jù)分析是指按照規(guī)范的流程,完成交付業(yè)務主題的數(shù)據(jù)分析,并產(chǎn)出數(shù)據(jù)分析報告。對提出的數(shù)據(jù)分析要求,快速進行研討,確定數(shù)據(jù)分析目標、分析方法;查詢統(tǒng)計涉及的數(shù)據(jù),并且對數(shù)據(jù)進行多角度分析,根據(jù)數(shù)據(jù)特征發(fā)現(xiàn)業(yè)務規(guī)律,根據(jù)分析結(jié)果產(chǎn)出分析報告;配合總局開展數(shù)據(jù)治理和績效等數(shù)據(jù)指標選取、數(shù)據(jù)掃描和結(jié)果掃描工作;研

33、究總結(jié)數(shù)據(jù)分析報告編制工作,制定工作機制或者工作規(guī)范。專項數(shù)據(jù)分析主要針對分析報告進行優(yōu)化,一份好的報告,光有好的結(jié)構(gòu)還不夠,還要有好的論述,關于論述有以下幾種要求:1、報告的數(shù)據(jù)來源一定要可靠,因此在數(shù)據(jù)加工及提取環(huán)節(jié)至關重要。獲取和整理數(shù)據(jù)往往會占用該工作的6成時間,要規(guī)劃數(shù)據(jù)、組織數(shù)據(jù)采集、導出數(shù)據(jù)處理,最后寫成報告,為了結(jié)論準確有效,一定要確保數(shù)據(jù)可靠性。2、一些名詞的解釋和定義,前后一致,不要讓人不知所云。3、直觀呈報、通俗易懂。其他功能描述其他優(yōu)化需求在項目實施的過程中我公司還將按照招標文件中對其他優(yōu)化1、優(yōu)化用戶使用體驗,完善功能中存在的缺陷以及與基層操作實際不完全符合或操作不方

34、便的部分。2、對各功能模塊的運行效率、性能進行分析,并根據(jù)分析結(jié)果進行相應程序優(yōu)化、參數(shù)調(diào)整、結(jié)構(gòu)擴展、重新驗證部署等。3、根據(jù)招標方新增需求,增加相應功能應用模塊,配合招標方做好測試、培訓、部署工作。4、對發(fā)生的故障及時響應,快速解決。5、受理基層操作人員問題,進行問題核實,解決問題以及培訓。6、其他優(yōu)化需求以招標人實際需求為準。非功能性需求范圍非功能需求規(guī)定了系統(tǒng)必須滿足的服務水平、系統(tǒng)非運行時間的屬性以及系統(tǒng)必須遵守的約束。非功能需求適用于整個系統(tǒng)、系統(tǒng)的幾個部分或特定的用例。非功能需求雖然不直接影響系統(tǒng)功能,但在用戶和系統(tǒng)支持人員對該業(yè)務系統(tǒng)的認可方面具有很大的影響。非功能需求包含許多方面。主要的非功能需求包括以下幾方面:可用性、易用性、可維護性、低耦合性、可伸縮性、架構(gòu)約束。同時我公司在項目實施的過程中按照滿足招標人提出的其他非功能性需求。可用性業(yè)務系統(tǒng)應滿足724小時可以使用。易用性1、易理解(1)系統(tǒng)所有的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論