下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)中臺(tái)之?dāng)?shù)據(jù)計(jì)算篇璽馥據(jù)開BI(API)蹙數(shù)據(jù)幵SE(API)璽馥據(jù)開BI(API)蹙數(shù)據(jù)幵SE(API)一七丹珈〔31")I,無謝痔iiBB門臨町上觀證i閒i叩0附!;上BURLiES17&C右:■出口漁■記眾(醐E+r “…數(shù)據(jù)直接開放適用的場(chǎng)景上一篇,我們談到數(shù)據(jù)中臺(tái)的數(shù)據(jù)開放模式,接下來圍繞數(shù)據(jù)開放的更深層次需求--數(shù)據(jù)計(jì)算來進(jìn)行。如上圖所示,無論是線下的數(shù)據(jù)開放(ETL接口、文件)還是線上的數(shù)據(jù)開放(API接口),對(duì)于數(shù)據(jù)體量都是有要求的,一般一次傳輸?shù)臄?shù)據(jù)量會(huì)控制在十萬級(jí)以下,數(shù)據(jù)量再大則會(huì)出現(xiàn)傳輸?shù)男阅芷款i造成應(yīng)用訪問的延時(shí)。但是,當(dāng)前大數(shù)據(jù)的背景下,高校新納入了類似傳感器、機(jī)器設(shè)備的數(shù)據(jù)源,而這些數(shù)據(jù)體量比傳統(tǒng)的業(yè)務(wù)系統(tǒng)要大的多,比如某學(xué)校防火墻一天產(chǎn)生的數(shù)據(jù)在500G。與此同時(shí),學(xué)校又需要對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)(比如每5-10分鐘刷新一次當(dāng)天的會(huì)話訪問排名),這樣就對(duì)數(shù)據(jù)開放提出了更高的要求,不僅要求開放基礎(chǔ)數(shù)據(jù),對(duì)于這些應(yīng)用終端無法在短期內(nèi)處理好的數(shù)據(jù),同時(shí)要求提供結(jié)果數(shù)據(jù),這就涉及到數(shù)據(jù)計(jì)算模塊了。希嘉數(shù)據(jù)中臺(tái)體系中的數(shù)據(jù)計(jì)算模塊就是針對(duì)這個(gè)實(shí)際需求,應(yīng)運(yùn)而生。數(shù)據(jù)計(jì)算的使用場(chǎng)景i 里「里 國數(shù)據(jù)卄SHAFI):玆據(jù)(API) 藪據(jù)計(jì)旨L 一卡ifttH卓尢理WFI運(yùn)禾門飢卄〕一卡ifttH卓尢理WFI運(yùn)禾門飢卄〕J■網(wǎng)認(rèn)啞記暈1.2代心岡4}上岡JRl記岀口沆■記錄(50附:過程數(shù)據(jù)J■用認(rèn)啞記杲1.2麗岡4>上廚URL記RC盹4}出□汛錄1抽過程進(jìn)據(jù)一云遏涼:疥I:宙砕)IA^WiFliaat牝它十I擇把公共數(shù)據(jù)計(jì)算的部分整合到數(shù)據(jù)中臺(tái),利用中臺(tái)底層的計(jì)算功能來完成。例如上圖中大量的過程數(shù)據(jù),在當(dāng)前一些業(yè)務(wù)場(chǎng)景中越來越開始發(fā)揮其核心價(jià)值,但直
箱三片盞iffi 會(huì)定口結(jié)忌應(yīng)用澈監(jiān)測(cè)救據(jù)?!鲭窊?jù)芳折裁諏業(yè)珅根堀業(yè)努;無和應(yīng)用場(chǎng)it兇的at事桿艾取蟄理忖忻、 巧歷更基妊、箱三片盞iffi 會(huì)定口結(jié)忌應(yīng)用澈監(jiān)測(cè)救據(jù)?!鲭窊?jù)芳折裁諏業(yè)珅根堀業(yè)努;無和應(yīng)用場(chǎng)it兇的at事桿艾取蟄理忖忻、 巧歷更基妊、和預(yù)磁I勢(shì)削處理務(wù)折業(yè)咖廈業(yè)努擰制動(dòng)志響濁主動(dòng)防御主動(dòng)橙Ml十詁;十乂人工智能典型使用場(chǎng)景舉例:如上圖中的紅框部分,某用戶想基于防火墻流量數(shù)據(jù)(3000W+/小時(shí))和上網(wǎng)認(rèn)證數(shù)據(jù)(2W+/天)來定位某些終端用戶行為是否異常,那么首先就需要按照規(guī)則關(guān)聯(lián)這兩類數(shù)據(jù)。過程如下:a) ?基于上網(wǎng)認(rèn)證查詢2W條記錄的IP地址、上線時(shí)間、下線時(shí)間、認(rèn)證賬號(hào)b) ?將上面獲取上網(wǎng)認(rèn)證的IP地址、上線時(shí)間、下線時(shí)間作為關(guān)聯(lián)條件,先基于1小時(shí)的防火墻流量數(shù)據(jù)(3000W)進(jìn)行關(guān)聯(lián),其關(guān)聯(lián)條件如下:1) .上網(wǎng)認(rèn)證.IP地址=防火墻流量數(shù)據(jù).IP地址2) .上網(wǎng)認(rèn)證.上線時(shí)間<防火墻流量數(shù)據(jù).記錄產(chǎn)生時(shí)間<上網(wǎng)認(rèn)證.下線時(shí)間c) ?將滿足步驟b)關(guān)聯(lián)條件的防火墻流量數(shù)據(jù)與上網(wǎng)認(rèn)證的賬號(hào)進(jìn)行關(guān)聯(lián)和標(biāo)記,合并成具體用戶的流量行為數(shù)據(jù)(防火墻初始只提供基于ip地址的訪問記錄,大部分學(xué)校是動(dòng)態(tài)的DHCP,同一個(gè)IP在不同的時(shí)間段分配給的終端用戶是不一致的)以上面2W的認(rèn)證數(shù)據(jù)與3000W的流量數(shù)據(jù)進(jìn)行一個(gè)簡單的范圍關(guān)聯(lián),實(shí)際在Oracle數(shù)據(jù)庫里面測(cè)試的執(zhí)行時(shí)間在100秒左右,相當(dāng)于要執(zhí)行2W次對(duì)3000W條記錄的掃描和匹配。如果把數(shù)據(jù)量各自擴(kuò)大10倍,變成20W認(rèn)證數(shù)據(jù)與3億條流量數(shù)據(jù)的關(guān)聯(lián),則在數(shù)據(jù)庫里面執(zhí)行的時(shí)間理論上是10000秒(接近3小時(shí))。上面還只是大數(shù)據(jù)計(jì)算中比較簡單和體量相對(duì)較小的場(chǎng)景,如果對(duì)于上面的類似數(shù)據(jù)要求提供數(shù)據(jù)開放和共享,無論如何都不可能將原始數(shù)據(jù)通過ETL或者API接口的方式提供數(shù)據(jù),傳輸體量實(shí)在太大,所以必須要把計(jì)算過程基于大數(shù)據(jù)底層的計(jì)算能力,在本地完成,最后將結(jié)果對(duì)外輸出。數(shù)據(jù)計(jì)算層的整體架構(gòu)設(shè)計(jì)
如上圖所示,紫色模塊即為數(shù)據(jù)計(jì)算在整個(gè)數(shù)據(jù)中臺(tái)體系中的位置,其核心是提供基于數(shù)據(jù)存儲(chǔ)層的計(jì)算能力,兼容主流的存儲(chǔ)容器(如Oracle、MySQL、HDFS、Hive等)。在希嘉的數(shù)據(jù)中臺(tái)體系中,選擇采用Spark作為數(shù)據(jù)計(jì)算的核心組件,結(jié)合Hadoop集群的分布式存儲(chǔ)和計(jì)算能力,解決海量數(shù)據(jù)運(yùn)算的場(chǎng)景。Spark的分布式計(jì)算原理Spark是當(dāng)前Hadoop大數(shù)據(jù)體系中最為成熟的計(jì)算組件,能夠兼容絕大部分的數(shù)據(jù)源,與HDFS搭配天然互補(bǔ),可提供Java,Scala,Python,簡單快速的編寫并行的應(yīng)用處理大數(shù)據(jù)量。希嘉對(duì)Spark模塊進(jìn)行深度整合,提供了基于業(yè)務(wù)流程的數(shù)據(jù)計(jì)算服務(wù),使得高校能夠?qū)?shù)據(jù)使用的流程管理與大數(shù)據(jù)底層計(jì)算過程進(jìn)行融合,大幅度降低在數(shù)據(jù)開放過程中使用數(shù)據(jù)計(jì)算的門檻。
3.希嘉中臺(tái)體系對(duì)于數(shù)據(jù)計(jì)算模塊的產(chǎn)品化iWVI *tfJillifl3.希嘉中臺(tái)體系對(duì)于數(shù)據(jù)計(jì)算模塊的產(chǎn)品化iWVI *tfJillifl■乃D?利恥JHKIMr卿」hmkaj]i?n:i-bWglV!?SfirEHDMU/WM計(jì)asmaj-UHHCHWZL^?ihn慮v」0anMH-04i?u^jirnwa■l*HW?]B04IM謨MltswasaartMl2MWMW1^5209希嘉的數(shù)據(jù)開放平臺(tái),通過集成Spark-SQL組件,提供基于SQL的語法來創(chuàng)建計(jì)算任務(wù),并提供圖形化的界面查看和管理當(dāng)前的各類計(jì)算任務(wù)。同時(shí),各類計(jì)算任務(wù)之后的結(jié)果也可以直接發(fā)布成標(biāo)準(zhǔn)的API接口,對(duì)于上層使用數(shù)據(jù)的用戶來說,幾乎感受不到哪些數(shù)據(jù)是直接調(diào)取,哪些數(shù)據(jù)是經(jīng)過計(jì)算之后發(fā)布的。總體上來說,數(shù)據(jù)中臺(tái)所提供的數(shù)據(jù)計(jì)算能力實(shí)現(xiàn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 有創(chuàng)意的年終總結(jié)
- 物料盤點(diǎn)標(biāo)準(zhǔn)化流程:精確管理
- 數(shù)碼店外墻涂料施工合同
- 工業(yè)園區(qū)外圍墻施工協(xié)議
- 城市商業(yè)中心停車場(chǎng)施工合同
- 旅游景區(qū)運(yùn)營招投標(biāo)合同模板
- 五金交電招投標(biāo)管理要點(diǎn)
- 保險(xiǎn)公司辦公費(fèi)用內(nèi)控機(jī)制
- 校園消防演練方案
- 2022年大學(xué)海洋科學(xué)專業(yè)大學(xué)物理下冊(cè)月考試題-含答案
- 教育部新版本科專業(yè)目錄(2012年)
- 七年級(jí)英語上培優(yōu)扶差記錄表
- 全國防返貧監(jiān)測(cè)信息系統(tǒng)業(yè)務(wù)管理子系統(tǒng)操作手冊(cè)
- 2022年數(shù)學(xué)廣角內(nèi)容解讀及教學(xué)思考
- 二級(jí)減速器箱體蓋工藝卡片
- 互聯(lián)網(wǎng)高速專線電路開通測(cè)試報(bào)告[寶典]
- 虎牌電飯煲中文使用說明書
- 餐飲合同范本
- 人教版初中地理七年級(jí)上冊(cè)《地球自轉(zhuǎn)》說課稿
- 高職院校課程標(biāo)準(zhǔn)模板
- 注塑品質(zhì)檢驗(yàn)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論