




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、百億級(jí)實(shí)時(shí)大數(shù)據(jù)分析項(xiàng)目,為什么不用百億數(shù)量級(jí)的大數(shù)據(jù)項(xiàng)目,軟硬件總體預(yù)算只有30萬(wàn)左右,需求是進(jìn)行復(fù)雜分析查詢,性能要求多數(shù)分析請(qǐng)求達(dá)到秒級(jí)響應(yīng)。遇到這樣的項(xiàng)目需求,預(yù)算不多的情況,似乎只能考慮基于來(lái)實(shí)施。理論上撐住百億數(shù)量級(jí)沒(méi)問(wèn)題,但想要秒級(jí)響應(yīng)各種查詢分析就不行了。我們先大概分析一下的優(yōu)缺點(diǎn)。目前幾乎是大數(shù)據(jù)的代名詞,很多企業(yè)都基于搭建自己的大數(shù)據(jù)業(yè)務(wù)。以下是的主要優(yōu)點(diǎn):集群的擴(kuò)展性是其一大特點(diǎn),可以擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn),對(duì)數(shù)據(jù)持續(xù)增長(zhǎng),數(shù)據(jù)量特別巨大的需求很合適。的成本是其另一大優(yōu)勢(shì),由于是開(kāi)源項(xiàng)目,而且不僅從軟件上節(jié)約成本,硬件上的要求也不高。目前去潮流風(fēng)行,低成本的也是一大推手。生態(tài)群
2、活躍,其周邊開(kāi)源項(xiàng)目豐富,等等基礎(chǔ)開(kāi)源項(xiàng)目眾多。那么的不足有哪些呢?不適合做實(shí)時(shí)分析系統(tǒng)。從通訊層的技術(shù)上來(lái)說(shuō)有如下原因:任務(wù)分配不會(huì)將信息到計(jì)算,而是讓計(jì)算通過(guò)心跳去任務(wù)?;诳蚣艿耐ㄓ眯?,代碼也會(huì)在中傳送,在各計(jì)算展開(kāi),再通過(guò)啟動(dòng)新進(jìn)程裝載并運(yùn)行。類似的進(jìn)程啟停有5次之多。只能在全部完成之后才能啟動(dòng)。缺乏專業(yè)的支持服務(wù)因?yàn)槭情_(kāi)源項(xiàng)目,缺少專業(yè)的商業(yè)支持服務(wù),公司需要儲(chǔ)備專業(yè)知識(shí)的專家來(lái)保證系統(tǒng)的正常運(yùn)轉(zhuǎn)??梢灾С职賰|的數(shù)據(jù)量,但很難應(yīng)對(duì)秒級(jí)響應(yīng)的需求即使是數(shù)億的數(shù)據(jù)量,也只適合做分鐘級(jí)別的離線分析系統(tǒng)。而百億級(jí)別數(shù)據(jù)量,又需要秒級(jí)響應(yīng)的案例,需要什么系統(tǒng)支持呢?下面介紹下大數(shù)據(jù)實(shí)時(shí)分析工具
3、。讓用戶可以選購(gòu)分布式數(shù)有哪些技術(shù)可以保證大數(shù)據(jù)的除了提供優(yōu)秀的前端工具之外,據(jù)集市來(lái)支持實(shí)時(shí)大數(shù)據(jù)分析。對(duì)于這種百億級(jí)的大數(shù)據(jù)案例,實(shí)時(shí)響應(yīng)呢?下面大致從技術(shù)上介紹下:庫(kù)內(nèi)計(jì)算通過(guò)結(jié)合多種自有的專利技術(shù),在幾個(gè)節(jié)點(diǎn)下,就能支持各種常見(jiàn)的匯總,還支持幾乎全部的專業(yè)統(tǒng)計(jì)函數(shù)。得益于庫(kù)內(nèi)計(jì)算技術(shù),數(shù)據(jù)分析引擎將找尋出最優(yōu)化的計(jì)算方案,繼而把所有開(kāi)銷較大的、昂貴的計(jì)算都移動(dòng)到數(shù)據(jù)存儲(chǔ)的地方直接計(jì)算,稱之為庫(kù)內(nèi)計(jì)算t這一技術(shù)大大減少了數(shù)據(jù)移動(dòng),降低了通訊負(fù)擔(dān),保證了高性能數(shù)據(jù)分析。并行計(jì)算是基于架構(gòu)的商業(yè)智能平臺(tái),她能夠把計(jì)算分布到多個(gè)計(jì)算節(jié)點(diǎn),再在指定節(jié)點(diǎn)將計(jì)算結(jié)果匯總輸出。能夠充分利用各種計(jì)算和存
4、儲(chǔ)資源,不管是服務(wù)器還是普通的,她對(duì)網(wǎng)絡(luò)條件也沒(méi)有嚴(yán)苛的要求。作為橫向擴(kuò)展的大數(shù)據(jù)平臺(tái),能夠充分發(fā)揮各個(gè)節(jié)點(diǎn)的計(jì)算能力,輕松實(shí)現(xiàn)針對(duì)級(jí)數(shù)據(jù)分析的秒級(jí)響應(yīng)。列存儲(chǔ)是列存儲(chǔ)的?;诹写鎯?chǔ)的數(shù)據(jù)集市,不讀取無(wú)關(guān)數(shù)據(jù),能降低讀寫(xiě)開(kāi)銷,同時(shí)提高的效率,從而大大提高查詢性能。另外,列存儲(chǔ)能夠更好地壓縮數(shù)據(jù),-般壓縮比在倍之間,這樣一來(lái),數(shù)據(jù)占有空間降低到傳統(tǒng)存儲(chǔ)的到。良好的數(shù)據(jù)壓縮技術(shù),節(jié)省了存儲(chǔ)設(shè)備和內(nèi)存的開(kāi)銷,卻大大了提升計(jì)算性能。內(nèi)存計(jì)算得益于列存儲(chǔ)技術(shù)和并行計(jì)算技術(shù),能夠大大壓縮數(shù)據(jù),并同時(shí)利用多個(gè)節(jié)點(diǎn)的計(jì)算能力和內(nèi)存容量。一般地,內(nèi)存訪問(wèn)速度比磁盤(pán)訪問(wèn)速度要快幾百倍甚至上千倍。通過(guò)內(nèi)存計(jì)算,直接
5、從內(nèi)存而非磁盤(pán)上讀取數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行計(jì)算。內(nèi)存計(jì)算是對(duì)傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實(shí)現(xiàn)大數(shù)據(jù)分析的關(guān)鍵應(yīng)用技術(shù)。擔(dān)負(fù)起幾十億,乃至上百億數(shù)據(jù)量的實(shí)時(shí)分析和展現(xiàn)。相對(duì)有哪些不足呢?能支撐級(jí)大數(shù)據(jù),數(shù)千節(jié)點(diǎn)的大規(guī)模集群。對(duì)于這種實(shí)時(shí)大數(shù)據(jù)分析系統(tǒng)一般支撐級(jí)的大數(shù)據(jù),節(jié)點(diǎn)數(shù)一般不超過(guò)10。0以下分享一個(gè)的真實(shí)案例:中國(guó)移動(dòng)省分公司數(shù)據(jù)流量與監(jiān)控系統(tǒng)年月,收到一個(gè)電話線索,客戶需要支持幾十億數(shù)據(jù)量的實(shí)時(shí)查詢與分析,包括數(shù)據(jù)抓取和存儲(chǔ),讓我們先出報(bào)價(jià)。在實(shí)時(shí)大數(shù)據(jù)分析領(lǐng)域,的產(chǎn)品和服務(wù)是很有競(jìng)爭(zhēng)力的。不過(guò),當(dāng)客戶拿到我們的報(bào)價(jià)后,還是覺(jué)得比他們的預(yù)算貴一些,決定自己招聘團(tuán)隊(duì),實(shí)施該系統(tǒng)半個(gè)月后,客戶打
6、來(lái)第二個(gè)電話,明確表示未能滿足需求,決定接受我們的報(bào)價(jià),并愿意預(yù)付一半的費(fèi)用。客戶要求我們不僅出產(chǎn)品,還要負(fù)責(zé)實(shí)施于是乎,開(kāi)工!項(xiàng)目?jī)r(jià)值網(wǎng)間流量分析與監(jiān)控系統(tǒng)(簡(jiǎn)稱流控系統(tǒng)),是中國(guó)移動(dòng)省分公司的一個(gè)項(xiàng)目。項(xiàng)目要求能基于時(shí)間、地區(qū)、運(yùn)營(yíng)商、業(yè)務(wù)、分組、域名等維度對(duì)全省的上網(wǎng)流量進(jìn)行實(shí)時(shí)分析和報(bào)告。這些分析報(bào)告能給客戶帶來(lái)如下好處:1.實(shí)現(xiàn)對(duì)接入鏈路和基站的全程監(jiān)控。例如,一旦來(lái)自某鏈路或基站的流量很低,可及時(shí)對(duì)鏈路和基站進(jìn)行檢修,這將大大降低故障率。通過(guò)結(jié)合多種自有的專利技術(shù),在幾個(gè)節(jié)點(diǎn)下,就能.由于具備了對(duì)鏈路和基站進(jìn)行全程監(jiān)控的能力,客戶可以對(duì)鏈路和基站的帶寬進(jìn)行動(dòng)態(tài)調(diào)整,基于需求進(jìn)行合理
7、的資源配置。覆蓋全省的全量數(shù)據(jù),能提供基于業(yè)務(wù)地域行業(yè)域名等維度的數(shù)據(jù)分析報(bào)告,具備的可信度和極高的商業(yè)價(jià)值。數(shù)據(jù)流向上網(wǎng)數(shù)據(jù)從硬件設(shè)備中抓取出來(lái),形成壓縮的日志文件存儲(chǔ)在服務(wù)器上,服務(wù)器每五分鐘生成新的日志文件。該服務(wù)器提供訪問(wèn)。承擔(dān)的流控系統(tǒng),將通過(guò)每五分鐘訪問(wèn)一次日志文件服務(wù)器,將新生成的壓縮日志文件抽取出來(lái)。這是一個(gè)典型的、增量更新的過(guò)程,如下:定期抽取的日志文件并解壓縮。解析出上網(wǎng)信息,同的維度表進(jìn)行關(guān)聯(lián),生成包括業(yè)務(wù)地域行業(yè)域名等維度的寬表。將數(shù)據(jù)裝載入分布式集市。初期驗(yàn)證()中國(guó)移動(dòng)的日志數(shù)據(jù)分類和類,各取幾塊樣本日志文件,驗(yàn)證數(shù)據(jù)流向的可行性以及性能。我們很快完成了的整個(gè)過(guò)程,
8、寬表數(shù)據(jù)被成功地裝載入分布式集市。性能上,我們按照用戶提出的每天數(shù)據(jù)量500萬(wàn)0條增量,計(jì)算出支持100天50億數(shù)據(jù)量的分布式集群所需的磁盤(pán)空間、內(nèi)存總量、和總量。由于客戶一再?gòu)?qiáng)調(diào)預(yù)算有限,內(nèi)存,硬盤(pán)。于是配置了6臺(tái)低配我們模擬了常用的用戶場(chǎng)景,整個(gè)系統(tǒng)的響應(yīng)能力基本滿足需求。系統(tǒng)架構(gòu)如下:系統(tǒng)架構(gòu)圖正式實(shí)施中國(guó)移動(dòng)省分公司的上網(wǎng)數(shù)據(jù)在內(nèi)網(wǎng),一般不提供外網(wǎng)連接,需要嚴(yán)格申請(qǐng)之后才能在一定時(shí)間內(nèi)提供外網(wǎng)連接。因而,我們先把整個(gè)系統(tǒng)的工作開(kāi)發(fā)完成之后,才正式申請(qǐng)了外網(wǎng)連接進(jìn)行數(shù)據(jù)裝載。從開(kāi)始進(jìn)行上網(wǎng)數(shù)據(jù)的工作,我們就發(fā)現(xiàn)數(shù)據(jù)量與預(yù)期嚴(yán)重不符。預(yù)期的上網(wǎng)數(shù)據(jù)是每天不超過(guò)500萬(wàn)0條,但實(shí)際上每天的上
9、網(wǎng)數(shù)據(jù)在6億條以上,100天保存的數(shù)據(jù)量將會(huì)達(dá)到驚人的六百億條。臺(tái)低配有點(diǎn)小馬拉大車(chē)的感覺(jué),完全達(dá)不到“海量數(shù)據(jù)、實(shí)時(shí)分析”的設(shè)計(jì)目標(biāo)。我們趕緊聯(lián)系客戶,確定上網(wǎng)數(shù)據(jù)每天6億條以上,而不是之前預(yù)估的每天萬(wàn)條左右。怎么辦?系統(tǒng)重構(gòu)經(jīng)過(guò)與客戶的詳細(xì)溝通和理性分析,大家一致決定進(jìn)行系統(tǒng)重構(gòu)。上網(wǎng)數(shù)據(jù)的日志文件是5分鐘粒度的。我們將上網(wǎng)數(shù)據(jù)按照分析需求分為兩類:.細(xì)節(jié)數(shù)據(jù):保留三天的細(xì)節(jié)數(shù)據(jù)(5分鐘粒度),共約20億條。這樣,由于保留了細(xì)節(jié)數(shù)據(jù),客戶可以對(duì)近三天的上網(wǎng)數(shù)據(jù)進(jìn)行任意的探索式分析。2.匯總數(shù)據(jù):在認(rèn)真研究了流控系統(tǒng)的分析報(bào)告需求之后,我們將五分鐘的細(xì)節(jié)數(shù)據(jù)匯總為兩小時(shí)的匯總數(shù)據(jù)。這樣數(shù)據(jù)量可以降到約為原來(lái)的1/1,0100天的數(shù)據(jù)總量大約億條。重構(gòu)之后的數(shù)據(jù)流如下:Agg.QueryDetailQueryNoneAppDetailQueryAgeQuery后期,我們陸續(xù)進(jìn)行了一些系統(tǒng)調(diào)優(yōu),包括調(diào)優(yōu)、存儲(chǔ)調(diào)優(yōu)、計(jì)算調(diào)優(yōu)等等。客戶打開(kāi)一個(gè)的響應(yīng)時(shí)間基本控制在秒級(jí),最極端的分析報(bào)告也能在一分鐘之內(nèi)生成?;緦?shí)現(xiàn)了海量數(shù)據(jù)、實(shí)時(shí)分析”:1.系統(tǒng)定期推送日?qǐng)?bào)、周報(bào)和月報(bào)。系統(tǒng)支持探索式分析。多數(shù)分析請(qǐng)求達(dá)到了秒級(jí)響應(yīng)。案例總
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新II型水泥軌枕的安裝
- QYK型礦用潛水泵產(chǎn)品介紹
- 技能培訓(xùn)-電氣防火培訓(xùn)課件
- 2024高中生籃球裁判員考試試題及答案
- 2024年裁判員考試技能提升試題及答案
- 模具設(shè)計(jì)師資格考試戰(zhàn)爭(zhēng)準(zhǔn)備試題及答案
- 2025租房合同的范本標(biāo)準(zhǔn)版
- 農(nóng)業(yè)植保員職業(yè)資格考試的思路試題及答案
- 揭秘2024年模具設(shè)計(jì)師資格認(rèn)證試題及答案技巧
- 體育經(jīng)紀(jì)人資格考試考綱解析 試題及答案
- 二年級(jí)下冊(cè)科學(xué)不斷發(fā)展的人工產(chǎn)品鄂教版課件
- 小學(xué)部編版六年級(jí)下冊(cè)道德與法治《4、地球-我們的家園》第一課時(shí)說(shuō)課稿
- DB11T 1340-2022 居住建筑節(jié)能工程施工質(zhì)量驗(yàn)收規(guī)程
- 保險(xiǎn)市場(chǎng)調(diào)查與分析實(shí)訓(xùn)三任務(wù)一2.3.1任務(wù)一運(yùn)用Excel整理市場(chǎng)調(diào)查問(wèn)卷數(shù)據(jù)
- 中央空調(diào)(多聯(lián)機(jī))施工方案
- PKPM磚混結(jié)構(gòu)抗震及其他計(jì)算全攻略
- “育鯤”輪轉(zhuǎn)葉式舵機(jī)工作原理和電氣控制以及故障分析
- 流動(dòng)資金自動(dòng)測(cè)算表(內(nèi)自帶計(jì)算公式)
- 最新.爾雅批判與創(chuàng)意思考--馮林答案
- 宿州光伏玻璃項(xiàng)目可行性研究報(bào)告(范文模板)
- 10KV變電站施工方案
評(píng)論
0/150
提交評(píng)論