版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
英特爾大數(shù)據(jù)平臺(tái)最佳實(shí)踐提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)2BigBigData云計(jì)算技術(shù)是處理大數(shù)據(jù)的有效手段大數(shù)據(jù)和云是兩個(gè)不同的概念,但兩者之間有很多交集。支撐大數(shù)據(jù)以及云計(jì)算的底層原則是一樣的,即規(guī)?;?、自動(dòng)化、資源配置、自愈性,因此實(shí)際上大數(shù)據(jù)和云之間存在很多合力的地方。大數(shù)據(jù)應(yīng)用是在云上跑的、非常典型的應(yīng)用?!髷?shù)據(jù)處理離不開(kāi)云大數(shù)據(jù)時(shí)代-數(shù)據(jù)爆發(fā)性增長(zhǎng)4IDC預(yù)測(cè)全球的數(shù)據(jù)使用量到2020年會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC寬帶、移動(dòng)網(wǎng)絡(luò)普及和提速移動(dòng)網(wǎng)絡(luò)和各種智能終端視頻(醫(yī)療影像、地理信息、監(jiān)控錄像等)統(tǒng)計(jì)、分析、預(yù)測(cè)、實(shí)時(shí)處理傳感器、RFID閱讀器、導(dǎo)航終端等非傳統(tǒng)IT設(shè)備社交網(wǎng)絡(luò)(Facebook,Twitter,微博等)大數(shù)據(jù)處理速度要求越來(lái)越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010大數(shù)據(jù)與海量數(shù)據(jù)的一個(gè)重要區(qū)別,在于不但數(shù)據(jù)尺寸大,而且對(duì)數(shù)據(jù)處理的響應(yīng)速度有有著更高的要求傳統(tǒng)的以周,天,小時(shí)為單位的運(yùn)算處理周期,下降到以分鐘,秒為單位大數(shù)據(jù)高價(jià)值的重要體現(xiàn)-處理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative數(shù)據(jù)的多樣性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010數(shù)據(jù)形式的多樣:結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間有很強(qiáng)的因果關(guān)系半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間因果關(guān)系較弱非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間無(wú)因果關(guān)系數(shù)據(jù)來(lái)源的多樣性:不同的應(yīng)用系統(tǒng)各種設(shè)備互聯(lián)網(wǎng)其它Flatfile創(chuàng)造顯著業(yè)務(wù)價(jià)值(VALUE)?Copyright2011EMCCorporation.Allrightsreserved.大數(shù)據(jù)分析顯著的業(yè)務(wù)價(jià)值
3V特性驅(qū)動(dòng)下創(chuàng)建
挖掘數(shù)據(jù)資產(chǎn)價(jià)值,通過(guò)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),變成本中心為利潤(rùn)中心智慧城市-典型的大數(shù)據(jù)應(yīng)用集合2023/1/178大數(shù)據(jù)處理導(dǎo)致的平臺(tái)瓶頸RequiredScalabilityRapidAdoptionBigMathBigData“Moore’sLaw”Scalability數(shù)據(jù)處理需求與傳統(tǒng)平臺(tái)硬件擴(kuò)展的差距不斷擴(kuò)大IndustryProgress大數(shù)據(jù)處理需要的擴(kuò)展能力大數(shù)據(jù)分析不同于傳統(tǒng)BI分析
結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為TB規(guī)模集中式,為了分析進(jìn)行大量數(shù)據(jù)移動(dòng),數(shù)據(jù)向計(jì)算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級(jí)別分布式,計(jì)算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫(kù)批處理數(shù)據(jù)倉(cāng)庫(kù)分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析Examples:TelcoGovtFinanceWeb分布布式式數(shù)數(shù)據(jù)據(jù)平平臺(tái)臺(tái)與與傳傳統(tǒng)統(tǒng)數(shù)數(shù)據(jù)據(jù)平平臺(tái)臺(tái)融融合合RawDataHadoopCluster(HundredsofTB’’stoPB’s)ExistingDataWarehouse(HundredsofTB’’s)ApplicationsandTools(Modelingon100’sofTBstoPB’s)StructuredDataSemi-StructuredDataBI/StatToolsHistorical/Archival/EventLevelAggregated/EnrichedSummary/InteractiveETLDataEnrichmentDirectQueryDirectqueryDirectModeling提綱大數(shù)據(jù)帶來(lái)的的挑戰(zhàn)大數(shù)據(jù)案案例介紹紹Intel大數(shù)據(jù)平平臺(tái)12聯(lián)通3G詳單查詢?cè)?問(wèn)題來(lái)源((1/2)隨著移動(dòng)動(dòng)互聯(lián)網(wǎng)網(wǎng)業(yè)務(wù)的的發(fā)展,,上網(wǎng)記記錄查詢?cè)兂蔀橛糜脩敉对V訴的焦點(diǎn)問(wèn)題來(lái)源源目前,中國(guó)聯(lián)聯(lián)通省分分公司3G客戶數(shù)據(jù)據(jù)流量問(wèn)問(wèn)題爭(zhēng)議議占3G業(yè)務(wù)投訴訴達(dá)7-10%,且近幾個(gè)個(gè)月呈上上升趨勢(shì),,個(gè)別省省分比例例高達(dá)20%一些用用戶對(duì)對(duì)3G業(yè)務(wù)流流量產(chǎn)產(chǎn)生及及計(jì)費(fèi)費(fèi)方式式不了了解,,主觀觀認(rèn)為為自己己未使使用或或使用用較少少數(shù)據(jù)據(jù)流量量,要求運(yùn)運(yùn)營(yíng)商商提供供上網(wǎng)網(wǎng)記錄錄,而現(xiàn)現(xiàn)有系系統(tǒng)不不具備備此功功能,,從而而導(dǎo)致致投訴訴升級(jí)。。3G流量費(fèi)費(fèi)爭(zhēng)議議占總總咨詢?cè)兺对V訴量比率上網(wǎng)記錄查詢對(duì)對(duì)中國(guó)國(guó)聯(lián)通通的業(yè)業(yè)務(wù)發(fā)發(fā)展產(chǎn)產(chǎn)生了了較大大的影影響影響對(duì)用戶而而言::“…要是能能查到到流量量是和和誰(shuí)發(fā)發(fā)生的的就好好了,,如果果是手手機(jī)的的問(wèn)題題,我我也才才知道道今后后怎么么防范范,現(xiàn)現(xiàn)在連連防范范誰(shuí)都都不知知道,,誰(shuí)知知道下下次還還會(huì)不不會(huì)發(fā)發(fā)生類類似問(wèn)問(wèn)題?”對(duì)運(yùn)營(yíng)商而言言:根據(jù)中中國(guó)聯(lián)聯(lián)通客客戶服服務(wù)部部門提提供的數(shù)據(jù)據(jù),目目前移移動(dòng)業(yè)業(yè)務(wù)每每萬(wàn)元元收入入,因因無(wú)法法提供供上網(wǎng)網(wǎng)詳單單造成成的退退費(fèi)和和賠付付約60.1元;如果問(wèn)問(wèn)題得得不到到根本本解決決,將將會(huì)影響運(yùn)營(yíng)商商按流量計(jì)計(jì)費(fèi)的的資費(fèi)費(fèi)模式式,對(duì)運(yùn)營(yíng)營(yíng)商3G業(yè)務(wù)的的開(kāi)展展將產(chǎn)產(chǎn)生較較大影響用戶上上網(wǎng)記記錄數(shù)數(shù)是個(gè)個(gè)海量量數(shù)據(jù)據(jù),不不僅投投資巨巨大,,傳統(tǒng)統(tǒng)的電電信業(yè)業(yè)解決決方案案根本本無(wú)法法提供供該服服務(wù)案例某iPhone合約計(jì)計(jì)劃用用戶,,在凌凌晨零零點(diǎn)到到4點(diǎn)之間間手機(jī)機(jī)產(chǎn)生生巨額額流量量費(fèi)在其得知知因受受計(jì)量量設(shè)備備限制制無(wú)法法向其其提供供數(shù)據(jù)據(jù)流量量去向向后,竟上上升到到司法法訴訟訟層面面聯(lián)通3G詳單查查詢-問(wèn)題來(lái)源源(2/2)移動(dòng)用用戶上上網(wǎng)記記錄集集中查查詢與與分析析支撐撐系統(tǒng)統(tǒng)建設(shè)上上網(wǎng)記記錄集集中查查詢與與分析析支撐撐系統(tǒng)統(tǒng)意義義重大大查詢?yōu)榭蛻魬舴?wù)人人員提提供客客戶上上網(wǎng)記記錄快快速查查詢服服務(wù),,解決決流量量投訴訴問(wèn)題為用戶戶提供供準(zhǔn)實(shí)實(shí)時(shí)的的異常常大流流量上上網(wǎng)記記錄自自助查查詢服務(wù)分析對(duì)數(shù)據(jù)流流量進(jìn)進(jìn)行統(tǒng)計(jì)終端分析析:iPhone、iPad、其他智能能手機(jī)分布,新新終端端推廣廣效果果分析析熱門流流量、、熱門門網(wǎng)站站(業(yè)業(yè)務(wù))網(wǎng)絡(luò)分分析::2G/3G基站流流量分分析,,網(wǎng)絡(luò)絡(luò)優(yōu)化化數(shù)據(jù)挖挖掘根據(jù)流流量分分布,,分析析用戶戶群特特征提供套餐餐設(shè)計(jì)計(jì)參考考,優(yōu)優(yōu)化用用戶體體驗(yàn)通過(guò)感感知業(yè)業(yè)務(wù)態(tài)態(tài)勢(shì),,制定定市場(chǎng)場(chǎng)策略略,指指導(dǎo)業(yè)業(yè)務(wù)產(chǎn)產(chǎn)品開(kāi)發(fā),,為市場(chǎng)場(chǎng)營(yíng)銷銷提供供豐富富的數(shù)數(shù)據(jù)支持移動(dòng)互互聯(lián)網(wǎng)網(wǎng)處于于快速速發(fā)展展期::每6個(gè)月,,流量量翻一一番移動(dòng)互互聯(lián)網(wǎng)網(wǎng)用戶戶快速速增加加,智智能終終端迅迅速普普及、、戶均均流量量顯著著增長(zhǎng)長(zhǎng),上上網(wǎng)記記錄數(shù)數(shù)據(jù)將將進(jìn)一一步猛增難點(diǎn)分分析上網(wǎng)記記錄是是海量量數(shù)據(jù)據(jù)用戶每每月的的上網(wǎng)網(wǎng)記錄錄約幾幾萬(wàn)至至數(shù)十萬(wàn)在Gn(SGSN與GGSN之間))接口口上部部署采采集設(shè)設(shè)備來(lái)來(lái)生成成用戶戶上網(wǎng)網(wǎng)記錄錄用戶手手機(jī)訪問(wèn)一一次網(wǎng)網(wǎng)頁(yè),,約會(huì)會(huì)產(chǎn)生生數(shù)十十條,,甚至至數(shù)百百條請(qǐng)請(qǐng)求,,意味味著產(chǎn)產(chǎn)生數(shù)數(shù)十條條和數(shù)數(shù)百條條上網(wǎng)網(wǎng)記錄錄訪問(wèn)手手機(jī)新新浪網(wǎng)網(wǎng)首頁(yè)頁(yè),約約產(chǎn)生生20條記錄錄訪問(wèn)新新浪iPad首頁(yè),,約產(chǎn)產(chǎn)生40條記錄錄在iPad中看一一條新新浪新新聞,,產(chǎn)生生超過(guò)過(guò)180條記錄錄訪問(wèn)淘淘寶觸觸摸屏屏版,,約產(chǎn)產(chǎn)生60條記錄錄大量的的DNS查詢、、推送送服務(wù)務(wù)記錄錄(如如蘋果果通知知服務(wù)務(wù))等等以中國(guó)國(guó)聯(lián)通通某省省分公公司為為例,,日均均上網(wǎng)網(wǎng)記錄錄數(shù)近近10億條,,每月月數(shù)據(jù)據(jù)量近近9TB,31個(gè)省份份數(shù)據(jù)量12T/day難點(diǎn)分分析采用關(guān)關(guān)系型型數(shù)據(jù)據(jù)庫(kù)進(jìn)進(jìn)行上上網(wǎng)記記錄的的存儲(chǔ)儲(chǔ)已不不可行行采用何種方方式進(jìn)行存存儲(chǔ)和檢索索是一個(gè)問(wèn)問(wèn)題存儲(chǔ):如此大的數(shù)數(shù)據(jù)量已經(jīng)經(jīng)超越了當(dāng)當(dāng)前關(guān)系型型數(shù)據(jù)庫(kù)可可管理的容容量上限查詢:關(guān)系型數(shù)據(jù)據(jù)庫(kù)上對(duì)大大規(guī)模數(shù)據(jù)據(jù)進(jìn)行操作作會(huì)造成系系統(tǒng)性能嚴(yán)嚴(yán)重下降當(dāng)數(shù)據(jù)集和和索引變大大時(shí),傳統(tǒng)統(tǒng)關(guān)系型數(shù)數(shù)據(jù)庫(kù)如Oracle、Sybase,在對(duì)大規(guī)規(guī)模數(shù)據(jù)進(jìn)進(jìn)行操作會(huì)會(huì)造成系統(tǒng)統(tǒng)性能嚴(yán)重重下降,因因?yàn)樵谔幚砝頂?shù)據(jù)時(shí)SQL請(qǐng)求會(huì)占用用大量的CPU周期,并且且會(huì)導(dǎo)致大大量的磁盤盤讀寫,性性能會(huì)變得得讓人無(wú)法法忍受成本小型機(jī)+高高端存儲(chǔ)+關(guān)系數(shù)據(jù)庫(kù)庫(kù)成本導(dǎo)致擴(kuò)展展困難移動(dòng)用戶上上網(wǎng)記錄集集中查詢與與分析支撐撐系統(tǒng)系統(tǒng)構(gòu)成系統(tǒng)采用全國(guó)集中的一一級(jí)架構(gòu)方案案進(jìn)行建設(shè),,主要包含數(shù)數(shù)據(jù)采集子系系統(tǒng)、數(shù)據(jù)入入庫(kù)子系統(tǒng)、、數(shù)據(jù)存儲(chǔ)子子系統(tǒng)、數(shù)據(jù)據(jù)查詢與分析析子系統(tǒng)基本技術(shù)采用Hadoop/HBase作為上網(wǎng)記錄錄存儲(chǔ)方案采用MapReduce/Hive作用統(tǒng)計(jì)分析析和數(shù)據(jù)挖掘掘工具關(guān)鍵性能指標(biāo)解決方案數(shù)據(jù)查詢上網(wǎng)記錄查詢速度度:不高于1秒(不含用戶戶訪問(wèn)查詢頁(yè)頁(yè)面的時(shí)間))支持并發(fā)查詢?cè)償?shù)目:1000請(qǐng)求/秒數(shù)據(jù)存儲(chǔ)上網(wǎng)記錄入庫(kù)庫(kù)時(shí)間:一般般小于30分鐘,實(shí)際約約10分鐘具備存儲(chǔ)全國(guó)移動(dòng)用戶不小于6個(gè)月的原始上上網(wǎng)記錄能力力歷史5個(gè)月+當(dāng)前月統(tǒng)計(jì)分析的中中間報(bào)表數(shù)據(jù)據(jù)保存不小于于5年全國(guó)集中的一一級(jí)架構(gòu),電電信行業(yè)首次次將Hadoop/HBase引入到商用電電信服務(wù)系統(tǒng)統(tǒng)建設(shè)中系統(tǒng)部署19系統(tǒng)部署兩路x86服務(wù)器(基于于Intel??XeonE5600系列處理器))NameNode節(jié)點(diǎn):3臺(tái)DataNode(數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)點(diǎn)):178臺(tái)Zookeeper節(jié)點(diǎn):7臺(tái)集群監(jiān)控節(jié)點(diǎn):1臺(tái)入庫(kù)服務(wù)節(jié)點(diǎn)點(diǎn):24臺(tái)Web查詢?cè)儜?yīng)應(yīng)用用服服務(wù)務(wù)節(jié)點(diǎn)點(diǎn):20臺(tái)網(wǎng)絡(luò)絡(luò)交交換換設(shè)設(shè)備備機(jī)框間通通過(guò)過(guò)萬(wàn)萬(wàn)兆兆交交換換機(jī)機(jī)連連接接,,以完成成快速速的的數(shù)數(shù)據(jù)據(jù)交換換Intel??Hadoop發(fā)行行版版滿足足高高性性能能的的數(shù)數(shù)據(jù)據(jù)導(dǎo)導(dǎo)入入和和快快速速查查詢?cè)?。。穩(wěn)定、、易易于于部部署署和和管管理理的的企企業(yè)業(yè)級(jí)級(jí)方方案案。。移動(dòng)動(dòng)用用戶戶上上網(wǎng)網(wǎng)記記錄錄集集中中查查詢?cè)兣c與分分析析支支撐撐系系統(tǒng)統(tǒng)20某市市智智能交交通通應(yīng)應(yīng)用用舉舉例例視頻頻云云計(jì)算算/云服服務(wù)務(wù)視頻頻云云服服務(wù)務(wù)中中心心可可以以實(shí)實(shí)時(shí)時(shí)掌掌控控任任一一車車輛輛的的行行駛駛,,運(yùn)運(yùn)行行軌軌跡跡、、分分析析車車輛輛是是否否違違章章視頻頻云云服服務(wù)務(wù)中中心心對(duì)對(duì)海海量量的的交交通通信信息息進(jìn)進(jìn)行行比比對(duì)對(duì)、、分分析析和和預(yù)預(yù)測(cè)測(cè),,為為車車輛輛布布控控、、分分析析擁?yè)矶露聽(tīng)顮顟B(tài)態(tài),,出出行行最最優(yōu)優(yōu)路路徑徑規(guī)規(guī)劃劃、、交交通通管管理理服服務(wù)務(wù)智能能交交通通系系統(tǒng)統(tǒng)實(shí)實(shí)時(shí)時(shí)監(jiān)監(jiān)控控城城市市的的交交通通狀狀態(tài)態(tài),,將將各各個(gè)個(gè)路路口口的的車車輛輛實(shí)實(shí)時(shí)時(shí)抓抓拍拍、、傳傳輸輸?shù)降揭曇曨l頻云云服服務(wù)務(wù)中中心心面臨臨的的挑挑戰(zhàn)戰(zhàn)年過(guò)車車信信息息數(shù)數(shù)據(jù)據(jù)量量達(dá)達(dá)數(shù)百億億級(jí)記錄錄規(guī)規(guī)模模市局局和和區(qū)區(qū)縣縣的數(shù)據(jù)據(jù)中中心心兩級(jí)架架構(gòu)構(gòu),分布布式式存存儲(chǔ)儲(chǔ),,集集中中管管理理。支持持多多條條件件組合合快速速查詢?cè)儯嚎诳诿Q稱、、車車道道名名稱稱、、車車輛輛類類型型、、車車牌牌類類型型、、車車牌牌號(hào)號(hào)碼碼、、車車身身顏顏色色、、車車牌牌顏顏色色、、車車速速范范圍圍、、車車長(zhǎng)長(zhǎng)范范圍圍、、號(hào)號(hào)牌牌段段范范圍圍、、時(shí)時(shí)間間范范圍圍。。支持海量過(guò)過(guò)車信信息的的模糊糊匹配配檢索索。支持各各種統(tǒng)計(jì)分分析、數(shù)據(jù)據(jù)挖掘掘:車輛輛違章率率統(tǒng)計(jì)計(jì)、過(guò)過(guò)車識(shí)識(shí)別率率統(tǒng)計(jì)計(jì)、套套牌分分析、、關(guān)聯(lián)聯(lián)性分析、黑名名單等過(guò)車記錄單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每秒鐘~6MB/s1200條記錄/s120MB/s24000條記錄/秒每小時(shí)~20GB/hour432萬(wàn)條/小時(shí)~400GB/hour8640萬(wàn)條/小時(shí)每天~480GB/day1億條/天~9.6TB/day20億條/天每月~14.4TB/month30億條/月~288TB/month600億條/月三個(gè)月~43.2TB/3months90億條/三個(gè)月~0.8PB/3months1800億條/三個(gè)月違章車輛圖片數(shù)據(jù)單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每小時(shí)~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三個(gè)月~3.6TB/3months~72TB/3months基于英英特爾Hadoop技術(shù)方案案解決了了海量量過(guò)車車信息息(結(jié)結(jié)構(gòu)文文本+圖片))存儲(chǔ)儲(chǔ)問(wèn)題題。解決了了分布布式數(shù)數(shù)據(jù)查查詢問(wèn)問(wèn)題。。系統(tǒng)提提供了了易于于使用用的API,方便便進(jìn)行行二次次開(kāi)發(fā)發(fā)。系統(tǒng)做做了較較多優(yōu)優(yōu)化,,性能能很好好的滿滿足了了項(xiàng)目目的實(shí)實(shí)時(shí)性性要求求。系統(tǒng)的的穩(wěn)定定性好好。智能交交通應(yīng)應(yīng)用技技術(shù)架架構(gòu)圖圖某市智智慧交交通信息系統(tǒng)統(tǒng)架構(gòu)構(gòu)基于海量量數(shù)據(jù)進(jìn)進(jìn)行車輛輛軌跡分分析實(shí)時(shí)路況況信息區(qū)域號(hào)牌牌管理碰撞分析。。。。。。。。。。。。。某市智慧慧醫(yī)療提綱大數(shù)據(jù)帶來(lái)的的挑戰(zhàn)大數(shù)據(jù)案案例介紹紹Intel大數(shù)據(jù)平平臺(tái)27提供高效效的計(jì)算算芯片、、存儲(chǔ)、、I/O、網(wǎng)絡(luò)技技術(shù),加加速大數(shù)數(shù)據(jù)價(jià)值值挖掘與提高決決策反應(yīng)應(yīng)基于x86平臺(tái),提提供最優(yōu)優(yōu)的軟件件和工具具,推動(dòng)動(dòng)大數(shù)據(jù)據(jù)應(yīng)用的的部署和和創(chuàng)新促進(jìn)大數(shù)數(shù)據(jù)生態(tài)態(tài)系統(tǒng)的的建設(shè),,與廣泛泛的合作作伙伴合合作,與與中國(guó)共共成長(zhǎng)企業(yè)大數(shù)數(shù)據(jù)平臺(tái)臺(tái)構(gòu)建中中英特爾爾的角色色投資大數(shù)數(shù)據(jù)解決決方案的的研究和和服務(wù)什么是Hadoop?開(kāi)源Apache項(xiàng)目,靈感來(lái)源于Google的MapReduce白皮書(shū)和Google文件系(GFS),Yahoo完成了絕大部部分初始設(shè)計(jì)計(jì)和開(kāi)發(fā)Hadoop核心組件包括括:-分布式文件系系統(tǒng)-Map/Reduce–分布式計(jì)算用Java編寫運(yùn)行平臺(tái):Linux,MacOS/X,Solaris普通的X86硬件平臺(tái)ShuffleMapReduceHadoop與“大數(shù)據(jù)””Hadoop是致力于“大大數(shù)據(jù)”處理理的最重要平平臺(tái)之一能夠輕松擴(kuò)展展到PB級(jí)別的數(shù)據(jù)存存儲(chǔ),處理規(guī)規(guī)模帶有容錯(cuò)功能能的并行處理理架構(gòu)基于普通的X86平臺(tái)硬件架構(gòu)構(gòu),硬件成本本低廉用內(nèi)置格式存存儲(chǔ)/處理數(shù)據(jù)基于開(kāi)源項(xiàng)目目,擁有當(dāng)量量的代碼來(lái)源源,并且傳統(tǒng)統(tǒng)廠商也日益益重視對(duì)其的的支持,它已已經(jīng)成為重要要的并行處理理架構(gòu)標(biāo)準(zhǔn)之之一越來(lái)越多的企企業(yè)接納Hadoop2007200820092010TheDatagraphBlogSource:HadoopSummitPresentationsIntel提供企業(yè)級(jí)的的Hadoop產(chǎn)品IntelHadoop經(jīng)過(guò)測(cè)試和驗(yàn)驗(yàn)證的穩(wěn)定版版本,在生產(chǎn)產(chǎn)環(huán)境成功部部署運(yùn)營(yíng)包括了Intel針對(duì)現(xiàn)有客戶戶在實(shí)際使用用中出現(xiàn)問(wèn)題題的解決方法法以及改進(jìn)和和優(yōu)化基于Intel在云計(jì)算研發(fā)發(fā)上的經(jīng)驗(yàn)積積累,提供專專業(yè)的咨詢服服務(wù),幫助構(gòu)構(gòu)建高可擴(kuò)展展高性能的分分布式系統(tǒng)結(jié)合Intel的硬件件部門門,提提供全全面的的軟硬硬件解解決方方案為Intel硬件平平臺(tái)進(jìn)進(jìn)行優(yōu)優(yōu)化,,提供供更高高性能能。ComplexMPPSystems(<50TB,real-timeanalytics)ApacheHadoop(Petabytes,batchanalytics)優(yōu)化的大數(shù)據(jù)處理軟件棧穩(wěn)定的企業(yè)級(jí)hadoop發(fā)行版利用硬件新技術(shù)進(jìn)行優(yōu)化HBase改進(jìn)和創(chuàng)新,為Hadoop提供實(shí)時(shí)數(shù)據(jù)處理能力針對(duì)行業(yè)的功能增強(qiáng),應(yīng)對(duì)不同行業(yè)的大數(shù)據(jù)挑戰(zhàn)Hive0.9.0數(shù)據(jù)倉(cāng)庫(kù)Sqoop1.4.1關(guān)系數(shù)據(jù)ETL工具Flume1.1.0日志收集工具Intel
HadoopManager2.0安裝、部署、配置、監(jiān)控、告警和訪問(wèn)控制Zookeeper3.3.5分布式協(xié)作服務(wù)Pig0.9.2數(shù)據(jù)流處理語(yǔ)言Mahout0.6數(shù)據(jù)挖掘HBase0.90.6實(shí)時(shí)、分布式、高維數(shù)據(jù)庫(kù)Map/Reduce1.0.3分布式計(jì)算框架HDFS1.0.3分布式文件系統(tǒng)33英特爾爾企業(yè)業(yè)級(jí)Hadoop堆棧英特爾企業(yè)業(yè)級(jí)Hadoop數(shù)據(jù)平平臺(tái)特特點(diǎn)2023/1/434更高性性能基于于Hadoop底層層的的大大量量?jī)?yōu)優(yōu)化化算算法法,,使使應(yīng)應(yīng)用用效效率率更更高高、、計(jì)計(jì)算算存存儲(chǔ)儲(chǔ)分分布布更更均均衡衡系統(tǒng)統(tǒng)安安裝裝程程序序計(jì)計(jì)算算得得出出的的參參數(shù)數(shù)配配置置,,適適合合大大多多數(shù)數(shù)應(yīng)應(yīng)用用情情況況與硬硬件件技技術(shù)術(shù)相相結(jié)結(jié)合合,,提提高高平平臺(tái)臺(tái)性性能能穩(wěn)定定運(yùn)運(yùn)行行全面面測(cè)測(cè)試試的的企企業(yè)業(yè)級(jí)級(jí)發(fā)發(fā)行行版版,,保保證證長(zhǎng)長(zhǎng)期期穩(wěn)穩(wěn)定定運(yùn)運(yùn)行行集成成最最新新開(kāi)開(kāi)源源的的和和自自行行開(kāi)開(kāi)發(fā)發(fā)的的補(bǔ)補(bǔ)丁丁,,用用戶戶可可以以及及時(shí)時(shí)修修正正漏漏洞洞保證證各各個(gè)個(gè)部部件件之之間間的的一一致致性性,,使使應(yīng)應(yīng)用用順順滑滑運(yùn)運(yùn)行行易于于管管理理提供供獨(dú)獨(dú)有有的的基基于于瀏瀏覽覽器器的的集集群群安安裝裝和和管管理理界界面面,,解解決決開(kāi)開(kāi)源源版版本本管管理理困困難難的的問(wèn)問(wèn)題題提供網(wǎng)網(wǎng)頁(yè)、、郵件件和短短信方方式的的系統(tǒng)統(tǒng)異常常報(bào)警警功能增增強(qiáng)提供跨跨數(shù)據(jù)據(jù)中心心的HBase數(shù)據(jù)庫(kù)庫(kù)虛擬擬大表表功能能實(shí)現(xiàn)HBase數(shù)據(jù)庫(kù)庫(kù)復(fù)制制和備備份功功能其他針針對(duì)企企業(yè)用用戶需需要的的增強(qiáng)強(qiáng)功能能英特爾Hadoop與開(kāi)源Hadoop比較英特爾產(chǎn)品增強(qiáng)開(kāi)源系統(tǒng)原始實(shí)現(xiàn)針對(duì)HDFS數(shù)據(jù)節(jié)點(diǎn)的讀寫選取提供高級(jí)均衡算法,提高系統(tǒng)擴(kuò)展性,適合不同配置服務(wù)器組成的集群簡(jiǎn)單均衡算法,容易在慢速服務(wù)器或熱點(diǎn)服務(wù)器上產(chǎn)生讀寫瓶頸,最慢服務(wù)器成為系統(tǒng)性能瓶頸根據(jù)讀請(qǐng)求并發(fā)程度動(dòng)態(tài)增加熱點(diǎn)數(shù)據(jù)的復(fù)制倍數(shù),提高M(jìn)ap/Reduce任務(wù)擴(kuò)展性無(wú)法自動(dòng)擴(kuò)充倍數(shù)功能,在集中讀取時(shí)擴(kuò)展性不強(qiáng),存在性能瓶頸為HDFS的NameNode提供雙機(jī)熱備方案,提高可靠性NameNode是系統(tǒng)的單點(diǎn)破損點(diǎn),一旦失效系統(tǒng)將無(wú)法讀寫實(shí)現(xiàn)跨區(qū)域數(shù)據(jù)中心的HBase超級(jí)大表,用戶應(yīng)用可實(shí)現(xiàn)位置透明的數(shù)據(jù)讀寫訪問(wèn)和全局匯總統(tǒng)計(jì)無(wú)此功能,無(wú)法進(jìn)行跨數(shù)據(jù)中心部署可將HBase表復(fù)制到異地集群,并提供單向、雙向復(fù)制功能,實(shí)現(xiàn)異地容災(zāi)沒(méi)有成熟的復(fù)制方案在HBase中,根據(jù)數(shù)據(jù)局部性、服務(wù)器Region數(shù)、表的Region數(shù)來(lái)實(shí)現(xiàn)負(fù)載均衡,適合多用戶共享集群創(chuàng)建多張大表的應(yīng)用只根據(jù)Region數(shù)量進(jìn)行負(fù)載均衡,容易產(chǎn)生系統(tǒng)不均衡基于HBase的分布式聚合函數(shù),比傳統(tǒng)方式提高10倍以上效率無(wú)成熟方案實(shí)現(xiàn)對(duì)HBase的不同表或不同列族的復(fù)制份數(shù)精細(xì)控制無(wú)此功能HBase的MajorCompaction精細(xì)控制簡(jiǎn)單算法,容易產(chǎn)生合并風(fēng)暴Intel對(duì)hadoop的性能能優(yōu)化化2023/1/436為企業(yè)級(jí)應(yīng)應(yīng)用而優(yōu)化化:優(yōu)化化后的HBase與開(kāi)源版本本的性能差差異性能數(shù)據(jù)在在8臺(tái)服務(wù)器組組成的小規(guī)規(guī)模集群上上測(cè)試得到到服務(wù)器配置置:E5-26808核CPU,64GB內(nèi)存,8塊7200rpmSATA硬盤,千兆以太網(wǎng)網(wǎng)query/sinsertion/s基于HBase數(shù)據(jù)庫(kù)平均每秒每每服務(wù)器插插入10000條記錄(雙路,32GB)(每條記錄大大約1KB)數(shù)據(jù)查詢:平均每秒每每服務(wù)器大大于400次查詢,查查詢時(shí)延小小于1秒(在不同壓力力下0.05秒~0.8秒)每次查詢返返回一個(gè)用用戶一個(gè)月月的移動(dòng)詳詳細(xì)記錄異步復(fù)制異步復(fù)制跨數(shù)據(jù)中心心大表2023/1/437全局虛擬大大表大表數(shù)據(jù)分分區(qū)存放在在物理分中中心多個(gè)分中心心位于不同同地理位置置分中心之間間由網(wǎng)絡(luò)互互連接入任何分分中心可訪訪問(wèn)全局?jǐn)?shù)數(shù)據(jù)高可用性適合本地高高速寫入分布式聚合合計(jì)算,避避免大數(shù)據(jù)據(jù)傳輸虛擬大表異步復(fù)制分中心A分中心B分中心C2023/1/438直觀集群管理工具簡(jiǎn)化管理理專為Hadoop優(yōu)化的硬件I/O:非標(biāo)準(zhǔn)主主板設(shè)計(jì)支支持最大I/O電源:高效效(80+白金)熱插插拔冷冗余余電源能效:雙CPU分散型設(shè)計(jì)計(jì)降低散熱熱功耗內(nèi)存:最大大容量適應(yīng)應(yīng)BigData需求網(wǎng)絡(luò):新一一代Intel四網(wǎng)絡(luò)口千千兆以太網(wǎng)網(wǎng)存儲(chǔ):支持持多種硬盤盤數(shù)量模式式,支持最最大存儲(chǔ)容容量,適應(yīng)應(yīng)BigData需求新一代英特爾?服務(wù)器主板產(chǎn)品
S2600GZ“GrizzlyPass”新一代英特爾?服務(wù)器系統(tǒng)產(chǎn)品
R2000“BigHornPeak”電源:高效效冗余電源源高密度:4-Node-in-2U,適用于計(jì)計(jì)算密集型型節(jié)點(diǎn),高效空間利用用,降低TCO靈活:3種主板SKU提供不同計(jì)計(jì)算能力新一代英特爾?服務(wù)器主板產(chǎn)品S2600JF“JeffersonPass”
S2600WP“WashingtonPass”新一代英特爾?服務(wù)器系統(tǒng)產(chǎn)品
H2000“BobcatPeak”RAS:?jiǎn)喂?jié)點(diǎn)獨(dú)獨(dú)立散熱內(nèi)存:按需需選擇不同同內(nèi)存插槽槽數(shù)量網(wǎng)絡(luò):FDR/QDRInfiniBand高速速互互聯(lián)聯(lián)I/O:3至4個(gè)PCIEGen3x16I/O易維維護(hù)護(hù)性性::服服務(wù)務(wù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025完整施工隊(duì)合同
- 兼職中醫(yī)師聘用合同
- 活動(dòng)承辦合同模板
- 合同示范文本庫(kù)
- 變壓器承包合同
- 企業(yè)員工勞動(dòng)合同范本
- 連帶責(zé)任擔(dān)保借款合同范本
- 2025關(guān)于土地轉(zhuǎn)讓合同范本
- 定制家具合同
- 知識(shí)產(chǎn)權(quán)許可使用及轉(zhuǎn)讓合同范本
- 個(gè)人安全與社會(huì)責(zé)任的基本知識(shí)概述
- 建筑裝飾工程計(jì)量與計(jì)價(jià)試題一及答案
- 簡(jiǎn)易勞務(wù)合同電子版
- 明代文學(xué)緒論
- 通用稅務(wù)自查情況說(shuō)明報(bào)告(7篇)
- 體育賽事的策劃、組織與實(shí)施 體育賽事利益相關(guān)者
- 分析化學(xué)(高職)PPT完整版全套教學(xué)課件
- 晚熟的人(莫言諾獎(jiǎng)后首部作品)
- m拱頂儲(chǔ)罐設(shè)計(jì)計(jì)算書(shū)
- 2023外貿(mào)業(yè)務(wù)協(xié)調(diào)期中試卷
- 新人教鄂教版(2017)五年級(jí)下冊(cè)科學(xué)全冊(cè)教學(xué)課件
評(píng)論
0/150
提交評(píng)論