大數(shù)據(jù)分析平臺(tái)_第1頁(yè)
大數(shù)據(jù)分析平臺(tái)_第2頁(yè)
大數(shù)據(jù)分析平臺(tái)_第3頁(yè)
大數(shù)據(jù)分析平臺(tái)_第4頁(yè)
大數(shù)據(jù)分析平臺(tái)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一、數(shù)據(jù)分析平臺(tái)層次解析大數(shù)據(jù)分析解決架構(gòu)圖數(shù)據(jù)源:除該種辦法之外,還能夠分為離線數(shù)據(jù)、近似實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)。按照?qǐng)D中的分類其實(shí)就是闡明了數(shù)據(jù)存儲(chǔ)的構(gòu)造,而特別要說(shuō)的是流數(shù)據(jù),它的核心就是數(shù)據(jù)的持續(xù)性和快速分析性;計(jì)算層:內(nèi)存計(jì)算中的Spark是UCBerkeley的最新作品,思路是運(yùn)用集群中的全部?jī)?nèi)存將要解決的數(shù)據(jù)加載其中,省掉諸多I/O開(kāi)銷和硬盤連累,從而加緊計(jì)算。而Impala思想來(lái)源于谷歌Dremel,充足運(yùn)用分布式的集群和高效存儲(chǔ)方式來(lái)加緊大數(shù)據(jù)集上的查詢速度,這也就是我上面說(shuō)到的近似實(shí)時(shí)查詢;底層的文獻(xiàn)系統(tǒng)固然是HDFS獨(dú)大,也就是Hadoop的底層存儲(chǔ),現(xiàn)在大數(shù)據(jù)的技術(shù)除了微軟系的意外,基本都是HDFS作為底層的存儲(chǔ)技術(shù)。上層的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本?;谥系膽?yīng)用有Hive,PigLatin,這兩個(gè)是運(yùn)用了SQL的思想來(lái)查詢Hadoop上的數(shù)據(jù)。核心:運(yùn)用大數(shù)據(jù)做決策支持。R能夠幫你在大數(shù)據(jù)上做統(tǒng)計(jì)分析,運(yùn)用R語(yǔ)言和框架能夠?qū)崿F(xiàn)很專業(yè)的統(tǒng)計(jì)分析功效,并且能運(yùn)用圖形的方式呈現(xiàn);而Mahout就是一種集數(shù)據(jù)挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來(lái)實(shí)現(xiàn)的典型算法,拿這個(gè)作為數(shù)據(jù)分析的核心算法集來(lái)參考還是較好的。如此一種決策支持系統(tǒng)要怎么呈現(xiàn)呢?其實(shí)這個(gè)和數(shù)據(jù)挖掘過(guò)程中的呈現(xiàn)同樣,無(wú)非就是通過(guò)表格和圖標(biāo)圖形來(lái)進(jìn)行展示,其實(shí)一份分類具體、顏色艷麗、數(shù)據(jù)權(quán)威的數(shù)據(jù)圖標(biāo)報(bào)告就是呈現(xiàn)給客戶的最佳方式!至于用什么工具來(lái)實(shí)現(xiàn),有兩個(gè)是最佳的數(shù)據(jù)呈現(xiàn)工具,Tableau和Pentaho,運(yùn)用他們最為數(shù)據(jù)呈現(xiàn)層絕對(duì)是最佳的選擇。二、規(guī)劃的數(shù)據(jù)平臺(tái)產(chǎn)品AE(AccelerateEngine)支持下一代公司計(jì)算核心技術(shù)的大數(shù)據(jù)解決平臺(tái):涉及計(jì)算引擎、開(kāi)發(fā)工具、管理工具及數(shù)據(jù)服務(wù)。計(jì)算引擎是AE的核心部分,提供支持從多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進(jìn)行實(shí)時(shí)數(shù)據(jù)集成、提供分布式環(huán)境下的消息總線、通過(guò)ServiceGateway能夠與第三方系統(tǒng)進(jìn)行服務(wù)整合訪問(wèn);設(shè)計(jì)了一種分布式計(jì)算框架,能夠解決構(gòu)造化和非構(gòu)造化數(shù)據(jù),并提供內(nèi)存計(jì)算、規(guī)劃計(jì)算、數(shù)據(jù)挖掘、流計(jì)算等多個(gè)公司計(jì)算服務(wù)。DataStudio涉及了數(shù)據(jù)建模、開(kāi)發(fā)、測(cè)試等集成開(kāi)發(fā)環(huán)境。管理工具涉及了實(shí)施、客戶化及系統(tǒng)管理類工具。AE平臺(tái)還能夠通過(guò)UAP開(kāi)發(fā)者社區(qū)提供豐富的數(shù)據(jù)服務(wù)。AE架構(gòu)圖新規(guī)劃將BAP平臺(tái)拆分為兩部分,底層技術(shù)平臺(tái)發(fā)展內(nèi)存計(jì)算和數(shù)據(jù)解決,上層BI呈現(xiàn)端重點(diǎn)發(fā)展儀表盤、web和移動(dòng)設(shè)備呈現(xiàn)。兩大產(chǎn)品通過(guò)數(shù)據(jù)解決接口和嵌入式應(yīng)用服務(wù)于業(yè)務(wù)系統(tǒng)。生態(tài)系統(tǒng)圖大數(shù)據(jù)解決平臺(tái)肩負(fù)著為BI系統(tǒng)提供語(yǔ)義層/OLAP引擎等底層技術(shù)支撐、BI及ERP系統(tǒng)的性能提高、以及數(shù)據(jù)挖掘、非構(gòu)造化數(shù)據(jù)解決等系列數(shù)據(jù)整合與解決的解決方案。具體模塊涉及:語(yǔ)義層:為統(tǒng)一的查詢建模平臺(tái)和數(shù)據(jù)訪問(wèn)接口。除提供原則的查詢建模能力外,尚有語(yǔ)義驅(qū)動(dòng)、語(yǔ)義規(guī)則、語(yǔ)義函數(shù)、描述器等等擴(kuò)展方式,滿足不同層面的擴(kuò)展規(guī)定。OLAP引擎:OLAP引擎提供全方面的多維建模與分析能力。多維模型涉及維度、層次、級(jí)別、屬性、指標(biāo)、計(jì)算組員等;同時(shí)預(yù)置系列分析函數(shù),涉及同比/環(huán)比/期比/基比等時(shí)間序列分析、占比/排名/方差等統(tǒng)計(jì)分析、指數(shù)回歸和線性回歸分析等;提供原則的MDX解析與執(zhí)行,與數(shù)據(jù)倉(cāng)庫(kù)等模塊結(jié)合,提供針對(duì)海量數(shù)據(jù)的實(shí)時(shí)分析和解決能力。數(shù)據(jù)集成:能夠勝任在大數(shù)據(jù)量、高并發(fā)、多維分析等環(huán)境背景下的實(shí)時(shí)分析。通過(guò)實(shí)時(shí)數(shù)據(jù)集成(RDI)提供的數(shù)據(jù)實(shí)時(shí)復(fù)制與DW的列式存儲(chǔ)引擎,解決了以往在傳統(tǒng)架構(gòu)模式下,普通行式存儲(chǔ)引擎無(wú)法實(shí)現(xiàn)的業(yè)務(wù)場(chǎng)景。數(shù)據(jù)挖掘:支持運(yùn)行于分布式文獻(xiàn)系統(tǒng)和分布式計(jì)算平臺(tái)之上的分布式數(shù)據(jù)挖掘算法,具體涉及:邏輯斯特回歸、樸素貝葉斯分類算法及其分布式實(shí)現(xiàn);K均值、譜聚類算法及其分布式實(shí)現(xiàn);潛在狄利克雷分派語(yǔ)義挖掘算法及其分布式實(shí)現(xiàn);頻繁模式挖掘分析算法及其分布式實(shí)現(xiàn);協(xié)同過(guò)濾、概率矩陣分解推薦算法及其分布式實(shí)現(xiàn);提供分布式挖掘算法的統(tǒng)一操作原語(yǔ)和執(zhí)行引擎。數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)倉(cāng)庫(kù)提供針對(duì)海量數(shù)據(jù)進(jìn)行高效的查詢和分析。涉及同時(shí)支持關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、以及分布式文獻(xiàn)系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)和加載的多存儲(chǔ)引擎,基于MapReduce框架針對(duì)海量數(shù)據(jù)的高性能查詢和分析,以及MapReduce框架本身含有的高擴(kuò)展性和容錯(cuò)性。非構(gòu)造化數(shù)據(jù)管理:非構(gòu)造化數(shù)據(jù)不包含內(nèi)嵌的語(yǔ)義構(gòu)造描述信息,而信息系統(tǒng)需要結(jié)合其“內(nèi)容”而不僅僅是數(shù)據(jù)本身進(jìn)行查詢、檢索、分析與挖掘,因此非構(gòu)造化數(shù)據(jù)管理系統(tǒng)需要實(shí)現(xiàn)非構(gòu)造化數(shù)據(jù)的數(shù)據(jù)提取,提取的非構(gòu)造化數(shù)據(jù)是進(jìn)行后續(xù)解決的基礎(chǔ),具體涉及構(gòu)造化信息和底層/高層特性的提取兩個(gè)。非構(gòu)造化數(shù)據(jù)提取組件依賴于分布式文獻(xiàn)系統(tǒng)和非構(gòu)造化數(shù)據(jù)存儲(chǔ)提供的原始數(shù)據(jù)作為數(shù)據(jù)源數(shù)據(jù),依賴于非構(gòu)造化數(shù)據(jù)存儲(chǔ)來(lái)存儲(chǔ)提取的元數(shù)據(jù)或者特性數(shù)據(jù),依賴于并行計(jì)算框架來(lái)分布化執(zhí)行過(guò)程,加緊執(zhí)行速度。消息總線:涉及主數(shù)據(jù)管理、集中身份管理、應(yīng)用集成開(kāi)發(fā)環(huán)境、集成監(jiān)控管理等。滿足集成平臺(tái)的應(yīng)用需求,支持界面集成、信息集成、服務(wù)集成、流程集成等集成方式。分布式計(jì)算系統(tǒng):涉及分布式文獻(xiàn)系統(tǒng)和分布式計(jì)算框架。分布式文獻(xiàn)系統(tǒng)以高可靠的容錯(cuò)機(jī)制為核心,系統(tǒng)架構(gòu)涉及多元數(shù)據(jù)服務(wù)器、多數(shù)據(jù)存儲(chǔ)服務(wù)器、多監(jiān)管者、多客戶端,支持大文獻(xiàn)和大數(shù)據(jù)塊的分布式存儲(chǔ)與管理;分布式計(jì)算框架基于MapReduce與MPI計(jì)算模型,提供了一套并行計(jì)算框架;并運(yùn)用物理機(jī)以及虛擬機(jī)的監(jiān)控信息,實(shí)現(xiàn)對(duì)計(jì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論