![大數(shù)據(jù)分析平臺(tái)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/2622e4c2-fad9-4450-bb03-3542e192d3b1/2622e4c2-fad9-4450-bb03-3542e192d3b11.gif)
![大數(shù)據(jù)分析平臺(tái)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/2622e4c2-fad9-4450-bb03-3542e192d3b1/2622e4c2-fad9-4450-bb03-3542e192d3b12.gif)
![大數(shù)據(jù)分析平臺(tái)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/23/2622e4c2-fad9-4450-bb03-3542e192d3b1/2622e4c2-fad9-4450-bb03-3542e192d3b13.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、、分祈層分布式計(jì)算框架/YARN文件系焼/"phHDFS結(jié)構(gòu)化數(shù)據(jù)非結(jié)梅化數(shù)據(jù)買幀 數(shù)堀流計(jì)算 / StormIMDG:Dril Impate大數(shù)據(jù)分析處理架構(gòu)圖內(nèi)存計(jì)算/spark + shark數(shù)據(jù)歸/ Rr Mahout數(shù)據(jù)分析平臺(tái)層次解析數(shù)據(jù)源:除該種方法之外,還可以分為離線數(shù)據(jù)、近似實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)。按照 圖中的分類其實(shí)就是說明了數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu),而特別要說的是流數(shù)據(jù),它的核心就是 數(shù)據(jù)的連續(xù)性和快速分析性;計(jì)算層:內(nèi)存計(jì)算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所 有內(nèi)存將要處理的數(shù)據(jù)加載其中,省掉很多I/O開銷和硬盤拖累,從而加快計(jì)算。而Im
2、pala思想來源于Google Dremel,充分利用分布式的集群和高效存儲(chǔ)方式來加快大 數(shù)據(jù)集上的查詢速度,這也就是我上面說到的近似實(shí)時(shí)查詢;底層的文件系統(tǒng)當(dāng)然是 HDFS蟲大,也就是Hadoop的底層存儲(chǔ),現(xiàn)在大數(shù)據(jù)的技術(shù)除了微軟系的意外,根本 都是HDFS乍為底層的存儲(chǔ)技術(shù)。上層的 YARN就是MapReduce第二版,和在一起就 是Hadoop最新版本?;谥系膽?yīng)用有 Hive,Pig Latin ,這兩個(gè)是利用了 SQL的思 想來查詢Hadoop上的數(shù)據(jù)。關(guān)鍵:利用大數(shù)據(jù)做決策支持。R可以幫你在大數(shù)據(jù)上做統(tǒng)計(jì)分析,利用 R語言和框 架可以實(shí)現(xiàn)很專業(yè)的統(tǒng)計(jì)分析功能,并且能利用圖形的方
3、式展現(xiàn);而Mahout就是一個(gè)集數(shù)據(jù)挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來實(shí)現(xiàn)的經(jīng)典算法,拿這個(gè)作為數(shù)據(jù)分析的核心算法集來參考還是很好的。如此一個(gè)決策支持系統(tǒng)要怎么展現(xiàn)呢?其實(shí)這個(gè)和數(shù)據(jù)挖掘過程中的展現(xiàn)一樣,無非 就是通過表格和圖標(biāo)圖形來進(jìn)行展示,其實(shí)一份分類詳細(xì)、顏色艷麗、數(shù)據(jù)權(quán)威的數(shù) 據(jù)圖標(biāo)報(bào)告就是呈現(xiàn)給客戶的最好方式!至于用什么工具來實(shí)現(xiàn),有兩個(gè)是最好的數(shù) 據(jù)展現(xiàn)工具,Tableau和Pentaho,利用他們最為數(shù)據(jù)展現(xiàn)層絕對(duì)是最好的選擇。二、規(guī)劃的數(shù)據(jù)平臺(tái)產(chǎn)品 AE(Accelerate Engine)支持下一代企業(yè)計(jì)算關(guān)鍵技術(shù)的大數(shù)據(jù)處理平臺(tái):包括計(jì)算引擎
4、、開發(fā)工具、管理工 具及數(shù)據(jù)效勞。計(jì)算引擎是 AE的核心局部,提供支持從多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進(jìn)行實(shí) 時(shí)數(shù)據(jù)集成、提供分布式環(huán)境下的消息總線、通過 Service Gateway 能夠與第三方系 統(tǒng)進(jìn)行效勞整合訪問;設(shè)計(jì)了一個(gè)分布式計(jì)算框架,可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù) 據(jù),并提供內(nèi)存計(jì)算、規(guī)劃計(jì)算、數(shù)據(jù)挖掘、流計(jì)算等各種企業(yè)計(jì)算效勞。 Data Studio 包括了數(shù)據(jù)建模、開發(fā)、測試等集成開發(fā)環(huán)境。管理工具包括了實(shí)施、客戶化 及系統(tǒng)管理類工具。AE平臺(tái)還可以通過UAP開發(fā)者社區(qū)提供豐富的數(shù)據(jù)效勞。AE架構(gòu)圖新規(guī)劃將BAP平臺(tái)拆分為兩局部,底層技術(shù)平臺(tái)開展內(nèi)存計(jì)算和數(shù)據(jù)處理,上層BI展現(xiàn)端重點(diǎn)開展
5、儀表盤、web和移動(dòng)設(shè)備展現(xiàn)。兩大產(chǎn)品通過數(shù)據(jù)處理接口和嵌入式應(yīng)用效勞于業(yè)務(wù)系統(tǒng)。生態(tài)系統(tǒng)圖大數(shù)據(jù)處理平臺(tái)擔(dān)負(fù)著為BI系統(tǒng)提供語義層/OLAP引擎等底層技術(shù)支撐、BI及ERP 系統(tǒng)的性能提升、以及數(shù)據(jù)挖掘、非結(jié)構(gòu)化數(shù)據(jù)處理等系列數(shù)據(jù)整合與處理的解決方 案。具體模塊包括:語義層: 為統(tǒng)一的查詢建模平臺(tái)和數(shù)據(jù)訪問接口。除提供標(biāo)準(zhǔn)的查詢建模能力外,還 有語義驅(qū)動(dòng)、語義規(guī)那么、語義函數(shù)、描述器等等擴(kuò)展方式,滿足不同層面的擴(kuò)展要 求。OLAF引擎:OLAF引擎提供全面的多維建模與分析能力。多維模型包括維度、層次、 級(jí)別、屬性、指標(biāo)、計(jì)算成員等;同時(shí)預(yù)置系列分析函數(shù),包括同比/環(huán)比/期比/基比等時(shí)間序列分
6、析、占比 /排名/方差等統(tǒng)計(jì)分析、指數(shù)回歸和線性回歸分析等;提供 標(biāo)準(zhǔn)的MDX軍析與執(zhí)行,與數(shù)據(jù)倉庫等模塊結(jié)合,提供針對(duì)海量數(shù)據(jù)的實(shí)時(shí)分析和處 理能力。數(shù)據(jù)集成 :能夠勝任在大數(shù)據(jù)量、高并發(fā)、多維分析等環(huán)境背景下的實(shí)時(shí)分析。通過 實(shí)時(shí)數(shù)據(jù)集成RDI提供的數(shù)據(jù)實(shí)時(shí)復(fù)制與DW的列式存儲(chǔ)引擎,解決了以往在傳統(tǒng) 架構(gòu)模式下,普通行式存儲(chǔ)引擎無法實(shí)現(xiàn)的業(yè)務(wù)場景。數(shù)據(jù)挖掘: 支持運(yùn)行于分布式文件系統(tǒng)和分布式計(jì)算平臺(tái)之上的分布式數(shù)據(jù)挖掘算 法,具體包括:邏輯斯特回歸、樸素貝葉斯分類算法及其分布式實(shí)現(xiàn);K 均值、譜聚類算法及其分布式實(shí)現(xiàn);潛在狄利克雷分配語義挖掘算法及其分布式實(shí)現(xiàn);頻繁模式 挖掘分析算法及其分
7、布式實(shí)現(xiàn);協(xié)同過濾、概率矩陣分解推薦算法及其分布式實(shí)現(xiàn); 提供分布式挖掘算法的統(tǒng)一操作原語和執(zhí)行引擎。數(shù)據(jù)倉庫 :數(shù)據(jù)倉庫提供針對(duì)海量數(shù)據(jù)進(jìn)行高效的查詢和分析。包括同時(shí)支持關(guān)系數(shù) 據(jù)庫、NoSQL數(shù)據(jù)庫、以及分布式文件系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)和加載的多存儲(chǔ)引擎,基于 MapReduce匡架針對(duì)海量數(shù)據(jù)的高性能查詢和分析,以及 Map Reduce框架本身具有的 高擴(kuò)展性和容錯(cuò)性。非結(jié)構(gòu)化數(shù)據(jù)管理 :非結(jié)構(gòu)化數(shù)據(jù)不包含內(nèi)嵌的語義結(jié)構(gòu)描述信息,而信息系統(tǒng)需要 結(jié)合其“內(nèi)容而不僅僅是數(shù)據(jù)本身進(jìn)行查詢、檢索、分析與挖掘,因此非結(jié)構(gòu)化數(shù) 據(jù)管理系統(tǒng)需要實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)提取,提取的非結(jié)構(gòu)化數(shù)據(jù)是進(jìn)行后續(xù)處理
8、 的根底,具體包括結(jié)構(gòu)化信息和底層 / 高層特征的提取兩個(gè)。非結(jié)構(gòu)化數(shù)據(jù)提取組件 依賴于分布式文件系統(tǒng)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)提供的原始數(shù)據(jù)作為數(shù)據(jù)源數(shù)據(jù),依賴于 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)來存儲(chǔ)提取的元數(shù)據(jù)或者特征數(shù)據(jù),依賴于并行計(jì)算框架來分布化 執(zhí)行過程,加快執(zhí)行速度。消息總線: 包括主數(shù)據(jù)管理、集中身份管理、應(yīng)用集成開發(fā)環(huán)境、集成監(jiān)控管理等。 滿足集成平臺(tái)的應(yīng)用需求,支持界面集成、信息集成、效勞集成、流程集成等集成方 式。分布式計(jì)算系統(tǒng) :包括分布式文件系統(tǒng)和分布式計(jì)算框架。分布式文件系統(tǒng)以高可靠 的容錯(cuò)機(jī)制為核心,系統(tǒng)架構(gòu)包括多元數(shù)據(jù)效勞器、多數(shù)據(jù)存儲(chǔ)效勞器、多監(jiān)管者、 多客戶端,支持大文件和大數(shù)據(jù)塊的分布式存儲(chǔ)與管理;分布式計(jì)算框架基于 MapReduce與 MPI計(jì)算模型,提供了一套并行計(jì)算框架;并利用物理機(jī)以及虛擬機(jī)的 監(jiān)控信息,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代家居設(shè)計(jì)與生活品質(zhì)的提升
- 現(xiàn)代辦公環(huán)境中營銷自動(dòng)化策略的實(shí)施
- Unit2 An Accident(說課稿)-2024-2025學(xué)年北師大版(三起)英語六年級(jí)上冊(cè)
- 3-1《百合花》(說課稿)高一語文同步高效課堂(統(tǒng)編版 必修上冊(cè))
- 2023二年級(jí)數(shù)學(xué)上冊(cè) 七 分一分與除法第5課時(shí) 小熊開店說課稿 北師大版
- 3 天窗(說課稿)2023-2024學(xué)年部編版語文四年級(jí)下冊(cè)
- 《8和9的加、減法的應(yīng)用》(說課稿)-2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)人教版
- Unit 1 Art Using language 2 說課稿 -2023-2024學(xué)年高中英語人教版(2019)選擇性必修第三冊(cè)
- Unit 5 Colours Lesson 1(說課稿)-2024-2025學(xué)年人教新起點(diǎn)版英語一年級(jí)上冊(cè)
- 2023四年級(jí)數(shù)學(xué)上冊(cè) 1 大數(shù)的認(rèn)識(shí)第4課時(shí) 億以內(nèi)數(shù)的大小比較說課稿 新人教版
- 蘇教版四年級(jí)數(shù)學(xué)下冊(cè)第三單元第二課時(shí)《常見的數(shù)量關(guān)系》課件
- 2025年中考物理總復(fù)習(xí)《壓強(qiáng)》專項(xiàng)測試卷含答案
- 《智能傳感器技術(shù)》課件
- SaaS服務(wù)具體應(yīng)用合同范本2024版版
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 政治試題(含答案)
- 2025年幼兒園年度工作總結(jié)及工作計(jì)劃
- 殘疾人掛靠合作合同協(xié)議書范本
- 浙江省臺(tái)州市2021-2022學(xué)年高一上學(xué)期期末質(zhì)量評(píng)估政治試題 含解析
- 寧夏“8·19”較大爆燃事故調(diào)查報(bào)告
- 中國高血壓防治指南(2024年修訂版)解讀課件
- 2024年員工規(guī)章制度具體內(nèi)容范本(三篇)
評(píng)論
0/150
提交評(píng)論