大數(shù)據(jù)分析平臺

上傳人：y*** IP屬地：天津上傳時間：2022-01-23 格式：DOCX 頁數(shù)：4 大?。?3.19KB 積分：12 舉報 版權(quán)申訴

免費預(yù)覽已結(jié)束，剩余1頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、、分祈層分布式計算框架/YARN文件系焼/"phHDFS結(jié)構(gòu)化數(shù)據(jù)非結(jié)梅化數(shù)據(jù)買幀數(shù)堀流計算 / StormIMDG:Dril Impate大數(shù)據(jù)分析處理架構(gòu)圖內(nèi)存計算/spark + shark數(shù)據(jù)歸/ Rr Mahout數(shù)據(jù)分析平臺層次解析數(shù)據(jù)源：除該種方法之外，還可以分為離線數(shù)據(jù)、近似實時數(shù)據(jù)和實時數(shù)據(jù)。按照圖中的分類其實就是說明了數(shù)據(jù)存儲的結(jié)構(gòu)，而特別要說的是流數(shù)據(jù)，它的核心就是數(shù)據(jù)的連續(xù)性和快速分析性；計算層：內(nèi)存計算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有內(nèi)存將要處理的數(shù)據(jù)加載其中，省掉很多I/O開銷和硬盤拖累，從而加快計算。而Im

2、pala思想來源于Google Dremel，充分利用分布式的集群和高效存儲方式來加快大數(shù)據(jù)集上的查詢速度，這也就是我上面說到的近似實時查詢；底層的文件系統(tǒng)當(dāng)然是 HDFS蟲大，也就是Hadoop的底層存儲，現(xiàn)在大數(shù)據(jù)的技術(shù)除了微軟系的意外，根本都是HDFS乍為底層的存儲技術(shù)。上層的 YARN就是MapReduce第二版，和在一起就是Hadoop最新版本?；谥系膽?yīng)用有 Hive，Pig Latin ，這兩個是利用了 SQL的思想來查詢Hadoop上的數(shù)據(jù)。關(guān)鍵：利用大數(shù)據(jù)做決策支持。R可以幫你在大數(shù)據(jù)上做統(tǒng)計分析，利用 R語言和框架可以實現(xiàn)很專業(yè)的統(tǒng)計分析功能，并且能利用圖形的方

3、式展現(xiàn)；而Mahout就是一個集數(shù)據(jù)挖掘、決策支持等算法于一身的工具，其中包含的都是基于Hadoop來實現(xiàn)的經(jīng)典算法，拿這個作為數(shù)據(jù)分析的核心算法集來參考還是很好的。如此一個決策支持系統(tǒng)要怎么展現(xiàn)呢？其實這個和數(shù)據(jù)挖掘過程中的展現(xiàn)一樣，無非就是通過表格和圖標(biāo)圖形來進(jìn)行展示，其實一份分類詳細(xì)、顏色艷麗、數(shù)據(jù)權(quán)威的數(shù) 據(jù)圖標(biāo)報告就是呈現(xiàn)給客戶的最好方式！至于用什么工具來實現(xiàn)，有兩個是最好的數(shù) 據(jù)展現(xiàn)工具，Tableau和Pentaho，利用他們最為數(shù)據(jù)展現(xiàn)層絕對是最好的選擇。二、規(guī)劃的數(shù)據(jù)平臺產(chǎn)品 AE(Accelerate Engine)支持下一代企業(yè)計算關(guān)鍵技術(shù)的大數(shù)據(jù)處理平臺：包括計算引擎

4、、開發(fā)工具、管理工具及數(shù)據(jù)效勞。計算引擎是 AE的核心局部，提供支持從多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進(jìn)行實時數(shù)據(jù)集成、提供分布式環(huán)境下的消息總線、通過 Service Gateway 能夠與第三方系統(tǒng)進(jìn)行效勞整合訪問；設(shè)計了一個分布式計算框架，可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù) 據(jù)，并提供內(nèi)存計算、規(guī)劃計算、數(shù)據(jù)挖掘、流計算等各種企業(yè)計算效勞。 Data Studio 包括了數(shù)據(jù)建模、開發(fā)、測試等集成開發(fā)環(huán)境。管理工具包括了實施、客戶化及系統(tǒng)管理類工具。AE平臺還可以通過UAP開發(fā)者社區(qū)提供豐富的數(shù)據(jù)效勞。AE架構(gòu)圖新規(guī)劃將BAP平臺拆分為兩局部，底層技術(shù)平臺開展內(nèi)存計算和數(shù)據(jù)處理，上層BI展現(xiàn)端重點開展

5、儀表盤、web和移動設(shè)備展現(xiàn)。兩大產(chǎn)品通過數(shù)據(jù)處理接口和嵌入式應(yīng)用效勞于業(yè)務(wù)系統(tǒng)。生態(tài)系統(tǒng)圖大數(shù)據(jù)處理平臺擔(dān)負(fù)著為BI系統(tǒng)提供語義層/OLAP引擎等底層技術(shù)支撐、BI及ERP 系統(tǒng)的性能提升、以及數(shù)據(jù)挖掘、非結(jié)構(gòu)化數(shù)據(jù)處理等系列數(shù)據(jù)整合與處理的解決方案。具體模塊包括：語義層：為統(tǒng)一的查詢建模平臺和數(shù)據(jù)訪問接口。除提供標(biāo)準(zhǔn)的查詢建模能力外，還有語義驅(qū)動、語義規(guī)那么、語義函數(shù)、描述器等等擴(kuò)展方式，滿足不同層面的擴(kuò)展要求。OLAF引擎：OLAF引擎提供全面的多維建模與分析能力。多維模型包括維度、層次、級別、屬性、指標(biāo)、計算成員等；同時預(yù)置系列分析函數(shù)，包括同比/環(huán)比/期比/基比等時間序列分

6、析、占比 /排名/方差等統(tǒng)計分析、指數(shù)回歸和線性回歸分析等；提供標(biāo)準(zhǔn)的MDX軍析與執(zhí)行，與數(shù)據(jù)倉庫等模塊結(jié)合，提供針對海量數(shù)據(jù)的實時分析和處理能力。數(shù)據(jù)集成：能夠勝任在大數(shù)據(jù)量、高并發(fā)、多維分析等環(huán)境背景下的實時分析。通過實時數(shù)據(jù)集成RDI提供的數(shù)據(jù)實時復(fù)制與DW的列式存儲引擎，解決了以往在傳統(tǒng) 架構(gòu)模式下，普通行式存儲引擎無法實現(xiàn)的業(yè)務(wù)場景。數(shù)據(jù)挖掘：支持運行于分布式文件系統(tǒng)和分布式計算平臺之上的分布式數(shù)據(jù)挖掘算法，具體包括：邏輯斯特回歸、樸素貝葉斯分類算法及其分布式實現(xiàn)；K 均值、譜聚類算法及其分布式實現(xiàn)；潛在狄利克雷分配語義挖掘算法及其分布式實現(xiàn)；頻繁模式挖掘分析算法及其分

7、布式實現(xiàn)；協(xié)同過濾、概率矩陣分解推薦算法及其分布式實現(xiàn)；提供分布式挖掘算法的統(tǒng)一操作原語和執(zhí)行引擎。數(shù)據(jù)倉庫：數(shù)據(jù)倉庫提供針對海量數(shù)據(jù)進(jìn)行高效的查詢和分析。包括同時支持關(guān)系數(shù) 據(jù)庫、NoSQL數(shù)據(jù)庫、以及分布式文件系統(tǒng)進(jìn)行數(shù)據(jù)存儲和加載的多存儲引擎，基于 MapReduce匡架針對海量數(shù)據(jù)的高性能查詢和分析，以及 Map Reduce框架本身具有的高擴(kuò)展性和容錯性。非結(jié)構(gòu)化數(shù)據(jù)管理：非結(jié)構(gòu)化數(shù)據(jù)不包含內(nèi)嵌的語義結(jié)構(gòu)描述信息，而信息系統(tǒng)需要結(jié)合其“內(nèi)容而不僅僅是數(shù)據(jù)本身進(jìn)行查詢、檢索、分析與挖掘，因此非結(jié)構(gòu)化數(shù) 據(jù)管理系統(tǒng)需要實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)提取，提取的非結(jié)構(gòu)化數(shù)據(jù)是進(jìn)行后續(xù)處理

8、的根底，具體包括結(jié)構(gòu)化信息和底層 / 高層特征的提取兩個。非結(jié)構(gòu)化數(shù)據(jù)提取組件依賴于分布式文件系統(tǒng)和非結(jié)構(gòu)化數(shù)據(jù)存儲提供的原始數(shù)據(jù)作為數(shù)據(jù)源數(shù)據(jù)，依賴于非結(jié)構(gòu)化數(shù)據(jù)存儲來存儲提取的元數(shù)據(jù)或者特征數(shù)據(jù)，依賴于并行計算框架來分布化執(zhí)行過程，加快執(zhí)行速度。消息總線：包括主數(shù)據(jù)管理、集中身份管理、應(yīng)用集成開發(fā)環(huán)境、集成監(jiān)控管理等。滿足集成平臺的應(yīng)用需求，支持界面集成、信息集成、效勞集成、流程集成等集成方式。分布式計算系統(tǒng) ：包括分布式文件系統(tǒng)和分布式計算框架。分布式文件系統(tǒng)以高可靠的容錯機(jī)制為核心，系統(tǒng)架構(gòu)包括多元數(shù)據(jù)效勞器、多數(shù)據(jù)存儲效勞器、多監(jiān)管者、多客戶端，支持大文件和大數(shù)據(jù)塊的分布式存儲與管理；分布式計算框架基于 MapReduce與 MPI計算模型，提供了一套并行計算框架；并利用物理機(jī)以及虛擬機(jī)的監(jiān)控信息，

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析平臺

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)分析平臺

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔