大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)

上傳人：鍵*** IP屬地：上海上傳時(shí)間：2022-02-25 格式：DOCX 頁(yè)數(shù)：3 大?。?29.64KB 積分：20 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)_第2頁(yè)

大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)_第3頁(yè)

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)公司馬小姐1、搭建大數(shù)據(jù)平臺(tái)離不開(kāi)BI。在大數(shù)據(jù)之前，BI就已經(jīng)存在很久了，簡(jiǎn)單把大數(shù)據(jù)等同于BI，明顯是不恰當(dāng)?shù)?。但兩者又是緊密關(guān)聯(lián)的，相輔相成的。BI是達(dá)成業(yè)務(wù)管理的應(yīng)用工具，沒(méi)有BI，大數(shù)據(jù)就沒(méi)有了價(jià)值轉(zhuǎn)化的工具，就無(wú)法把數(shù)據(jù)的價(jià)值呈現(xiàn)給用戶(hù)，也就無(wú)法有效地支撐企業(yè)經(jīng)營(yíng)管理決策；大數(shù)據(jù)則是基礎(chǔ)，沒(méi)有大數(shù)據(jù)，BI就失去了存在的基礎(chǔ)，沒(méi)有辦法快速、實(shí)時(shí)、高效地處理數(shù)據(jù)，支撐應(yīng)用。所以，數(shù)據(jù)的價(jià)值發(fā)揮，大數(shù)據(jù)平臺(tái)的建設(shè)，必然是囊括了大數(shù)據(jù)處理與BI應(yīng)用分析建設(shè)的。2、大數(shù)據(jù)擁有價(jià)值。來(lái)看看數(shù)據(jù)使用金字塔模型，從數(shù)據(jù)的使用角度來(lái)看，數(shù)據(jù)基本有以下使用

2、方式：自上而下，可以看到，對(duì)數(shù)據(jù)的要求是不一樣的：· 數(shù)據(jù)量越來(lái)越大，維度越來(lái)越多。· 交互難度越來(lái)越大。· 技術(shù)難度越來(lái)越大。· 以人為主，逐步向機(jī)器為主。· 用戶(hù)專(zhuān)業(yè)程度逐步提升，門(mén)檻越來(lái)越高。企業(yè)對(duì)數(shù)據(jù)、效率要求的逐步提高，也給大數(shù)據(jù)提供了展現(xiàn)能力的平臺(tái)。企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái)，歸根到底是構(gòu)建企業(yè)的數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)中心，發(fā)揮數(shù)據(jù)的價(jià)值，支撐企業(yè)的發(fā)展。整體方案思路如下：建設(shè)企業(yè)的基礎(chǔ)數(shù)據(jù)中心，構(gòu)建企業(yè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)體系，統(tǒng)一進(jìn)行數(shù)據(jù)建模，為數(shù)據(jù)的價(jià)值呈現(xiàn)奠定基礎(chǔ)。同時(shí)數(shù)據(jù)處理能力下沉，建設(shè)集中的數(shù)據(jù)處理中心，提供強(qiáng)大的數(shù)據(jù)處理能力；通過(guò)統(tǒng)一的數(shù)據(jù)

3、管理監(jiān)控體系，保障系統(tǒng)的穩(wěn)定運(yùn)行。有了數(shù)據(jù)基礎(chǔ)，構(gòu)建統(tǒng)一的BI應(yīng)用中心，滿足業(yè)務(wù)需求，體現(xiàn)數(shù)據(jù)價(jià)值。提到大數(shù)據(jù)就會(huì)提到hadoop。大數(shù)據(jù)并不等同于hadoop，但hadoop的確是最熱門(mén)的大數(shù)據(jù)技術(shù)。下面以最常用的混搭架構(gòu)，來(lái)看一下大數(shù)據(jù)平臺(tái)可以怎么通過(guò)Kafka作為統(tǒng)一采集平臺(tái)的消息管理層，靈活的對(duì)接、適配各種數(shù)據(jù)源采集（如集成flume），提供靈活、可配置的數(shù)據(jù)采集能力。利用spark和hadoop技術(shù)，構(gòu)建大數(shù)據(jù)平臺(tái)最為核心的基礎(chǔ)數(shù)據(jù)的存儲(chǔ)、處理能力中心，提供強(qiáng)大的數(shù)據(jù)處理能力，滿足數(shù)據(jù)的交互需求。同時(shí)通過(guò)sparkstreaming，可以有效滿足企業(yè)實(shí)時(shí)數(shù)據(jù)的要求，構(gòu)建企業(yè)發(fā)展的實(shí)時(shí)

4、指標(biāo)體系。同時(shí)為了更好的滿足的數(shù)據(jù)獲取需求，通過(guò)RDBMS，提供企業(yè)高度匯總的統(tǒng)計(jì)數(shù)據(jù)，滿足企業(yè)常規(guī)的統(tǒng)計(jì)報(bào)表需求，降低使用門(mén)檻。對(duì)大數(shù)據(jù)明細(xì)查詢(xún)需求，則通過(guò)構(gòu)建HBase集群，提供大數(shù)據(jù)快速查詢(xún)能力，滿足對(duì)大數(shù)據(jù)的查詢(xún)獲取需求。一般的大數(shù)據(jù)平臺(tái)從平臺(tái)搭建到數(shù)據(jù)分析大概包括以下幾個(gè)步驟：1、Linux系統(tǒng)安裝一般使用開(kāi)源版的Redhat系統(tǒng)-CentOS作為底層平臺(tái)。為了提供穩(wěn)定的硬件基礎(chǔ)，在給硬盤(pán)做RAID和掛載數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的時(shí)，需要按情況配置。比如，可以選擇給HDFS的namenode做RAID2以提高其穩(wěn)定性，將數(shù)據(jù)存儲(chǔ)與操作系統(tǒng)分別放置在不同硬盤(pán)上，以確保操作系統(tǒng)的正常運(yùn)行。2、分布式

5、計(jì)算平臺(tái)/組件安裝當(dāng)前分布式系統(tǒng)的大多使用的是Hadoop系列開(kāi)源系統(tǒng)。Hadoop的核心是HDFS，一個(gè)分布式的文件系統(tǒng)。在其基礎(chǔ)上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。使用開(kāi)源組件的優(yōu)點(diǎn)：1）使用者眾多，很多bug可以在網(wǎng)上找的答案（這往往是開(kāi)發(fā)中最耗時(shí)的地方）；2）開(kāi)源組件一般免費(fèi)，學(xué)習(xí)和維護(hù)相對(duì)方便；3）開(kāi)源組件一般會(huì)持續(xù)更新；4）因?yàn)榇a開(kāi)源，如果出現(xiàn)bug可自由對(duì)源碼作修改維護(hù)。常用的分布式數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)有Hive、Hbase。Hive可以用SQL查詢(xún)，Hbase可以快速讀取行。外部數(shù)據(jù)庫(kù)導(dǎo)

6、入導(dǎo)出需要用到Sqoop。Sqoop將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)入Hive或Hbase。Zookeeper是提供數(shù)據(jù)同步服務(wù)， Impala是對(duì)hive的一個(gè)補(bǔ)充，可以實(shí)現(xiàn)高效的SQL查詢(xún)3、數(shù)據(jù)導(dǎo)入前面提到，數(shù)據(jù)導(dǎo)入的工具是Sqoop。它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)入到分布式平臺(tái)。4、數(shù)據(jù)分析數(shù)據(jù)分析一般包括兩個(gè)階段：數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。數(shù)據(jù)預(yù)處理是為后面的建模分析做準(zhǔn)備，主要工作時(shí)從海量數(shù)據(jù)中提取可用特征，建立大寬表。這個(gè)過(guò)程可能會(huì)用到Hive SQL，Spark QL和Impala。數(shù)據(jù)建模分析是針對(duì)預(yù)處理提取的特征/數(shù)據(jù)建模，得到想要的結(jié)果。如前面所提到的，這一塊最好用的是Spark。常用的機(jī)器學(xué)習(xí)算法，如樸素貝葉斯、邏輯回歸

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)分析平臺(tái)系統(tǒng)開(kāi)發(fā)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔