大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)_第1頁
大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)_第2頁
大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)_第3頁
大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)大數(shù)據(jù)分析平臺系統(tǒng)開發(fā)公司馬小姐1、 搭建大數(shù)據(jù)平臺離不開 BI。在大數(shù)據(jù)之前,BI就已經(jīng)存在很久了,簡單把大數(shù)據(jù)等同于 BI ,明顯是不恰當?shù)?。但兩者又是緊密關聯(lián)的,相輔相成的。BI 是達成業(yè)務管理的應用工具,沒有 BI,大數(shù)據(jù)就沒有了價值轉(zhuǎn)化的工具,就無法把數(shù)據(jù)的價值呈現(xiàn)給用戶,也就無法有效地支撐企業(yè)經(jīng)營管理決策;大數(shù)據(jù)則是基礎,沒有大數(shù)據(jù), BI 就失去了存在的基礎,沒有辦法快速、實時、高效地處 理數(shù)據(jù),支撐應用。 所 以,數(shù)據(jù)的價值發(fā)揮,大數(shù)據(jù)平臺的建設,必然是囊括了大數(shù)據(jù)處理與 BI 應用分析建設的。2、 大數(shù)據(jù)擁有價值。來看看數(shù)據(jù)使用

2、金字塔模型,從數(shù)據(jù)的使用角度來看,數(shù)據(jù)基本有 以下使用方式:StaticQueryOLAPAd hocData Mining自上而下,可以看到,對數(shù)據(jù)的要求是不一樣的 :* 數(shù)據(jù)量越來越大,維度越來越多。* 交互難度越來越大。?技術難度越來越大。* 以人為主,逐步向機器為主。* 用戶專業(yè)程度逐步提升,門檻越來越高。企業(yè)對數(shù)據(jù)、效率要求的逐步提高,也給大數(shù)據(jù)提供了展現(xiàn)能力的平臺。企業(yè)構 建大數(shù)據(jù)平臺,歸根到底是構建企業(yè)的數(shù)據(jù)資產(chǎn)運營中心,發(fā)揮數(shù)據(jù)的價值,支撐企業(yè)的發(fā)展。整體方案思路如下:建設企業(yè)的基礎數(shù)據(jù)中心,構建企業(yè)統(tǒng)一的數(shù)據(jù)存儲體系,統(tǒng)一進行 數(shù)據(jù)建模, 為數(shù)據(jù)的價值呈現(xiàn)奠定基礎。同時數(shù)據(jù)處

3、理能力下沉,建設集中的數(shù)據(jù)處理 中心,提供強大的數(shù)據(jù)處理能力;通過統(tǒng)一的數(shù)據(jù)管理監(jiān)控體系,保障系統(tǒng)的穩(wěn)定運 行。有了數(shù)據(jù)基礎,構建統(tǒng)一的 BI應用中心,滿足業(yè)務需求,體現(xiàn)數(shù)據(jù)價值。提到大數(shù)據(jù)就會提到hadoop。大數(shù)據(jù)并不等同于hadoop,但hadoop的確是最熱 門的大 數(shù)據(jù)技術。下面以最常用的混搭架構,來看一下大數(shù)據(jù)平臺可以怎么FmeBI業(yè)務分析平臺上層應用數(shù)寛中心星礎數(shù)據(jù)存儲/處理能力parkm2匚系統(tǒng)通過Kafka作為統(tǒng)一采集平臺的消息管理層,靈活的對接、適配各種數(shù)據(jù)源采集(如集成flume),提供靈活、可配置的數(shù)據(jù)采集能力。利用spark和hadoop技術,構建大數(shù)據(jù)平臺最為核心的

4、基礎數(shù)據(jù)的存儲、處理能力中心,提供強 大的數(shù)據(jù) 處理能力,滿足數(shù)據(jù) 的交互 需求。同時 通過sparkstreami ng,可 以有效滿足企業(yè)實時數(shù)據(jù)的要求,構建企業(yè)發(fā)展的實時指標體系。同時為了更好的滿足的數(shù)據(jù)獲取需求,通過RDBMS提供企業(yè)高度匯總的統(tǒng)計數(shù)據(jù),滿足企業(yè)常規(guī)的統(tǒng)計報表需求,降低使用門檻。對大數(shù)據(jù)明細查詢需求,則通過構建HBase集群,提供大數(shù)據(jù)快速查詢能力,滿足對大數(shù)據(jù)的查詢獲取需求。一般的大數(shù)據(jù)平臺從平臺搭建到數(shù)據(jù)分析大概包括以下幾個步驟:1、Linux系統(tǒng)安裝一般使用開源版的 Redhat系統(tǒng)-CentOS作為底層平臺。為了提供穩(wěn)定的硬件基礎,在給硬盤做RAID和掛載數(shù)據(jù)存

5、儲節(jié)點的時,需要按情況配置。比如,可以選擇給HDFS的name node做RAID2以提高其穩(wěn)定性,將數(shù)據(jù)存儲與操作系統(tǒng)分別放置在不同硬盤上,以確保操作系統(tǒng)的正常運行。2、 分布式計算平臺 / 組件安裝 當前分布式系統(tǒng)的大多使用的是 Hadoop 系列開源系統(tǒng)。 Hadoop 的核心是 HDFS 一個分 布式的文件系統(tǒng)。 在其基礎上常用的組件有 Yarn 、 Zookeeper 、 Hive 、 Hbase 、 Sqoop 、 Impala 、 ElasticSearch Spark 等。使用開源組件的優(yōu)點: 1)使用者眾多,很多 bug 可以在網(wǎng)上找的答案(這往往 是開發(fā) 中最耗時的地方)

6、; 2)開源組件一般免費,學習和維護相對方便;3)開 源組件一般會持續(xù)更新; 4)因為代碼開源,如果出現(xiàn) bug 可自由對源碼作修改 維護。常用的分布式數(shù)據(jù)數(shù)據(jù)倉庫有 Hive、Hbaseo Hive可以用SQL查詢,Hbase可以 快速 讀取行。外部數(shù)據(jù)庫導入導出需要用到 SqoopoSqoop 將數(shù)據(jù)從 Oracle MySQL 等傳統(tǒng)數(shù) 據(jù)庫導入 Hive 或 Hbase 。 Zookeeper 是提供數(shù)據(jù)同步服務, Impala 是 對 hive 的一 個補充,可以實現(xiàn)高效的 SQL 查詢3、數(shù)據(jù)導入前面提到,數(shù)據(jù)導入的工具是 Sqoop 。它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫導入到分布式平臺。4、數(shù)據(jù)分析 數(shù)據(jù)分析一般包括兩個階段:數(shù)據(jù)預處理和數(shù)據(jù)建模分析。 數(shù)據(jù)預處理是為后面的建模分析做準備, 主要工作時從海量數(shù)據(jù)中提取可用特征, 建立大寬表。這個 過程可能會用到 Hive SQL Spark QL 和 Impala 。 數(shù)據(jù)建模分析是針對預處理提取的特征/數(shù)據(jù)建模,得到想要的結果。如前面所提到的,這一塊最好用的是 Spark 。常用的機器學習算法,如樸素貝葉斯、邏輯 回歸、決策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論