版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫方案設計設計需求建立一套報表系統(tǒng)、數(shù)據(jù)倉庫,做數(shù)據(jù)收集,清洗,匯總,提取任務。日后發(fā)展為數(shù)據(jù) 集市和數(shù)據(jù)平臺。數(shù)據(jù)倉庫將存儲交易數(shù)據(jù)、支付數(shù)據(jù)、用戶行為數(shù)據(jù)等。需要滿足.數(shù)據(jù)整合整合Oracle與Mysql數(shù)據(jù)。數(shù)據(jù)存儲一一結構化數(shù)據(jù)(Oracle,Mysql);非結構化數(shù)據(jù)(交易日志,用戶行為日 志等)。大數(shù)據(jù)量保存每天產生的200萬筆交易日志。數(shù)據(jù)倉庫方案根據(jù)需求數(shù)據(jù)倉庫中的數(shù)據(jù)將會來自不同數(shù)據(jù)源、不同數(shù)據(jù)格式,以及海量數(shù)據(jù)存儲需 求的特點。使用高可用、高擴展性、高性能、多種使用場景的Hadoop架構作為數(shù)據(jù)倉庫??蚣苁褂没A的MapReduce,對大批量數(shù)據(jù)進行離線處理。離線大數(shù)
2、據(jù)量LOGFILEHveMapReduce數(shù)據(jù)應用數(shù)據(jù)計算數(shù)據(jù)存儲數(shù)據(jù)采集Oracle,Mysql數(shù)據(jù)通過sqoop ;日志數(shù)據(jù),非結構化數(shù)據(jù)通過flume連接Kafka導入HDFS 數(shù)據(jù)存儲層,應用程序使用Hive數(shù)據(jù)庫作為接口調用Mapreduce的計算功能和HDFS的 存儲功能。方案拓撲Hadoop集群中每臺服務器都是存儲節(jié)點和計算節(jié)點;NameNode節(jié)點管理所有節(jié)點的存儲分配;ZooKeeper節(jié)點管理各分布式組件;Hive節(jié)點是抽象的數(shù)據(jù)庫,將計算與存 儲以數(shù)據(jù)庫模式提供給使用者,使用mysql數(shù)據(jù)庫存儲元數(shù)據(jù);Kafka節(jié)點是針對活動數(shù)據(jù)流的消息隊列服務器;所有的數(shù)據(jù)使用工具導入
3、。多場景方案基礎的Hadoop-Mapreduce架構可以滿足數(shù)據(jù)倉庫的功能需求,但是Mapreduce架構 使用物理磁盤進行迭代操作,所以任務執(zhí)行時間較長,只能滿足大數(shù)據(jù)低時效需求。針對低 時效需求的工作任務需要在原架構上引入Spark架構,Spark架構的迭代操作在內存中執(zhí)行, 只將結果存儲在硬盤上大大減少了工作時間Spark集群服務器中的內存大小決定了 spark操作的數(shù)據(jù)量,內存越大執(zhí)行的數(shù)據(jù)量也越大,如果數(shù)據(jù)超出內存大小會發(fā)生頁交換,影響 計算速度。另外一種需求是對實時數(shù)據(jù)的處理,如實時推薦,實時統(tǒng)計,實時預警等,對于實時數(shù)據(jù)的處理使用Storm架構,Storm開啟后創(chuàng)建實時數(shù)據(jù)流,數(shù)據(jù)流中的數(shù)據(jù)不會保存。數(shù)據(jù)應用數(shù)據(jù)計算數(shù)據(jù)存儲數(shù)據(jù)采集多應用場景設計拓撲Spark集群建立在hadoop集群基礎之上,新安裝spark軟件,在Spark集群上搭建hive數(shù)據(jù)庫,提供服務。Storm集群建立在hadoop集群基礎之上,新安裝Storm軟件,Storm集群中Nimbus 節(jié)點做主控節(jié)點,superviser做工作節(jié)點,數(shù)據(jù)流通過kafka輸入。服務器選擇集群中每臺服務器都是存儲節(jié)點和計算節(jié)點單臺服務器的性能不足可以通過添加服務 器來補充。每臺普通服務器需要單顆8核CPU,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度美容院員工勞動合同修訂模板4篇
- 土建工程施工合同管理計劃
- 2025年度個人企業(yè)經營貸款抵押擔保合同樣本2篇
- 二零二五年度美甲店品牌知識產權保護合同3篇
- 二零二五年度生物科技研發(fā)項目貸款合同及違約處理辦法3篇
- 實習生勞動合同管理制度范文
- 2025年專利委托代合同(三篇)
- 2025公司標志設計委托合同書
- 廚房設備維修工具租賃合同
- 2025勞動合同簽約注意事項
- 土地買賣合同參考模板
- 2025高考數(shù)學二輪復習-專題一-微專題10-同構函數(shù)問題-專項訓練【含答案】
- 新能源行業(yè)市場分析報告
- 2025年天津市政建設集團招聘筆試參考題庫含答案解析
- 巖土工程勘察.課件
- 專升本英語閱讀理解50篇
- 中餐烹飪技法大全
- 新型電力系統(tǒng)研究
- 滋補類用藥的培訓
- 北師大版高三數(shù)學選修4-6初等數(shù)論初步全冊課件【完整版】
- 高職《勞動教育》指導綱要
評論
0/150
提交評論