混合異構(gòu)數(shù)據(jù)的清洗、存儲、挖掘架構(gòu)選型和設(shè)計策略_第1頁
混合異構(gòu)數(shù)據(jù)的清洗、存儲、挖掘架構(gòu)選型和設(shè)計策略_第2頁
混合異構(gòu)數(shù)據(jù)的清洗、存儲、挖掘架構(gòu)選型和設(shè)計策略_第3頁
混合異構(gòu)數(shù)據(jù)的清洗、存儲、挖掘架構(gòu)選型和設(shè)計策略_第4頁
混合異構(gòu)數(shù)據(jù)的清洗、存儲、挖掘架構(gòu)選型和設(shè)計策略_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、混合異構(gòu)數(shù)據(jù)的清洗、存儲、挖掘架構(gòu)選型和設(shè)計策略提綱? 混合異構(gòu)數(shù)據(jù)特點 ? 混合異構(gòu)數(shù)據(jù)分類 ? 混合異構(gòu)處理流程 ? AdMaster混合異構(gòu)數(shù)據(jù)平臺架構(gòu) ? AdMaster數(shù)據(jù)處理流程 ? AdMaster混合異構(gòu)數(shù)據(jù)分析 ? Q/A 混合異構(gòu)數(shù)據(jù)特點? 不同的數(shù)據(jù)類型 ? 不同的數(shù)據(jù)量級 ? 不同的訪問速度 ? 不同的用戶類型 ? 不同的訪問平臺 ? 不同的存儲設(shè)備 ? 。 混合異構(gòu)數(shù)據(jù)分類數(shù)據(jù)內(nèi)容數(shù)據(jù)特性數(shù)據(jù)結(jié)構(gòu)使用頻率數(shù)據(jù)訪問量響應(yīng)時間在線數(shù)據(jù)短周期數(shù)據(jù)字段固定高度結(jié)構(gòu)化、復(fù)雜、適合操作計算非常高(熱數(shù)據(jù))B、MB級納秒、微秒、毫秒級離線數(shù)據(jù)長周期(存檔、歸納、 計算結(jié)果)字段不

2、固定結(jié)構(gòu)簡單一般(冷數(shù)據(jù))GB、TB、PB級秒、分鐘、小時、天級數(shù)據(jù)采集Internet 非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)預(yù)處理清洗 集成 轉(zhuǎn)換 歸約 原始數(shù)據(jù)數(shù)據(jù)存儲提煉數(shù)據(jù)分析BatchPigHiveZookeeper(Tez)Online(HBase)Streaming(MapReduce) (Storm,S4)In-Memory Interactive(Spark)HPC MPI(OpenMPI)YARN Cluster Resource ManagementHDFSOS(操作系統(tǒng))MahoutFlumeSqoopOozie應(yīng)用服務(wù)數(shù)據(jù)展示互聯(lián)網(wǎng)廣告監(jiān)測全流程AdMaster混合異構(gòu)數(shù)據(jù)平

3、臺架構(gòu)Text Clustering Storm Data API Text Categorization MapReduce Open API API Service Data Mining System Distributed System Data Collect Text Analysis API Sentiment Analysis Spark Crawler Data Visualization App Layer JS/AS R Front-end Application Service ECharts AdMaster混合異構(gòu)數(shù)據(jù)平臺架構(gòu)OnlineMongoDB Ext4 S

4、SD Online/OfflineHBase HDFS SATA Disk OnlineMysql Ext4 SATA Disk RealtimeRedis Memory SSD OfflineHDFS Ext4 SATA Disk RabbitMQAdMaster數(shù)據(jù)采集華南 華東 Internet LVS 華北 LVS LVS LVS DNS Buzz ResourceOthers廣告數(shù)據(jù)采集AdMaster數(shù)據(jù)采集?cat /proc/sys/net/ipv4/tcp_mem ?cat /proc/net/sockstat ?cat /proc/sys/net/ipv4/tcp_max_

5、orphans ?filter.nf_conntrack_max ?filter.nf_conntrack_tcp_timeout_established AdMaster離線數(shù)據(jù)分析輸入拆分Python任務(wù)引擎PigPig算法1Pig算法NHDFS?輸出合并MySQL每天新增 TB 級數(shù)據(jù) 每天對千億條記錄進(jìn)行幾百種維度的計算 Cascading內(nèi)部算法1內(nèi)部算法NHadoopMapReduce計算模型Streaming非固定算法1非固定算法NAdMaster離線數(shù)據(jù)分析?/sys/kernel/mm/redhat_transparent_hugepage/enabled ?/sys/ker

6、nel/mm/redhat_transparent_hugepage/defrag ?dfs.socket.timeout ?dfs.datanode.max.xcievers ?dfs.datanode.socket.write.timeout ?node.handler.count TrackAPISocialAPIAPIRawDataAdMaster在線數(shù)據(jù)分析MysqlMongoDBHBaseKey PartnersBuzz ResourceOthersProduct Core ModuleAnalytics ReportData CenterSocial CRMTra

7、ck SystemClick DataSite System Project Algorithm Service分詞 情感分析 標(biāo)簽分類 NLP Lab NLP ServiceOnline LearningServiceData Collection ServiceSocial PlatformAPI ServiceBuzz ArticleCrawler ServiceProcessedDataAdMaster在線數(shù)據(jù)分析?Kafka & Tail ?HBase & MongoDB ?Storm & Rsync ?Spark & Hana pp? 主題 (配色、品牌名、品牌logo) pp? 輪播信息 (Screens、Slides、標(biāo)題) pp? 權(quán)限 (用戶、用戶組) 配置信息 pp? Social數(shù)據(jù)源 pp? Site數(shù)據(jù)源 pp? Track數(shù)據(jù)源

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論