版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
大數(shù)據(jù)處理平臺及可視化架構(gòu)設計說明書版本:1.0變更記錄序號版本變更說明修改人/日期審批人/日期11.0創(chuàng)立李萬鴻2023-3-18目錄11.文檔介紹31.1文檔目的31.2文檔范圍31.3讀者對象31.4參考文獻31.5術語與縮寫解釋32系統(tǒng)概述43設計約束54設計謀略65系統(tǒng)總體結(jié)構(gòu)75.1大數(shù)據(jù)集成分析平臺系統(tǒng)架構(gòu)設計75.2可視化平臺系統(tǒng)架構(gòu)設計116其它146.1數(shù)據(jù)庫設計146.2系統(tǒng)管理146.3日志管理141.文檔介紹文檔目的設計大數(shù)據(jù)集成分析平臺,主要功能是多種數(shù)據(jù)庫及文件數(shù)據(jù);訪問;采集;解析,清洗,ETL,同時可以編寫模型支持后臺統(tǒng)計分析算法。設計數(shù)據(jù)可視化平臺,應用于大數(shù)據(jù)的可視化和互動操作。為此,根據(jù)“先進實用、穩(wěn)定可靠〞的原那么設計本大數(shù)據(jù)處理平臺及可視化平臺。文檔范圍大數(shù)據(jù)的處理,包括ETL、分析、可視化、使用。讀者對象管理人員、開發(fā)人員參考文獻術語與縮寫解釋縮寫、術語解釋BDBigdataSD系統(tǒng)設計,SystemDesign…系統(tǒng)概述大數(shù)據(jù)集成分析平臺,分為9個層次,主要功能是對多種數(shù)據(jù)庫及網(wǎng)頁等數(shù)據(jù)進行訪采集、解析,清洗,整合、ETL,同時編寫模型支持后臺統(tǒng)計分析算法,提供可信的數(shù)據(jù)。設計數(shù)據(jù)可視化平臺,分為3個層次,在大數(shù)據(jù)集成分析平臺的根底上實現(xiàn)大實現(xiàn)數(shù)據(jù)的可視化和互動操作。設計約束1.系統(tǒng)必須遵循國家軟件開發(fā)的標準。2.系統(tǒng)用java開發(fā),采用開源的中間件。3.系統(tǒng)必須穩(wěn)定可靠,性能高,滿足每天千萬次的訪問。4.保證數(shù)據(jù)的成功抽取、轉(zhuǎn)換、分析,實現(xiàn)高可信和高可用。設計謀略系統(tǒng)高可用、高性能、易擴展,平安穩(wěn)定,實用可靠,滿足用戶的需要。系統(tǒng)可以進行擴展,增加數(shù)據(jù)的種類和數(shù)量。系統(tǒng)可以復用別的軟件和算法。系統(tǒng)總體結(jié)構(gòu)大數(shù)據(jù)集成分析平臺系統(tǒng)架構(gòu)設計1.邏輯架構(gòu)2架構(gòu)說明系統(tǒng)分為9個層次:1〕數(shù)據(jù)源:CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子倉庫、風險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫、互聯(lián)網(wǎng)的網(wǎng)頁。2〕數(shù)據(jù)獲取層:接收數(shù)據(jù)源的數(shù)據(jù)和抓取網(wǎng)頁,建立知識圖譜將網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化,為人工和機器決策提供依據(jù)。3〕數(shù)據(jù)導入層:通過sqoop把數(shù)據(jù)庫的數(shù)據(jù)導入hbase,用flume、kafka把網(wǎng)頁導入hbase。4〕數(shù)據(jù)加工層:對導入的數(shù)據(jù)進行清洗、抽取、整合,并存入數(shù)據(jù)核心存儲層。5〕數(shù)據(jù)核心存儲層:采用hbase、關系數(shù)據(jù)庫保存加工后的數(shù)據(jù)。6〕數(shù)據(jù)分析處理層:通過統(tǒng)計分析、數(shù)據(jù)挖掘、機器學習、風控模型等對大數(shù)據(jù)進行分析處理。7〕數(shù)據(jù)效勞存儲層:存儲分析結(jié)果,包括Elasticsearch分布式搜索,redis分布式緩存。8〕應用層:包括報表引擎、規(guī)那么引擎、風控搜索引擎、用戶認證系統(tǒng)、統(tǒng)計分析接口等。9〕效勞層:對內(nèi)的應用效勞和對外的應用效勞,為用戶提供系統(tǒng)功能。系統(tǒng)采用一系列先進的開源技術框架,實現(xiàn)大數(shù)據(jù)的抽取、ETL轉(zhuǎn)換、清洗、整合、匯總、統(tǒng)計分析,得出可信度高的結(jié)果,高速穩(wěn)定地響應用戶的請求,可對公司的寬系列產(chǎn)品提供高質(zhì)量的支持。還可建立企業(yè)云,把大數(shù)據(jù)平臺放到云上。系統(tǒng)從CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子倉庫、風險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫抽取數(shù)據(jù),還用機器爬蟲從互聯(lián)網(wǎng)上抓取與金融相關的網(wǎng)頁,對這些結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進行抽取、清洗、整合、轉(zhuǎn)換,存入hbase數(shù)據(jù)庫。統(tǒng)計分析程序采用一定的算法和模型通過spark、hadoop的yarn、hive、pig等讀取處理數(shù)據(jù),結(jié)果保存在效勞層數(shù)據(jù)庫,為用戶提供可信的數(shù)據(jù),還可通過可視化以各種統(tǒng)計圖展現(xiàn)出來,通過pc、可以看到結(jié)果。系統(tǒng)提供可視化的操作界面,用戶可自己定義統(tǒng)計統(tǒng)計和參數(shù),系統(tǒng)計算分析后給出對應的圖表。3.系統(tǒng)的特點高負載和海量數(shù)據(jù)處理能力以云存儲或本地存儲為基石,以云計算或企業(yè)效勞器為處理核心,建立了海量的數(shù)據(jù)業(yè)務支撐的大數(shù)據(jù)平臺。每天可以承受千萬級PV的訪
問壓力,支撐億級用戶及P級各類數(shù)據(jù)存儲如金融數(shù)據(jù)、網(wǎng)頁、日志文件、圖片、文檔、影音等。基于此大數(shù)據(jù)支撐平臺,不僅可以處理日以繼夜增長的TB級數(shù)據(jù)增量,更能滿足各類實時業(yè)務需求業(yè)界領先的實時性在實時處理領域?qū)崿F(xiàn)秒級突破,可以對各項業(yè)務數(shù)據(jù)驚醒實時查看與統(tǒng)計,方便客戶快速做出決策和即時響應,適應當今快節(jié)奏開展趨勢。如傳統(tǒng)監(jiān)控對年、月、周、日的頻次統(tǒng)計,可以實現(xiàn)24小時內(nèi)的實時監(jiān)控,和管理當前實時變化的統(tǒng)計儀表盤數(shù)據(jù),更能實現(xiàn)7*24的用戶實時行為監(jiān)測及秒級分析。全面運營監(jiān)控指標體系不僅擁有常見的接入站點的運營監(jiān)控流量指標如UV、PV、IP、新舊訪客數(shù),還建立了行為質(zhì)量指標如用戶的請求,統(tǒng)計分析的正確度,并可在此根底之上參加客戶行為分析、統(tǒng)計模型調(diào)優(yōu)、算法調(diào)優(yōu)、網(wǎng)站訪客背景分析、鼠標點擊行為等高智能的分析功能,從而為業(yè)務開展及運營策略提供了有力的數(shù)據(jù)支撐。對用戶來源和數(shù)據(jù)的深入挖掘與分析通過該平臺不僅可以看到接入網(wǎng)站用戶的根本信息(跳出率、回訪次數(shù)、回訪頻率、國家分析、省份分析、城市分析、網(wǎng)絡位置、瀏覽器、移動終端等),還可以了解到客戶來源(如來源頁面、網(wǎng)站、搜索引擎、關鍵字等)。并且在此根底上可以了解到客戶訪問路徑,對數(shù)據(jù)進行多維鉆取,進而對網(wǎng)站客戶數(shù)據(jù)信息的采集、挖掘更加深入。對大數(shù)據(jù)進行深入的分析,為提升網(wǎng)站流量、提供科學的推薦依據(jù)、實現(xiàn)高質(zhì)量的客戶差異化效勞給出有力的數(shù)據(jù)支撐。對用戶行為進行實時跟蹤、立體分析及即時溝通和個性推薦效勞可以針對實時在線的個體用戶進行WEBIM即時溝通,提供即時的一對一效勞。并可以結(jié)合業(yè)務需求,在實現(xiàn)客服人員與用戶一對一的同時,展現(xiàn)該用戶的歷史業(yè)務操作行為及個性化信息,如用戶消費歷史記錄統(tǒng)計、行為習慣及喜好等。統(tǒng)一數(shù)據(jù)接入平臺數(shù)據(jù)接入層采用sqoop、flume、分布式日志系統(tǒng),實現(xiàn)推拉模式的各種主流方式,并可按需升級為統(tǒng)一數(shù)據(jù)接入平臺,不僅支持日志及頁面源碼數(shù)據(jù),還可以實現(xiàn)各類接口數(shù)據(jù)的無縫可視化接入,如關系型和非關系型數(shù)據(jù)、各種主流非結(jié)構(gòu)化數(shù)據(jù)等。立體推薦及算法可替換平臺可以對數(shù)據(jù)進行多種分析算法和模型的處理,采用mahout、mlib的二元分類、線性回歸、聚類、協(xié)同過濾、卷積神經(jīng)網(wǎng)絡〔CNN〕進行機器學習,采用RF〔隨機森林〕、SVM〔支持向量機〕、半監(jiān)督學習,通過訓練到達權(quán)重等參數(shù)的最正確化,優(yōu)化樣本空間,并實現(xiàn)完全自動化調(diào)參和學習。還可結(jié)合用戶群體特征、個性行為歷史及各種顯式、隱式反應進行人腦分析,實現(xiàn)個體用戶和群體用戶的立體化推薦和全過程的人工干預。以算法平臺為支撐,建立了可視化的算法訓練和推薦結(jié)構(gòu)的過濾植入,以增強客戶個性化效勞配置。實現(xiàn)了各種算法的替換、組合和深度學習,如傳統(tǒng)的UCF、ICF及業(yè)務創(chuàng)新的二度人脈剪枝算法等,以盡符合人腦思維習慣。多種風格統(tǒng)計分析數(shù)據(jù)展現(xiàn)方式對數(shù)據(jù)統(tǒng)計分析實現(xiàn)人性化的各種瀏覽器體驗,傳統(tǒng)風格如線性、柱形、餅狀分析圖為企業(yè)對不同時段網(wǎng)站訪問量、網(wǎng)站不同模塊的訪問量、針對訪客的不同分類進行更加直觀的分析。創(chuàng)新風格如熱力圖,更形象、視覺化的表達網(wǎng)站頁面不同位置客戶點擊密度,實時反映出群體用戶的興趣特征,增強運營。用戶可以自定義條件,得到可視化結(jié)果。主流客戶端的全端統(tǒng)計該方案不僅可以統(tǒng)計WINDOWS/MAC/LINUX各類PC用戶的主流瀏覽器客戶端(如IE、360、Chrome、Firefox等)的數(shù)據(jù),還能針對移動互聯(lián)網(wǎng)用戶統(tǒng)計主流移動客戶端(如iphone,ipad,Android等)的各類數(shù)據(jù),并能根據(jù)RESTful接口開發(fā)各類所需的各端統(tǒng)計,如WAP端,嵌入設備端等。操作體驗簡潔方便該方案秉承了人性化的設計理念。在確保精準、高效的根底上簡化了操作過程,數(shù)據(jù)檢索分析一鍵解決,極大的方便了客戶使用。各類所需統(tǒng)計數(shù)據(jù)一目了然,并能針對主要數(shù)據(jù)如用戶信息、用戶行為等進行一鍵化深度分析或即時效勞操作??煽啃詮娨栽破脚_作為支撐。該平臺有極強的可靠性,能夠保證該軟件更穩(wěn)定、有效、平安的運行??蓴U展性強以云平臺作為支撐,可以實現(xiàn)各類平臺組件按需橫向擴展,如存儲擴容、計算增強等。集成性強豐富的接口具有極強的集成性??梢詫崿F(xiàn)與企業(yè)內(nèi)部業(yè)務系統(tǒng)的高密度集成,根據(jù)不同業(yè)務部門需求調(diào)取數(shù)據(jù)和數(shù)據(jù)分析結(jié)果??梢暬瘡娊y(tǒng)計分析數(shù)據(jù)以圖表,熱圖等方式表達,方便客戶比照判斷,在使用時更舒適、方便,提供客戶體驗度。各種操作過程如算法訓練、人工干預、數(shù)據(jù)ETL等均實現(xiàn)可視化,根本性解決了手工代碼操作的問題。提供定制效勞可以根據(jù)客戶的特定需求進行更豐富的功能擴展,量身打造適宜的實時運營分析及效勞平臺??梢暬脚_系統(tǒng)架構(gòu)設計數(shù)據(jù)可視化平臺,實現(xiàn)大數(shù)據(jù)的可視化和互動操作。1.邏輯架構(gòu)2.架構(gòu)說明系統(tǒng)分為3個層次:1〕應用系統(tǒng):提供可視化的操作界面和顯示結(jié)果,還包括決策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 愉快的國慶假期話題作文范文
- 銀行賬戶管理實施細則
- 青鳥讀書心得萬能10篇
- 物流發(fā)貨回執(zhí)單
- 八年級歷史下冊 第七學習主題 社會生活 第20課 城鄉(xiāng)人民生存狀態(tài)的滄桑巨變教學思路2 川教版
- 2000個論壇華東網(wǎng)絡營銷基地(已經(jīng)詳細分好類)
- 轉(zhuǎn)正自我工作總結(jié)(15篇)
- 黑暗效應-詳解
- 9《聲音的產(chǎn)生》教學實錄-2023-2024學年科學三年級下冊蘇教版
- 2024年五年級數(shù)學上冊 1 小數(shù)乘法第2課時 小數(shù)乘整數(shù)(2)教學實錄 新人教版
- (完整)公共衛(wèi)生基本知識考試題題庫及答案
- 《紅樓夢》作品簡介名著導讀 國學經(jīng)典 PPT模板
- 動物營養(yǎng)學(講義)
- 出口貨物備案單證目錄(生產(chǎn)企業(yè))
- 中國食物成分表2018年(標準版)第6版 第一冊 素食
- EBV相關TNK細胞淋巴組織增殖性疾病
- 中國電信-員工手冊(共20頁)
- 京東五力模型分析
- 畢業(yè)設計(論文)驅(qū)動橋畢業(yè)設計
- 宜都市產(chǎn)業(yè)集群基本情況及產(chǎn)業(yè)鏈
- SF_T 0119-2021 聲像資料鑒定通用規(guī)范_(高清版)
評論
0/150
提交評論