版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)解決平臺及可視化架構(gòu)設(shè)計闡明書版本:1.0變更統(tǒng)計序號版本變更闡明修改人/日期審批人/日期11.0創(chuàng)立目錄1 1.文檔介紹 31.1 文檔目的 31.2 文檔范疇 31.3 讀者對象 31.4 參考文獻 31.5 術(shù)語與縮寫解釋 32 系統(tǒng)概述 43 設(shè)計約束 54 設(shè)計方略 65 系統(tǒng)總體構(gòu)造 75.1 大數(shù)據(jù)集成分析平臺系統(tǒng)架構(gòu)設(shè)計 75.2 可視化平臺系統(tǒng)架構(gòu)設(shè)計 116 其它 146.1 數(shù)據(jù)庫設(shè)計 146.2 系統(tǒng)管理 146.3 日志管理 141.文檔介紹文檔目的
設(shè)計大數(shù)據(jù)集成分析平臺,重要功效是多個數(shù)據(jù)庫及文獻數(shù)據(jù);訪問;采集;解析,清洗,ETL,同時能夠編寫模型支持后臺統(tǒng)計分析算法。設(shè)計數(shù)據(jù)可視化平臺
,應(yīng)用于大數(shù)據(jù)的可視化和互動操作。為此,根據(jù)“先進實用、穩(wěn)定可靠”的原則設(shè)計本大數(shù)據(jù)解決平臺及可視化平臺。文檔范疇大數(shù)據(jù)的解決,涉及ETL、分析、可視化、使用。讀者對象管理人員、開發(fā)人員參考文獻術(shù)語與縮寫解釋縮寫、術(shù)語解釋BDBigdataSD系統(tǒng)設(shè)計,SystemDesign…系統(tǒng)概述
大數(shù)據(jù)集成分析平臺,分為9個層次,重要功效是對多個數(shù)據(jù)庫及網(wǎng)頁等數(shù)據(jù)進行訪采集、解析,清洗,整合、ETL,同時編寫模型支持后臺統(tǒng)計分析算法,提供可信的數(shù)據(jù)。
設(shè)計數(shù)據(jù)可視化平臺
,分為3個層次,在大數(shù)據(jù)集成分析平臺的基礎(chǔ)上實現(xiàn)大實現(xiàn)數(shù)據(jù)的可視化和互動操作。設(shè)計約束1.系統(tǒng)必須遵照國家軟件開發(fā)的原則。2.系統(tǒng)用java開發(fā),采用開源的中間件。3.系統(tǒng)必須穩(wěn)定可靠,性能高,滿足每天千萬次的訪問。4.確保數(shù)據(jù)的成功抽取、轉(zhuǎn)換、分析,實現(xiàn)高可信和高可用。設(shè)計方略系統(tǒng)高可用、高性能、易擴展,安全穩(wěn)定,實用可靠,滿足顧客的需要。系統(tǒng)能夠進行擴展,增加數(shù)據(jù)的種類和數(shù)量。系統(tǒng)能夠復(fù)用別的軟件和算法。系統(tǒng)總體構(gòu)造大數(shù)據(jù)集成分析平臺系統(tǒng)架構(gòu)設(shè)計1.邏輯架構(gòu)2架構(gòu)闡明系統(tǒng)分為9個層次:1)數(shù)據(jù)源:CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子倉庫、風(fēng)險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫、互聯(lián)網(wǎng)的網(wǎng)頁。2)數(shù)據(jù)獲取層:接受數(shù)據(jù)源的數(shù)據(jù)和抓取網(wǎng)頁,建立知識圖譜將網(wǎng)頁數(shù)據(jù)構(gòu)造化,為人工和機器決策提供根據(jù)。3)數(shù)據(jù)導(dǎo)入層:通過sqoop把數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入hbase,用flume、kafka把網(wǎng)頁導(dǎo)入hbase。4)數(shù)據(jù)加工層:對導(dǎo)入的數(shù)據(jù)進行清洗、抽取、整合,并存入數(shù)據(jù)核心存儲層。5)數(shù)據(jù)核心存儲層:采用hbase、關(guān)系數(shù)據(jù)庫保存加工后的數(shù)據(jù)。6)數(shù)據(jù)分析解決層:通過統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、風(fēng)控模型等對大數(shù)據(jù)進行分析解決。7)數(shù)據(jù)服務(wù)存儲層:存儲分析成果,涉及Elasticsearch分布式搜索,redis分布式緩存。8)應(yīng)用層:涉及報表引擎、規(guī)則引擎、風(fēng)控搜索引擎、顧客認(rèn)證系統(tǒng)、統(tǒng)計分析接口等。9)服務(wù)層:對內(nèi)的應(yīng)用服務(wù)和對外的應(yīng)用服務(wù),為顧客提供系統(tǒng)功效。系統(tǒng)采用一系列先進的開源技術(shù)框架,實現(xiàn)大數(shù)據(jù)的抽取、ETL轉(zhuǎn)換、清洗、整合、匯總、統(tǒng)計分析,得出可信度高的成果,高速穩(wěn)定地響應(yīng)顧客的請求,可對公司的寬系列產(chǎn)品提供高質(zhì)量的支持。還可建立公司云,把大數(shù)據(jù)平臺放到云上。系統(tǒng)從CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子倉庫、風(fēng)險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫抽取數(shù)據(jù),還用機器爬蟲從互聯(lián)網(wǎng)上抓取與金融有關(guān)的網(wǎng)頁,對這些構(gòu)造化和非構(gòu)造化的數(shù)據(jù)進行抽取、清洗、整合、轉(zhuǎn)換,存入hbase數(shù)據(jù)庫。統(tǒng)計分析程序采用一定的算法和模型通過spark、hadoop的yarn、hive、pig等讀取解決數(shù)據(jù),成果保存在服務(wù)層數(shù)據(jù)庫,為顧客提供可信的數(shù)據(jù),還可通過可視化以多個統(tǒng)計圖呈現(xiàn)出來,通過pc、手機能夠看到成果。系統(tǒng)提供可視化的操作界面,顧客可自己定義統(tǒng)計統(tǒng)計和參數(shù),系統(tǒng)計算分析后給出對應(yīng)的圖表。3.系統(tǒng)的特點高負(fù)載和海量數(shù)據(jù)解決能力以云存儲或本地存儲為基石,以云計算或公司服務(wù)器為解決核心,建立了海量的數(shù)據(jù)業(yè)務(wù)支撐的大數(shù)據(jù)平臺。每天能夠承受千萬級PV的訪
問壓力,支撐億級顧客及P級各類數(shù)據(jù)存儲如金融數(shù)據(jù)、網(wǎng)頁、日志文獻、圖片、文檔、影音等。基于此大數(shù)據(jù)支撐平臺,不僅能夠解決日以繼夜增加的TB級數(shù)據(jù)增量,更能滿足各類實時業(yè)務(wù)需求業(yè)界領(lǐng)先的實時性在實時解決領(lǐng)域?qū)崿F(xiàn)秒級突破,能夠?qū)Ω黜棙I(yè)務(wù)數(shù)據(jù)驚醒實時查看與統(tǒng)計,方便客戶快速做出決策和即時響應(yīng),適應(yīng)當(dāng)今快節(jié)奏發(fā)展趨勢。如傳統(tǒng)監(jiān)控對年、月、周、日的頻次統(tǒng)計,能夠?qū)崿F(xiàn)24小時內(nèi)的實時監(jiān)控,和管理現(xiàn)在實時變化的統(tǒng)計儀表盤數(shù)據(jù),更能實現(xiàn)7*24的顧客實時行為監(jiān)測及秒級分析。全方面運行監(jiān)控指標(biāo)體系不僅擁有常見的接入站點的運行監(jiān)控流量指標(biāo)如UV、PV、IP、新舊訪客數(shù),還建立了行為質(zhì)量指標(biāo)如顧客的請求,統(tǒng)計分析的對的度,并可在此基礎(chǔ)之上加入客戶行為分析、統(tǒng)計模型調(diào)優(yōu)、算法調(diào)優(yōu)、網(wǎng)站訪客背景分析、鼠標(biāo)點擊行為等高智能的分析功效,從而為業(yè)務(wù)發(fā)展及運行方略提供了有力的數(shù)據(jù)支撐。對顧客來源和數(shù)據(jù)的進一步挖掘與分析通過該平臺不僅能夠看到接入網(wǎng)站顧客的基本信息(跳出率、回訪次數(shù)、回訪頻率、國家分析、省份分析、都市分析、網(wǎng)絡(luò)位置、瀏覽器、移動終端等),還能夠理解到客戶來源(如來源頁面、網(wǎng)站、搜索引擎、核心字等)。并且在此基礎(chǔ)上能夠理解到客戶訪問途徑,對數(shù)據(jù)進行多維鉆取,進而對網(wǎng)站客戶數(shù)據(jù)信息的采集、挖掘更加進一步。對大數(shù)據(jù)進行進一步的分析,為提高網(wǎng)站流量、提供科學(xué)的推薦根據(jù)、實現(xiàn)高質(zhì)量的客戶差別化服務(wù)給出有力的數(shù)據(jù)支撐。對顧客行為進行實時跟蹤、立體分析及即時溝通和個性推薦服務(wù)能夠針對實時在線的個體顧客進行WEBIM即時溝通,提供即時的一對一服務(wù)。并能夠結(jié)合業(yè)務(wù)需求,在實現(xiàn)客服人員與顧客一對一的同時,呈現(xiàn)該顧客的歷史業(yè)務(wù)操作行為及個性化信息,如顧客消費歷史統(tǒng)計統(tǒng)計、行為習(xí)慣及喜好等。統(tǒng)一數(shù)據(jù)接入平臺數(shù)據(jù)接入層采用sqoop、flume、分布式日志系統(tǒng),實現(xiàn)推拉模式的多個主流方式,并可按需升級為統(tǒng)一數(shù)據(jù)接入平臺,不僅支持日志及頁面源碼數(shù)據(jù),還能夠?qū)崿F(xiàn)各類接口數(shù)據(jù)的無縫可視化接入,如關(guān)系型和非關(guān)系型數(shù)據(jù)、多個主流非構(gòu)造化數(shù)據(jù)等。立體推薦及算法可替代平臺能夠?qū)?shù)據(jù)進行多個分析算法和模型的解決,采用mahout、mlib的二元分類、線性回歸、聚類、協(xié)同過濾、卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行機器學(xué)習(xí),采用RF(隨機森林)、SVM(支持向量機)、半監(jiān)督學(xué)習(xí),通過訓(xùn)練達成權(quán)重等參數(shù)的最佳化,優(yōu)化樣本空間,并實現(xiàn)完全自動化調(diào)參和學(xué)習(xí)。還可結(jié)合顧客群體特性、個性行為歷史及多個顯式、隱式反饋進行人腦分析,實現(xiàn)個體顧客和群體顧客的立體化推薦和全過程的人工干預(yù)。以算法平臺為支撐,建立了可視化的算法訓(xùn)練和推薦構(gòu)造的過濾植入,以增強客戶個性化服務(wù)配備。實現(xiàn)了多個算法的替代、組合和深度學(xué)習(xí),如傳統(tǒng)的UCF、ICF及業(yè)務(wù)創(chuàng)新的二度人脈剪枝算法等,以盡符合人腦思維習(xí)慣。多個風(fēng)格統(tǒng)計分析數(shù)據(jù)呈現(xiàn)方式對數(shù)據(jù)統(tǒng)計分析實現(xiàn)人性化的多個瀏覽器體驗,傳統(tǒng)風(fēng)格如線性、柱形、餅狀分析圖為公司對不同時段網(wǎng)站訪問量、網(wǎng)站不同模塊的訪問量、針對訪客的不同分類進行更加直觀的分析。創(chuàng)新風(fēng)格如熱力圖,更形象、視覺化的體現(xiàn)網(wǎng)站頁面不同位置客戶點擊密度,實時反映出群體顧客的愛好特性,增強運行。顧客能夠自定義條件,得到可視化成果。主流客戶端的全端統(tǒng)計該方案不僅能夠統(tǒng)計WINDOWS/MAC/LINUX各類PC顧客的主流瀏覽器客戶端(如IE、360、Chrome、Firefox等)的數(shù)據(jù),還能針對移動互聯(lián)網(wǎng)顧客統(tǒng)計主流移動客戶端(如iphone,ipad,Android手機等)的各類數(shù)據(jù),并能根據(jù)RESTful接口開發(fā)各類所需的各端統(tǒng)計,如WAP手機端,嵌入設(shè)備端等。操作體驗簡潔方便該方案秉承了人性化的設(shè)計理念。在確保精確、高效的基礎(chǔ)上簡化了操作過程,數(shù)據(jù)檢索分析一鍵解決,極大的方便了客戶使用。各類所需統(tǒng)計數(shù)據(jù)一目了然,并能針對重要數(shù)據(jù)如顧客信息、顧客行為等進行一鍵化深度分析或即時服務(wù)操作。可靠性強以云平臺作為支撐。該平臺有極強的可靠性,能夠確保該軟件更穩(wěn)定、有效、安全的運行??蓴U展性強以云平臺作為支撐,能夠?qū)崿F(xiàn)各類平臺組件按需橫向擴展,如存儲擴容、計算增強等。集成性強豐富的接口含有極強的集成性。能夠?qū)崿F(xiàn)與公司內(nèi)部業(yè)務(wù)系統(tǒng)的高密度集成,根據(jù)不同業(yè)務(wù)部門需求調(diào)取數(shù)據(jù)和數(shù)據(jù)分析成果??梢暬瘡娊y(tǒng)計分析數(shù)據(jù)以圖表,熱圖等方式體現(xiàn),方便客戶對比判斷,在使用時更舒適、方便,提供客戶體驗度。多個操作過程如算法訓(xùn)練、人工干預(yù)、數(shù)據(jù)ETL等均實現(xiàn)可視化,根本性解決了手工代碼操作的問題。提供定制服務(wù)能夠根據(jù)客戶的特定需求進行更豐富的功效擴展,量身打造適宜的實時運行分析及服務(wù)平臺??梢暬脚_系統(tǒng)架構(gòu)設(shè)計
數(shù)據(jù)可視化平臺,實現(xiàn)
大數(shù)據(jù)的可視化和互動操作。1.邏輯架構(gòu)2.架構(gòu)闡明系統(tǒng)分為3個層次:1)應(yīng)用系統(tǒng):提供可視化的操作界面和顯示成果,還涉及決策支持
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股權(quán)變動之后的擔(dān)保的合同(2篇)
- 酸乳加工課件教學(xué)課件
- 南京航空航天大學(xué)《程序設(shè)計》2021-2022學(xué)年期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《思想道德修養(yǎng)與法律基礎(chǔ)》2022-2023學(xué)年期末試卷
- 放射性元素的衰變說課稿
- 天平湖工程施工組織設(shè)計方案
- 南京工業(yè)大學(xué)浦江學(xué)院《秘書實務(wù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《基礎(chǔ)工業(yè)工程》2022-2023學(xué)年第一學(xué)期期末試卷
- 南京工業(yè)大學(xué)浦江學(xué)院《公益?zhèn)鞑ァ?022-2023學(xué)年第一學(xué)期期末試卷
- 簡易倉儲租賃合同(2篇)
- 中國古代文學(xué)史(全套)課件
- KTV對講機的使用及規(guī)范用語
- 小學(xué)數(shù)學(xué)西南師大二年級上冊六表內(nèi)除法 分一分- PPT
- GB/T 28879-2022電工儀器儀表產(chǎn)品型號編制方法
- GA 1800.1-2021電力系統(tǒng)治安反恐防范要求第1部分:電網(wǎng)企業(yè)
- 企業(yè)如何利用新媒體做好宣傳工作課件
- 如何培養(yǎng)孩子的自信心課件
- 中醫(yī)藥膳學(xué)全套課件
- 頸脊髓損傷-匯總課件
- 齒輪故障診斷完美課課件
- 2023年中國鹽業(yè)集團有限公司校園招聘筆試題庫及答案解析
評論
0/150
提交評論