XX大型企業(yè)大數(shù)據(jù)平臺(tái)整體解決方案_第1頁(yè)
XX大型企業(yè)大數(shù)據(jù)平臺(tái)整體解決方案_第2頁(yè)
XX大型企業(yè)大數(shù)據(jù)平臺(tái)整體解決方案_第3頁(yè)
XX大型企業(yè)大數(shù)據(jù)平臺(tái)整體解決方案_第4頁(yè)
XX大型企業(yè)大數(shù)據(jù)平臺(tái)整體解決方案_第5頁(yè)
已閱讀5頁(yè),還剩620頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

>>資料轉(zhuǎn)換管理系統(tǒng)(DataManagement,ETL) V4.0某大型企業(yè)大數(shù)據(jù)平臺(tái)整體解決方案V20190708-001某大型企業(yè)數(shù)據(jù)平臺(tái)整體解決方案

目錄1 項(xiàng)目概述 111.1 建設(shè)背景 111.1.1 集團(tuán)已有基礎(chǔ) 111.1.2 痛點(diǎn)及需提升的能力 111.1.3 大數(shù)據(jù)趨勢(shì) 121.2 建設(shè)目標(biāo) 121.2.1 總體目標(biāo) 121.2.2 分階段建設(shè)目標(biāo) 131.3 與相關(guān)系統(tǒng)的關(guān)系 141.3.1 數(shù)據(jù)分析綜合服務(wù)平臺(tái) 141.3.2 量收系統(tǒng) 151.3.3 金融大數(shù)據(jù)平臺(tái) 151.3.4 各生產(chǎn)系統(tǒng) 161.3.5 CRM 161.4 公司介紹和優(yōu)勢(shì)特點(diǎn) 161.4.1 IDEADATA 161.4.2 TRANSWARP 181.4.3 我們的優(yōu)勢(shì) 202 業(yè)務(wù)需求分析 232.1 總體需求 232.2 數(shù)據(jù)管理 242.2.1 數(shù)據(jù)采集 252.2.2 數(shù)據(jù)交換 252.2.3 數(shù)據(jù)存儲(chǔ)與管理 252.2.4 數(shù)據(jù)加工清洗 262.2.5 數(shù)據(jù)查詢(xún)計(jì)算 272.3 數(shù)據(jù)管控 282.4 數(shù)據(jù)分析與挖掘 282.5 數(shù)據(jù)展現(xiàn) 292.6 量收系統(tǒng)功能遷移 303 系統(tǒng)架構(gòu)設(shè)計(jì) 313.1 總體設(shè)計(jì)目標(biāo) 313.2 總體設(shè)計(jì)原則 313.3 案例分析建議 333.3.1 中國(guó)聯(lián)通大數(shù)據(jù)平臺(tái) 333.3.2 恒豐銀行大數(shù)據(jù)平臺(tái) 443.3.3 華通CDN運(yùn)營(yíng)商海量日志采集分析系統(tǒng) 583.3.4 案例總結(jié) 643.4 系統(tǒng)總體架構(gòu)設(shè)計(jì) 653.4.1 總體技術(shù)框架 653.4.2 系統(tǒng)總體邏輯結(jié)構(gòu) 693.4.3 平臺(tái)組件關(guān)系 723.4.4 系統(tǒng)接口設(shè)計(jì) 783.4.5 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu) 834 系統(tǒng)功能設(shè)計(jì) 864.1 概述 864.2 平臺(tái)管理功能 874.2.1 多應(yīng)用管理 874.2.2 多租戶(hù)管理 914.2.3 統(tǒng)一運(yùn)維監(jiān)控 924.2.4 作業(yè)調(diào)度管理 1124.3 數(shù)據(jù)管理 1144.3.1 數(shù)據(jù)管理框架 1144.3.2 數(shù)據(jù)采集 1174.3.3 數(shù)據(jù)交換 1204.3.4 數(shù)據(jù)存儲(chǔ)與管理 1224.3.5 數(shù)據(jù)加工清洗 1434.3.6 數(shù)據(jù)計(jì)算 1444.3.7 數(shù)據(jù)查詢(xún) 1634.4 數(shù)據(jù)管控 1854.4.1 主數(shù)據(jù)管理 1854.4.2 元數(shù)據(jù)管理技術(shù) 1874.4.3 數(shù)據(jù)質(zhì)量 1916)數(shù)據(jù)清理 1924.5 數(shù)據(jù)ETL 1994.6 數(shù)據(jù)分析與挖掘 2024.6.1 數(shù)據(jù)分析流程 2044.6.2 R語(yǔ)言開(kāi)發(fā)環(huán)境與接口 2064.6.3 并行化R算法支持 2064.6.4 可視化R軟件包 2104.6.5 編程語(yǔ)言支持 2124.6.6 自然語(yǔ)言處理和文本挖掘 2124.6.7 實(shí)時(shí)分析 2134.6.8 分析管理 2144.6.9 分析支持 2184.6.10 指標(biāo)維護(hù) 2194.6.11 分析流程固化 2194.6.12 分析結(jié)果發(fā)布 2194.6.13 環(huán)境支持 2204.7 數(shù)據(jù)展現(xiàn) 2204.7.1 交互式報(bào)表 2234.7.2 儀表盤(pán) 2294.7.3 即席查詢(xún) 2304.7.4 內(nèi)存分析 2314.7.5 移動(dòng)分析 2324.7.6 電子地圖支持 2335 技術(shù)要求實(shí)現(xiàn) 2355.1 產(chǎn)品架構(gòu) 2355.1.1 基礎(chǔ)構(gòu)建平臺(tái) 2395.1.2 大數(shù)據(jù)平臺(tái)組件功能介紹 2405.1.3 系統(tǒng)分布式架構(gòu) 2855.2 運(yùn)行環(huán)境支持 2885.2.1 系統(tǒng)操作支持以及環(huán)境配置 2885.2.2 與第三方軟件平臺(tái)的兼容說(shuō)明 2895.3 客戶(hù)端支持 2905.3.1 客戶(hù)端支持 2905.3.2 移動(dòng)端支持 2915.4 數(shù)據(jù)支持 2915.5 集成實(shí)現(xiàn) 2935.6 運(yùn)維實(shí)現(xiàn) 2955.6.1 運(yùn)維目標(biāo) 2955.6.2 運(yùn)維服務(wù)內(nèi)容 2965.6.3 運(yùn)維服務(wù)流程 2995.6.4 運(yùn)維服務(wù)制度規(guī)范 3015.6.5 應(yīng)急服務(wù)響應(yīng)措施 3025.6.6 平臺(tái)監(jiān)控兼容 3035.6.7 資源管理 3035.6.8 系統(tǒng)升級(jí) 3065.6.9 系統(tǒng)監(jiān)控平臺(tái)功能 3065.7 平臺(tái)性能 3165.7.1 集群切換 3165.7.2 節(jié)點(diǎn)切換 3185.7.3 性能調(diào)優(yōu) 3195.7.4 并行化高性能計(jì)算 3255.7.5 計(jì)算性能線性擴(kuò)展 3285.8 平臺(tái)擴(kuò)展性 3305.9 可靠性和可用性 3325.9.1 單點(diǎn)故障消除 3325.9.2 容災(zāi)備份優(yōu)化 3335.9.3 系統(tǒng)容錯(cuò)性 3395.10 開(kāi)放性和兼容性 3415.10.1 高度支持開(kāi)源 3455.10.2 操作系統(tǒng)支持以及軟件環(huán)境配置 3575.10.3 兼容性與集成能力 3585.11 安全性 3595.11.1 身份鑒別 3605.11.2 訪問(wèn)控制 3615.11.3 安全通訊 3685.12 核心產(chǎn)品優(yōu)勢(shì) 3685.12.1 高速運(yùn)算、統(tǒng)計(jì)分析和精確查詢(xún) 3685.12.2 有效的資源利用 3705.12.3 高并發(fā)、低延遲性能優(yōu)化 3725.12.4 計(jì)算資源有效管控 3725.12.5 API設(shè)計(jì)和開(kāi)發(fā)工具支持 3745.12.6 友好的運(yùn)維監(jiān)控界面 3775.12.7 擴(kuò)容、備份、恢復(fù)機(jī)制 3815.12.8 集群自動(dòng)負(fù)載均衡 3835.12.9 計(jì)算能力擴(kuò)展 3835.13 自主研發(fā)技術(shù)優(yōu)勢(shì) 3845.13.1 高穩(wěn)定、高效的計(jì)算引擎Inceptor 3845.13.2 完整的SQL編譯引擎 3855.13.3 高性能的SQL分析引擎 3865.13.4 SQL統(tǒng)計(jì)分析能力 3875.13.5 完整的CURD功能 3885.13.6 Hyperbase高效的檢索能力 3895.13.7 基于Hyperbase和SQL引擎的高并發(fā)分布式事務(wù) 3925.13.8 Hyperbase非結(jié)構(gòu)化數(shù)據(jù)的支持 3935.13.9 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘 3945.13.10 TranswarpStream 3995.13.11 內(nèi)存/SSD/磁盤(pán)混合存儲(chǔ) 4015.13.12 MR/Spark/流處理統(tǒng)一平臺(tái) 4035.13.13 多租戶(hù)支持能力 4045.13.14 多租戶(hù)安全功能 4055.13.15 標(biāo)準(zhǔn)JDBC與ODBC接口 4066 系統(tǒng)性能指標(biāo)和測(cè)試結(jié)果說(shuō)明 4086.1 性能測(cè)試報(bào)告 4086.1.1 測(cè)試目標(biāo) 4086.1.2 測(cè)試內(nèi)容 4086.1.3 測(cè)試環(huán)境 4096.1.4 測(cè)試過(guò)程和結(jié)果 4106.2 TPC-DS測(cè)試報(bào)告 4136.2.1 測(cè)試目標(biāo) 4136.2.2 測(cè)試內(nèi)容 4136.2.3 測(cè)試環(huán)境 4156.2.4 測(cè)試過(guò)程和結(jié)果 4166.3 量收遷移驗(yàn)證性測(cè)試報(bào)告 4176.3.1 測(cè)試目標(biāo) 4176.3.2 測(cè)試內(nèi)容 4176.3.3 測(cè)試環(huán)境 4186.3.4 串行執(zhí)行情況 4196.3.5 并行執(zhí)行情況 4206.3.6 生產(chǎn)表數(shù)據(jù)規(guī)模 4216.3.7 測(cè)試結(jié)果 4236.4 某銀行性能測(cè)試報(bào)告 4246.4.1 測(cè)試目標(biāo) 4246.4.2 測(cè)試內(nèi)容 4246.4.3 測(cè)試環(huán)境 4246.4.4 測(cè)試過(guò)程和結(jié)果 4257 系統(tǒng)配置方案 4397.1 硬件系統(tǒng)配置建議 4397.1.1 基礎(chǔ)Hadoop平臺(tái)集群配置規(guī)劃 4397.1.2 數(shù)據(jù)倉(cāng)庫(kù)集群配置規(guī)劃 4427.1.3 集群規(guī)模綜述 4447.1.4 開(kāi)發(fā)集群配置建議 4447.1.5 測(cè)試集群配置建議 4457.2 軟件配置建議 4467.3 軟硬件配置總表 4487.4 網(wǎng)絡(luò)拓?fù)?4508 系統(tǒng)測(cè)試 4518.1 系統(tǒng)測(cè)試方法 4518.2 系統(tǒng)測(cè)試階段 4528.3 系統(tǒng)測(cè)試相關(guān)提交物 4549 項(xiàng)目實(shí)施 4559.1 項(xiàng)目實(shí)施總體目標(biāo) 4559.2 項(xiàng)目管理 4559.3 業(yè)務(wù)確認(rèn) 4569.4 數(shù)據(jù)調(diào)研 4579.5 系統(tǒng)設(shè)計(jì)階段 4589.6 集成部署階段 4599.7 ETL過(guò)程設(shè)計(jì) 4609.8 ETL開(kāi)發(fā)與測(cè)試 4619.9 系統(tǒng)開(kāi)發(fā)階段 4629.10 系統(tǒng)測(cè)試階段 4639.11 系統(tǒng)上線及驗(yàn)收 4649.12 提交物 4679.13 系統(tǒng)的交接與知識(shí)轉(zhuǎn)移 46910 項(xiàng)目管理 47110.1 項(xiàng)目總體管理 47110.1.1 項(xiàng)目實(shí)施總流程 47110.1.2 項(xiàng)目實(shí)施中各階段的主要任務(wù) 47110.1.3 項(xiàng)目組織架構(gòu) 47710.1.4 項(xiàng)目負(fù)責(zé)人及主要成員 48310.1.5 項(xiàng)目管理制度 56610.2 項(xiàng)目質(zhì)量管理 57010.2.1 范圍 57010.2.2 過(guò)程目標(biāo) 57010.2.3 角色與職責(zé) 57110.2.4 過(guò)程活動(dòng) 57310.3 項(xiàng)目計(jì)劃 57611 安全保密 58912 知識(shí)產(chǎn)權(quán) 59113 技術(shù)服務(wù) 59313.1 現(xiàn)場(chǎng)支持服務(wù) 59313.2 標(biāo)準(zhǔn)售后技術(shù)服務(wù) 59413.2.1 提供預(yù)防性維護(hù) 59413.2.2 系統(tǒng)升級(jí)服務(wù) 59513.2.3 系統(tǒng)性能優(yōu)化 59513.2.4 提供系統(tǒng)完整文檔 59613.2.5 定期系統(tǒng)健康檢查服務(wù) 59613.2.6 應(yīng)急預(yù)案 59713.3 承諾 59813.3.1 我方對(duì)集團(tuán)的承諾 59813.3.2 關(guān)于開(kāi)發(fā)隊(duì)伍的承諾 59813.4 技術(shù)保證 59813.4.1 方案實(shí)用性保證 59813.4.2 應(yīng)用系統(tǒng)的運(yùn)行能力的保證 59913.4.3 預(yù)防性維護(hù)檢修內(nèi)容 59913.4.4 服務(wù)響應(yīng) 60013.4.5 關(guān)于軟件維護(hù)的保證 60013.4.6 專(zhuān)業(yè)服務(wù)保證 60113.4.7 售后服務(wù)流程及時(shí)限 60114 人員培訓(xùn) 60314.1 Hadoop系統(tǒng)培訓(xùn) 60414.2 業(yè)務(wù)使用培訓(xùn) 60514.3 分析挖掘培訓(xùn) 60614.4 運(yùn)行維護(hù)培訓(xùn) 60814.5 開(kāi)發(fā)培訓(xùn) 61014.5.1 培訓(xùn)目標(biāo) 61414.5.2 培訓(xùn)方式 61514.5.3 培訓(xùn)資源 615項(xiàng)目概述建設(shè)背景集團(tuán)已有基礎(chǔ)經(jīng)過(guò)十幾年的信息化建設(shè),集團(tuán)已經(jīng)積累了覆蓋郵務(wù)、速遞物流、金融三大板塊的海量生產(chǎn)和經(jīng)營(yíng)數(shù)據(jù),這些數(shù)據(jù)分布在集團(tuán)各類(lèi)應(yīng)用系統(tǒng)和數(shù)據(jù)庫(kù)中,支撐著集團(tuán)業(yè)務(wù)的發(fā)展。集團(tuán)初步搭建了由名址系統(tǒng)、量收系統(tǒng)、速遞平臺(tái)系統(tǒng)、數(shù)據(jù)分析平臺(tái)組成的初步的數(shù)據(jù)倉(cāng)庫(kù),為數(shù)據(jù)分析挖掘工作打下了一定的技術(shù)基礎(chǔ)。組建了專(zhuān)業(yè)的組織架構(gòu)促進(jìn)企業(yè)數(shù)據(jù)管理與應(yīng)用的規(guī)范化與制度化。集團(tuán)已成立數(shù)據(jù)中心,集團(tuán)數(shù)據(jù)中心和各省的數(shù)據(jù)分析團(tuán)隊(duì)已經(jīng)進(jìn)行了多個(gè)專(zhuān)題的數(shù)據(jù)分析與成果應(yīng)用的嘗試。痛點(diǎn)及需提升的能力集團(tuán)擁有豐富的客戶(hù)資源,海量的數(shù)據(jù)積累。在大數(shù)據(jù)時(shí)代,要充分挖掘數(shù)據(jù)價(jià)值,跟上時(shí)代的步伐。板塊間數(shù)據(jù)存在壁壘,共享不足,無(wú)法實(shí)現(xiàn)集團(tuán)企業(yè)數(shù)據(jù)的充分有效利用。數(shù)據(jù)存在冗余、分散、安全性差、一致性差等問(wèn)題,應(yīng)建立有效的數(shù)據(jù)管控體系,打破信息孤島、實(shí)現(xiàn)企業(yè)信息數(shù)據(jù)共享、提升數(shù)據(jù)價(jià)值。非/半結(jié)構(gòu)化數(shù)據(jù)利用不足,需利用大數(shù)據(jù)技術(shù)加強(qiáng)應(yīng)用。大數(shù)據(jù)趨勢(shì)隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,現(xiàn)代社會(huì)已經(jīng)邁入全新的大數(shù)據(jù)時(shí)代。掌握大數(shù)據(jù)資產(chǎn),進(jìn)行智能化決策,已成為企業(yè)勝出的關(guān)鍵。越來(lái)越多的企業(yè)開(kāi)始重視大數(shù)據(jù)戰(zhàn)略布局,重新定義自己的核心競(jìng)爭(zhēng)力,從數(shù)據(jù)中揭示規(guī)律,了解過(guò)去、知悉現(xiàn)在、洞察未來(lái),數(shù)據(jù)驅(qū)動(dòng)企業(yè)運(yùn)行與決策的科學(xué)性,構(gòu)建智慧企業(yè),打造核心競(jìng)爭(zhēng)力。數(shù)據(jù)的爆炸式增長(zhǎng)以及價(jià)值的擴(kuò)大化,將對(duì)企業(yè)未來(lái)的發(fā)展產(chǎn)生深遠(yuǎn)的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。如何應(yīng)對(duì)大數(shù)據(jù),挖掘大數(shù)據(jù)的價(jià)值,讓大數(shù)據(jù)為企業(yè)的發(fā)展保駕護(hù)航,將是未來(lái)信息技術(shù)發(fā)展道路上關(guān)注的重點(diǎn)。建設(shè)目標(biāo)總體目標(biāo)根據(jù)集團(tuán)信息化規(guī)劃,遵循“互聯(lián)網(wǎng)+”的理念,建設(shè)集團(tuán)大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的集中及整合,構(gòu)建集團(tuán)統(tǒng)一的數(shù)據(jù)模型,提高企業(yè)數(shù)據(jù)的處理效率與共享程度。實(shí)現(xiàn)對(duì)集團(tuán)企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)的分析挖掘,對(duì)內(nèi)對(duì)外提供數(shù)據(jù)服務(wù)。為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營(yíng)銷(xiāo)、服務(wù)支撐、風(fēng)險(xiǎn)管控以及流程優(yōu)化等支撐服務(wù)。集團(tuán)大數(shù)據(jù)平臺(tái)將在Hadoop和云計(jì)算等技術(shù)的基礎(chǔ)上,對(duì)現(xiàn)有量收系統(tǒng)、數(shù)據(jù)分析綜合服務(wù)平臺(tái)的歷史數(shù)據(jù)、數(shù)據(jù)模型、報(bào)表應(yīng)用等進(jìn)行移植,全面整合集團(tuán)業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)來(lái)源涵蓋集團(tuán)所有的生產(chǎn)和管理系統(tǒng),并可接入同業(yè)及相關(guān)市場(chǎng)甚至互聯(lián)網(wǎng)信息,建立從業(yè)務(wù)層到管理層到?jīng)Q策層的智能分析體系,模擬量化風(fēng)險(xiǎn)和收益,實(shí)現(xiàn)對(duì)集團(tuán)各種業(yè)務(wù)數(shù)據(jù)進(jìn)行分類(lèi)、管理、統(tǒng)計(jì)和分析等功能,給各級(jí)管理人員提供各類(lèi)準(zhǔn)確的統(tǒng)計(jì)分析預(yù)測(cè)數(shù)據(jù),使其能夠及時(shí)掌握全面的經(jīng)營(yíng)狀況,為宏觀決策提供支持;為基層業(yè)務(wù)人員提供詳盡的數(shù)據(jù),供其對(duì)各自的工作目標(biāo)、當(dāng)前和歷史狀況進(jìn)行準(zhǔn)確的把握,對(duì)業(yè)務(wù)活動(dòng)進(jìn)行有效支撐;滿足集團(tuán)經(jīng)營(yíng)管理及決策支持,建設(shè)國(guó)內(nèi)一流,世界領(lǐng)先的大數(shù)據(jù)平臺(tái)。分階段建設(shè)目標(biāo)第一階段目標(biāo)利用大數(shù)據(jù)技術(shù),搭建大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)交換、數(shù)據(jù)管控、企業(yè)級(jí)數(shù)據(jù)分析、數(shù)據(jù)可視化展現(xiàn)服務(wù)等功能。完成郵務(wù)和速遞數(shù)據(jù)資源的歸集、加工和整理,取代現(xiàn)有的量收系統(tǒng),集成現(xiàn)有的數(shù)據(jù)分析綜合服務(wù)平臺(tái),搭建高性能、擴(kuò)展性強(qiáng)的數(shù)據(jù)計(jì)算和數(shù)據(jù)分析環(huán)境。建立集團(tuán)統(tǒng)一的數(shù)據(jù)模型,實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化。對(duì)集團(tuán)各板塊及外部的結(jié)構(gòu)化數(shù)據(jù)、半/非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集和存儲(chǔ),圍繞“服務(wù)支撐、風(fēng)險(xiǎn)管控、流程優(yōu)化、交叉營(yíng)銷(xiāo)、產(chǎn)品創(chuàng)新、決策支持”六個(gè)重點(diǎn)應(yīng)用方向進(jìn)行大數(shù)據(jù)成果應(yīng)用。第二階段目標(biāo)全方位整合集團(tuán)數(shù)據(jù)資源,利用專(zhuān)業(yè)的數(shù)據(jù)分析工具,提升數(shù)據(jù)分析質(zhì)量與效率,完善數(shù)據(jù)分析應(yīng)用模型及相關(guān)指標(biāo),深入推廣六個(gè)重點(diǎn)應(yīng)用方向,逐步提供面向移動(dòng)互聯(lián)網(wǎng)的快速服務(wù),不斷優(yōu)化生產(chǎn)工作流程,實(shí)現(xiàn)降本增效,為科學(xué)運(yùn)營(yíng)和決策提供支撐。與相關(guān)系統(tǒng)的關(guān)系數(shù)據(jù)分析綜合服務(wù)平臺(tái)數(shù)據(jù)分析綜合服務(wù)平臺(tái)是依托集團(tuán)綜合網(wǎng),實(shí)現(xiàn)郵務(wù)數(shù)據(jù)集中及整合,為集團(tuán)公司和各省分公司提供企業(yè)數(shù)據(jù)分析挖掘服務(wù),對(duì)內(nèi)對(duì)外提供數(shù)據(jù)服務(wù)的信息系統(tǒng)。該系統(tǒng)使用Oracle數(shù)據(jù)庫(kù),目前數(shù)據(jù)量已達(dá)到9TB,平均日增長(zhǎng)量約22GB。目前該系統(tǒng)已經(jīng)對(duì)接了13個(gè)業(yè)務(wù)系統(tǒng)(集郵系統(tǒng)、報(bào)刊系統(tǒng)、電商平臺(tái)-機(jī)票、網(wǎng)運(yùn)系統(tǒng)、郵資封片卡系統(tǒng)、短信平臺(tái)、農(nóng)資分銷(xiāo)系統(tǒng)、賀卡兌獎(jiǎng)平臺(tái)、營(yíng)業(yè)系統(tǒng)、投遞系統(tǒng)、客管系統(tǒng)、訂單系統(tǒng)、國(guó)際業(yè)務(wù)平臺(tái)),實(shí)現(xiàn)了31個(gè)省的郵務(wù)類(lèi)數(shù)據(jù)的上傳及下載。系統(tǒng)實(shí)現(xiàn)將數(shù)據(jù)由全國(guó)中心推送至省中心;實(shí)現(xiàn)已有專(zhuān)題分析的固化,包括報(bào)刊、約投掛號(hào)、國(guó)內(nèi)國(guó)際小包專(zhuān)題分析結(jié)果的固化展現(xiàn);實(shí)現(xiàn)將接入系統(tǒng)的數(shù)據(jù)按照業(yè)務(wù)規(guī)則進(jìn)行后臺(tái)加載、評(píng)估、清洗、重構(gòu),并按照客戶(hù)維度進(jìn)行數(shù)據(jù)整合;提供對(duì)內(nèi)對(duì)外數(shù)據(jù)服務(wù),支持客戶(hù)數(shù)據(jù)的上傳和結(jié)果下載、郵編匹配、地址清洗匹配等功能。數(shù)據(jù)分析綜合服務(wù)平臺(tái)是大數(shù)據(jù)平臺(tái)的子集,數(shù)據(jù)分析綜合服務(wù)平臺(tái)的數(shù)據(jù)是大數(shù)據(jù)平臺(tái)的數(shù)據(jù)集市之一。量收系統(tǒng)量收系統(tǒng)是通過(guò)從集團(tuán)生產(chǎn)經(jīng)營(yíng)業(yè)務(wù)系統(tǒng)及其他相關(guān)系統(tǒng)中自動(dòng)采集、匯總、上傳業(yè)務(wù)量、業(yè)務(wù)收入信息(簡(jiǎn)稱(chēng)量收信息),進(jìn)行稽核、查詢(xún)、分析、預(yù)警等應(yīng)用的信息管理系統(tǒng)。該系統(tǒng)使用Teradata的數(shù)據(jù)倉(cāng)庫(kù)和Oracle的數(shù)據(jù)庫(kù),數(shù)據(jù)使用空間已接近15TB。目前該系統(tǒng)已經(jīng)對(duì)接了8個(gè)業(yè)務(wù)系統(tǒng)(速遞平臺(tái)、集郵系統(tǒng)、營(yíng)業(yè)系統(tǒng)、訂單系統(tǒng)、報(bào)刊系統(tǒng)、農(nóng)資分銷(xiāo)系統(tǒng)、郵資機(jī)管理系統(tǒng)、電商平臺(tái)),此外,通過(guò)營(yíng)業(yè)系統(tǒng)還接入商函、國(guó)際普郵、電子商務(wù)、短信等業(yè)務(wù)數(shù)據(jù)?,F(xiàn)有使用用戶(hù)2.9萬(wàn)個(gè),提供近500張報(bào)表的查詢(xún),實(shí)現(xiàn)集團(tuán)業(yè)務(wù)量收入的統(tǒng)計(jì)分析,為企業(yè)的經(jīng)營(yíng)管理起到了很重要的作用,但隨著管理要求的不斷提高,量收系統(tǒng)的能力已捉襟見(jiàn)肘。集團(tuán)大數(shù)據(jù)平臺(tái)建成后,將替代量收系統(tǒng)。金融大數(shù)據(jù)平臺(tái)大數(shù)據(jù)平臺(tái)從金融大數(shù)據(jù)平臺(tái)獲取金融客戶(hù)、市場(chǎng)營(yíng)銷(xiāo)等數(shù)據(jù)分析結(jié)果以及相關(guān)數(shù)據(jù),與金融大數(shù)據(jù)平臺(tái)互為數(shù)據(jù)源,用于支撐集團(tuán)郵務(wù)、速遞物流和金融板塊對(duì)數(shù)據(jù)分析的需求。各生產(chǎn)系統(tǒng)大數(shù)據(jù)平臺(tái)從各生產(chǎn)系統(tǒng)獲取交易數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)等,對(duì)數(shù)據(jù)進(jìn)行分析挖掘,將分析成果反饋回各生產(chǎn)系統(tǒng)用于支撐生產(chǎn)運(yùn)營(yíng)。CRMCRM系統(tǒng)實(shí)現(xiàn)以客戶(hù)為中心的集團(tuán)與板塊間的協(xié)同管控,以及集團(tuán)各環(huán)節(jié)間客戶(hù)營(yíng)銷(xiāo)及服務(wù)的協(xié)同管理。大數(shù)據(jù)平臺(tái)將實(shí)現(xiàn)CRM系統(tǒng)的部分?jǐn)?shù)據(jù)分析功能。公司介紹和優(yōu)勢(shì)特點(diǎn)IDEADATA北京愛(ài)狄特信息科技有限公司(IDEADATA)成立于2011年3月,總部設(shè)在北京,在南京及沈陽(yáng)等地設(shè)有技術(shù)研發(fā)中心和辦事機(jī)構(gòu)。公司注冊(cè)資金2080萬(wàn),是北京市高新技術(shù)企業(yè)。公司專(zhuān)注于企業(yè)級(jí)數(shù)據(jù)(倉(cāng))庫(kù)和大數(shù)據(jù)領(lǐng)域的技術(shù)和應(yīng)用,業(yè)務(wù)和技術(shù)能力發(fā)展迅速,核心和骨干成員均具有領(lǐng)域內(nèi)資深的業(yè)務(wù)經(jīng)驗(yàn)、技術(shù)能力以及落地實(shí)踐,對(duì)基于從集群到云平臺(tái)、從傳統(tǒng)數(shù)據(jù)庫(kù)到MPP以及Hadoop的各種數(shù)據(jù)管理和應(yīng)用平臺(tái)架構(gòu)及演進(jìn)路線圖均有深刻的理解和積累。公司通過(guò)不斷的實(shí)踐積累,獨(dú)立研發(fā)了包括結(jié)構(gòu)化、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)在內(nèi)的一系列從數(shù)據(jù)獲?。ǔ槿。?、數(shù)據(jù)管理到數(shù)據(jù)應(yīng)用的多項(xiàng)擁有自主知識(shí)產(chǎn)權(quán)的產(chǎn)品和服務(wù),包括數(shù)據(jù)平臺(tái)交互系統(tǒng)、數(shù)據(jù)BI分析系統(tǒng)、智能地址匹配系統(tǒng)、互聯(lián)網(wǎng)信息獲取與分析系統(tǒng)(iRIS)、自然語(yǔ)言處理(iNLP)和機(jī)器學(xué)習(xí)挖掘算法等方面。另外,公司積極與國(guó)內(nèi)外大數(shù)據(jù)領(lǐng)域先進(jìn)的解決方案、平臺(tái)和工具廠商包括Teradata、南大通用、IBM、星環(huán)科技(Transwarp)、Trinity和SAS等都有深入和緊密的合作關(guān)系及基礎(chǔ)。在質(zhì)量管理體系上,公司以GB/T19001-2008《質(zhì)量管理體系-要求》為標(biāo)準(zhǔn),進(jìn)行周密的質(zhì)量管理體系策劃,建立了完整的質(zhì)量管理體系,獲得了認(rèn)證中心頒發(fā)的質(zhì)量管理體系認(rèn)證證書(shū)。公司在組織結(jié)構(gòu)中設(shè)立了過(guò)程管控委員會(huì),專(zhuān)職負(fù)責(zé)貫徹實(shí)施公司質(zhì)量方針、質(zhì)量目標(biāo),維護(hù)ISO9001質(zhì)量管理體系有效運(yùn)行,控制產(chǎn)品質(zhì)量,實(shí)現(xiàn)產(chǎn)品和服務(wù)質(zhì)量的持續(xù)改進(jìn)。公司財(cái)務(wù)及營(yíng)運(yùn)狀況良好,具有一般納稅人資格,具備獨(dú)立、完整的會(huì)計(jì)核算和內(nèi)部控制體系,配備專(zhuān)業(yè)的會(huì)計(jì)核算與管理人員,財(cái)務(wù)核算制度健全,能夠據(jù)以如實(shí)核算,準(zhǔn)確及時(shí)的反映生產(chǎn)經(jīng)營(yíng)成果。公司嚴(yán)格執(zhí)行企業(yè)會(huì)計(jì)準(zhǔn)則和《企業(yè)會(huì)計(jì)制度》的有關(guān)規(guī)定,以權(quán)責(zé)發(fā)生制為記賬原則,以實(shí)際成本為計(jì)價(jià)基礎(chǔ),財(cái)務(wù)報(bào)表在所有重大方面均能公允反映公司的財(cái)務(wù)狀況以及經(jīng)營(yíng)成果和現(xiàn)金流量。公司始終堅(jiān)持“服務(wù)的價(jià)值在于幫助客戶(hù)成功”的理念,為客戶(hù)提供的產(chǎn)品和服務(wù)追求“專(zhuān)業(yè)、專(zhuān)注、極致、價(jià)值”。TRANSWARP星環(huán)信息科技(上海)有限公司(以下簡(jiǎn)稱(chēng)“星環(huán)公司”)是一家高科技大數(shù)據(jù)公司。公司致力于大數(shù)據(jù)基礎(chǔ)軟件的研發(fā),目前擁有超過(guò)300人的Hadoop專(zhuān)業(yè)團(tuán)隊(duì),大部分來(lái)自于IBM、Intel、Microsoft、Oracle、EMC等知名企業(yè),其中技術(shù)研發(fā)人員占80%以上。無(wú)論是團(tuán)隊(duì)規(guī)模,還是人員的整體能力,在全球大數(shù)據(jù)平臺(tái)領(lǐng)域都處于領(lǐng)先位置。在國(guó)際知名咨詢(xún)機(jī)構(gòu)Gartner發(fā)布的2016版數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)管理解決方案市場(chǎng)的魔力象限報(bào)告中,來(lái)自中國(guó)的公司星環(huán)科技(Transwarp)是唯一一家上榜的中國(guó)公司,也是魔力象限遠(yuǎn)見(jiàn)者(Visionaries)領(lǐng)域中全球最具有前瞻性的公司。圖2-1Gartner2016數(shù)據(jù)倉(cāng)庫(kù)魔力象限評(píng)測(cè)結(jié)果星環(huán)科技從事大數(shù)據(jù)核心平臺(tái)的研發(fā)與服務(wù),基于TDH大數(shù)據(jù)平臺(tái)軟件全國(guó)產(chǎn)化,將大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)結(jié)合,已經(jīng)為國(guó)內(nèi)多家金融銀行機(jī)構(gòu)提供專(zhuān)業(yè)化的數(shù)據(jù)倉(cāng)庫(kù)服務(wù),包括江蘇銀行、恒豐銀行、民生銀行、中泰證券等。星環(huán)公司已經(jīng)在國(guó)內(nèi)建立200多個(gè)大數(shù)據(jù)應(yīng)用案例,覆蓋行業(yè)包括金融、運(yùn)營(yíng)商、互聯(lián)網(wǎng)、政府、能源、制造業(yè)、軍工、教育、交通運(yùn)輸、公安等行業(yè),目前是國(guó)內(nèi)市場(chǎng)落地案例最多、應(yīng)用范圍最為廣泛的大數(shù)據(jù)平臺(tái)提供商,星環(huán)公司已經(jīng)成為全球矚目的大數(shù)據(jù)平臺(tái)商。我們的優(yōu)勢(shì)北京愛(ài)狄特信息科技有限公司與星環(huán)信息科技(上海)有限公司緊密協(xié)作,參與集團(tuán)大數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè),與其他友商相比具有以下四方面的優(yōu)勢(shì)特點(diǎn):圖2-2公司優(yōu)勢(shì)大數(shù)據(jù)平臺(tái)產(chǎn)品技術(shù)優(yōu)勢(shì)SQLonHadoop技術(shù)領(lǐng)先國(guó)內(nèi)外廠商。SQL99、SQL2003標(biāo)準(zhǔn)的全面兼容性,支持PL/SQL、分布式事務(wù)、分布式內(nèi)存OLAP/Cube等平臺(tái)特性,為企業(yè)級(jí)數(shù)倉(cāng)建設(shè)奠定堅(jiān)實(shí)的平臺(tái)基礎(chǔ)。國(guó)內(nèi)首家實(shí)現(xiàn)并成功運(yùn)用HadooponDocker分布式容器集群管理平臺(tái)技術(shù)。TranswarpOperatingSystem(TOS)是為大數(shù)據(jù)應(yīng)用量身訂做的云操作系統(tǒng),支持一鍵部署TDH,基于優(yōu)先級(jí)的搶占式資源調(diào)度和細(xì)粒度資源分配,讓大數(shù)據(jù)應(yīng)用輕松擁抱云服務(wù)。具有基于Hadoop平臺(tái)成功建設(shè)企業(yè)級(jí)數(shù)倉(cāng)的豐富經(jīng)驗(yàn) 星環(huán)Hadoop平臺(tái)產(chǎn)品已在國(guó)內(nèi)100多個(gè)大數(shù)據(jù)項(xiàng)目建設(shè)中得以應(yīng)用,行業(yè)覆蓋金融、運(yùn)營(yíng)商、互聯(lián)網(wǎng)、政府、能源等行業(yè),其中有多個(gè)基于Hadoop平臺(tái)完全實(shí)現(xiàn)企業(yè)級(jí)數(shù)倉(cāng)系統(tǒng)的成功案例,在企業(yè)級(jí)數(shù)倉(cāng)平滑可靠遷移及替換國(guó)外MPP數(shù)倉(cāng)系統(tǒng)、高性?xún)r(jià)比提升企業(yè)數(shù)倉(cāng)性能方面,積累了豐富的實(shí)踐經(jīng)驗(yàn)。作為Hadoop創(chuàng)新應(yīng)用的開(kāi)拓者,星環(huán)公司目前已成為在國(guó)內(nèi)市場(chǎng)落地案例最多、應(yīng)用范圍最為廣泛的大數(shù)據(jù)平臺(tái)提供商。大數(shù)據(jù)分析挖掘團(tuán)隊(duì)的專(zhuān)業(yè)實(shí)施經(jīng)驗(yàn)優(yōu)勢(shì) 愛(ài)狄特公司在大數(shù)據(jù)可視化交互展現(xiàn)和多維分析查詢(xún)、大數(shù)據(jù)分析挖掘、自然語(yǔ)言處理(iNLP)、地址清洗匹配服務(wù)等方面積累了自有的產(chǎn)品技術(shù)并成功運(yùn)用到集團(tuán)、金融保險(xiǎn)、IT等行業(yè)。經(jīng)歷多年大數(shù)據(jù)實(shí)戰(zhàn)項(xiàng)目的鍛煉,培養(yǎng)建立起了一支專(zhuān)業(yè)的大數(shù)據(jù)分析挖掘團(tuán)隊(duì),能夠運(yùn)用多種分析挖掘工具和并行化算法庫(kù),從大數(shù)據(jù)中挖掘客戶(hù)價(jià)值,為集團(tuán)、金融、IT等行業(yè)的經(jīng)營(yíng)分析、決策支持提供專(zhuān)業(yè)的技術(shù)支持服務(wù)。集團(tuán)項(xiàng)目實(shí)施經(jīng)驗(yàn)優(yōu)勢(shì) 愛(ài)狄特公司有多名核心技術(shù)骨干人員參與過(guò)集團(tuán)的量收系統(tǒng)、全國(guó)名址、EMS平臺(tái)、綜分平臺(tái)等大型項(xiàng)目的總體架構(gòu)設(shè)計(jì)、應(yīng)用系統(tǒng)開(kāi)發(fā)、數(shù)倉(cāng)建設(shè)及系統(tǒng)運(yùn)維等工作,熟悉現(xiàn)有數(shù)倉(cāng)系統(tǒng)的數(shù)據(jù)模型、ETL流程及匯總處理程序、數(shù)據(jù)接口格式及應(yīng)用集成要求等,對(duì)現(xiàn)有數(shù)倉(cāng)的遷移及大數(shù)據(jù)平臺(tái)應(yīng)用做了充分的PoC實(shí)驗(yàn)驗(yàn)證,明悉遷移工作中的難點(diǎn)及重點(diǎn)問(wèn)題并有針對(duì)性的風(fēng)險(xiǎn)防范及管控措施加以解決。因而,我方的集團(tuán)項(xiàng)目實(shí)施經(jīng)驗(yàn)結(jié)合極具優(yōu)勢(shì)的大數(shù)據(jù)平臺(tái)產(chǎn)品技術(shù),我方有充分的信心,在短時(shí)間內(nèi)高質(zhì)量、高可靠地完成本項(xiàng)目任務(wù)。業(yè)務(wù)需求分析總體需求大數(shù)據(jù)平臺(tái)應(yīng)支持集團(tuán)總部、省和地市三級(jí)使用方式。使用單位還包括下屬單位和控股公司等。大數(shù)據(jù)平臺(tái)要求使用Hadoop系統(tǒng)應(yīng)實(shí)現(xiàn)主流數(shù)據(jù)倉(cāng)庫(kù)的功能,同時(shí)支持與現(xiàn)有系統(tǒng)Oracle數(shù)據(jù)庫(kù)及Teradata數(shù)據(jù)倉(cāng)庫(kù)的無(wú)縫連接。大數(shù)據(jù)平臺(tái)需支持多應(yīng)用管理,即支持對(duì)應(yīng)用的服務(wù)級(jí)別管理(SLA)。能夠?qū)崿F(xiàn)應(yīng)用的訪問(wèn)資源控制,支持資源隔離。同時(shí)支持多租戶(hù)功能,例如多租戶(hù)管理、租戶(hù)的操作員管理、租戶(hù)的分等分級(jí)分組管理、租戶(hù)的度量管理、租戶(hù)的角色管理、租戶(hù)應(yīng)用授權(quán)、租戶(hù)數(shù)據(jù)隔離、租戶(hù)的資源隔離等功能。大數(shù)據(jù)平臺(tái)應(yīng)具有統(tǒng)一運(yùn)維監(jiān)控方面,可以圖形化的實(shí)現(xiàn)安全管理、用戶(hù)管理、監(jiān)控運(yùn)維、服務(wù)調(diào)度、應(yīng)用部署、資源管理、作業(yè)編排、服務(wù)接口等。大數(shù)據(jù)平臺(tái)應(yīng)同時(shí)支持作業(yè)調(diào)度管理,即實(shí)現(xiàn)統(tǒng)一的作業(yè)調(diào)度與編排管理功能,支持使用工作流的可視化的方式對(duì)工作任務(wù)進(jìn)行統(tǒng)一編排和調(diào)度。同時(shí)支持作業(yè)的資源管理、流程管理、任務(wù)管理、數(shù)據(jù)管理、應(yīng)用管理、租戶(hù)管理、多ETL調(diào)度任務(wù)的部署和并行處理等功能。集團(tuán)大數(shù)據(jù)平臺(tái)的建設(shè)內(nèi)容包含:圖3-1大數(shù)據(jù)平臺(tái)建設(shè)內(nèi)容重點(diǎn)建設(shè)內(nèi)容包括:基礎(chǔ)平臺(tái)建設(shè)量收遷移六大重點(diǎn)應(yīng)用與CRM、綜分、MDM等系統(tǒng)的融合基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)應(yīng)用。數(shù)據(jù)管理集團(tuán)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管理,包含數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)存儲(chǔ)與管理(包含結(jié)構(gòu)化數(shù)據(jù)管理、半/非結(jié)構(gòu)化數(shù)據(jù)管理、數(shù)據(jù)存儲(chǔ)等)、數(shù)據(jù)清洗加工、數(shù)據(jù)計(jì)算和查詢(xún)等方面的內(nèi)容。數(shù)據(jù)采集大數(shù)據(jù)平臺(tái)需要采集各類(lèi)內(nèi)外部數(shù)據(jù),形式多樣,需支持不同頻度、不同形態(tài)的數(shù)據(jù)采集。采集方式包含網(wǎng)上數(shù)據(jù)填報(bào)、流方式、批量導(dǎo)入方式、外部數(shù)據(jù)文件導(dǎo)入、異構(gòu)數(shù)據(jù)庫(kù)導(dǎo)入、主動(dòng)數(shù)據(jù)抽取、增量追加方式、網(wǎng)上爬蟲(chóng)方式等,數(shù)據(jù)形態(tài)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)交換與大數(shù)據(jù)平臺(tái)對(duì)接的系統(tǒng)很多,這些系統(tǒng)數(shù)據(jù)庫(kù)結(jié)構(gòu)各異。因此,數(shù)據(jù)交換方面,需要考慮各類(lèi)數(shù)據(jù)格式、各類(lèi)傳輸頻次的數(shù)據(jù)導(dǎo)入導(dǎo)出。數(shù)據(jù)源包括各業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入、互聯(lián)網(wǎng)數(shù)據(jù)采集、合作伙伴系統(tǒng)數(shù)據(jù)接入、外部臨時(shí)數(shù)據(jù)導(dǎo)入支持等。數(shù)據(jù)格式主要包含文本文件,XML等多種方式,傳輸頻次包含非實(shí)時(shí)、準(zhǔn)實(shí)時(shí)、實(shí)時(shí)形式。同時(shí)支持?jǐn)?shù)據(jù)源管理功能,實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)內(nèi)各存儲(chǔ)區(qū)之間的數(shù)據(jù)交換功能,提供可自定義的對(duì)外數(shù)據(jù)服務(wù)接口能力,同時(shí)支持?jǐn)?shù)據(jù)接口熱擴(kuò)展能力。數(shù)據(jù)存儲(chǔ)與管理結(jié)構(gòu)化數(shù)據(jù)管理包括對(duì)結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲(chǔ)管理、對(duì)外接口、實(shí)時(shí)監(jiān)控、安全管理、數(shù)據(jù)重構(gòu)等功能。半/非結(jié)構(gòu)化數(shù)據(jù)管理包括半/非結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)內(nèi)容搜索、數(shù)據(jù)生命周期管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲(chǔ)管理、對(duì)外接口、混合查詢(xún)、實(shí)時(shí)監(jiān)控、自然語(yǔ)言查詢(xún)、智能化知識(shí)檢索功能。數(shù)據(jù)存儲(chǔ)管理功能包括數(shù)據(jù)分區(qū)劃分方式、適用場(chǎng)景、對(duì)應(yīng)計(jì)算處理框架、硬件配置推薦等。同時(shí)需要支持多存儲(chǔ)層級(jí),實(shí)現(xiàn)數(shù)據(jù)的多溫度管理,能夠?qū)?shù)據(jù)存儲(chǔ)在不同IO讀寫(xiě)速度的不同介質(zhì)上。支持對(duì)數(shù)據(jù)生命周期進(jìn)行管理。支持多種索引模式,具有索引分析與選擇功能和工具。支持多數(shù)據(jù)副本管理功能,能夠進(jìn)行數(shù)據(jù)平衡、索引平衡的檢測(cè)。支持自動(dòng)平衡功能和數(shù)據(jù)自動(dòng)重分布功能,提供數(shù)據(jù)平衡和索引平衡的工具。支持在線變動(dòng)節(jié)點(diǎn)管理功能,支持在線增加、刪除節(jié)點(diǎn)時(shí),數(shù)據(jù)和索引的傾斜探測(cè)和自動(dòng)平衡功能,保證平滑擴(kuò)展和性能的線性增長(zhǎng)。支持多種數(shù)據(jù)分區(qū)管理、多數(shù)據(jù)類(lèi)型管理、多文件格式管理、數(shù)據(jù)自定義標(biāo)簽管理、數(shù)據(jù)塊讀寫(xiě)鎖處理、數(shù)據(jù)文件元數(shù)據(jù)備份和恢復(fù),支持?jǐn)?shù)據(jù)壓縮、表壓縮功能,節(jié)省數(shù)據(jù)空間。數(shù)據(jù)加工清洗支持?jǐn)?shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取、轉(zhuǎn)換、加載至目標(biāo)端的過(guò)程。支持多數(shù)據(jù)源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等數(shù)據(jù)源。實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)與Hadoop以及Hadoop集群之間的數(shù)據(jù)抽取、轉(zhuǎn)換、加載等功能。支持?jǐn)?shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理;支持?jǐn)?shù)據(jù)清洗功能,包括數(shù)據(jù)清洗環(huán)節(jié)管理、數(shù)據(jù)清洗規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預(yù)覽、應(yīng)用主數(shù)據(jù)進(jìn)行清洗管理等功能。數(shù)據(jù)查詢(xún)計(jì)算支持對(duì)多計(jì)算框架管理,計(jì)算框架包括批處理計(jì)算框架、內(nèi)存計(jì)算框架、流計(jì)算框架等。支持并行計(jì)算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進(jìn)程并行及并發(fā)處理數(shù)據(jù)的機(jī)制。支持PL/SQL存儲(chǔ)過(guò)程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。能夠?qū)崿F(xiàn)OLAP查詢(xún)功能,需要內(nèi)置OLAP函數(shù),支持超大數(shù)據(jù)立方,支持雪花、星型等復(fù)雜模型。支持CUBE,支持國(guó)際SQL92、SQL2003標(biāo)準(zhǔn),能夠?qū)崿F(xiàn)數(shù)據(jù)字典、動(dòng)態(tài)SQL執(zhí)行、視圖、子查詢(xún)、JOIN查詢(xún)功能。支持全文檢索。支持中文字符集,實(shí)現(xiàn)中文分詞功能,支持結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢(xún),支持預(yù)定義維度數(shù)據(jù)查詢(xún),支持簡(jiǎn)單查詢(xún)、組合查詢(xún)、模糊查詢(xún)等。數(shù)據(jù)管控?cái)?shù)據(jù)管控主要是對(duì)主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的管控。集團(tuán)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管控組件對(duì)集團(tuán)集團(tuán)現(xiàn)有的產(chǎn)品能夠完善集成,使集團(tuán)元數(shù)據(jù)能夠整體管理。圖3-2大數(shù)據(jù)平臺(tái)數(shù)據(jù)管控?cái)?shù)據(jù)分析與挖掘本方案對(duì)R語(yǔ)言提供支持。支持ANSISQL、Python、R、Java、C/C++等語(yǔ)言的使用。應(yīng)提供圖形化界面操作支持,操作界面要求簡(jiǎn)體中文。支持對(duì)TB以上級(jí)別的數(shù)據(jù)進(jìn)行分析挖掘的功能,應(yīng)對(duì)分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲(chǔ)提供支持,應(yīng)對(duì)多數(shù)據(jù)來(lái)源輸入輸出提供支持。支持處理過(guò)程的數(shù)據(jù)預(yù)覽功能。支持?jǐn)?shù)據(jù)分析挖掘算法管理,每個(gè)算法能夠靈活選擇數(shù)據(jù)源。支持對(duì)分析挖掘的腳本和模型的共享,可實(shí)現(xiàn)用戶(hù)分析挖掘腳本和模型的發(fā)布與管理。支持?jǐn)?shù)據(jù)的探索和發(fā)現(xiàn),實(shí)現(xiàn)通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律。對(duì)統(tǒng)計(jì)分析方法、數(shù)據(jù)挖掘、模型預(yù)測(cè)提供支持,并實(shí)現(xiàn)其分布式并行計(jì)算。對(duì)常用場(chǎng)景實(shí)現(xiàn)提供支持。場(chǎng)景包括客戶(hù)畫(huà)像、產(chǎn)品推薦、自然語(yǔ)言處理、語(yǔ)義分析、輿情分析、文本挖掘、客戶(hù)行為預(yù)測(cè)等。對(duì)分析挖掘的腳本和模型的快速應(yīng)用、服務(wù)提供支持,能夠快速生成分析報(bào)告和圖表、發(fā)布實(shí)時(shí)/非實(shí)時(shí)的分析應(yīng)用、使用Web方式訪問(wèn)分析應(yīng)用成果。實(shí)現(xiàn)對(duì)分析指標(biāo)管理、分析過(guò)程的管理以及對(duì)挖掘模型固化的支持。數(shù)據(jù)展現(xiàn)支持多數(shù)據(jù)來(lái)源輸入輸出;支持表格、圖形、地圖等可視化元素展示,對(duì)電子地圖、GPS定位的應(yīng)用、服務(wù)提供支持。支持?jǐn)?shù)據(jù)互動(dòng)、過(guò)濾、鉆取、刷取、關(guān)聯(lián)、變換等功能。支持多維度多種類(lèi)的自定義。支持?jǐn)?shù)據(jù)脫敏的展示。支持多種展示端的展示,包括PC端、移動(dòng)端、大屏等。其中移動(dòng)端應(yīng)基于集團(tuán)移動(dòng)應(yīng)用平臺(tái)架構(gòu)建設(shè)。量收系統(tǒng)功能遷移量收系統(tǒng)主要功能有基本業(yè)務(wù)分析、渠道分析、產(chǎn)品分析、大客戶(hù)分析、欠費(fèi)分析、流量流向分析、進(jìn)銷(xiāo)存分析、預(yù)警稽核、系統(tǒng)優(yōu)化功能等,需要對(duì)原量收系統(tǒng)全部功能進(jìn)行遷移。系統(tǒng)架構(gòu)設(shè)計(jì)總體設(shè)計(jì)目標(biāo)建立集團(tuán)的企業(yè)級(jí)數(shù)據(jù)中心,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的歸集、整理、加工和分析,并利用大數(shù)據(jù)相關(guān)技術(shù)及數(shù)據(jù)分析挖掘工具,建立數(shù)據(jù)應(yīng)用模型,為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營(yíng)銷(xiāo)、流程優(yōu)化、服務(wù)支撐以及風(fēng)險(xiǎn)管控等服務(wù),有效地挖掘數(shù)據(jù)的價(jià)值,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的“共享、共用、共贏”。總體設(shè)計(jì)原則標(biāo)準(zhǔn)化:本系統(tǒng)采用的技術(shù)架構(gòu)均遵循網(wǎng)絡(luò)協(xié)議和傳輸標(biāo)準(zhǔn)的要求,相關(guān)開(kāi)源及原創(chuàng)技術(shù)均符合國(guó)際技術(shù)組織條款規(guī)范。提供文檔標(biāo)準(zhǔn)化,滿足GB8567-1988、GB/T11457-89的行業(yè)標(biāo)準(zhǔn);可擴(kuò)展性:由于用戶(hù)以后的需求會(huì)不斷發(fā)展,使用人數(shù)將隨之?dāng)U大,業(yè)務(wù)壓力不斷上升,只要橫向擴(kuò)展增加服務(wù)器臺(tái)數(shù),不用添加其它附加設(shè)備,以保證用戶(hù)的原投資被利用??捎眯院涂煽啃裕何覀兊姆桨冈诔浞挚紤]用戶(hù)實(shí)際情況的基礎(chǔ)上,選用F5作為負(fù)載均衡器,采用了Weblogic作為Web應(yīng)用容器,操作系統(tǒng)采用紅旗版Linux,從而減少了其它因素造成的故障。易用性:該系統(tǒng)使用界面良好,用戶(hù)無(wú)需安裝客戶(hù)端軟件,只需通過(guò)IE瀏覽器就可進(jìn)行實(shí)時(shí)操作,同時(shí)系統(tǒng)架構(gòu)設(shè)計(jì)優(yōu)良,可以很方便進(jìn)行系統(tǒng)升級(jí)。開(kāi)發(fā)式結(jié)構(gòu):該系統(tǒng)內(nèi)置“數(shù)據(jù)交換適配平臺(tái)”可以與第三方系統(tǒng)相融合,可以讀取第三方系統(tǒng)的相關(guān)數(shù)據(jù),可以為第三方系統(tǒng)提供其需要的相關(guān)數(shù)據(jù),提供標(biāo)準(zhǔn)的WebService接口,具有開(kāi)放式結(jié)構(gòu)。完善和可靠性:具有設(shè)計(jì)獨(dú)到的功能使用及數(shù)據(jù)訪問(wèn)權(quán)限控制,保證統(tǒng)一、規(guī)范管理,支持3DES和RSA加密技術(shù),使數(shù)據(jù)存儲(chǔ)和傳輸安全牢不可破。系統(tǒng)具有錯(cuò)誤故障日志記錄功能,便于快速診斷定位問(wèn)題。實(shí)時(shí)性:該系統(tǒng)支持負(fù)載均衡技術(shù),及時(shí)響應(yīng)多人實(shí)時(shí)并發(fā)操作。先進(jìn)性:基于統(tǒng)一的整體架構(gòu),采用先進(jìn)的、成熟的、可靠的技術(shù)與軟硬件平臺(tái),保證數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)易擴(kuò)展、易升級(jí)、易操作、易維護(hù)等特性。高效性:線性擴(kuò)展的TDH的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),保證了ETL時(shí)間的窗口以及查詢(xún)效率,數(shù)據(jù)抽取的特殊性,通常在夜間業(yè)務(wù)稀少的情況下進(jìn)行數(shù)據(jù)抽取,減少了對(duì)其他系統(tǒng)的影響。正確性:數(shù)據(jù)質(zhì)量貫穿數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)建設(shè)的每個(gè)環(huán)節(jié),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通過(guò)合理的數(shù)據(jù)質(zhì)量管理方法論保證數(shù)據(jù)質(zhì)量。案例分析建議中國(guó)聯(lián)通大數(shù)據(jù)平臺(tái)聯(lián)通集團(tuán)公司按照工信部的的要求(見(jiàn)《工業(yè)和信息化部、國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)關(guān)于開(kāi)展基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全責(zé)任考核有關(guān)工作的指導(dǎo)意見(jiàn)》和《工業(yè)和信息化部辦公廳關(guān)于印發(fā)<2013年省級(jí)基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全工作考核要點(diǎn)與評(píng)分標(biāo)準(zhǔn)>的通知》),于2013年啟動(dòng)IDC/ISP日志留存系統(tǒng)的建設(shè),其中集團(tuán)側(cè)的集中留存系統(tǒng)軟件由聯(lián)通研究院負(fù)責(zé)開(kāi)發(fā)。為了滿足海量數(shù)據(jù)條件下的處理效率的要求,集團(tuán)側(cè)集中留存系統(tǒng)軟件除研究院自主開(kāi)發(fā)外,基于Hadoop的數(shù)據(jù)存儲(chǔ)部分計(jì)劃進(jìn)行外包,通過(guò)軟件技術(shù)服務(wù),來(lái)進(jìn)行系統(tǒng)優(yōu)化和維護(hù)支撐。項(xiàng)目概述目前,聯(lián)通集團(tuán)公司全國(guó)IDC出口的訪問(wèn)日志預(yù)計(jì)兩個(gè)月產(chǎn)生的數(shù)據(jù)量約20PB至30PB,每秒寫(xiě)入大概6千萬(wàn)至7千萬(wàn)條數(shù)據(jù),在如此巨大的數(shù)據(jù)量下,原有Teradata和Oracle已經(jīng)不能滿足快速讀寫(xiě)的性能要求了。同時(shí)為了實(shí)現(xiàn)快速檢索以及分析處理的性能要求,需要引入分布式大數(shù)據(jù)平臺(tái),利用分布式文件存儲(chǔ)系統(tǒng),提高數(shù)據(jù)的存儲(chǔ)入庫(kù)能力,利用Hadoop/HBase架構(gòu)克服磁盤(pán)I/O瓶頸導(dǎo)致的數(shù)據(jù)讀寫(xiě)延遲;基于聯(lián)通IDC出口流量詳單數(shù)據(jù)進(jìn)行快速存儲(chǔ)和檢索以及分析處理,同樣要求數(shù)據(jù)處理平臺(tái)具備快速讀寫(xiě)的高性能。中國(guó)聯(lián)通公司全國(guó)IDC日至留存項(xiàng)目對(duì)分布式集群的要求非常高:日志數(shù)據(jù)量非常大,存儲(chǔ)的總?cè)罩緮?shù)據(jù)量將達(dá)到20PB-30PB。要求集群的數(shù)據(jù)吞吐量非常高,每秒的日志寫(xiě)入量將達(dá)到6千萬(wàn)至七千萬(wàn)條,未來(lái)還會(huì)增長(zhǎng)更多,每秒的數(shù)據(jù)寫(xiě)入量為上百GB數(shù)據(jù)訪問(wèn)的性能要求非常高,對(duì)日志的分析需要分鐘級(jí)、甚至秒級(jí)返回結(jié)果。數(shù)據(jù)計(jì)算量大,日常日志掃描任務(wù)就需要掃描上百TB,甚至上PB的數(shù)據(jù)。集群的擴(kuò)展性要求非常高,能夠靈活擴(kuò)展至上千個(gè)節(jié)點(diǎn)的集群。根據(jù)此次中國(guó)聯(lián)通的需求,以及項(xiàng)目的特點(diǎn)和技術(shù)要求,推薦采用商用的、成熟的、基于星環(huán)TranswarpDataHub的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論