新媒體云平臺(tái)建設(shè)-大數(shù)據(jù)分析中心方案_第1頁
新媒體云平臺(tái)建設(shè)-大數(shù)據(jù)分析中心方案_第2頁
新媒體云平臺(tái)建設(shè)-大數(shù)據(jù)分析中心方案_第3頁
新媒體云平臺(tái)建設(shè)-大數(shù)據(jù)分析中心方案_第4頁
新媒體云平臺(tái)建設(shè)-大數(shù)據(jù)分析中心方案_第5頁
已閱讀5頁,還剩327頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

21技術(shù)方案建議書 51.1項(xiàng)目背景與需求理解 6 6 6省委省政府的戰(zhàn)略決策 6廣電總局的技術(shù)發(fā)展方向 6XX客戶對(duì)新媒體的發(fā)展規(guī)劃 7 8戰(zhàn)略目標(biāo) 8項(xiàng)目目標(biāo) 9 9承辦單位概況 現(xiàn)狀描述 合理化建議 標(biāo)準(zhǔn)化與模塊化 21 21可靠性與穩(wěn)定性 21先進(jìn)性與兼容性 2安全性 221.2平臺(tái)設(shè)計(jì)方案 231.2.1總體技術(shù)架構(gòu) 24建設(shè)思路 24總體體系架構(gòu) 24 25系統(tǒng)技術(shù)架構(gòu) 28系統(tǒng)數(shù)據(jù)流轉(zhuǎn)和周邊關(guān)系 29 1.2.2大數(shù)據(jù)分析平臺(tái)和用戶數(shù)據(jù)中心 1.3項(xiàng)目進(jìn)度計(jì)劃 1.3.1團(tuán)隊(duì)組織保障與管理 項(xiàng)目組織概述 200團(tuán)隊(duì)溝通管理 1.3.2質(zhì)量管控方案 質(zhì)量控制體系 質(zhì)量控制計(jì)劃 質(zhì)量控制措施 2121.3.3項(xiàng)目實(shí)施計(jì)劃 2171.4技術(shù)支持和售后服務(wù) 2211.4.1技術(shù)服務(wù)能力及承諾 技術(shù)咨詢和運(yùn)維支持服務(wù) 22 系統(tǒng)升級(jí)服務(wù) 新增功能開發(fā)服務(wù) 故障救援服務(wù) 24 224建立維護(hù)檔案服務(wù) 0資料定期傳送及專題討論服務(wù) 25 售后服務(wù)具體措施 應(yīng)急措施 271技術(shù)方案建議書1.1項(xiàng)目背景與需求理解◆資源共享◆全面開放能部門7個(gè),龜山廣播電視發(fā)射臺(tái)等所屬單位7個(gè)。臺(tái)(集團(tuán))內(nèi)容部門19個(gè),擁有46家企事業(yè)單位(包括35家企業(yè)單位,7家轉(zhuǎn)企改制單位,4家事業(yè)單位)整合為16家。員工總數(shù)1.2萬人,總資產(chǎn)102.52億元。現(xiàn)狀描述xxx年2月29日,我省委書記李鴻忠主持召開省委常委會(huì)會(huì)議,傳達(dá)學(xué)習(xí)2月19對(duì)外web服務(wù)器集群2基礎(chǔ)數(shù)2基礎(chǔ)數(shù)據(jù)存儲(chǔ)域防病毒服務(wù)82臺(tái)檢家服務(wù)82臺(tái)發(fā)布服務(wù)82臺(tái)引1草86臺(tái)編目工作站12日虛C化引1服務(wù)82甘臺(tái)目前現(xiàn)場(chǎng)有2個(gè)刀箱,每個(gè)刀箱內(nèi)有7個(gè)刀片,共14臺(tái)刀片服務(wù)器。每個(gè)刀片內(nèi)存為128G。若每臺(tái)服務(wù)器使用8G,每個(gè)刀片能虛擬16臺(tái)服務(wù)器。每個(gè)刀箱能虛擬112臺(tái),兩個(gè)刀箱總共虛擬出224臺(tái)。目存儲(chǔ)總?cè)萘繛?89TB,已使用12TB,計(jì)劃擴(kuò)容的服務(wù)器為26臺(tái)(包括8片刀服務(wù)器)。和實(shí)施方案。投標(biāo)人須在2016年8月31日前,妥善完成原有平臺(tái)數(shù)據(jù)遷移、全部合理化建議互聯(lián)網(wǎng)域數(shù)據(jù)中心數(shù)據(jù)層數(shù)據(jù)中心交換層高可用對(duì)比表虛擬機(jī)在線遷移(無停機(jī))有有有FC-SAN的外部自動(dòng)負(fù)載均衡有有有需要第三方工具宕機(jī)后的自動(dòng)轉(zhuǎn)移(有短暫停機(jī))有有利用MSCSFC-SAN的外部宕機(jī)后的自動(dòng)轉(zhuǎn)移(無停機(jī))有有有無停機(jī))有有有無兼容性對(duì)比表機(jī)支持64位的服務(wù)器是是是是支持有虛擬化指令的處理器(Intel-VT,AMD-V)是是是是支持所有Windows是是部分支持。不支持及更早的0S不支持2000/NT及更早的0S是是是支持其他OS,如SCO、是是否否1)在線擴(kuò)容在集群中的兩臺(tái)服務(wù)器上部署Namenode實(shí)例(一主一備),而集群中的其它機(jī)器和NameNode使用相同的配置(可以直接從NameNode復(fù)制),修改2)負(fù)載均衡3)在線升級(jí)>應(yīng)用系統(tǒng)采用了什么開發(fā)模式,C/S還是B/S模式。建設(shè)思路構(gòu)建一個(gè)平臺(tái)和三級(jí)支撐,實(shí)現(xiàn)統(tǒng)一部署、統(tǒng)一維護(hù)、客戶端長江云政務(wù)新媒體融合平臺(tái)內(nèi)容、服務(wù)提供方省級(jí)提供方縣級(jí)提供方省級(jí)提供方縣級(jí)提供方省級(jí)業(yè)務(wù)運(yùn)營平臺(tái)地市級(jí)業(yè)務(wù)運(yùn)營平臺(tái)縣級(jí)業(yè)務(wù)運(yùn)營平臺(tái)入融合管理平臺(tái)微一刪融合管理平臺(tái)微一縣級(jí)內(nèi)容、服務(wù)融總體體系架構(gòu)兩微一端兩微一端部期過AP一開發(fā)附試平臺(tái)丹基礎(chǔ)設(shè)施層(IaaS)統(tǒng)一運(yùn)維監(jiān)控平臺(tái)大數(shù)據(jù)分析平臺(tái)務(wù)能內(nèi)容生大致調(diào)分折平臺(tái)基礎(chǔ)設(shè)施層是支撐整個(gè)平臺(tái)的硬件設(shè)備和網(wǎng)絡(luò)平臺(tái),建立統(tǒng)、安全系統(tǒng)、存儲(chǔ)系統(tǒng)和系統(tǒng)基礎(chǔ)軟件等系統(tǒng),并通過虛擬化等技術(shù)手段合理組織、分配和管理基礎(chǔ)資源,為平臺(tái)支撐層和應(yīng)用運(yùn)營層軟件平臺(tái)支撐層(PaaS)園運(yùn)開發(fā)測(cè)試平臺(tái)來來建納容統(tǒng)一運(yùn)維監(jiān)控平臺(tái)(安全、監(jiān)控、維護(hù))互存視生產(chǎn)務(wù)2)建設(shè)統(tǒng)一的媒體內(nèi)容發(fā)布平臺(tái)3)建設(shè)統(tǒng)一的政務(wù)民生服務(wù)接入平臺(tái)5)建設(shè)統(tǒng)一的運(yùn)營支撐平臺(tái)實(shí)現(xiàn)跨終端的用戶個(gè)性化內(nèi)容推薦,提升用7)建設(shè)云服務(wù)總線接口能力,提供標(biāo)準(zhǔn)接入及管理規(guī)范,支撐對(duì)內(nèi)8)建設(shè)統(tǒng)一運(yùn)維監(jiān)控平臺(tái)9)建設(shè)移動(dòng)客戶端匯聚全省兩微一端產(chǎn)品和第三方數(shù)據(jù)資源,針對(duì)地市縣的動(dòng)客戶端,有效支持個(gè)性化需求,并部署開通。APP手機(jī)客戶端據(jù)運(yùn)營推廣的要求,完成APP手機(jī)客戶端的各項(xiàng)功能的定制開發(fā)。未來建設(shè)內(nèi)容(藍(lán)色部分)3)建設(shè)能力開放API標(biāo)準(zhǔn),具備對(duì)外服務(wù)銜接能力;建設(shè)統(tǒng)一的開發(fā)測(cè)試平臺(tái),有效管控內(nèi)部信息資源的應(yīng)用開發(fā)流程,形成標(biāo)準(zhǔn)化作業(yè)和上下線各類應(yīng)用。系統(tǒng)技術(shù)架構(gòu)C服務(wù)籍堤營商、商業(yè)服務(wù)層應(yīng)用層流媒體平臺(tái)視級(jí)值曾須信源圖文橫源資源庫內(nèi)容生產(chǎn)資源采集層戶能力、數(shù)據(jù)匯總能力;批處理場(chǎng)景采取Hadoop的Map/R成;流式數(shù)據(jù)處理采用Sparkstreaming和Sparksql實(shí)現(xiàn),高效查詢服務(wù)基于Hbase及redis緩存技術(shù)實(shí)現(xiàn)。整體架構(gòu)可分為資源采集層、中央廚房層、應(yīng)用層、服務(wù)層。數(shù)據(jù)文件等提供高效的數(shù)據(jù)、文件采集技術(shù)。通過Flume計(jì)算框架,實(shí)現(xiàn)日志文件(如web日志、APP日志等)采集與解析;通過FTP方式實(shí)現(xiàn)對(duì)數(shù)據(jù)文件的采集;采用Kafka數(shù)據(jù)存儲(chǔ)與計(jì)算方面,基于分布式文件系統(tǒng)實(shí)現(xiàn)海量采用分布式文件系統(tǒng)提供統(tǒng)一的大數(shù)據(jù)數(shù)據(jù)存儲(chǔ),滿足全Yarn提供跨平臺(tái)的資源管理,滿足資源的統(tǒng)一調(diào)度與管理;采用Hadoop和Spark實(shí)現(xiàn)統(tǒng)一認(rèn)證和監(jiān)權(quán)統(tǒng)一認(rèn)證和監(jiān)權(quán)新觀體應(yīng)用應(yīng)用咳入開發(fā)測(cè)試、服務(wù)管理、安全管理合們開渡生活務(wù)架圖文.營視揭件數(shù)據(jù)處理數(shù)演理本臺(tái)節(jié)直外地方編輯作日單、直增數(shù)據(jù)資源云服務(wù)總線:內(nèi)部共享開放經(jīng)視守臺(tái)業(yè)機(jī)構(gòu)教基中央廚房互聯(lián)號(hào)數(shù)據(jù)民生數(shù)據(jù)歡務(wù)數(shù)據(jù)作開發(fā)效務(wù)類服務(wù)應(yīng)用國情監(jiān)則生產(chǎn)>內(nèi)容生產(chǎn)平臺(tái)收錄本臺(tái)節(jié)目直播信號(hào)和地方臺(tái)流信號(hào)。3)新媒體云平臺(tái)內(nèi)部數(shù)據(jù)流轉(zhuǎn)的關(guān)系1.2.2大數(shù)據(jù)分析平臺(tái)和用戶數(shù)據(jù)中心數(shù)據(jù)加載處理數(shù)據(jù)處理系統(tǒng)針對(duì)新媒體云平臺(tái)用戶行為數(shù)據(jù)采用定時(shí)(一小時(shí)一次或者2小時(shí)一次)采集的方式,首先通過前端采集,采集新媒體云平臺(tái)用戶行為數(shù)據(jù),采集過來后通過Socket/Ftp把數(shù)據(jù)傳送給數(shù)據(jù)處理系統(tǒng),數(shù)據(jù)處理系統(tǒng)根據(jù)應(yīng)用要求對(duì)數(shù)據(jù)進(jìn)行處理(過濾、去重、清洗等)直接傳送給相關(guān)應(yīng)用與數(shù)據(jù)庫。BDPEBDPE(預(yù)處理)采前端采集字段分拆記錄合并更多根據(jù)應(yīng)用要求對(duì)數(shù)據(jù)進(jìn)行處理(過濾、去重、清洗等)直接傳送給相關(guān)應(yīng)用與數(shù)據(jù)庫。庫Kfska在進(jìn)行集群擴(kuò)展時(shí)(如增加節(jié)點(diǎn)),不應(yīng)對(duì)現(xiàn)有節(jié)點(diǎn)造成影響。數(shù)據(jù)解密.1.3公司數(shù)據(jù)抽取與轉(zhuǎn)換工具產(chǎn)品從技術(shù)層面來看系統(tǒng)將遵循S0A架構(gòu)思想進(jìn)行構(gòu)建,按照軟件架構(gòu)設(shè)計(jì)分層理服務(wù)層作為產(chǎn)品的核心中樞主要承擔(dān)ETL作業(yè)組織、任務(wù)調(diào)度、作業(yè)狀態(tài)跟進(jìn)、作業(yè)監(jiān)控管理、異常處理與服務(wù)質(zhì)量管理、集群資源管理等核心服執(zhí)行層作為產(chǎn)品的計(jì)算任務(wù)承擔(dān)點(diǎn),產(chǎn)品中核心的數(shù)據(jù)處而應(yīng)用層則側(cè)重于從核心業(yè)務(wù)訴求基礎(chǔ)之上進(jìn)行高度總結(jié)抽象后形成獨(dú)立的應(yīng)用控件,產(chǎn)品允許用戶可根據(jù)自身業(yè)務(wù)訴求采用參數(shù)化配置的方式起來形成一個(gè)完整的數(shù)據(jù)處理流程,在技術(shù)層面上主要運(yùn)用指教慧指教慧任t注表工atbeat展現(xiàn)層服務(wù)層應(yīng)用層等5大功能模塊。公司BDPE軟件還根據(jù)業(yè)務(wù)應(yīng)用訴求特點(diǎn)將ETL數(shù)據(jù)處理流程中主要組件在系統(tǒng)中的動(dòng)態(tài)注冊(cè)管理,依賴注冊(cè)手段實(shí)現(xiàn)組件與ETL服務(wù)層之間建立起聯(lián)動(dòng)關(guān)系。在實(shí)際使用過程中允許ETL開發(fā)人員運(yùn)用圖形化的界面配用執(zhí)行的狀態(tài)與數(shù)據(jù)流轉(zhuǎn)情況。另外在ETL應(yīng)用實(shí)現(xiàn)過程中還會(huì)開放相應(yīng)API訪問調(diào)用支持基于工作日歷的任務(wù)調(diào)度,如如:定義國慶節(jié)假能夠兼容IBMDataStage、Informatica、kettle等第三方工具,可產(chǎn)品采用Master-Slave模式、組件化開發(fā),能很好的實(shí)現(xiàn)容量、計(jì)算能力及應(yīng)用環(huán)節(jié)信息以日志文件的形式記錄相關(guān)操作過程,為后續(xù)數(shù)據(jù)稽..1功能說明1.默認(rèn)情況下提供基礎(chǔ)通用的抽取功能,支持從不同2.選擇抽取方式進(jìn)行配置,假設(shè)為批量抽取則需要指明相應(yīng)數(shù)據(jù)抽取數(shù)據(jù)源描述信息,如果設(shè)置為單次抽取則需要提供抽取數(shù)據(jù)特征前將獲取到相應(yīng)的配置規(guī)則再結(jié)合不同數(shù)據(jù)源特征開啟相應(yīng)的數(shù)據(jù)抽取作業(yè)。1支持手工和自動(dòng)兩2與策略定義3支持對(duì)數(shù)據(jù)壓縮包能夠?qū)?shù)據(jù)壓縮包文件進(jìn)行抽取,支持對(duì)數(shù)據(jù)壓縮包的4具備靈活的數(shù)據(jù)源定義管理能力支持對(duì)數(shù)據(jù)源的統(tǒng)一管理,對(duì)可支持的各種不同類型的數(shù)據(jù)源,允許以統(tǒng)一方式進(jìn)行配置并獲取訪問5行數(shù)據(jù)抽取口,現(xiàn)階段主要支持的數(shù)據(jù)源包括:各種主流的關(guān)系型數(shù)據(jù)庫如Teradata、分布式數(shù)據(jù)庫、文本文件、任意格式XML文件、HDFS文件、網(wǎng)頁文件等6支持使用包括專用數(shù)據(jù)庫驅(qū)動(dòng)接口、JDBC、ODBC接口等數(shù)據(jù)庫連接方式7支持基于日志的增量數(shù)據(jù)捕獲能力具備對(duì)日志進(jìn)行增量數(shù)據(jù)捕獲抽取能力,能夠在變化數(shù)據(jù)捕捉和數(shù)據(jù)清洗過程進(jìn)行無縫連接且提供圖形化界面設(shè)計(jì)和監(jiān)控變化數(shù)據(jù)的過程8提供豐富的數(shù)據(jù)抽取作業(yè)執(zhí)行狀態(tài)監(jiān)控管理能力提供豐富的圖形化界面設(shè)計(jì)和監(jiān)控?cái)?shù)據(jù)抽取過程執(zhí)行狀態(tài)9具備數(shù)據(jù)抽取容錯(cuò)處理機(jī)制提供對(duì)錯(cuò)誤數(shù)據(jù)的進(jìn)行檢測(cè)和處理能力,如進(jìn)行記錄的過濾,能將發(fā)生錯(cuò)誤的數(shù)據(jù)記錄到響應(yīng)的錯(cuò)誤表中。例如對(duì)文件的輸入,可以過濾不符合規(guī)范的數(shù)據(jù)并且捕獲這些數(shù)據(jù)數(shù)據(jù)抽取過程日志支持在數(shù)據(jù)抽取過程中對(duì)數(shù)據(jù)記錄條數(shù)、開始時(shí)間、完成時(shí)間,錯(cuò)誤信息等信息進(jìn)行記錄保存支持文件批量采集,能夠按照指定周期進(jìn)行采集,如分鐘、小時(shí)、日等實(shí)時(shí)采集支持實(shí)時(shí)采集,包括對(duì)文件中增量數(shù)據(jù)抽取、消息數(shù)據(jù)的實(shí)時(shí)采集等。壓縮文件不解壓讀取支持對(duì)于包括.rar,.zip,.gz等壓縮文件數(shù)據(jù)的不解壓(五)流式(實(shí)時(shí))數(shù)據(jù)抽取(三)采集控件ETLETL平臺(tái)U2.抽取規(guī)則設(shè)置采集指令采集指令執(zhí)行結(jié)果執(zhí)行結(jié)果2.Agent管理端接收到Sever端采集指令后,會(huì)對(duì)指令進(jìn)行分拆并進(jìn)行相應(yīng)的資源消耗評(píng)估,并將指令轉(zhuǎn)換為可執(zhí)行程序命令,并將輸3.執(zhí)行程序不斷掃描存儲(chǔ)可執(zhí)行程序命令隊(duì)列,并逐一調(diào)起相應(yīng)的數(shù)據(jù)抽取作業(yè)任務(wù)進(jìn)行數(shù)據(jù)抽取作業(yè),并將抽取到的數(shù)據(jù)通過管道提交給Agent管理進(jìn)行匯公司BDPE產(chǎn)品在實(shí)現(xiàn)過程中通過批量數(shù)據(jù)抽取與流式(實(shí)時(shí))數(shù)據(jù)抽取二種模式述文件FS實(shí)時(shí)據(jù)不填件統(tǒng)一作業(yè)調(diào)度管理中心(自動(dòng)/手動(dòng)作業(yè))-采集(“落地”)方式將無法較好地滿足應(yīng)用訴求,因此建議采用流式(實(shí)時(shí))數(shù)據(jù)抽取來提升采集能力。流式(實(shí)時(shí))數(shù)據(jù)抽取過程的技術(shù)實(shí)現(xiàn)思路如下圖所示:Franelork(基鏈技米組件,解決,流控,并發(fā),上下文數(shù)據(jù)處理通神分在流式(實(shí)時(shí))數(shù)據(jù)抽取過程的主要工作步驟如下:完成數(shù)據(jù)處理等業(yè)務(wù)問題(分為Reader、Writer、Process三大類插件);(輸出)數(shù)據(jù)源.夠及時(shí)適應(yīng)接口的變更和異常處理;而數(shù)據(jù)校驗(yàn)依附在數(shù)據(jù)抽取取過程可能產(chǎn)生的異常錯(cuò)誤信息,總體來看數(shù)據(jù)校驗(yàn)是ETL過程保障數(shù)據(jù)質(zhì)量的重要手1數(shù)據(jù)校驗(yàn)記錄文件獲取與信息解析支持對(duì)數(shù)據(jù)抽取過程中記錄的日志文件進(jìn)行獲取,并輸入數(shù)據(jù);2提供豐富的數(shù)據(jù)異常值校驗(yàn)、按照用戶定義的邏輯規(guī)則校驗(yàn)等3提供靈活的數(shù)據(jù)支持對(duì)數(shù)據(jù)校驗(yàn)規(guī)則進(jìn)行靈活定義,可以自定義數(shù)據(jù)校驗(yàn)規(guī)則結(jié)構(gòu);提供圖形化數(shù)據(jù)校驗(yàn)規(guī)則設(shè)置功能,允許對(duì)校驗(yàn)規(guī)則進(jìn)行維護(hù)、優(yōu)化等處理4依托數(shù)據(jù)校驗(yàn)提供全面的數(shù)據(jù)質(zhì)能夠根據(jù)設(shè)置的數(shù)據(jù)校驗(yàn)與監(jiān)控規(guī)則或算法,對(duì)接口級(jí)、字段級(jí)執(zhí)行相應(yīng)校驗(yàn)檢查,并依據(jù)稽核和檢查過程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量異常情況進(jìn)行告警過程。記錄級(jí)校驗(yàn):主要包括提供字段類型、字段長度、數(shù)字精度、取值范圍、1數(shù)據(jù)清洗規(guī)則2數(shù)據(jù)處理過程支持對(duì)數(shù)據(jù)處理過程的日志記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換的時(shí)間等內(nèi)3內(nèi)置豐富的數(shù)據(jù)處理組件的轉(zhuǎn)換、字符編碼轉(zhuǎn)換;支持實(shí)時(shí)流數(shù)據(jù)的合并與計(jì)算;支持批量小文件合并;支持任意合理的數(shù)據(jù)類型轉(zhuǎn)換;支持?jǐn)?shù)據(jù)內(nèi)容轉(zhuǎn)換,如通過關(guān)聯(lián)關(guān)系,將A數(shù)據(jù)源中的數(shù)據(jù)清洗為數(shù)據(jù)源B中的數(shù)據(jù);支持多字段的混合運(yùn)算,運(yùn)算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg等;支持各種字符操作,包括但不限于:字符替字符連接;支持記錄和字段的抽取,支持對(duì)抽取的數(shù)據(jù)進(jìn)行聚合。保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi);支持空值處理:捕獲空值,根據(jù)規(guī)則替換為對(duì)應(yīng)數(shù)據(jù);支持?jǐn)?shù)據(jù)格式化:統(tǒng)一數(shù)據(jù)源中同類數(shù)據(jù)的格式,具體包括時(shí)間、數(shù)值、字符、計(jì)量單位等數(shù)據(jù);支持?jǐn)?shù)據(jù)替換:根據(jù)規(guī)則用標(biāo)準(zhǔn)數(shù)據(jù)替換原來的數(shù)據(jù),支持各種碼表映射,例如用標(biāo)準(zhǔn)編碼替換業(yè)務(wù)系統(tǒng)自定的編支持復(fù)雜條件過濾,過濾條件可靈活配置;支持?jǐn)?shù)據(jù)去重處理,產(chǎn)品可按照用戶定義的規(guī)則自動(dòng)判斷重復(fù)數(shù)據(jù),并按照用戶定義的規(guī)則處理重復(fù)的數(shù)據(jù)。;支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄;支持行、列變換;支持Flume等開源技術(shù)實(shí)現(xiàn)數(shù)據(jù)清洗;支持一個(gè)數(shù)據(jù)表中多個(gè)列的合并;支持?jǐn)?shù)據(jù)脫敏,支持定制化的加密算法;支持跨異構(gòu)數(shù)據(jù)庫的關(guān)聯(lián);支持將多個(gè)異構(gòu)數(shù)據(jù)表合并為一個(gè)表;支持將一個(gè)數(shù)據(jù)表拆分為多個(gè)數(shù)據(jù)表;支持多種規(guī)則排序;支持多種統(tǒng)計(jì)方式;具備度量衡等常用的轉(zhuǎn)換函數(shù);在轉(zhuǎn)換過程中支持?jǐn)?shù)據(jù)比較的功能;支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化;支持按行、按列的分組聚合;具備良好的參數(shù)處理機(jī)制等;ETL處理過程支持各種字符集的轉(zhuǎn)換;支持敏感數(shù)據(jù)使用定制化加密算法;支持海量數(shù)據(jù)處理引擎,如Hive、MPP、Spark等4數(shù)據(jù)清洗異常處理支持定義外部數(shù)據(jù)記錄的錯(cuò)誤限制,如超過一定條數(shù)記錄就拋出異常,中斷處理流程;支持校驗(yàn)點(diǎn),當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí),如果因?yàn)槟撤N原因發(fā)生故障中斷后,可以從最近的校驗(yàn)點(diǎn)開始恢復(fù)處理接口表元數(shù)據(jù):《..4打破以往ETL過度依賴庫內(nèi)計(jì)算能力的來實(shí)現(xiàn)數(shù)據(jù)清洗操作的狀況,依托并行計(jì)算硬編碼圖1.2-1公司BDPE產(chǎn)品基于硬編碼實(shí)現(xiàn)數(shù)據(jù)清洗實(shí)現(xiàn)思路示意圖碼表映射;>統(tǒng)一字符集轉(zhuǎn)換2.基于庫外計(jì)算進(jìn)行數(shù)據(jù)清洗圍繞庫外計(jì)算+并行處理來實(shí)現(xiàn)對(duì)大數(shù)據(jù)量、轉(zhuǎn)換規(guī)模復(fù)雜類型轉(zhuǎn)換處理應(yīng)用場(chǎng)景字段分拆格式轉(zhuǎn)換字符轉(zhuǎn)換實(shí)時(shí)計(jì)算中心(流式計(jì)算引擎)接口機(jī)復(fù)雜類型轉(zhuǎn)換處理庫外計(jì)算+并行處理轉(zhuǎn)換M/R0新建;遇用命等新建;遇用命等添加自部銷據(jù)交支持主流關(guān)系型數(shù)據(jù)庫DB2、Oracle、Teradata等、支持主流的MPP數(shù)據(jù)庫Greenplum、Aster、Gbase、Vertica等、支持Hadoop生態(tài)的HDFS、HBase等2支持?jǐn)?shù)據(jù)批量加載支持?jǐn)?shù)據(jù)批量進(jìn)行加載3支持多種加載模式與策略定義具備全量、實(shí)時(shí)、雙加載;允許靈活定義加載策略;4支持文件落地和不落地兩種存儲(chǔ)落地加載是將數(shù)據(jù)源保存在ETL物理服務(wù)器中,進(jìn)行中,不在物理機(jī)上保存而實(shí)現(xiàn)的加載。5支持自動(dòng)和手工時(shí),應(yīng)提供操作界面以人工干預(yù)的方式來重新啟動(dòng)數(shù)6支持多任務(wù)并行具備支持?jǐn)?shù)據(jù)的并行加載,即支持多個(gè)數(shù)據(jù)庫連接同一加載任務(wù)的并發(fā)執(zhí)行。7支持加載對(duì)象的具備加載對(duì)象的參數(shù)配置功能,將數(shù)據(jù)加載過程中需要設(shè)置的命令、參數(shù)、規(guī)則進(jìn)行配置,控件會(huì)自動(dòng)生成相應(yīng)的可執(zhí)行代碼,來完成作業(yè)。8過濾具備基于數(shù)據(jù)屬性值的過濾加載。9支持腳本加載事在加載實(shí)現(xiàn)過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來加載到數(shù)據(jù)。支持?jǐn)?shù)據(jù)加載對(duì)目標(biāo)表的操作支持?jǐn)?shù)據(jù)加載對(duì)目標(biāo)表的追加、更新、刪除等支持異構(gòu)目標(biāo)庫多加載支持?jǐn)?shù)據(jù)加載的錯(cuò)誤限制支持?jǐn)?shù)據(jù)加載的錯(cuò)誤限制,如發(fā)現(xiàn)最多1000條錯(cuò)誤數(shù)據(jù)記錄時(shí)停止加載支持文件推送功能支持文件推送功能,具備將文件通過FTP/SFTP推送到外部系統(tǒng),例如CRM/BOSS等提供豐富的數(shù)據(jù)態(tài)監(jiān)控管理能力提供豐富的圖形化界面設(shè)計(jì)和監(jiān)控?cái)?shù)據(jù)加載過程執(zhí)行狀態(tài)數(shù)據(jù)加載過程日志記錄支持在數(shù)據(jù)加載過程中對(duì)數(shù)據(jù)記錄條數(shù)、開始時(shí)間、(二)流式(實(shí)時(shí))數(shù)據(jù)加載PO0.庫內(nèi)稻核巧和模功能說明1斷點(diǎn)續(xù)傳2一致性保證在數(shù)據(jù)加載過程中支持對(duì)信息集成器聯(lián)合體服務(wù)器,源源OO1)文件到數(shù)據(jù)庫當(dāng)當(dāng)方案時(shí)文件程FTP2)文件到HDFS當(dāng)當(dāng)新方案方案3)文件到HBase方案二:5)數(shù)據(jù)庫到數(shù)據(jù)庫可可案新方案三新方案四當(dāng)前方案新方案6)數(shù)據(jù)庫到HDFS當(dāng)前方案新方案新方案當(dāng)前方案:通過Sqoop讀取數(shù)據(jù)寫入HDFS,并做數(shù)據(jù)清洗,借助DISTCP將HDFS拷貝到目標(biāo)HDFS。新方案一:通過高性能導(dǎo)出組件并行調(diào)用數(shù)據(jù)庫底層接口抽取數(shù)據(jù),借助HDFS高新方案二:通過Sqoop讀取數(shù)據(jù)寫入HDFS,并借助Spark做數(shù)據(jù)清洗,再寫入目需要將數(shù)據(jù)庫中的數(shù)據(jù)抽取加載到HBase中。當(dāng)前的云化ETL不支持對(duì)流處理平臺(tái)的數(shù)據(jù)加載,需要引入新技術(shù)支持此場(chǎng)景。案新方案一通過高性能抽取組件并行調(diào)用數(shù)據(jù)庫底層接口抽取數(shù)據(jù),在Spark中做數(shù)據(jù)清洗,新方案二通過Sqoop讀取數(shù)據(jù)寫入HDFS,借助HTLOAD做數(shù)據(jù)清洗并加載到HBase。1)流數(shù)據(jù)到數(shù)據(jù)庫流處理新方案新方案新方案一2)流數(shù)據(jù)寫入流流數(shù)據(jù)流數(shù)據(jù)KAFKA流數(shù)據(jù)3)流數(shù)據(jù)到HDFS需要引入新技術(shù)支持此場(chǎng)景。流處理案新方案新方案一流處理平臺(tái)直接將數(shù)據(jù)寫入HDFS。新方案二流數(shù)據(jù)處理平臺(tái)將數(shù)據(jù)推送到kafka,借助Flume將Kafka中的消息寫入4)流數(shù)據(jù)到HBase將流處理平臺(tái)的數(shù)據(jù)加載到HBase。當(dāng)前的云化ETL不支持對(duì)流處理平臺(tái)的數(shù)據(jù)加新方案流處理平臺(tái)將數(shù)據(jù)發(fā)送到kafka,用Flume來將Kafka中的數(shù)據(jù)寫入HDFS,通過5)文件到流流轉(zhuǎn),支撐實(shí)時(shí)應(yīng)用需求。當(dāng)前的云化ETL不支持對(duì)流處理平臺(tái)的數(shù)據(jù)加載,需要引入新方案:通過Flume實(shí)時(shí)監(jiān)控采集文件數(shù)據(jù),通過消息中間件Kafka將消息數(shù)據(jù)推6)流數(shù)據(jù)到文件統(tǒng)一調(diào)度通用調(diào)度YARN調(diào)度ETL調(diào)度1)流程配置基存ct0ctathtalmut/mC//m3m2C1.0Tspitisal//Drdulols-attpi//w..otahatat-tpe'atalstederalet*daralpet'd…suran"noui/Aaeaalato-1catsotdetaultbegroan0是>字典參數(shù):參數(shù)來源是字典表中的某個(gè)字段值,有sql語句表示,系統(tǒng)可以自己替換,并生成多條命令并列執(zhí)行。3)策略配置1)調(diào)度權(quán)限Job權(quán)限管理支持將多個(gè)相近job流程可以劃分為一Job組333>Jo調(diào)度1Jal組333(2)人李超群個(gè)Job1權(quán)限讀寫人李超人李超讀讀讀會(huì)工程組2)調(diào)度配置管理3)消息定制時(shí)),然后選擇通知方式(郵件或短信);當(dāng)job流程發(fā)生錯(cuò)誤時(shí),后臺(tái)程序會(huì)自動(dòng)的1)調(diào)度腳本置中和面孵物目膠新建:通用命令顯1到1共1記錄品顯示前數(shù)值參數(shù)順序參數(shù)類型是否顯示前綴參數(shù)格式參數(shù)值2)調(diào)度存儲(chǔ)過程3)調(diào)度外部程序系統(tǒng)公告展示區(qū)域JOBID[374]NAMECMD_遠(yuǎn)程執(zhí)行OBID[374]NAMECMD_遠(yuǎn)程執(zhí)行命令功能]02015-05-0510:41:27JOBID[469]NAMEFTP_采集_大批前臺(tái)請(qǐng)求停止運(yùn)行序列號(hào)(20150505102810952015-05-0510:29:27JOBID[443]NAMEORACLE_裝載_3JOBID[443]NAMEORACLE_裝載_多JOBID[374]NAMECMD_遠(yuǎn)程執(zhí)行0執(zhí)行一個(gè)程序開發(fā)管理平臺(tái)開發(fā)配置的函數(shù)系統(tǒng)封裝好的函數(shù)資源情況、心跳反饋資源反饋,心跳反饋到消息總線機(jī)制執(zhí)行一個(gè)操作系統(tǒng)的命令清晰轉(zhuǎn)換的功能文件記錄級(jí)清新轉(zhuǎn)換跨平臺(tái)(aster、spark、不同的平臺(tái)需要一些個(gè)性化的函數(shù)任務(wù)積壓,異常管理agent宕機(jī),重啟等..10任務(wù)狀態(tài)更新當(dāng)agent執(zhí)行完一個(gè)任務(wù)會(huì)給消息總線發(fā)送一個(gè)事件或外部系統(tǒng)給消息總線發(fā)送后續(xù)任務(wù)的狀態(tài)的更新算法如下:后續(xù)任務(wù)依賴的前置的任務(wù)的狀態(tài)全部為完..11任務(wù)運(yùn)行報(bào)告00t所有入員日王曉段4個(gè)入*城#入,加入入度入入,入率#入率入4x46個(gè),入城#入支持主Server和備用Server通過前臺(tái)頁面點(diǎn)擊添加節(jié)點(diǎn),選擇節(jié)點(diǎn)類型(備用Server或者Agent),選擇及從Agent。執(zhí)行命令在執(zhí)行任務(wù)過程中,如果主ServerA異常,當(dāng)備用ServerB啟動(dòng)后,Magent根返回B想要知道的任務(wù)執(zhí)行情況,從而B可以接管A的所有工作,從而實(shí)現(xiàn)代理的異常..22Agent監(jiān)聽是指Server定時(shí)發(fā)送消息給Magent,Agent如果處于正常活動(dòng)狀態(tài),Magent會(huì)立刻返回消息作為應(yīng)答,告訴Server當(dāng)前Agent運(yùn)行正常;如果Agent運(yùn)行Agent監(jiān)聽時(shí)序圖如下:程運(yùn)行進(jìn)度日志是實(shí)時(shí)的,需要用戶在設(shè)定執(zhí)行命令時(shí),增加日從Agent分為進(jìn)程執(zhí)行agent和日志獲取agent;從agent運(yùn)行時(shí)存放在線程池中,線程池最大線程數(shù)可以在第一次安裝agent時(shí)設(shè)定;進(jìn)程執(zhí)行=從agent是調(diào)用進(jìn)程執(zhí)要查詢相應(yīng)日志時(shí)才啟動(dòng)。線程池中的活躍線程會(huì)實(shí)時(shí)的被magent獲取并返回給開始開始返回日志包裝日志度點(diǎn)和12點(diǎn)執(zhí)行。1J重4J個(gè)4本件8器關(guān)田關(guān)田jobl生處時(shí)間2014年05月23日094923失處時(shí)間jpb1與條件觸發(fā)關(guān)系:2013年01月01日0949.23保關(guān)田提供臨時(shí)調(diào)度方式(用于測(cè)試、調(diào)優(yōu)、重新執(zhí)行),由用戶手工執(zhí)行。消息服務(wù)器<如果用戶選擇了Job流程類定制,還需要選擇定制級(jí)別(提示,告警,錯(cuò)誤,延時(shí)),然后選擇通知方式(郵件或短信);當(dāng)Job流程發(fā)生錯(cuò)誤時(shí),后臺(tái)程序會(huì)自動(dòng)的根據(jù)用調(diào)度API。2.對(duì)外接口ETL系統(tǒng)需要對(duì)面提供調(diào)度和ETL處理過程能力,外部系統(tǒng)可以通過API,表接口等方式和ETL系統(tǒng)完成功能銜接。ETL系統(tǒng)需要通過API接口對(duì)外提供調(diào)度與ETL處理能力,輸入?yún)?shù):函數(shù)名稱功能說明執(zhí)行調(diào)度執(zhí)行一個(gè)存在的調(diào)度新建一個(gè)調(diào)度2)表配置接口ETL系統(tǒng)可以通過表接口方式對(duì)外提供功能調(diào)度字段名字段類型Soapurl:http://IP:port/etl/servce調(diào)用輸入?yún)?shù):名稱類型job編碼周期類型開始時(shí)間下次開始時(shí)間o經(jīng)分主庫工作C區(qū)jobC1jobD1事件前觸發(fā)是指某一個(gè)任務(wù)/作業(yè)流程依賴于外部數(shù)據(jù)插進(jìn)行觸發(fā)。當(dāng)外部數(shù)據(jù)插入事件觸發(fā)表后,同時(shí)系統(tǒng)對(duì)任務(wù)/作業(yè)事件后觸發(fā)是指外部系統(tǒng)程序的啟動(dòng)依賴于任務(wù)/作業(yè)流完成,當(dāng)任務(wù)/作業(yè)流程中該執(zhí)行任務(wù)節(jié)點(diǎn)執(zhí)行完成后,..30條件依賴是指某一個(gè)任務(wù)/作業(yè)流程依賴于一個(gè)或幾通過后,依賴的任務(wù)/作業(yè)流程根據(jù)調(diào)度系統(tǒng)中的流程id和數(shù)據(jù)日期立即執(zhí)行一次調(diào)度u度朵件發(fā)調(diào)務(wù),日可以執(zhí)行;月依賴日,即日完成每月最后一天的調(diào)循環(huán)調(diào)度指在生效時(shí)間內(nèi),任務(wù)/作業(yè)運(yùn)行完畢后又重新運(yùn)行,進(jìn)行循環(huán)操作,直生效時(shí)間:2014年01月01日00:00:00失效時(shí)間:2014年01月01日00:00:002.為了滿足一個(gè)任務(wù)/作業(yè)的執(zhí)行可以依賴多種組合調(diào)度就是將幾種觸發(fā)方式按照與或兩種關(guān)與表示各個(gè)觸發(fā)條件都滿足,該任務(wù)/作業(yè)才能觸發(fā)執(zhí)行,或表示各個(gè)觸發(fā)條件只需要滿足其中一個(gè),任務(wù)/作業(yè)就可以觸發(fā)執(zhí)行,同時(shí)與和或的關(guān)系也可以同時(shí)設(shè)定,與的關(guān)系,同時(shí)和事件觸發(fā)組成或的關(guān)系,事件觸發(fā)條件滿足時(shí),該任務(wù)/作業(yè)流程可jpojpo-Weaanng加條件job-wendang-011J0Bjobwendang20制,如配置了最早運(yùn)行時(shí)間是9:00,最遲運(yùn)行時(shí)間是12:00,則如果當(dāng)前時(shí)間BBPE大數(shù)據(jù)處理與交換平臺(tái)t□dQ921核1s6210os日10os目10os日2015-的n30002015-0-1s11.3002213-.000006213-01.0000098150501.0000062015-52015-0490400002013--2015-5.0410.2013-05-02013-050910442013--0JobJob監(jiān)控詳細(xì)信息停Be節(jié)點(diǎn)重2014-08-2615:43:31正在與服務(wù)器建立連接2014-08-2615:43:32與服務(wù)器連接建立成力,請(qǐng)等待回?cái)?shù)據(jù)…)xyjob40所在位匱系統(tǒng)公告展示區(qū)域時(shí)標(biāo)為已讀標(biāo)為未讀信息生成時(shí)問JOBID[374]NAME[CMD_遠(yuǎn)程執(zhí)JOBID[374]NAME[CMD_遠(yuǎn)程執(zhí)JOBID[469]NAME[FTP_采集_大前臺(tái)請(qǐng)求停止運(yùn)行序列號(hào)[2015050510281095JOBID[443]NAME[ORACLE_裝載_JOBID[443]NAME[ORACLE_裝載_JOBID[374]NAME[CMD_遠(yuǎn)程執(zhí)4第1>正在運(yùn)行:這種狀態(tài)是最正常的,表示流程正在調(diào)度中。>運(yùn)行成功:任務(wù)正常運(yùn)行成功。2013年09月25日12.56.09區(qū)行狀歷史信息環(huán)境/參具件上線上線.產(chǎn)品首頁集中展現(xiàn)了包括作業(yè)監(jiān)控、任務(wù)監(jiān)控、流程監(jiān)控控、主機(jī)運(yùn)行狀況以及我所關(guān)注的JOB在內(nèi)的信息。用戶可通過首頁快速、直觀獲取相停停2示1邪共seO0開發(fā)前臺(tái)北京法量系練E機(jī)開發(fā)專用1)流程設(shè)計(jì)2)調(diào)度配置08m20+選:星否可以開行言可手工+選:星否可以開行言可手工3)流程管理通過流程管理模塊實(shí)現(xiàn)對(duì)流程的查詢、刪除、加鎖/解鎖操作,并實(shí)現(xiàn)對(duì)JOB執(zhí)行*s44)流程監(jiān)控通過流程監(jiān)控的可視化界面實(shí)現(xiàn)對(duì)JOB組及重點(diǎn)現(xiàn)JOB總數(shù)、運(yùn)行數(shù)、完成數(shù)、掛起數(shù)、延時(shí)數(shù)等信息。通過可查詢JOB作業(yè)的狀態(tài)、進(jìn)度、節(jié)點(diǎn)總數(shù)、成功數(shù)等信息??赏ㄟ^手工田口92控系**5)集群監(jiān)控?cái)?shù)據(jù)處理與交換平臺(tái)2015年06月9目10-21:6412013年09月25日12.56.09今m件運(yùn)狀R歷史信息6)系統(tǒng)管理組管理、FTP管理、系統(tǒng)設(shè)置、應(yīng)用管理、JOB流程審批、日志查詢等管理功能。系統(tǒng)0理中率加用用國iT開x號(hào)8.nn試用H0具口m理7)模板管理BDPE產(chǎn)品通過構(gòu)建和利用模版高效建立job流程,提升系統(tǒng)job構(gòu)建流程。ETL模板是一個(gè)特殊的job流程,不可運(yùn)行。新建模板新建模板×其摩相板其摩相板顯子0致0,#記錄旦旦Q1)事前數(shù)據(jù)質(zhì)量監(jiān)控2)事中任務(wù)執(zhí)行監(jiān)控尋找出指標(biāo)處理路徑上的程序、接口節(jié)點(diǎn),在根據(jù)每個(gè)處理過程節(jié)點(diǎn)的質(zhì)量監(jiān)控檢測(cè),發(fā)現(xiàn)有問題的處理環(huán)節(jié),以幫助快速定位,能幫助運(yùn)維人員快速處理。BDPE產(chǎn)品可以記錄告警信息,告警信息可以在日志文件中被查看到,或通過圖形化界面的方式展示。告警記錄具體信息應(yīng)包括:告警名稱、類別、嚴(yán)重性、告警具體內(nèi)容等。告警信息可通過短信、郵件等方式及時(shí)發(fā)送給監(jiān)控人員。同時(shí),提供對(duì)數(shù)據(jù)處理流程中所有的任務(wù)總數(shù)、運(yùn)行數(shù)、完成數(shù)、掛起數(shù)、延時(shí)數(shù)等信息進(jìn)行監(jiān)控分析和對(duì)調(diào)度中心的集群監(jiān)控功能實(shí)現(xiàn)對(duì)Server、Agent服務(wù)器的監(jiān)控,如服務(wù)器的內(nèi)存使用率、I/0吞吐量、CPU使用率、物理機(jī)器資源占用等信息進(jìn)行分析3)事后分析日志監(jiān)控提供對(duì)所有操作的日志記錄及查看功能,如應(yīng)支持審計(jì)日志、錯(cuò)誤診斷日志、跟蹤日志(會(huì)話級(jí))等日志類型,并提供針對(duì)整個(gè)數(shù)據(jù)處理過程的基于日志的數(shù)據(jù)統(tǒng)計(jì)與分析。…1一………1111!11…氣a在進(jìn)行集群擴(kuò)展時(shí)(如增加節(jié)點(diǎn)),不應(yīng)對(duì)現(xiàn)有節(jié)點(diǎn)造成影響。訪問控制區(qū)只可工作區(qū)jobB1jobB2jobC2作業(yè)調(diào)度關(guān)系,即可實(shí)現(xiàn)多系統(tǒng)、多用戶的協(xié)同調(diào)度。目前公司BDPE軟件提供時(shí)間觸時(shí)間觸發(fā)R循環(huán)觸發(fā)插環(huán)接作,直至obt到失效時(shí)間條件觸發(fā)幾個(gè)的置的job施程的完周進(jìn)行校發(fā)盈事件觸發(fā)外配入性觸發(fā)表,后臺(tái)根組合觸發(fā)提供同時(shí)置多個(gè)腔發(fā)規(guī)則,觸發(fā)則間提供與成關(guān)系..4支持對(duì)于包括.rar,.zip,.gz等壓縮文件數(shù)據(jù)的不解壓讀取,減少壓縮與解壓帶布式處理,首先將依據(jù)事先設(shè)定的文件拆分策略(策略也可以人工調(diào)整),將大數(shù)據(jù)文件進(jìn)行拆分,并給各個(gè)節(jié)點(diǎn),然后對(duì)拆分后的所有小文件同時(shí)進(jìn)行采集、轉(zhuǎn)換和加載,F(xiàn)TP采集FTP采集哦1.不落地加載PO0.處理深度分析云接口機(jī)ETL平臺(tái)庫內(nèi)相核庫內(nèi)稻核源源訂回aa499t調(diào)度調(diào)度監(jiān)控流程組件Hadoop組件計(jì)算組件功能組件√支持臟讀;√支持?jǐn)?shù)據(jù)去重;√支持記錄拆分;√支持字段拆分;√支持行列變換;√支持多種規(guī)則排序;√支持多種統(tǒng)計(jì)運(yùn)算;√支持?jǐn)?shù)據(jù)預(yù)覽;√支持參數(shù)化配置;√支持各種字符集;√執(zhí)行性能統(tǒng)計(jì);√顯示任務(wù)調(diào)度狀態(tài);√系統(tǒng)資源使用情況;√錯(cuò)誤與異常信息;在進(jìn)行集群擴(kuò)展時(shí)(如增加節(jié)點(diǎn)),不會(huì)對(duì)現(xiàn)有節(jié)點(diǎn)造成影響;時(shí)間(MTTR)需小于2小時(shí);可為用戶解決把內(nèi)容推薦給誰的問題,即使是僅基于用戶注冊(cè)信息(如:興趣愛好)的1.提升用戶需求的深度洞察能力2.提升視頻、新聞等內(nèi)容的精準(zhǔn)推薦能力3.提升面向客戶的產(chǎn)品精細(xì)化運(yùn)營和服務(wù)能力4.提升產(chǎn)品的用戶體驗(yàn)、用戶粘性、用戶規(guī)模用戶面信管理慕統(tǒng)用戶斷查海內(nèi)容推醇累統(tǒng)應(yīng)用體系數(shù)據(jù)處理數(shù)據(jù)√挖掘信息:身份特征(家庭主婦、外籍人士等);人生階段(大學(xué)青年、);從事職業(yè)(教育專家、);個(gè)人愛好(黨史迷、電影達(dá)人等)。社會(huì)屬性指用戶近三個(gè)月使用公司產(chǎn)品時(shí)(例如觀看點(diǎn)播視頻):1)80%(含)以上的視頻均是該視頻上架后的24小時(shí)(含)內(nèi)被該用戶觀看,得滿分10分;2)80%(含)以上的視頻均是該視頻上架后超過96小時(shí)(含)被該用戶觀看,得0分;1)直接映射的方式2)規(guī)則判斷的方式平臺(tái)支持通過界面編輯標(biāo)簽值提取規(guī)則(正則表達(dá)式),歷史視頻中只有1次的時(shí)間差(視頻上映時(shí)間與用戶實(shí)際觀看時(shí)間)為1周以內(nèi)(假設(shè)一般次數(shù)至少要3次以上(具體多少次要根據(jù)業(yè)務(wù)對(duì)準(zhǔn)確性的要求決定)。2)集中度史視頻中有8次的時(shí)間差在1周以內(nèi),2次的時(shí)間差在1周以上,則可以把該用戶“追體系),但不知道每個(gè)標(biāo)簽的具體統(tǒng)計(jì)口徑(規(guī)則)的情況。模型挖掘類標(biāo)簽生成屬于的構(gòu)建和社會(huì)屬性類標(biāo)簽的構(gòu)建。仍以“追新型”標(biāo)簽的生成為例,假設(shè)開始并不知1)通過設(shè)定正負(fù)樣本數(shù)據(jù),利用決策樹算法找出正樣本數(shù)據(jù)的關(guān)鍵特征規(guī)則。為數(shù)據(jù)定義為負(fù)樣本,然后通過決策樹算法,找出正樣本(“追新型”用戶群)的關(guān)鍵特征規(guī)則,最后將這些關(guān)鍵特征規(guī)則自動(dòng)轉(zhuǎn)換成“追2)通過關(guān)聯(lián)分析或協(xié)同過濾算法,預(yù)測(cè)用戶是否為某標(biāo)簽的潛在用戶。主要用于利用用戶的歷史行為數(shù)據(jù)內(nèi)容無法直接用用用戶的歷史行為數(shù)據(jù)判斷某個(gè)用戶是否為“阿里旺旺的潛在用戶”,這時(shí)可以采用協(xié)有潛在需求為例。先統(tǒng)計(jì)購買Iphone6的人群接著又購買了什么(假設(shè)大部分人都會(huì)購買Iphone6手機(jī)殼、手機(jī)貼膜),然后建立Iphone6與這些物品(Iphone6手機(jī)殼、手機(jī)貼膜)之間的關(guān)聯(lián)度,最后將購買了Iphone6,但沒有購買與Iphone6關(guān)聯(lián)度高的其“Iphone6手機(jī)貼膜潛在用戶”。生成分析圖選一個(gè)或析一個(gè)或確定分析主屬性編碼屬性名稱屬性描述屬性類型備注唯一標(biāo)示TOP02綿這道舌動(dòng),0元的機(jī)¥★近6個(gè)月ARIU:234,243,423,42食據(jù)過出用戶近6個(gè)月幾A平均使用時(shí)長(份鐘)12580營興百科15元半年也即將到期用戶頻繁升級(jí)投雨用戶好友計(jì)規(guī)錯(cuò)在客戶期抉機(jī)過的月戶是換三流終端后使用時(shí)間在4-6個(gè)月★中異動(dòng)客戶在同時(shí)長一午九個(gè)月以內(nèi)tt當(dāng)前用戶為:VIP用戶標(biāo)等分營數(shù)據(jù)層計(jì)算晨功能慧客戶分聽所 a健(MoicoDB)用戶的類生成機(jī)器學(xué)習(xí)&法09寫地目分言,員工99+相·/·礎(chǔ)營銷導(dǎo)航標(biāo)答市營銷導(dǎo)航標(biāo)答市0產(chǎn)品訂的餐分責(zé)凌量訂購加訂購用戶日上月件訂購戶月查詢標(biāo)簽分類新建標(biāo)簽分類數(shù)據(jù)狀態(tài)為已生效(無子標(biāo)簽)可以進(jìn)行刪除操作。標(biāo)簽檢索新建標(biāo)簽標(biāo)簽編輯①①標(biāo)簽②部門滕導(dǎo)審批(③信息市核④款據(jù)處理⑤t5成標(biāo)簽刪除新增標(biāo)簽gg簽8戶經(jīng)■中思8戶經(jīng)■中思訴答停用標(biāo)簽下線標(biāo)簽修改標(biāo)簽修改標(biāo)簽修改標(biāo)簽刪除標(biāo)簽搜索O0度創(chuàng)建客戶群早已選4個(gè)創(chuàng)建客戶群u畫w-r的用戶群。創(chuàng)建為一個(gè)用戶群??蓪?dǎo)入清單的附加屬性。靜入的建言廣麗靜入的建言廣麗客戶分向:@相似用戶群ynunL0413_001清章列康的建客戶懈-0413-條伴設(shè)置×已選條件[已選青單:101405]喜戶樣男性(翻譯)[已選青單:301405]l已選擇錄件抗州師范學(xué)院首樂美×學(xué)院物江教學(xué)院機(jī)州師范字院古湯校區(qū)用戶群剔除ynh_0413.000_清單列用戶群:2喀戶群已選青單:20145]且用戶群:富戶群勝()已選清單:211405]且所在學(xué)校已選條件:0X支付類型單個(gè)存支付類型記選擇條件:1,248,16,3.64,128,256,512]0X2選擇標(biāo)基2個(gè)用戶群抽樣最置現(xiàn)則最置現(xiàn)則廠金能和r日期200年月戶姓明1>用戶群清單霉戶事力級(jí)人鍵1-11共輩省中心操作通財(cái)付通控卡0件Ct器卡查州二進(jìn)制8組合保存客戶料力紅人:2015-0417170841管理員11-1組房1非共罩1作·大于小于0001女效u:戶e1分研服分析口w用戶可以將多個(gè)自助分析工作表保存為分析報(bào)告,分析報(bào)告可以被該用戶群套用以生成不同周期清單的分析結(jié)果,分析報(bào)告也可以被其他規(guī)則相似的用戶群套用。..20用戶畫像p數(shù)據(jù)庫中,Hbase本身能夠提供大數(shù)據(jù)量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高速讀寫操作,為高了用戶畫像查詢的速度。在在1億用戶情況下,畫像結(jié)果查詢速度不超過2秒。全用戶全用戶通設(shè)更多排行榜基強(qiáng)M門標(biāo)答系統(tǒng)熟門客戶器最新發(fā)布標(biāo)簽最新發(fā)布右廣器基強(qiáng)M門標(biāo)答系統(tǒng)熟門客戶器最新發(fā)布標(biāo)簽最新發(fā)布右廣器2結(jié)移動(dòng)我據(jù)上F量(月)互研月-份應(yīng)用訪量(月)基本露的生效口#(月)MA-級(jí)內(nèi)音訪用戶(月)i靜#vLA6J購用戶日)顯示所有當(dāng)前用戶設(shè)置收藏的標(biāo)簽和用戶群。默認(rèn)顯示按照收藏時(shí)間從近到遠(yuǎn)排列。顯示信息和操作功能列表與標(biāo)簽和用戶群搜索列表相同。并提供取消收藏的功能。6E客戶器收藏操消息管理產(chǎn)品提供系統(tǒng)消息及公告的管理功能。該功能模塊為登錄人提供個(gè)人的業(yè)務(wù)信息查看功能,包含系統(tǒng)公告、個(gè)人通知等。用戶登錄系統(tǒng)后可在消息管理頁面查看到所有發(fā)送給自己的個(gè)人通知和系統(tǒng)公告,系統(tǒng)公告的類型包括:標(biāo)簽發(fā)布、新功能上線、標(biāo)簽下線。系統(tǒng)還提供個(gè)人消息通知設(shè)定功能。用戶可自行選擇是否接收某類消息。內(nèi)西內(nèi)西個(gè)人通知em0mt系統(tǒng)幫助系統(tǒng)各頁面均提供幫助懸浮功能,提供進(jìn)入“我的收藏”快速鏈接;提供“30s操作”,幫助用戶快速了解如何使用系統(tǒng);提供“返回頂部”功能?!?0s會(huì)操作”功能,是采用下一步提示圖片結(jié)合備注文字,指導(dǎo)用戶如何使用系統(tǒng)快速創(chuàng)建用戶群,快速幫助用戶了解用戶群生成全流程。驗(yàn),外部如電信行業(yè)(典型企業(yè)如中國移動(dòng)等運(yùn)營商);內(nèi)部如傳媒業(yè)(典型企業(yè)如各(內(nèi)容管理系統(tǒng))剪切(視頻管理)文件屬性:內(nèi)在屬性b1內(nèi)在屬性a2關(guān)系屬性A2關(guān)系屬性文件屬性內(nèi)在屬性b2相同/相近關(guān)內(nèi)容所屬的又件標(biāo)識(shí)及狀態(tài)標(biāo)識(shí)從內(nèi)容制作、修改,到尼終審核發(fā)布的各節(jié)點(diǎn)時(shí)間內(nèi)容的制作入、編輯、責(zé)任人等相關(guān)干系人信息內(nèi)容出版單位、授權(quán)人等相關(guān)版權(quán)信息內(nèi)容碼率、播放時(shí)長等制作信息從內(nèi)容原文口提煉出的用于描述內(nèi)容的相關(guān)信息,包活:人物、時(shí)間、地點(diǎn)等基于內(nèi)容描述信息定義的內(nèi)容題材分類,包括政治、軍事、財(cái)經(jīng)等基于內(nèi)容描述信息定義的內(nèi)容情節(jié)分類,包括愛情、喜劇等基于內(nèi)容描述信息定義的內(nèi)容形態(tài)分類,包括新聞、賽事、紀(jì)錄片等內(nèi)容的從屬關(guān)系,如:舊屬欄目、歸屬頻道等內(nèi)容描述信息中存在相同值或相近值的內(nèi)容基于自定義規(guī)則從而存在相關(guān)性內(nèi)容;基于數(shù)據(jù)挖據(jù)發(fā)現(xiàn)的相關(guān)內(nèi)容標(biāo)識(shí)信息時(shí)間信息干系人信息制作信息資料提供人(來源)簡(jiǎn)介副標(biāo)題短語引語地點(diǎn)人物數(shù)字語言政治環(huán)保外交教育工業(yè)環(huán)境農(nóng)業(yè)汽車能源藝術(shù)貿(mào)易動(dòng)漫財(cái)經(jīng)親子人事公益讀書文史武保戰(zhàn)爭(zhēng)歷史家庭警匪神話懸疑穿越談話動(dòng)畫談話動(dòng)畫電視劇真人秀從屬關(guān)系相同/相近關(guān)系相關(guān)關(guān)系歸屬頻道自定義相關(guān)規(guī)則(如:快樂大本營與何靈)歸屬欄目挖掘相關(guān)規(guī)則(如:啤酒和尿布)以上僅是從三個(gè)層面界定內(nèi)容標(biāo)簽庫,部分標(biāo)簽還可以根據(jù)實(shí)際情況進(jìn)行逐級(jí)細(xì)化至原子化標(biāo)簽。內(nèi)容標(biāo)簽框架文作屬性內(nèi)在屬性標(biāo)識(shí)信息時(shí)間信息于系入信息版權(quán)信息內(nèi)容操述村政內(nèi)容題材體育甲阿森的科教關(guān)系屬性內(nèi)容情節(jié)和同/相透關(guān)系相關(guān)關(guān)系分類標(biāo)引人名標(biāo)引地名標(biāo)引短文本標(biāo)引引語標(biāo)引時(shí)間標(biāo)引數(shù)字標(biāo)引機(jī)構(gòu)標(biāo)引1.單條數(shù)據(jù)標(biāo)引新媒體云平臺(tái)CMS在發(fā)布新內(nèi)容頁(圖文內(nèi)容、音頻內(nèi)容、視頻內(nèi)容等)時(shí),會(huì)2.歷史數(shù)據(jù)回溯首先,新聞網(wǎng)資源池推送給標(biāo)引服務(wù)的所有內(nèi)容頁描述數(shù)據(jù),構(gòu)成了新媒體云平利用最新業(yè)務(wù)規(guī)則分析歷史數(shù)據(jù)庫中的所有數(shù)據(jù),所有符合ngsmf0ngsmf0大客戶應(yīng)用端大數(shù)據(jù)新聞可視化應(yīng)用系統(tǒng)大數(shù)據(jù)新聞可視化應(yīng)用系統(tǒng)結(jié)構(gòu)化標(biāo)簽數(shù)據(jù)存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)化服務(wù)系統(tǒng)知識(shí)庫互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)拉采集外部數(shù)據(jù)API傳入知識(shí)管理特征庫運(yùn)營系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)新聞素材庫標(biāo)引系統(tǒng)數(shù)據(jù)傳入庫通用庫.■特征詞姓氏目收錄各類事件標(biāo)引所需要的關(guān)鍵特征詞,先按事件的類型分為:社會(huì)事件庫事件庫一水災(zāi)流量特征詞水_件隨災(zāi)害水_災(zāi)后疫情防控水災(zāi)水災(zāi)類別自二水災(zāi)助汛物資作用■本體實(shí)例庫金融業(yè)目■體實(shí)例庫批發(fā)和零售業(yè)目標(biāo)引識(shí)別引擎API接口上傳下傳3)推薦的用戶:新用戶(區(qū)分登錄用戶和未登錄用戶)、老用戶(區(qū)分登錄用戶和未登錄用戶);4)推薦的場(chǎng)景:具備登錄后、播放后、加載頁面后(底層頁)等不同場(chǎng)景下的5)推薦計(jì)算結(jié)果:可視化;7)推薦效果:可評(píng)估、可優(yōu)化;8)推薦計(jì)算實(shí)時(shí)性:熱點(diǎn)/個(gè)性化/關(guān)聯(lián)推薦結(jié)果按天.4.3.1(實(shí)時(shí)更新)推薦列表b濾偏好匹配關(guān)聯(lián)匹配個(gè)按比例權(quán)重過按熱度過濾dC/a薦列表;4.將存在關(guān)聯(lián)關(guān)系的內(nèi)容標(biāo)簽與用戶偏好進(jìn)行匹配,生成基于用戶偏好的個(gè)性化關(guān)聯(lián)內(nèi)容推薦列表。非首次陸/訪問權(quán)重內(nèi)容abCde品內(nèi)容列表進(jìn)行組合推薦;組合推薦功能模塊支持對(duì)推薦場(chǎng)景的擴(kuò)展需求,針對(duì)不同場(chǎng)景的特點(diǎn),可在后臺(tái)進(jìn)行組合推薦規(guī)則設(shè)置,同時(shí)可以配置在推薦結(jié)果中保存的字段信息(如:內(nèi)容ID、內(nèi)容關(guān)于推薦結(jié)果選取權(quán)重動(dòng)態(tài)調(diào)整規(guī)則——以首次播放推薦的場(chǎng)景為例:說明初始比例設(shè)定:關(guān)聯(lián)內(nèi)容推薦列表(R)初始比例設(shè)定:新上架內(nèi)容清單(N)第1次推薦個(gè)數(shù):關(guān)聯(lián)內(nèi)容推薦列表(R)第1次推薦個(gè)數(shù):新上架內(nèi)容清單(N)3推薦N次后的內(nèi)容轉(zhuǎn)化率:關(guān)聯(lián)內(nèi)容推薦列表(R)分子:R中點(diǎn)擊的內(nèi)容個(gè)數(shù)(萬個(gè))分母:R中推薦的內(nèi)容總數(shù)(萬個(gè))推薦N次后的內(nèi)容轉(zhuǎn)化率:新上架內(nèi)容清單(N)分子:N中點(diǎn)擊的內(nèi)容個(gè)數(shù)(萬個(gè))分母:N中推薦的內(nèi)容總數(shù)(萬個(gè))計(jì)算公式:(Xo+Xn)/(Xo+Xn+Yo+Yn)計(jì)算公式:(Yo+Yn)/(Xo+Xn+Yo+Yn)第N+1次推薦個(gè)數(shù):關(guān)聯(lián)內(nèi)容推薦列表(R)四舍五入第N+1次推薦個(gè)數(shù):新上架內(nèi)容清單(N)5四舍五入(一)登錄推薦用戶無瀏覽記錄:新品推薦結(jié)果(不存在冷啟動(dòng))+熱門推薦結(jié)果(不存在冷啟動(dòng));>用戶有瀏覽記錄:新品推薦結(jié)果(同上)+熱門推薦結(jié)果(同上)+個(gè)性化推(二)播放后推薦>用戶無瀏覽記錄:關(guān)聯(lián)推薦結(jié)果(存在冷啟續(xù)產(chǎn)生結(jié)果);新品推薦結(jié)果(不存在冷啟動(dòng))+熱門推薦結(jié)果(不存在冷啟動(dòng)),作為補(bǔ)充>用戶有瀏覽記錄:關(guān)聯(lián)推薦結(jié)果(存在冷啟動(dòng)第一次不產(chǎn)生推薦結(jié)果,后續(xù)按算法產(chǎn)生結(jié)果);新品推薦(同上)+熱門推薦(同上),作為補(bǔ)充。.4.3.6推薦通過設(shè)定規(guī)則,包括:去重、關(guān)鍵詞過濾、敏感詞過濾、用戶瀏覽/播放記錄過濾(按場(chǎng)景)個(gè)(按場(chǎng)景)個(gè)推薦系統(tǒng)根據(jù)配置的過濾規(guī)則,對(duì)待推薦列表中的內(nèi)容進(jìn)行過濾,輸出推薦結(jié)果;當(dāng)生成的最終推薦效果小于一定數(shù)量時(shí)(如10個(gè)),支持重新讀取待推薦列表將.4.3.7推薦結(jié)果并發(fā)查詢?nèi)客扑]結(jié)果寫入Hbase活躍用戶推薦結(jié)果緩存在Redis中,與Hbase全量數(shù)據(jù)進(jìn)行關(guān)聯(lián)同步。優(yōu)勢(shì)劣勢(shì)數(shù)據(jù))儲(chǔ)數(shù)據(jù))(推薦方案)(熱點(diǎn)數(shù)據(jù))復(fù)上片20327.8TAB頁顯示詳列明4.系統(tǒng)自身原因(I0、內(nèi)存溢出等)導(dǎo)致數(shù)據(jù)處理異常時(shí),進(jìn)行.4.4.1應(yīng)用層推薦計(jì)算數(shù)據(jù)源數(shù)據(jù)指標(biāo)集通過數(shù)據(jù)預(yù)處理程序輸出的基于政務(wù)云用戶內(nèi)容標(biāo)簽用戶標(biāo)簽度建立用戶標(biāo)簽體系,對(duì)用戶進(jìn)行精準(zhǔn)畫像,畫像結(jié)果支撐內(nèi)容推薦計(jì)算。個(gè)性化推薦基于用戶的內(nèi)容偏好,使用協(xié)同過濾算法生成熱門推薦>推薦結(jié)果查詢服務(wù)個(gè)性化推薦組合推薦景(登錄后、播放后等)生成待推薦列表推薦效果評(píng)估推薦結(jié)果優(yōu)化1.3項(xiàng)目進(jìn)度計(jì)劃為有效地進(jìn)行資源、進(jìn)度和質(zhì)量等方面的控制,確顧問共同組成咨詢和實(shí)施小組,按照項(xiàng)目管理的原則進(jìn)行實(shí)施,建立一套科學(xué)、系統(tǒng)、項(xiàng)目組具體分為項(xiàng)目經(jīng)理、技術(shù)總監(jiān)、項(xiàng)目管理雙方參與人員項(xiàng)目領(lǐng)導(dǎo)小組XX客戶高層與公司高層管理人員各一名項(xiàng)目開發(fā)和實(shí)施過程中重大事件的決策。項(xiàng)目管理組公司負(fù)責(zé)項(xiàng)目的進(jìn)度跟蹤、質(zhì)量控制、層領(lǐng)導(dǎo)匯報(bào)項(xiàng)目進(jìn)展。公司項(xiàng)目技術(shù)負(fù)責(zé)人術(shù)指導(dǎo)和整體把握。項(xiàng)目執(zhí)行機(jī)構(gòu)項(xiàng)目經(jīng)理與公司高級(jí)項(xiàng)目經(jīng)理各一名進(jìn)行本項(xiàng)目的具體管理和實(shí)施工作。雙方參與人員公司全面負(fù)責(zé)整個(gè)項(xiàng)目的質(zhì)量管理、工等的制定。公司全面負(fù)責(zé)建立和維護(hù)項(xiàng)目配置庫、制、負(fù)責(zé)變更管理、版本管理和發(fā)布管理。需求分析組公司、XX客戶各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論