




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2.1規(guī)范定義 62.2投標方所提供的所有系統(tǒng)設(shè)備(包括軟、硬件)應(yīng)滿足以下技術(shù)標準要求 72.3對投標方的建議書要求 82.4配置原則 3項目概述 3.1項目背景 3.2項目目標 4總體技術(shù)要求 4.1總體要求 4.2.1基本要求 功能性要求 15系統(tǒng)應(yīng)具備高可靠性 系統(tǒng)應(yīng)具備安全性 17開放性要求 系統(tǒng)應(yīng)易于使用 系統(tǒng)可維護性要求 系統(tǒng)完備性要求 系統(tǒng)可測試性要求 系統(tǒng)易安裝性要求 210設(shè)備其他要求 21 212設(shè)備安全性要求 223設(shè)備供電及運行環(huán)境 5詳細技術(shù)要求 275.3.1大數(shù)據(jù)處理子平臺要求 5.3.3外部服務(wù)能力子平臺要求 55 585.3.5其他要求 675.4集成方案要求 6軟硬件要求 6.1軟件要求 7項目管理要求 7.1項目組織 75 767.3文件文檔 76 8.1安裝和調(diào)試 77 78 9.1技術(shù)服務(wù) 9.2技術(shù)培訓(xùn) 10進度安排 11技術(shù)文件 2.2海量數(shù)據(jù)存儲 2.3并行計算能力 4.1功能模塊總述 4.2大數(shù)據(jù)處理子平臺 4.2.1多租戶能力 934.2.2標簽服務(wù) 4.3數(shù)據(jù)匯聚子平臺 4.3.1寬帶DP/數(shù)據(jù)采集清洗 4.3.236DP/數(shù)據(jù)采集清洗 4.3.3AAA數(shù)據(jù)采集清洗 4.3.40/DD數(shù)據(jù)采集清洗 4.3.50DS數(shù)據(jù)采集清洗 4.3.6數(shù)據(jù)脫敏 1094.3.7數(shù)據(jù)加密 4.3.8數(shù)據(jù)ETL處理 4.4.1標簽查詢服務(wù) 4.4.2DSP廠商程序接入 4.4.3廠商作業(yè)性能優(yōu)化 4.4.4交互式SQL查詢 4.4.5在線報表 4.1.信息推送子平臺 4.1.1.流量分發(fā)模塊 1154.1.2.流量分發(fā)規(guī)則 4.1.3.廣告提單管理 4.1.4.廣告引導(dǎo)管理 1214.1.5.廣告計劃檢索 4.1.6.內(nèi)部業(yè)務(wù)支撐 1、服務(wù)簡述 3、服務(wù)原則 139 6、服務(wù)明細 6.1服務(wù)類型 6.2日常服務(wù) 6.3現(xiàn)場服務(wù) 隨著移動互聯(lián)網(wǎng)的快速發(fā)展,TB~PB級別交易數(shù)據(jù)、網(wǎng)絡(luò)流量、運營日志等海量數(shù)據(jù)已經(jīng)誕生,如何分析海量規(guī)模、結(jié)構(gòu)多樣和流量超大的數(shù)據(jù),電信運營商面臨巨大的挑戰(zhàn)?!窦夹g(shù)革命勢在必行C/S以及B/S架構(gòu)的第二代數(shù)據(jù)處理技術(shù),無法勝任大數(shù)據(jù)時代的要求。C/S以及B/S架構(gòu)的弊端顯而易見,它導(dǎo)致了服務(wù)器數(shù)量大幅增加、資金和運營成本的急劇攀升。越來越復(fù)雜的數(shù)據(jù)中心很難快速配置和有效管理以滿足不斷變化的需求。而且由于應(yīng)用程序的工作負載是不斷變化的,專用于單一應(yīng)用程序的服務(wù)器通常得不到充分利用。分布式云計算第三代數(shù)據(jù)處理技術(shù),采用分散存儲和并行計算等革命性技術(shù),為海量數(shù)據(jù)處理提供最佳解決方案。云計算的核心就是數(shù)據(jù)中心,實現(xiàn)云計算的硬件設(shè)備主要是成千上萬的工業(yè)標準服務(wù)器,通過這些服務(wù)器之間的協(xié)同工作,提高服務(wù)器的使用效率,并改變傳統(tǒng)的IT交付方式,使客戶可以按需、自助地使用IT資源?!裾憬娦糯髷?shù)據(jù)運營平臺中國電信作為一個領(lǐng)先的互聯(lián)網(wǎng)運營商,參與互聯(lián)網(wǎng)廣告行業(yè)的優(yōu)勢在于:廣告業(yè)需求的用戶全局唯一標識的資源;擁有用戶全局的HTTP訪問請求及返回的最細數(shù)據(jù)粒度;擁有強大的計算資源;擁有高速帶寬資源。浙江電信根據(jù)中國電信市場[2013]86號文《關(guān)于開展“大數(shù)據(jù)RTB廣告業(yè)務(wù)”試點工作通知》,要求按照RTB試點業(yè)務(wù)要求,完成浙江電信大數(shù)據(jù)運營平臺建設(shè),為廣告媒體運營提供高并發(fā)、快速響應(yīng)的數(shù)據(jù)服務(wù)能力。1技術(shù)規(guī)格偏離表應(yīng)答序號貨物名稱招標文件條目號投標規(guī)格偏離說明無無無 2.2投標方所提供的所有系統(tǒng)設(shè)備(包括軟、硬件)應(yīng)滿足以下技術(shù)標準要求2.3對投標方的建議書要求2.4配置原則2.5報價要求三方。經(jīng)中國電信股份有限公司浙江分公司書面許可,應(yīng)標商才允3項目概述3.1項目背景3.2項目目標8)投標人應(yīng)根據(jù)買方的業(yè)務(wù)需求及相關(guān)的技術(shù)規(guī)劃要求,提出完整的項目1)要求采用Hadoop分布式處理架構(gòu),符合未來大數(shù)據(jù)管理技術(shù)的發(fā)展潮2)具有支持結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)處理能力,支持多種多樣3)支持多語種,支持UNICODE標準滿足中文及多字節(jié)編碼需要,支持中文功能性要求5)支持文本分析處理技術(shù),能夠存儲、索引和分析大規(guī)模的非結(jié)構(gòu)化文本6)具有機器學(xué)習(xí)與數(shù)據(jù)挖掘的能力。7)支持多種運算框架和接口,如MapReduce,支持JDBC,ODBCdriver,能系統(tǒng)應(yīng)具備高可靠性1)投標方應(yīng)向需求方提供成熟的、容錯性和易恢復(fù)性俱佳的系統(tǒng)。2)具有軟件容錯機制,包括數(shù)據(jù)庫、日志鏡像、自動恢復(fù)和集群機制,具3)系統(tǒng)必須支持連續(xù)7×24小時不間斷地工作,不存在單點故障的問題。4)系統(tǒng)應(yīng)具備靜態(tài)過負荷控制和動態(tài)過負荷控制兩種過負荷控制的能力,5)軟件故障情況下,系統(tǒng)應(yīng)具備故障守護恢復(fù)機制,即當發(fā)生一般性軟件6)系統(tǒng)能夠正確識別外圍系統(tǒng)發(fā)的錯誤請求及重復(fù)請求,避免出現(xiàn)一些不1)系統(tǒng)需要劃分安全域并進行隔離,同時建立完善的網(wǎng)絡(luò)安全機制,這些2)系統(tǒng)必須采取數(shù)據(jù)訪問控制等措施來保證數(shù)據(jù)的安全。系統(tǒng)對用戶數(shù)據(jù)3)系統(tǒng)應(yīng)具備訪問權(quán)限的識別和控制功能,根據(jù)不同的應(yīng)用需求提供多級4)有良好的錯誤處理和恢復(fù)機制,以保證數(shù)據(jù)的完整性和一致性。5)支持數(shù)據(jù)傳輸通道和數(shù)據(jù)加密等保密機制,企業(yè)級安全認證機制支持隨6)支持第三方的成熟商業(yè)安全審計系統(tǒng)集成與監(jiān)管。開放性要求系統(tǒng)應(yīng)易于使用1)系統(tǒng)應(yīng)易于安裝和使用,具備風(fēng)格一致用戶界面,且用戶界面應(yīng)為中文2)系統(tǒng)應(yīng)具備完善的聯(lián)機幫助功能。3)隨系統(tǒng)提交的產(chǎn)品文件必須包括完善的、針對不同級別用戶的應(yīng)用系統(tǒng)4)應(yīng)用系統(tǒng)必須提供一致性的圖形用戶界面風(fēng)格。5)應(yīng)用系統(tǒng)必須支持同時打開多個管理窗口以對不同任務(wù)進行并行的操6)應(yīng)用系統(tǒng)應(yīng)該支持通過Tab鍵或回車鍵可以訪問到同一個窗口的所有控7)應(yīng)用系統(tǒng)應(yīng)該支持對于常用功能設(shè)置快捷鍵以方便功能間的切換;快捷8)在導(dǎo)致系統(tǒng)數(shù)據(jù)發(fā)生變化的操作執(zhí)行之前,系統(tǒng)應(yīng)該彈出提示窗口供用9)應(yīng)用系統(tǒng)功能菜單必須按照功能域、功能組的分類方法進行組織。10)系統(tǒng)必須提供在線幫助功能,對于每一個操作功能都能查找到相應(yīng)的詳系統(tǒng)易安裝性要求0設(shè)備其他要求1網(wǎng)管要求2)要求支持分級網(wǎng)管和虛擬網(wǎng)管,要求支持本地控制口以及遠程配置和管2設(shè)備安全性要求3設(shè)備供電及運行環(huán)境(1)溫度:10~30℃(2)相對濕度:20%~80%(1)對于投標人提供的落地型設(shè)備,當體積較大、重量較大且易滑動或易傾倒,設(shè)備應(yīng)具備抗震加固特性。本項目抗震設(shè)防烈度按8度考慮。投標人應(yīng)(2)投標人須在點對點應(yīng)答中詳細說明各種投標設(shè)備的尺寸。(3)投標人須在點對點應(yīng)答中詳細說明各種設(shè)備的重量(Kg)及對機房地1)引入實時數(shù)據(jù)采集技術(shù)(如Flume等)2)引入實時流處理消息中間件(如Kafka等)3)引入實時流處理技術(shù)(如Storm等)4)引入實時消息(數(shù)據(jù))同步技術(shù)。>支持DSP廠商>10個數(shù)據(jù)批處理時間<5小時>3GDPI數(shù)據(jù)保存6個月5.2方案要求5.3平臺要求5.3.1大數(shù)據(jù)處理子平臺要求多租戶能力要求.1平臺安全要求數(shù)據(jù)訪問控制(Token)1.系統(tǒng)支持基于多租戶的資源管理,可以為每個租戶分配獨立的存儲空間(HDFS)和計算資源(MRSlot),實現(xiàn)資源獨立,如下圖所示:答復(fù):滿足。2.HDFS管理,可以配置用戶的HDFS信息。HDFS信息包括:2)可用文件數(shù)3)空間限額4)可用空間5)用戶目錄7)文件數(shù)8)文件總大小3.MapReduce管理,可以增加、刪除或修改隊列信息。隊列信息包括:2)容量設(shè)置3)可用容量4)最大容量5)是否支持job優(yōu)先級6)用戶資源百分比限制7)用戶可占隊列容量系數(shù)8)隊列中并發(fā)task上限值9)每個用戶并發(fā)task上限值10)每個隊列中可容納job總數(shù)的系數(shù)11)初始化后并發(fā)執(zhí)行的job數(shù)4.資源套餐管理,系統(tǒng)可以設(shè)置資源套餐,套餐內(nèi)容包含存儲空間(HDFS)和計>字段級訪問權(quán)限答復(fù):滿足。1)表名2)所屬數(shù)據(jù)庫3)操作權(quán)限,包括八種權(quán)限:—Alter(修改表結(jié)構(gòu))—Update(修改數(shù)據(jù))—Create(創(chuàng)建)—Lock(鎖定或解除表)—Select(訪問數(shù)據(jù))—Drop(刪除)—Index(創(chuàng)建索引)—ShowDataBase(查看可用數(shù)據(jù)庫)答復(fù):滿足。Hbase表權(quán)限管理內(nèi)容包括:用戶不能查看Hbase中非授權(quán)表的內(nèi)容。答復(fù):滿足?!穸鄠€用戶可以同時操作同一個指定的表;答復(fù):滿足。答復(fù):滿足?!裼脩艨梢栽黾?修改/刪除HBASE表里的字段,也可以增加/修改/刪除HBASE表里字段的內(nèi)容?!馠base表權(quán)限管理內(nèi)容包括:1)表名3)操作權(quán)限,包括四種權(quán)限:—R(只讀)—W(可寫)—C(創(chuàng)建修改刪除)系統(tǒng)通過授權(quán)文件Token可以實現(xiàn)字段級控制,如下圖所示:SourceRequestURLDestinationIPhttp:///.4平臺統(tǒng)一管理要求.4.1集群參數(shù)配置集群參數(shù)包含:—集群名稱—備機名稱—備機IP.4.2節(jié)點參數(shù)配置—節(jié)點名稱一節(jié)點地址.4.3組件參數(shù)配置1)用戶名稱2)群組名稱.5集中監(jiān)控告警管理要求.5.1節(jié)點運行狀態(tài)監(jiān)控—內(nèi)存使用率—硬盤使用率。1)查看HDFS概況,包括:剩余容量:當集群HDFS處于運行狀態(tài)時顯示,記錄當前集群的剩余數(shù)據(jù)存數(shù)據(jù)節(jié)點:當前集群的HDFS配置的總數(shù)據(jù)節(jié)點數(shù)量及當前正在運顯示HDFS文件系統(tǒng)的文件參數(shù)(名稱/用戶/組/權(quán)限/文件大小/修改日期/1)查看HIVE概況,包括:2)業(yè)務(wù)表瀏覽1)節(jié)點磁盤空間不足:系統(tǒng)在出現(xiàn)某個節(jié)點磁盤空間不足的情況報警。2)群集HDFS磁盤不足:群集中單個節(jié)點空間足夠,但群集HDFS磁盤空間不足時4)節(jié)點內(nèi)存不足:節(jié)點在內(nèi)存不足情況報警。5)服務(wù)異常告警:監(jiān)測HDFS,HIVE,HBASE,Zookeeper等各個關(guān)鍵服務(wù)的運行狀7)網(wǎng)絡(luò)故障告警:當發(fā)現(xiàn)某些節(jié)點的網(wǎng)絡(luò)連接異常,將輸出網(wǎng)絡(luò)故障信息。1.數(shù)據(jù)出售類產(chǎn)品通過對電信數(shù)據(jù)資源進行脫敏、加行出售。這類數(shù)據(jù)產(chǎn)品根據(jù)數(shù)據(jù)所涉及的地理屬性,分為全國性數(shù)據(jù)和2.數(shù)據(jù)咨詢類產(chǎn)品通過對數(shù)據(jù)的分析、挖掘,面向不同的行業(yè)提供咨詢類4.解決方案產(chǎn)品這類產(chǎn)品只面向合作伙伴,因為解決方案類產(chǎn)品需要結(jié)合.6.4結(jié)算管理結(jié)算管理應(yīng)涵蓋以下功能:1.外部結(jié)算管理對合作伙伴的結(jié)算管理,根據(jù)合同,收入完成情況等要素對合作伙伴進行費用結(jié)算。2.內(nèi)部結(jié)算依據(jù)考核計劃、考核結(jié)果、關(guān)聯(lián)收入完成情況、數(shù)據(jù)使用情況等進行收入結(jié)算。答復(fù):滿足。3.結(jié)算包括現(xiàn)金結(jié)算、轉(zhuǎn)賬結(jié)算、結(jié)算公式管理、結(jié)算期限管理等。答復(fù):滿足。結(jié)算的費用種類包括了兩大類:大數(shù)據(jù)平臺查詢服務(wù)費用結(jié)算和大數(shù)據(jù)平臺資源使用費用結(jié)算。>大數(shù)據(jù)平臺的查詢服務(wù)可按照查詢次數(shù)或者包月服務(wù)來計費;答復(fù):滿足。>大數(shù)據(jù)平臺的資源使用包括了存儲、運算和數(shù)據(jù)三類,其中數(shù)據(jù)資源根據(jù)字段和使用記錄數(shù)來計費,存儲和運算資源則可以采用租費的結(jié)算方式。答復(fù):滿足。1.寬帶DPI數(shù)據(jù)流經(jīng)過實時數(shù)據(jù)處理后,支持多個同步標簽的服務(wù)程序。3.通過字段級Token控制,實現(xiàn)離線標簽數(shù)據(jù)處理可以訪問的字段類型,從而廠商3廠商4廠商64、寬帶DPI數(shù)據(jù)流輸出要求:大數(shù)據(jù)平臺實時采集清洗寬帶DPI數(shù)據(jù)流,處理流程如下圖所示:處理流程說明如下:1.Kafka消息系統(tǒng)實時接收前端寬帶DPI數(shù)據(jù)流;2.Kafka消息系統(tǒng)將接收到的寬帶DPI數(shù)據(jù)流分發(fā)至同步標簽和實時入庫3.同步標簽?zāi)K采用Storm組件實時處理寬帶DPI數(shù)據(jù)流,為寬帶DPI數(shù)據(jù)流打上標簽。4.實時入庫模塊采用Storm組件將寬帶DPI數(shù)據(jù)流以文件形式寫入云平臺HDFS,后續(xù)可以對寬帶DPI文件進行離線標簽處理。1、3GDPI數(shù)據(jù)采集清洗網(wǎng)絡(luò)架構(gòu)如下:3GDPI設(shè)備大數(shù)據(jù)平臺答復(fù):滿足。2、系統(tǒng)通過FTP方式采集3GDPI文件。AAA數(shù)據(jù)采集清洗IP地址和AD賬號的數(shù)據(jù)原始信息,完成用戶上網(wǎng)記錄身份的辨識。PairsUserNameFramedIPAddressAcctStatusTypeOIDD數(shù)據(jù)采集清洗_ _ lnformationdatatypeprodinstnum starttime basestationstringstringstringstringstringstring#DetailedTablelnformationDatabase:oiddODS數(shù)據(jù)采集清洗3、ODS文件通過分布式ETL工具Kettle寫入HDFS答復(fù):滿足。__guangwangflagaconnectcollegeagrmntconstexpdtbalancepisubstattpupdatestatusIstupdatetmplng(帳號<加密>)(用戶年齡)(用戶性別)(用戶類型)(用戶所屬區(qū)域)(費用范圍描述)(寬帶訪問類型)(活躍操作頻度)(套餐類型)(是否光釬標記)(協(xié)議有效日期)(是否在用)(更新狀態(tài))(最后更新日期)(經(jīng)度)lnformationdatatype#DetailedTablelnformationDatabase:ods從實現(xiàn)手段上看,針對不同的數(shù)據(jù)內(nèi)容Hadoop需脫脫敏后寬帶設(shè)備號實際adsha加密結(jié)果(該算法不可反實際年齡年齡段信息,如5年一段,取起始數(shù)值顯示,如25表示25-29用戶地址實際地址,精確到戶小區(qū)、樓盤或商圈信息,如大寧商圈位置經(jīng)緯度實際經(jīng)緯度精確到0.001,約1000平方米,注:Ing*lat=0.001*0.001(度)=約95.18_用戶姓名實際姓名僅保留用戶姓氏用戶消費情況實際消費金額每150元一檔:0(表示0-149),…解密數(shù)據(jù)HDFSHDFSHDFSHDFSHDFS數(shù)據(jù)塊數(shù)據(jù)塊數(shù)據(jù)塊數(shù)據(jù)塊數(shù)據(jù)塊2.數(shù)據(jù)加密不修改HDFS內(nèi)核,不影響將來HDFS的升級維護。3.數(shù)據(jù)加密后,保證HDFS數(shù)據(jù)透明SQL8.平臺提供ETL作業(yè)管理功能,管理操作包括新增、修改、刪除、重命名、發(fā)答復(fù):滿足。1.話單數(shù)據(jù)抽?。罕WC抽取效率以及穩(wěn)定性,能夠在大數(shù)據(jù)量處理能力的情況下保證系統(tǒng)的連續(xù)性,對異常進行容錯性處理,對處理不了的異常也要有完整的日志記錄以便后續(xù)的查證。答復(fù):滿足。2.非話單數(shù)據(jù)抽?。簼M足多種數(shù)據(jù)類型的處理能力、另外在作業(yè)調(diào)度上也要有完善的調(diào)度機制、以及一旦發(fā)生問題之后的數(shù)據(jù)隔離能力。答復(fù):滿足。.1.2數(shù)據(jù)清洗1.不完整的數(shù)據(jù):如果缺失的字段是關(guān)鍵字段如設(shè)備標示、訪問url等信息,則進行過濾并返回給源系統(tǒng);如果是一些非關(guān)鍵字段則直接入庫。答復(fù):滿足。2.錯誤的數(shù)據(jù):如果是類似全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確等可修復(fù)的錯誤數(shù)據(jù),直接修復(fù)后入庫;如果是設(shè)備標示位數(shù)不夠等不可修復(fù)的錯誤數(shù)據(jù),進行過濾并記錄錯誤日志。答復(fù):滿足。是所有字段重復(fù)的數(shù)據(jù),對于這兩類數(shù)據(jù)都需要進行數(shù)據(jù)過濾,針對第一類數(shù)據(jù)還需要向源數(shù)據(jù)系統(tǒng)進行反復(fù)確認后再補數(shù)據(jù)入庫。答復(fù):滿足。1.需要實現(xiàn)基于hadoop的數(shù)據(jù)轉(zhuǎn)換和處理,目前的hadoop數(shù)據(jù)倉庫處理手段還是比較豐富的,有pighsqlmapreduce1.將完成轉(zhuǎn)換的偽CDR話單數(shù)據(jù)并發(fā)寫入HIVE/HBASE數(shù)據(jù)庫。1)基本的數(shù)據(jù)庫查詢2)判斷表以及列、操作系統(tǒng)文件是否存在3)從URL接收查詢4)使用Web服務(wù)查詢信息5)使用數(shù)據(jù)流中的值作為參數(shù)來執(zhí)行一個數(shù)據(jù)庫查詢6)流查詢:從轉(zhuǎn)換中其他流里查詢值1)值映射、分組、去重、拆分字段、行列轉(zhuǎn)換2)復(fù)制行3)正則表達式2)寫日志3)發(fā)送郵件4)從POPServer獲取郵件并保存在本地5)比較文件夾、文件6)創(chuàng)建、復(fù)制、移動、刪除、壓縮文件7)從HTTP獲取或者上傳文件8)操作延遲等待作業(yè)智能排隊調(diào)度要求.1作業(yè)靈活調(diào)度.2資源智能調(diào)整5.3.3外部服務(wù)能力子平臺要求總體要求標簽查詢服務(wù).1分布式K-V數(shù)據(jù)庫5.系統(tǒng)管理采用基于Token(令牌)的用戶身份驗證機制,使用戶在訪問受保護的2)攜帶已獲取的Token查詢有權(quán)限的數(shù)據(jù)標簽可以設(shè)置,缺省設(shè)置為30分鐘。5.3.4信息推送子平臺要求根據(jù)業(yè)務(wù)需要,精確控制將符合業(yè)務(wù)需要的流量轉(zhuǎn)發(fā)到特定服務(wù)器上進行處理,同時可以實現(xiàn)同一份流量根據(jù)配置轉(zhuǎn)發(fā)多份到不同的服務(wù)器上。具體的流量轉(zhuǎn)發(fā)規(guī)則可以靈活設(shè)置??梢耘渲弥晦D(zhuǎn)發(fā)特定域名或url的報文,實現(xiàn)流量的精細化控制。同時,域名和URL支持加*實現(xiàn)模糊匹配?!艮D(zhuǎn)發(fā)總流量控制通過設(shè)置預(yù)算的方式,可以控制轉(zhuǎn)發(fā)的總流量大小。例如希望只轉(zhuǎn)發(fā)50CPM的百度搜索流量到server1上,可以設(shè)置預(yù)算為50元,每CPM出價1元,精確控制只往server1上轉(zhuǎn)發(fā)50個CPM?!纛l次控制系統(tǒng)支持根據(jù)ADSL或IP進行頻次控制,即可以控制每個ADSL用戶或每個IP用戶的流量只被轉(zhuǎn)發(fā)1次到特定server上。◆定向策略控制系統(tǒng)提供了多種定向策略,實現(xiàn)流量的差異化控制,如地域定向、人群定向。其中地域定向,可以實現(xiàn)根據(jù)IP判斷網(wǎng)民所在地區(qū),實現(xiàn)只將特定地區(qū)的用戶流量進行分發(fā)。如杭州某企業(yè)用戶可能只希望了解杭州地區(qū)的網(wǎng)民搜索行為,可以通過地域設(shè)置只轉(zhuǎn)發(fā)杭州的流量到該企業(yè)的服務(wù)器上進行數(shù)據(jù)分析,一方面減輕了下游企業(yè)的服務(wù)器壓力,另一方面最大限度保護了其他地區(qū)的用戶隱私,降低運營商數(shù)據(jù)的流量浪費。答復(fù):滿足。◆黑名單控制可以通過配置IP和ADSL黑名單的策略,實現(xiàn)不轉(zhuǎn)發(fā)特定IP或ADSL用戶的流量,保障這部分用戶的體驗和隱私數(shù)據(jù)。答復(fù):滿足。廣告推送模塊是該系統(tǒng)的核心模塊,根據(jù)各種設(shè)置項實現(xiàn)運營商流量的廣告營銷策略,幫助運營商實現(xiàn)流量變現(xiàn)。答復(fù):滿足。◆廣告主賬號管理管理員賬號可以管理系統(tǒng)中的所有廣告。同時,為了便于廣告主對自己的營銷策略進行控制,通過為廣告主創(chuàng)建私有賬號。廣告主可以用自己的賬號提交廣告訂單,并對廣告的營銷效果進行跟蹤、調(diào)整等。答復(fù):滿足。廣告主所提交的廣告都需要提交管理員進行審核,只有通過審核的廣告才可以進入實際推送系統(tǒng)。這樣做的目的是為了保障系統(tǒng)推送的廣告的合法性,避免非法廣告給網(wǎng)民和廣告平臺帶來干擾。答復(fù):滿足。3、用戶群(人群定向);4、營銷內(nèi)容(廣告素材);5、展現(xiàn)方式(系統(tǒng)支持配置多種展現(xiàn)形式,包括替換、彈窗、嵌入式、無線底通等);6、營銷方式;7、系統(tǒng)每10分鐘會對推送日志進行一次統(tǒng)計,并在業(yè)務(wù)系統(tǒng)中的報表中顯示廣告引導(dǎo)系統(tǒng)對用戶上網(wǎng)請求的HTTPGET報文進行分析,符合廣告推送條件的流量會添加一條廣告引導(dǎo)JS,并連同用戶的請求報文一起發(fā)送到客戶廣告引導(dǎo)系統(tǒng)只負責(zé)判斷用戶的Get報文是否符合推送條件并對符合條件的告狀態(tài)、廣告形式(嵌入式、浮窗)和廣告尺寸等約束條件的限制。Cookiemapping主要用戶將百川自有cookie與運營商流量中的其他域名cookie進行關(guān)聯(lián)。如taobaocookie、百度cookie等,通過cookiemapping技術(shù)打通用戶在不同域名上的行為,從而更全面刻畫用戶行為。頻次控制用于限制每個用戶廣告推送的最大次數(shù),及同一廣告兩次推送時的時間間隔。其中根據(jù)用戶身份標示不同,分為cookie、IP、ADSL頻次控制三種。Cookie頻次控制,是指每個cookie只推送設(shè)定的次數(shù)(如一次);IP頻次控制指每個IP只推送預(yù)訂次數(shù),而無論該IP下有多少臺終端設(shè)備;ADSL頻次是根據(jù)運營商AD賬號,每個賬號僅推送預(yù)訂次數(shù)(每個ADSL可能會動態(tài)更新多個◆標簽定向基于DPI的數(shù)據(jù),根據(jù)用上網(wǎng)時間段的習(xí)慣特征,分析每個用戶上網(wǎng)的主要時間段,通過自定義標簽屬性(例如關(guān)注房產(chǎn)類用戶、母嬰用品類用戶等),定義用戶特征屬性。系統(tǒng)會定期離線對DPI數(shù)據(jù)進行分析挖掘,分析每個用戶的興趣標簽,并將分析結(jié)果導(dǎo)入標簽庫。也支持第三方自定義標簽的離線導(dǎo)入,從而可以利用電信已經(jīng)積累的BI數(shù)據(jù)進行廣告投放。由于用戶興趣的多樣性,支持每個用戶有多個標簽。標簽庫用redis進行管理,支持key-value結(jié)構(gòu)數(shù)據(jù)的快速查詢?!魻顟B(tài)控制用戶賬號、廣告計劃、廣告策略、廣告素材三個層級均有自己的狀態(tài),只有每個層級的狀態(tài)均有效時,廣告才可以真正能夠推送出去。每天投放的時段范圍,如限定每天早晨8點到晚上10點投放。啟用狀態(tài)用于手重定向跳轉(zhuǎn)),才可以推送。戶上個月訪問體育類視頻網(wǎng)站的業(yè)務(wù)流量占了包月套餐數(shù)據(jù)流量的50%(可配置),系統(tǒng)可對用戶推薦專門的體育視頻套餐包供用戶選購。1)內(nèi)存數(shù)據(jù)庫查詢2.系統(tǒng)提供MapReduce定制服務(wù),當SQL語句效率不高時,可以將SQL語2.系統(tǒng)兼容標準的SQL語法,可以通過SQL語句訪問查詢4.系統(tǒng)支持ODBC連接方式,適合WIN應(yīng)用5.系統(tǒng)提供CLI命令接口,適合UNIX應(yīng)用在線報表要求5.4集成方案要求6.1軟件要求6.1.1軟件總體要求當有新軟件版本時,投標方應(yīng)承諾免費更新軟件版本(軟件終身免費升級),6.1.2軟件詳細要求10)應(yīng)用軟件系統(tǒng)的各個軟件功能模塊應(yīng)滿足本規(guī)范書和中國電信浙江公司12)應(yīng)用軟件應(yīng)采用友好的圖形化窗口的用戶操作界面,可操作性強,而且13)應(yīng)用軟件應(yīng)具備一套完備的數(shù)據(jù)管理系統(tǒng)和進程調(diào)度系統(tǒng),以保證系統(tǒng)14)應(yīng)用軟件支持分布式數(shù)據(jù)管理,支持多數(shù)據(jù)源間的訪問連接,能方便地15)應(yīng)用程序還應(yīng)采用參數(shù)驅(qū)動的設(shè)計思想,在應(yīng)用程序中,凡是不能確定17)投標方在向甲方推薦軟件產(chǎn)品時,必須根據(jù)所提供的軟件產(chǎn)品對每個組18)投標方提供的軟件在不同時期軟件版本應(yīng)能向下兼容,軟件版本易于升19)投標方應(yīng)說明目前所使用軟件的實際運行時間以及升級完善的計劃進度6.2硬件要求型號(寬×深×重量(KG)(滿配置)電源路數(shù)電壓(V)電流(A)設(shè)備電源線7項目管理要求7.1項目組織1~2名的專家人員(專家不少于3年Hadoop相關(guān)工作經(jīng)驗,以及不少于一家省的工作方式(現(xiàn)場操作/遠程技術(shù)支持),及其工作時長(按小時計算)。在工甲方主要職責(zé)、配合職責(zé)(針對各環(huán)節(jié))投標方主要職責(zé)、配合職責(zé)(針對各環(huán)節(jié))第三方職責(zé)(如果存在需要)(1)投標方提供的書面技術(shù)資料應(yīng)能滿足確保系統(tǒng)正常運行所需的管理、(2)在現(xiàn)場調(diào)試和試運行過程中投標方如果對軟件、硬件作了改動,則必(3)要求每個節(jié)點提供全套技術(shù)文件五份。2)在保修期內(nèi)硬件應(yīng)免費更換和維修,投標能超過4小時,所有這些都應(yīng)是免費的。(2)在現(xiàn)場調(diào)試和試運行過程中投標方如果對軟件、硬件作了改動,大數(shù)據(jù)平臺是第三代數(shù)據(jù)處理技術(shù)HadoopHadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不對外部客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)。可以創(chuàng)建、刪除、移動或重命名文件,等等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的,這是由它自身的特點決定的。這些節(jié)點包括:NameNode,它在HDFS內(nèi)部提供元存儲在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議。NameNode是一個通常在HDFS實例中的單獨機器上運行的軟件。它負責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。NameNode決定是否將文件映射到DataNode上的復(fù)制塊上。對于最常見的3個復(fù)制塊,第一個復(fù)制塊存儲在同一機架的不同節(jié)點上,最后一個復(fù)制塊存儲在不同機架的某個節(jié)點上。實際的I/0事務(wù)并沒有經(jīng)過NameNode,只有表示DataNode和塊的文件映射的元數(shù)據(jù)經(jīng)過NameNode。當外部客戶機發(fā)送請求要求創(chuàng)建文件時,NameNode會以塊標識和該塊的第一個副本的DataNodeIP地址作為響應(yīng)。這個NameNode還會通知其他將要接收該塊的副本的DataNode。NameNode在一個稱為Fslmage的文件中存儲所有關(guān)于文件系統(tǒng)名稱空間的信息。這個文件和一個包含所有事務(wù)的記錄文件(這里是EditLog)將存儲在DataNode也是一個通常在HDFS實例中的單獨機器上運行的軟件。DataNode通常以機架的形式組織,機架通過一個交換機將所有系統(tǒng)連接起來。Hadoop的一個假設(shè)是:機架內(nèi)部節(jié)點之間的傳輸速度快于機架間節(jié)點的傳輸速度。DataNode響應(yīng)來自HDFS客戶機的讀寫請求。它們還響應(yīng)創(chuàng)建、刪除和復(fù)制將采取修復(fù)措施,重新復(fù)制在該節(jié)點上丟失的塊。HDFS的主要目的是支持以流的形式訪問寫入的大型文件。如果客戶機想將文件寫到HDFS上,首先需要將該文件緩存到本地的臨時存儲。如果緩存的數(shù)據(jù)DataNode標識和目標塊響應(yīng)客戶機。同時也通知將要保存文件塊副本的DataNode。當客戶機開始將臨時文件發(fā)送給第一個DataNode時,將立即通過管道方式將塊內(nèi)容轉(zhuǎn)發(fā)給副本DataNode??蛻魴C也負責(zé)創(chuàng)建保存在相同HDFS名稱件創(chuàng)建提交到它的持久化元數(shù)據(jù)存儲(在EditLog和Fslmage文件)。函數(shù)和一個main函數(shù)。main函數(shù)將作業(yè)控制和文件輸入/輸出結(jié)合起來。在這點上,Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。MapReduce本身就是用于并行處理大數(shù)據(jù)集的軟件框架。MapReduce的根源是函數(shù)性編程中的map和reduce函數(shù)。它由兩個可能包含有許多實例(許多Map和Reduce)的操作組成。Map函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個鍵/值對列表,輸入域中的每個元素對應(yīng)一個鍵/值對。Reduce函數(shù)接受Map函數(shù)生成的列表,然后根據(jù)它們的鍵(為每個鍵生成一個鍵/值對)縮小鍵/值對列表。這里提供一個示例,幫助您理解它。假設(shè)輸入域是上運行Map函數(shù)將得出以下的鍵/值對列表:浙江電信大數(shù)據(jù)運營平臺系統(tǒng)架構(gòu)如下:分析和運典分析,云計算|移動應(yīng)用|安全性整個大數(shù)據(jù)平臺分為五個層次:●信息整合與治理主要職能就是完成數(shù)據(jù)的采集和清洗工作包括Hadoop系統(tǒng)以及流式計算,包括數(shù)據(jù)倉庫等數(shù)據(jù)出路組件利用國際最新的Spark并行處理架構(gòu),通過內(nèi)存緩存的技術(shù),實現(xiàn)批處理作業(yè)的加速,提高數(shù)據(jù)分析作業(yè)的處理效率。包括數(shù)據(jù)可視化以及應(yīng)用程序開發(fā)與作業(yè)調(diào)度,同時提供了完備的系統(tǒng)管理功能。支持BI智能分析、行業(yè)分析、DSP廠商等各種大數(shù)據(jù)分析應(yīng)用浙江電信大數(shù)據(jù)運營平臺功能模塊如下:AAA數(shù)據(jù)采集清洗OIDD數(shù)據(jù)采集清洗ODS數(shù)據(jù)采集清洗>系統(tǒng)采用文件方式采集清洗3GDPI數(shù)據(jù)>系統(tǒng)采用文件方式采集清洗ODS數(shù)據(jù)>系統(tǒng)可以靈活調(diào)度作業(yè)資源,已保證每個作業(yè)都能獲得相應(yīng)的系統(tǒng)資>系統(tǒng)采用KDC(KeyDistributionCenter)安全認證中心實現(xiàn)用戶安>系統(tǒng)提供SQL語句優(yōu)化及MapReduce定制服務(wù),優(yōu)化廠商作業(yè)性能。統(tǒng)統(tǒng)一用戶管理系統(tǒng)可以根據(jù)流量分發(fā)規(guī)則,對數(shù)據(jù)流量進行精確控制分發(fā)。系統(tǒng)對符合廣告推送條件的流量進行廣告引導(dǎo)推送。4.2大數(shù)據(jù)處理子平臺平臺安全管控系統(tǒng)支持基于多租戶的資源管理,可以為每個租戶分配獨立的存儲空間3)空間限額2)容量設(shè)置3)可用容量4)最大容量8)隊列中并發(fā)task上限值11)初始化后并發(fā)執(zhí)行的job數(shù)●資源套餐管理系統(tǒng)可以設(shè)置資源套餐,套餐內(nèi)容包含存儲空間(HDFS)和計算資源(MRSlot)。用戶開通業(yè)務(wù)時,只需選擇相應(yīng)的套餐即可。平臺數(shù)據(jù)授權(quán)系統(tǒng)提供基于多租戶的數(shù)據(jù)授權(quán),可以控制各租戶的數(shù)據(jù)訪問權(quán)限,包括:1.hive表數(shù)據(jù)訪問權(quán)限Hive表權(quán)限管理內(nèi)容包括:●系統(tǒng)可以設(shè)置用戶的HIVE表訪問權(quán)限,并允許用戶訪問授權(quán)的HIVE表,用戶不能使用非授權(quán)的HIVE表?!裼脩魶]有創(chuàng)建/刪除HIVE表的操作權(quán)限。HIVE表只能由系統(tǒng)管理員統(tǒng)一創(chuàng)建/刪除?!裼脩艨梢栽黾?修改/刪除HIVE表里的字段,也可以增加/修改/刪除HIVE表里字段的內(nèi)容?!馠IVE表權(quán)限管理內(nèi)容包括:1)表名2)所屬數(shù)據(jù)庫3)操作權(quán)限,包括八種權(quán)限:2.hbase表數(shù)據(jù)訪問權(quán)限用戶不能查看Hbase中非授權(quán)表的內(nèi)容?!穸鄠€用戶可以同時操作同一個指定的表;●用戶可以增加/修改/刪除HBASE表里的字段,也可以增加/修改/刪除3)操作權(quán)限,包括四種權(quán)限:—R(只讀)—W(可寫)—C(創(chuàng)建修改刪除)—A(控制)3.字段級訪問權(quán)限系統(tǒng)通過授權(quán)文件Token可以實現(xiàn)字段級控制,如下圖所示:UserAgentDestinatio2012080109:13:00/61.152.10866ck1=;tg=0;平臺統(tǒng)一管理包括集群參數(shù)配置、節(jié)點參數(shù)配置、組件參數(shù)配置和用戶管理。1.集群參數(shù)配置集群參數(shù)包含:一集群名稱一備機名稱—節(jié)點名稱—節(jié)點地址—網(wǎng)卡設(shè)備—廣播地址Bcast—狀態(tài)等信息。一組件配置類型選擇,提供Hadoop,Hbase,Hive,zookeeper—組件配置文件選擇等信息。平臺用戶管理包含用戶管理和群組管理,可以增加刪除hadoop用戶群組信1)用戶名稱2)群組名稱1)基本信息2)用戶名3)所在用戶組5)文件數(shù)限額6)空間限額8)所屬隊列集中監(jiān)控告警管理1.節(jié)點運行狀態(tài)監(jiān)控通過圖形化界面直觀顯示節(jié)點運行狀態(tài)和性能數(shù)據(jù),包括節(jié)點負荷、存儲能—1分鐘負荷—5分鐘負荷—15分鐘負荷—CPU使用率—內(nèi)存使用率—硬盤使用率。1)查看HDFS概況,包括:一狀態(tài):當前集群的HDFS運行狀態(tài)?!?cè)萘浚寒斍凹旱腍DFS配置的數(shù)據(jù)存儲空間的總?cè)萘??!S嗳萘浚寒敿篐DFS處于運行狀態(tài)時顯示,記錄當前集群的剩余數(shù)—數(shù)據(jù)節(jié)點:當前集群的HDFS配置的總數(shù)據(jù)節(jié)點數(shù)量及當前正在運行的—顯示HDFS文件系統(tǒng)的文件參數(shù)(名稱/用戶/組/權(quán)限/文件大小/修改一雙擊任務(wù)查看任務(wù)詳細信息,包括作業(yè)類型、作業(yè)進度、作業(yè)數(shù)、待1)查看HIVE概況,包括:2)業(yè)務(wù)表瀏覽3)合同執(zhí)行情況管理:合同執(zhí)行狀態(tài)、合同執(zhí)行進度、合同執(zhí)行偏差評估1)數(shù)據(jù)出售類產(chǎn)品:通過對電信數(shù)據(jù)資源進行脫敏、加工、進行出售。這類數(shù)據(jù)產(chǎn)品根據(jù)數(shù)據(jù)所涉及的地理屬性,2)數(shù)據(jù)咨詢類產(chǎn)品:通過對數(shù)據(jù)的分析、挖掘,面向不同的行業(yè)提供咨詢4)解決方案產(chǎn)品:這類產(chǎn)品只面向合作伙伴,因為解決方合行業(yè)合作伙伴,整合自有數(shù)據(jù)、自有渠道、合作伙伴渠道2)內(nèi)部結(jié)算依據(jù)考核計劃、考核結(jié)果、關(guān)聯(lián)>大數(shù)據(jù)平臺的查詢服務(wù)可按照查詢次數(shù)或者包月服務(wù)來計費;>大數(shù)據(jù)平臺的資源使用包括了存儲、運算和數(shù)據(jù)三類,其中數(shù)據(jù)資源根據(jù)字離線標簽服務(wù)4.3數(shù)據(jù)匯聚子平臺浙江電信11個地市的寬帶DPI數(shù)據(jù)通過CN2網(wǎng)絡(luò)匯聚到大數(shù)據(jù)平臺。如下干兆帶DP接口服務(wù)器5大數(shù)據(jù)平臺不僅支持寬帶DPI文件匯聚,同時支持寬帶DPI數(shù)據(jù)流實時匯大數(shù)據(jù)平臺實時采集清洗寬帶DPI數(shù)據(jù)流,處理流程如下圖所示:文件1.Kafka消息系統(tǒng)實時接收前端寬帶DPI數(shù)據(jù)流;2.Kafka消息系統(tǒng)將接收到的寬帶DPI數(shù)據(jù)流分發(fā)至同步標簽和實時入庫兩3.同步標簽?zāi)K采用Storm組件實時處理寬帶DPI數(shù)據(jù)流,為寬帶DPI數(shù)據(jù)>一類是非瀏覽器發(fā)起的http請求;另一類是瀏覽器發(fā)起的非用戶點擊請求;發(fā)起的任意主動點擊行為)。通過清洗規(guī)則的設(shè)定,實現(xiàn)“用戶有效點擊”的規(guī)則庫1:根據(jù)后綴過濾圖片、腳本等"js?""jpg""jpegpnggifcssswf規(guī)則庫2:過濾帶有指定特征字符串的urlallyescomcprobaiducomcachegoogcomadma規(guī)則庫3:過濾重復(fù)包針對多條URL請求的規(guī)則規(guī)則庫4:識別非頁面類型請求(包含Js發(fā)出的請求)針對單條URL的規(guī)則規(guī)則庫5:保留白名單中的請求針對單條URL的規(guī)則httpwwwbaiducomhttpcnbingcomsearchhttpw.hk/search系統(tǒng)通過FTP方式采集3GDPIGDPI大數(shù)據(jù)平臺獲取Radius數(shù)據(jù),將用戶上網(wǎng)撥號AAA過程中IP和AD信息的導(dǎo)入,匹配用戶實現(xiàn)獨立運行的AAAradius解報文模塊,實時提取AAA報文中的AttributeValuePairs中的對應(yīng)報文段UserNameFramedIPAddress數(shù)據(jù)采集清洗軟件數(shù)據(jù)采集清洗軟件OIDD文件通過分布式ETL工具Kettle寫入HDFS。碼)__(用戶號(開始時間)(基站)(上電標記)#DetailedTablelnformationDatabase:oiddprodinstnum_starttime___datelabe|stringstringstringstringstring(用戶號碼)(開始時間)(基站)(扇區(qū))(上電標記)4.3.50DS數(shù)據(jù)采集清洗系統(tǒng)通過FTP方式采集ODS文件,ODS數(shù)據(jù)采集清洗網(wǎng)絡(luò)架構(gòu)如下:大數(shù)據(jù)平臺ODS文件通過分布式ETL工具Kettle寫入HDFS_stringstringstringstring(帳號<加密>)(用戶年齡)(用戶性別)(用戶類型)_guangwangflagaconnectcollegeagrmntconstexpdtstringstringstringstringstringstringstringstringstringstringstringstringstringstring(寬帶訪問類型)(活躍操作頻度)(最后更新日期)lnformationdatatype#DetailedTablelnformationDatabase:ods數(shù)據(jù)脫敏也被稱為數(shù)據(jù)混淆、數(shù)據(jù)保密、數(shù)據(jù)消毒、數(shù)據(jù)擾頻、數(shù)據(jù)匿名化和數(shù)據(jù)認證。采用數(shù)據(jù)脫敏技術(shù),可以幫助大數(shù)據(jù)平臺提高安全性和保密等級,以防止其數(shù)據(jù)被濫用,同時滿足集團對數(shù)據(jù)安全性的規(guī)范要求,以及由管理/審計機關(guān)所要求的隱私標準。從實現(xiàn)手段上看,針對不同的數(shù)據(jù)內(nèi)容,會有多種數(shù)據(jù)脫敏方式。在Hadoop平臺上,利用采集清洗及流處理的功能,可以實現(xiàn)對各個字段,針對性的脫敏處理,并且保證在數(shù)據(jù)進入hadoop之前已經(jīng)是脫敏之后的數(shù)據(jù)。另外針對AD的脫敏尤為關(guān)鍵,AD是唯一能將DPI數(shù)據(jù)關(guān)聯(lián)到ODS客戶數(shù)據(jù)的字段,我們對所有進入大數(shù)據(jù)平臺的AD都統(tǒng)一采用sha-1的加密方式,轉(zhuǎn)換成只有大數(shù)據(jù)平臺能夠認識的客戶唯一標示。需要進行脫敏處理的信息如下:脫敏后寬帶設(shè)備號實際adsha加密結(jié)果(該算法不可反解)用戶年齡實際年齡年齡段信息,如5年一段,取起始數(shù)值顯示,如25表示25-29用戶地址實際地址,精確到戶小區(qū)、樓盤或商圈信息,如武林商圈位置經(jīng)緯度實際經(jīng)緯度精確到0.001,約1000平方米,注:Ing*lat=0.001*0.001(度)=約95.18米*111.32米 用戶姓名實際姓名僅保留用戶姓氏用戶消費情況實際消費金額每150元一檔:0(表示0-149),大數(shù)據(jù)平臺以HDFS為基礎(chǔ),利用HDFS驅(qū)動提供的Format功能,實現(xiàn)解密數(shù)據(jù)數(shù)據(jù)加密后,保證HDFS數(shù)據(jù)透明訪問,同時支持SQL查詢服務(wù)。4.3.8數(shù)據(jù)ETL處理4.3.9作業(yè)智能排隊調(diào)度4.4外部服務(wù)能力子平臺4.4.1標簽查詢服務(wù)5.系統(tǒng)管理該模塊基于nginx+ApacheMINA的框架開發(fā)。其中nginx提供高并發(fā)的對外服務(wù),而ApacheMINA是一個高性能和高可采用基于Token(令牌)的用戶身份驗證機制,使用戶在訪問受保護的服對于通過WebApplication訪問查詢服務(wù)的1)用戶憑借自身的賬戶向電信申請和獲取Token。2)攜帶已獲取的Token查詢有權(quán)限的數(shù)據(jù)標簽4.4.3廠商作業(yè)性能優(yōu)化系統(tǒng)支持SQL語句優(yōu)化,可以解決數(shù)據(jù)傾斜的問題。系統(tǒng)提供MapReduce定制服務(wù),當SQL語句效率不高時,可以將SQL語句轉(zhuǎn)化成高效的MapReduce作業(yè)直接執(zhí)行。我們提供MapReduce定制服務(wù),當SQL語句效率不高時,可以將SQL語句轉(zhuǎn)化成高效的MapReduce作業(yè)直接執(zhí)行。SQL語句會產(chǎn)生大量的中間數(shù)據(jù),從而影響作業(yè)執(zhí)行效率。MapReduce不產(chǎn)生中間數(shù)據(jù)。MapReduce作業(yè)和SQL語句相比較,作業(yè)執(zhí)行效率可以提高3~7倍。4.4.4交互式SQL查詢用戶可以通過圖形化界面定義查詢參數(shù),執(zhí)行自己的查詢?nèi)蝿?wù)。系統(tǒng)接口如下:●系統(tǒng)兼容標準的SQL語法,可以通過SQL語句訪問查詢。●系統(tǒng)支持JDBC連接方式,適合JAVA應(yīng)用?!裣到y(tǒng)支持ODBC連接方式,適合WIN應(yīng)用。●系統(tǒng)提供CLI命令接口,適合UNIX應(yīng)用。●系統(tǒng)支持Corba協(xié)議,適合IDL服務(wù)對象接口。●系統(tǒng)支持SOAP協(xié)議,適合遠程RPC調(diào)用。生成的報表可輸出各種文件格式,如EXCEL、HTMLXMLRTF4.1.3.廣告提單管理首頁首頁動態(tài)定向洞家產(chǎn)品案例分享數(shù)據(jù)技術(shù)關(guān)于我們開通平臺登錄新用戶注冊密碼找回首頁動態(tài)定向洞察產(chǎn)品.廣告提單投放管理包括序號、創(chuàng)意組名稱、所選模板、尺寸(已上傳尺寸數(shù)和未上傳尺寸數(shù))和審8A已上帶10末上歷21過組的審核狀態(tài)上,顯示該創(chuàng)意組創(chuàng)意審核情況;點擊指定創(chuàng)意組右側(cè)的“設(shè)置”按鈕進行創(chuàng)意組設(shè)置;點擊指定創(chuàng)意組右側(cè)的"刪除"按鈕刪除該創(chuàng)意組,如果面對該創(chuàng)意組新建推廣單元設(shè)置投放策略。投放管理通過投放管理-投放管理,進入投放管理頁面。在投放管理頁面可按時間維度查看到推廣單元趨勢圖和推廣單元列表,時間維度包括今天、昨天、本周、上周、本月、上月和近30天,也可點擊時間對話框通過時間控件點擊指定日期自定義查看單元列表信息。本周本周日周一周二周三周四周五周六周日周一周二周三周四周五周六推廣單元趨勢圖可通過下拉框選擇全部推廣計劃或者指定某個推廣單元,還可定義趨勢圖表展示的指標,包括花費、展現(xiàn)數(shù)、點擊數(shù)、平均點擊率和平均點推廣單元列表展示該指定時間內(nèi)的所有推廣計劃,包括推廣單元名稱、狀態(tài)、有效期、每日預(yù)算、展現(xiàn)數(shù)、點擊數(shù)、點擊率、總費用、平均成本、本頁總計和全部總計,可輸入指定推廣計劃名稱進行查詢。鼠標放到推廣單元名稱上,點擊出現(xiàn)的“鉛筆”圖標可在彈出的對話框中修改推廣單元名稱和出價;點擊推廣單元名稱可查看該投放單元對應(yīng)的創(chuàng)意組創(chuàng)意列表,也可對該創(chuàng)意組進行編輯;點2014-12-19-無結(jié)率時間2014-12.20-無結(jié)束時間2014-12-20-無結(jié)束時間000000000000aY2可通過“昨天”、“本周”、"上月"和“本月”按鈕快捷查詢對應(yīng)時間范圍內(nèi)11十月2014十月2014→3展示特定指標數(shù)據(jù)趨勢;圖形報表按照指定的查看方式(6種之一)羅列具體數(shù)銀國國區(qū)山今日0國營π出率室受保護的現(xiàn)面MicrosoftExcelF9好借好證二期2(14216412HRS兩擴經(jīng)地5207HK0I通過對接DPI底層數(shù)據(jù),可以獲取用戶上網(wǎng)請求的HTTPGET報文,對報文碼。新的請求會連同報文發(fā)送到客戶端,客戶端會解析執(zhí)行JS代碼,這個時候4.1.5.廣告計劃檢索人群標簽管理支持私有人群(訪客找回)的管理,包括查詢、新建和編輯操內(nèi)訪問過(或未訪問過)模糊匹配(或者完全匹配)某個url的人群,選擇“或”天內(nèi)訪問過模糊匹配√不含流量套餐用戶提醒大數(shù)據(jù)處理子平臺產(chǎn)品配置清單如下:產(chǎn)品描述1寬帶DPI數(shù)據(jù)采集清洗支持文件方式和數(shù)據(jù)流實時處理方式采集清洗寬帶DPI數(shù)據(jù)23GDPI數(shù)據(jù)采集清洗采用文件方式采集清洗3GDPI數(shù)據(jù)3采用文件方式采集清洗AAA數(shù)據(jù)4采用文件方式采集清洗OIDD數(shù)據(jù)5采用文件方式采集清洗ODS數(shù)據(jù)6采用數(shù)據(jù)脫敏技術(shù),提高大數(shù)據(jù)平臺安全性和保密等級7數(shù)據(jù)加密利用HDFS驅(qū)動提供的Format功能,實現(xiàn)hadoop云平臺系統(tǒng)級、業(yè)務(wù)級數(shù)據(jù)加密8采用分布式ETL并行處理架構(gòu),提高數(shù)倍“數(shù)十倍ETL速度9作業(yè)智能排隊調(diào)度可以靈活調(diào)度作業(yè)資源,已保證每個作業(yè)都能獲得相應(yīng)的系統(tǒng)資源。產(chǎn)品描述1采用KDC(KeyDistributionCenter)安全認證中心實現(xiàn)用戶安全訪問2可以為每個租戶分配獨立的存儲空間(HDFS)和計算資源(MRSlot),實現(xiàn)資源獨立3提供基于多租戶的數(shù)據(jù)授權(quán),可以控制各租戶的數(shù)據(jù)訪問權(quán)限4提供平臺參數(shù)配置和用戶管理5提供平臺運行狀態(tài)監(jiān)控和告警管理6提供客戶管理、合同管理、基礎(chǔ)產(chǎn)品管理、結(jié)算管理等業(yè)務(wù)管理功能。7標簽服務(wù)支持多個同步標簽的服務(wù)程序和多個離線標簽的服務(wù)程序。1標簽查詢服務(wù)采用分布式K-V數(shù)據(jù)庫存放標簽結(jié)果數(shù)據(jù)并提供提供高并發(fā)查詢服務(wù)2支持多個DSP廠商程序算法模型加載和數(shù)據(jù)訪問產(chǎn)品描述3廠商作業(yè)性能優(yōu)化服務(wù)提供SQL語句優(yōu)化及MapReduce定制服務(wù),優(yōu)化廠商作業(yè)性能。4支持交互式SQL查詢,用戶可以通過圖形化界面定義查詢參數(shù),執(zhí)行自己的查詢?nèi)蝿?wù)。5提供在線WEB報表制作發(fā)布服務(wù)。產(chǎn)品描述1可以根據(jù)流量分發(fā)規(guī)則,對數(shù)據(jù)流量進行精確控制分發(fā)。2可以根據(jù)運營商流量的廣告營銷策略進行廣告推送。3提供廣告提單功能。4對符合廣告推送條件的流量進行廣告引導(dǎo)推送。5通過cookie定向、IP分析等用戶分析技術(shù)實現(xiàn)廣告的精準推送。6內(nèi)部業(yè)務(wù)支撐提供用戶流量提醒,并通過用戶流量消費分析可進行流量經(jīng)營營銷。>系統(tǒng)采用文件方式采集清洗3GDPI數(shù)據(jù)>系統(tǒng)采用文件方式采集清洗AAA數(shù)據(jù)>系統(tǒng)采用文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年飲料罐鋁板合作協(xié)議書
- 幼兒園小班下學(xué)期師資培訓(xùn)計劃
- 中醫(yī)科信息化建設(shè)工作計劃
- 五年級學(xué)生心理健康與體育結(jié)合計劃
- 中國平安保險創(chuàng)新產(chǎn)品實習(xí)總結(jié)
- 通訊基站保修管理措施
- 公共交通疫情防疫流程與乘客安全
- 高等院校體育教師教學(xué)法培訓(xùn)心得體會
- 2025-2030文化地產(chǎn)行業(yè)競爭格局分析及投資前景與戰(zhàn)略規(guī)劃研究報告
- 2025-2030乳業(yè)項目可行性研究咨詢報告
- 2024醫(yī)療設(shè)備器械試用協(xié)議書
- DB32T3748-2020 35kV及以下客戶端變電所建設(shè)標準
- 中國近代三種建國方案
- 數(shù)學(xué)奧秘揭秘-揭開數(shù)學(xué)背后的奧秘
- 溫度傳感器Pt100-阻值-溫度對照表(方便實用)
- 《幽門螺桿菌檢測》課件
- 《云南土壤類型》課件
- 小兒肝臟間葉錯構(gòu)瘤課件
- 2022智慧園區(qū)設(shè)計、建設(shè)與驗收技術(shù)規(guī)范
- 河南省濮陽市清豐縣2023-2024學(xué)年八年級上學(xué)期期中生物試題( 含答案解析 )
- 30道智能駕駛工程師崗位常見面試問題含HR問題考察點及參考回答
評論
0/150
提交評論