電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第1頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第2頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第3頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第4頁
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會夏明武xiamingwu@培訓(xùn)專用互聯(lián)網(wǎng)市場大小2011中國互聯(lián)網(wǎng)收入,廣告512億元,增長57%網(wǎng)絡(luò)游戲428億,增長20%;電商7735.6億,增長68%行業(yè)排頭兵凈利潤率估計,廣告35%,網(wǎng)游55%,電商1%,利潤分別為179億,235億,77億假設(shè)2012增長與利潤水平不變,行業(yè)利潤分別為廣告280億,游戲280億,電商130億艾瑞咨詢培訓(xùn)專用互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個方向

培訓(xùn)專用互聯(lián)網(wǎng)數(shù)據(jù)挖掘三個方向

培訓(xùn)專用中國移動數(shù)據(jù)經(jīng)營分析系統(tǒng)10年經(jīng)營分析系統(tǒng)建設(shè),BI是否有用?SAS、SPSS在中國移動市場消失,數(shù)據(jù)挖掘基本失敗,原因?客戶細(xì)分問題?分析報告一定是正確的嗎?培訓(xùn)專用信令數(shù)據(jù)介紹CS域語音主叫語音被叫短信發(fā)送短信接收位置更新開機關(guān)機位置切換培訓(xùn)專用信令數(shù)據(jù)介紹PS域彩信發(fā)送彩信接收WAP連接WAP使用WAP斷開培訓(xùn)專用信令名詞解釋LAC:

locationareacode位置區(qū)碼(移動通信系統(tǒng)中),是為尋呼而設(shè)置的一個區(qū)域,覆蓋一片地理區(qū)域。CELL:

采用基站識別碼或全球小區(qū)識別進(jìn)行標(biāo)識的無線覆蓋區(qū)域叫做小區(qū)。IMSI:

InternationalMobileSubscriberIdentificationNumber國際移動用戶識別碼,是區(qū)別移動用戶的標(biāo)志,儲存在SIM卡中,可用于區(qū)別移動用戶的有效信息。培訓(xùn)專用信令名詞解釋IMEI:InternationalMobileEquipmentIdentity,是國際移動設(shè)備身份碼的縮寫,國際移動裝備辨識碼,是由15位數(shù)字組成的“電子串號”,它與每臺手機一一對應(yīng),而且該碼是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是綜合業(yè)務(wù)數(shù)字網(wǎng),是IntegratedServiceDigitalNetwork的簡稱),即手機號碼。培訓(xùn)專用信令數(shù)據(jù)能做什么?實時營銷(精準(zhǔn)營銷、精確營銷)事件營銷(信令監(jiān)控、信令分析、數(shù)據(jù)挖掘)培訓(xùn)專用基于信令數(shù)據(jù)和客戶統(tǒng)一視圖的數(shù)據(jù)挖掘高中生高中生家長大學(xué)生飛機來港客戶飛機離港客戶景區(qū)游客火車站到達(dá)客戶火車站離開客戶培訓(xùn)專用數(shù)據(jù)挖掘的創(chuàng)新規(guī)則以界面化的方式展示給業(yè)務(wù)人員參數(shù)可調(diào)整,業(yè)務(wù)人員可以根據(jù)業(yè)務(wù)經(jīng)驗調(diào)整業(yè)務(wù)人員可以直接界面執(zhí)行數(shù)據(jù)挖掘,重跑數(shù)據(jù)通過外呼查全和查準(zhǔn)前端界面規(guī)則配置到數(shù)據(jù)庫中環(huán)境發(fā)生大變化時,業(yè)務(wù)人員熟悉模型規(guī)則,就能很方便給研發(fā)提新需求,研發(fā)遠(yuǎn)程開發(fā)后遠(yuǎn)程發(fā)包部署培訓(xùn)專用

實時營銷(精準(zhǔn)營銷、精確營銷)

速度實時合適的時間合適的地點給客戶推薦合適的內(nèi)容培訓(xùn)專用實時營銷(精準(zhǔn)營銷、精確營銷)

案例

兩城一家機場旅客推薦各種套餐高考考生推薦各種業(yè)務(wù)體育場觀眾推薦歌星歌曲培訓(xùn)專用實時營銷(精準(zhǔn)營銷、精確營銷)

流量規(guī)劃功能簡介根據(jù)url實時分類,做實時內(nèi)容營銷url無法分類結(jié)果,可以開發(fā)程序,調(diào)用爬蟲,獲取網(wǎng)站分類規(guī)則,做實時內(nèi)容營銷(socket調(diào)用獲取url分類結(jié)果)根據(jù)搜索關(guān)鍵字,做實時內(nèi)容營銷結(jié)合信令數(shù)根據(jù)IMEI提取終端信息,結(jié)合url分類,做實時流量營銷根據(jù)基站信息,做url實時位置營銷據(jù),實時提取BOSS側(cè)流量信息,當(dāng)流量超標(biāo)時實時提醒(如看視頻超出流量套餐)數(shù)據(jù)來源于信令PS域(Gn、Gb接口)核心規(guī)則處理由標(biāo)準(zhǔn)C程序開發(fā),針對信令數(shù)據(jù)特征優(yōu)化,簡潔高效培訓(xùn)專用中國移動面臨的問題用戶會大規(guī)模從2G遷移到3G,或者是4G3G時代,流量費和2G相比,價格大幅下降。用戶會自主選擇使用什么應(yīng)用。如蘋果的AppStore、谷歌的GooglePlayStore。電信運營商的短信、彩信、手機報等等,對普通大眾,都不在重要,通過套餐包提供就行。3G時代,語音業(yè)務(wù),不再區(qū)分本地、長途、國內(nèi)漫游。培訓(xùn)專用中國移動面臨的問題全國統(tǒng)一套餐有幾十個套餐基本就夠了,不再需要每省幾千、幾萬個套餐,那是一個太龐大、太復(fù)雜系統(tǒng)。3G時代,騰訊微信提供的語音視頻,蘋果FaceTime的視頻通話,都將使語音直接走流量包就可以,套餐中無法再單獨包括語音部分的資費。流量的價格遠(yuǎn)遠(yuǎn)低于語音的價格。這會使電信運營商徹底管道化。變成賣水、賣電一樣的企業(yè)。培訓(xùn)專用中國移動面臨競爭的個人建議培訓(xùn)專用中國移動面臨競爭的個人建議將來的趨勢就是移動互聯(lián)網(wǎng)。中國移動,包括中國聯(lián)通、中國電信,如果自己做不好移動互聯(lián)網(wǎng),那就投資給這些移動互聯(lián)網(wǎng)企業(yè)。合適的多占股份,風(fēng)險大的就少占股份。完全可以向風(fēng)投轉(zhuǎn)變。中國移動也可以繼續(xù)嘗試做各種應(yīng)用,做平臺,和各廠商合作。深挖互聯(lián)網(wǎng)數(shù)據(jù)金礦。培訓(xùn)專用中國移動面臨競爭的個人建議互聯(lián)網(wǎng)時代,電信運營商面臨著和阿里巴巴一樣的問題,互聯(lián)網(wǎng)的大數(shù)據(jù),成本壓力,財報壓力。為了壓縮成本,也需要去做去IOE化運動?,F(xiàn)有系統(tǒng)無需改變,也不必遷移。電信運營商完全可以從零開始,打造一套適應(yīng)互聯(lián)網(wǎng)競爭的新一代互聯(lián)網(wǎng)系統(tǒng)。培訓(xùn)專用中國移動面臨競爭的個人建議未來的實時數(shù)據(jù)倉庫(新一代經(jīng)營分析系統(tǒng))和全國互聯(lián)網(wǎng)數(shù)據(jù)集中化中,在成本壓力,財報壓力,外部競爭壓力加劇,互聯(lián)網(wǎng)企業(yè)顛覆式創(chuàng)新的革命下,也不得不走阿里巴巴曾經(jīng)走的路。投資阿里巴巴、支付寶、騰訊、京東、凡客、庫巴、優(yōu)酷、土豆、新浪、網(wǎng)易、搜狐、攜程、大眾點評網(wǎng)、豆瓣、如家快捷酒店、錦江之星等等。中國移動也可以去做電商。如果覺得自己業(yè)務(wù)運營水平高,可以學(xué)習(xí)亞馬遜、京東做電商,做的更全面。培訓(xùn)專用中國移動面臨競爭的個人建議如果覺得自己國企特色,做不好,可以學(xué)習(xí)阿里巴巴(天貓)、淘寶,做開放平臺。這條路也挺不錯。需要有大魄力才行。培訓(xùn)專用中國移動和百度合作的建議移動互聯(lián)網(wǎng)時代,手機號碼仍然是稀缺資源。百度、騰訊、阿里巴巴三大巨頭,騰訊和阿里巴巴都有自己的號碼(用戶id)資源,這背后代表著用戶信息。百度沒有用戶信息,在移動互聯(lián)網(wǎng)時代處于很大劣勢。移動運營商用戶資源很豐富,信息也很全。中國移動完全可以和百度合作,把用戶信息共享給百度,這樣百度就可以做預(yù)搜索或其它各種工作。中國移動投資百度,資源共享,合作共贏。培訓(xùn)專用

關(guān)于10張標(biāo)簽表,每張表8000萬記錄,每張表幾百幾千個標(biāo)簽字段,關(guān)聯(lián)取數(shù)據(jù),秒級出結(jié)果的高效方法?大數(shù)據(jù)關(guān)聯(lián)查詢創(chuàng)新案例培訓(xùn)專用方案1:數(shù)據(jù)庫內(nèi)方案

把所有客戶統(tǒng)一視圖大標(biāo)簽寬表先按地市分表,再按號碼分別拆分為10000張表。每張小表中包括所有需要的幾百、幾千個字段。小表總表數(shù)為1萬到幾萬之間,詳細(xì)為地市數(shù)量*1000。有的省份,小表數(shù)據(jù)量為2000條到8000條。前端訪問時,不再需要做多表sql關(guān)聯(lián),數(shù)據(jù)量級別為千行級的單表sql查詢語句速度也很快。起10000個線程并發(fā)執(zhí)行,可以做到實時。培訓(xùn)專用方案2:數(shù)據(jù)庫外方案

把所有客戶統(tǒng)一視圖大標(biāo)簽寬表按地市分文件,再按號碼繼續(xù)拆分為1000個文件。每個小文件中包括所有需要的幾百、幾千個字段。小文件總數(shù)量為1萬到幾萬之間,詳細(xì)為地市數(shù)量*1000。如果是直轄市,直接拆分為10000個小文件。使用標(biāo)準(zhǔn)C,開發(fā)出處理程序,并發(fā)啟動1萬到幾萬個線程,每個線程把小文件數(shù)據(jù)加載到各自內(nèi)存中。當(dāng)需要處理數(shù)據(jù)時,實用LUA來訪問數(shù)據(jù),每個線程需要處理的數(shù)據(jù)量為千行級??傮w速度應(yīng)該在毫表級,可以實時把數(shù)據(jù)回傳給前端。像有的省,如果地市用戶提取客戶群,則同樣只需訪問此地市的1000個小內(nèi)存文件,速度能更快。培訓(xùn)專用方案1細(xì)節(jié):表文件、和線程的數(shù)量可以根據(jù)實際需要調(diào)整,可以調(diào)整到100張表、1000張表、或者是100個文件、1000文件、再或者是100個線程、1000個線程。具體還需要查詢資料,依據(jù)現(xiàn)場機器配置,做性能調(diào)優(yōu)而定。如果并發(fā)線程壓力太大的話,可以考慮改為減少并發(fā)線程數(shù),或者改為串行。當(dāng)數(shù)據(jù)無法做大表關(guān)聯(lián)時,每次只需從單行記錄就可去到。培訓(xùn)專用方案1細(xì)節(jié):分表或分文件時,按手機號碼尾號2位或3位來分,手機號碼尾號本身是均勻的。在同一地市的小表中,每張小表的數(shù)據(jù)量是基本接近相同的。地市之間,考慮到不同地市的用戶數(shù)不同,則可以對不同地市的分表或分文件數(shù)量做優(yōu)化,用戶數(shù)多的地市分表和文件多,用戶數(shù)少的地市分表或文件少,盡量和所有的100、1000或10000以上的表或文件中數(shù)據(jù)量保持一致,這樣并發(fā)處理線程同時處理,完成時間也能基本相同。

培訓(xùn)專用方案2細(xì)節(jié):數(shù)據(jù)為每月或每日凌晨初始化讀入,載入到內(nèi)存后。在上班時間訪問,直接查詢內(nèi)存靜態(tài)數(shù)據(jù),速度快,但也涉及到內(nèi)存分配太大的問題。此時,需要考慮做并發(fā)或者分布式處理。涉及到硬件投資增加問題,不建議采購小型機,改為采購刀片服務(wù)器或其它服務(wù)器。數(shù)據(jù)也可采用前端調(diào)用時再動態(tài)加載,根據(jù)機器配置,讓線程分批次加載數(shù)據(jù)并處理。這樣對硬件要求低,但速度相對會慢。培訓(xùn)專用方案2細(xì)節(jié):前端向后臺通信采取socket方式,后臺處理完數(shù)據(jù)后,可以把最終數(shù)據(jù)合并,再加載到數(shù)據(jù)庫中的表,也可以由各線程把各自數(shù)據(jù)分批插入到數(shù)據(jù)庫中的表。數(shù)據(jù)加載完成后,再通過socket通知前端處理完畢。LUA具體如何處理和優(yōu)化,細(xì)節(jié)尚待研究,需要花時間。細(xì)致工作還有很多,需要繼續(xù)研究和深入下去。培訓(xùn)專用方案2細(xì)節(jié):如果要考慮到硬件成本、分布式部署、開發(fā)時間和難度問題,可以接下來優(yōu)化為采用hadoop方案。采用hadoop方案后,整體數(shù)據(jù)量在千萬級,有些省例外,到了億級。硬件投資改為采購幾臺PC

Server,硬件投入為幾萬元。數(shù)據(jù)都在庫外處理,NOSQL方式,數(shù)據(jù)庫可以改為使用開源數(shù)據(jù)庫MySQL,存放配置信息。這樣DB2、Oracle或其它數(shù)據(jù)庫都可以替換掉。培訓(xùn)專用方案2細(xì)節(jié):整體來說,實用hadoop方式或庫外標(biāo)準(zhǔn)C開發(fā)方式后,可以更有效減少中國移動在硬件上的投入,在數(shù)據(jù)庫的投入??梢园压?jié)省的成本投一部分到應(yīng)用軟件廠商上。這樣,中國移動就可以和應(yīng)用軟件廠商實現(xiàn)共贏。這也是IT業(yè)界的發(fā)展趨勢。至于hadoop方案,客戶統(tǒng)一視圖標(biāo)簽月表每月生成一次,日表每日按生產(chǎn)一次。生成后為靜態(tài)數(shù)據(jù),每日上班時間數(shù)據(jù)不會更新,為靜態(tài)數(shù)據(jù)。培訓(xùn)專用方案2細(xì)節(jié):基于此特點,可以在每日凌晨把客戶統(tǒng)一視圖數(shù)據(jù)加載到hadoop中,白天訪問時直接查詢數(shù)據(jù),速度快,效率高。數(shù)據(jù)加載到內(nèi)存數(shù)據(jù)庫中做查詢,我目前用到的是solo+lucene,有的同事用的是MongoDB。云計算方案,應(yīng)該是可以考慮借鑒谷歌做搜索查詢這塊的成功經(jīng)驗。云計算方案,貌似用流計算也不錯。Yahoo

的S4聽說挺不錯。培訓(xùn)專用微薄友的點評:得意的那些事兒大表,谷歌的bigtable是最佳實踐blueprint,思想可以參考。從分表分庫轉(zhuǎn)向規(guī)模的bigdatarebalance。這才是所有的性能優(yōu)化的起源和本質(zhì)。這里面cap理論和dht算法是技術(shù)實現(xiàn)原理。當(dāng)然mapreduce大大簡化了數(shù)據(jù)的normalize和并行計算。hadoop的出現(xiàn)提供了這些。各種混合架構(gòu)只是在融合實時處理而已…不勝人生一場醉PMBAR每秒上百G的吞吐量,我不認(rèn)為關(guān)系數(shù)據(jù)庫和幾臺PC服務(wù)器能搞的定培訓(xùn)專用微薄友的點評:風(fēng)流搞技術(shù)用oracle就麻煩了,最多1000列,超255列,會帶來過多IO,非關(guān)系型數(shù)據(jù)庫解決此類問題應(yīng)該在行原來遠(yuǎn)去如果自己采用寫程序在內(nèi)存里面做關(guān)聯(lián)計算,mysql之類只是做數(shù)據(jù)備份存儲,倒是有可能。熱數(shù)據(jù)全在內(nèi)存里面,只是冷數(shù)據(jù)需要查一下mysql。冷熱處理有些難度。同時內(nèi)存利用率這塊怎樣控制,否則很容易爆掉。自己寫,涉及一個distinct,groupby之類,秒級計算出結(jié)果,困難比較大。培訓(xùn)專用《論中國》西方戰(zhàn)略家思考如何在關(guān)鍵點上集結(jié)優(yōu)勢兵力,而孫子研究如何在政治和心理上取得優(yōu)勢地位,從而確保勝利。西方戰(zhàn)略家通過打勝仗檢驗自己的理論,孫子則通過不戰(zhàn)而勝檢驗自己的理論。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論