




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
電信行業(yè)數(shù)據(jù)挖掘與大數(shù)據(jù)心得體會夏明武xiamingwu@互聯(lián)網(wǎng)市市場大小小2011中國互聯(lián)聯(lián)網(wǎng)收入入,廣告告512億元,增增長57%網(wǎng)絡(luò)游戲戲428億,增長長20%;電商7735.6億,增長長68%行業(yè)排頭頭兵凈利利潤率估估計,廣廣告35%,網(wǎng)游55%,電商1%,利潤分分別為179億,235億,77億假設(shè)2012增長與利利潤水平平不變,,行業(yè)利利潤分別別為廣告告280億,游戲戲280億,電商商130億艾瑞咨詢詢互聯(lián)網(wǎng)數(shù)數(shù)據(jù)挖掘掘三個方方向廣告水軍軍剔除剔除水軍軍,可以以大大減減少廣告告開支、、節(jié)約成成本。這這是節(jié)流流。商品推薦薦這一塊可可以參考考amazon的商品推推薦,現(xiàn)現(xiàn)在電商商都在學(xué)學(xué)amazon的商品推推薦,只只是都做做得不好好。這一一塊做好好可以增增加銷售售量。帶帶來真金金白銀。。這也就就是開源源。社交網(wǎng)絡(luò)絡(luò)分析等等現(xiàn)在新浪浪微薄的的數(shù)據(jù)質(zhì)質(zhì)量最高高,大有有可為。。目前已已經(jīng)有很很多公司司在新浪浪上做社社會化網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)據(jù)挖掘,,但還可可以容納納更多公公司。
上周,美美國小型型音樂公公司LimitedRun宣布他們們確信其其在Facebook上的廣告告點擊有有超過80%來自于機機器人程程序,并并表示將將會向Facebook追究此事事。http://///internet//detail_2012__08//16//16845392__0.shtml@wx伍星:真心覺覺得直接接的收入入才驅(qū)動動數(shù)據(jù)分分析挖掘掘的發(fā)展展,廣告告,電商商,游戲戲行業(yè)的的挖掘分分析,較較web網(wǎng)站挖掘掘分析先先進很多多回復(fù)@孫晗:這是真真實的人人際社會會,所填填信息比比較真實實和準確確,能得得到大量量其它信信息根本本不可能能產(chǎn)生的的信息。。//@孫晗:為何說新新浪的數(shù)數(shù)據(jù)質(zhì)量量高咧互聯(lián)網(wǎng)數(shù)數(shù)據(jù)挖掘掘三個方方向中國移動動數(shù)據(jù)經(jīng)經(jīng)營分析析系統(tǒng)10年經(jīng)營分分析系統(tǒng)統(tǒng)建設(shè),,BI是否有用用?SAS、SPSS在中國移移動市場場消失,,數(shù)據(jù)挖挖掘基本本失敗,,原因??客戶細分分問題??分析報告告一定是是正確的的嗎?信令數(shù)據(jù)據(jù)介紹CS域語音主叫叫語音被叫叫短信發(fā)送送短信接收收位置更新新開機關(guān)機位置切換換信令數(shù)據(jù)據(jù)介紹PS域彩信發(fā)送送彩信接收收WAP連接WAP使用WAP斷開信令名詞詞解釋LAC:locationareacode位置區(qū)碼碼(移移動通信信系統(tǒng)中中),是為尋呼呼而設(shè)置置的一個個區(qū)域,覆蓋一片片地理區(qū)區(qū)域。CELL:采用基站站識別碼碼或全球球小區(qū)識識別進行行標識的的無線覆覆蓋區(qū)域域叫做小小區(qū)。IMSI:InternationalMobileSubscriberIdentificationNumber國際移動動用戶識識別碼,,是區(qū)別別移動用用戶的標標志,儲儲存在SIM卡中,可可用于區(qū)區(qū)別移動動用戶的的有效信信息。信令名詞詞解釋IMEI:InternationalMobileEquipmentIdentity,是國際際移動設(shè)設(shè)備身份份碼的縮縮寫,國國際移動動裝備辨辨識碼,,是由15位數(shù)字組組成的“電子串號號”,它它與每臺臺手機一一一對應(yīng)應(yīng),而且且該碼是是全世界界唯一的的。MSISDN::MobileSubscriberInternationalISDN//PSTNnumber((ISDN即是綜合業(yè)務(wù)務(wù)數(shù)字網(wǎng)網(wǎng),是IntegratedServiceDigitalNetwork的簡稱),即手機機號碼。。信令數(shù)據(jù)據(jù)能做什什么?實時營銷銷(精準準營銷、、精確營營銷)事件營銷銷(信令令監(jiān)控、、信令分分析、數(shù)數(shù)據(jù)挖掘掘)基于信令令數(shù)據(jù)和和客戶統(tǒng)統(tǒng)一視圖圖的數(shù)據(jù)據(jù)挖掘高中生高中生家家長大學(xué)生飛機來港港客戶飛機離港港客戶景區(qū)游客客火車站到到達客戶戶火車站離離開客戶戶數(shù)據(jù)挖掘掘的創(chuàng)新新規(guī)則以界界面化的的方式展展示給業(yè)業(yè)務(wù)人員員參數(shù)可調(diào)調(diào)整,業(yè)業(yè)務(wù)人員員可以根根據(jù)業(yè)務(wù)務(wù)經(jīng)驗調(diào)調(diào)整業(yè)務(wù)人員員可以直直接界面面執(zhí)行數(shù)數(shù)據(jù)挖掘掘,重跑跑數(shù)據(jù)通過外呼呼查全和和查準前端界面面規(guī)則配配置到數(shù)數(shù)據(jù)庫中中環(huán)境發(fā)生生大變化化時,業(yè)業(yè)務(wù)人員員熟悉模模型規(guī)則則,就能能很方便便給研發(fā)發(fā)提新需需求,研研發(fā)遠程程開發(fā)后后遠程發(fā)發(fā)包部署署實時營銷銷(精準準營銷、、精確營營銷)速度實時時合適的時時間合適的地地點給客戶推推薦合適適的內(nèi)容容實時營銷銷(精準準營銷、、精確營營銷)案例兩城一家家機場旅客客推薦各各種套餐餐高考考生生推薦各各種業(yè)務(wù)務(wù)體育場觀觀眾推薦薦歌星歌歌曲實時營銷銷(精準準營銷、、精確營營銷)流量規(guī)劃劃功能簡簡介根據(jù)url實時分類類,做實實時內(nèi)容容營銷url無法分類類結(jié)果,可以開發(fā)發(fā)程序,,調(diào)用爬爬蟲,獲獲取網(wǎng)站站分類規(guī)規(guī)則,做做實時內(nèi)內(nèi)容營銷銷(socket調(diào)用獲取取url分類結(jié)果果)根據(jù)搜索索關(guān)鍵字字,做實實時內(nèi)容容營銷結(jié)合信令令數(shù)根據(jù)據(jù)IMEI提取終端端信息,,結(jié)合url分類,做做實時流流量營銷銷根據(jù)基站站信息,,做url實時位置置營銷據(jù),實時時提取BOSS側(cè)流量信信息,當當流量超超標時實實時提醒醒(如看看視頻超超出流量量套餐))數(shù)據(jù)來源源于信令令PS域(Gn、Gb接口)核心規(guī)則則處理由由標準C程序開發(fā)發(fā),針對對信令數(shù)數(shù)據(jù)特征征優(yōu)化,,簡潔高高效中國移動動面臨的的問題用戶會大大規(guī)模從從2G遷移到3G,或者是是4G3G時代,流流量費和和2G相比,價價格大幅幅下降。。用戶會會自主選選擇使用用什么應(yīng)應(yīng)用。如如蘋果的的AppStore、谷歌的的GooglePlayStore。電信運營營商的短短信、彩彩信、手手機報等等等,對對普通大大眾,都都不在重重要,通通過套餐餐包提供供就行。。3G時代,語語音業(yè)務(wù)務(wù),不再再區(qū)分本本地、長長途、國國內(nèi)漫游游。中國移動動面臨的的問題全國統(tǒng)一一套餐有有幾十個個套餐基基本就夠夠了,不不再需要要每省幾幾千、幾幾萬個套套餐,那那是一個個太龐大大、太復(fù)復(fù)雜系統(tǒng)統(tǒng)。3G時代,騰騰訊微信信提供的的語音視視頻,蘋蘋果FaceTime的視頻通通話,都都將使語語音直接接走流量量包就可可以,套套餐中無無法再單單獨包括括語音部部分的資資費。流量的價價格遠遠遠低于語語音的價價格。這這會使電電信運營營商徹底底管道化化。變成賣水水、賣電電一樣的的企業(yè)。。中國移動動面臨競競爭的個個人建議議電信運營營商可以以一方面面收購使使用水、、使用電電的的上上下游公公司的股股份??梢钥紤]慮成立投投資公司司做投資資。收購騰訊訊的部分分股權(quán),,支持騰騰訊,騰騰訊發(fā)展展壯大,,中國移移動也能能跟著獲獲益。中國移動動入股,,買下雅雅虎所占占股份。。也可以以投資支支付寶。。中國移動動面臨競競爭的個個人建議議將來的趨趨勢就是是移動互互聯(lián)網(wǎng)。。中國移移動,包包括中國國聯(lián)通、、中國電電信,如如果自己己做不好好移動互互聯(lián)網(wǎng),,那就投投資給這這些移動動互聯(lián)網(wǎng)網(wǎng)企業(yè)。。合適的多多占股份份,風險險大的就就少占股股份。完完全可以以向風投投轉(zhuǎn)變。。中國移動動也可以以繼續(xù)嘗嘗試做各各種應(yīng)用用,做平平臺,和和各廠商商合作。。深挖互互聯(lián)網(wǎng)數(shù)數(shù)據(jù)金礦礦。中國移動動面臨競競爭的個個人建議議互聯(lián)網(wǎng)時時代,電電信運營營商面臨臨著和阿阿里巴巴巴一樣的的問題,,互聯(lián)網(wǎng)網(wǎng)的大數(shù)數(shù)據(jù),成成本壓力力,財報報壓力。。為了壓縮縮成本,,也需要要去做去去IOE化運動?!,F(xiàn)有系統(tǒng)統(tǒng)無需改改變,也也不必遷遷移。電信運營營商完全全可以從從零開始始,打造造一套適適應(yīng)互聯(lián)聯(lián)網(wǎng)競爭爭的新一一代互聯(lián)聯(lián)網(wǎng)系統(tǒng)統(tǒng)。中國移動動面臨競競爭的個個人建議議未來的實實時數(shù)據(jù)據(jù)倉庫((新一代代經(jīng)營分分析系統(tǒng)統(tǒng))和全全國互聯(lián)聯(lián)網(wǎng)數(shù)據(jù)據(jù)集中化化中,在在成本壓壓力,財財報壓力力,外部部競爭壓壓力加劇劇,互聯(lián)聯(lián)網(wǎng)企業(yè)業(yè)顛覆式式創(chuàng)新的的革命下下,也不不得不走走阿里巴巴巴曾經(jīng)經(jīng)走的路路。投資阿里里巴巴、、支付寶寶、騰訊訊、京東東、凡客客、庫巴巴、優(yōu)酷酷、土豆豆、新浪浪、網(wǎng)易易、搜狐狐、攜程程、大眾眾點評網(wǎng)網(wǎng)、豆瓣瓣、如家家快捷酒酒店、錦錦江之星星等等。。中國移動動也可以以去做電電商。如如果覺得得自己業(yè)業(yè)務(wù)運營營水平高高,可以以學(xué)習亞亞馬遜、、京東做做電商,,做的更更全面。。中國移動動面臨競競爭的個個人建議議如果覺得得自己國國企特色色,做不不好,可可以學(xué)習習阿里巴巴巴(天天貓)、、淘寶,,做開放放平臺。。這條路路也挺不不錯。需要有大大魄力才才行。中國移動動和百度度合作的的建議移動互聯(lián)聯(lián)網(wǎng)時代代,手機機號碼仍仍然是稀稀缺資源源。百度、騰騰訊、阿阿里巴巴巴三大巨巨頭,騰騰訊和阿阿里巴巴巴都有自自己的號號碼(用用戶id)資源,,這背后后代表著著用戶信信息。百度沒有有用戶信信息,在在移動互互聯(lián)網(wǎng)時時代處于于很大劣劣勢。移動運營營商用戶戶資源很很豐富,,信息也也很全。。中國移動動完全可可以和百百度合作作,把用用戶信息息共享給給百度,,這樣百百度就可可以做預(yù)預(yù)搜索或或其它各各種工作作。中國移動動投資百百度,資資源共享享,合作作共贏。。
關(guān)于10張標簽表表,每張張表8000萬記錄,,每張表表幾百幾幾千個標標簽字段段,關(guān)聯(lián)聯(lián)取數(shù)據(jù)據(jù),秒級級出結(jié)果果的高效效方法?大數(shù)據(jù)關(guān)關(guān)聯(lián)查詢詢創(chuàng)新案案例方案1:數(shù)據(jù)庫庫內(nèi)方案案把所有客客戶統(tǒng)一一視圖大大標簽寬寬表先按按地市分分表,再再按號碼碼分別拆拆分為10000張表。每張小表表中包括括所有需需要的幾幾百、幾幾千個字字段。小小表總表表數(shù)為1萬到幾萬萬之間,,詳細為為地市數(shù)數(shù)量*1000。有的省份份,小表表數(shù)據(jù)量量為2000條到8000條。前端端訪問時時,不再再需要做做多表sql關(guān)聯(lián),數(shù)數(shù)據(jù)量級級別為千千行級的的單表sql查詢語句句速度也也很快。。起10000個線程并并發(fā)執(zhí)行行,可以以做到實實時。方案2:數(shù)據(jù)庫庫外方案案把所有客客戶統(tǒng)一一視圖大大標簽寬寬表按地地市分文文件,再再按號碼碼繼續(xù)拆拆分為1000個文件。。每個小文文件中包包括所有有需要的的幾百、、幾千個個字段。。小文件件總數(shù)量量為1萬到幾萬萬之間,,詳細為為地市數(shù)數(shù)量*1000。如果是直直轄市,,直接拆拆分為10000個小文件件。使用標準準C,開發(fā)出出處理程程序,并并發(fā)啟動動1萬到幾萬萬個線程程,每個個線程把把小文件件數(shù)據(jù)加加載到各各自內(nèi)存存中。當需要處處理數(shù)據(jù)據(jù)時,實實用LUA來訪問數(shù)數(shù)據(jù),每每個線程程需要處處理的數(shù)數(shù)據(jù)量為為千行級級??傮w體速度應(yīng)應(yīng)該在毫毫表級,,可以實實時把數(shù)數(shù)據(jù)回傳傳給前端端。像有的省省,如果果地市用用戶提取取客戶群群,則同同樣只需需訪問此此地市的的1000個小內(nèi)存存文件,,速度能能更快。。方案1細節(jié):表文件、、和線程程的數(shù)量量可以根根據(jù)實際際需要調(diào)調(diào)整,可可以調(diào)整整到100張表、1000張表、或或者是100個文件、、1000文件、再再或者是是100個線程、、1000個線程。。具體還需需要查詢詢資料,,依據(jù)現(xiàn)現(xiàn)場機器器配置,,做性能能調(diào)優(yōu)而而定。如果并發(fā)發(fā)線程壓壓力太大大的話,,可以考考慮改為為減少并并發(fā)線程程數(shù),或或者改為為串行。。當數(shù)據(jù)據(jù)無法做做大表關(guān)關(guān)聯(lián)時,,每次只只需從單單行記錄錄就可去去到。方案1細節(jié):分表或分分文件時時,按手手機號碼碼尾號2位或3位來分,,手機號號碼尾號號本身是是均勻的的。在同同一地市市的小表表中,每每張小表表的數(shù)據(jù)據(jù)量是基基本接近近相同的的。地市之間間,考慮慮到不同同地市的的用戶數(shù)數(shù)不同,,則可以以對不同同地市的的分表或或分文件件數(shù)量做做優(yōu)化,,用戶數(shù)數(shù)多的地地市分表表和文件件多,用用戶數(shù)少少的地市市分表或或文件少少,盡量量和所有有的100、1000或10000以上的表表或文件件中數(shù)據(jù)據(jù)量保持持一致,,這樣并并發(fā)處理理線程同同時處理理,完成成時間也也能基本本相同。。方案2細節(jié):數(shù)據(jù)為每每月或每每日凌晨晨初始化化讀入,,載入到到內(nèi)存后后。在上上班時間間訪問,,直接查查詢內(nèi)存存靜態(tài)數(shù)數(shù)據(jù),速速度快,,但也涉涉及到內(nèi)內(nèi)存分配配太大的的問題。。此時,需需要考慮慮做并發(fā)發(fā)或者分分布式處處理。涉涉及到硬硬件投資資增加問問題,不不建議采采購小型型機,改改為采購購刀片服服務(wù)器或或其它服服務(wù)器。。數(shù)據(jù)也可可采用前前端調(diào)用用時再動動態(tài)加載載,根據(jù)據(jù)機器配配置,讓讓線程分分批次加加載數(shù)據(jù)據(jù)并處理理。這樣樣對硬件件要求低低,但速速度相對對會慢。。方案2細節(jié):前端向后后臺通信信采取socket方式,后后臺處理理完數(shù)據(jù)據(jù)后,可可以把最最終數(shù)據(jù)據(jù)合并,,再加載載到數(shù)據(jù)據(jù)庫中的的表,也也可以由由各線程程把各自自數(shù)據(jù)分分批插入入到數(shù)據(jù)據(jù)庫中的的表。數(shù)據(jù)加載載完成后后,再通通過socket通知前端端處理完完畢。LUA具體如何何處理和和優(yōu)化,,細節(jié)尚尚待研究究,需要要花時間間。細致工作作還有很很多,需需要繼續(xù)續(xù)研究和和深入下下去。方案2細節(jié):如果要考考慮到硬硬件成本本、分布布式部署署、開發(fā)發(fā)時間和和難度問問題,可可以接下下來優(yōu)化化為采用用hadoop方案。采用hadoop方案后,,整體數(shù)數(shù)據(jù)量在在千萬級級,有些些省例外外,到了了億級。。硬件投投資改為為采購幾幾臺PCServer,硬件投投入為幾幾萬元。。數(shù)據(jù)都在在庫外處處理,NOSQL方式,數(shù)數(shù)據(jù)庫可可以改為為使用開開源數(shù)據(jù)據(jù)庫MySQL,存放配配置信息息。這樣樣DB2、Oracle或其它數(shù)數(shù)據(jù)庫都都可以替替換掉。。方案2細節(jié):整體來說說,實用用hadoop方式或庫庫外標準準C開發(fā)方式式后,可可以更有有效減少少中國移移動在硬硬件上的的投入,,在數(shù)據(jù)據(jù)庫的投投入??梢园压?jié)節(jié)省的成成本投一一部分到到應(yīng)用軟軟件廠商商上。這這樣,中中國移動動就可以以和應(yīng)用用軟件廠廠商實現(xiàn)現(xiàn)共贏。。這也是是IT業(yè)界的發(fā)發(fā)展趨勢勢。至于hadoop方案,客客戶統(tǒng)一一視圖標標簽月表表每月生生成一次次,日表表每日按按生產(chǎn)一一次。生生成后為為靜態(tài)數(shù)數(shù)據(jù),每每日上班班時間數(shù)數(shù)據(jù)不會會更新,,為靜態(tài)態(tài)數(shù)據(jù)。。方案2細節(jié):基于此特特點,可可以在每每日凌晨晨把客戶戶統(tǒng)一視視圖數(shù)據(jù)據(jù)加載到到hadoop中,白天天訪問時時直接查查詢數(shù)據(jù)據(jù),速度度快,效效率高。。數(shù)據(jù)加載載到內(nèi)存存數(shù)據(jù)庫庫中做查查詢,我我目前用用到的是是solo+lucene,有的同同事用的的是MongoDB。云計算方方案,應(yīng)應(yīng)該是可可以考慮慮借鑒谷谷歌做搜搜索查詢詢這塊的的成功經(jīng)經(jīng)驗。云計算方方案,貌貌似用流流計算也也不錯。。Yahoo的S4聽說挺不不錯。微薄友的的點評::得意的那那些事兒兒大表,谷谷歌的bigtable是最佳實實踐blueprint,思想可可以參考考。從分分表分庫庫轉(zhuǎn)向規(guī)規(guī)模的bigdatarebalance。這才是是所有的的性能優(yōu)優(yōu)化的起起源和本本質(zhì)。這這里面cap理論和dht算法是技技術(shù)實現(xiàn)現(xiàn)原理。。當然mapreduce大大簡化化了數(shù)據(jù)據(jù)的no
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 特許另類投資分析師考試與會計知識聯(lián)系分析試題及答案
- 會議管理總結(jié)幼兒園
- 加強內(nèi)部審計與合規(guī)管理的計劃
- 2018年秋九年級上(部編版)歷史教學(xué)設(shè)計:第4課 希臘城邦和亞歷山大帝國
- 教材選擇與使用建議計劃
- 制訂有效的任職資格標準計劃
- 事業(yè)目標與愿景的統(tǒng)溝通計劃
- 生產(chǎn)執(zhí)行中的關(guān)鍵績效指標計劃
- 幼兒園探究式學(xué)習的實施策略計劃
- 人類基因組的進化研究試題及答案
- 【工商管理專業(yè)畢業(yè)綜合訓(xùn)練報告2600字(論文)】
- 2022湖南省郴州市中考物理真題試卷和答案
- 救護車使用培訓(xùn)課件
- 經(jīng)典成語故事鄭人買履
- 人血白蛋白介紹演示培訓(xùn)課件
- 大學(xué)軍事理論課教程第三章軍事思想第四節(jié)當代中國軍事思想
- 建筑企業(yè)法律服務(wù)方案
- 空調(diào)維保服務(wù)投標方案(技術(shù)標)
- 幼兒園戶外自主游戲
- 22S803 圓形鋼筋混凝土蓄水池
- 煙供.火供.火施儀軌
評論
0/150
提交評論