大數(shù)據(jù)應(yīng)用案例_第1頁
大數(shù)據(jù)應(yīng)用案例_第2頁
大數(shù)據(jù)應(yīng)用案例_第3頁
大數(shù)據(jù)應(yīng)用案例_第4頁
大數(shù)據(jù)應(yīng)用案例_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)應(yīng)用案例分析目錄大數(shù)據(jù)概念1大數(shù)據(jù)處理辦法2大數(shù)據(jù)應(yīng)用案例31大數(shù)據(jù)概念大數(shù)據(jù)時(shí)代到

來隨著智能手機(jī)的普及,網(wǎng)民參與互聯(lián)網(wǎng)產(chǎn)品和使用各種手機(jī)應(yīng)用的程度越來越深,用戶的行為、

位置、甚至身體生理等每一點(diǎn)變化都成為了可被記錄和分析的數(shù)據(jù),數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng)。地球上至今總共的數(shù)據(jù)量:在2006

年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);據(jù)IDC研究機(jī)構(gòu)預(yù)測(cè):到2020

年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10

億TB)!1PB=

2^50字節(jié)1EB=

2^60字節(jié)1ZB=

2^70字節(jié)GB在2011

年,這個(gè)數(shù)字達(dá)到了1.8ZB。TBPBEB ZB01大

數(shù)

據(jù)

構(gòu)

成大數(shù)據(jù)

=海量數(shù)據(jù)(交易數(shù)據(jù)、交互數(shù)據(jù))+針對(duì)海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、微博、及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的Apache

Hadoop。注:大數(shù)據(jù)

不僅僅指的是數(shù)據(jù)量龐大,更為重要的是數(shù)據(jù)類型復(fù)雜想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。02大

數(shù)

據(jù)

4V特征03結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,對(duì)數(shù)據(jù)的處理能力提出了更高要求實(shí)時(shí)獲取需要的信息比如:在客戶每次瀏覽頁面,每次下訂單過程中都會(huì)對(duì)用戶進(jìn)行實(shí)時(shí)的推薦,決策已經(jīng)變得實(shí)時(shí)數(shù)據(jù)量巨大全球在2010年正式進(jìn)入ZB

時(shí)代,IDC預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB

的數(shù)據(jù)量沙里淘金,價(jià)值密度低雖然數(shù)據(jù)量很大,但是價(jià)值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)價(jià)值“提純”,是目前大數(shù)據(jù)亟待解決的難題大數(shù)據(jù)產(chǎn)品市場(chǎng)價(jià)值解決方案轉(zhuǎn)化1.

海量(Volume)3.速度(

Velocity)4.

價(jià)值(value)2.

多樣(Variety)2大數(shù)據(jù)處理辦法用戶畫像體系01每個(gè)企業(yè)都不可以避免的要對(duì)用戶進(jìn)行畫像,用戶畫像的提出,根本上是源于企業(yè)對(duì)用戶認(rèn)知的需求。產(chǎn)品經(jīng)理,需要了解用戶的特征,對(duì)產(chǎn)品進(jìn)行功能的完善。內(nèi)容運(yùn)營(yíng)人員,需要篩選目標(biāo)用戶,對(duì)內(nèi)容進(jìn)行精準(zhǔn)投放?;钴S程度如何?年齡分布、區(qū)域分布是什么樣的?消費(fèi)習(xí)慣和特征是什么?公司在哪?對(duì)什么感興趣?常去的商圈是哪兒?贏利點(diǎn)在哪?職業(yè)是什么?常住地在哪兒?購買能力如何?基本特征?用戶畫像體系02駕駛行為數(shù)據(jù)將構(gòu)建精準(zhǔn)的車險(xiǎn)用戶畫像性別年齡國(guó)籍地理位置開車地點(diǎn)職業(yè)駕照類別開車頻率開車原因健庩?duì)顩r醫(yī)療條件感知力學(xué)習(xí)周期消費(fèi)習(xí)慣民族特征教育水平婚姻狀態(tài)共用車輛情況生活方式使用藥物情況酒駕經(jīng)歷疲勞駕駛收入情況碰撞事故車輛維修犯罪記錄違章駕駛記錄駕駛時(shí)間通過對(duì)用戶不同維度的大數(shù)據(jù)分析,最終得出可執(zhí)行的業(yè)務(wù)決策?;緦傩孕袨榱?xí)慣購買能力心理特征社交網(wǎng)絡(luò)興趌愛好基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘及分類基本識(shí)別流程03訓(xùn)練樣本數(shù)據(jù)源分詞特征選擇特征權(quán)重計(jì)算模型訓(xùn)練是模型評(píng)估是否通過待預(yù)測(cè)類別文本庫文本打上類別標(biāo)簽否訓(xùn)練及測(cè)試過程預(yù)測(cè)過程訓(xùn)練生成的模型訓(xùn)練生成的模型待預(yù)測(cè)類別文本原始庫數(shù)據(jù)預(yù)處理訓(xùn)練樣本庫數(shù)據(jù)預(yù)處理a.去除營(yíng)銷博文干擾b.去除提及人的干擾(@)c.去除如門戶的作者的干擾大數(shù)數(shù)據(jù)據(jù)的處處理理04數(shù)據(jù)去去重空值處處理數(shù)據(jù)去去噪格式統(tǒng)統(tǒng)一對(duì)齊融融合融合信信息數(shù)數(shù)據(jù)庫庫融合信信息數(shù)數(shù)據(jù)庫庫里程數(shù)數(shù)據(jù)工況數(shù)數(shù)據(jù)充電數(shù)數(shù)據(jù)行駛軌跡車輛信息將空值更改改為對(duì)對(duì)應(yīng)的默認(rèn)認(rèn)值使用UGC算法去除除無用數(shù)據(jù)使用基于密密度的聚類類去除異常數(shù)據(jù)將多源異構(gòu)構(gòu)數(shù)據(jù)轉(zhuǎn)換換為統(tǒng)統(tǒng)一數(shù)據(jù)表表達(dá)形式去除異常的數(shù)據(jù)據(jù)項(xiàng)匯聚多源異異構(gòu)數(shù)據(jù)中中的一一致部分?jǐn)?shù)據(jù)挖掘分分類的過程程3大數(shù)據(jù)應(yīng)用用案例大數(shù)據(jù)是做做好音樂平平臺(tái)的一把把利器01爽歪的麻雀雀,在電線線桿上裸睡睡削個(gè)椰子皮皮,你卻TM給個(gè)梨撒米拉帶帶帶,哇嘎哇哇嘎哎喲想聽的歌記記不起名字字???呀馬大叔與小舅舅四斤大豆,,三根皮帶帶艾薇,莎啦啦啦,艾瑞瑞噢喔噢喔喔,手剎多情咱切抱抱劉繼芬鋼鐵鍋,含含眼淚喊修修瓢鍋啊瑞寧瑞寧瑞寧瑞寧瑞寧產(chǎn)品競(jìng)競(jìng)爭(zhēng)04*聽歌進(jìn)入入社交化時(shí)時(shí)代,聽歌歌單、聽歌歌看評(píng)論成成為流行聽聽歌行為;;*個(gè)性化推推薦已覆蓋蓋多數(shù)聽歌歌用戶,越越來越多用用戶通過個(gè)個(gè)性化推薦薦發(fā)現(xiàn)好音音樂;*聽歌進(jìn)入入多元化時(shí)時(shí)代,民謠謠、電音、、二次元音音樂崛起;;*獨(dú)立音樂樂人迅速崛崛起,社交交互動(dòng)助推推音樂人漲漲粉;*90后已已成為音樂樂消費(fèi)主力力人群;*用戶付費(fèi)費(fèi)意識(shí)明顯顯提高,付付費(fèi)會(huì)員數(shù)數(shù)和數(shù)字專專輯售賣增增長(zhǎng)迅猛;;*綜藝影視視對(duì)音樂的的影響依舊舊強(qiáng)大,熱熱門歌曲中中7成來源源于綜藝或或影視;*偶像流行行樂保持高高熱度,歐歐美歌曲受受眾提升;;*音樂市場(chǎng)場(chǎng)正在構(gòu)建建一種新的的評(píng)價(jià)體系系,評(píng)論數(shù)數(shù)成為歌曲曲熱度重要要評(píng)價(jià)指標(biāo)標(biāo);*男歌手受受喜愛度高高于女歌手手,女性歌歌迷消費(fèi)群群體經(jīng)濟(jì)崛崛起;截至2016年7月呈現(xiàn)2億音樂用用戶聽歌行行為以及2萬音樂人人活躍行為為用戶分析05目標(biāo)用戶細(xì)分群體用戶特征需求音樂消費(fèi)者

學(xué)生年輕,時(shí)間寬裕,喜歡新鮮,愛評(píng)論愛分享愛展示,有個(gè)性1、個(gè)性化推薦音樂2、對(duì)音樂有評(píng)論等互動(dòng)行為3、分享展示喜歡的音樂白領(lǐng)時(shí)間碎片化,有一定壓力,會(huì)關(guān)注娛樂界動(dòng)態(tài)4、迅速找到喜歡的音樂5、推薦潮流音樂6、有明星動(dòng)態(tài)IT從業(yè)者壓力大,需要更多消遣和心理慰藉

時(shí)尚人士熱愛音樂和潮流,有個(gè)性7、分享自己的口味主要需求((音樂消費(fèi)費(fèi)者)1、播放音樂2、發(fā)現(xiàn)音樂(喜歡的、特特別的、潮潮流的)3、展示自我我,有基于于音樂的互互動(dòng)?!繕?biāo)用戶::熱愛音樂,,對(duì)音樂有有較高需求求的高素質(zhì)質(zhì)年輕人群群。用戶分析05—目標(biāo)用戶::熱愛音樂,,對(duì)音樂有有較高需求求的高素質(zhì)質(zhì)年輕人群群。通過數(shù)據(jù)可可以發(fā)現(xiàn)網(wǎng)網(wǎng)易云音樂樂用戶群中中19-30歲年齡齡段用戶最最多,占比比達(dá)到48%,整體體用戶群偏偏年輕化。。職業(yè)分布::學(xué)生和IT從業(yè)者者占據(jù)絕大大用戶群,,企業(yè)中高高層管理人人員所占比比例最少,,另外的專專業(yè)工作人人員所占比比例區(qū)別不不大,用戶戶群體整體體受教育程程度普遍較較高。05目標(biāo)用戶細(xì)分群體用戶特征需求音樂內(nèi)容產(chǎn)生者

音樂人/DJ作品找不到渠道,希望建立個(gè)人品牌,更好的運(yùn)營(yíng)個(gè)人品牌1、傳播自己的音樂,讓更多的人知道2、與粉絲有互動(dòng)歌手有一定知名度,有粉絲基礎(chǔ)3、進(jìn)一步提高知名度,吸引更多粉絲唱片公司商業(yè)機(jī)構(gòu),營(yíng)利是最重要的目的。4、提高收入音樂愛好者喜歡分享音樂,評(píng)論音樂5、希望得到更多展示(專欄)主要需求((音樂內(nèi)容容產(chǎn)生者))1、宣傳音樂樂(新歌、特特別的口味味)2、宣傳個(gè)人人品牌(演播廳、、采訪直播播、互動(dòng)等等)3、盈利(版權(quán)收費(fèi)費(fèi)、會(huì)員收收費(fèi)等)用戶分析—目標(biāo)用戶::(內(nèi)容產(chǎn)生生者是活躍躍音樂社區(qū)區(qū)的關(guān)鍵))用戶分析05用戶分析0502推薦歌單—3種推薦維維度和2種種推薦算法法通過微信微微博等社區(qū)區(qū)軟件進(jìn)行行傳播分享享網(wǎng)易音樂編編輯人員人人工推薦的的歌單和電電臺(tái)。朋友推薦人工推薦通過大數(shù)據(jù)據(jù)分析計(jì)算算后的智能能推薦歌單單智能推薦以人為本算算法以歌為本算算法“喜歡這首首歌的人,,也喜歡XX”喜歡:點(diǎn)擊擊“喜歡””、評(píng)論、、下載、收收藏到歌單單的人所聽歌曲的的標(biāo)簽在其其它歌曲也也包含則推推薦該歌曲曲02計(jì)算公公式潛在因子((LatentFactor)算法法:這種算算法是在NetFlix(沒沒錯(cuò),就是是用大數(shù)據(jù)據(jù)捧火《紙紙牌屋》的的那家公司司)的推薦薦算法競(jìng)賽賽中獲獎(jiǎng)的的算法,最最早被應(yīng)用用于電影推推薦中。這這種算法在在實(shí)際應(yīng)用用中比現(xiàn)在在排名第一一的@邰邰原朗所所介紹的算算法誤差((RMSE)會(huì)小不不少,效率率更高。我我下面僅利利用基礎(chǔ)的的矩陣知識(shí)識(shí)來介紹下下這種算法法。這種算法的的思想是這這樣:每個(gè)個(gè)用戶(user))都有自己

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論