淺析:從LinkedIn看大數(shù)據(jù)挖掘應(yīng)重視的四個變量_第1頁
淺析:從LinkedIn看大數(shù)據(jù)挖掘應(yīng)重視的四個變量_第2頁
淺析:從LinkedIn看大數(shù)據(jù)挖掘應(yīng)重視的四個變量_第3頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

淺析:從LinkedIn看大數(shù)據(jù)挖掘應(yīng)重視的四個變量

創(chuàng)事記:能否簡要介紹一下LinkedIn?李玥:LinkedIn是一家面向商業(yè)客戶的社交服務(wù)網(wǎng)站,2003年正式開通啟動,距今已經(jīng)10年的歷史。2011年5月份,LinkedIn在美國納斯達克上市。目前市值接近170億美元。LinkedIn基本上有三個比較主流的商業(yè)模式:第一個渠道是人才招聘解決方案,最主要是解決公司招聘和人員求職的供需關(guān)系,這部分業(yè)務(wù)貢獻了超過50%的收入;第二是,廣告業(yè)務(wù),企業(yè)可以在LinkedIn網(wǎng)站上瞄準(zhǔn)不同人進行廣告的精準(zhǔn)投放;第三是,高級付費訂閱服務(wù),LinkedIn會提供更高級的產(chǎn)品,用戶在付費訂閱之后,可以利用高級數(shù)據(jù)提高工作效率。創(chuàng)事記:LinkedIn中國現(xiàn)狀是怎樣的?李玥:關(guān)于中國的策略,我能說的非常非常有限,因為LinkedIn還沒有正式進入中國市場。現(xiàn)在我們在中國有超過300萬注冊用戶。LinkedIn非常了解,中國是一個非常非常有潛力的市場。我們在探索到底應(yīng)該是以怎樣的方式進入中國,但是現(xiàn)在沒有定論。我們最終的目的是讓中國的職業(yè)人員能夠在職場上更成功,這一點準(zhǔn)則不會有任何變化。創(chuàng)事記:LinkedIn的數(shù)據(jù)分析團隊的工作是什么?李玥:這個團隊在LinkedIn上市前一年(2010年)開始創(chuàng)建,兩年之內(nèi)團隊已經(jīng)達到50人。這是在LinkedIn里面成長最最快速度的團隊,現(xiàn)在我們還在不斷的成長當(dāng)中。我們的責(zé)任范圍最大的一部分就是支持所有與LinkedIn運營盈利相關(guān)的服務(wù)?,F(xiàn)在LinkedIn有近4000名員工,70%的人是通過我們來提供服務(wù)的。我們的團隊組成是:一個數(shù)據(jù)采集的專門團隊,一個專門做數(shù)據(jù)挖掘的團隊,在這之上我們還有分析的團隊和每個商業(yè)渠道掛鉤起來,這樣會更接近他們的業(yè)務(wù)。我們跟LinkedIn所有相關(guān)的職能部門一起合作,包括銷售部門、市場營銷部門、產(chǎn)品部門、工程部門,還有運營部門。我們所有的數(shù)據(jù)挖掘全部是通過一個技術(shù)平臺做出來的,但是在這之上,會對不同的商業(yè)應(yīng)用、商業(yè)需求單獨去做處理。創(chuàng)事記:每次商業(yè)分析需要處理多大的數(shù)據(jù)?李玥:一般的數(shù)據(jù)處理起來,至少要到TB(1TB=1024GB)的水平。比如說,我們做一個預(yù)測的模型,基本上要準(zhǔn)備的數(shù)據(jù)達到幾個TB,然后再做數(shù)據(jù)挖掘,最后做出最后的預(yù)測。最后的預(yù)測可能看起來很簡單,比如說是Yes或者是No,但是后臺數(shù)據(jù)采集、數(shù)據(jù)處理,創(chuàng)建模型是要花費很多很多時間。創(chuàng)事記:LinkedIn如何獲取這么多的數(shù)據(jù),這些數(shù)據(jù)都是免費的嗎?李玥:很多的數(shù)據(jù)實際上是LinkedIn本身的數(shù)據(jù)。我們有自己的用戶,他們每天會在上面發(fā)布不同的信息,會更改自己的數(shù)據(jù)。我們也會花錢獲取其他數(shù)據(jù)。根據(jù)商業(yè)需求不同,我們會跟業(yè)界比較知名的數(shù)據(jù)服務(wù)商來合作,比如Gartner。創(chuàng)事記:LinkedIn大數(shù)據(jù)解決方案采用哪種基礎(chǔ)架構(gòu)?李玥:LinkedIn整個數(shù)據(jù)分析解決方案里主要有三個非常重要的組成部分,一個是Teradata數(shù)據(jù)倉庫解決方案,它支持很多報表系統(tǒng),可靠性高;第二個是TeradataAster,Aster有很多已經(jīng)設(shè)置好的函數(shù),可以讓分析更簡單、更快速,而且讓我們做大量分析時,變得更有效率;第三部分就是Hadoop,應(yīng)用于真正特別巨大的數(shù)據(jù)處理和存儲。我們將這三種產(chǎn)品和平臺作為一個整體,在此基礎(chǔ)上做出集中的數(shù)據(jù)結(jié)構(gòu)架構(gòu)。Teradata為客戶提供是企業(yè)級解決方案,有專門為大公司設(shè)計定制功能,而且在這個系統(tǒng)里起著非常重要的作用。創(chuàng)事記:能否舉一個簡單的大數(shù)據(jù)挖掘案例?李玥:在做分析和預(yù)測的時候,怎么樣的一個過程才能做出對將來最好的預(yù)測?我舉一個例子。比如說,市場營銷過程中你想去給特定的人群發(fā)一些消息,說我給可以給你們你一些優(yōu)惠,讓你們?nèi)ベ徺I某些產(chǎn)品。但你怎么知道有哪些人會更傾向于去接受你的信息,或者說接受你的介紹?那我們就會看,以前發(fā)生的事情。了解以前發(fā)生的事情,了解為什么這些事情會發(fā)生,以及它背后的原因,然后再用這些去解釋將來會發(fā)生的事情。總體上就是這樣一個大的方法。創(chuàng)事記:LinkedIn在做大數(shù)據(jù)挖掘時會重點參考的變量是什么?李玥:一般性我們看三大塊。一塊是,所有用戶相關(guān)的屬性。比如說你是男性還是女性,年齡是多少,或者說工作方式是什么,在哪家公司,在哪個行業(yè),在哪個地點。這些數(shù)據(jù)就是相關(guān)信息。這些信息基本上屬于一種比較靜態(tài)的東西,也是所有行業(yè)到現(xiàn)在為止,可能最成型的一種數(shù)據(jù)變量。這一塊我們看得最多。然后是用戶的行為數(shù)據(jù)。很多公司逐漸看到這部分?jǐn)?shù)據(jù),但以前并沒有太重視。比如說,我決定去買一個投影儀,我可能之前會做很多很多的事情,最后才會決定買它。如果只是看我買它的一條記錄,那么它只是一條數(shù)據(jù)記錄,但是之前為什么決定買這個東西,可能會有幾千條、幾萬條不同的信息記錄下來。這里邊就有很多不同的東西,包括你是不是某一種一系列的行為,才導(dǎo)致最后的購買決定。這一塊數(shù)據(jù)量上要大很多,從分析量上來講,難度也高很多。但根據(jù)我們的經(jīng)驗,這個對你的預(yù)測的準(zhǔn)確性貢獻,其實也增加了很多很多,所以這一塊是非常非常重要的。第三塊是,與社交網(wǎng)絡(luò)相關(guān)的信息。它對你的預(yù)測也會造成非常非常大的影響。舉個例子,你在LinkedIn上或者Facebook、微博上,跟你相似的人往往會做出與你接近的決定。一個最原始的理論,物以類聚,人以群分。跟你相連接的這些人,往往他們喜歡的東西,或者他們做過的事情,是你以后可能會去做的。根據(jù)以往的經(jīng)驗,你連接的人當(dāng)中,已經(jīng)做過這些事情,如果我告訴你他們做過這些事情的話,你會更加的可能也會做這些事情。創(chuàng)事記:還有其他變量么?李玥:這三大變量基本組成了我們看的最多的數(shù)據(jù)。當(dāng)然每一個分類里面,又會有很多很多的數(shù)據(jù)。其實我們會花很多的精力去采集這些數(shù)據(jù),然后不斷地擴充我們的變量倉庫。因為隨著數(shù)據(jù)的增加,預(yù)測的準(zhǔn)確度也會越來越高。此外,時間序列也是非常重要的。很多時候你做的這件事情離現(xiàn)在有多久,會對你的預(yù)測產(chǎn)生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論