TalkingData基于Spark的數(shù)據挖掘工作

上傳人：1*** IP屬地：廣西上傳時間：2024-05-29 格式：PPTX 頁數(shù)：28 大?。?.28MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩23頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

TalkingData基于Spark的

數(shù)據挖掘工作張夏天騰云天下科技@張夏天_機器學習內容TalkingData簡介我們的數(shù)據挖掘工作應用廣告優(yōu)化隨機決策樹算法及其Spark實現(xiàn)TalkingData簡介TalkingData移動大數(shù)據生態(tài)圈行業(yè)透視DMP數(shù)據管理平臺數(shù)據交易與交換數(shù)據監(jiān)測與預警根底數(shù)據效勞數(shù)據能力開放企業(yè)效勞內容TalkingData簡介我們的數(shù)據挖掘工作應用廣告優(yōu)化隨機決策樹算法及其Spark實現(xiàn)數(shù)據挖掘在TalkingData的應用移動應用推薦廣告優(yōu)化用戶畫像游戲數(shù)據挖掘外包咨詢通用推薦同步推機鋒開放：移動應用通用效勞接口CTR:提升20%-50%轉化率:提升50%-100%轉化本錢:降低50%人口屬性移動應用興趣標簽行業(yè)興趣標簽位置信息付費預測流失預測為什么選擇Spark硬件資源有限人力資源有限任務繁重為什么沒有廣泛使用MLLib內存資源有限，很多情況下無法把數(shù)據放入內存處理，因此迭代算法效率還是很低迭代依然是阿格硫斯之蹱我們只能盡可能使用需要迭代次數(shù)少，甚至不迭代的算法和算法實現(xiàn)RDTOneIteration

LRSimHash內容TalkingData簡介我們的數(shù)據挖掘工作應用廣告優(yōu)化隨機決策樹算法及其Spark實現(xiàn)應用廣告優(yōu)化針對某一應用，篩選推廣目標人群如何做廣告優(yōu)化分類問題

預測每個設備對目標應用的感興趣程度算法

隨機決策樹

一次迭代LRRDT算法簡介隨機決策樹算法〔RandomDecsionTrees〕[Fanetal,2003] 融合多棵隨機構建的決策樹的預測結果，來進行分類/回歸特點樹的構建完全隨機，不尋找最優(yōu)分裂點和分裂值建樹的開銷低建樹的過程不需要使用label信息應用分類，多標簽分類，回歸單機開源實現(xiàn)：RDT的簡單例子P’(+|x)=30/50=0.6P(+|x)=30/100=0.3(P(+|x)+P’(+|x))/2=0.45F3>0.3F2<0.6F1>0.7+:100-:120+:30-:20YYNNN……F1<0.5F2>0.7F3>0.3+:200-:10+:30-:70YYNNN……兩種構建隨機決策樹的方式方式1：

方式2：

優(yōu)點：隨時剪枝缺點：需要迭代優(yōu)點：不需要迭代缺點：空樹占用內存很大，限制了樹的深度與決策樹和隨機決策森林的區(qū)別決策樹隨機決策森林隨機決策樹融合算法否是是隨機程度無隨機部分隨機完全隨機建樹過程是否使用label信息使用使用不使用算法復雜度中高低計算復雜度1.與訓練樣本數(shù)量線性相關2.與所有feature的可取值數(shù)量平方相關與訓練樣本數(shù)量線性相關與feature子空間里的feature可取值數(shù)量平方相關與樹的數(shù)量線性相關1.與訓練樣本數(shù)量線性相關2.與樹的數(shù)量線性相關是否需要迭代需要需要依賴于采用哪種實現(xiàn)為什么RDT有學習能力直觀解釋 [Fanetal.,2003]貝葉斯最優(yōu)分類器解釋 [Fanetal.,2005;DavidsonandFan,2006]矩解釋〔高階統(tǒng)計〕 [Dhurandhar2010]Multi-labelRDT算法

[Zhangetal,2010]Multi-label學習問題TreeLakeIceWinterParkL1L2L3L1L1L2L3L3L1L2L3L4ClassifierL1+L2+L3+L1-L2-L3-Classifier1Classifier2Classifier3BinaryRelevanceLabelPowersetMulti-labelRDT算法F1<0.5F2>0.7F3>0.3YYNNN……L1+:30L1-:70L2+:50L2-:50L1+:200L1-:10L2+:40L2-:60F3>0.5F2<0.7F1>0.7YYNNN……L1+:30L1-:20L2+:20L2-:80L1+:100L1-:120L1+:200L1-:10P(L1+|x)=30/100=0.3P’(L1+|x)=30/50=0.6P(L2+|x)=50/100=0.5P’(L2+|x)=20/100=0.2(P(L1+|x)+P’(L1+|x))/2=0.45(P(L2+|x)+P’(L2+|x))/2=0.35RDT算法在Spark上實現(xiàn)的問題兩種方式都存在比較大的缺點方式1：需要屢次迭代方式2：空樹占用過多內存，限制樹的深度方式3：不顯示構建樹結構的隨機決策樹，僅在樣本走到某個節(jié)點時，動態(tài)確定當前的節(jié)點的feature.優(yōu)點：無需迭代數(shù)據，內存占用小

如何實現(xiàn)不構建樹的隨機決策樹算法一個偽隨機數(shù)種子就可以確定一棵隨機決策樹理論上：我們僅需要一個偽隨機數(shù)種子，我們就可以計算出這棵樹任何一個節(jié)點上的feature實踐中：使用偽隨機數(shù)發(fā)生器效率比較低，我們采用Hash函數(shù)二叉隨機決策樹的實現(xiàn)二叉樹僅針對binary數(shù)據，每個節(jié)點只需要確定feature可以通過公式推算父節(jié)點，左右子節(jié)點的編號01237849105111261314. . . . . . . . . . .父節(jié)點：(p-1)/2(奇數(shù))，(p-2)/2〔偶數(shù)〕左子節(jié)點：2*p+1右子節(jié)點：2*p+2Spark實現(xiàn)—確定節(jié)點feature用Hash函數(shù)來確定每個節(jié)點的feature f=hash(p+s)modM其中，p是節(jié)點編碼，s是當前樹的種子，M是feature數(shù),hash函數(shù)是整數(shù)hash函數(shù)。如果在一條路徑下重復出現(xiàn)了一個feature,那么按如下邏輯處理： while(pathcontains(f))f=(f+1)modMendwhile樣本在樹上行走的過程f0f1f2f3f4f5f6f710100101Hash(0+s)mod8=4Hash(2+s)mod8=0Hash(5+s)mod8=0(0+1)mod8=12:f05:f05:f121345600:f4f4f0f0Conflict!f1隨機決策樹Spark實現(xiàn)Map……DataDataData…Data…S1S4S2S3Reduce與MLLib算法的比較數(shù)據〔對RDT算法，用SimHash轉成512維binary數(shù)據〕：Data#Feature#Train#TestTrain.Vol.epsilon2,000400,000100,00011.3Gkdda20,216,8308,407,752510,3022.49Gkddb29,890,09519,264,097748,4014.78Gurl3,231,9612,000,000396,130344Mwebspam_tri16,609,143300,00050,00020Gwebspam_uni254300,00050,000327M與MLLib算法的比較RDT:

深度:30

樹棵數(shù)：50Spark配置:excutors:12worker:1driver-mem:2Gexecutor-mem:2G

MLLib(1.0)算法：

迭代：10次

LogsiticRegression SVM DecisionTreeSpark配置:excutors:12worker:1driver-mem:2-6Gexecutor-mem:2-8G與MLLib算法的比較DataRDTLRSVMDTAUCTrainingTime(s)AUCTrainingTime(s)AUCTrainingTime(s)AUCTrainingTime(s)epsilon.718341.757958.666079.74833990kdda.6542436.59061276.60201557--kddb.6437842.60132187.60012638

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

TalkingData基于Spark的數(shù)據挖掘工作

文檔簡介

溫馨提示

最新文檔

評論

TalkingData基于Spark的數(shù)據挖掘工作

文檔簡介

溫馨提示

最新文檔

評論

相關文檔