ad-fea hadoop新特征添加總結(jié)_第1頁
ad-fea hadoop新特征添加總結(jié)_第2頁
ad-fea hadoop新特征添加總結(jié)_第3頁
ad-fea hadoop新特征添加總結(jié)_第4頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Conftar包中已經(jīng)包含了配 :里面是一些字典,主要是fea_data.tar.gz(實(shí)際上產(chǎn)品庫中缺一個(gè)dict-data.tar.gz,解決方法就是從hadoop上一個(gè)下來。Script:包括和配置,又分為左側(cè),右側(cè),pp三套環(huán)境,還有同步日志視Ad-fea-hadoop需要部署到hadoop集群中運(yùn)行,部署的步驟為(前置步驟需要熟悉hadoop命令和環(huán)境,詳見新人hadoop學(xué)習(xí)資料): // donelist/fcr/yourdir /fcr/yourdir/query_high_path /fcr/yourdir /fcr/yourdir將 left_mapred_control.conf(只以左側(cè)為例,配置文件的修改最為重要,需要Training-control運(yùn)行環(huán)境部Training-control的配置比較麻煩,它是一個(gè)總控,關(guān)聯(lián)的程序有distro-sign2id,聯(lián)的。幸好training-control提供一個(gè)自動(dòng)部署工具,只需要修改training_control.conf, mon.conf,然后運(yùn)行training.env.tools.sh,按照一步步提checkTraining-control 注意:training-control的配置和部署最為麻煩,部署和配置完成之后,最好先跑一個(gè)小相關(guān)的長專名(這部分工作是由,和賽群做的);將挖掘得到的專名數(shù)據(jù)建立應(yīng)的專名專名片段,結(jié)合query字段添加各種特征。具體的特征添加方案為: 目前賽群和提供的專名片段合并后總共有1303107條專名片段,建成ul_dictmatch105Mul_dictmatchprop字段利用起來,每個(gè)子Ad-fea-hadoop模塊ld2Left_featureExtrator.h//**************addbyzhangxiuwu /*<專名辭典的路徑2,修改pre_data_t數(shù)據(jù)結(jié)構(gòu),增加保存專名及其個(gè)數(shù)的變量。uintdesc_ner_num; dm_dict_t dm_pack_t* 4,修改FeatureExtractor的init函數(shù): er_match_dict=dm_binarydict_load( {FATAL_LOG("loaddmdicterror:%s" return-1;} {return-1;} u_int t>0){} { { } er_count{ } } er_count;6feature_format3 73feature抽取函數(shù),并在generate_fea函數(shù)中調(diào)用。 er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data);intget_que er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data,seg_tseg); &pre_data,seg_tseg);在編譯ad-fea-hadoop時(shí),首先要保證在正確的版本上修改,其次,的依標(biāo);然后,我修改ad-fea-hadoop,只添加{ 特征,在基線版本的it3數(shù)據(jù)上跑,得到AUC,QAUC,WQAUC等指標(biāo);最后,三種特征一起抽取,重新在基線版本的it3數(shù)據(jù)上跑,得到AUC,QAUC,WQAUC等指標(biāo)。實(shí)際上可能的組2query3PV5。我設(shè)置的第2輪和第3輪的輸入為: 日志的窗口為2010-0401到2010-0630共3個(gè)月的歷史數(shù)據(jù)。 ---it3的當(dāng)前日志時(shí)間窗輸入,正則表達(dá)式iter1_2010070[1-3]0000part-*表示2010-0701到2010-07033填的日志數(shù)據(jù)。輪不做pv過濾。 feature數(shù)量344.84million,訓(xùn)練樣本303.88GB,評(píng)估樣本121.44GB,mpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一輪(阻塞local2globalMap_Bfeasetins_fea,第二輪(阻塞分布式評(píng)估,總用Rank模型AUC指標(biāo)報(bào)表 er_zxw4.0]2010-07-23-指數(shù)實(shí)驗(yàn)1:描述專名抽取實(shí)驗(yàn)和結(jié) 直接從第7輪開始跑。配置第7輪的輸入為基線版本的it3輸出,這樣保證實(shí)驗(yàn)的it3數(shù)據(jù) 模型 er_zxw][201007272007]訓(xùn)練、評(píng)估性能報(bào)feature數(shù)量429.18million,訓(xùn)練樣本340.3GB,評(píng)估樣本135.23GB,mpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一(阻塞local2globalMap_Bfeasetins_fea,第二(阻塞分布式評(píng)估,總用Rank模型AUC指標(biāo)報(bào)表 er_zxw4.0]2010-07-28-指數(shù)實(shí)驗(yàn)2:描述專名抽取實(shí)驗(yàn)和結(jié) 從第7輪開始跑。配置第7輪的輸入為基線版本的it3輸出,這樣保證實(shí)驗(yàn)的it3數(shù)據(jù)是相 模型 er_zxw][201007281007]訓(xùn)練、評(píng)估性能報(bào)feature數(shù)量615.69million,訓(xùn)練樣本317.96GB,評(píng)估樣本125.7GBmpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_A基于feaset過濾ins_fea,(阻塞local2globalMap_B基于feaset過濾ins_fea,(阻塞分布式評(píng)估,總用Rank模型AUC指標(biāo)報(bào)表 er_zxw4.0]2010-07-28-指數(shù)指標(biāo)參數(shù)--七、hadoop環(huán)境的問題方hadoophadoop程序掛掉了,而無法定位問結(jié)了3點(diǎn):1,在hadoopmapredsetup 斷方法是查看集群是否有效(有可能是集群掛了然后進(jìn)入任務(wù)頁面%0000/100100/可以看到最右側(cè)的failed任務(wù),點(diǎn)擊進(jìn)入查看具體的出錯(cuò)代碼,然后在 a2%98%e6%b1%87%e6%80%bb查看具體的錯(cuò)誤代碼。3,hadoopmapred任務(wù)運(yùn)行過程中出錯(cuò),有可能是你本身的程序有問題:查hadoop學(xué)習(xí)資料。) Debug的寫法如下: //core文件存放的${HADOOP_H

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論