



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Conftar包中已經(jīng)包含了配 :里面是一些字典,主要是fea_data.tar.gz(實(shí)際上產(chǎn)品庫中缺一個(gè)dict-data.tar.gz,解決方法就是從hadoop上一個(gè)下來。Script:包括和配置,又分為左側(cè),右側(cè),pp三套環(huán)境,還有同步日志視Ad-fea-hadoop需要部署到hadoop集群中運(yùn)行,部署的步驟為(前置步驟需要熟悉hadoop命令和環(huán)境,詳見新人hadoop學(xué)習(xí)資料): // donelist/fcr/yourdir /fcr/yourdir/query_high_path /fcr/yourdir /fcr/yourdir將 left_mapred_control.conf(只以左側(cè)為例,配置文件的修改最為重要,需要Training-control運(yùn)行環(huán)境部Training-control的配置比較麻煩,它是一個(gè)總控,關(guān)聯(lián)的程序有distro-sign2id,聯(lián)的。幸好training-control提供一個(gè)自動(dòng)部署工具,只需要修改training_control.conf, mon.conf,然后運(yùn)行training.env.tools.sh,按照一步步提checkTraining-control 注意:training-control的配置和部署最為麻煩,部署和配置完成之后,最好先跑一個(gè)小相關(guān)的長專名(這部分工作是由,和賽群做的);將挖掘得到的專名數(shù)據(jù)建立應(yīng)的專名專名片段,結(jié)合query字段添加各種特征。具體的特征添加方案為: 目前賽群和提供的專名片段合并后總共有1303107條專名片段,建成ul_dictmatch105Mul_dictmatchprop字段利用起來,每個(gè)子Ad-fea-hadoop模塊ld2Left_featureExtrator.h//**************addbyzhangxiuwu /*<專名辭典的路徑2,修改pre_data_t數(shù)據(jù)結(jié)構(gòu),增加保存專名及其個(gè)數(shù)的變量。uintdesc_ner_num; dm_dict_t dm_pack_t* 4,修改FeatureExtractor的init函數(shù): er_match_dict=dm_binarydict_load( {FATAL_LOG("loaddmdicterror:%s" return-1;} {return-1;} u_int t>0){} { { } er_count{ } } er_count;6feature_format3 73feature抽取函數(shù),并在generate_fea函數(shù)中調(diào)用。 er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data);intget_que er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data,seg_tseg); &pre_data,seg_tseg);在編譯ad-fea-hadoop時(shí),首先要保證在正確的版本上修改,其次,的依標(biāo);然后,我修改ad-fea-hadoop,只添加{ 特征,在基線版本的it3數(shù)據(jù)上跑,得到AUC,QAUC,WQAUC等指標(biāo);最后,三種特征一起抽取,重新在基線版本的it3數(shù)據(jù)上跑,得到AUC,QAUC,WQAUC等指標(biāo)。實(shí)際上可能的組2query3PV5。我設(shè)置的第2輪和第3輪的輸入為: 日志的窗口為2010-0401到2010-0630共3個(gè)月的歷史數(shù)據(jù)。 ---it3的當(dāng)前日志時(shí)間窗輸入,正則表達(dá)式iter1_2010070[1-3]0000part-*表示2010-0701到2010-07033填的日志數(shù)據(jù)。輪不做pv過濾。 feature數(shù)量344.84million,訓(xùn)練樣本303.88GB,評(píng)估樣本121.44GB,mpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一輪(阻塞local2globalMap_Bfeasetins_fea,第二輪(阻塞分布式評(píng)估,總用Rank模型AUC指標(biāo)報(bào)表 er_zxw4.0]2010-07-23-指數(shù)實(shí)驗(yàn)1:描述專名抽取實(shí)驗(yàn)和結(jié) 直接從第7輪開始跑。配置第7輪的輸入為基線版本的it3輸出,這樣保證實(shí)驗(yàn)的it3數(shù)據(jù) 模型 er_zxw][201007272007]訓(xùn)練、評(píng)估性能報(bào)feature數(shù)量429.18million,訓(xùn)練樣本340.3GB,評(píng)估樣本135.23GB,mpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一(阻塞local2globalMap_Bfeasetins_fea,第二(阻塞分布式評(píng)估,總用Rank模型AUC指標(biāo)報(bào)表 er_zxw4.0]2010-07-28-指數(shù)實(shí)驗(yàn)2:描述專名抽取實(shí)驗(yàn)和結(jié) 從第7輪開始跑。配置第7輪的輸入為基線版本的it3輸出,這樣保證實(shí)驗(yàn)的it3數(shù)據(jù)是相 模型 er_zxw][201007281007]訓(xùn)練、評(píng)估性能報(bào)feature數(shù)量615.69million,訓(xùn)練樣本317.96GB,評(píng)估樣本125.7GBmpi節(jié)點(diǎn)數(shù)moduleeachdownload_done_filedone文(細(xì)分distro-sign2id(細(xì)分)訓(xùn)練數(shù)據(jù)分布式id化總耗-splitFile切割文件(sampling采樣(阻塞feasetSort分布式排序(local2globalMap_A基于feaset過濾ins_fea,(阻塞local2globalMap_B基于feaset過濾ins_fea,(阻塞分布式評(píng)估,總用Rank模型AUC指標(biāo)報(bào)表 er_zxw4.0]2010-07-28-指數(shù)指標(biāo)參數(shù)--七、hadoop環(huán)境的問題方hadoophadoop程序掛掉了,而無法定位問結(jié)了3點(diǎn):1,在hadoopmapredsetup 斷方法是查看集群是否有效(有可能是集群掛了然后進(jìn)入任務(wù)頁面%0000/100100/可以看到最右側(cè)的failed任務(wù),點(diǎn)擊進(jìn)入查看具體的出錯(cuò)代碼,然后在 a2%98%e6%b1%87%e6%80%bb查看具體的錯(cuò)誤代碼。3,hadoopmapred任務(wù)運(yùn)行過程中出錯(cuò),有可能是你本身的程序有問題:查hadoop學(xué)習(xí)資料。) Debug的寫法如下: //core文件存放的${HADOOP_H
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年浙江省建筑安全員《B證》考試題庫
- 《公共政策學(xué)》題庫及答案 2
- 西安信息職業(yè)大學(xué)《商業(yè)倫理》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年山東省聊城市高唐縣第二中學(xué)高三上學(xué)期12月月考?xì)v史試卷
- 武漢船舶職業(yè)技術(shù)學(xué)院《R語言與數(shù)據(jù)可視化》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南財(cái)經(jīng)工業(yè)職業(yè)技術(shù)學(xué)院《斜視弱視學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025青海省安全員《C證》考試題庫
- 濰坊理工學(xué)院《經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 臨夏現(xiàn)代職業(yè)學(xué)院《數(shù)字信號(hào)處理A》2023-2024學(xué)年第二學(xué)期期末試卷
- 平頂山學(xué)院《安全類專業(yè)寫作》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東省廣州市天河區(qū)2024-2025學(xué)年八年級(jí)(上)期末物理試卷(含答案)
- - 《中國課件》揭示西安古都的千年歷史與文化
- 2025年度空調(diào)安裝驗(yàn)收及保修服務(wù)合同
- 急救護(hù)理學(xué)第十章災(zāi)難救護(hù)講解
- 《Maya三維模型制作項(xiàng)目式教程(微課版)》全套教學(xué)課件
- 2024年山東司法警官職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2024年北京電子科技職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2024版消防設(shè)計(jì)質(zhì)量問題案例分析手冊建筑機(jī)電專業(yè)
- 《業(yè)財(cái)一體化實(shí)訓(xùn)教程-金蝶云星空V7.5》
- 人教版二年級(jí)數(shù)學(xué)下冊第一單元綜合測評(píng)卷(含答案)
- 社區(qū)意識(shí)形態(tài)工作2025年度工作計(jì)劃
評(píng)論
0/150
提交評(píng)論