2019年國際大數(shù)據(jù)競賽第9名隊-中文_第1頁
2019年國際大數(shù)據(jù)競賽第9名隊-中文_第2頁
2019年國際大數(shù)據(jù)競賽第9名隊-中文_第3頁
2019年國際大數(shù)據(jù)競賽第9名隊-中文_第4頁
2019年國際大數(shù)據(jù)競賽第9名隊-中文_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隊員:楊民杰 劉暢 王九牛 張少鋒 復賽名次:9 隊名:Dream_it_Do_it1賽題分析2網(wǎng)絡結構3特征工程4模型融合 目 錄Contents5比賽總結賽題分析賽題:基于遙感影像和用戶行為的城市區(qū)域功能分類城市區(qū)域功能分類表:賽題任務:根據(jù)遙感圖像和用戶到訪記錄對城市區(qū)域進行分類。CategoryID區(qū)域功能類別001居住區(qū)002學校003工業(yè)園區(qū)004火車站005飛機場006公園007商業(yè)區(qū)008政務區(qū)009醫(yī)院賽題分析:圖像數(shù)據(jù)居住區(qū)學校工業(yè)園區(qū)火車站飛機場公園商業(yè)區(qū)政務區(qū) 醫(yī)院賽題分析:用戶到訪數(shù)據(jù)例如:aff296a485010219 t 20190129&21|22,20190

2、218&19|20|21 表示用戶aff296a485010219在2019年01月29日的21點、22點,2019年02月18日的19點、20點和21點到訪過該區(qū)域看到用戶到訪數(shù)據(jù)可以想到:1,如果用機器學習的話,如果統(tǒng)計人數(shù)和到訪次數(shù)?2,如果用網(wǎng)絡的方式來做的話,如何把數(shù)據(jù)展成合適的維度輸入網(wǎng)絡?3,周末和工作日是否有影響,法定節(jié)假日,春節(jié)是否有影響?4,如何跟圖像來結合?賽題分析賽題難點:1,數(shù)據(jù)不均衡。2,類間差距小,類內差距大。3,圖像小像素值低,能獲取的信息少。4,如何有效的利用用戶到訪信息。網(wǎng)絡結構數(shù)據(jù)增強:遙感影像原 圖去霧翻轉+顏色變換the Kind of Augment

3、ationOperation NameRangeDistribution of RangeProbabilityDefoggingDefogging-40%No change-60%SharpnessGaussian blur0.0 0.25Uniform15%Sharpen0.0 0.15Uniform25%No change-60%Color SpaceHue0.95 1.05Normal10%Saturation0.50 1.50Normal40%Value0.75 1.50Normal20%No change-60%OthersContrast Normalization0.85 1.

4、15Normal15%Horizontal Flip-30%Vertical Flips-30%TTA, test time augmentation 額外進行4次,適當降低了測試集增強幅度Image Augmentation數(shù)據(jù)增強:遙感影像訪客矩陣對于缺失周的訪客數(shù)據(jù),使用臨近周的數(shù)據(jù)進行補充每次訓練隨機選擇30%的訪客數(shù)據(jù),在(0.9, 1.1)區(qū)間做正態(tài)分布形式的增強訪客矩陣數(shù)據(jù)增強訪客矩陣形狀為 (26, 24, 7),共計26周,每周7天,每天24小時數(shù)據(jù)增強:訪客矩陣Image100 x 100 x 3Visit26 x 24 x 7Se-ResNeXt 101FCConcate

5、nateGlobal PoolingNetwork of Image BranchDPN 98Global Pooling256FC256512Network of Visit Branch9Output網(wǎng)絡結構解決方案: 遷移學習難點: 初賽數(shù)據(jù)集可以用于模型訓練,但它的數(shù)據(jù)分布與復賽數(shù)據(jù)集不同,而直接使用復賽數(shù)據(jù)集進行訓練非常耗時且難以收斂。Image100 x 100 x 3Visit26 x 24 x 7Se-ResNeXt 101FCConcatenateGlobal PoolingNetwork of Image BranchDPN 98Global Pooling256FC256

6、512Network of Visit Branch9Output在復賽數(shù)據(jù)集上Fine-tuning在ImageNet數(shù)據(jù)集上進行初始化訓練在初賽數(shù)據(jù)集上Fine-tuning網(wǎng)絡結構其他策略Optimizer:AMSGradCosine learning rate decay with restartWarm upTTA on Image DataOrderModifyScoreTime1Se-ResNeXt 101 & DPN98 + 5fold0.73151.0 x2Baseline1 +AMSGrad0.73213Baseline2 + warm up + cosine learni

7、ng rate decay 0.73641.05x4Baseline3+TTA0.73685.0 x5-fold特征工程特征工程-預處理1轉化前轉化后特征工程-預處理1all_datablock1-block12block12-block20block21-block25Server1Server2Server3整合特征工程-從地區(qū)角度特征工程-從地區(qū)角度人數(shù)小時數(shù)特征工程-從地區(qū)角度0點-5點睡覺公園,學校,商業(yè)區(qū)人較少5點-8點晨練公園人較多8點-12點工作,上班工業(yè)學校人較多12點-14點吃飯,午休商業(yè)區(qū),住宅區(qū)人較多14點-18點工作,上班工業(yè)學校人較多18點-20點下班,吃飯商業(yè)區(qū),

8、住宅區(qū)人較多20點-24點個人時間商業(yè)區(qū),住宅區(qū)時間段特征特征工程-從地區(qū)角度特征工程-從地區(qū)角度變化率特征人數(shù)小時數(shù)0-11-22-33-420-2121-2222-2323-24統(tǒng)計特征人數(shù)小時數(shù)最大值方差中位數(shù)最大值索引最小值最小值索引均值標準差特征工程-預處理2People大字典1keyvalueUID到過第一區(qū)域的天數(shù)到過第二區(qū)域的天數(shù)到過第七區(qū)域的天數(shù)到過第三區(qū)域的天數(shù)到過第四區(qū)域的天數(shù)到過第五區(qū)域的天數(shù)到過第六區(qū)域的天數(shù)到過第八區(qū)域的天數(shù)到過第九區(qū)域的天數(shù)到過第一區(qū)域的小時數(shù)到過第二區(qū)域的小時數(shù)到過第七區(qū)域的小時數(shù)到過第三區(qū)域的小時數(shù)到過第四區(qū)域的小時數(shù)到過第五區(qū)域的小時數(shù)到過第

9、六區(qū)域的小時數(shù)到過第八區(qū)域的小時數(shù)到過第九區(qū)域的小時數(shù)特征工程-預處理2People大字典2keyvalueUID8-12點到過第一區(qū)域的小時數(shù)8-12點到過第二區(qū)域的小時數(shù)8-12點到過第七區(qū)域的小時數(shù)8-12點到過第三區(qū)域的小時數(shù)8-12點到過第四區(qū)域的小時數(shù)8-12點到過第五區(qū)域的小時數(shù)8-12點到過第六區(qū)域的小時數(shù)8-12點到過第八區(qū)域的小時數(shù)8-12點到過第九區(qū)域的小時數(shù)14-18點到過第一區(qū)域的小時數(shù)14-18點到過第二區(qū)域的小時數(shù)14-18點到過第七區(qū)域的小時數(shù)14-18點到過第三區(qū)域的小時數(shù)14-18點到過第四區(qū)域的小時數(shù)14-18點到過第五區(qū)域的小時數(shù)14-18點到過第六區(qū)域

10、的小時數(shù)14-18點到過第八區(qū)域的小時數(shù)14-18點到過第九區(qū)域的小時數(shù)特征工程-從人角度讀取txt到訪記錄用戶id列表People大字典1People大字典2求和求和獲得遍歷遍歷一個txt的特征到過區(qū)域1的天數(shù)總數(shù)到過區(qū)域9的天數(shù)總數(shù)到過區(qū)域1的小時數(shù)總數(shù)到過區(qū)域9的小時數(shù)總數(shù)8-12點到過區(qū)域1的小時數(shù)總數(shù)8-12點到過區(qū)域9的小時數(shù)總數(shù)14-18點到過區(qū)域1的小時數(shù)總數(shù)14-18點到過區(qū)域9的小時數(shù)總數(shù)第二階段總特征Image100 x 100 x 3Visit26 x 24 x 7Se-ResNeXt 101FCConcatenateGlobal PoolingNetwork of I

11、mage BranchDPN 98Global Pooling256FC256512Network of Visit Branch9OutputPCA to 36 channel特征工程-從圖像角度第三階段總特征模型融合模型融合特征模型分數(shù)第一類特征xgb0.693390第一類特征lgb0.688800第一類特征ctb0.695340第一類特征+第二類特征xgb0.825400 第一類特征+第二類特征lgb0.827790 第一類特征+第二類特征ctb0.828290第一類特征+第二類特征+第三類特征xgb0.819990第一類特征+第二類特征+第三類特征lgb0.823130第一類特征+第二類特征+第三類特征ctb0.831250 模型融合xgbctblgbnn加權平均加權平均結果樹模型模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論