基于集成式人工智能算法的分類預測獲獎科研報告_第1頁
基于集成式人工智能算法的分類預測獲獎科研報告_第2頁
基于集成式人工智能算法的分類預測獲獎科研報告_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于集成式人工智能算法的分類預測獲獎科研報告

摘要:本文將集成式人工智能算法——梯度提升樹算法應用到了特征信息有缺失的帶標簽樣本的分類預測中,通過和其它分類算法比較看出集成式算法在準確度和ROC、AUC等分類性能指標上有著明顯的優(yōu)勢。

關(guān)鍵詞:人工智能;集成式;分類預測

一、引言

近些年,人工智能技術(shù)因所依賴的硬件環(huán)境的改善得到了更為廣泛的應用。概括地說,人工智能技術(shù)是利用計算機軟硬件通過程序設(shè)計來實現(xiàn)人類智能的技術(shù)科學。從應用領(lǐng)域的角度來講,人工智能技術(shù)又可以大致分為模式識別、機器學習、智能算法和數(shù)據(jù)挖掘等方面。本文關(guān)注的就是利用數(shù)據(jù)挖掘中的集成式算法對樣本數(shù)據(jù)實現(xiàn)分類預測。

集成式的數(shù)據(jù)挖掘算法比較多。所謂集成是指將多個同類算法進行有機結(jié)合實現(xiàn)聯(lián)合決策的過程。比較經(jīng)典隨機森林算法就是通過隨機組合將多課決策樹聯(lián)合通過投票的方式確定樣本的類別。以此為基礎(chǔ)發(fā)展得到一些諸如AdaBoost,GBDT(GradientBoostingDecisionTree)等集成式算法,尤其是GBDT算法,作為一種迭代的決策樹算法,聯(lián)合多課決策樹通過迭代的過程對歷次預測產(chǎn)生的殘差進行擬合以達到較高的訓練精度。它和支持向量機都被認為是泛化能力較強的樣本分類算法。本文也將通過實例比較二者的分類性能。

二、基于集成式人工智能算法GBDT的分類預測

以一個確定的帶標簽的數(shù)據(jù)集為例。這里選取記錄了泰坦尼克號沉沒事件中的乘客身份信息以及最終幸存與否的數(shù)據(jù)表。根據(jù)歷史記錄,泰坦尼克號上共計1316位乘客。每位乘客均帶有年齡,性別,座號等信息。另外用標簽0標注乘客死亡,1標注乘客生還。這樣就個構(gòu)成了一個包含1316條樣本的數(shù)據(jù)表。表一呈現(xiàn)了部分乘客的信息。可以注意到每位乘客包含座位等級,姓名,年齡,性別等十個特征信息。而“survived”則是幸存與否,用0和1區(qū)別。因年代原因不少信息都是殘缺的,只能用“NaN”來記錄,在實際數(shù)據(jù)分析中,我們采用該特征的其它記錄值的均值來代替這些缺失值。現(xiàn)在目的則是利用集成式的人工智能算法GBDT、隨機森林和公認分類學習能力比較出色的支持向量機(SVC)來學習這些樣本的信息,從而訓練出預測模型。

根據(jù)預測模型的構(gòu)建原理,我們將1316條數(shù)據(jù)分為訓練集和測試集。訓練集顧名思義是用于讓算法學習數(shù)據(jù)訓練模型的,而測試集則是檢驗模型的性能。為比較公平,三種分類算法不指定參數(shù),均采用默認設(shè)置以讓算法自動充分地學習訓練集數(shù)據(jù)??紤]到這些算法在學習數(shù)據(jù)時某些環(huán)節(jié)的隨機性,我們對每個算法均運行50次,通過平均性能,包括平均準確率、平均AUC等值反映三種算法的性能。

三、模型性能的比較

首先通過比較直觀的ROC曲線圖反映一次學習后三種算法的性能比較。ROC曲線圖的出現(xiàn)是為了解決僅通過模型對測試集樣本預測的準確率來反映模型性能不夠科學的問題,尤其是在不平衡的數(shù)據(jù)集中。例如若測試集由199個正類和1個負類樣本組成,則即使不用分類算法直接把所有樣本都預測為正類,準確率也非常高。所以準確率不足以反映模型的性能,這時需要正類樣本被正確歸類(真的正類)的比例tpr和正類樣本被錯誤歸類(假的正類)的比例fpr來綜合反映模型性能。ROC曲線正是反映了tpr和fpr隨著算法閾值變化的曲線圖。圖1是此次預測的ROC曲線圖。圖中按圖例表示的不同形狀的曲線是此次預測的三種算法的ROC曲線,它代表模型對正類樣本正確分類的比率(tpr)和對正類樣本錯分的比率(fpr)。在以fpr為橫軸tpr為縱軸的ROC曲線圖里,顯然曲線越靠近左上角表明性能越好。

從圖1可以看出整體而言,在不同的閾值下,GBDT算法的整體的性能更好,總體上其ROC曲線是位于其它兩種算法之上的。相對而言在閾值較小時,支持向量機SVC性能比擬于GBDT而優(yōu)于隨機森林RF,在閾值較大時,三種算法的性能幾乎沒有差別。但這僅僅是對測試集一次預測的性能比較,考慮到切分數(shù)據(jù)集的隨機性,這還不夠全面。所以我們對每種算法實施50輪預測,對50次預測的準確率和ROC曲線的線下面積AUC都取均值來比較三種算法的預測性能。平均準確率具體結(jié)果隨機森林,GBDT和SVC分別為0.815,0.824和0.809。結(jié)果顯示就平均準確率而言,GBDT最優(yōu),隨機森林次之,SVC稍稍落后。ROC線下面積AUC的具體結(jié)果隨機森林,GBDT和SVC分別為0.816,0.83

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論