泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析_第1頁(yè)
泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析_第2頁(yè)
泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析_第3頁(yè)
泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析_第4頁(yè)
泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析    撒宇航摘 要:在機(jī)器學(xué)習(xí)中,有兩大類(lèi)常見(jiàn)的問(wèn)題,一類(lèi)為回歸問(wèn)題,另外一類(lèi)為分類(lèi)問(wèn)題。對(duì)于回歸問(wèn)題的解決,常見(jiàn)的方法有線性回歸,隨機(jī)森林等。而針對(duì)分類(lèi)問(wèn)題,有knn,logsitic,svm,神經(jīng)網(wǎng)絡(luò)等算法。不同的算法在不同的問(wèn)題中具有不同的效果。因此,本研究通過(guò)具體的實(shí)例“泰坦尼克號(hào)乘客遇難預(yù)測(cè)”,通過(guò)運(yùn)用機(jī)器學(xué)習(xí)中的不同分類(lèi)模型來(lái)分析乘客的存活是運(yùn)氣原因,還是存在一定的規(guī)律性。通過(guò)該對(duì)問(wèn)題的研究,比較了不同機(jī)器學(xué)習(xí)分類(lèi)模型的差異性以及優(yōu)缺點(diǎn)。關(guān)鍵詞:遇難乘客預(yù)測(cè);knn;svm;邏輯回歸;神經(jīng)網(wǎng)絡(luò)泰坦尼克號(hào)的沉

2、沒(méi)是歷史上具有廣泛影響的沉船事件之一,1912年4月15日,在首次航行期間,泰坦尼克號(hào)撞上冰山后沉沒(méi),2224名乘客和機(jī)組人員中有1502人遇難。這場(chǎng)轟動(dòng)的悲劇震撼了國(guó)際社會(huì)。雖然幸存下來(lái)的人存在一些運(yùn)氣方面的因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級(jí)。我們的目標(biāo)便是根據(jù)每位乘客的性別,年齡,艙位等相關(guān)特征,來(lái)預(yù)測(cè)該乘客是否會(huì)在該次乘船事故中存活下來(lái)。訓(xùn)練集以及測(cè)試集,我們總共有900名左右的乘客數(shù)據(jù),每位乘客包括10個(gè)特征,包括pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarke。我們將拿出600名乘客數(shù)據(jù)作為

3、我們的訓(xùn)練集,剩余的300名乘客的數(shù)據(jù),用來(lái)作為我們的測(cè)試集,用于檢驗(yàn)訓(xùn)練出的模型的性能。一、分類(lèi)模型構(gòu)建(一) knn模型(1) knn模型原理。knn(k nearest neighbor)算法,又叫作k領(lǐng)近算法,是機(jī)器學(xué)習(xí)中一種常見(jiàn)的分類(lèi)算法之一。其中的k表示待測(cè)樣本最近的k個(gè)鄰居。在1968年,cover和hart提出了knn算法,這是一個(gè)在理論上比較成熟的方法1。knn算法的訓(xùn)練過(guò)程是將所有的訓(xùn)練集映射在特征空間中,測(cè)試過(guò)程將待測(cè)試樣本,計(jì)算每個(gè)樣本與訓(xùn)練集樣本的歐氏距離,然后對(duì)所有距離進(jìn)行排序,從中挑選出最近的k個(gè)樣本,在k個(gè)樣本中,采用基本投票原則,票數(shù)最多的類(lèi)別作為待測(cè)樣本的類(lèi)

4、別。在我們的泰坦尼克號(hào)問(wèn)題中,訓(xùn)練集一共含有600名乘客的特征數(shù)據(jù),將它們映射到特征空間當(dāng)中。測(cè)試階段,我們將測(cè)試集的300個(gè)乘客數(shù)據(jù),分別計(jì)算與600名乘客的歐幾里得距離,從中挑選出最近的k個(gè)距離后,采用投票原則,將票數(shù)最多的類(lèi)別作為待測(cè)樣本的類(lèi)別。(2) 結(jié)果分析。我們調(diào)用了sklearn中集成的knn模型,在訓(xùn)練集上進(jìn)行了訓(xùn)練,并且嘗試了不同的k取值,在該問(wèn)題上的正確率。我們分別測(cè)試了當(dāng)k 取5,10,15,20時(shí)模型的結(jié)果。測(cè)試的結(jié)果顯示,在上述4種k的取值下,在測(cè)試集上的正確率分別為79.3%,81.7%,83.1%,82.4%。由此可見(jiàn),在泰坦尼克號(hào)這個(gè)問(wèn)題上,當(dāng)k取值在15左右時(shí)

5、,模型的結(jié)果較好。關(guān)于knn模型中k值的不同選擇:當(dāng)k值較小時(shí),預(yù)測(cè)結(jié)果對(duì)近鄰的實(shí)例點(diǎn)非常敏感,容易發(fā)生過(guò)擬合;如果k值過(guò)大模型會(huì)傾向大類(lèi),容易欠擬合;通常k是不大于20的整數(shù)。knn算法的優(yōu)點(diǎn)是精度高,對(duì)異常值不敏感。但是缺點(diǎn)是對(duì)k的取值相對(duì)比較敏感,不同的k取值對(duì)模型產(chǎn)生的結(jié)果可能差異性非常的明顯。另一方面,由于我們的訓(xùn)練集的大小僅僅為600個(gè)樣本,而對(duì)于其他的一些機(jī)器學(xué)習(xí)應(yīng)用,我們的數(shù)據(jù)集可能十分巨大,特征維數(shù)也會(huì)十分巨大,會(huì)造成knn算法的運(yùn)行速度緩慢,因?yàn)槊款A(yù)測(cè)一個(gè)樣本,就要計(jì)算該樣本與訓(xùn)練集中的所有的樣本距離,還要對(duì)所有距離進(jìn)行排序,這會(huì)大大提高算法運(yùn)行的時(shí)間,降低knn算法的效率

6、,所以一般knn算法只適用于數(shù)據(jù)集比較小的情況。(二)邏輯回歸模型(1) 邏輯回歸模型原理。邏輯回歸是現(xiàn)今的工業(yè)界中一種常見(jiàn)的分類(lèi)模型,對(duì)于大多數(shù)的問(wèn)題都?jí)蛉〉孟喈?dāng)不錯(cuò)的結(jié)果。邏輯回歸的基本原理是使用邏輯回歸函數(shù)來(lái)作為我們的預(yù)測(cè)函數(shù),去預(yù)測(cè)在給定特征下,樣本屬于每個(gè)類(lèi)別的概率。在訓(xùn)練階段,通過(guò)梯度下降算法,不斷的降低交叉熵代價(jià)函數(shù),提高在訓(xùn)練集上的準(zhǔn)確率。同時(shí),我們加入了l1正則化,可以避免模型陷入過(guò)擬合。(2)結(jié)果分析。通過(guò)在訓(xùn)練的過(guò)程中加入的l1正則化項(xiàng),我們的模型基本沒(méi)有發(fā)生過(guò)擬合,在訓(xùn)練集上的準(zhǔn)確率達(dá)到了79.8%,在測(cè)試集上達(dá)到了81.7%的正確率,取得了良好的性能。邏輯回歸的優(yōu)點(diǎn)是

7、在于簡(jiǎn)單,訓(xùn)練速度相對(duì)于knn模型快很多。但是其一般更適合用于線性可分的問(wèn)題當(dāng)中,而對(duì)于一些線性不可分的問(wèn)題中,采用更復(fù)雜的非線性模型可能會(huì)取得更好的效果。(三)svm模型(1) svm模型原理。支持向量機(jī)(support vector machine,svm),是機(jī)器學(xué)習(xí)分類(lèi)算法中一種綜合性能十分優(yōu)秀的模型。其不僅能處理線性可分的問(wèn)題,引入的核函數(shù),還能夠處理線性不可分的問(wèn)題。大大提高了模型的泛化能力。近年來(lái),由于其性能優(yōu)異,被廣泛的運(yùn)用在各種分類(lèi)問(wèn)題中。svm可以理解為是邏輯回歸的改進(jìn),對(duì)于邏輯回歸模型來(lái)講,由于存在無(wú)數(shù)個(gè)可能的解,解不唯一。即存在無(wú)數(shù)個(gè)超平面將數(shù)據(jù)分割開(kāi)來(lái),因此算法得到的

8、解可能不一定是最優(yōu)的。而svm算法能從這無(wú)數(shù)個(gè)超平面中,選取一個(gè)最大間隔的超平面,使模型的泛化能力更強(qiáng)。svm主要適用于兩種情況。第一類(lèi)是線性可分?jǐn)?shù)據(jù),第二類(lèi)是線性不可分?jǐn)?shù)據(jù)。對(duì)于線性可分?jǐn)?shù)據(jù),采用了核技巧,將數(shù)據(jù)從低維空間映射到高維空間,再通過(guò)松弛變量等技術(shù)使數(shù)據(jù)變的線性可分。(2) svm模型的核函數(shù)。對(duì)于線性可分的數(shù)據(jù),普通的svm可以取得很好的效果。但在現(xiàn)實(shí)世界里,存在著很多非線性可分的數(shù)據(jù)。這個(gè)時(shí)候,普通的svm就不太適用。但是可以通過(guò)一定的核技巧,將數(shù)據(jù)從低維空間映射到高維度空間。此時(shí),線性不可分?jǐn)?shù)據(jù)就可能變成線性可分?jǐn)?shù)據(jù),核函數(shù)用來(lái)計(jì)算兩個(gè)低維空間的向量在高維空間的內(nèi)積,只要滿足

9、mercer 條件的函數(shù),都可以作為核函數(shù)。常見(jiàn)的核函數(shù)有線性核函數(shù),高斯核函數(shù),多項(xiàng)式核函數(shù)等。(3) 結(jié)果分析。當(dāng)訓(xùn)練集數(shù)目比較小時(shí),svm算法一般能夠取得很好的效果。但是當(dāng)訓(xùn)練集數(shù)目比較多時(shí),svm比較容易陷入過(guò)擬合,所以需要采用一定的正則化措施來(lái)緩解過(guò)擬合。因此我們使用了sklearn中帶有核函數(shù)的svm,在包含有600個(gè)樣本的訓(xùn)練集上經(jīng)過(guò)一段時(shí)間的訓(xùn)練后,最終得到的支持向量個(gè)數(shù)為298個(gè)??梢钥吹酱蟾庞?0%的訓(xùn)練樣本為支持向量。我們采用了不同的核函數(shù)來(lái)檢驗(yàn)?zāi)P偷男Ч?,?shí)驗(yàn)結(jié)果表明,不同的核函數(shù)在該問(wèn)題上的差異性不顯著。最終我們采用了帶有高斯核函數(shù)的svm,在訓(xùn)練集上的正確率為81.

10、8%,在測(cè)試集中進(jìn)行測(cè)試時(shí),得到了83.5%的正確率。從訓(xùn)練集和測(cè)試集上的正確率來(lái)看,模型基本上沒(méi)有發(fā)生過(guò)擬合。svm也是在包含上述一系列的分類(lèi)模型中,所達(dá)到的正確率比較高的模型,因此可見(jiàn),svm模型是效果非常好的一個(gè)分類(lèi)模型。(四)神經(jīng)網(wǎng)絡(luò)模型(1)神經(jīng)網(wǎng)絡(luò)模型原理。神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,對(duì)人類(lèi)大腦工作過(guò)程的一個(gè)簡(jiǎn)單的模擬。它能夠通過(guò)一定的學(xué)習(xí)算法,學(xué)到一個(gè)非常復(fù)雜的非線性模型。當(dāng)數(shù)據(jù)量比較大時(shí),具有十分強(qiáng)大的泛化能力。神經(jīng)網(wǎng)絡(luò)通過(guò)將多個(gè)神經(jīng)元通過(guò)一定的聯(lián)結(jié)方式連接在一起,構(gòu)成一個(gè)運(yùn)算模型。每個(gè)神經(jīng)元節(jié)點(diǎn)的輸入是上一層神經(jīng)元輸入的線性組合,然后加上激活函數(shù)后,作為該個(gè)神經(jīng)

11、元的輸出。常用的激活函數(shù)有sigmoid,tanh,relu等。每?jī)蓚€(gè)神經(jīng)元之間,具有一個(gè)權(quán)重值w。神經(jīng)網(wǎng)絡(luò)就是通過(guò)激活函數(shù),權(quán)重,聯(lián)結(jié)方式來(lái)模擬人類(lèi)大腦的學(xué)習(xí)記憶功能。神經(jīng)網(wǎng)絡(luò)在工作時(shí),首先通過(guò)前向傳播計(jì)算代價(jià)函數(shù)值,然后通過(guò)反向傳播算法計(jì)算代價(jià)函數(shù)的梯度值,最后通過(guò)一定的優(yōu)化算法,更新神經(jīng)網(wǎng)絡(luò)的每一層的權(quán)重矩陣w。在我們的泰坦尼克號(hào)乘客遇難問(wèn)題中,每個(gè)乘客在經(jīng)過(guò)預(yù)處理后,有14個(gè)特征,所以我們的神經(jīng)網(wǎng)絡(luò)的輸入層一共含有14個(gè)神經(jīng)元,第二層網(wǎng)絡(luò)具有32個(gè)神經(jīng)元,第三層網(wǎng)絡(luò)具有64個(gè)神經(jīng)元,輸出層含有一個(gè)神經(jīng)元。在這個(gè)問(wèn)題上,我們建立了一個(gè)具有多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行預(yù)測(cè),并且添加了相應(yīng)的正

12、則化項(xiàng)來(lái)防止模型的過(guò)擬合。(2) 結(jié)果分析。我們通過(guò)構(gòu)建了一個(gè)三層的感知機(jī)神經(jīng)網(wǎng)絡(luò),對(duì)600個(gè)訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,最終在訓(xùn)練集上取得了85.8%的正確率,在測(cè)試集上取得了83.5%的正確率,基本和svm得到的結(jié)果不相上下。實(shí)質(zhì)上,神經(jīng)網(wǎng)絡(luò)更適合處理特征數(shù)目很多,訓(xùn)練集數(shù)目很大的情況,而在泰坦尼克號(hào)這個(gè)問(wèn)題上,由于我們只有幾百個(gè)訓(xùn)練樣本,每個(gè)樣本只有十幾個(gè)特征。因此,雖然結(jié)果表現(xiàn)不錯(cuò),但是沒(méi)有真正體現(xiàn)出神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛化能力,沒(méi)有體現(xiàn)出多層神經(jīng)網(wǎng)絡(luò)的主要優(yōu)勢(shì)。三、結(jié)語(yǔ)本項(xiàng)目通過(guò)具體的實(shí)例“泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析”,對(duì)該問(wèn)題分別采用了knn模型,邏輯回歸模型,svm模型以及神經(jīng)網(wǎng)絡(luò)模型。在該問(wèn)題的同一測(cè)試集上,最優(yōu)模型分別取得了79%,81.7%,83.5

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論