題庫機(jī)器學(xué)習(xí)專項(xiàng)面試題型介紹及解析_第1頁
題庫機(jī)器學(xué)習(xí)專項(xiàng)面試題型介紹及解析_第2頁
題庫機(jī)器學(xué)習(xí)專項(xiàng)面試題型介紹及解析_第3頁
題庫機(jī)器學(xué)習(xí)專項(xiàng)面試題型介紹及解析_第4頁
題庫機(jī)器學(xué)習(xí)專項(xiàng)面試題型介紹及解析_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1?監(jiān)督學(xué)習(xí)有哪些步驟?監(jiān)督學(xué)習(xí)是使用已知正確答案的示例來訓(xùn)練網(wǎng)絡(luò),每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果。想象一下,我們可以訓(xùn)練一個(gè)網(wǎng)絡(luò),讓其從照片庫中(其中包含氣球的照片)識(shí)別出氣球的照片。以下就是我們?cè)谶@個(gè)假設(shè)場(chǎng)景中所要采取的步驟。步驟1:數(shù)據(jù)集的創(chuàng)建和分類首先,瀏覽你的照片(數(shù)據(jù)集),確定所有包含氣球的照片,并對(duì)其進(jìn)行標(biāo)注。然后,將所有照片分為訓(xùn)練集和驗(yàn)證集。目標(biāo)就是在深度網(wǎng)絡(luò)中找一函數(shù),這個(gè)函數(shù)輸入是任意一張照片,當(dāng)照片中包含氣球時(shí),輸出1,否則輸出0。步驟2:數(shù)據(jù)增強(qiáng)(DataAugmentation)當(dāng)原始數(shù)據(jù)搜集和標(biāo)注完畢,一般搜集的數(shù)據(jù)并不一定包含目標(biāo)在各種擾動(dòng)下的信息。數(shù)據(jù)的好壞對(duì)于機(jī)器學(xué)習(xí)模型的預(yù)測(cè)能力至關(guān)重要,因此一般會(huì)進(jìn)行數(shù)據(jù)增強(qiáng)。對(duì)于圖像數(shù)據(jù)來說,數(shù)據(jù)增強(qiáng)一般包括,圖像旋轉(zhuǎn),平移,顏色變換,裁剪,仿射變換等。步驟3:特征工程(FeatureEngineering)一般來講,特征工程包含特征提取和特征選擇。常見的手工特征(Hand-CraftedFeature)有尺度不變特征變換(Scale-InvariantFeatureTransform,SIFT),方向梯度直方圖(HistogramofOrientedGradient,HOG)等。由于手工特征是啟發(fā)式的,其算法設(shè)計(jì)背后的出發(fā)點(diǎn)不同,將這些特征組合在一起的時(shí)候有可能會(huì)產(chǎn)生沖突,如何將組合特征的效能發(fā)揮出來,使原始數(shù)據(jù)在特征空間中的判別性最大化,就需要用到特征選擇的方法。在深度學(xué)習(xí)方法大獲成功之后,人們很大一部分不再關(guān)注特征工程本身。因?yàn)?,最常用到的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNNs)本身就是一種特征提取和選擇的引擎。研究者提出的不同的網(wǎng)絡(luò)結(jié)構(gòu)、正則化、歸一化方法實(shí)際上就是深度學(xué)習(xí)背景下的特征工程。步驟4:構(gòu)建預(yù)測(cè)模型和損失將原始數(shù)據(jù)映射到特征空間之后,也就意味著我們得到了比較合理的輸入。下一步就是構(gòu)建合適的預(yù)測(cè)模型得到對(duì)應(yīng)輸入的輸出。而如何保證模型的輸出和輸入標(biāo)簽的一致性,就需要構(gòu)建模型預(yù)測(cè)和標(biāo)簽之間的損失函數(shù),常見的損失函數(shù)(LossFunction)有交叉熵、均方差等。通過優(yōu)化方法不斷迭代,使模型從最初的初始化狀態(tài)一步步變化為有預(yù)測(cè)能力的模型的過程,實(shí)際上就是學(xué)習(xí)的過程。步驟5:訓(xùn)練選擇合適的模型和超參數(shù)進(jìn)行初始化,其中超參數(shù)比如支持向量機(jī)中核函數(shù)、誤差項(xiàng)懲罰權(quán)重等。當(dāng)模型初始化參數(shù)設(shè)定好后,將制作好的特征數(shù)據(jù)輸入到模型,通過合適的優(yōu)化方法不斷縮小輸出與標(biāo)簽之間的差距,當(dāng)?shù)^程到了截止條件,就可以得到訓(xùn)練好的模型。優(yōu)化方法最常見的就是梯度下降法及其變種,使用梯度下降法的前提是優(yōu)化目標(biāo)函數(shù)對(duì)于模型是可導(dǎo)的。步驟6:驗(yàn)證和模型選擇訓(xùn)練完訓(xùn)練集圖片后,需要進(jìn)行模型測(cè)試。利用驗(yàn)證集來驗(yàn)證模型是否可以準(zhǔn)確地挑選出含有氣球在內(nèi)的照片。在此過程中,通常會(huì)通過調(diào)整和模型相關(guān)的各種事物(超參數(shù))來重復(fù)步驟2和3,諸如里面有多少個(gè)節(jié)點(diǎn),有多少層,使用怎樣的激活函數(shù)和損失函數(shù),如何在反向傳播階段積極有效地訓(xùn)練權(quán)值等等。步驟7:測(cè)試及應(yīng)用當(dāng)有了一個(gè)準(zhǔn)確的模型,就可以將該模型部署到你的應(yīng)用程序中。你可以將預(yù)測(cè)功能發(fā)布為API(ApplicationProgrammingInterface, 應(yīng)用程序編程接口)調(diào)用,并且你可以從軟件中調(diào)用該API,從而進(jìn)行推理并給出相應(yīng)的結(jié)果。2.什么樣的分類器是最好的?對(duì)某一個(gè)任務(wù),某個(gè)具體的分類器不可能同時(shí)滿足或提高所有上面介紹的指標(biāo)。如果一個(gè)分類器能正確分對(duì)所有的實(shí)例,那么各項(xiàng)指標(biāo)都已經(jīng)達(dá)到最優(yōu),但這樣的分類器往往不存在。比如之前說的地震預(yù)測(cè),既然不能百分百預(yù)測(cè)地震的發(fā)生,但實(shí)際情況中能容忍一定程度的誤報(bào)。假設(shè)在1000次預(yù)測(cè)中,共有5次預(yù)測(cè)發(fā)生了地震,真實(shí)情況中有一次發(fā)生了地震,其他4次則為誤報(bào)。正確率由原來的999/1000=99.9下降為996/1000=99.6。召回率由0/1=0%上升為1/1=100%。對(duì)此解釋為,雖然預(yù)測(cè)失誤了4次,但真的地震發(fā)生前,分類器能預(yù)測(cè)對(duì),沒有錯(cuò)過,這樣的分類器實(shí)際意義更為重大,正是我們想要的。在這種情況下,在一定正確率前提下,要求分類器的召回率盡量高。3.決策樹的基本思想是什么?其實(shí)用一下圖片能更好的理解LR模型和決策樹模型算法的根本區(qū)別,我們可以思考一下一個(gè)決策問題:是否去相親,一個(gè)女孩的母親要給這個(gè)女海介紹對(duì)象。>30兒親兒親兒親兒親兒女母女母女母女母女呻或中等>30兒親兒親兒親兒親兒女母女母女母女母女呻或中等<30多大年紀(jì)了?(年齡)26岳的帥不帥?(長(zhǎng)相)挺帥的收入高不?(收入情況)不算很高,中等情況是公雋員不?(是否公務(wù)員)是,在稅務(wù)局上班呢。那好,我去見見決策樹模型簡(jiǎn)單、邏輯清晰、可解釋性好大家都看得很明白了吧!LR模型是一股腦兒的把所有特征塞入學(xué)習(xí),而決策樹更像是編程語言中的if-else—樣,去做條件判斷,這就是根本性的區(qū)別。4?講述決策樹算法優(yōu)缺點(diǎn)?決策樹算法的優(yōu)點(diǎn):決策樹算法易理解,機(jī)理解釋起來簡(jiǎn)單。?決策樹算法可以用于小數(shù)據(jù)集。?決策樹算法的時(shí)間復(fù)雜度較小,為用于訓(xùn)練決策樹的數(shù)據(jù)點(diǎn)的對(duì)數(shù)。?相比于其他算法智能分析一種類型變量,決策樹算法可處理數(shù)字和數(shù)據(jù)的類別。?能夠處理多輸出的問題。?對(duì)缺失值不敏感。?可以處理不相關(guān)特征數(shù)據(jù)。?效率高,決策樹只需要一次構(gòu)建,反復(fù)使用,每一次預(yù)測(cè)的最大計(jì)算次數(shù)不超過決策樹的深度。決策樹算法的缺點(diǎn):?對(duì)連續(xù)性的字段比較難預(yù)測(cè)。?容易出現(xiàn)過擬合。?當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快。?在處理特征關(guān)聯(lián)性比較強(qiáng)的數(shù)據(jù)時(shí)表現(xiàn)得不是太好。?對(duì)于各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中,信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。5.熵的概念以及理解熵:度量隨機(jī)變量的不確定性。定義:假設(shè)隨機(jī)變量X的可能取值有AInvalidEquation「對(duì)于每一個(gè)可能的取值定義:假設(shè)隨機(jī)變量X的可能取值有AInvalidEquation「對(duì)于每一個(gè)可能的取值A(chǔ)InvalidEquationIAInvalidEquation,其概率隨機(jī)變量的熵為:IAInvalidEquation對(duì)于樣本集合,假設(shè)樣本有k個(gè)類別,每個(gè)類別的概率為$\frac{|C_{k}|}{|D|}$,其中${|C_{k}|}{|D|}$為類別為k的樣本個(gè)數(shù),$|D|$為樣本總數(shù)。樣本集合D的熵為:|AIrwBliUEquation|6?如何理解信息增益?定義:以某特征劃分?jǐn)?shù)據(jù)集前后的熵的差值。熵可以表示樣本集合的不確定性,熵越大,樣本的不確定性就越大。因此可以使用劃分前后集合熵的差值來衡量使用當(dāng)前特征對(duì)于樣本集合D劃分效果的好壞。假設(shè)劃分前樣本集合D的熵為H(D)。使用某個(gè)特征A劃分?jǐn)?shù)據(jù)集D,計(jì)算劃分后的數(shù)據(jù)子集的熵為H(D|A)。AInvalidEquation則信息增益為: 注:在決策樹構(gòu)建的過程中我們總是希望集合往最快到達(dá)純度更高的子集合方向發(fā)展,因此我們總是選擇使得信息增益最大的特征來劃分當(dāng)前數(shù)據(jù)集D。思想:計(jì)算所有特征劃分?jǐn)?shù)據(jù)集D,得到多個(gè)特征劃分?jǐn)?shù)據(jù)集D的信息增益,從這些信息增益中選擇最大的,因而當(dāng)前結(jié)點(diǎn)的劃分特征便是使信息增益最大的劃分所使用的特征。另外這里提一下信息增益比相關(guān)知識(shí):$信息增益比二懲罰參數(shù)\times信息增益$信息增益比本質(zhì):在信息增益的基礎(chǔ)之上乘上一個(gè)懲罰參數(shù)。特征個(gè)數(shù)較多時(shí),懲罰參數(shù)較?。惶卣鱾€(gè)數(shù)較少時(shí),懲罰參數(shù)較大。懲罰參數(shù):數(shù)據(jù)集D以特征A作為隨機(jī)變量的熵的倒數(shù)。分類決策樹和回歸決策樹的區(qū)別?ClassificationAndRegressionTree(CART)是決策樹的一種,CART算法既可以用于創(chuàng)建分類樹(ClassificationTree),也可以用于創(chuàng)建回歸樹(RegressionTree),兩者在建樹的過程稍有差異?;貧w樹:CART回歸樹是假設(shè)樹為二叉樹,通過不斷將特征進(jìn)行分裂。比如當(dāng)前樹結(jié)點(diǎn)是基于第j個(gè)特征值進(jìn)行分裂的,設(shè)該特征值小于s的樣本劃分為左子樹,大于s的樣本劃分為右子樹。j)={咄衛(wèi))<andfia(?)={不|霜旳>打而CART回歸樹實(shí)質(zhì)上就是在該特征維度對(duì)樣本空間進(jìn)行劃分,而這種空間劃分的優(yōu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論