




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第1頁,共1頁一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、下列哪一項能反映出X和Y之間的強相關性?()A.相關系數(shù)為0.9B.對于無效假設β=0的p值為0.0001C.對于無效假設β=0的t值為30D.以上說法都不對2、機器學習中做特征選擇時,可能用到的方法有?(多選)()A.卡方B.信息增益C.平均互信息D.期望交叉熵3、以下說法中正確的是()A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性B.在adaboost算法中,所有被分錯樣本的權重更新比例相同C.boosting和bagging都是組合多個分類器投票的方法,二者都是根據(jù)單個分類器的正確率確定其權重D.給定n個數(shù)據(jù)點,如果其中一半用于訓練,一半用戶測試,則訓練 誤差和測試誤差之間的差別會隨著n的增加而減少4、以下描述錯誤的是()A.SVM是這樣一個分類器,它尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器B.在聚類分析當中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差C.在決策樹中,隨著樹中結點輸變得太大,即使模型的訓練誤差還在繼續(xù)降低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的原因D.聚類分析可以看作是一種非監(jiān)督的分類5、若在二維空間中線性不可分,SVM算法會通過()方法解決。A.核函數(shù)B.激活函數(shù)C.剪枝D.特征選擇6、線性回歸能完成的任務是()A.預測離散值B.預測連續(xù)值C.分類D.聚類7、產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明()A.產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B.產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D.產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元8、下面哪個是通用的模型逼近器?
()
A.KernelSVM
B.NeuralNetworks
C.BoostedDecisionTrees
D.Alloftheabove
9、下面那個問題可以用深度學習來解決?()
A.蛋白質結構預測
B.化學反應的預測
C.外來粒子的檢測
D.以上所有
10、當您在CNN中使用1×1卷積時,以下哪個語句是真實的?()A.Itcanhelpindimensionalityreduction
B.Itcanbeusedforfeaturepooling
C.Itsufferslessoverfittingduetosmallkernelsize
D.Alloftheabove
二、判斷題(本大題共10小題,每題1分,共10分)1、邏輯回歸的目的就是提高二分類的效率。()2、SGD計算根據(jù)全部樣本構造出來的代價函數(shù)的梯度。()3、用線性代數(shù)的方式描述函數(shù)或者方程的好處之一是書寫方便。()4、Π是求積符號。()5、Σ是求和符號。()6、回歸任務是預測連續(xù)值。()7、分類任務是預測連續(xù)值。()8、集成學習:可以用作抽樣分布,從原始數(shù)據(jù)集中提取出自主樣本集。 ()9、基學習器可以使用權值學習有利于高權值樣本的模型。()10、Boosting:每一輪的訓練集不變,只是訓練集中每個樣本的權重發(fā)生變化,權值根據(jù)上一輪的預測結果進行調(diào)整。()三、填空(本大題共10小題,每題3分,共30分)1、求函數(shù)機制的方法有兩大類,分別是和。2、機器學習中做特征選擇時,可能用到的、、、。3、算法在決策樹生成的過程中,用信息增益比來選擇特征。4、Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度。5、p(x|θ)是給定參數(shù)θ的概率分布:。6、馬式距離的特征則是:。7、一個表示一組有序排列的數(shù)。通過次序中的索引,我們可以確定每個單獨的數(shù)。8、Adaboost算法不需要預先知道的錯誤率上限,且最后得到的的分類精度依賴于所有弱分類器的分類精度,可以深挖分類器的能力,Adaboost可以根據(jù)弱分類器的反饋,自適應地調(diào)整假定的錯誤率,執(zhí)行的效率高。9、Adaboost可以在不改變訓練數(shù)據(jù),只改變,使得數(shù)據(jù)在不同學習器中產(chǎn)生不同作用,類似于重采樣。10、關聯(lián)規(guī)則挖掘問題可以劃分成兩個子問題:發(fā)現(xiàn)和生成。四、簡答題(本大題共3小題,共30分)1、有數(shù)據(jù)集D1,其中樣本的特征是離散取值(可以簡單地考慮取二值),數(shù)據(jù)集D2和D1基本一樣,唯一的區(qū)別是D2中每個樣本的某個特征被重復了100次,請問在這兩個數(shù)據(jù)集上訓練的樸素貝葉斯分類器是否一樣,請給出具體分析?2、一元線性回歸有哪些基本假定?3、討論數(shù)據(jù)數(shù)量和質量對機器學習的影響?一、選擇題1.A 2.ABCD 3.C 4.C 5.A 6.B 7.D 8.D 9.D 10.D二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.錯 8.對 9.對 10.對 三、填空題1.解析解(閉式解)數(shù)值解 2.卡方信息增益平均互信息期望交叉熵 3.C4.5 4.越高 5.似然函數(shù) 6.平移不變性、旋轉不變性、尺度不變性 7.向量 8.弱分類器強分類器 9.數(shù)據(jù)權值分布 10.頻繁項目集關聯(lián)規(guī)則四、簡答題1、解:分類器是不一樣的。因為樸素貝葉斯方法假設了特征間的獨立性,但D2中的100個特征彼此不獨立,因此不在適用,如果用了兩者的結果不等。在D2上訓練,被重復的特征的概率會被乘100次,放大了它的影響。2、答:假設1、解釋變量X是確定性變量,Y是隨機變量;假設2、隨機誤差項ε具有零均值、同方差和不序列相關性:E(εi)=0i=1,2,…,n3、答:機器學習需要一定數(shù)量的數(shù)據(jù)作為支揮。數(shù)據(jù)量:過多會耗費更多的計算資源,還可能有不平衡數(shù)據(jù)集、維度災難等問題。數(shù)據(jù)量過少會導致機器學習的準確率下降,甚至不能完成學習的目標。數(shù)據(jù)數(shù)量和質量問題會導致過擬合或欠擬合的現(xiàn)象,優(yōu)秀的數(shù)據(jù)集對機器學習的結果影響是決定性的。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因為線性回歸對離群效應很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對2、建立線性模型時,我們看變量之間的相關性。在尋找相關矩陣中的相關系數(shù)時,如果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?()A.Var1和Var2具有很高的相關性B.Var1和Var2存在多重共線性,模型可以去掉其中一個特征C.Var3和Var1相關系數(shù)為1.23是不可能的D.以上都對3、下列哪種方法可以用來減小過擬合?(多選)()A.更多的訓練數(shù)據(jù)B.L1正則化C.L2正則化D.減小模型的復雜度4、向量X=[1,2,3,4,-9,0]的L1范數(shù)為?()A.1B.19C.6D.√1115、關于L1、L2正則化下列說法正確的是?()A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B.L2正則化技術又稱為LassoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏6、有N個樣本,一般用于訓練,一般用于測試。若增大N值,則訓 練誤差和測試誤差之間的差距會如何變化?()A.增大B.減小C.不變D.以上均不對7、在回歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬 合(over-fitting)中影響最大?()A.多項式階數(shù)B.更新權重w時,使用的是矩陣求逆還是梯度下降C.使用常數(shù)項D.學習率8、輸入層中的節(jié)點數(shù)為10,隱層為5。從輸入層到隱層的最大連接數(shù) 為?
()
A.50
B.Lessthan50
C.Morethan50
D.Itisanarbitraryvalue
9、如果我們希望預測n個類(p1,p2..pk)的概率,使得所有n的p 的和等于1,則以下哪個函數(shù)可以用作輸出層中的激活函數(shù)?
()
A.Softmax
B.ReLu
C.Sigmoid
D.Tanh
10、采取什么措施不可以防止過擬合?()
A.數(shù)據(jù)壓縮;
B.權值共享;
C.提前結束模型迭代;
D.采用dropout;二、判斷題(本大題共10小題,每題1分,共10分)1、FP——將負類預測為正類數(shù)。()2、交叉熵損失函數(shù)的好處是可以克服方差代價函數(shù)更新權重過慢的問 題。()3、邏輯回歸假設數(shù)據(jù)服從伯努利分布,通過極大化似然函數(shù)的方法, 運用梯度下降來求解參數(shù),來達到將數(shù)據(jù)二分類的目的。()4、SVM無法做多分類。()5、SVM不涉及核函數(shù)。()6、BGD計算根據(jù)全部樣本的構造出來的代價函數(shù)的梯度。()7、SGD計算根據(jù)全部樣本構造出來的代價函數(shù)的梯度。()8、Bagging:訓練集是在原始集中有放回抽取的,從原始集中選出的訓練集之間是獨立的。()9、Boosting:根據(jù)錯誤率不斷調(diào)整樣本的權值,錯誤率越大則權值越大。()10、Bagging:每個樣本的權重相等。()三、填空(本大題共10小題,每題3分,共30分)1、熵指的是體系的的程度。2、信息越有序,信息熵越。3、訓練過程中用到的數(shù)據(jù)叫。4、分類是預測,比如把人分為好人和壞人之類的學習任務。5、模型把訓練樣本學習“太好了”,可能把一些訓練樣本自身的特性當做了所有潛在樣本都有的一般性質,導致泛化能力下降叫。6、評判分類效果好壞的三個指標就是上面介紹的三個指標:,,。7、從已有的M個特征(Feature)中選擇N個特征使得系統(tǒng)的特定指標最優(yōu)化叫。8、Appriori屬性1:如果項目集X是頻繁項目集,那么它的所有非空子集都是。9、分類分析的三個步驟:、、。10、決策樹包含三種結點:、、。四、簡答題(本大題共3小題,共30分)1、決策樹的剪枝方法有哪些?2、SVM的超參數(shù)有哪些?3、討論深度學習的發(fā)展對推動機器學習的意義?一、選擇題1.A 2.D 3.ABCD 4.B 5.C 6.B 7.A 8.A 9.A 10.A二、判斷題1.對 2.對 3.對 4.錯 5.錯 6.對 7.錯 8.對 9.對 10.對 三、填空題1.混亂 2.低 3.訓練集 4.離散值 5.過擬合 6.正確率召回率F值 7.特征選擇 8.頻繁項目集 9.挖掘分類規(guī)則分類規(guī)則評估分類規(guī)則應用 10.根結點(矩形表示)內(nèi)部結點(矩形表示)葉結點/終結點(橢圓表示)四、簡答題1、答:預剪枝:提前結束決策樹的增長:類目數(shù)量、方差性能提升。2、答:C和gamma,C正則系數(shù),gamma決定支持向量的數(shù)量。3、答:深度學習需要大量的標記數(shù)據(jù)并需要大量的計算能力,因此深度學習可以較好地應對機器學習中大規(guī)模數(shù)據(jù)集,為機器學習提供了解決復雜問題的方法。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明()A。產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元B。產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元D。產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元2、直線方程y=wx+b,其中b表示()A.系數(shù)B截距C.斜率D權重3、以下描述中,對梯度解釋正確的是(多選)()A梯度是一個向量,有方向有大小B求梯度就是對梯度向量的各個元素求偏導C梯度只有大小沒有方向D梯度只有方向沒有大小4、關于誤差ε的說法正確的是(多選)()A誤差可以看做隨機比變量B誤差的概率分布符合正態(tài)分布C誤差的概率分布符合均勻分布D如果模型設計優(yōu)良,誤差可以避免5、標準差與方差的關系是(多選)()A標準差是方差的算術平方根B標準差可以反映離散程度,也可以反映出樣本的量綱C方差只能反映離散程度D標準差的平方是方差6、SVM中的核技巧(Kernaltrick)的作用包括以下哪項?()A.特征升維B.特征降維C.防止過擬合D.處理離散數(shù)據(jù)7、在數(shù)據(jù)預處理階段,我們常常對數(shù)值特征進行歸一化或標準化 (standardization,normalization)處理。這種處理方式理論上不會對下列 哪個模型產(chǎn)生很大影響?()A.k-MeansB.k-NNC.決策樹D.譜聚類8、下面哪個激活函數(shù)在圖像分類中不能作為輸出層?()
A.sigmoid
B.Tanh
C.ReLU
D.If(x>5,1,0)
9、使用batchnormalization可以解決以下哪一個神經(jīng)網(wǎng)絡訓練中的 問題?
()
A.防止梯度消失
B.防止激活過高或者過低
C.網(wǎng)絡訓練太慢
D.B和C10、感知器不包括下面那個結構:()A.輸入層B.隱藏層C.輸出層D.計算層二、判斷題(本大題共10小題,每題1分,共10分)1、預剪枝是在決策樹生成過程中,對樹進行剪枝,提前結束樹的分支 生長。()2、決策樹的剪枝基本策略有預剪枝(Pre-Pruning)和后剪枝。()3、常見的決策樹算法是ID3,C4.5,CART樹。()4、決策樹的剪枝是為了簡化決策樹模型,避免過擬合。()5、最小二乘法(又稱最小平方法)是一種數(shù)學優(yōu)化技術。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。()6、樸素貝葉斯(分類器)是一種生成模型,它會基于訓練樣本對每個可能的類別建模。()7、P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。()8、Boosting:串行,各個及學習器順序生成,因為后一個模型參數(shù)依賴于前一輪模型的預測結果。()9、Bagging:各個學習器可以并行生成。()10、Adaboost采用迭代的思想,繼承了Boosting算法,每次迭代只訓練一個弱學習器,訓練好的弱學習器將參與下一次迭代。()三、填空(本大題共10小題,每題3分,共30分)1、在某些情況下,我們會討論坐標超過兩維的數(shù)組。一般地,一個數(shù)組中的元素分布在若干維坐標的規(guī)則網(wǎng)格中,我們將其稱之為。2、回歸常用評估方法:,,。3、信息越有序,信息熵越。4、訓練用到的每個樣本叫。5、模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)叫。6、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。7、回歸問題對數(shù)值型連續(xù)隨機變量進行預測和建模的監(jiān)督學習算法?;貧w往往會通過計算來確定模型的精確性。8、AdaBoost很好的利用了進行級聯(lián)。9、AdaBoost可以將不同的作為弱分類器。10、AdaBoost具有很高的精度;相對于和,AdaBoost充分考慮的每個分類器的權重。四、簡答題(本大題共3小題,共30分)1、SVM、LR、決策樹的對比?2、樸素貝葉斯的特點是?3、討論目前機器學習應用中存在的主要問題?一、選擇題1.D 2.B 3.AB 4.AB 5.ABC 6.C 7.C 8.D 9.A 10.D二、判斷題1.對 2.對 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.張量 2.平均誤差絕對值誤差R2 3.低 4.訓練樣本 5.欠擬合 6.正確率 7.誤差(Error) 8.弱分類器 9.分類算法 10.bagging算法RandomForest算法四、簡答題1、模型復雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡單,訓練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝。損失函數(shù):SVMhingeloss;LRL2正則化;Adaboost指數(shù)損失。數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關心支持向量,且需要先做歸一化;LR對遠點敏感。數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核。2、答:優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數(shù)據(jù)的準備方式較為敏感。適用數(shù)據(jù)類型:標稱型數(shù)據(jù)。3、答:選擇什么模型或算法、選擇什么優(yōu)化方法、如何對數(shù)據(jù)進行預處理、目標函數(shù)是什么、過擬合與欠擬合的處理、維度爆炸。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。()A我們需要在n類分類問題中適合n個模型B我們需要適合n-1個模型來分類為n個類C我們需要只適合1個模型來分類為n個類D這些都沒有2、假設對給定數(shù)據(jù)應用了Logistic回歸模型,并獲得了訓練精度X和測試精度Y?,F(xiàn)在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯誤的選項。()注:假設剩余參數(shù)相同。A訓練精度提高B訓練準確度提高或保持不變C測試精度提高或保持不變3、假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學生在大學所獲得的評分。在下面說法中哪一項是正確的?()A特征F1是名義變量(nominalvariable)的一個實例。B特征F1是有序變量(ordinalvariable)的一個實例。C該特征并不屬于以上的分類。D以上說法都正確。4、下面哪一項對梯度下降(GD)和隨機梯度下降(SGD)的描述是正確的?()1在GD和SGD中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。2在SGD中,每一次迭代都需要遍歷訓練集中的所有樣本以更新一次參數(shù)。3在GD中,每一次迭代需要使用整個訓練集的數(shù)據(jù)更新一個參數(shù)。A只有1B只有2C只有3D都正確5、假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分 布。現(xiàn)在你想將onehotencoding(OHE)應用到類屬特征中。()那么在訓練集中將OHE應用到分類變量可能要面臨的困難是什么?A.分類變量所有的類別沒有全部出現(xiàn)在測試集中B.類別的頻率分布在訓練集和測試集是不同的C.訓練集和測試集通常會有一樣的分布D.A和B都正確6、假定你現(xiàn)在解決一個有著非常不平衡類別的分類問題,即主要類別 占據(jù)了訓練數(shù)據(jù)的99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為99%的準確度。 那么下面哪一項表述是正確的?()1準確度并不適合于衡量不平衡類別問題2準確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題4精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and47、假設我們有一個數(shù)據(jù)集,在一個深度為6的決策樹的幫助下,它可 以使用100%的精確度被訓練。現(xiàn)在考慮一下兩點,并基于這兩點選擇正確 的選項。()注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。1深度為4時將有高偏差和低方差2深度為4時將有低偏差和低方差A只有1B只有2C1和2D沒有一個8、與人類神經(jīng)元相比,人工神經(jīng)元的輸入類比于什么?()A.樹突B.軸突C.細胞核D.細胞膜9、與人類神經(jīng)元相比,人工神經(jīng)元的輸出類比于什么?()A.樹突B.軸突C.細胞核D.細胞膜10、以下關于感知器中的鏈接方式表示正確的是?()A.輸入層與隱藏層相連B.輸入層與輸出層相連C.隱藏層與細胞核相連D.輸入層與輸入層相連二、判斷題(本大題共10小題,每題1分,共10分)1、P(A|B)表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事 件B發(fā)生下事件A的條件概率。()2、輸出變量為連續(xù)變量的預測問題是分類問題。()3、回歸及分類常用的評估指標都是準確率和召回率。()4、決策樹只用來分類。()5、一般來說,回歸不用在分類問題上,但也有特殊情況,邏輯回歸可 以用來解決0/1分類問題。()6、回歸問題與分類問題都有可能發(fā)生過擬合。()7、如果一個經(jīng)過訓練的機器學習模型在測試集上達到100%的準確率, 這是否意味著該模型將在另外一個新的測試集上也能得到100%的準確率。 ()8、序列數(shù)據(jù)沒有時間戳。()9、定量屬性可以是整數(shù)值或者是連續(xù)值。()10、可視化技術對于分析的數(shù)據(jù)類型通常不是專用性的。()三、填空(本大題共10小題,每題3分,共30分)1、損失函數(shù)也叫或。2、已知坐標軸中兩點A(2,?2)B(?1,2),這兩點的曼哈頓距離(L1距離)是。3、算法利用信息增益進行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。4、表示在樣本集合中一個隨機選中的樣本被分錯的概率。5、基尼指數(shù)(基尼不純度)=*。6、歐式距離的特征是:、。7、一個表示一個單獨的數(shù),它不同于線性代數(shù)中研究的其他大部分對象(通常是多個數(shù)的數(shù)組)。8、AdaBoost迭代次數(shù)也就是數(shù)目不太好設定,可以使用交叉驗證來進行確定;數(shù)據(jù)不平衡導致分類精度下降。9、AdaBoost訓練比較耗時,每次重新選擇最好切分點。10、聚類(Clustering)是指把相似的數(shù)據(jù)劃分到一起,具體劃分的時候并不關心這一類的標簽,目標就是把相似的數(shù)據(jù)聚合到一起,聚類是一種。四、簡答題(本大題共3小題,共30分)1、決策樹算法特點?2、預剪枝核心思想是?3、如果你已經(jīng)在完全相同的訓練集上訓練了五個不同的模型,并且它們都達到了95%的準確率,是否還有機會通過結合這些模型來獲得更好的結果?如果可以,該怎么做?如果不行,為什么??一、選擇題1.A 2.B 3.B 4.A 5.D 6.A 7.A 8.A 9.B 10.A二、判斷題1.對 2.錯 3.錯 4.錯 5.對 6.對 7.錯 8.對 9.對 10.錯 三、填空題1.代價函數(shù)目標函數(shù) 2.7 3.ID3 4.基尼指數(shù)(基尼不純度) 5.樣本被選中的概率樣本被分錯的概率 6.平移不變性旋轉不變性 7.標量 8.弱分類器 9.當前分類器 10.無監(jiān)督學習(UnsupervisedLearning)方法四、簡答題1、答:優(yōu)點:計算復雜度不高,輸出結果易于理解,數(shù)據(jù)有缺失也能跑,可以處理不相關特征。缺點:容易過擬合。適用數(shù)據(jù)類型:數(shù)值型和標稱型。2、答:其中的核心思想就是,在每一次實際對結點進行進一步劃分之前,先采用驗證集的數(shù)據(jù)來驗證劃分是否能提高劃分的準確性。如果不能,就把結點標記為葉結點并退出進一步劃分;如果可以就繼續(xù)遞歸生成節(jié)點。3、答:如果你已經(jīng)訓練了五個不同的模型,并且都達到了95%的精度,你可以嘗試將它們組合成一個投票集成,這通常會帶來更好的結果。如果模型之間非常不同(例如,一個SVM分類器,一個決策樹分類器,以及一個Logistic回歸分類器等),則效果更優(yōu)。如果它們是在不同的訓練實例(這是bagging和pasting集成的關鍵點)上完成訓練,那就更好了,但如果不是,只要模型非常不同,這個集成仍然有效。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、假設你正在做一個項目,它是一個二元分類問題。你在數(shù)據(jù)集上訓練一個模型,并在驗證數(shù)據(jù)集上得到混淆矩陣?;谏鲜龌煜仃嚕旅婺膫€選項會給你正確的預測。()1精確度是~0.912錯誤分類率是~0.913假正率(Falsecorrectclassification)是~0.954真正率(Truepositiverate)是~0.95A1和3B2和4C1和4D2和32、對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?1用于拆分的樣本量()2樹深3樹葉樣本A1和2B2和3C1和3D1、2和3E無法分辨3、假如我們使用非線性可分的SVM目標函數(shù)作為最優(yōu)化對象,我們怎么保證模型線性可分?()A設C=1B設C=0C設C=無窮大D以上都不對4、NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標簽是C,它的一個假定是:()A.各類別的先驗概率P(C)是相等的B.以0為均值,sqr(2)/2為標準差的正態(tài)分布C.特征變量X的各個維度是類別條件獨立隨機變量D.P(X|C)是高斯分布5、假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數(shù)據(jù)的兩個維度搞重復了,那么關于NB的說法中正確的是:()A.這個被重復的特征在模型中的決定作用會被加強B.模型效果相比無重復特征的情況下精確度會降低C.如果所有特征都被重復一遍,得到的模型預測結果相對于不重復的情況下的模型預測結果一樣。D.當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題6、統(tǒng)計模式分類問題中,當先驗概率未知時,可以使用()A.最小最大損失準則B.最小誤判概率準則C.最小損失準則D.N-P判決7、甲盒中有200個螺桿,其中有160個A型螺桿;乙盒中有240個螺母,其中有180個A型的?,F(xiàn)從甲乙兩盒中各任取一個,則能配成A型螺栓的概率為多少?()A.1/20B.15/16C.3/5D.19/208、關于激活函數(shù)功能表述正確的是?()A.信號強度大于閾值的向下一層傳播B.信號強度小于閾值的向下一層傳播C.信號強度始終不向下一層傳播D.以上都不對9、激活函數(shù)的作用描述錯誤的是?()A.輔助信號傳輸?shù)拈T控函數(shù)B.構建模型的非線性特性C.提升學習復雜模型的能力D.對與非線性沒有幫助,可有可無10、如下那些函數(shù)沒有梯度消失的問題?()A.ReLUB.sigmoidC.tanhD.softmax二、判斷題(本大題共10小題,每題1分,共10分)1、如果一個經(jīng)過訓練的機器學習模型在測試集上達到100%的準確率, 這是否意味著該模型將在另外一個新的測試集上也能得到100%的準確率。 ()2、如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那 么樹模型很可能優(yōu)于經(jīng)典回歸方法。()3、在訓練完SVM之后,我們可以只保留支持向量,而舍去所有非支持 向量。 仍然不會影響模型分類能力。()4、兩個變量相關,它們的相關系數(shù)r
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年高中物理課時作業(yè)8自由落體運動規(guī)律含解析粵教版必修1
- 2025年無彈小花邊項目投資可行性研究分析報告
- 水泥改性劑行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 中國箱式房市場深度分析及投資戰(zhàn)略咨詢報告
- 中國讀圖板項目投資可行性研究報告
- 中國印制電路板(PCB)制造行業(yè)深度調(diào)研與投資戰(zhàn)略規(guī)劃分析報告
- 噴泉燈項目可行性研究報告評審方案設計2025年立項詳細標準+甲級
- 2025年機械式立體停車庫行業(yè)深度研究分析報告
- 中國平地機行業(yè)發(fā)展趨勢預測及投資規(guī)劃研究報告
- 小學生主題班會 弘揚航天精神 課件 (27張PPT)
- 石膏幾何體結構素描教案
- 一、二年級小學民族團結教案
- 新生兒早期基本保健課件
- 采礦學課程設計硯北煤礦新井設計全套圖紙
- 大型儲罐計算書
- 檢體診斷-頭頸部檢查(診斷學課件)
- 煤礦提升機作業(yè)理論考試參考題庫(200題)
- 侯馬北車輛段2023年運用機考復習題-曲沃作業(yè)場
- 手術室停電和突然停電應急預案PPT演示課件
- 職業(yè)病危害告知卡(油漆)
評論
0/150
提交評論