機(jī)器學(xué)習(xí)周志華課后習(xí)題答案_第1頁
機(jī)器學(xué)習(xí)周志華課后習(xí)題答案_第2頁
機(jī)器學(xué)習(xí)周志華課后習(xí)題答案_第3頁
機(jī)器學(xué)習(xí)周志華課后習(xí)題答案_第4頁
機(jī)器學(xué)習(xí)周志華課后習(xí)題答案_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章模型評估與選擇

1.數(shù)據(jù)集包含1000個樣本其中500個正例,500個反例,將其劃分為包含70M¥本的訓(xùn)練集和30%樣

本的測試集用于留出法評估,試估算共有多少種劃分方式。

一個組合問題.從500500正反例中分別選出150150正反例用于留出法評估.所以可能取法應(yīng)該是9盅2

2.數(shù)據(jù)集包含100個樣本,其中正反例各一半,假定學(xué)習(xí)算法所產(chǎn)生的模型是將新樣本預(yù)測為訓(xùn)練樣本

數(shù)較多的類別(訓(xùn)練樣本敬相同時進(jìn)行隨機(jī)猜測),試給出用10折交叉驗證法和留一法分別對錯誤率進(jìn)行

評估所得的結(jié)果.

10折交叉檢驗:由于每次訓(xùn)練樣本中正反例數(shù)目一樣.所以講結(jié)果判斷為正反例的概率也是一樣的.所以錯

誤率的期望是5050%。

留一法:如果留下的是正例.訓(xùn)練樣本中反例的數(shù)目比正例多一個.所以留出的樣本會被判斷是反例;同理.

留出的是反例,則會被判斷成正例,所以錯誤率是100乳

3.若學(xué)習(xí)器A的F1值比學(xué)習(xí)器B高,試析A的BEP值是否也比B高。

小,*fi們的0EHB大小井沿有明^的芙展:投去找〉

詛?!£誼里用&控.設(shè)it兩個8£附相同紡分及8L至口索他們的,;值不一晚.鹿幺之道3t的^論激8!百更的

再加點殘,「評坨貯的14惑:

BEP值祝疼R值遍)

BEP偵*&P叫取劃&SttffBElMM.義心.耶么Fi和-用會怕等TBEP.聚么P.R.F&這里有什

么小義齦〉

這里分兩

M-M1R的理精,在R,再IRlgw八Sn節(jié)誼個分美研正蝴?*時,斯?虹8EP4L古妁8EP的計算小If.川中南

的咋-怖是育瀏一。一步級試P'??二B£P(guān).

的1?分英M將卬有ft本痊分為正例的

wmwfi.注I:貫莖面分具為it.后面分類為公:.但H這個可使咯?RTFi=FLRR用成立,分類,

';分迪郵掰有訓(xùn)練代您按自

己認(rèn)為雖正例的敏Wt序U杵的面分裂慎可竦它卻斷為iFfftBKWff個M病12為正,當(dāng)酬》看與查全

率《珈,準(zhǔn)奉二直全率.當(dāng)然^88的真實榆出幽曲個g帥的姓陟"仞■.嗣面的版記為正.占面的IS記為ft,

說鉗的巨準(zhǔn)率與苴全莖用束HWFlffi.可以U出白同擇的旺Pffl的兩個分類騫在不同位?tHK可S女臺和的

P10所以F1<S麻不

ttao;

1/*Aw?w-IM

)?*?s%7/.&,取、卬.

1/*y*4/?&?Wi*?uv,

家Tm?rm試釁本分%下二=行整兩個分類蜀對隔有侔木按為n=伊問制的罹序,以》判斯的&畢.可然兩個

5浚篇彳i粗向的旺p<3.伊#ftm8qgHHT#0.8D.-tB0.8.

4.試述真正例率(TPR)、假正例率(FPR)與查準(zhǔn)率(Ph查全率(R)之間的聯(lián)系.

查全率:真實正例被預(yù)測為正例的比例

真正例率:真實正例被預(yù)測為正例的比例

顯然查全率與真正例率是相等的。

查準(zhǔn)率:預(yù)測為正例的實例中真實正例的比例

假正例率:實反例被預(yù)測為正例的比例

兩者并沒有直接的數(shù)值關(guān)系?

5.試證明(2.22MU&=1-I瑚

從書34頁bIS君餐式不應(yīng)族寫的誼么彩會后來才發(fā)現(xiàn)原察這個使力并坨有正例反例預(yù)期餡19等的情況.當(dāng)

出現(xiàn)這肺雨況時,AOC曲境會呈夠上升,而不是這#只有水平和垂RFtHSS況.

由于-J?的嫩我時畀沒有理浬ROC1BHI不可以?m,K&iTfiflffi,皿票不布在it他反倒玻紀(jì)ftMH等的情

況,家!么物^也沒必要存

的時C-IB定不知ifl畬義是古和我這里寫的?好

hUpS//en.wikipediA.<Mg/vnki/Receiver_operAtingch>r?cter?$tk

引用一’有料性的》《曲找‘

與BEP7.學(xué)習(xí)SB先給所有38試樣本貴能]奠16捌4瘁可能尸訪的Si*W旋.魅島&次誼所與村德列一個

伯?,WE40更只有iE<W."獷破H.曲比水平往右.團(tuán)更匿有正例也有反例,費(fèi)闞向上.加圖所示

由于TPRTPPRflY海整烘敗所以讀甲撞比例W大了坐撮(分別正例<0!夜反例的教目檐),可以

FBF8出曲統(tǒng)專勢.

可以百出一共有20個M蜩本,miF.mE.NUftl序的結(jié)畢里

問中話?內(nèi)BW木川在相同的位??

<(+,+LL)M+L),(+,-)arafttW果>

公式2.2ijun了所存不在正&?皈例救口,只中同tr的位?環(huán)記為os,aimssE八i.從圖中可以■出,折找跖次

向右佑上冊伸,表示日HB仃反例.》rt£JJ5WSB9?P.拓凰例居而孑]?多少個正飽每個正例星TiK形,對

應(yīng)的面枳fi?LP]位■上的訐伽S個三角形,時應(yīng)的囪枳3M5計算出Qto枳后.由于時。圖郵怔屋歸仙

丸所以總血枳耐以Httiffl火翊WJLtfettttmF

6.試述錯誤率與ROC曲線之間的關(guān)系

ROCiB炭GJ個點文寸曲了TTPR.FPR此時文寸應(yīng)了一Mg謖率.

A

Eg=(1—TPH)acoMs+m~?FPR八coai)/(vv*+m)

*J{?會浜錯誤g小的位M為馨斷點.

7.試證明任意一條ROC曲線都有一條代價曲線與之對應(yīng).反之亦然.

由定義可以知BWT火與FJ”擔(dān)里由0上開?H.喝么F」Wfl!焜由1下陪到0.

礎(chǔ)濃OCifU交都會肘阪一》《價圈0*TJWW:<nCESfl9B(0,0),(1,1).?A?(0.1)(1,0).

所右代價啪每會有公共區(qū)械議個區(qū)域就是期史然H代價,而這塊遠(yuǎn)域的刀界崢曙ffll編目知以(0.0倒(1,0)

在有限個林木情況下.AOCSV雇此助R1劇知88場無i突厚AOCS1舊但卷5!理論上有無艱個樣

木./QCJ2f連續(xù)的折成代tnffljeg^的折紜每個桐切《可以求出丁PR與FNR從而得SW-的加。啪氐

8.MinMax規(guī)范化宇score規(guī)范化如7^面試析二者跳缺點.

M識-01可£筮化方法匍甲,面目保甌規(guī)處化GWi有兀素松R正的,句當(dāng)有新的刀糠進(jìn)采,只有在誼元素大

fit大俱或者小于爭小便時7te??ntM全都元賦但呈若存在個極大(小lag元既會導(dǎo)致具他元索提

agiKMv(大'

皈準(zhǔn)化對個別極蜷元索彳蜘虬目肥所有元索分布在0M患時TSffi況下元弒坦多.0周圖、何會分布

大部分的元索.ft1當(dāng)有制的無宣進(jìn)來.曜室制計冬令方蚱與均值.

計IM糧對大T

杏ISftWE桿^酈《?(?

以入曲超出當(dāng)mu〃而囹時蛔計岫洛之削6陶榮9試述卡方檢驗過程.I步驟

《1〉關(guān)出Ifftti

以6Px的分布畫數(shù)為尸句.

如果總體分布為有曜?KKiftAW八

Ho:ettxffj分布結(jié)為P(X"J『?i.2?

《2》將gitX的數(shù)圍分做個苴不粗史的?bZfSjALA2.A3,….Ak.t(W

Al?<a0.al|.A2=01?a2]…AkMuk-tak).

其中ao可取~?ak可iR2,區(qū)間的好介視具力情茂而定,沮美便&個小區(qū)間附系的岸本值個致不小于

5?荷醫(yī)何個數(shù)k不委太大也不蠢太小.

<3>3E語入第[個小訊同的AiKWTttKJ個奴記作<K?fi)?職有用氛奴之鈕fiy?fk等于樣玄

容?

n.

<4)當(dāng)NO為賓鴕?根結(jié)年使我抓色〈理論分花,可簞出總、X的恰需入匆個1、叵間A1的嗷率

pl.于龜npWt是占人第I個亦區(qū)向Ai的樣:fc值的理論阪數(shù)《壽論依》.

<5>當(dāng)HO為同片,n次謨^中樣掌值3入知個小區(qū)@2的傾室fim與布率pi應(yīng)彼搜近,

SH07JIM.WJnmnpi珥芋茂大.

?TiS?.S?.皮爾資引盛如下倏般增計看j在0麻波段立的情況下陽從自由室為仁1的卡方分方

10.試逑在使用PT配mQ〃檢驗中使用式(2.34)與(2.35)的區(qū)別

書上iRFri€dmdr>榆2平行障怕七也敝于正杏分布均假為與k

一工為m±HlIR

jj?EEELin/7?匹[空r.

BP:rFN(寧…A)

序以爵s導(dǎo))FJ(1)

統(tǒng)計■忌£〃(「■與油)矽骨江的平瀕耕nr@有艾或的,HhflH中*KSttfelt出皿T\系以ArtiSM

Httifl.B^iFrtcdmafiKvY.為

/i?芋,^疝(〃蜩),

猜酚由于Frirrfman統(tǒng)計■只有慮了不問H法間的g,而憐去噢◎不曰It強(qiáng)敏曰他方均棚羅的I州.所以書

卜淄今FriuE&n?h計■太VS守.

總、方SSST—N?(£(Xo-(EX)2)=Ni,(P-1)/12目出0、?伏一1)

■iifBjfi&SSA=N^£&(r,一埠I1自由質(zhì)k1

二旭方ISSSE=SSTSS4自由盾(ND?(fe1)

的計./二再^齡二森給-nw(N-1).(fc-LW八

第三章線性模型

1.試分析在什么情況下.在以下式子中不比考慮偏置項b.

母珈珈=tt"+a兩個或機(jī)林得判w■如=打食一瓦),以此消除了如所以可以對UlkMS站個巴本BW去第一

樣本.燃后文寸新89槨木做費(fèi)性1時日.只需£用》6型3=以二

2.試證明,對于參數(shù)w,對率回歸(logistics回歸)的目標(biāo)函數(shù)(式1)是非凸的,但其對

數(shù)似然函數(shù)(式2)是凸的.

如果一個多元函數(shù)是凸的,那么它的Hessian矩陣是半正定的。

0_1+廠/巾)

止虹商5=1_"2)

器尸流,或1-2切(提)(y-1)(l-2y):rN合同于單位炬州所以切/呈半正

定坦四

緬麗頒0,偵細(xì)e(0.5,1)肘,仙-1)(1-2g)V0月牧名(皇片員定.所以1/〃始足非凸的.

1(°)=1X1(-叫膈+m(i+小舟))會(^)=xxTpl(x;p)(l-pl(x]/3))

HAm?plG(0,1).叫IS;閔(1pl(r;人))>0.所以0)=品H施Hn(l5))Hflg

3.編程實現(xiàn)對率回歸.并給出西瓜數(shù)據(jù)集3.0a上的結(jié)果

httpA/iceflre_tvhZailide/details/52068844

4.選擇兩個UCI數(shù)據(jù)集,比較10折交叉驗證法和留一法所估計出的對率回歸的錯誤率.

http://bl()O.csdrwet/icefheIyh/a「tic?e/deiails/52068900

5.編程實現(xiàn)線性判別分析,并給出西瓜故據(jù)集3.0a上的結(jié)果。hup://blog?/iccfire-

tyh/articie/de【3ils/52069003

6.LDA僅在線性可分?jǐn)?shù)據(jù)上能獲得理想結(jié)果,試設(shè)計一個改進(jìn)方法,使其能較好地用于非線性可分?jǐn)?shù)

據(jù).

在當(dāng)前維度線性不可分.可以使用適當(dāng)?shù)挠成浞椒?使其在更高一維上可分,典型的方法有KLDA.可以很好

的劃分?jǐn)?shù)據(jù)。

7.令碼長為9,類別數(shù)為4,試給出海明距離意義下理論最優(yōu)的EOOC二元碼并證明之.

對十二元刊,當(dāng)?shù)絀長為2*N至少N以位2n個獎89達(dá)到易以郵,他們的淹為比如長由為8時.叫以的。

列為

-14

旦中4,5,是女寸1,2,3彳亍的◎反若分沏為4一共可共由2'-2咐服了全全0).住磚,為8的懇優(yōu)分雀器后隔

如一列投有出購的分獎ar就具碼長為9的IB優(yōu)令共{#?

8.EOOC編碼能起到理想糾倡作用的聿孌條(榻:在每碼上出楮的概率相當(dāng)且獨(dú)立.試析多

溜論上03政78瑪瀕哄糾俺的I?安枷目母個疏出帽的1J陽相學(xué)因為《》¥.個殆位品亦對很餐,領(lǐng)鮑佗妍的*

同的蠟果.不餌&分類作用.誼就相當(dāng)于全0礎(chǔ)全I(xiàn)的分類stiasmNFLffiwffi??.<B由于單實的桿木開不

f潢足位g仲.所以書中拒駕了有步陣域S依頓的EC0C的出.

9.使用OvR和MvM將多分類任務(wù)分藉為二分類任務(wù)求解時,試述為何無需專門針對類別不平衡性進(jìn)

行處理.

書中提到.對于OvROvR.MvMMvM來說,由于對每個類進(jìn)行了相同的處理.其拆解出的二分類任務(wù)中

類別不平衡的影響會相互抵消,因此通常不需要專門處理。以ECOCECOC編碼為例.每個生成的二分

類器會將所有樣本分成較為均衡的二類.使類別不平衡的影響減小。當(dāng)然拆解后仍然可能出現(xiàn)明顯的類別

不平衡現(xiàn)象.比如一個超級大類和一群小類。w.iO出多分類代價敏感學(xué)習(xí)(僅考鹿:基于類別的錯誤分鬢代

價)使用〃再縮放“能獲得理論最優(yōu)解的條件.

靴目JS到仗號慮類別分部旗分剩頃,ffii由JK認(rèn)正《胎關(guān)的R價為0.

:J■是得到分類卷(假ifi為3類)

oWC”

c?0CU

文寸于二分獎而卷柘樣本為正例的后物齡祓為屈p刑么隔為正的代價侵(1-p)-E,

預(yù)泊為ffl的代價gp.cj”當(dāng)(Ip)。cm樣本會傾制成正例,齒枷的代價史小.當(dāng)不導(dǎo)式g不寸.BWTW八J

分.區(qū)個顧m二番二這表示正例與反倒的,分比礎(chǔ)MfiWM黜)弟倍。林冶美■瞄的g?pj考必代價頃耕

L當(dāng)若》此明正隊當(dāng)枷甘W蛔輿巖A晉,去=蕓,冷?

推廣阱片多分兌任芯海鄭曜狀只砌翎如二句々)燃而彳行有捌109?優(yōu)礎(chǔ)系赦并4?一疔能他時卷礦當(dāng)代價表

那£卜而落件虬隆口的知礎(chǔ)得到■伽W.

設(shè)七二g/Wj?財位/叼二*/<〉對所有Lj成立,段設(shè)有*類,心個與無炒:代價衷中&*仕一1)個敵,

aARfi.Wffl2?仕】)球IB出E袤,

第四章決策樹

4_L試證明對于不含沖突數(shù)據(jù)(即特征向量完全相同但標(biāo)記不同)的訓(xùn)練集,必存在與訓(xùn)練集一致(即訓(xùn)練

誤差為0)的決策樹.

因為決策樹是通過屬性來劃分,相同屬性的樣本最終肯定會進(jìn)入相同的葉節(jié)點。一個葉節(jié)點只有一個分類.

如果樣本屬性相同而分類不同.必然產(chǎn)生訓(xùn)練誤差。反之.決策樹只會在當(dāng)前樣本集合是同一類或者所有屬

性相同時才會停止劃分,最終得到訓(xùn)練誤差為0的決策樹。

4.2.試析使用“最小訓(xùn)練誤差”作為決策樹劃分選擇的缺陷.

從機(jī)器學(xué)習(xí)最開始就講起,最小訓(xùn)練誤差并不可靠,由于過度學(xué)習(xí)樣本特性最終導(dǎo)致嚴(yán)重的過擬合,而沒

有泛化能力。

4.3.試編程實現(xiàn)基于信息墉進(jìn)行劃分選擇的決策樹算法,并為表4.3中數(shù)據(jù)生成一棵決策樹.

hug/blgcsdrwel/icefireiyh/article/deiails/5208]556

重寫的不剪枝的決策樹

hl(D:〃blOO.Csdn?net/icefire」yh/auicle/details/54575527

即ID3算法

44試編程實現(xiàn)基于基尼指數(shù)進(jìn)行劃分選擇的決策樹算法,并為表4.2中數(shù)解生成JR豹枝.后勢枝決策樹,

并與未勞枝決策樹進(jìn)行比較?

h"D://blog?csdn.neMcefire」yh/anicle/de【als/52081879

即CART算法

4.5.試編程實現(xiàn)基于對率回歸進(jìn)行劃分選擇的決策樹算法,并為表4.3中數(shù)據(jù)生成一棵決策樹。

hup:/7blog?csdn.nei/icefire【yh/article/deiails/52081770

思路:參考書P90?91的多變量決策樹模型.這里我們將每個非葉節(jié)點作為一個對率回歸分類器,輸出為?

是。、.否?兩類.形成形如二叉樹的決策樹.

4.6.試選擇4個UCI數(shù)據(jù)集,對上述3種算法所產(chǎn)生的未勇枝、預(yù)剪枝、后剪枝決策樹進(jìn)行實驗比較,

并進(jìn)行適當(dāng)?shù)慕y(tǒng)計顯著性檢驗.答案一

簡要的分析一下:

ID3算法基于信息炳增益.CART算法則采用了基尼系數(shù)。兩種劃分屬性選擇均是基于數(shù)據(jù)純度的角度.方

法差距應(yīng)該不大(CART可能要好一點而對率同歸進(jìn)行劃分選擇,以斜劃分的方式.實現(xiàn)了多變量參與劃

分.其模型決策邊界更光滑.

相比于決策樹的生成算法.勇枝操作更影

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論