版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二章模型評估與選擇
1.數(shù)據(jù)集包含1000個樣本其中500個正例,500個反例,將其劃分為包含70M¥本的訓(xùn)練集和30%樣
本的測試集用于留出法評估,試估算共有多少種劃分方式。
一個組合問題.從500500正反例中分別選出150150正反例用于留出法評估.所以可能取法應(yīng)該是9盅2
2.數(shù)據(jù)集包含100個樣本,其中正反例各一半,假定學(xué)習(xí)算法所產(chǎn)生的模型是將新樣本預(yù)測為訓(xùn)練樣本
數(shù)較多的類別(訓(xùn)練樣本敬相同時進(jìn)行隨機(jī)猜測),試給出用10折交叉驗證法和留一法分別對錯誤率進(jìn)行
評估所得的結(jié)果.
10折交叉檢驗:由于每次訓(xùn)練樣本中正反例數(shù)目一樣.所以講結(jié)果判斷為正反例的概率也是一樣的.所以錯
誤率的期望是5050%。
留一法:如果留下的是正例.訓(xùn)練樣本中反例的數(shù)目比正例多一個.所以留出的樣本會被判斷是反例;同理.
留出的是反例,則會被判斷成正例,所以錯誤率是100乳
3.若學(xué)習(xí)器A的F1值比學(xué)習(xí)器B高,試析A的BEP值是否也比B高。
小,*fi們的0EHB大小井沿有明^的芙展:投去找〉
詛?!£誼里用&控.設(shè)it兩個8£附相同紡分及8L至口索他們的,;值不一晚.鹿幺之道3t的^論激8!百更的
再加點殘,「評坨貯的14惑:
BEP值祝疼R值遍)
BEP偵*&P叫取劃&SttffBElMM.義心.耶么Fi和-用會怕等TBEP.聚么P.R.F&這里有什
么小義齦〉
這里分兩
M-M1R的理精,在R,再IRlgw八Sn節(jié)誼個分美研正蝴?*時,斯?虹8EP4L古妁8EP的計算小If.川中南
的咋-怖是育瀏一。一步級試P'??二B£P(guān).
的1?分英M將卬有ft本痊分為正例的
wmwfi.注I:貫莖面分具為it.后面分類為公:.但H這個可使咯?RTFi=FLRR用成立,分類,
';分迪郵掰有訓(xùn)練代您按自
己認(rèn)為雖正例的敏Wt序U杵的面分裂慎可竦它卻斷為iFfftBKWff個M病12為正,當(dāng)酬》看與查全
率《珈,準(zhǔn)奉二直全率.當(dāng)然^88的真實榆出幽曲個g帥的姓陟"仞■.嗣面的版記為正.占面的IS記為ft,
說鉗的巨準(zhǔn)率與苴全莖用束HWFlffi.可以U出白同擇的旺Pffl的兩個分類騫在不同位?tHK可S女臺和的
P10所以F1<S麻不
ttao;
1/*Aw?w-IM
)?*?s%7/.&,取、卬.
1/*y*4/?&?Wi*?uv,
家Tm?rm試釁本分%下二=行整兩個分類蜀對隔有侔木按為n=伊問制的罹序,以》判斯的&畢.可然兩個
5浚篇彳i粗向的旺p<3.伊#ftm8qgHHT#0.8D.-tB0.8.
4.試述真正例率(TPR)、假正例率(FPR)與查準(zhǔn)率(Ph查全率(R)之間的聯(lián)系.
查全率:真實正例被預(yù)測為正例的比例
真正例率:真實正例被預(yù)測為正例的比例
顯然查全率與真正例率是相等的。
查準(zhǔn)率:預(yù)測為正例的實例中真實正例的比例
假正例率:實反例被預(yù)測為正例的比例
兩者并沒有直接的數(shù)值關(guān)系?
5.試證明(2.22MU&=1-I瑚
從書34頁bIS君餐式不應(yīng)族寫的誼么彩會后來才發(fā)現(xiàn)原察這個使力并坨有正例反例預(yù)期餡19等的情況.當(dāng)
出現(xiàn)這肺雨況時,AOC曲境會呈夠上升,而不是這#只有水平和垂RFtHSS況.
由于-J?的嫩我時畀沒有理浬ROC1BHI不可以?m,K&iTfiflffi,皿票不布在it他反倒玻紀(jì)ftMH等的情
況,家!么物^也沒必要存
的時C-IB定不知ifl畬義是古和我這里寫的?好
hUpS//en.wikipediA.<Mg/vnki/Receiver_operAtingch>r?cter?$tk
引用一’有料性的》《曲找‘
與BEP7.學(xué)習(xí)SB先給所有38試樣本貴能]奠16捌4瘁可能尸訪的Si*W旋.魅島&次誼所與村德列一個
伯?,WE40更只有iE<W."獷破H.曲比水平往右.團(tuán)更匿有正例也有反例,費(fèi)闞向上.加圖所示
由于TPRTPPRflY海整烘敗所以讀甲撞比例W大了坐撮(分別正例<0!夜反例的教目檐),可以
FBF8出曲統(tǒng)專勢.
可以百出一共有20個M蜩本,miF.mE.NUftl序的結(jié)畢里
問中話?內(nèi)BW木川在相同的位??
<(+,+LL)M+L),(+,-)arafttW果>
公式2.2ijun了所存不在正&?皈例救口,只中同tr的位?環(huán)記為os,aimssE八i.從圖中可以■出,折找跖次
向右佑上冊伸,表示日HB仃反例.》rt£JJ5WSB9?P.拓凰例居而孑]?多少個正飽每個正例星TiK形,對
應(yīng)的面枳fi?LP]位■上的訐伽S個三角形,時應(yīng)的囪枳3M5計算出Qto枳后.由于時。圖郵怔屋歸仙
丸所以總血枳耐以Httiffl火翊WJLtfettttmF
6.試述錯誤率與ROC曲線之間的關(guān)系
ROCiB炭GJ個點文寸曲了TTPR.FPR此時文寸應(yīng)了一Mg謖率.
A
Eg=(1—TPH)acoMs+m~?FPR八coai)/(vv*+m)
*J{?會浜錯誤g小的位M為馨斷點.
7.試證明任意一條ROC曲線都有一條代價曲線與之對應(yīng).反之亦然.
由定義可以知BWT火與FJ”擔(dān)里由0上開?H.喝么F」Wfl!焜由1下陪到0.
礎(chǔ)濃OCifU交都會肘阪一》《價圈0*TJWW:<nCESfl9B(0,0),(1,1).?A?(0.1)(1,0).
所右代價啪每會有公共區(qū)械議個區(qū)域就是期史然H代價,而這塊遠(yuǎn)域的刀界崢曙ffll編目知以(0.0倒(1,0)
在有限個林木情況下.AOCSV雇此助R1劇知88場無i突厚AOCS1舊但卷5!理論上有無艱個樣
木./QCJ2f連續(xù)的折成代tnffljeg^的折紜每個桐切《可以求出丁PR與FNR從而得SW-的加。啪氐
8.MinMax規(guī)范化宇score規(guī)范化如7^面試析二者跳缺點.
M識-01可£筮化方法匍甲,面目保甌規(guī)處化GWi有兀素松R正的,句當(dāng)有新的刀糠進(jìn)采,只有在誼元素大
fit大俱或者小于爭小便時7te??ntM全都元賦但呈若存在個極大(小lag元既會導(dǎo)致具他元索提
agiKMv(大'
皈準(zhǔn)化對個別極蜷元索彳蜘虬目肥所有元索分布在0M患時TSffi況下元弒坦多.0周圖、何會分布
大部分的元索.ft1當(dāng)有制的無宣進(jìn)來.曜室制計冬令方蚱與均值.
計IM糧對大T
杏ISftWE桿^酈《?(?
以入曲超出當(dāng)mu〃而囹時蛔計岫洛之削6陶榮9試述卡方檢驗過程.I步驟
《1〉關(guān)出Ifftti
以6Px的分布畫數(shù)為尸句.
如果總體分布為有曜?KKiftAW八
Ho:ettxffj分布結(jié)為P(X"J『?i.2?
《2》將gitX的數(shù)圍分做個苴不粗史的?bZfSjALA2.A3,….Ak.t(W
Al?<a0.al|.A2=01?a2]…AkMuk-tak).
其中ao可取~?ak可iR2,區(qū)間的好介視具力情茂而定,沮美便&個小區(qū)間附系的岸本值個致不小于
5?荷醫(yī)何個數(shù)k不委太大也不蠢太小.
<3>3E語入第[個小訊同的AiKWTttKJ個奴記作<K?fi)?職有用氛奴之鈕fiy?fk等于樣玄
容?
n.
<4)當(dāng)NO為賓鴕?根結(jié)年使我抓色〈理論分花,可簞出總、X的恰需入匆個1、叵間A1的嗷率
pl.于龜npWt是占人第I個亦區(qū)向Ai的樣:fc值的理論阪數(shù)《壽論依》.
<5>當(dāng)HO為同片,n次謨^中樣掌值3入知個小區(qū)@2的傾室fim與布率pi應(yīng)彼搜近,
SH07JIM.WJnmnpi珥芋茂大.
?TiS?.S?.皮爾資引盛如下倏般增計看j在0麻波段立的情況下陽從自由室為仁1的卡方分方
10.試逑在使用PT配mQ〃檢驗中使用式(2.34)與(2.35)的區(qū)別
書上iRFri€dmdr>榆2平行障怕七也敝于正杏分布均假為與k
一工為m±HlIR
jj?EEELin/7?匹[空r.
BP:rFN(寧…A)
序以爵s導(dǎo))FJ(1)
統(tǒng)計■忌£〃(「■與油)矽骨江的平瀕耕nr@有艾或的,HhflH中*KSttfelt出皿T\系以ArtiSM
Httifl.B^iFrtcdmafiKvY.為
/i?芋,^疝(〃蜩),
猜酚由于Frirrfman統(tǒng)計■只有慮了不問H法間的g,而憐去噢◎不曰It強(qiáng)敏曰他方均棚羅的I州.所以書
卜淄今FriuE&n?h計■太VS守.
總、方SSST—N?(£(Xo-(EX)2)=Ni,(P-1)/12目出0、?伏一1)
■iifBjfi&SSA=N^£&(r,一埠I1自由質(zhì)k1
二旭方ISSSE=SSTSS4自由盾(ND?(fe1)
的計./二再^齡二森給-nw(N-1).(fc-LW八
第三章線性模型
1.試分析在什么情況下.在以下式子中不比考慮偏置項b.
母珈珈=tt"+a兩個或機(jī)林得判w■如=打食一瓦),以此消除了如所以可以對UlkMS站個巴本BW去第一
樣本.燃后文寸新89槨木做費(fèi)性1時日.只需£用》6型3=以二
2.試證明,對于參數(shù)w,對率回歸(logistics回歸)的目標(biāo)函數(shù)(式1)是非凸的,但其對
數(shù)似然函數(shù)(式2)是凸的.
如果一個多元函數(shù)是凸的,那么它的Hessian矩陣是半正定的。
0_1+廠/巾)
止虹商5=1_"2)
器尸流,或1-2切(提)(y-1)(l-2y):rN合同于單位炬州所以切/呈半正
定坦四
緬麗頒0,偵細(xì)e(0.5,1)肘,仙-1)(1-2g)V0月牧名(皇片員定.所以1/〃始足非凸的.
1(°)=1X1(-叫膈+m(i+小舟))會(^)=xxTpl(x;p)(l-pl(x]/3))
HAm?plG(0,1).叫IS;閔(1pl(r;人))>0.所以0)=品H施Hn(l5))Hflg
3.編程實現(xiàn)對率回歸.并給出西瓜數(shù)據(jù)集3.0a上的結(jié)果
httpA/iceflre_tvhZailide/details/52068844
4.選擇兩個UCI數(shù)據(jù)集,比較10折交叉驗證法和留一法所估計出的對率回歸的錯誤率.
http://bl()O.csdrwet/icefheIyh/a「tic?e/deiails/52068900
5.編程實現(xiàn)線性判別分析,并給出西瓜故據(jù)集3.0a上的結(jié)果。hup://blog?/iccfire-
tyh/articie/de【3ils/52069003
6.LDA僅在線性可分?jǐn)?shù)據(jù)上能獲得理想結(jié)果,試設(shè)計一個改進(jìn)方法,使其能較好地用于非線性可分?jǐn)?shù)
據(jù).
在當(dāng)前維度線性不可分.可以使用適當(dāng)?shù)挠成浞椒?使其在更高一維上可分,典型的方法有KLDA.可以很好
的劃分?jǐn)?shù)據(jù)。
7.令碼長為9,類別數(shù)為4,試給出海明距離意義下理論最優(yōu)的EOOC二元碼并證明之.
對十二元刊,當(dāng)?shù)絀長為2*N至少N以位2n個獎89達(dá)到易以郵,他們的淹為比如長由為8時.叫以的。
列為
-14
旦中4,5,是女寸1,2,3彳亍的◎反若分沏為4一共可共由2'-2咐服了全全0).住磚,為8的懇優(yōu)分雀器后隔
如一列投有出購的分獎ar就具碼長為9的IB優(yōu)令共{#?
8.EOOC編碼能起到理想糾倡作用的聿孌條(榻:在每碼上出楮的概率相當(dāng)且獨(dú)立.試析多
溜論上03政78瑪瀕哄糾俺的I?安枷目母個疏出帽的1J陽相學(xué)因為《》¥.個殆位品亦對很餐,領(lǐng)鮑佗妍的*
同的蠟果.不餌&分類作用.誼就相當(dāng)于全0礎(chǔ)全I(xiàn)的分類stiasmNFLffiwffi??.<B由于單實的桿木開不
f潢足位g仲.所以書中拒駕了有步陣域S依頓的EC0C的出.
9.使用OvR和MvM將多分類任務(wù)分藉為二分類任務(wù)求解時,試述為何無需專門針對類別不平衡性進(jìn)
行處理.
書中提到.對于OvROvR.MvMMvM來說,由于對每個類進(jìn)行了相同的處理.其拆解出的二分類任務(wù)中
類別不平衡的影響會相互抵消,因此通常不需要專門處理。以ECOCECOC編碼為例.每個生成的二分
類器會將所有樣本分成較為均衡的二類.使類別不平衡的影響減小。當(dāng)然拆解后仍然可能出現(xiàn)明顯的類別
不平衡現(xiàn)象.比如一個超級大類和一群小類。w.iO出多分類代價敏感學(xué)習(xí)(僅考鹿:基于類別的錯誤分鬢代
價)使用〃再縮放“能獲得理論最優(yōu)解的條件.
靴目JS到仗號慮類別分部旗分剩頃,ffii由JK認(rèn)正《胎關(guān)的R價為0.
:J■是得到分類卷(假ifi為3類)
oWC”
c?0CU
文寸于二分獎而卷柘樣本為正例的后物齡祓為屈p刑么隔為正的代價侵(1-p)-E,
預(yù)泊為ffl的代價gp.cj”當(dāng)(Ip)。cm樣本會傾制成正例,齒枷的代價史小.當(dāng)不導(dǎo)式g不寸.BWTW八J
分.區(qū)個顧m二番二這表示正例與反倒的,分比礎(chǔ)MfiWM黜)弟倍。林冶美■瞄的g?pj考必代價頃耕
L當(dāng)若》此明正隊當(dāng)枷甘W蛔輿巖A晉,去=蕓,冷?
推廣阱片多分兌任芯海鄭曜狀只砌翎如二句々)燃而彳行有捌109?優(yōu)礎(chǔ)系赦并4?一疔能他時卷礦當(dāng)代價表
那£卜而落件虬隆口的知礎(chǔ)得到■伽W.
設(shè)七二g/Wj?財位/叼二*/<〉對所有Lj成立,段設(shè)有*類,心個與無炒:代價衷中&*仕一1)個敵,
aARfi.Wffl2?仕】)球IB出E袤,
第四章決策樹
4_L試證明對于不含沖突數(shù)據(jù)(即特征向量完全相同但標(biāo)記不同)的訓(xùn)練集,必存在與訓(xùn)練集一致(即訓(xùn)練
誤差為0)的決策樹.
因為決策樹是通過屬性來劃分,相同屬性的樣本最終肯定會進(jìn)入相同的葉節(jié)點。一個葉節(jié)點只有一個分類.
如果樣本屬性相同而分類不同.必然產(chǎn)生訓(xùn)練誤差。反之.決策樹只會在當(dāng)前樣本集合是同一類或者所有屬
性相同時才會停止劃分,最終得到訓(xùn)練誤差為0的決策樹。
4.2.試析使用“最小訓(xùn)練誤差”作為決策樹劃分選擇的缺陷.
從機(jī)器學(xué)習(xí)最開始就講起,最小訓(xùn)練誤差并不可靠,由于過度學(xué)習(xí)樣本特性最終導(dǎo)致嚴(yán)重的過擬合,而沒
有泛化能力。
4.3.試編程實現(xiàn)基于信息墉進(jìn)行劃分選擇的決策樹算法,并為表4.3中數(shù)據(jù)生成一棵決策樹.
hug/blgcsdrwel/icefireiyh/article/deiails/5208]556
重寫的不剪枝的決策樹
hl(D:〃blOO.Csdn?net/icefire」yh/auicle/details/54575527
即ID3算法
44試編程實現(xiàn)基于基尼指數(shù)進(jìn)行劃分選擇的決策樹算法,并為表4.2中數(shù)解生成JR豹枝.后勢枝決策樹,
并與未勞枝決策樹進(jìn)行比較?
h"D://blog?csdn.neMcefire」yh/anicle/de【als/52081879
即CART算法
4.5.試編程實現(xiàn)基于對率回歸進(jìn)行劃分選擇的決策樹算法,并為表4.3中數(shù)據(jù)生成一棵決策樹。
hup:/7blog?csdn.nei/icefire【yh/article/deiails/52081770
思路:參考書P90?91的多變量決策樹模型.這里我們將每個非葉節(jié)點作為一個對率回歸分類器,輸出為?
是。、.否?兩類.形成形如二叉樹的決策樹.
4.6.試選擇4個UCI數(shù)據(jù)集,對上述3種算法所產(chǎn)生的未勇枝、預(yù)剪枝、后剪枝決策樹進(jìn)行實驗比較,
并進(jìn)行適當(dāng)?shù)慕y(tǒng)計顯著性檢驗.答案一
簡要的分析一下:
ID3算法基于信息炳增益.CART算法則采用了基尼系數(shù)。兩種劃分屬性選擇均是基于數(shù)據(jù)純度的角度.方
法差距應(yīng)該不大(CART可能要好一點而對率同歸進(jìn)行劃分選擇,以斜劃分的方式.實現(xiàn)了多變量參與劃
分.其模型決策邊界更光滑.
相比于決策樹的生成算法.勇枝操作更影
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年新興科技產(chǎn)業(yè)投資分析咨詢服務(wù)合同模板3篇
- 二零二五年度時尚服飾LOGO設(shè)計作品轉(zhuǎn)讓合同協(xié)議3篇
- 2024版次新房交易合同3篇
- 二零二五年度離婚協(xié)議按揭房產(chǎn)分割范本制作
- 二零二五年生物制藥廠勞務(wù)承包與藥品研發(fā)合同3篇
- 西安音樂學(xué)院《材料科學(xué)基礎(chǔ)雙語》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版板材購銷合同標(biāo)準(zhǔn)范文
- 二零二五年度貨車車輛買賣與綠色物流推廣合同3篇
- 2024電商公司帶貨合同范本
- 二零二五版城市更新項目開發(fā)委托管理及規(guī)劃設(shè)計服務(wù)協(xié)議3篇
- 2025寒假散學(xué)典禮(休業(yè)式)上校長精彩講話:以董宇輝的創(chuàng)新、羅振宇的堅持、馬龍的熱愛啟迪未來
- 2025年浙江中外運(yùn)有限公司招聘筆試參考題庫含答案解析
- 建筑公司2025年度工作總結(jié)和2025年工作安排計劃
- 糖尿病眼病患者血糖管理
- 電壓損失計算表
- 福建省福州市2023-2024學(xué)年高二上學(xué)期期末測試英語試卷(含答案)
- 腦疝病人的觀察與護(hù)理
- 抖音音樂推廣代運(yùn)營合同樣本
- 人民醫(yī)院建設(shè)項目背景分析
- 初級會計實務(wù)題庫(613道)
- 教育促進(jìn)會會長總結(jié)發(fā)言稿
評論
0/150
提交評論