


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
判斷題分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對)A.對B.錯分類模型的誤差大致分為兩種:訓練誤差(trainingerror)和泛化誤差(generalizationerror)。(對)A.對B.錯在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。(錯)A.對B.錯多選題決策樹包含以下哪些節(jié)點(ABD)根結(jié)點(rootnode)內(nèi)部結(jié)點(internalnode)外部結(jié)點(externalnode)葉結(jié)點(leafnode)以下關(guān)于決策樹的說法是正確的有(ABD)冗余屬性不會對決策樹的準確率造成不利的影響冗余屬性不會對決策樹的準確率造成不利的影響決策樹算法對于噪聲的干擾非常敏感尋找最佳決策樹是NP完全問題上機題數(shù)據(jù)集(cs-training.csv)是從kaggle(/c/GiveMeSomeCredit/data)上下載的“givemesomecredit”信用比賽的原始數(shù)據(jù)。此數(shù)據(jù)集包含了15萬行的數(shù)據(jù),一共有11個指標,其中SeriousDlqin2yrs為借款人是否逾期的指標,而剩下的10個指標為本項目用來判斷借款人是否逾期的因變量。請利用此數(shù)據(jù)集構(gòu)建個人信用評估相關(guān)機器學習模型,要求如下:變量MonthlyIncome、NumberOfDependents存在缺失值,請利用中位數(shù)對缺失值進行替換。剔除變量age為0的樣本,且剔變量NumberOfTime30-59DaysPastDueNotWorse、NumberOfTimes90DaysLate和NumberOfTime60-89DaysPastDueNotWorse最大的兩個值。按照變量SeriousDlqin2yrs進行等比例分區(qū),50%作為訓練集、50%作為測試集。分別使用C5.0算法、CART算法、條件推理決策樹算法構(gòu)建決策樹模型,并對比各自在測試集上的預(yù)測效果。參考答案:#數(shù)據(jù)的獲取和整合#導入數(shù)據(jù)traindata<-read.csv("data/cs-training.csv")#剔除id列traindata<-traindata[,-1]#對變量重命名colnames(traindata)<-c('y',paste0("x",1:10))#缺失值處理library(mice)library(VIM)md.pattern(traindata)aggr(traindata,prop=F,numvers=T)#中位數(shù)的缺失值替換法library(caret)imputation_m<-preProcess(traindata,method="medianImpute")traindata<-predict(imputation_m,newdata=traindata)md.pattern(traindata)#異常值分析及處理unique(traindata$x2)#刪除x2(年齡)為0的樣本traindata<-traindata[!traindata$x2==0,]#查看x3、x7、x9三個變量的箱線圖par(mfrow=c(1,3))for(iinc(4,8,10)){boxplot(traindata[,i],col=i,main=colnames(traindata)[i])}par(mfrow=c(1,1))#剔除最大的兩個值for(iinc(4,8,10)){x<-sort(traindata[,i],decreasing=T)x<-data.frame(table(x))x<-x[sort(x$x,decreasing=T),]x<-x[1:2,1]traindata<-traindata[!traindata[,i]%in%x,]}#數(shù)據(jù)分區(qū)prop.table(table(traindata$y))library(caret)splitIndex<-createDataPartition(traindata$y,times=1,p=0.5,list=FALSE)train<-traindata[splitIndex,]test<-traindata[-splitIndex,]prop.table(table(train$y))prop.table(table(test$y))###決策樹####C5.0算法if(!require(C50))install.packages("C50")train$y<-as.factor(train$y)C5.0.model<-C5.0(y~.,data=train)summary(C5.0.model)#對訓練集數(shù)據(jù)進行預(yù)測,并查看效果train.predict<-predict(C5.0.model,newdata=train)(a<-table(actual=train$y,predict=train.predict))sum(diag(a))/sum(a)#對測試集數(shù)據(jù)進行預(yù)測,并查看效果test$y<-as.factor(test$y)test.predict<-predict(C5.0.model,newdata=test)(b<-table(actual=test$y,predict=test.predict))sum(diag(b))/sum(b)#得到預(yù)測概率值b<-predict(C5.0.model,newdata=train,type="prob")#CART算法library(rpart)(rpart.model<-rpart(y~.,data=train))plot(rpart.model)text(rpart.model)library(rpart.plot)rpart.plot(rpart.model)train.predict<-predict(rpart.model,newdata=train,type="class")(a<-table(actual=train$y,predict=train.predict))sum(diag(a))/sum(a)test.predict<-predict(rpart.model,newdata=test,type="class")(b<-table(actual=test$y,prdict=test.predict))sum(diag(b))/sum(b)#條件推理決策樹算法library(party)ctree.model<-ctree(y~.,data=train)train.predict<-predict(ctree.model,newdata=train,type="response")(a<-table(actual=train$y,predict=train.predict
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 加油服務(wù)購油合同及結(jié)算條款
- 商家聯(lián)盟合作合同范本
- 電影后期制作服務(wù)合同
- 工程承包合同轉(zhuǎn)讓及交接合同
- 中外合資經(jīng)營合同生物醫(yī)藥研發(fā)與生產(chǎn)
- 大學生就業(yè)見習合作合同書
- 生產(chǎn)設(shè)備買賣合同協(xié)議
- 智能化改造工程合同樣本
- 農(nóng)產(chǎn)品購銷合同管理制度
- 鋁合金采購合同范文
- 【真題】2023年南京市中考語文試卷(含答案解析)
- 安徽安慶家鄉(xiāng)介紹
- 自動測試系統(tǒng)第1章第1節(jié)測試系統(tǒng)發(fā)展綜述
- 2024年河南省水務(wù)規(guī)劃設(shè)計研究有限公司人才招聘筆試參考題庫附帶答案詳解
- 山地光伏設(shè)計方案
- 2022廣州美術(shù)學院附屬中學(廣美附中)入學招生測試卷語文
- 北師大版(2019)選擇性必修第三冊Unit 7 Careers Topic Talk 導學案
- 春節(jié)復工復產(chǎn)安全教育培訓
- 2024年廣西公務(wù)員考試行測真題及答案解析
- 護理質(zhì)量改進項目
- 《礦產(chǎn)地質(zhì)勘查規(guī)范 花崗偉晶巖型高純石英原料》(征求意見稿)
評論
0/150
提交評論