實驗5 建立決策樹并進行分類_第1頁
實驗5 建立決策樹并進行分類_第2頁
實驗5 建立決策樹并進行分類_第3頁
實驗5 建立決策樹并進行分類_第4頁
實驗5 建立決策樹并進行分類_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

實驗5建立決策樹并進行分類實驗?zāi)康耐ㄟ^使用SPSS對數(shù)據(jù)集進行分析并建立決策樹,學(xué)會建立決策樹的數(shù)據(jù)處理過程和方法,從而深入地理解分類的一般過程和基本原理,以及如何利用決策樹分類解決現(xiàn)實的問題。實驗內(nèi)容1、建立決策樹2、使用決策樹對未知類別的數(shù)據(jù)(集)進行類別預(yù)測分析實驗條件1.操作系統(tǒng):WindowsXPSP22.SPSS13。1實驗要求1、現(xiàn)有1000位顧客個人信息,主要包括性別、地址、收入、婚姻狀況、教育程度、職業(yè)等信息(保存在顧客.X1S文件中),數(shù)據(jù)表的結(jié)構(gòu)如下圖所示:■MJ立伴匡)圳輯?ifiSKv)HA相式如丄:■MJ立伴匡)圳輯?ifiSKv)HA相式如丄:d31■J1iX1-J”1哼V:工貝?麴克■①國口也]幫助砂SE.天S?曲W妣的尚題-_Syr.+血ECn1f-HTJFr1Mr臨入蜒莽飾殺于毀1學(xué)歷I叩業(yè)1件:般fulfill右■至輛皺1I匕班瞎程丨國那I1年酔超否購買自行茸i3KarriedMaleSOUUIJ4NarrledNile80000SSingleMale700G06SingleMale30OOO7KarriedFemaleLOUOUaSlngleMale160OOO9NarrlcdNaleIDKarrledMale20000ILKarriedMale20□□□12CarriedFeiriale3000013SlngleFemale5000014=NarrledNile17000015KarrledMaleioooo16BinsleMaie6Q0QQ17SingleFemaleLOUOU1BSingleMale30OOO19NarrlcdFcttiqIe300002DSingleMale40000::lSinglbMilleZCIC'QC22KarriedFemale400002SS1CLglEFema1eHOuuij24=SlngleNile25KarrledFeniale8000026BinsleMaie4=0UQQ27SingleMale300002BSingleMale30OOO29SlngleFcttiqIe1000003DKarrledMale700003LSinglbFcmaleZCIC'QC32CarriedFemale20000r?dv…上―-u*r—ti-ii-ii-ii-i144秋罐卜HXSlite-1-jtJLrufc亠J—*1五筮siidiTd2HarriedFemale400001EacheLorsSkilled.Manv呂Farr1alCollegClerlcal5PartialC^LlegProfesslonal0EacheLorsPr<ifeseLonslDEacheLorsCLeracaL2PartialC^llcgHimua1£HighSchoolHanagenenr1BachelorsSkilledManv2PartialEllehSCLerlcal2PartialCollegIIanua13HighSchoolSkilled.Manv0BachelorsFrotesstonal5PartialC^LlegProfesslonal2PartialC^llegCLer-1cal1PartialCqIIegSkillrdManu2HiahSchoolHimua1SPartialCollegClcricaL1BachelorsCLerlcal2PartialC^LlegCLerlcalZPartialHigh5CLericaluGraduateDcgrcCLericaL0Bache1orsProfessional5PartialC^LlegCLerical5HighSchoolHsnageaentZPartialCqIIegCirrical1RachelotsCLericalDPartialCollegClcricaLDBachelorsProfessional5PartialC^LlegSkilled.Manu0PartialHigh5Hanua12PartialC^llcgHanua1'LiC?I1—'?11「r...Yes00-1MilesYes10-1Miles22-6Miles^ee15-10HileeMoa0=1MilesYes01-2MilesYes40-1MllesYes00-1Miles空曰E:2S-10JLlleeYee10~lMilesN中21~2Miles0心410+MilesYes40-1Miles^ee11-2MllesHq10-1MilesYes10-1MilesUo21-2fflil==Yes00-1Miles空曰E:11-2MllesYce35-1QliltsYes00-1Miles¥e=410+MilesYes01-2MilesJk—35-10HileeHq10-1MilesYes00-1MilesUo10~lfflil==跟15-10Niles空曰E:2S-10JLlleeNq30-1MilesYes00-1MilesVI「戸一furi<11Elitc-pe12MoEurope4=3NoEurope60恥Pacific■tl¥eeEurope36Ye=Europe50恥Faclllc33YesEurope4=3YesPacific5SNoEurope4STe=Pacific54YdsFaelfle□SNoEurope55恥Europe35TeaPacific4=5TesEurope38Yrs尸BClf1匚59Ye=Europe4=7恥Europ日35TeaFacific55TrsElitc-pe3SYdsF1曰匚ific3SNoEurope35YesEurope5S恥Europe34Europe63恥Europe29Ye=Pacific4=0恥Pacific毛生NoEurope3ZTrsEurope63恥D_=2-F2=TT_v>請你運用SPSS統(tǒng)計分析軟件分析數(shù)據(jù),并將實驗步驟和結(jié)果記錄到實驗報告單上。(1)以顧客.X1S作為訓(xùn)練數(shù)據(jù)集,收入、職業(yè)、年齡為測試屬性,是否購買自行車為類別屬性,分別選擇四種分類方法建立決策樹,記錄準(zhǔn)確率最高的分析結(jié)果。(2)使用分類規(guī)則預(yù)測預(yù)測1.xls中數(shù)據(jù)所屬的類別(是否購買自行車)。(3)對分類結(jié)果和預(yù)測結(jié)果進行分析。2、現(xiàn)有2646位顧客的年齡、收入、信用卡數(shù)、教育程度、車貸數(shù)、信用等級信息(保存在tree_credit.sav中),請你運用SPSS統(tǒng)計分析軟件分析數(shù)據(jù),并將實驗步驟和結(jié)果記錄到實驗報告單上。(1)分別選擇四種分類方法建立決策樹,記錄準(zhǔn)確率最高的分類析果。(2)使用分類規(guī)則預(yù)測tree.sav中數(shù)據(jù)所屬的類別(信用等級)。(3)對分類結(jié)果和預(yù)測結(jié)果進行分析。實驗步驟及指導(dǎo)1、建立決策樹第一步:數(shù)據(jù)準(zhǔn)備,將待處理的數(shù)據(jù)輸入或?qū)隨PSS中,本例將顧客.xls導(dǎo)入SPSS中。第二步:建立決策樹(1)選擇統(tǒng)計分析[Statistics]菜單,選聚類分析[Classify]中的樹狀分析[ClassificationTree...]項,彈出樹狀分析[ClassificationTree]對話框,從對話框左側(cè)的變量列表中分別選擇類別屬性和測試屬性進入右側(cè)類別屬性[DependentVariable]和測試屬性[IndependentVariable]框中。本例選擇是否購房為類別屬性,婚姻狀況、收入、撫養(yǎng)的孩子數(shù)、年齡為測試屬性。GrowingMethod下拉列表中有CHAID、ExhaustiveCHAID、CRT、QUEST四種建立分類樹的方法,本例選擇ExhaustiveCHAID。圖5-1(2)點擊輸出[Output...]鈕,彈出分類樹:輸出[ClassificationTree:Output]對話框,該對話框有樹[tree]、統(tǒng)計[statistics]、規(guī)則[rule]三個選項卡,在樹[tree]選項卡中設(shè)置分類樹的顯示方式,在統(tǒng)計[statistics]選項卡中設(shè)置輸出哪些統(tǒng)計結(jié)果,在規(guī)則[rule]選項卡中設(shè)置規(guī)

則的顯示方式和輸出路徑。本例選擇樹[tree]選項卡下的NodeContents:tableandcharts(結(jié)點內(nèi)容:表和圖),規(guī)則[rule]選項卡的generateclassificationrules->syntax下的SPSS,規(guī)則[rule]選項卡下的exportrulestoafile,并在文本框中輸入c:\output.sps.(圖5.2)圖5.2(3)點擊輸出[Criteria...]鈕,彈出[ClassificationTree:Criteria]對話框,該對話框有[Growthlimit]、[CHAID]、[Inteverl]三個選項卡,在樹[Growthlimit]選項卡中設(shè)置分類樹最大深度和結(jié)點中最少包含多少個數(shù)據(jù)‘a(chǎn)utomatic和custom單選按鈕分別表示設(shè)置分類數(shù)的深度為自動和用戶自定義(在文本框中輸入最大深度),在parentnode和childnode文本框中設(shè)置分類樹父結(jié)點和子結(jié)點中最少包括多少個數(shù)據(jù),即如果分類樹結(jié)點中的數(shù)據(jù)數(shù)少于規(guī)則的數(shù)據(jù),分類樹就不再繼續(xù)向下生長,這兩個值越大,產(chǎn)生的樹的分枝越少,值越小,產(chǎn)生的分枝越多。本例設(shè)置parentnode為50,childnode為10(如圖5-3)。C1assificationTree:CriteriaGrowthLimitsCHAIDIntervalE亡口皿皿£~|取消|幫肋I5.3(4)點擊確定[OK...]完成。第三步:分析結(jié)果(1)描述概要ModelSummarySpecificationsGrowingMethod(說明)(決策樹生成方法)DependentVariable(類別屬性)IndependentVariables(測試屬性)Validation(驗證)MaximumTreeDepth(最大深度)MinimumCasesinParentNode(父結(jié)點中包含的最少數(shù)據(jù)數(shù))MinimumCasesinChildNode(子結(jié)點中包含的最少數(shù)據(jù)數(shù))Results(結(jié)果)IndependentVariablesIncludedNumberofNodesEXHAUSTIVECHAID是否購房婚姻狀況,收入,撫養(yǎng)的孩子數(shù),年齡NONE(沒有設(shè)置)35010婚姻狀況,年齡,撫養(yǎng)的孩子數(shù)11(分類樹的結(jié)點總樹)NumberofTerminal7Nodes(葉子結(jié)點數(shù))Depth(樹的深度)3Specifications(說明)中顯示的是用戶在生成分類樹之前自行設(shè)置的信息,Results(結(jié)果)是生成的結(jié)果信息。(2)評估RiskEstimateStd.Error.255.014GrowingMethod:EXHAUSTIVECHAIDDependentVariable:是否購房該表中Estimate的值是分類準(zhǔn)確性的一個評估值,其值表示決策樹的錯誤率為25.5%,說明該分類樹的準(zhǔn)確率是74.5%,Estimate越小說明該分類樹越準(zhǔn)確。⑶分類ClassificationObservedNoPredictedYesPercentCorrectNo12718840.3%Yes6761890.2%OverallPercentage19.4%80.6%74.5%GrowingMethod:EXHAUSTIVECHAIDDependentVariable:是否購房該表中第一行表示分類樹把本該是No類(即沒有購房)的人分別劃到No類127人、Yes類188,準(zhǔn)確率是40.3%,第二行表示分類樹把本該是Yes類(即有購房)的人分別劃到No類67人、Yes類618,準(zhǔn)確率是90.2%,總的準(zhǔn)確率是74.5%,總的準(zhǔn)確率與risk表中的Estimate值的總和為100%。該結(jié)果表明該分類樹中對于yes類的分類準(zhǔn)確類是比較高的。(4)輸出規(guī)則在文件->打開->語句文件中打開分類規(guī)則輸出文件output.sps,—個葉結(jié)點生成一條分類規(guī)則,上圖中顯示的是編號是3的葉結(jié)果上的規(guī)則。(5)分類樹\^Yes\'■jVb|1Node0Categoo*%n■Yes68.5685■No31.5315Total100.01DOD是否購序書煙狀況AdjP-vahe=0.000,Cbi-squarc=93.8D8,dfclAdj.P-vahe=0.0€>0,Chi-2quare=2S.93O.df=2SiuleAdj.P-vahie=0.000,Ch込qua代=?4.704.di=2Adj.P-V31ue=0.045,Ch]-tqu3re=15.40000.00;30000.00;80000.00;70000.00;10000.00;160000.00;20000.(10;90000.00;6COOO.OO:50000.00:110000.00Node9CateRory%ti■Yes62.5120■No37.572Total19.2192170000X0;100000.00;130000.00;120000.(0;150000.00Node10Caejjory%n■Yes18.24■No81.818Total2.222第四步:利用分類規(guī)則對數(shù)據(jù)進行預(yù)測打開需要進行分類預(yù)測的數(shù)據(jù)集(該數(shù)據(jù)集的結(jié)構(gòu)應(yīng)該和原數(shù)據(jù)集相同),為了便和原數(shù)據(jù)類別進行對比,本例選擇原數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論