數(shù)據(jù)挖掘-分類綜合案例hmeq_第1頁
數(shù)據(jù)挖掘-分類綜合案例hmeq_第2頁
數(shù)據(jù)挖掘-分類綜合案例hmeq_第3頁
數(shù)據(jù)挖掘-分類綜合案例hmeq_第4頁
數(shù)據(jù)挖掘-分類綜合案例hmeq_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

分類綜合案該模型將基于近期申請人的數(shù)據(jù),這些申請通過當(dāng)前承保的處理給予申請人信用。模型HMEQ數(shù)據(jù)集包含了5960筆近期住房的基本信息和表現(xiàn)情況目標(biāo)變(BAD)是一個二元變量取值為1表示申請人最終違約或嚴(yán)重拖欠這些不利的結(jié)果發(fā)生在1189(20%(一) 打開SASEnterpriseMiner(以下簡稱EM),創(chuàng)建一個新的項目homeloan,并將該項目存放 SAS編輯器中執(zhí)行以下命令新建數(shù)據(jù)集HMEQ:Datadata.hmeq;SetSASEMinputdatasourceinputdatasource或點(diǎn)擊右鍵選擇openSelect選擇上述新建數(shù)據(jù)集data..HMEQ。13個變量(列2000個。EM使用元數(shù)據(jù)是為了對如何使用每一個變量做初步估計。在默認(rèn)的情況下,EM2000個隨機(jī)樣本并用樣本信modelrolemeasurementlevel.EM同時也根據(jù)這一樣本打開顯示窗口中的Variable,我們看到了13個變量的情況。觀察Name和Type(numBADBAD變量是一個數(shù)值型變量,但由于在元數(shù)據(jù)樣BADEM將其視為一個二元變量(binary)。(interval這三個數(shù)值型變量在元數(shù)據(jù)樣本中均擁有超過10個不同的數(shù)值。所有區(qū)間變量的Modelroleinput。變量REASON和JOB都是字符型變量而度量方式(measurement)卻不同。變量REASONJOB(nominalModelroleinput。(ordinal(argetvariable操作過:BAD的modelrole,在彈出的菜單中選擇SetModelRole,再在彈出target.:BAD的Name列,在彈出的菜單中選擇Viewdistribution。變量BAD的狀圖如下圖所示。之后可以用鼠標(biāo)左鍵單擊ViewInfo圖標(biāo)(,再用左鍵單擊每個柱(BAD=1source查看描述性統(tǒng)計數(shù)據(jù)描述性統(tǒng)計數(shù)據(jù)源于元數(shù)據(jù)樣本首先選擇IntervalVariables。查看每個變量的分類數(shù)量,缺失數(shù)據(jù)百分比和排列次序。變量BAD(descending(ascendingDatapartition窗口左上方顯示了三種不同的分割方法。默認(rèn)情況下的方法為簡單隨機(jī)抽簡單隨機(jī)抽樣法(SimpleRandomSampling)為默認(rèn)設(shè)置,數(shù)據(jù)集中每一個觀察值被抽SamplingDefined,選擇你可以在aron的下角指定一個隨開始抽樣過程。電腦序的隨機(jī)化常始于某類型的果在不的流程使用同數(shù)據(jù)集相同的ee=0除,此的右側(cè)顯示了將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集檢驗數(shù)據(jù)集和測試數(shù)據(jù)集的比例但是無建立一個默認(rèn)設(shè)置的回歸模型。在datapartition節(jié)點(diǎn)之后添加并連接一個Regression節(jié)點(diǎn)。Estimates以條形圖方式展示了各變量的effectT-scoresEstimates(參數(shù)估計和所有的建模節(jié)點(diǎn)均包含一個ModelManagerassessmentchartsreports,功能和assessment節(jié)點(diǎn)一樣。但是在modelmanager中我們只能查看本模型,而assessment節(jié)點(diǎn)卻可以用來比較各個建模節(jié)點(diǎn)所產(chǎn)生的模型。右鍵單擊回歸節(jié)點(diǎn)并選擇ModelManager選項。在彈出的窗口中選擇Tools,再選擇LiftChart,或者通過點(diǎn)擊圖標(biāo)來實現(xiàn)。彈出liftchart為一個cumulativeResponse如果這個回歸模型是可用的,那么拖欠的那一部分客戶將會在靠前的十分位組上有在DataPartition節(jié)點(diǎn)后連接一個Replacement節(jié)點(diǎn),再添加一個Regression節(jié)點(diǎn)和一個出的窗口中選擇Tools,再選擇LiftChart,或者通過點(diǎn)擊圖標(biāo)來實現(xiàn)。用鼠標(biāo)左鍵單首先,對于這個案例而言,theResponseofinterest為拖欠,因此,respondents就(BAD=1(Descending如果這個模型是可用的,那么相對靠前的有序組(拖欠的客戶的預(yù)測概率相對高)Non-Cumulative來查看每一我們也可以通過選擇LiftValue選項查看各個有序組的lift值。實際上,CumulativeResponseCumulativeLiftValue的圖表形狀完全一致,只是刻度不一Non-cumulativeResponseNon-cumulativeLiftValue的圖表也是一致的。Responserate21%responserate21%即可得到lift值。%CapturedResponse代表了某一有序組中包含的拖欠的客戶數(shù)量占全部客戶的百分比。如果我們隨機(jī)抽取10%的客戶,那么將有10%的拖欠的客戶在這一抽樣中被抽線在Cumulative%CapturedResponse圖表中為45°Non-cumulative%CapturedResponse圖表中為一條水平直線。下面計算lift值。20%的客戶中,拖欠的客戶數(shù)量占拖欠的全部客戶數(shù)量的50%,用50%除以20%即得到相對lift2.5LiftValue圖表顯示的數(shù)值一致。隨著選取的客戶數(shù)量逐漸增多,lift值lift值的那個模型相對較好。但是要注意的是,一個模型在一個十分位距上的表現(xiàn)比另一個LiftassessmentView,ModelResults來查看此Replacement節(jié)點(diǎn)之后,變量DELINQ,DEROG,NINQ和CLAGE成為四個最重要的預(yù)測變量(predictorvariablesDataPartitionInsightInsightrunYes查看結(jié)果。結(jié)果的一部Insight節(jié)點(diǎn)并返回到工作流設(shè)計區(qū)。右鍵單擊Insight節(jié)點(diǎn)選擇open選項。Data被打開。Description表明被選用的數(shù)據(jù)集為訓(xùn)練數(shù)據(jù)集,此訓(xùn)練數(shù)據(jù)集的名稱為EMDATA.TRN8YJKH(TRN8YJKHTRN,節(jié)點(diǎn)產(chǎn)生的是一個樣本大小為2000隨機(jī)為12345的源于訓(xùn)練數(shù)據(jù)集的隨機(jī)抽樣樣本。右側(cè)的Properties2384個觀察值和13個變量。2384HMEQ596040%(在DataPartition節(jié)點(diǎn)中已InsightSettingSelectDataPartition前面的+SAS_DATA_SETS前面的+號,得到如下圖示:(TRNYJH(AL6W7UWOK確認(rèn)修改。本例中不做修改。我們也可以使用整個訓(xùn)練數(shù)據(jù)集來運(yùn)行InsightInsight節(jié)點(diǎn)使用適當(dāng)大小的樣本時它就足能很好的數(shù)據(jù)而及其大的樣本是沒有必要的在InsightSettings窗口中選擇右下角的EntiredatasetYes保存修改。InsightYesEMDATA.TRN8YJKH彈出窗口。接下來查看各變量的分布情況選擇最上方菜單的yze選項在彈出菜單中選擇Distribution(Y)。選出窗口中左側(cè)的所有變量,再點(diǎn)擊Y,最后選擇OK。以上操作使我們得到了各個變YOJ變量DEROG為0的觀察值Transform節(jié)點(diǎn),并從DataPartitionTransformVariableopen,或直接雙擊此節(jié)點(diǎn)。彈出的窗口(如下圖)10個區(qū)間變量的描述性統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)是從元樣本中計算TransformVariable節(jié)點(diǎn)可以通過標(biāo)準(zhǔn)轉(zhuǎn)換立即對各區(qū)間變量進(jìn)行變換,也可以創(chuàng)建新Keep一列允許被修改。transformationYOJTransformationlog。No00取對數(shù)沒有定義。接下來查看新變量的分布情況:DELINQDEROG 在彈出框中選擇右側(cè)的Define框的下方輸入公式DEROG>0對于一個觀察值而言,如果DEROG>0,則INDEROG=1;如果DEROG<0,則INDEROG=0。如果DEROG是缺失值,則INDEROG=0。點(diǎn)擊OK關(guān)閉此框。對變量DELINQ做類似的操作,結(jié)果如下圖。DEROGDELINQINDEROGINDELINQ,原變(Keep=esNINQNINQ首先,創(chuàng)建一個包含三組的分組變量,鼠標(biāo)NINQ一行,選擇Transform,再Bin1Value=0.5(注意此變量為計數(shù)變量,輸入任何01之間的數(shù)值與0.5的結(jié)果一樣)Bin2Value=1.5。即得到如下圖示。關(guān)閉此框,保存修改,返回到TransformVariable框。如下圖所示,新變量查看新變量NINQ_RUA10%的缺失值比率。關(guān)閉所有框并返回到數(shù)據(jù)流設(shè)計區(qū)。DataReplacementtraining,選中Entiredata打開Replacement節(jié)點(diǎn)選擇Data確認(rèn)在inputs子subtraining,選中Entiredata然后選擇Defaults,選中第三行的Createimputedindicatorvariables,這一選項將會imputation前來識別那些擁有缺失值的變量。在這一框中選擇ImputationMethods子。默認(rèn)情況下,區(qū)間變量的(mean(classvariable)imputation方法為取最高頻率法(mostfrequentvalue(count),即缺失值EMtreeimputation方法,即用決策樹方法估計替換值。在兩個Methodtreeimputation。(StatusYOJ也不在此表內(nèi)。Numericvariables0,在CharactervariablesUnknowndefaultconstant作為再更改變量DELINQimputationImputationMethod列,選擇SelectMethod,再選擇setvalue,在彈出的框中輸入替換值0。DEROGimputationImputationMethodDEROGDELINQimputation方法,但是它們子中設(shè)定的值變量DEROG的defaultconstant將被改變而變量DELINQ不受影響。打開ClassVariables,發(fā)現(xiàn)變量BAD的狀態(tài)為don’tuse,說明此變量的缺失值將REASONImputationMethodSelectMethoddefaultconstantUnknown。OK更改變量JOBImputationMethodSelectMethod,再選擇setvalue。在彈出的框中選擇DataValue一欄,并在下拉菜單中選擇OK查看OutputReplacement(四)型建立與評ReplacementAssessmentRegressionTools,再選擇InteractionBuilder默認(rèn)情況下,回歸節(jié)點(diǎn)使用所有的effects來建模。這里我們保留默認(rèn)設(shè)置,關(guān)閉框。量默認(rèn)情況下節(jié)點(diǎn)不執(zhí)行變量選擇即所有的effects都被包含在最終的模型中。MethodStepwise。打開此框右下角的Criteria子,撤銷選擇左上角的Defaults,將左下角的Stepwisestopcriteria一欄修改為14(即在逐步回歸停止之前,最多進(jìn)行14步),將右側(cè)的StaySignificantLevel0.025。 AssessmentAssessmentRegression節(jié)點(diǎn),因此顯示的結(jié)果中有兩行,NameUntitledUntitled將DefReg。同時選中這兩行,選擇ToolsLiftChart。想要查看每一條線屬于哪一個模型,選擇FormatModelName。我們看到與右下角對應(yīng)的兩條曲線基本一致。我們知道,在創(chuàng)建默認(rèn)設(shè)置的回歸模型時,effectselectionmethodnone。也就是說,effectseffectsStepReg中呢?關(guān)LiftChart窗口,返回到AssessmentToolStepReg這一行,之后在主菜單中選擇View再選擇ModelResults。彈出窗口的Output顯示了逐步logistic回歸過程的每一13WaldChi-Squaretestcriterion刪除了最后一個effect(變量VALUEVALUEMORTDUE的所有變量。關(guān)閉所有Tree節(jié)點(diǎn)與DatapartitionReplacementTree節(jié)點(diǎn)能夠直接對缺失值進(jìn)行處理而不需要對缺失值進(jìn)行替換。我們也沒有將Tree節(jié)點(diǎn)與Transformation節(jié)點(diǎn)相連,是因為Transformation節(jié)點(diǎn)對區(qū)間變量的單調(diào)變換(monotonicbins,相接下來要查看LiftChart。默認(rèn)情況下,將要生成的LiftChart是建立在檢驗數(shù)據(jù)oolalidation如果你看不到ModelName中所有的模型名稱,你可以將窗口最大化,或者通過使用圖標(biāo)和圖標(biāo)修改圖表的位置和大小。additionaltermsinteractionseffectspolynomialeffects。第二,決策樹模型能夠?qū)θ盇ll自動彈出,這一事實上是Summary,TreeRing,TableAll下方的Assessmenttable和assessmentplot顯示了所有子樹對訓(xùn)練數(shù)據(jù)集和檢驗數(shù)據(jù)集的評價效果,這些評價揭示了一棵樹究竟要多大才能夠足夠擬合,overfitting的問overfitting的問題在訓(xùn)練數(shù)據(jù)集中就不存在。默認(rèn)地,對檢驗數(shù)據(jù)集擁有最高評價值和最少613個葉子的子樹,它們的檢驗數(shù)據(jù)集misclassificationrate(0.1214)6片葉子的子樹成為最佳的選擇。All左上方的Summary圖表總結(jié)了分類目表變量每一級的預(yù)測情況對于已經(jīng)選定的分類;在檢驗數(shù)據(jù)集中,大約14%的拖欠者和74%的非違約客戶被正確的分類。點(diǎn)擊主菜單的Tools,再選則DefineColors。在Selectatargetvalue表中選擇0。選擇0作為目 這個默認(rèn)設(shè)置下的數(shù)為二叉樹,我們也可以通過修改節(jié)點(diǎn)最大分支數(shù)(Basicumnumberofbranchesfromanode)在修改的Replacement節(jié)點(diǎn)后添加并連接一個NeuralNetwork節(jié)點(diǎn)并與MLP默認(rèn)地,彈出窗口的Tables顯示了擬合模型的各種統(tǒng)計數(shù)據(jù)errorAssessmentDefNN。選中這四個模LiftChart進(jìn)行比較。indicators能夠使回歸模型和神經(jīng)網(wǎng)絡(luò)模型區(qū)分那些本來就存在缺失值的觀察值我們已經(jīng)在之前的操作中在修改的Replacement節(jié)點(diǎn)內(nèi)選擇了添加這些indicators。現(xiàn)在我們來打開修改的回歸模型(StepReg)來查看這些indicators。在Variables顯indicators。Assessment(StepReg)LiftChartindicator對所產(chǎn)生的影響。(五)使用模型對新數(shù)據(jù)進(jìn)行分ScoringCodeScore節(jié)點(diǎn)能夠被用來評價保存以及從不同的模型中將scoringcode在本例中,score。打開Score節(jié)點(diǎn),Settings中共有四個選項②Applytrainingdatascorecodetoscoredataset——③Accumulatedatasetsbytype——和輸出先前節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)集。若果在含有Groupprocessing節(jié)點(diǎn)的路徑中使用這一選項,則輸出的數(shù)據(jù)集都是相連的。④Mergedatasetsbytype——合并先前節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)集。例如,我們可以使用這一選項將ScoreCode顯示了每接到Score節(jié)點(diǎn)的模型節(jié)點(diǎn)的評分編碼。因為這里的codescoringcode被修改,可以將其保存。右鍵單擊左側(cè)列出的回歸模型,在彈出框中選擇Save。在新彈出的框中將這codeMyregressioncodeOK保存。Export,輸入保存名稱和地址進(jìn)行保存。ScoringusingBASESASbaseSASscoringcodebaseSASSASEM對SAS SAMPSIO內(nèi)的DMAHMEQ數(shù)據(jù)集進(jìn)行評分。這一數(shù)據(jù)集包含所有對模型的WindowEditorFileOpenProgramcode.sasSAS的程序編輯器中,如下所示:數(shù)據(jù)集_PREDICT_SCORE代表了將要被評分的數(shù)據(jù)⑷對SAS館中SAMPSIO內(nèi)的DMAHMEQ數(shù)據(jù)集進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論