使用SASEM的數(shù)據(jù)挖掘?qū)嵗齙第1頁
使用SASEM的數(shù)據(jù)挖掘?qū)嵗齙第2頁
使用SASEM的數(shù)據(jù)挖掘?qū)嵗齙第3頁
使用SASEM的數(shù)據(jù)挖掘?qū)嵗齙第4頁
使用SASEM的數(shù)據(jù)挖掘?qū)嵗齙第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、使用SAS EM的數(shù)據(jù)挖掘?qū)嵗旱诙妫ㄗg者:李保坤)西南財經(jīng)大學(xué)2008年10月16日目錄第一章 SAS EM介紹啟動SAS EM建立初步的項目和流程圖(Project 和 Diagram)了解界面組件數(shù)據(jù)挖掘和 SEMMA 通過SAS文件夾(SAS Libraries)連接數(shù)據(jù)第二章 預(yù)測建模問題創(chuàng)建過程流流程圖(Process Flow Diagram)數(shù)據(jù)準備和調(diào)查擬和和比較可行模型產(chǎn)生和使用打分程序使用報告(Reporter) 節(jié)點生成報告第三章 變量選擇變量選擇介紹使用變量選擇(Variable Selection)節(jié)點第四章 聚類工具問題聚類方法回顧第五章 關(guān)聯(lián)分析問題第六章 鏈

2、接分析問題考察網(wǎng)絡(luò)日志數(shù)據(jù)第一章 SAS EM介紹1.1 啟動SAS EM在SAS命令條鍵入miner.按回車鍵或者點擊命令條旁的“”號?;蛘咴谥鞑藛蜗逻x擇1.2建立初步的項目和流程圖EM按項目和流程圖組織它進行的多個數(shù)據(jù)分析。每一個項目可以包括幾個流程圖,每一個流程圖可包括幾個數(shù)據(jù)分析。通常一個流程圖的分析只基于一個數(shù)據(jù)集合。 遵照以下步驟創(chuàng)建一個項目。1. 選擇 File New Project.2. 鍵入項目名 (例如, My Project).3. 如果有必要點選 Client/server project. (如果該項目不用某服務(wù)器的數(shù)據(jù)集合就不要點Client/server pro

3、ject。)注意:要建立Client/server project ,你必須聯(lián)通一個運行同樣版本EM的服務(wù)器才行。關(guān)于如何創(chuàng)建client/server 項目,請參照“Getting Started with SAS Enterprise Miner”, 或?qū)で笤诰€幫助。4. 如有必要可改變項目存放地址,方法是直接鍵入或選擇 Browse.5. 選擇 Create. 項目被建立。該項目下面有一無標題流程圖 “untitled”6. 選擇流程圖標題,并鍵入一新名,如My First Flow.選擇流程圖標題后取新名后1.3 了解界面組件SAS EM窗口包含以下界面組件:1. 項目導(dǎo)航區(qū) 讓你管理

4、項目和流程圖、向流程圖工作區(qū)(Diagram Workspace)添加工具、瀏覽報告(Reporter)節(jié)點生成的HTML報告。注意當一件工具被加到流程圖工作區(qū)后,該工具就被稱為是一個節(jié)點。項目導(dǎo)航區(qū)有個標簽: 流程圖標簽(Diagrams) 列出了當前項目和該項目包含的流程圖。當項目窗口打開時,按照缺省,流程圖標簽處于激活狀態(tài)。 工具標簽(Tools) 包括EM工具盤。該標簽可讓你看到所有的EM可用工具(或節(jié)點)。這些工具按照SEMMA 數(shù)據(jù)挖掘方法論被分組。許多常用的工具顯示在窗口頂部的工具條上。你可以從工具標簽拖拽過來的方式往工具條里添加工具。另外你還可以通過拖拽重新安排工具在工具條上的

5、位置。 報告標簽(Reports) 顯示報告節(jié)點(Reporter)生成的 HTML 報告2. 流程圖工作區(qū)(Diagram Workplace) 構(gòu)建、編輯、運行、以及儲存流程圖的區(qū)域3. 工具條(Tools Bar) 包括一系列可調(diào)配的EM常用工具,用于在Diagram Workspace 里構(gòu)建流程圖。你可以往工具條上加入或刪除工具。4. 進展指示條(Progress Indicator) 該條指示的是EM任務(wù)的執(zhí)行情況。5. 信息條(Message Panel) 顯示EM任務(wù)執(zhí)行情況的信息。6. 連接狀況指示條(Connection Status Indicator) 顯示遠程主機名并

6、指示連接對于客戶/服務(wù)器項目是否處于活動狀態(tài)。1.4 數(shù)據(jù)挖掘和SEMMA1.4.1 數(shù)據(jù)挖掘的定義本文獻把數(shù)據(jù)挖掘定義為對大量數(shù)據(jù)各種關(guān)系的探索和建模。1.4.2 關(guān)于數(shù)據(jù)的數(shù)據(jù)經(jīng)常會來源于幾個不同的數(shù)據(jù)源,把這些數(shù)據(jù)源的信息整合到一起是相當艱巨的工作。一個典型的數(shù)據(jù)集合通常有數(shù)千條觀測記錄。一個觀測記錄可能代表著一個實體,比如:一個客戶、一項特定的交易、或者某一個家庭。數(shù)據(jù)集合中的變量包含觀測記錄的諸如人口信息、銷售額歷史、或者金融信息等特定信息。這些信息的使用依賴于人們的研究問題。關(guān)于數(shù)據(jù)類型,根據(jù)每一個變量的測量水平我們可以把他們劃分為以下幾種:1 區(qū)間變量(interval) 均值有

7、意義的變量,例如收入、溫度。2 類別變量(categorical) 包括幾個水平的變量,例如性別(男或女)、酒量(小、中、大)??偟膩碚f,一個變量不是連續(xù)的那它就是類別的。 類別型變量可有好幾種分類。在EM任務(wù)中,我們把類別變量細分為:單值量(unary) 數(shù)據(jù)集合中所有觀測記錄在該變量上的值都相同二元變量(binary) 只有兩個可能觀測水平的變量。例如性別名義變量(nominal) 一個變量有幾個觀測水平,但這些水平?jīng)]有一定的順序。例如水果派的味道有櫻桃、蘋果、梨等。有序變量(ordinal) 有兩個以上的觀測水平,而且這些水平值具有一定的次序。例如酒量變量有小、中、大幾個水平。注意:如果

8、你對觀測水平的次序不感興趣的話,有序變量可當作名義變量處理。但名義變量不能被當作有序變量處理,因為根據(jù)定義不存在一定的次序。缺失值(Missing values)不能算作類別變量的一個級別。為進行有意義的分析,你必須建立一個適當?shù)臄?shù)據(jù)集合并為每一個變量確定正確的觀測水平。1.4.3 預(yù)測和描述技術(shù)預(yù)測建模技術(shù)可使你明白一些輸入變量在預(yù)測某結(jié)果變量時是否有用。例如,一家金融機構(gòu)想決定一個申請人的收入和信用歷史(輸入變量)信息是否有助于預(yù)測該客戶是否在某項貸款上會有欺詐活動(結(jié)果變量)。為了把輸入變量和輸出變量區(qū)別開來, 需要為數(shù)據(jù)集合的每一個變量設(shè)定模型角色。用目標模型角色(target mod

9、el role)來標定輸出變量,用輸入模型角色(input model role)來標定輸入變量。模型角色包括成本、頻數(shù)、代號(ID)、以及輸入。如果你想把一些變量排除在分析之外,用拒絕模型角色(rejected model role)來標記這些變量。用ID模型角色(ID model role)標記ID變量。預(yù)測模型變量需要一個或多個結(jié)果變量。每一項技術(shù)均是按照某種標準比如最大化精度或最大化利潤對結(jié)果盡可能預(yù)測得準確。這本書將告訴你如何使用EM的預(yù)測建模技術(shù):回歸模型、決策樹、以及神經(jīng)網(wǎng)絡(luò)等。每一項技術(shù)均可讓你使用輸入變量的任意組合來預(yù)測一個二元的、名義、有序、或者連續(xù)的輸出變量。描述技術(shù)讓你

10、識別出數(shù)據(jù)集合內(nèi)在的模式。這些技術(shù)并不需要一個感興趣的結(jié)果變量。該書探索如何使用EM進行以下的描述分析:聚類分析(Cluster analysis): 這種分析企圖根據(jù)一些輸入變量發(fā)現(xiàn)數(shù)據(jù)中觀測記錄的自然分組。在對觀測記錄聚集成幾個類別之后,你可以使用這些輸入變量對每一個聚類進行描述。當這些聚類被挑選出來并加以解釋之后,你可以決定是否對每一個聚類進行單獨處理。 關(guān)聯(lián)分析: 這種分析辨別產(chǎn)品或服務(wù)的組合,這些組合趨向于為人們同時購買,或者被相同的客戶在不同的時間購買。這種分析回答的問題如下: 買了雞蛋和牛奶的客戶還買了面包的比例有多少? 從某金融機構(gòu)使用了汽車貸款的人后來又從相同的機構(gòu)獲得了房屋

11、抵押貸款的客戶比例是多少?SEMMA回顧EM的節(jié)點是根據(jù)SAS 數(shù)據(jù)挖掘流程SEMMA 分組放置的: 抽樣 挑選輸入數(shù)據(jù)集合(挑選輸入數(shù)據(jù);從更大的數(shù)據(jù)集合抽樣;把數(shù)據(jù)集合劃分為訓(xùn)練、驗證、和測試數(shù)據(jù)集合)。 探索 按統(tǒng)計方法和圖形方法探索數(shù)據(jù)集合(數(shù)據(jù)圖示、獲取描述統(tǒng)計量、挑選重要變量、作關(guān)聯(lián)分析)。 調(diào)整 準備數(shù)據(jù)用于分析(創(chuàng)建新變量或者轉(zhuǎn)變現(xiàn)有的變量用于分析、挑選奇異值、替換缺失值、改變變量在分析中的使用方式、作聚類分析、用自組織圖形(SOM)或者Kohonen網(wǎng)絡(luò)分析數(shù)據(jù))。 建模 擬和一個預(yù)測模型(使用回歸模型、決策樹、神經(jīng)網(wǎng)絡(luò)、或者用戶定義的模型擬和目標變量). 評估 比較幾個候選

12、預(yù)測模型(創(chuàng)建圖形顯示響應(yīng)者所占的百分數(shù)、被發(fā)現(xiàn)的響應(yīng)者百分數(shù),提升圖、利潤圖等)打分(Score)節(jié)點和分數(shù)轉(zhuǎn)換(Score Converter)節(jié)點和前面介紹的工具不同。它們的目標是獲取模型的打分程序編碼,以及把SAS數(shù)據(jù)步(SAS DATA step) 打分編碼轉(zhuǎn)變成C 和 Java 編程語言的程序編碼。SAS數(shù)據(jù)步打分編碼可以存放為EM之外的一個SAS程序。而后這個SAS程序可以在任何運行SAS基礎(chǔ)模塊的平臺上運行。因此你可以在幾乎任何類型的平臺上進行實際打分工作。生成的C 或者Java編碼可以嵌入到在SAS以外單獨運行的C 或者Java程序中。另外還有一些工具放在Utility節(jié)點組

13、中。1.4.5 節(jié)點概覽1 采樣有關(guān)的節(jié)點a. 輸入數(shù)據(jù)源(Input Data Source)輸入數(shù)據(jù)源(Input Data Source)為EM作分析讀入數(shù)據(jù)源以及定義數(shù)據(jù)源的變量。這一節(jié)點可執(zhí)行以下任務(wù): 聯(lián)通SAS數(shù)據(jù)集合和數(shù)據(jù)店(data marts)。 數(shù)據(jù)店可以使用SAS Data Warehouse Administrator定義,通過使用EM的數(shù)據(jù)倉庫插件由EM建立。 當使用輸入數(shù)據(jù)源節(jié)點(Input Data Source)導(dǎo)入數(shù)據(jù)時,為所有變量自動創(chuàng)建一個元數(shù)據(jù)樣本(metadata sample)。按照缺省,EM的元數(shù)據(jù)樣本是一個從數(shù)據(jù)源節(jié)點指定的數(shù)據(jù)集合里抽取的有2

14、000個觀測記錄的隨機樣本。你也可以選擇要求更大的樣本。如果數(shù)據(jù)集合少于2000條記錄,整個數(shù)據(jù)集合就被使用。 使用元數(shù)據(jù)樣本為每一個變量的觀測水平設(shè)定值和模型角色。如果你對該節(jié)點的自動選擇不滿意,你可以改變這些設(shè)置。 顯示區(qū)間變量和類別變量的綜合統(tǒng)計量。 為輸入數(shù)據(jù)集合的每一個目標定義目標特征。注意: 該文獻使用術(shù)語數(shù)據(jù)集合而不用數(shù)據(jù)表。b. 抽樣節(jié)點(Sampling)抽樣節(jié)點讓你進行隨機抽樣、分層隨機抽樣、以及聚類抽樣。對于很大的數(shù)據(jù)庫我們建議進行抽樣,因為它能夠顯著地降低模型訓(xùn)練時間。如果樣本是有充分代表性的,樣本中發(fā)現(xiàn)的關(guān)系可以推廣到整個數(shù)據(jù)集合上。抽樣(Sampling)節(jié)點把抽出

15、來的觀測記錄寫到一個輸出數(shù)據(jù)集合,并儲存為樣本產(chǎn)生隨機數(shù)的種子值。用相同的種子值你可以重新產(chǎn)生樣本。c.數(shù)據(jù)劃分(Data Partition)數(shù)據(jù)劃分(Data Partition)節(jié)點讓你把數(shù)據(jù)集合劃分為訓(xùn)練、測試、和驗證數(shù)據(jù)集合。訓(xùn)練數(shù)據(jù)集合用于初步模型擬和。驗證數(shù)據(jù)用于在估計階段審查和調(diào)節(jié)模型權(quán)重,也用于模型評價。測試數(shù)據(jù)集合是另外一個數(shù)據(jù)集合你可以用它做模型評價。這個節(jié)點使用簡單隨機采樣、分層隨機采樣、或者一個用戶定義的劃分方式建立訓(xùn)練、測試和驗證數(shù)據(jù)集合。如果你已經(jīng)決定哪些記錄應(yīng)該安排到訓(xùn)練、驗證、和測試數(shù)據(jù)集合,你可以制訂一個用戶定義的劃分。這一劃分是在原始數(shù)據(jù)集合的一個類別變量

16、上進行的。2 關(guān)于數(shù)據(jù)探索的節(jié)點a. 分布探索(Distribution Explorer)分布探索(Distribution Explorer)節(jié)點能讓你用多維直方圖的方式探索大量的數(shù)據(jù)。用這個節(jié)點一次可以看到多達3個變量的分布。當變量是二元、名義、或有序變量,你可以選擇一些特別數(shù)值排除在圖形之外。如果要把奇異值從區(qū)間變量中排除出去,你可以設(shè)定一個范圍。對于區(qū)間變量,該節(jié)點還產(chǎn)生簡單的描述性統(tǒng)計量。b. 多圖(Multiplot)多圖(Multiplot)節(jié)點使你用圖形探索大量的數(shù)據(jù)。和 透視(Insight)節(jié)點或者分布探索 (Distribution Explorer)節(jié)點不同,多圖(M

17、ultiplot)節(jié)點在不需要作許多菜單或者窗口條目選擇的情況下自動為輸入和輸出變量創(chuàng)建條形圖以及散點圖 。該節(jié)點產(chǎn)生的程序編碼可以用于在批處理環(huán)境下創(chuàng)建圖形,而透視(Insight)節(jié)點和分布探索 (Distribution Explorer)節(jié)點必須通過界面運行。c. 透視(Insight)透視(Insight)節(jié)點可讓你打開 SAS/INSIGHT 模塊. SAS/INSIGHT 軟件是用于數(shù)據(jù)探索和分析的交互式工具。使用這個節(jié)點,你可以通過多個窗口對數(shù)據(jù)樣本畫圖或其它探索分析。你可以進行單變量分布、多變量分布分析,用廣義線性模型(GLM)方法建立解釋性模型。d. 關(guān)聯(lián)(Associat

18、ion)關(guān)聯(lián)節(jié)點(association)可用于找出數(shù)據(jù)中的關(guān)聯(lián)關(guān)系。例如,如果一個客戶買了一條面包,該客戶還要買一加侖牛奶的可能性有多大?如果數(shù)據(jù)集合里有時間標簽變量(一個順序變量)你還可以發(fā)現(xiàn)采購順序。e. 變量選擇(Variable Selection)變量選擇(Variable Selection)讓你在預(yù)測或分類目標變量的建模中評價輸入變量的重要性。在選擇重要輸入變量的過程中,該節(jié)點使用的是R2 (R-square)或者卡方(Chi-square,樹方法)標準。R2 標準用于刪除缺失值比例大的變量、刪除依賴于特定數(shù)值的類別變量、以及刪除層次變量。層次變量源于歸化水平(例如從郵政編碼可

19、得到州,而州可歸化到某地理區(qū)域)或來源于變量組成方式(變量A和B可能產(chǎn)生一個相互作用變量A*B)。和目標變量無關(guān)的變量被設(shè)置為拒絕狀態(tài)。盡管被拒絕的變量被送到流程圖的后續(xù)節(jié)點,但這些變量在許多建模節(jié)點中不能作為模型輸入變量。例如神經(jīng)網(wǎng)絡(luò)(Neural Network)節(jié)點和樹(Tree)節(jié)點。某些感興趣的變量可能會被變量選擇節(jié)點拒絕,但你可以通過在所有的建模節(jié)點中重新安排其模型角色把這些變量硬加入到模型中。f. 鏈接分析(Link Analysis)鏈接分析(Link Analysis)節(jié)點可讓你把不同來源的數(shù)據(jù)倒入數(shù)據(jù)模型,該數(shù)據(jù)模型可用圖形展示。 數(shù)據(jù)模型支持簡單的統(tǒng)計分析,提供基本分析探

20、測的簡單交互圖形,從原始數(shù)據(jù)產(chǎn)生聚類值。這些聚類值可用于數(shù)據(jù)壓縮和分區(qū)。3. 關(guān)于修整的節(jié)點a.數(shù)據(jù)集合屬性(Data Set Attributes)數(shù)據(jù)集合屬性(Data Set Attributes)節(jié)點可讓你修改數(shù)據(jù)集合屬性,例如數(shù)據(jù)集合名稱、描述、以及變量角色。你還可以用這個節(jié)點修正和數(shù)據(jù)集合相關(guān)的元數(shù)據(jù)樣本,以及指定目標變量的目標特征。數(shù)據(jù)集合屬性(Data Set Attributes)節(jié)點的一個常用應(yīng)用是把一個數(shù)據(jù)集合產(chǎn)生到編碼(Code)節(jié)點里,并用這個節(jié)點調(diào)整元數(shù)據(jù)樣本。 c. 轉(zhuǎn)換變量(Transform Variables)轉(zhuǎn)換變量(Transform Variables

21、)節(jié)點可讓你轉(zhuǎn)換變量。你可以通過給一個變量取平方根、取自然對數(shù)、最大化與目標變量的相關(guān)系數(shù)、或者正態(tài)化等方式轉(zhuǎn)換變量。另外,該節(jié)點支持用戶定義的公式,并可以把區(qū)間變量值進行分塊或組。該節(jié)點還用基于決策樹的算法自動為區(qū)間變量分塊。把變量轉(zhuǎn)變?yōu)橄嗨频牧烤V和方差可改進模型的擬和結(jié)果,因此提高擬和模型的分類和預(yù)測精度。d. 過濾奇異值(Filter Outliers)過濾奇異值(Filter Outliers)節(jié)點可讓你識別和刪除數(shù)據(jù)集合的奇異點。在此建議大家作分析時檢查奇異值,因為奇異值會大大影響建模效果,其后果是影響擬和模型的分類和預(yù)測精度。 e. 替換(Replacement)替換(Replac

22、ement)節(jié)點可讓你實現(xiàn)對有缺失值的觀測記錄進行填補。對于區(qū)間變量,你可以用均值、中位數(shù)、中間值、或者Tukey雙權(quán)值、Huber波值、 Andrew 波值等基于分布的替換值、M-估計量等進行替換。你還可以用樹算法的插值方法為每一個區(qū)間輸入變量估計替換值。對于類別變量,其缺失值可以用眾數(shù)、基于分布的替換值、基于樹算法的插值、或者一個常量來替換。f. 聚類(Clustering)聚類(Clustering)節(jié)點讓你為數(shù)據(jù)分組,即你可以把在某種方式類似的觀測記錄辨識出來。相似的觀測記錄趨向于分組在同一個聚類里,不相似的觀測記錄趨向于分組在不同的聚類里。 對每一個觀測記錄的聚類標記可被傳送到其它節(jié)

23、點用作輸入變量、ID代碼、或者目標變量。它還可以作為后來節(jié)點的分組變量,使你自動為每一個分組創(chuàng)建單獨的模型。g. SOM/Kohonen圖形SOM/Kohonen節(jié)點可用來產(chǎn)生自組織圖形(self-organizing maps),Kohonen網(wǎng)絡(luò)、以及向量量化網(wǎng)絡(luò)。實質(zhì)上該節(jié)點作的是無約束學(xué)習(xí),它在此學(xué)習(xí)的是數(shù)據(jù)的結(jié)構(gòu)。和聚類(Clustering)的用法一樣,在網(wǎng)絡(luò)圖建立以后,其特征圖形可以使用結(jié)果(Results)節(jié)點瀏覽界面查看。該節(jié)點以交互圖形的方式提供分析結(jié)果,其圖形顯示了各聚類的特點。而且,它還提供了說明每一個變量重要性的報告。h. 時間序列(Time Series)時間序列(

24、Time Series)節(jié)點可以把交易數(shù)據(jù)轉(zhuǎn)變成時間序列數(shù)據(jù)。它還進行有時間標志交易數(shù)據(jù)的季節(jié)和趨勢分析。i. 交互式分組(Interactive Grouping)交互式分組(Interactive Grouping)節(jié)點讓你交互式把變量數(shù)值分成幾個類別。當你探索各種變量分組時統(tǒng)計和圖形信息可以交互式重新安排。 交互式分組(Interactive Grouping)節(jié)點需要目標變量是二元變量。4. 建模節(jié)點a. 回歸(Regression)回歸(Regression)節(jié)點既可以用數(shù)據(jù)擬和線性回歸模型也可以擬和logistic回歸模型。輸入變量既可以是離散,也可以是連續(xù)。該節(jié)點還支持逐步、前向

25、、和后向選擇方法。交互界面可以讓你創(chuàng)建高階模型項。b. 樹(Tree)樹(Tree)節(jié)點根據(jù)名義、有序、以及連續(xù)變量的值分布進行數(shù)據(jù)庫的多向劃分。這是 SAS決策樹的實現(xiàn)方法,它是 CHAID, CART,以及C4.5 算法的最佳混合方法。該節(jié)點既支持自動訓(xùn)練也支持交互訓(xùn)練。當在自動模式下運行樹節(jié)點時,它按照對決策樹的貢獻大小自動為輸入變量排序。這個排序可以用于后續(xù)建模的變量選擇。另外,還可產(chǎn)生用于后續(xù)建模的虛擬變量。使用交互式訓(xùn)練,通過定義一個裂分法則或者修剪一個節(jié)點或者子樹覆蓋自動的步驟。c.神經(jīng)網(wǎng)絡(luò)(Neural Network)神經(jīng)網(wǎng)絡(luò)(Neural Network)節(jié)點讓你創(chuàng)建、訓(xùn)練

26、、和驗證多層前饋神經(jīng)網(wǎng)絡(luò)。按照缺省,神經(jīng)網(wǎng)絡(luò)節(jié)點自動生成的是含一個隱藏層、3個神經(jīng)元的多層前饋神經(jīng)網(wǎng)絡(luò)。一般情況下,每一個輸入和第一個隱藏層完全連接,每一個隱藏層和下一個隱藏層完全連接,最后一個隱藏層和輸出完全連接。這個神經(jīng)網(wǎng)絡(luò)節(jié)點支持這種結(jié)構(gòu)的許多變化。d. Princomp/DmneuralPrincomp/Dmneural 節(jié)點讓你使用主成分值作為輸入變量擬和一個可加的非線性模型,以一個二元或者區(qū)間變量為目標變量。該節(jié)點還進行主成分分析并把主成分的值傳遞給后續(xù)節(jié)點。e. 用戶定義模型(User Defined Model)用戶定義模型(User Defined Model)節(jié)點使用SAS

27、 編碼(Code)節(jié)點建立模型(例如,使用SAS/STAT LOGISTIC過程步)的預(yù)測值、或者變量選擇(Variable Selection)節(jié)點產(chǎn)生評價統(tǒng)計量。當你使用第三方軟件生成的模型進行預(yù)測,并創(chuàng)建一個SAS數(shù)據(jù)集合其中包括該模型的預(yù)測值時,你可以產(chǎn)生一個評價統(tǒng)計量。這些預(yù)測值也可以存儲到一個數(shù)據(jù)集合里,然后使用輸入數(shù)據(jù)源(Input Data Source)節(jié)點導(dǎo)入過程流。 f. 合奏(Ensemble)合奏(Ensemble)節(jié)點通過對類別目標變量平均多個模型的后驗概率,對區(qū)間目標變量平均預(yù)測值的方法建立新模型。這個新模型而后用于為新數(shù)據(jù)打分。一個常用的方法是在訓(xùn)練數(shù)據(jù)上重新采

28、樣,并為每一個樣本擬和一個單獨的模型。合奏節(jié)點然后把這些模型組配到一起獲得一個有可能更好的模型。另一個常用方法是使用多個建模方法,例如一個神經(jīng)網(wǎng)絡(luò)和一個決策樹,從相同的訓(xùn)練數(shù)據(jù)集合上建立單獨的模型。合奏節(jié)點把互補的建模方法組配到一塊構(gòu)成一個最終結(jié)果。合奏節(jié)點還可以把層次模型的打分程序碼合并到一起。不同的建模節(jié)點在一個多層次變量(例如,組群變量性別。這種變量用Group Processing節(jié)點定義)上產(chǎn)生不同的打分公式。合奏節(jié)點通過使用IF-THEN DO/END邏輯語句把數(shù)據(jù)分塊的方法合并打分編碼成一個單一的數(shù)據(jù)步(DATA step)只有當單獨的模型有差距時,不管是哪種方法建立的合奏模型都

29、可能比單獨的模型精確。g. 基于存儲量的推理(Memory-Based Reasoning)基于存儲量的推理(Memory-Based Reasoning)節(jié)點使用k-最近鄰點算法對觀測記錄進行分類或預(yù)測。 h. 二階段建模(Two Stage Model)二階段建模(Two Stage Model)節(jié)點計算一個二階段模型預(yù)測一個類別目標和一個區(qū)間目標。區(qū)間目標變量值通常與類別目標變量的水平有關(guān)。5.評價節(jié)點a. 評價(Assessment)評價(Assessment)節(jié)點提供了一個比較模型(Regression, Tree, Neural Network, 和User Defined Mod

30、el)預(yù)測精度的平臺。這一比較是建立在實施模型將會導(dǎo)致的期望損益和實際損益上的。該節(jié)點給出了以下描述模型有效性的圖形:提升圖、 利潤、投資收益、接收方操作曲線,診斷圖、以及基于閾值的圖形。b. 報告(Reporter)報告(Reporter)節(jié)點把一個過程流分析得到的結(jié)果裝配到一個HTML報告里,該報告可以用網(wǎng)絡(luò)瀏覽器瀏覽。每件報告包括頭信息、過程流流程圖圖像、對過程流中的每一個節(jié)點都有一份包含節(jié)點設(shè)置和結(jié)果的單獨報告。報告管理在項目導(dǎo)航區(qū)(Project Navigator)的報告(Reports)標簽里。 6 打分節(jié)點a. 打分(Score)打分(Score)節(jié)點生成和管理訓(xùn)練得到的模型的

31、預(yù)測值。打分公式為了評價和預(yù)測兩個目的創(chuàng)建。EM以SAS 數(shù)據(jù)步(DATA step)編碼的方式產(chǎn)生和管理打分公式,而數(shù)據(jù)步編碼即使在EM不存在的情況下也能夠在SAS上應(yīng)用。b. 轉(zhuǎn)換打分程序(Score Converter)轉(zhuǎn)換打分程序(Score Converter)節(jié)點提供C語言和java語言的數(shù)據(jù)挖掘打分輸出。語言輸出的選擇可把EM輸出用于SAS以外的程序中。7. 輔助工具節(jié)點a. 分組處理(Group Processing)分組處理(Group Processing)節(jié)點針對一個類別變量(例如性別)的每一個水平進行分析。你還可以用這個節(jié)點指定多個目標或者對相同的數(shù)據(jù)源進行多次處理。當

32、多個目標被選擇時,EM對每一個目標單獨分析。b. 數(shù)據(jù)挖掘數(shù)據(jù)庫(Data Mining Database)數(shù)據(jù)挖掘數(shù)據(jù)庫(Data Mining Database)可用來創(chuàng)建一個用于批處理的數(shù)據(jù)挖掘數(shù)據(jù)庫(DMDB)。對于不是批處理的情況,EM會按需要自動創(chuàng)建數(shù)據(jù)挖掘數(shù)據(jù)庫(DMDB)c. SAS編碼(SAS Code)SAS編碼(SAS Code)節(jié)點用于把新寫的或已有的SAS編碼裝配到流程圖中。你還可以使用SAS 數(shù)據(jù)步(SAS DATA step)去創(chuàng)建打分編碼、有條件地處理數(shù)據(jù)、以及橫向接合或豎向接合現(xiàn)有的數(shù)據(jù)集合。該節(jié)點提供一個宏工具實現(xiàn)動態(tài)地指示數(shù)據(jù)集合(用于訓(xùn)練、驗證、測試、或

33、者打分)以及變量,如輸入、目標、以及預(yù)測變量。在運行SAS編碼(SAS Code)節(jié)點之后,你可以把結(jié)果和數(shù)據(jù)集合導(dǎo)出到流程圖中的后續(xù)節(jié)點。d. 控制點(Control Point)控制點(Control Point)用于建立一個控制點以減少過程流流程圖中連接的數(shù)量。例如,你想把3個數(shù)據(jù)源和3個建模節(jié)點連接起來。如果你忽略控制點(Control Point),你需要9個連接。然而,如果你使用控制點(Control Point)節(jié)點,你只需要6個連接。e. 子流程圖(Subdiagram)子流程圖(Subdiagram)節(jié)點用于把流程圖的一部分組成一個子流程圖(Subdiagram)。對于復(fù)雜的

34、流程圖,你可能想建立子流程圖以便更好地設(shè)計和控制過程流。1.4.6 關(guān)于使用節(jié)點的一些規(guī)則以下是一些關(guān)于往流程圖加節(jié)點的一些一般規(guī)則: 輸入數(shù)據(jù)源(Input Data Source)節(jié)點必須最先加入。 抽樣(Sampling)節(jié)點的前面必須是一個輸出數(shù)據(jù)集合的節(jié)點。 評價(Assessment)節(jié)點之前必須是一個或者幾個模型節(jié)點。 打分節(jié)點(Score)或轉(zhuǎn)換打分(Score Converter)節(jié)點之前必須是一個產(chǎn)生打分編碼的節(jié)點。修正數(shù)據(jù)或者建立模型的所有節(jié)點都生成打分編碼。 SAS編碼(SAS Code)節(jié)點可以在流程圖的任意階段定義。它不需要在輸入數(shù)據(jù)源(Input Data Sou

35、rce)節(jié)點里確定一個輸入數(shù)據(jù)集合。1.5 通過SAS文件夾(SAS Libraries)連接 SAS 數(shù)據(jù)SAS 使用文件夾(libraries)組織文件。這些文件夾指向數(shù)據(jù)和程序存放的實際文件夾。在EM 4.2版,文件夾的取名必須符合SAS 8的取名規(guī)定。這些規(guī)定要求文件夾名稱不多于8個字母或數(shù)字字符。第一個字符必須的一個字母或者下劃線 (_)。其后的字符可以是字母、數(shù)字、以及下劃線。該名稱不能包含象“*” 以及“&”類似的特殊字符。 要想建立一個新文件夾或者瀏覽已有的文件夾,從SAS主菜單選擇以下顯示的是SAS 探索(Explorer)窗口示例。從探索(Explorer)窗口的左邊一列文

36、件夾里選擇一個,你會看到該文件夾包含的文件。要創(chuàng)建一個新文件夾,右擊Libraries,然后選擇New, 新文件夾(New Library)窗口打開。指定文件夾名、數(shù)據(jù)引擎(engine)、相關(guān)路徑、以及選擇項。 在顯示窗口中, Enable at Startup 選框沒有被選擇。當SAS 再次啟動時這個文件夾將不再有用。如果你想每次SAS啟動時自動安排這個文件夾,就要選擇這個選框。當啟動EM時有幾個文件夾是系統(tǒng)自動給安排的。其中之一是 SAMPSIO。該文件夾包括用于EM參考資料的幾個數(shù)據(jù)集合樣品。本文獻使用的數(shù)據(jù)集合就在 SAMPSIO 中。該文件夾中的任何數(shù)據(jù)集合可以通過二部(two-p

37、art)名稱(由SAS文件夾名和 SAS數(shù)據(jù)集合名構(gòu)成)指定。例如,SAMPSIO 文件夾中的HMEQ 數(shù)據(jù)集合即可以用名稱SAMPSIO.HMEQ 指定。 第二章 預(yù)測建模2.1 問題提出2.1.1 預(yù)測建模案例一家金融服務(wù)公司為其客戶提供房屋凈值信貸。該公司曾把該項貸款給了數(shù)千客戶,其中的許多接收者(大約20%)有貸款欺詐行為。該公司希望使用地理信息、人口信息、和經(jīng)濟狀況信息變量建立一個模型預(yù)測申請人將來會不會欺詐。2.1.2 輸入數(shù)據(jù)源 在對數(shù)據(jù)進行了分析之后,該公司選擇了12個預(yù)測變量來建立申請人是否進行貸款欺詐的模型。輸出變量(或目標)變量(BAD)表示申請人在房屋凈值信貸中是否有欺

38、詐活動。這些變量及其模型角色、測量水平、變量描述列表如下。注意: 這本書的變量名使用大寫字母。SAS 接受大小寫混合的變量名以及小寫字母的變量名。表 2.1 SAMPSIO.HMEQ 數(shù)據(jù)集合的變量 SAMPSIO 文件夾里的HMEQ數(shù)據(jù)集合有5,960 條觀測記錄供建立和比較候選模型。該數(shù)據(jù)集合被劃分為訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)、和測試數(shù)據(jù)集合用于分析。2.2 創(chuàng)建過程流流程圖 加入節(jié)點現(xiàn)在開始建立第一個過程流來分析數(shù)據(jù)。使用EM工具條(Tools Bar)獲取常用節(jié)點。你還可以往工具條(Tools Bar)上添加節(jié)點,方法是把節(jié)點從項目導(dǎo)航區(qū)(Project Navigator)的工具(Tools

39、)標簽拖拽到工具條(Tools Bar)。所有節(jié)點都還在工具(Tools)標簽上。從工具條(Tools Bar)或者項目導(dǎo)航區(qū)(Project Navigator)的工具(Tools)標簽上拖拽一個輸入數(shù)據(jù)源(Input Data Source)節(jié)點到工作區(qū)。因為這是一個預(yù)測建模流,我們把一個數(shù)據(jù)劃分(Data Partition)節(jié)點放到輸入數(shù)據(jù)源(Input Data Source)節(jié)點的右邊。除了把一個節(jié)點拖拽到流程圖工作區(qū)(Diagram Workspace)之外,還有兩種方法往過程流加入節(jié)點。你可以在希望節(jié)點出現(xiàn)的工作區(qū)某地方右擊鼠標并選擇Add node, 或者在希望節(jié)點出現(xiàn)的工作

40、區(qū)某地方雙擊鼠標。不管你使用哪種方法,一列節(jié)點將會呈現(xiàn)出來供你選擇。在你選擇數(shù)據(jù)劃分(Data Partition)之后, 你的流程圖如下:注意數(shù)據(jù)劃分(Data Partition)節(jié)點處于被選擇狀態(tài)(有虛線環(huán)繞),而輸入數(shù)據(jù)源(Input Data Source)節(jié)點沒有被選擇。如果你在工作區(qū)的任何空白地方點擊,所有節(jié)點都被脫選。使用光標 光標的形狀依賴于它所處的位置而發(fā)生變化。鼠標命令的行為依賴于光標的形狀以及光標所指節(jié)點的選擇狀態(tài)。在空白區(qū)右擊,得到一個彈出菜單顯示如下:最后3個菜單項 (連接物體,移動物體,移動并連接;Connect items, Move items, Move a

41、nd connect) 用于修改光標被使用的方式。按缺省,移動并連接(Move and connect)項被選擇,旁有星號為征。在此我們建議大家不要改變這一設(shè)置,因為用鼠標同時完成兩個任務(wù)更為方便和有效,而不必要把光標設(shè)置調(diào)來調(diào)去。如果你的光標不工作,檢查這個菜單以確保 Move and connect 條目被選擇。這一選項使你能夠在工作區(qū)內(nèi)移動和連接節(jié)點。注意:在你拖動一個節(jié)點后,該節(jié)點依然處于被選擇狀態(tài)。若要解除所有節(jié)點的被選擇狀態(tài),需點擊工作區(qū)的空白地區(qū)。當你把光標置于節(jié)點的邊緣之處,它的形狀是一個十字號。連接光標所指的節(jié)點(起始節(jié)點)和其它任意節(jié)點(終端節(jié)點)的步驟如下:1 確保起始節(jié)

42、點不處于被選擇狀態(tài)。這種狀態(tài)下拉線更容易一些。如果起始節(jié)點被選擇,點擊工作區(qū)的空白處使之脫選。2 把光標置于代表起始節(jié)點圖標的邊緣(直到十字號出現(xiàn))3 壓下鼠標左鍵,立即開始把連線拖向終端節(jié)點。注意: 如果在壓下鼠標左鍵后沒有立即拖連線,你只是選擇了這個節(jié)點。拖動一個被選擇的節(jié)點一般只會移動節(jié)點(即沒有形成連線)。4 在達到代表終端節(jié)點的圖標邊緣時釋放鼠標左鍵。5 在箭頭遠處點擊空白處。連接一開始顯示如下。當你點擊工作區(qū)線外空白處后,帶箭頭方向線完成。挑選輸入數(shù)據(jù) 這個例子使用SAMPSIO 文件夾的HMEQ 數(shù)據(jù)集合。指定一個輸入數(shù)據(jù)的方法是雙擊輸入數(shù)據(jù)源(Input Data Source

43、)節(jié)點,或者單擊該節(jié)點并選擇 Open. 數(shù)據(jù)(Data)標簽處于活動狀態(tài)。你的窗口圖示如下。 點擊Select選擇數(shù)據(jù)集合?;蛘哝I入數(shù)據(jù)集合名稱。按缺省,被選擇的文件夾是SASUSER。要瀏覽SAMPSIO文件夾的數(shù)據(jù)集合,點擊箭頭()并從列出的文件夾里選擇SAMPSIO。從SAMPSIO文件夾里選擇HMEQ數(shù)據(jù)集合,然后選擇OK。輸入數(shù)據(jù)源(Input Data Source)對話框出現(xiàn)。這個數(shù)據(jù)集合里有5,960條觀測記錄(行)以及13個變量(列)。源數(shù)據(jù)集合的名稱為SAMPSIO.HMEQ 。你也可以鍵入這個文件名而不用對話框進行選擇。注意右下角表明元數(shù)據(jù)樣本的大小為2,000。了解元

44、數(shù)據(jù)樣本 所有分析包都必須決定在分析中如何使用變量。EM使用元數(shù)據(jù)對如何使用每一個變量進行評估。按缺省,EM從感興趣的數(shù)據(jù)集合采集一個2,000觀測記錄的隨機樣本,并使用得到的信息為每一個變量安排模型角色和測量水平。它還計算其它標簽顯示的一些簡單統(tǒng)計量。如果你想采集一個更大的樣本,你可以在該窗口的元數(shù)據(jù)抽樣區(qū)(右下角)選擇Change ,但是在大多數(shù)情況下不必要作這一改變,所作的改變在此看不出來。評價(和修改,如果有必要)元數(shù)據(jù)樣本所做的種種安排。選擇變量(Variables)標簽察看所有的變量及其各自的安排。下表給出了這個例子中13個變量的部分信息。注意變量名(Name )和類型( Type

45、) 兩列不能進行處理(它們是暗色)。這兩列代表在這個節(jié)點里SAS數(shù)據(jù)集合不能更改的信息。變量名必須符合前面描述的文件夾命名的規(guī)定。類型是字符(char)或數(shù)值 (num),類型信息對于變量的使用有影響。EM使用元數(shù)據(jù)樣本的變量類型(Type)以及水平數(shù)量初步安排每一個變量的模型角色和測量水平。列出的第一個變量是BAD,雖然BAD在數(shù)據(jù)集合里是一個數(shù)值變量,EM把它作為二元變量因為在元數(shù)據(jù)樣本里只有兩個非缺失值水平。按缺省,所有二元變量的模型角色被設(shè)置為輸入(input)。下面的3個變量(LOAN, MORTDUE, 和 VALUE)被設(shè)置為區(qū)間測量水平,因為它們是SAS數(shù)據(jù)集合的數(shù)值變量而且在

46、元數(shù)據(jù)樣本里具有10多個不同的水平。按缺省,所有區(qū)間變量的模型角色被設(shè)置為輸入(input)。變量REASON和JOB都是數(shù)據(jù)集合的字符變量,但它們的測量水平不同。REASON被安排為二元測量水平因為在元數(shù)據(jù)樣本里只有兩個非缺失值水平。而JOB變量被安排為一個名義測量水平因為它是一個有兩個以上水平的字符變量。按缺省,所有二元變量和名義變量的模型角色被設(shè)置為輸入(input)。在這個表中,DELINQ 被安排為一個有序測量水平。如果在元數(shù)據(jù)樣本里某變量是數(shù)值變量,具有兩個以上、不多于10個不同的非缺失值水平,那么該變量被安排為有序測量水平。這種情況經(jīng)常發(fā)生在包括數(shù)數(shù)的變量(例如家庭里孩子的數(shù)量)

47、。因為這一安排依賴于元數(shù)據(jù)樣本每一個變量的水平數(shù)量,這個分析中DEROG 或 DELINQ的測量水平可以被設(shè)置為區(qū)間測量水平。在這個分析中剩下的變量(YOJ到 DEBTINC)都按區(qū)間變量對待。 挑選目標變量 BAD是這一分析的響應(yīng)變量,因此我們把其模型角色改為目標(target)變量。改變BAD 變量模型角色的操作如下:1 右擊BAD行的 Model Role 列.2 從彈出菜單選擇察看分布對每一個變量你可以察看在元數(shù)據(jù)樣本里數(shù)值的分布。例如,瀏覽BAD變量分布的操作如下: 1右擊BAD行的Name 列;2 選擇View distribution 以察看元數(shù)據(jù)樣本里BAD 變量的值分布。其分

48、布如下圖。要獲取額外的信息,在窗口頂部的工具箱選擇瀏覽信息(View Info)圖標 ( ) ,并點擊其中某個直方條。EM展示該條所表示的觀測水平和該水平的比例。這些圖形提供對數(shù)據(jù)的初步了解。在這個例子中,大約20%的客戶進行了欺詐 (BAD=1).不要忘了輸入數(shù)據(jù)源(Input Data Source)節(jié)點的圖形和統(tǒng)計量是從元數(shù)據(jù)樣本得到的,因此你的窗口的數(shù)值可能和這兒顯示的略有差別。這些差別在以后的建模結(jié)果中將不會出現(xiàn),因為建模節(jié)點使用整個訓(xùn)練數(shù)據(jù)集合而不只是一個樣本。當完成察看圖形之后,選擇 Close 返回主對話框。修正變量信息表2.1中的變量需要具有正確的模型角色和測量水平信息。如果

49、有必要,我們可以把DEROG 和 DELINQ 變量類型轉(zhuǎn)變?yōu)?ordinal 類型。在這個例子中我們將不作改變。若要修正DEROG 的測量水平信息,操作如下:1 右擊DEROG 行的Measurement Level 欄.2 選擇3 對DELINQ 變量重復(fù)步驟 1 和 2。另一種方法是在選擇DEROG 和 DELINQ 兩行,你可以同時改變兩個變量的模型角色信息。查看描述統(tǒng)計量元數(shù)據(jù)用于計算描述統(tǒng)計量。選擇區(qū)間變量(Interval Variables)標簽。你可以察看區(qū)間變量的最小值、最大值、均值、標準差、缺失記錄的百分數(shù)、偏度和峰度。你可能需要左右拖動鼠標來察看所有列。在這個例子中,對

50、最小值和最大值的察看表明所有數(shù)值都用上了。注意DEBTINC變量有很高的缺失值比率(22%)。選擇類別變量( Class Variables)標簽。察看水平數(shù)量、缺失值百分數(shù)、以及每一個變量的排序方式。BAD 變量的排序是降序,而其余兩個為升序。對于BAD 這樣的二元目標變量,第一個排序水平是目標事件。因為BAD 有兩個水平(0和1),BAD 按降序排列,BAD=1 是目標事件。有時你可能需要改變排序方式以得到你需要的目標事件。關(guān)閉輸入數(shù)據(jù)源(Input Data Source)節(jié)點,并存儲你所作的改變。察看數(shù)據(jù)劃分(Data Partition)節(jié)點的缺省設(shè)置打開數(shù)據(jù)劃分( Data Par

51、tition)節(jié)點。按缺省劃分(Partition)標簽處于活動狀態(tài)。劃分方法選擇項位于劃分(Partition)標簽的左上角。 EM從輸入數(shù)據(jù)集合采集一個樣本并劃分為訓(xùn)練、驗證和測試數(shù)據(jù)集合。按缺省,使用簡單隨機采樣。你還可以產(chǎn)生分層抽樣或者實現(xiàn)以前實現(xiàn)過的用戶定義的抽樣,具體操作如下: 簡單隨機抽樣 選擇Simple Random。數(shù)據(jù)集合的每一個觀測記錄都有相同的概率被選中。 分層抽樣 選擇 Stratified 然后使用分層(Stratified)標簽的選擇項設(shè)置層次。 用戶定義的抽樣 選擇 User Defined 然后使用用戶定義(User Defined)標簽的選項找出數(shù)據(jù)集合里

52、確定劃分的那個變量。該標簽的左下角用于指定初始化抽樣過程的隨機種子。計算機程序里面的隨機化經(jīng)常始于某種種子。在不同的過程流里,如果你使用相同的數(shù)據(jù)集合和相同的種子(種子0除外),你可以得到相同的劃分。你可以看到對數(shù)據(jù)重新排序會導(dǎo)致不同的數(shù)據(jù)排序,因此不同的劃分會導(dǎo)致不同的結(jié)果。在這個標簽的右端你可以指定分配給訓(xùn)練、驗證、和測試數(shù)據(jù)的百分數(shù)。這些百分數(shù)加起來必須是100%.對這個例子我們可以使用系統(tǒng)的缺省設(shè)置。關(guān)閉數(shù)據(jù)劃分(Data Partition)節(jié)點。如果你沒有進行修改,就不會彈出對話框讓你存儲變化。如果你在關(guān)閉這個節(jié)點時彈出的對話框詢問是否存儲變化,選擇No 保持數(shù)據(jù)劃分(Data P

53、artition)節(jié)點的缺省設(shè)置。擬和和評估回歸模型加入一個回歸(Regression)節(jié)點并把它和數(shù)據(jù)劃分(Data Partition)節(jié)點連接起來?,F(xiàn)在流程圖看起來如下所示::和回歸(Regression)節(jié)點類似的建模節(jié)點要求在輸入數(shù)據(jù)源(Input Data Source)節(jié)點里指定一個目標變量。回歸(Regression)節(jié)點的目標變量可以是區(qū)間、有序、名義、以及二元變量。因為我們在輸入數(shù)據(jù)源(Input Data Source)節(jié)點里選擇了一個二元變量(BAD)作為目標變量,該回歸(Regression)節(jié)點將擬和一個二元logistic 回歸模型,每一個輸入變量都是主效應(yīng)(ma

54、in effects)。該節(jié)點還可以為分組變量進行編碼,一種是按照GLM編碼方式,另一種是按照Deviation編碼方式。按缺省該節(jié)點按Deviation編碼方式為類別型輸入變量編碼。右擊回歸(Regression)節(jié)點并選擇Run. 當執(zhí)行結(jié)束后,彈出對話框問是否瀏覽結(jié)果時點擊Yes?;貧w結(jié)果瀏覽(Regression Results Browser)窗口的估計值(Estimates)標簽顯示了效應(yīng) T-值的條形圖和參數(shù)估計。T-值(從左到右)以絕對值遞減的順序畫出。絕對值越高,該變量在回歸模型中越重要。在這個例子中,DELINQ, NINQ, DEBTINC, 和 DEROG 是最重要的幾

55、個預(yù)測變量。要瀏覽表中的效應(yīng)T值和參數(shù)估計值,選擇Table。所有的建模節(jié)點都有一個模型管理器(Model Manager),它可生成評估(Assessment)節(jié)點里生成的評價圖和報告。在模型管理器(Model Manager)里,你只能比較相應(yīng)的建模節(jié)點訓(xùn)練的模型。而在評估(Assessment)節(jié)點里你可以比較使用不同的建模方法建立的模型。右擊流程圖工作區(qū)(Diagram Workspace)的回歸(Regression)節(jié)點并選擇 Model Manager. 在模型管理器(Model Manager)里,選擇一個累積相應(yīng)百分數(shù)(Response)圖出現(xiàn)。按缺省,該圖把觀測記錄按照它們

56、被預(yù)測的相應(yīng)概率以10%遞減分組為X軸,實際響應(yīng)者的百分數(shù)為Y軸。在我們這個例子中,客戶按照他們貸款欺詐的預(yù)測概率從大到小排序。Y 軸是貸款欺詐的實際發(fā)生的累積概率。如果這個模型有效,排在前幾個十分位的客戶貸款欺詐的比率將會相當高,曲線會逐步遞減。這個例子中缺省設(shè)置的回歸沒有用處。我們知道DEBTINC 變量的缺失值比率很高。把缺省設(shè)置的回歸模型直接用于訓(xùn)練數(shù)據(jù)集合對這個例子不合適,因為回歸模型忽略了至少一個變量上有缺失值的所有記錄。這種情況下你可能考慮在擬和一個回歸模型之前先進行插值。EM使用替換(Replacement)節(jié)點進行插值。了解數(shù)據(jù)替換加入一個替換(Replacement)節(jié)點,這樣你可以為所有變量替換缺失值。當你建立回歸或者神經(jīng)網(wǎng)絡(luò)模型時想使用訓(xùn)練數(shù)據(jù)的所有觀測記錄,這個替換就有必要。決策樹可直接處理缺失值,而回歸和神經(jīng)網(wǎng)絡(luò)模型忽略所有不完全的觀測記錄(一個或多個輸入變量有缺失值的觀測記錄)。因為比較建立在同樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論