




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Good is good, but better carries it.精益求精,善益求善。多元統(tǒng)計(jì)分析實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)-多元統(tǒng)計(jì)分析實(shí)驗(yàn)教學(xué)上機(jī)指導(dǎo)書(shū)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院信息與計(jì)算科學(xué)教研室第一章聚類(lèi)分析一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握系統(tǒng)聚類(lèi)分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),熟悉系統(tǒng)聚類(lèi)的用途和操作方法,了解各種距離,能按要求將樣本進(jìn)行分類(lèi);2.要求學(xué)生重點(diǎn)掌握該方法的用途,能正確解釋軟件處理的結(jié)果,尤其是冰柱圖和樹(shù)形圖結(jié)果的解釋?zhuān)?.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握系統(tǒng)聚類(lèi)分析方法在寫(xiě)作中的應(yīng)用。二、實(shí)驗(yàn)內(nèi)容與步驟SAS部分(一)SAS程序語(yǔ)言簡(jiǎn)介SAS系統(tǒng)強(qiáng)大的數(shù)據(jù)
2、管理能力、計(jì)算能力、分析能力依賴(lài)于作為其基礎(chǔ)的SAS語(yǔ)言。SAS語(yǔ)言是一個(gè)專(zhuān)用的數(shù)據(jù)管理與分析語(yǔ)言,它的數(shù)據(jù)管理功能類(lèi)似于數(shù)據(jù)庫(kù)語(yǔ)言(如FoxPro),但又添加了一般高級(jí)程序設(shè)計(jì)語(yǔ)言的許多成分(如分支、循環(huán)、數(shù)組),以及專(zhuān)用于數(shù)據(jù)管理、統(tǒng)計(jì)計(jì)算的函數(shù)。SAS系統(tǒng)的數(shù)據(jù)管理、報(bào)表、圖形、統(tǒng)計(jì)分析等功能都可以用SAS語(yǔ)言程序來(lái)調(diào)用,只要指定要完成的任務(wù)就可以由SAS系統(tǒng)按照預(yù)先設(shè)計(jì)好的程序去進(jìn)行,所以SAS語(yǔ)言和FoxPro等一樣是一種第四代計(jì)算機(jī)語(yǔ)言。SAS語(yǔ)言有它自己的對(duì)變量、常量、表達(dá)式的一系列規(guī)定,有一系列標(biāo)準(zhǔn)函數(shù),有它自己的語(yǔ)句、語(yǔ)法,可以按一定規(guī)則構(gòu)成SAS程序。SAS語(yǔ)言程序由數(shù)據(jù)步
3、(DATA步)和過(guò)程步(PROC步)組成。數(shù)據(jù)步用來(lái)生成數(shù)據(jù)集、計(jì)算、整理數(shù)據(jù),過(guò)程步用來(lái)對(duì)數(shù)據(jù)進(jìn)行分析、報(bào)告。SAS語(yǔ)言的基本單位是語(yǔ)句,每個(gè)SAS語(yǔ)句一般由一個(gè)關(guān)鍵字(如DATA,PROC,INPUT,CARDS,BY)開(kāi)頭,包含SAS名字、特殊字符、運(yùn)算符等,以分號(hào)結(jié)束。SAS關(guān)鍵字是用于SAS語(yǔ)句開(kāi)頭的特殊單詞。SAS名字在SAS程序中標(biāo)識(shí)各種SAS成分,如變量、數(shù)據(jù)集、數(shù)據(jù)庫(kù),等等。SAS名字由1到8個(gè)字母、數(shù)字、下劃線組成,第一個(gè)字符必須是字母或下劃線。SAS關(guān)鍵字和SAS名字都不區(qū)分大小寫(xiě)。語(yǔ)句關(guān)鍵字用大寫(xiě)或小寫(xiě)方式都可以,但不可簡(jiǎn)化,必須原樣照寫(xiě)。SAS程序由語(yǔ)句構(gòu)成。一個(gè)SA
4、S語(yǔ)句可以占若干行,可以從任意一列開(kāi)始,但必須在語(yǔ)句結(jié)束處加分號(hào),因?yàn)镾AS系統(tǒng)是根據(jù)分號(hào)判斷哪些文字屬于一個(gè)語(yǔ)句的,因此在一行上可以寫(xiě)幾個(gè)SAS語(yǔ)句,只要每個(gè)語(yǔ)句都用分號(hào)結(jié)束(最常見(jiàn)的SAS編程錯(cuò)誤就是丟失分號(hào))。因?yàn)榉痔?hào)作為語(yǔ)句結(jié)束標(biāo)志,所以SAS語(yǔ)句不需要單獨(dú)占一行,一個(gè)語(yǔ)句可以寫(xiě)到多行(不需任何續(xù)行標(biāo)志),也可以在一行連續(xù)寫(xiě)幾個(gè)語(yǔ)句。SAS語(yǔ)言中只要允許用一個(gè)空格的地方就可以加入任意多個(gè)空白(空格、制表符、回車(chē)),允許用空格的地方是名字周?chē)?、運(yùn)算符周?chē)?。比如,程序procprintdata=c9501;byavg;run;和procprintdata=c9501;byavg;run;是
5、等效的。另外,雖然SAS關(guān)鍵字和SAS名字不區(qū)分大小寫(xiě),但字符型數(shù)據(jù)值要區(qū)分大小寫(xiě),比如Beijing和BEIJING被認(rèn)為是不同的數(shù)據(jù)值。在SAS程序中可以加入注釋?zhuān)⑨屖褂肅語(yǔ)言語(yǔ)法,用/*和*/在兩端界定注釋?zhuān)@種注釋可以出現(xiàn)在任何允許加入空格的位置,可以占多行。我們一般只把注釋單獨(dú)占一行或若干行,不把注釋與程序代碼放在同一行。注釋的另一個(gè)作用是把某些代碼暫時(shí)屏蔽使其不能運(yùn)行。下面是一個(gè)注釋的例子:/*生成95級(jí)1班考試成績(jī)的數(shù)據(jù)集*/datac9501;SAS程序包括數(shù)據(jù)步和過(guò)程步兩種結(jié)構(gòu),每一個(gè)步是一段相對(duì)完整的可以單獨(dú)運(yùn)行的程序。每個(gè)步以RUN語(yǔ)句結(jié)束。當(dāng)一個(gè)步后面跟著另一個(gè)步時(shí),
6、前面一個(gè)步的RUN語(yǔ)句可以省略。一個(gè)DATA步后面可以跟幾個(gè)PROC步,也可以若干個(gè)DATA步后面跟幾個(gè)PROC步;或以PROC步打頭,后面跟若干個(gè)DATA步,再跟PROC步,程序中的每個(gè)步都是相應(yīng)獨(dú)立的,彼此不能交叉,不能嵌套。數(shù)據(jù)步用來(lái)生成、整理數(shù)據(jù)和自編程計(jì)算,過(guò)程步調(diào)用SAS已編好的處理過(guò)程對(duì)數(shù)據(jù)進(jìn)行處理。我們自己用SAS編程序?qū)崿F(xiàn)各多元統(tǒng)計(jì)分析方法主要用到過(guò)程步。在本課的學(xué)習(xí)過(guò)程中,主要采用調(diào)用已有數(shù)據(jù)集的方式,因此程序的重點(diǎn)在PROC步上,要分析的數(shù)據(jù)集只要在選擇項(xiàng)DATA=中指明即可。最簡(jiǎn)單的PROC步只有一個(gè)PROC語(yǔ)句,即:PROC過(guò)程名;該語(yǔ)句調(diào)用指定的過(guò)程分析在該語(yǔ)句之前
7、最近建立的數(shù)據(jù)集。在調(diào)用時(shí)的其他要求全部采用SAS系統(tǒng)設(shè)置的缺省值。PROC語(yǔ)句的一般格式為:PROC過(guò)程名選擇項(xiàng);(二)用CLUSTER過(guò)程和TREE過(guò)程進(jìn)行譜系聚類(lèi)聚類(lèi)分析又稱(chēng)群分析、點(diǎn)群分析,是定量研究分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法。聚類(lèi)分析的基本思想是認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類(lèi)法,將所有的樣品或變量分別聚合到不同的類(lèi)中,使同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異較大。所以,聚類(lèi)分析依賴(lài)于對(duì)觀測(cè)間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量
8、度就可以產(chǎn)生不同的聚類(lèi)結(jié)果。SAS/STAT模塊中提供了譜系聚類(lèi)(CLUSTER)、快速聚類(lèi)(FASTCLUS)、變量聚類(lèi)(VARCLUS)等聚類(lèi)過(guò)程。我們重點(diǎn)要求掌握譜系聚類(lèi)法。譜系聚類(lèi)是一種逐次合并類(lèi)的方法,最后得到一個(gè)聚類(lèi)的二叉樹(shù)聚類(lèi)圖。其基本計(jì)算過(guò)程是,對(duì)于n個(gè)觀測(cè),先計(jì)算其兩兩的距離得到一個(gè)距離矩陣,然后把離得最近的兩個(gè)觀測(cè)合并為一類(lèi),于是我們現(xiàn)在只剩了n-1個(gè)類(lèi)(每個(gè)單獨(dú)的未合并的觀測(cè)作為一個(gè)類(lèi))。計(jì)算這n-1個(gè)類(lèi)兩兩之間的距離,找到離得最近的兩個(gè)類(lèi)將其合并,就只剩下了n-2個(gè)類(lèi)直到剩下兩個(gè)類(lèi),把它們合并為一個(gè)類(lèi)為止。當(dāng)然,真的合并成一個(gè)類(lèi)就失去了聚類(lèi)的意義,所以上面的聚類(lèi)過(guò)程應(yīng)該
9、在某個(gè)類(lèi)水平數(shù)(即未合并的類(lèi)數(shù))停下來(lái),最終的類(lèi)數(shù)就是這些未合并的類(lèi)的個(gè)數(shù)。決定聚類(lèi)個(gè)數(shù)是一個(gè)很復(fù)雜的問(wèn)題。1.譜系聚類(lèi)類(lèi)數(shù)的確定譜系聚類(lèi)最終得到一個(gè)聚類(lèi)樹(shù)形圖,可以把所有觀測(cè)聚為一類(lèi)。到底應(yīng)該把觀測(cè)分為幾類(lèi)合適是一個(gè)比較難抉擇的問(wèn)題,因?yàn)榉诸?lèi)問(wèn)題本身就是沒(méi)有一定標(biāo)準(zhǔn)的,關(guān)于這一點(diǎn)實(shí)用多元統(tǒng)計(jì)分析(王學(xué)仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個(gè)很好的例子,即撲克牌的分類(lèi)。我們可以把撲克牌按花色分類(lèi),按大小點(diǎn)分類(lèi),按橋牌的高花色低花色分類(lèi),等等。決定類(lèi)數(shù)的一些方法來(lái)自于統(tǒng)計(jì)的方差分析的思想,我們?cè)谶@里作一些介紹。(1)統(tǒng)計(jì)量其中為分類(lèi)數(shù)為個(gè)類(lèi)時(shí)的總類(lèi)內(nèi)離差平方和,為所有變量的總離差平方和。越大
10、,說(shuō)明分為個(gè)類(lèi)時(shí)每個(gè)類(lèi)內(nèi)的離差平方和都比較小,也就是分為個(gè)類(lèi)是合適的。但是,顯然分類(lèi)越多,每個(gè)類(lèi)越小,越大,所以我們只能取使得足夠大,但本身比較小,而且不再大幅度增加。(2)半偏相關(guān)在把類(lèi)和類(lèi)合并為下一水平的類(lèi)時(shí),定義半偏相關(guān)半偏其中為合并類(lèi)引起的類(lèi)內(nèi)離差平方和的增量,半偏相關(guān)越大,說(shuō)明這兩個(gè)類(lèi)越不應(yīng)該合并,所以如果由類(lèi)合并為類(lèi)時(shí)如果半偏相關(guān)很大就應(yīng)該取類(lèi)。(3)偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量評(píng)價(jià)分為個(gè)類(lèi)的效果。如果分為個(gè)類(lèi)合理,則類(lèi)內(nèi)離差平方和(分母)應(yīng)該較小,類(lèi)間平方和(分子)相對(duì)較大。所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類(lèi)數(shù)較小的聚類(lèi)水平。(4)偽統(tǒng)計(jì)量用此統(tǒng)計(jì)量評(píng)價(jià)合并類(lèi)和類(lèi)的效果,該值大說(shuō)明不應(yīng)合并這兩
11、個(gè)類(lèi),所以應(yīng)該取合并前的水平。2.CLUSTER過(guò)程用法由于在SAS系統(tǒng)中聚類(lèi)分析過(guò)程沒(méi)有現(xiàn)成的窗口操作,所以實(shí)現(xiàn)聚類(lèi)分析必須編寫(xiě)SAS程序。SAS/STAT模塊中的Cluster過(guò)程可實(shí)現(xiàn)系統(tǒng)聚類(lèi)分析,可調(diào)用Tree過(guò)程生成聚類(lèi)譜系圖。CLUSTER過(guò)程的一般格式為:PROCCLUSTERDATA=輸入數(shù)據(jù)集METHOD=聚類(lèi)方法選項(xiàng);VAR聚類(lèi)用變量;COPY復(fù)制變量;RUN;其中的VAR語(yǔ)句指定用來(lái)聚類(lèi)的變量。COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。PROCCLUSTER語(yǔ)句的主要選項(xiàng)有:(1)METHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類(lèi)方法,主要由類(lèi)間距
12、離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R=或HYBRID)。(2)DATA輸入數(shù)據(jù)集,可以是原始觀測(cè)數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。(3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類(lèi)樹(shù)的信息輸出到一個(gè)數(shù)據(jù)集,可以用TREE過(guò)程調(diào)用此數(shù)據(jù)集繪圖樹(shù)形圖并實(shí)際分類(lèi)。(4)STANDARD選項(xiàng),把變量標(biāo)準(zhǔn)化為均值為0,標(biāo)準(zhǔn)差為1。(5)PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要
13、求計(jì)算偽F和偽統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算、半偏和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類(lèi)效果的統(tǒng)計(jì)量,CCC較大的聚類(lèi)水平是較好的。3.TREE過(guò)程用法TREE過(guò)程可以把CLUSTER過(guò)程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫(huà)出譜系聚類(lèi)的樹(shù)形圖,并按照用戶指定的聚類(lèi)水平(類(lèi)數(shù))產(chǎn)生分類(lèi)結(jié)果數(shù)據(jù)集。其一般格式如下:PROCTREEDATA數(shù)據(jù)集OUT=輸出數(shù)據(jù)集NCLUSTER=類(lèi)數(shù)選項(xiàng);COPY復(fù)制變量;RUN;其中COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際上這些變量也必須在CLUSTER過(guò)程中用COPY語(yǔ)句復(fù)制到OUTTREE數(shù)據(jù)集)。PROCTREE語(yǔ)句的重要選項(xiàng)有
14、:(1)DATA數(shù)據(jù)集,指定從CLUSTER過(guò)程生成的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集。(2)OUT數(shù)據(jù)集,指定包含最后分類(lèi)結(jié)果(每一個(gè)觀測(cè)屬于哪一類(lèi),用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。(3)NCLUSTERS選項(xiàng),由用戶指定最后把樣本觀測(cè)分為多少個(gè)類(lèi)(即聚類(lèi)水平)。(4)HORIZONTAL,畫(huà)樹(shù)形圖時(shí)沿水平方向畫(huà),即繪制水平方向的樹(shù)形圖,系統(tǒng)默認(rèn)繪制垂直方向的樹(shù)形圖。4.例子我們以多元統(tǒng)計(jì)分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過(guò)的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類(lèi)信息存入了變量SPECIES,并對(duì)每一種測(cè)量了
15、50棵植株的花瓣長(zhǎng)(PETALLEN)、花瓣寬(PETALWID)、花萼長(zhǎng)(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類(lèi),并不屬于聚類(lèi)分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類(lèi)情況(既不知道類(lèi)數(shù)也不知道每一個(gè)觀測(cè)屬于的類(lèi)別),用SAS去進(jìn)行聚類(lèi)分析,如果得到的類(lèi)數(shù)和分類(lèi)結(jié)果符合真實(shí)的植物分類(lèi),我們就可以知道聚類(lèi)分析產(chǎn)生了好的結(jié)果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見(jiàn)系統(tǒng)幫助菜單的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。為了進(jìn)行譜系聚類(lèi)并產(chǎn)生幫助確定類(lèi)數(shù)的統(tǒng)計(jì)量
16、,編寫(xiě)如下程序:procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;可以顯示如下的聚類(lèi)過(guò)程(節(jié)略):TPseudoPseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt*2e149OB16OB7620.0000001.0000.148OB2OB5820.0000071.0000.1854.1.T147OB96OB10720.0000071.0000.1400.1.T146OB89O
17、B11320.0000071.0000.1253.1.T145OB65OB12620.0000071.0000.1182.9.T25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL3
18、6OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.015CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96
19、920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414
20、.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725
21、950.00000.0000000.000.502.8偽F圖形CCC圖形偽圖形半偏圖形輸出結(jié)果列出了把150個(gè)觀測(cè)每次合并兩類(lèi),共合并149次的過(guò)程。NCL列指定了聚類(lèi)水平G(即這一步存在的單獨(dú)的類(lèi)數(shù))?!?ClustersJoined-”為兩列,指明這一步合并了哪兩個(gè)類(lèi)。其中OBxxx表示原始觀測(cè),而CLxxx表示在某一個(gè)聚類(lèi)水平上產(chǎn)生的類(lèi)。比如,NCL為149時(shí)合并的是OB16和OB76,即16號(hào)觀測(cè)和76號(hào)觀測(cè)合并;NCL為1(最后一次合并)合并的是CL5和CL2,即類(lèi)水平為5時(shí)得到的類(lèi)和類(lèi)水平為2時(shí)得到的類(lèi)合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的
22、,等等。FREQ表示這次合并得到的類(lèi)中有多少個(gè)觀測(cè)。SPRSQ是半偏,RSQ是,ERSQ是在均勻零假設(shè)下的的近似期望值,CCC為CCC統(tǒng)計(jì)量,PseudoF為偽F統(tǒng)計(jì)量,Pseudot*2為偽統(tǒng)計(jì)量,NormRMSDist是正規(guī)化的兩類(lèi)元素間距離的均方根,Tie指示距離最小的候選類(lèi)對(duì)是否有多對(duì)。因?yàn)槲覀兗傺b不知道數(shù)據(jù)的實(shí)際分類(lèi)情況,所以我們必須找到一個(gè)合理的分類(lèi)個(gè)數(shù)。為此,考察CCC、偽F、偽和半偏統(tǒng)計(jì)量。我們打開(kāi)ASSIST模塊,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計(jì)量的圖形。因?yàn)轭?lèi)水平太大時(shí)的信息沒(méi)有多少用處,所以我們用WHERE語(yǔ)句對(duì)OTREE數(shù)據(jù)集取其類(lèi)水平不超過(guò)30的觀測(cè)。各統(tǒng)計(jì)
23、量的圖形顯示:CCC統(tǒng)計(jì)量建議取5類(lèi)或3類(lèi)(局部最大值),偽F建議3類(lèi)(局部最大值),偽建議3類(lèi)(局部最大值處是不應(yīng)合并的,即局部最大值處的類(lèi)數(shù)加1),半偏建議3類(lèi)。由這些指標(biāo)看,比較一致的是3類(lèi),其次是5類(lèi)。為了看為什么不能明顯地分為三類(lèi),我們對(duì)四個(gè)變量求主分量,畫(huà)出前兩個(gè)主分量的散點(diǎn)圖??梢钥闯鯯etosa(紅色)與其它兩類(lèi)分得很開(kāi),而Versicolor(綠色)與Virginica(藍(lán)色)則不易分開(kāi)。因?yàn)槲覀冎酪殖?類(lèi),所以我們用如下的TREE過(guò)程繪制樹(shù)形圖并產(chǎn)生分類(lèi)結(jié)果數(shù)據(jù)集:proctreedata=otreehorizontalnclusters=3out=oclust;cop
24、yspecies;run;樹(shù)形圖因?yàn)橛^測(cè)過(guò)多所以顯得雜亂。從圖中也可以看出,分為兩類(lèi)可以分得很開(kāi),而分成三類(lèi)時(shí)距離則不夠遠(yuǎn)。這個(gè)TREE過(guò)程用NCLUSTERS=3指定了分成3個(gè)類(lèi),結(jié)果數(shù)據(jù)集OCLUST中有一個(gè)CLUSTER變量代表生成的分類(lèi)。我們把這個(gè)數(shù)據(jù)集調(diào)入ASSIST模塊中用不同顏色代表SPECIES(實(shí)際種類(lèi)),用不同符號(hào)代表不同聚類(lèi)過(guò)程分類(lèi),作前兩個(gè)主分量散點(diǎn)圖??梢钥闯?,Virsicolor和Virginica兩類(lèi)互相都有分錯(cuò)為對(duì)方的。為了統(tǒng)計(jì)分類(lèi)結(jié)果,可以用ASSIST模塊FREQ過(guò)程作表,得到如下結(jié)果:SPECIES(Species)CLUSTERFrequency|1|2
25、|3|Total-+-+-+-+Setosa|0|0|50|50-+-+-+-+Versicolor|49|1|0|50-+-+-+-+Virginica|15|35|0|50-+-+-+-+Total643650150可見(jiàn)Virginica被分錯(cuò)的較多。同學(xué)們可以自己試用其它的類(lèi)間距離來(lái)聚類(lèi),可以得到不同的結(jié)果。SPSS部分系統(tǒng)聚類(lèi)分析在SPSS中的實(shí)現(xiàn)較為簡(jiǎn)單,因?yàn)橛鞋F(xiàn)成的窗口菜單操作,在SPSS主菜單中選擇AnalyzeClassifyHierarchicalCluster,可實(shí)現(xiàn)系統(tǒng)聚類(lèi)分析。SPSS軟件處理結(jié)果的解釋可參見(jiàn)SAS部分的相關(guān)內(nèi)容,所不同的是在SPSS的結(jié)果中,聚類(lèi)進(jìn)度表
26、中以0表示參與合并的是觀測(cè),以數(shù)字表示參與合并的是類(lèi),作為類(lèi)出現(xiàn)時(shí)用類(lèi)中較小的觀測(cè)號(hào)來(lái)表示。聚類(lèi)分析在寫(xiě)作中的應(yīng)用從“中國(guó)期刊網(wǎng)”上查閱相關(guān)文章,如“中國(guó)城市競(jìng)爭(zhēng)力聚類(lèi)分析”等,掌握聚類(lèi)分析在寫(xiě)作中的應(yīng)用。第二章判別分析一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握判別分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),了解判別方法的分類(lèi)、適用條件和結(jié)果驗(yàn)證方法;2.要求學(xué)生熟悉判別分析的用途和操作,重點(diǎn)掌握對(duì)軟件處理結(jié)果的解釋?zhuān)▍^(qū)域圖、未標(biāo)準(zhǔn)化典型判別函數(shù)、Bayes判別函數(shù))和如何使用分析結(jié)果對(duì)新樣品進(jìn)行分類(lèi);3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握判別分析方法在寫(xiě)作中的應(yīng)用。二、實(shí)驗(yàn)內(nèi)容與步驟判別分析
27、和聚類(lèi)分析有相似的作用,都是起到分類(lèi)的作用。但是,判別分析是已知分類(lèi)然后總結(jié)出判別準(zhǔn)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類(lèi)分析則是有了一批樣本,不知道它們的分類(lèi),甚至連分成幾類(lèi)也不知道,希望用某種方法把觀測(cè)進(jìn)行合理的分類(lèi),使得同一類(lèi)的觀測(cè)比較接近,不同類(lèi)的觀測(cè)相差較多,這是無(wú)指導(dǎo)的學(xué)習(xí)。判別分析是用于判斷個(gè)體所屬類(lèi)別的一種統(tǒng)計(jì)方法。根據(jù)已知觀測(cè)對(duì)象的分類(lèi)和若干表明觀測(cè)對(duì)象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯(cuò)判率最小,對(duì)于一個(gè)未知分類(lèi)的樣本,將所測(cè)指標(biāo)代入判別方程,從而判斷它來(lái)自哪個(gè)總體。當(dāng)然,這種準(zhǔn)則在某種意義上是最優(yōu)的,如錯(cuò)判概率最小或錯(cuò)判損失最小等。其前提是總體均值有顯著差異,否則錯(cuò)分率
28、大,判別分析無(wú)意義。例如,我們有了患胃炎的病人和健康人的一些化驗(yàn)指標(biāo),就可以從這些化驗(yàn)指標(biāo)發(fā)現(xiàn)兩類(lèi)人的區(qū)別,把這種區(qū)別表示為判別公式,然后對(duì)懷疑患胃炎的人就可以根據(jù)其化驗(yàn)指標(biāo)用判別公式診斷。SAS部分在SAS系統(tǒng)中沒(méi)有現(xiàn)成的菜單操作,須通過(guò)編程來(lái)實(shí)現(xiàn)判別分析。SAS/STAT模塊中實(shí)現(xiàn)判別分析的過(guò)程有:Discrim,實(shí)現(xiàn)最基本的判別分析;Candisc,將判別分析與典型相關(guān)分析相結(jié)合;Stepdisc,逐步判別分析,是一個(gè)變量的篩選過(guò)程。(一)DISCRIM過(guò)程的語(yǔ)句說(shuō)明SAS/STAT的DISCRIM過(guò)程可以使用參數(shù)判別分析方法和非參數(shù)判別分析方法進(jìn)行判別分析。參數(shù)方法假定每個(gè)類(lèi)的觀測(cè)來(lái)自
29、(多元)正態(tài)分布總體,各類(lèi)的分布的均值(中心)可以不同。非參數(shù)方法不要求知道各類(lèi)所來(lái)自總體的分布,它對(duì)每一類(lèi)使用非參數(shù)方法估計(jì)該類(lèi)的分布密度,然后據(jù)此建立判別準(zhǔn)則。參數(shù)方法的判別準(zhǔn)則為:先決定是使用合并協(xié)方差陣還是單個(gè)類(lèi)的協(xié)方差陣,計(jì)算到各組的廣義距離,把判入最近的組;或者計(jì)算屬于各組的后驗(yàn)概率,把判入后驗(yàn)概率最大的組。SAS/STAT的DISCRIM過(guò)程一般格式如下:PROCDISCRIMDATA=輸入數(shù)據(jù)集選項(xiàng);CLASS分類(lèi)變量;VAR判別用自變量集合;RUN;其中,PROCDISCRIM語(yǔ)句的選項(xiàng)中“輸入數(shù)據(jù)集”為訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,包括一個(gè)分類(lèi)變量(在CLASS語(yǔ)句中說(shuō)明)和用來(lái)建立判
30、別公式的自變量集合(在VAR語(yǔ)句中說(shuō)明)。可以用“TESTDATA=數(shù)據(jù)集”選項(xiàng)指定一個(gè)檢驗(yàn)數(shù)據(jù)集,檢驗(yàn)數(shù)據(jù)集必須包含與訓(xùn)練數(shù)據(jù)集相同的自變量集合,用訓(xùn)練數(shù)據(jù)集產(chǎn)生判別準(zhǔn)則后將對(duì)檢驗(yàn)數(shù)據(jù)集中的每一個(gè)觀測(cè)給出分類(lèi)值,如果這個(gè)檢驗(yàn)數(shù)據(jù)集中有表示真實(shí)分類(lèi)的變量可以在過(guò)程中用“TESTCLASS分類(lèi)變量”語(yǔ)句指定,這樣可以檢驗(yàn)判別的效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出判別函數(shù)的數(shù)據(jù)集,后面可以再次用DISCRIM過(guò)程把輸出的判別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來(lái)判別檢驗(yàn)數(shù)據(jù)集(TESTDATA=)。用“OUT=數(shù)據(jù)集”指定存放訓(xùn)練樣本及后驗(yàn)概率、交叉確認(rèn)分類(lèi)的數(shù)據(jù)集。用“OUTD=
31、數(shù)據(jù)集”指定訓(xùn)練樣本及組密度估計(jì)數(shù)據(jù)集。用“TESTOUT=數(shù)據(jù)集”指定檢驗(yàn)數(shù)據(jù)的后驗(yàn)概率及分類(lèi)結(jié)果。用“TESTOUTD=數(shù)據(jù)集”輸出檢驗(yàn)數(shù)據(jù)及組密度估計(jì)。PROCDISCRIM語(yǔ)句還有一些指定判別分析方法的選項(xiàng)。用METHOD=NORMAL或NPAR選擇參數(shù)方法或非參數(shù)方法。用POOL=NO或TEST或YES表示不用合并協(xié)方差陣、通過(guò)檢驗(yàn)決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。如果使用非參數(shù)方法,需要指定“R=核估計(jì)半徑”選項(xiàng)來(lái)規(guī)定核估計(jì)方法或者指定“K=最近鄰個(gè)數(shù)”來(lái)規(guī)定最近鄰估計(jì)方法。PROCDISCRIM語(yǔ)句有一些規(guī)定顯示結(jié)果的選項(xiàng)。用LISTERR顯示訓(xùn)練樣本錯(cuò)判的觀測(cè)。用CRO
32、SSLISTERR顯示用刀切法對(duì)訓(xùn)練樣本判別錯(cuò)判的觀測(cè)。用LIST對(duì)每一觀測(cè)顯示結(jié)果。用NOCLASSIFY取消對(duì)訓(xùn)練樣本的分類(lèi)檢驗(yàn)。用CROSSLIST顯示對(duì)訓(xùn)練樣本的刀切法的判別結(jié)果。用CROSSVALIDATE要求進(jìn)行交叉核實(shí)。當(dāng)有用“TESTDATA=”指定的檢驗(yàn)數(shù)據(jù)集時(shí)用TESTLIST選項(xiàng)顯示檢驗(yàn)數(shù)據(jù)集的檢驗(yàn)結(jié)果,當(dāng)有TESTCLASS語(yǔ)句時(shí)用TESTLISTERR可以列出檢驗(yàn)樣本判錯(cuò)的觀測(cè),用POSTERR選項(xiàng)可以打印基于分類(lèi)結(jié)果的分類(lèi)準(zhǔn)則的后驗(yàn)概率錯(cuò)誤率估計(jì)。用NOPRINT選項(xiàng)可以取消結(jié)果的顯示。在DISCRIM過(guò)程中還可以使用PRIORS語(yǔ)句指定先驗(yàn)概率的取法。“PRIOR
33、SEQUAL”指定先驗(yàn)概率相等。“PRIORSPROPORTIONAL”指定先驗(yàn)概率與各類(lèi)個(gè)數(shù)成正比?!癙RIORS概率值表”可以直接指定各組的先驗(yàn)概率值。(二)例子用衛(wèi)星遙感可以分辨作物的種類(lèi)。CROPS是訓(xùn)練數(shù)據(jù)集,其中包含了作物的實(shí)際種類(lèi)(CROP)和四種遙感指標(biāo)變量(X1-X4)。datacrops;title五種作物遙感數(shù)據(jù)的判別分析;inputcrop$x1-x4;cards;CORN16273133CORN15233030CORN16272726CORN18202523CORN15153132CORN15323215CORN12151673SOYBEANS20232325SOYB
34、EANS24242532SOYBEANS21252324SOYBEANS27452412SOYBEANS12131542SOYBEANS22323143COTTON31323334COTTON29242628COTTON34322845COTTON26252324COTTON53487526COTTON34352578SUGARBEETS22232542SUGARBEETS25252426SUGARBEETS34251652SUGARBEETS54232154SUGARBEETS25433215SUGARBEETS2654254CLOVER12453254CLOVER24582534CLOVE
35、R87546121CLOVER51313116CLOVER96485462CLOVER31311111CLOVER56131371CLOVER32132732CLOVER36265432CLOVER53080654CLOVER32326216;run;用下列DISCRIM過(guò)程可以產(chǎn)生線性判別函數(shù)(METHOD=NORMAL規(guī)定使用參數(shù)方法,POOL=YES選項(xiàng)規(guī)定使用合并協(xié)方差陣,這樣產(chǎn)生的判別函數(shù)是線性函數(shù),為系統(tǒng)的默認(rèn)值)。用OUTSTAT=選項(xiàng)指定了判別函數(shù)的輸出數(shù)據(jù)集為CROPSTAT,這個(gè)數(shù)據(jù)集可以用來(lái)判別檢驗(yàn)數(shù)據(jù)集。選項(xiàng)LIST要求列出每個(gè)觀測(cè)的結(jié)果,CROSSVALIDATE要求
36、交叉核實(shí)?!癙RIORSPROPORTIONAL”即按各種類(lèi)出現(xiàn)的比例計(jì)算各類(lèi)的先驗(yàn)概率。procdiscrimdata=cropsoutstat=cropstatmethod=normalpool=yeslistcrossvalidate;classcrop;priorsproportional;varx1-x4;run;結(jié)果如下(節(jié)略):DiscriminantAnalysis36Observations35DFTotal4Variables31DFWithinClasses5Classes4DFBetweenClasses上面是一些數(shù)據(jù)信息基本情況。ClassLevelInformati
37、onPriorCROPFrequencyWeightProportionProbabilityCLOVER1111.00000.3055560.305556CORN77.00000.1944440.194444COTTON66.00000.1666670.166667SOYBEANS66.00000.1666670.166667SUGARBEETS66.00000.1666670.166667以上為各組的基本情況,并列出了先驗(yàn)概率值。因?yàn)橹付恕癙RIORSPROPORTIONAL”所以各組的先驗(yàn)概率按實(shí)際數(shù)據(jù)中各組比例計(jì)算。DiscriminantAnalysisPairwiseGenera
38、lizedSquaredDistancesBetweenGroups2_-1_D(i|j)=(Xi-Xj)COV(Xi-Xj)-2lnPRIORj上面為各組均值間廣義距離平方的公式,即_-1_-1_Constant=-.5XjCOVXj+lnPRIORjCoefficientVector=COVXj上面即線性判別函數(shù)的公式,給出了到第j類(lèi)的線性判別函數(shù)的常數(shù)項(xiàng)和各自變量的系數(shù)的公式。下面具體給出了各類(lèi)的線性判別函數(shù)的各常數(shù)項(xiàng)及系數(shù)值。CROPCLOVERCORNCOTTONSOYBEANSSUGARBEETCONSTANT-10.98457-7.72070-11.46537-7.28260-9
39、.80179X10.08907-0.041800.024620.00003690.04245X20.173790.119700.175960.158960.20988X30.118990.165110.158800.106220.06540X40.156370.167680.183620.141330.16408比如,CLOVER(苜蓿)類(lèi)的線性判別函數(shù)就可以用-10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4來(lái)計(jì)算。下面為判別分析對(duì)訓(xùn)練數(shù)據(jù)集(CalibrationData)用線性判別函數(shù)的判別結(jié)果,先給出了廣義平方距離函數(shù)的公式Dis
40、criminantAnalysisClassificationResultsforCalibrationData:WORK.CROPSResubstitutionResultsusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:2_-1_Dj(X)=(X-Xj)COV(X-Xj)-2lnPRIORj然后是每個(gè)觀測(cè)屬于各類(lèi)的后驗(yàn)概率的公式:PosteriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMkexp(-.5D2k(X)下面就是每個(gè)觀測(cè)
41、的判別情況,包括原來(lái)屬于哪一類(lèi)(FromCROP),分入了哪一類(lèi)(ClassifiedintoCROP),以及屬于各類(lèi)的后驗(yàn)概率值。有星號(hào)的為錯(cuò)判的觀測(cè)。PosteriorProbabilityofMembershipinFromClassifiedCROPintoCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETS16273133CORNCORN0.08940.40540.17630.23920.089715233030CORNCORN0.07690.45580.14210.25300.072216272726CORNCORN0.09820.34220.13650.3
42、0730.115718202523CORNCORN0.10520.36340.10780.32810.095515153132CORNCORN0.05880.57540.11730.20870.039815323215CORNSOYBEANS*0.09720.32780.13180.34200.101112151673CORNCORN0.04540.52380.18490.13760.108320232325SOYBEANSSOYBEANS0.13300.28040.11760.33050.138524242532SOYBEANSSOYBEANS0.17680.24830.15860.2660
43、0.150221252324SOYBEANSSOYBEANS0.14810.24310.12000.33180.157027452412SOYBEANSSUGARBEETS*0.23570.05470.10160.27210.335912131542SOYBEANSCORN*0.05490.47490.09200.27680.101322323143SOYBEANSCOTTON*0.14740.26060.26240.18480.144831323334COTTONCLOVER*0.28150.15180.23770.17670.152329242628COTTONSOYBEANS*0.252
44、10.18420.15290.25490.155934322845COTTONCLOVER*0.31250.10230.24040.13570.209126252324COTTONSOYBEANS*0.21210.18090.12450.30450.178053487526COTTONCLOVER*0.48370.03910.43840.02230.016634352578COTTONCOTTON0.22560.07940.38100.05920.254822232542SUGARBEETSCORN*0.14210.30660.19010.22310.138125252426SUGARBEET
45、SSOYBEANS*0.19690.20500.13540.29600.166734251652SUGARBEETSSUGARBEETS0.29280.08710.16650.14790.305654232154SUGARBEETSCLOVER*0.62150.01940.12500.04960.184525433215SUGARBEETSSOYBEANS*0.22580.11350.16460.27700.21912654254SUGARBEETSSUGARBEETS0.08500.00810.05210.06610.788712453254CLOVERCOTTON*0.06930.2663
46、0.33940.14600.178924582534CLOVERSUGARBEETS*0.16470.03760.16800.14520.484587546121CLOVERCLOVER0.93280.00030.04780.00250.016551313116CLOVERCLOVER0.66420.02050.08720.09590.132296485462CLOVERCLOVER0.92150.00020.06040.00070.017331311111CLOVERSUGARBEETS*0.25250.04020.04730.30120.358856131371CLOVERCLOVER0.
47、61320.02120.12260.04080.202332132732CLOVERCLOVER0.26690.26160.15120.22600.094336265432CLOVERCOTTON*0.26500.26450.34950.09180.029253080654CLOVERCLOVER0.59140.02370.06760.07810.239232326216CLOVERCOTTON*0.21630.31800.33270.11250.0206*Misclassifiedobservation下面給出了訓(xùn)練數(shù)據(jù)判別的概況,先寫(xiě)出了廣義平方距離的公式和屬于每一類(lèi)的后驗(yàn)概率的公式(略)
48、,然后是每一類(lèi)判入各類(lèi)的個(gè)數(shù)和百分比:DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.CROPSResubstitutionSummaryusingLinearDiscriminantFunctionNumberofObservationsandPercentClassifiedintoCROP:FromCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalCLOVER603021154.550.0027.270.0018.18100.00CORN0601070.0085.710.
49、0014.290.00100.00COTTON30120650.000.0016.6733.330.00100.00SOYBEANS0113160.0016.6716.6750.0016.67100.00SUGARBEETS11022616.6716.670.0033.3333.33100.00Total10858536Percent27.7822.2213.8922.2213.89100.00Priors0.30560.19440.16670.16670.1667比如,CLOVER一共有11個(gè)觀測(cè),正確判別的為6個(gè),占54.55%,有3個(gè)錯(cuò)判為COTTON(棉花),2個(gè)錯(cuò)判為SUGARBEE
50、TS(甜菜)。最后一行為各類(lèi)的先驗(yàn)概率。下面為各類(lèi)的錯(cuò)判率(把某類(lèi)錯(cuò)判為其它類(lèi)的次數(shù)百分比):ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate0.45450.14290.83330.50000.66670.5000Priors0.30560.19440.16670.16670.1667可見(jiàn)識(shí)別最好的是玉米,最差的是棉花。下面是對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行交叉核實(shí)判別的情況。交叉核實(shí)的想法是,為了判斷觀測(cè)i的判別正確與否,用刪除第i個(gè)觀測(cè)的訓(xùn)練數(shù)據(jù)集算出判別準(zhǔn)則(函數(shù)),然后用此判別函數(shù)來(lái)判別第i觀測(cè)。對(duì)每一觀測(cè)都進(jìn)
51、行這樣的判別。結(jié)果先寫(xiě)出了廣義平方距離函數(shù),這里因?yàn)榻⑴袆e準(zhǔn)則時(shí)不使用要判別的觀測(cè),所以公式中用了表示除去了X所在觀測(cè)后的第j組的均值,用表示除去X所在觀測(cè)后得到的合并協(xié)方差陣估計(jì)。DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.CROPSCross-validationSummaryusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:_-1_D2j(X)=(X-X(X)j)COV(X)(X-X(X)j)-2lnPRIORjPost
52、eriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMexp(-.5D2k(X)k后面是對(duì)各類(lèi)交叉核實(shí)判別的概況。FromCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalCLOVER431031136.3627.279.090.0027.27100.00CORN0412070.0057.1414.2928.570.00100.00COTTON30021650.000.000.0033.3316.67100.00SOYBEANS0113160.0016.6716.6750.0016.6
53、7100.00SUGARBEETS21021633.3316.670.0033.3316.67100.00Total9939636Percent25.0025.008.3325.0016.67100.00Priors0.30560.19440.16670.16670.1667這一次11個(gè)苜蓿的觀測(cè)只判對(duì)了4個(gè)。下面是用交叉核實(shí)計(jì)算的各類(lèi)的錯(cuò)判率:ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate0.63640.42861.00000.50000.83330.6667Priors0.30560.19440.
54、16670.16670.1667這時(shí)錯(cuò)誤最少的玉米也有42.86%的錯(cuò)判率。現(xiàn)在假設(shè)我們有若干遙感數(shù)據(jù)放在了數(shù)據(jù)集TEST中,實(shí)際是已知作物類(lèi)型的(在變量CROP中),但是我們假裝不知道,然后用上面建立的線性判別函數(shù)(已保存在CROPSTAT數(shù)據(jù)集中)對(duì)這些遙感數(shù)據(jù)進(jìn)行判別,這樣可以得到比較客觀的判別效果的評(píng)價(jià)。下面程序中用DATA=指定了判別函數(shù)數(shù)據(jù)集(由上一次的DISCRIM過(guò)程產(chǎn)生),用TESTDATA=選項(xiàng)指定了檢驗(yàn)數(shù)據(jù)集名,用TESTOUT=選項(xiàng)指定了檢驗(yàn)數(shù)據(jù)集判別結(jié)果的輸出數(shù)據(jù)集,用TESTLIST要求列出檢驗(yàn)結(jié)果。datatest;inputcrop$x1-x4;cards;CO
55、RN16273133SOYBEANS21252324COTTON29242628SUGARBEETS54232154CLOVER32326216;procdiscrimdata=cropstattestdata=testtestout=touttestlist;classcrop;testclasscrop;varx1-x4;run;procprintdata=tout;run;結(jié)果列出了每個(gè)觀測(cè)的判別結(jié)果和判入每類(lèi)的后驗(yàn)概率,因?yàn)槲覀冎勒鎸?shí)分類(lèi),所以結(jié)果中有一項(xiàng)是“FromCROP”,如果不知道真實(shí)分類(lèi)則只能給出判入的類(lèi)(ClassifiedintoCROPP)。DiscriminantA
56、nalysisClassificationResultsforTestData:WORK.TESTClassificationResultsusingLinearDiscriminantFunctionPosteriorProbabilityofMembershipinCROP:XVALUESFromClassifiedCROPintoCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETS16273133CORNCORN0.08940.40540.17630.23920.089721252324SOYBEANSSOYBEANS0.14810.24310.12000.331
57、80.157029242628COTTONSOYBEANS*0.25210.18420.15290.25490.155954232154SUGARBEETSCLOVER*0.62150.01940.12500.04960.184532326216CLOVERCOTTON*0.21630.31800.33270.11250.0206下面給出了各類(lèi)的判別概況(略)。下面列出了錯(cuò)判的百分比。ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate1.00000.00001.00000.00001.00000.6389
58、Priors0.30560.19440.16670.16670.1667可見(jiàn)錯(cuò)判率很高(總錯(cuò)判率達(dá)63.89)。(三)Stepdisc過(guò)程說(shuō)明Stepdisc,逐步判別分析,是一個(gè)變量的篩選過(guò)程,篩選出重要的變量,則過(guò)程結(jié)束;可調(diào)用DISCRIM過(guò)程并用篩選出的重要變量進(jìn)行判別分析。SPSS部分判別分析在SPSS中的實(shí)現(xiàn)較為簡(jiǎn)單,因?yàn)橛鞋F(xiàn)成的窗口菜單操作,在SPSS主菜單中選擇AnalyzeClassifyDiscriminant,可實(shí)現(xiàn)判別分析。SPSS軟件處理結(jié)果的解釋可參見(jiàn)SAS部分的相關(guān)內(nèi)容。判別分析在寫(xiě)作中的應(yīng)用從“中國(guó)期刊網(wǎng)”上查閱相關(guān)文章,掌握判別分析在寫(xiě)作中的應(yīng)用。第三章主成分
59、分析一、實(shí)驗(yàn)?zāi)康呐c要求1.通過(guò)上機(jī)操作使學(xué)生掌握主成分分析方法在SAS和SPSS軟件中的實(shí)現(xiàn),熟悉主成分分析的用途、目的,掌握如何判斷主成分分析的適用條件,能正確選擇適當(dāng)?shù)闹鞒煞郑?.要求學(xué)生能正確解釋軟件處理的分析結(jié)果;3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握主成分分析方法在寫(xiě)作中的應(yīng)用。二、實(shí)驗(yàn)內(nèi)容與步驟現(xiàn)實(shí)中的統(tǒng)計(jì)對(duì)象經(jīng)常用多個(gè)指標(biāo)來(lái)表示,比如人口普查,就可以有姓名、性別、出生年月日、籍貫、婚姻狀況、民族、政治面貌、地區(qū)等;企業(yè)調(diào)查,可以有凈資產(chǎn)、負(fù)債、盈利、職工人數(shù)、還貸情況等等。多個(gè)指標(biāo)(變量)可以分別進(jìn)行分析,但是,我們往往希望綜合使用這些指標(biāo),這時(shí)用主成份分析、因子分析等方法可以
60、把數(shù)據(jù)的維數(shù)降低,同時(shí)又盡量不損失數(shù)據(jù)中的信息。主成份分析的目的是用原始的多個(gè)變量做若干線性組合,并盡可能多地保留原始變量中的信息。從原始變量到新變量是一個(gè)正交變換(坐標(biāo)變換)。為了減少變量的個(gè)數(shù),希望前幾個(gè)主成分就可以代表原變量的大部分信息。定義為第K個(gè)主成份的貢獻(xiàn)率,稱(chēng)為前m個(gè)主成份的累計(jì)貢獻(xiàn)率。一般取m使得累計(jì)貢獻(xiàn)率達(dá)到70%80%以上。前個(gè)主成份在的m個(gè)線性組合中能對(duì)最好地線性逼近。SAS部分(一)用PRINCOMP過(guò)程進(jìn)行主成份分析1.SAS中的PRINTCOMP過(guò)程有如下功能:(1)完成主成份分析。(2)主成份的個(gè)數(shù)可以由用戶自己確定,主成份的名字可以由用戶自己規(guī)定,主成份得分是否
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)人力資源管理創(chuàng)新與挑戰(zhàn)分析
- 網(wǎng)頁(yè)設(shè)計(jì)與開(kāi)發(fā)試題及答案
- 通過(guò)文學(xué)看社會(huì)高考作文試題及答案
- 行政法學(xué)行業(yè)未來(lái)試題及答案探討
- 商業(yè)模式創(chuàng)新與戰(zhàn)略風(fēng)險(xiǎn)評(píng)估試題及答案
- 全面掌握VB考試試題及答案
- 2025年法學(xué)概論考試的技巧分享及試題及答案
- 行政法學(xué)復(fù)習(xí)策略與試題答案更新
- 工作經(jīng)驗(yàn)不足的總結(jié)模版
- 班主任管理班級(jí)個(gè)人工作心得體會(huì)范文(3篇)
- 安徽省1號(hào)卷A10聯(lián)盟2025屆高三5月最后一卷數(shù)學(xué)試題及答案
- 2024-2025部編版小學(xué)道德與法治二年級(jí)下冊(cè)期末考試卷及答案 (三套)
- 八年級(jí)數(shù)學(xué)題試卷及答案
- 2025-2030中國(guó)試管行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 2025年貴州省中考英語(yǔ)一模試題無(wú)答案
- 2025年物業(yè)管理從業(yè)人員考試試卷及答案
- 比亞迪新能源汽車(chē)業(yè)務(wù)競(jìng)爭(zhēng)戰(zhàn)略:基于全產(chǎn)業(yè)鏈優(yōu)勢(shì)的多維剖析與展望
- 教研員考試試題及答案
- 河北檢察院試題及答案
- 四川省成都市青羊區(qū)2025年中考語(yǔ)文二診試卷(含答案)
- 2024年同等學(xué)力英語(yǔ)高頻詞匯
評(píng)論
0/150
提交評(píng)論