廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第08章-相應(yīng)分析_第1頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第08章-相應(yīng)分析_第2頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第08章-相應(yīng)分析_第3頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第08章-相應(yīng)分析_第4頁
廈門大學(xué)《應(yīng)用多元統(tǒng)計(jì)分析》第08章-相應(yīng)分析_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第八章相應(yīng)分析第一節(jié)引言

第二節(jié)列聯(lián)表

第三節(jié)相應(yīng)分析的基本理論

第四節(jié)相應(yīng)分析中應(yīng)注意的問題

第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)

第一節(jié)引言相應(yīng)分析(correspondenceanalysis)也叫對(duì)應(yīng)分析,其特點(diǎn)是它所研究的變量可以是定性的。通常意義下的相應(yīng)分析,是指對(duì)兩個(gè)定性變量(因素)的多種水平進(jìn)行相應(yīng)性研究,因而它的應(yīng)用越來越廣泛,現(xiàn)在這種方法已經(jīng)成為常用的多元分析方法之一。在社會(huì)、經(jīng)濟(jì)以及其他領(lǐng)域中,進(jìn)行數(shù)據(jù)分析時(shí)經(jīng)常要處理因素與因素之間的關(guān)系,及因素內(nèi)部各個(gè)水平之間的相互關(guān)系。例如,評(píng)價(jià)某一個(gè)行業(yè)所屬企業(yè)的經(jīng)濟(jì)效益,我們不僅要研究因素A,即企業(yè)按照經(jīng)濟(jì)效益好壞的分類情況,以及要研究因素B,即經(jīng)濟(jì)效益指標(biāo)之間的關(guān)系,還要研究哪些企業(yè)與哪些經(jīng)濟(jì)效益指標(biāo)更密切一些。這就需要相應(yīng)分析的方法,將經(jīng)濟(jì)效益指標(biāo)和企業(yè)狀況放在一起進(jìn)行分類、作圖,以便更好的描述兩者之間的關(guān)系,在經(jīng)濟(jì)意義上做出切合實(shí)際的解釋。相應(yīng)分析的思想首先由理查森(Richardson)和庫德(Kuder)于1933年提出,后來法國統(tǒng)計(jì)學(xué)家讓-保羅?貝內(nèi)澤(Jean-PaulBenzécri)等人對(duì)該方法進(jìn)行了詳細(xì)的論述而使其得到了發(fā)展。為了把握相應(yīng)分析方法的實(shí)質(zhì),本章將從列聯(lián)資料入手,介紹一些基本概念和相應(yīng)分析的基本理論,并讓讀者理解相應(yīng)分析與獨(dú)立性檢驗(yàn)的關(guān)系,進(jìn)一步明確對(duì)實(shí)際問題進(jìn)行相應(yīng)分析研究的必要性所在。一、列聯(lián)表的概念在實(shí)際中經(jīng)常要了解兩組或多組因素(或變量)之間的關(guān)系。設(shè)有兩組因素A和B,其中因素A包含r個(gè)水平,即A1,A2,…,Ar;因素B包含c個(gè)水平,即B1,

B2,

…,Bc。又設(shè)有受制于這兩個(gè)因素的載體(或客體)的集合總體¥。我們希望通過對(duì)總體¥關(guān)于這兩組因素的有關(guān)資料(或抽樣資料),來分析這兩組因素的關(guān)系。例如,要考查在某個(gè)人群中關(guān)于吸煙或不吸煙(因素A)與得肺癌或不得肺癌(因素B)兩組因素之間的關(guān)系。通常的作法是,隨機(jī)地從該人群中抽樣,對(duì)這兩種因素進(jìn)行調(diào)查,設(shè)調(diào)查了k個(gè)人,得到一個(gè)二維列聯(lián)表,見表8.1。其中,kij為調(diào)查的k人中出現(xiàn)因素A的第i個(gè)水平和因素B的第j個(gè)水平的人數(shù)。這樣,我們就得到一個(gè)兩因素,即吸煙與是否得肺癌的22列聯(lián)表。表8.1二維列聯(lián)表

二、有關(guān)記號(hào)為了敘述方便,先引進(jìn)一些基本概念和記號(hào)。設(shè)K=(kij)rc為一個(gè)rc的列聯(lián)表(表8.2),稱元素kij為原始頻數(shù)。將列聯(lián)表K轉(zhuǎn)化為頻率矩陣,記為F=(fij)rc,見表8.3。表8.3一般的二維頻率表

第三節(jié)相應(yīng)分析的基本理論一原始資料的變換

二基于矩陣的分析過程

我們知道相應(yīng)分析的主要目的是尋求列聯(lián)表行因素A和列因素B的基本分析特征和它們的最優(yōu)聯(lián)立表示。為了實(shí)現(xiàn)行因素A與列因素B最優(yōu)聯(lián)立表示,進(jìn)一步剖析行因素A內(nèi)部之間,列因素B內(nèi)部之間,以及因素A和列因素B之間的關(guān)系,這里將介紹原始的列聯(lián)資料K=(kij)rc變換成矩陣Z=(zij)rc的具體過程,這樣使得zij對(duì)因素A和列因素B具有對(duì)等性,在此基礎(chǔ)上進(jìn)行相應(yīng)分析。

二、基于矩陣的分析過程

(8.14)式表明Zuj為相對(duì)于特征值λj的關(guān)于因素A各水平構(gòu) 成的協(xié)差陣∑r的特征向量。這樣我們就建立了相應(yīng)分析中R型因子分析和Q型因子分析的關(guān)系。也就是說,我們可以從R型因子分析出發(fā)而直接得到Q型因子分析的結(jié)果。這里需要強(qiáng)調(diào)的是,由于∑r和∑c有相同的特征根,而這些特征根又表示各個(gè)公共因子所提供的方差。那么,在因素B的c維空間Rc中的第一公共因子,第二公共因子直到第m個(gè)公共因子與因素A的r維空間Rr中相對(duì)于的各個(gè)主因子在總方差中所占的百分比就完全相同。這樣就可以用相同的因子軸同時(shí)描述兩個(gè)因素各個(gè)水平的情況,把兩個(gè)因素的各個(gè)水平的狀況同時(shí)反映到具有相同坐標(biāo)軸的因子平面上。一般情形,我們?nèi)蓚€(gè)公共因子,這樣就可以在一張二維平面圖上繪出兩個(gè)因素各個(gè)水平的情況,即可以直觀地描述兩個(gè)因素A和因素B以及各個(gè)水平之間的相關(guān)關(guān)系。

一、利用SPSS進(jìn)行相應(yīng)分析——

實(shí)例1數(shù)據(jù)來自SPSS軟件自帶數(shù)據(jù)集voter.sav,為1992年美國大選的部分?jǐn)?shù)據(jù)。要求對(duì)選民的最高學(xué)歷水平(degree)和所支持的總統(tǒng)候選人(pres92)進(jìn)行相應(yīng)分析。 (一)操作步驟 1.正確打開數(shù)據(jù)集voter.sav后,由Analyze→DataReduction→CorrespondenceAnalysis可進(jìn)入相應(yīng)分析的主對(duì)話框(圖8.1)。圖8.1相應(yīng)分析主界面 2.從左側(cè)變量列表中選擇兩個(gè)變量作為相應(yīng)分析的兩個(gè)維度。這里我們選擇pres92作為行維度,點(diǎn)擊Row左側(cè)的三角箭頭就可以看到在Row項(xiàng)下出現(xiàn)了pres92(??),這時(shí)用鼠標(biāo)選中該變量,其下方的DefineRange子對(duì)話框激活,點(diǎn)擊后出現(xiàn)變量水平設(shè)置窗口(圖8.2)。分為上下兩個(gè)部分:Categoryrangeforrowvariable:pres92和CategoryConstraints。這里要分析所有的三位總統(tǒng)候選人和選民的學(xué)歷水平的關(guān)系,所以在Minimumvalue中填入1,在Maximumvalue中填入3,之后點(diǎn)擊Update按鈕。就可以在下方的CategoryConstraints欄中看到,后續(xù)分析中的行變量僅包含3個(gè)類目,分別是1、2和3。圖8.2DefineRowRange子對(duì)話框在右側(cè)還有三個(gè)單選項(xiàng):None表示沒有任何約束;Categoriesmustbeequal可用于指定某些類目的得分必須相同,最多可以設(shè)置有效類目的個(gè)數(shù)減1個(gè)得分相等的類目,如本例中最多可以設(shè)置2個(gè)類目得分相等;Categoryissupplemental表示某些類目不參加相應(yīng)分析但是會(huì)在圖形中標(biāo)示。這里我們不對(duì)分類進(jìn)行任何約束,點(diǎn)擊Continue按鈕后回到主對(duì)話框。類似的可以指定degree的有效類目最小值為0,最大值為4。 3.點(diǎn)擊Model按鈕,指定相應(yīng)分析結(jié)果的維數(shù)。(圖8.3)

(1)Dimensionsinsolution。默認(rèn)為2,最大可以設(shè)置為各變量中的最少類目數(shù)減1。 (2)選擇距離測度的方式DistanceMeasure。有Chisquare 和Euclidean兩種,定性變量應(yīng)該用Chisquare。 (3)標(biāo)準(zhǔn)化方法StandardizationMethod。圖8.3Model子對(duì)話框(4)正態(tài)化方法NormalizationMethod。需要比較行列變量的類目差異時(shí)選擇Symmetrical,需要比較行列變量中任意兩個(gè)類目的差異時(shí)選擇Principal,比較行變量的類目差異時(shí)選擇Rowprincipal,而比較列變量的類目差異時(shí)選擇Columnprincipal,也可以在Customize中指定[-1,1]之間的任意實(shí)數(shù),特別的,如果輸入-1則為Columnprincipal,輸入1為Rowprincipal,輸入0為Symmetrical。而一般該對(duì)話框中的選項(xiàng)無需改動(dòng)。4.點(diǎn)擊Statistics按鈕,設(shè)定輸出的相應(yīng)分析統(tǒng)計(jì)量,如圖8.4??梢灾付ㄝ敵鱿鄳?yīng)分析表Correspondencetable,行點(diǎn)總覽表Overviewofrowpoints,列點(diǎn)總覽表Overviewofcolumnpoints,行輪廓Rowprofiles,列輪廓Columnprofiles。默認(rèn)只輸出前三項(xiàng)。而Permutationsofthecorrespondencetable是用于指定前n個(gè)維度的行列得分表。如果該項(xiàng)選中,下方的Maximumdimensionforpermutations被激活,用于指定維度n。此外,還可以在ConfidenceStatisticsfor復(fù)選項(xiàng)中選擇計(jì)算行點(diǎn)和列點(diǎn)的標(biāo)準(zhǔn)差以及相關(guān)系數(shù)。

圖8.4Statistics子對(duì)話框 5.點(diǎn)擊Plots按鈕,設(shè)定輸出的統(tǒng)計(jì)圖,如圖8.5??梢灾付ㄝ敵鱿鄳?yīng)分析的散點(diǎn)圖Scatterplots,默認(rèn)只輸出包含行列變量的雙變量散點(diǎn)圖Biplot。也可指定輸出行點(diǎn)圖Rowpoints和列點(diǎn)圖Columnpoints。而IDlabelwidthforScatterplots是指定散點(diǎn)標(biāo)簽的長度,默認(rèn)20。下方的Lineplots項(xiàng)中,可以輸出行/列點(diǎn)對(duì)應(yīng)于行/列得分的線圖,和散點(diǎn)圖類似。 6.我們在Model,Statistics,Plots三個(gè)子對(duì)話框中都使用默認(rèn)設(shè)定,點(diǎn)擊主對(duì)話框的OK按鈕,即得到相應(yīng)分析的結(jié)果。圖8.5Plots子對(duì)話框 (二)結(jié)果分析: SPSS運(yùn)行相應(yīng)分析后會(huì)產(chǎn)生以下四張表(表8.4到表8.7)。 1.CorrespondenceTable(相應(yīng)分析表),如表8.4,即列聯(lián)表。ActiveMargin為邊際頻數(shù)。大致可以看出Clinton在各個(gè)學(xué)歷層次都有最高的票數(shù)。表8.4列聯(lián)表

2.Summary(總覽表),如表8.5。表中從左到右依次是維度編號(hào)、奇異值、慣量、卡方統(tǒng)計(jì)量、顯著性、慣量所占總慣量比例、每個(gè)維度的奇異值的標(biāo)準(zhǔn)差和相關(guān)系數(shù)。SingularValue為特征值的平方根,根據(jù)總慣量和特征值求和相等,有0.1392+0.0162=0.019+0.000=0.019。第一個(gè)維度慣量0.019,占總慣量的98.7%,第二個(gè)維度慣量接近0,僅占總慣量1.3%。因此可以認(rèn)為只要用一個(gè)維度就可以解釋行列變量之間所有的關(guān)系,但為了說明分析過程,仍然保留兩個(gè)維度??倯T量35.867÷1844=0.19,滿足總慣量和卡方統(tǒng)計(jì)量的關(guān)系式。同時(shí)卡方統(tǒng)計(jì)量的自由度8=(3-1)×(5-1),數(shù)值為0.000,說明行列變量之間存在顯著的相關(guān)性,相應(yīng)分析是有意義的。表8.5總覽表 3.OverviewRowPoints與OverviewColumnPoints(行/列點(diǎn)總覽表),如表8.6,表8.7?,F(xiàn)以表8.6為例,Mass項(xiàng)表示行變量中每個(gè)類目的邊際概率。Scoreindimension下面則是行點(diǎn)在兩個(gè)維度的坐標(biāo)(SPSS稱為得分),即有坐標(biāo)點(diǎn)Bush(0.194,-0.156),Perot(0.663,0.198),Clinton(-0.346,0.053)。Inertia項(xiàng)為慣量,即每個(gè)行點(diǎn)與行重心的加權(quán)距離的平方。而行慣量為行點(diǎn)與行重心的加權(quán)距離平方和,即0.19=0.002+0.009+0.008。比較表8.6和表8.7的總慣量,可以發(fā)現(xiàn)行慣量與列慣量相等。Contribution項(xiàng)有兩個(gè)部分,分別是行變量的每個(gè)類目對(duì)維度(公共因子)特征值的貢獻(xiàn),每一個(gè)維度對(duì)每個(gè)類目的特征值的貢獻(xiàn)。表8.6行點(diǎn)總覽表表8.7列點(diǎn)總覽表 4.相應(yīng)分析圖,如圖8.6。可以發(fā)現(xiàn)研究生層次的選民(Graduatedegree)傾向于具有實(shí)干精神的Clinton,而較Clinton更為激進(jìn)的Bush更受highschool和Bachelor層次的選民歡迎,Perot僅和juniorcollege層次的選民較近。圖8.6相應(yīng)分析的二維圖 5.如果在Statistics子對(duì)話框中選中了Rowpropro還會(huì)輸出以下兩張表(表8.8,表8.9)。表8.8行輪廓表表8.9列輪廓表 6.行/列點(diǎn)圖(圖8.7,圖8.8)。如果要單獨(dú)考察行/列變量的各個(gè)水平在兩個(gè)公共因子維度上的分布情況,可在Plots子對(duì)話框中選中Rowpoints和Columnpoints。運(yùn)行后即得下圖:圖8.7行點(diǎn)在兩個(gè)公共因子維度上的分布圖8.8列點(diǎn)在兩個(gè)公共因子維度上的分布二、利用SPSS進(jìn)行相應(yīng)分析——

實(shí)例2

表8.104只股票的財(cái)務(wù)數(shù)據(jù) (一)操作步驟: 1.首先由SPSS的因子分析過程(詳細(xì)步驟參見因子分析一章),通過主成分法估計(jì)和最大方差旋轉(zhuǎn)法進(jìn)行因子旋轉(zhuǎn),發(fā)現(xiàn)需要3個(gè)公共因子才能解釋83%以上的方差??傻靡蜃拥梅值挠?jì)算公式為(加上*號(hào)的變量和因子表示都已經(jīng)標(biāo)準(zhǔn)化):因此factor1可以稱為股票規(guī)模因子,factor2稱為股票收益因子,factor3稱為個(gè)股價(jià)值因子。將這三個(gè)因子劃分為5個(gè)等級(jí):低于-0.5,-0.5~0,0~0.5,0.5~1,大于1,分別編碼為1,2,3,4,5。這樣就可以利用相應(yīng)分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論