社會統(tǒng)計分析方法(第二版) 課件全套 郭志剛 第1-15章 導(dǎo)論與統(tǒng)計基礎(chǔ)知識、多元線性回歸-對應(yīng)分析_第1頁
社會統(tǒng)計分析方法(第二版) 課件全套 郭志剛 第1-15章 導(dǎo)論與統(tǒng)計基礎(chǔ)知識、多元線性回歸-對應(yīng)分析_第2頁
社會統(tǒng)計分析方法(第二版) 課件全套 郭志剛 第1-15章 導(dǎo)論與統(tǒng)計基礎(chǔ)知識、多元線性回歸-對應(yīng)分析_第3頁
社會統(tǒng)計分析方法(第二版) 課件全套 郭志剛 第1-15章 導(dǎo)論與統(tǒng)計基礎(chǔ)知識、多元線性回歸-對應(yīng)分析_第4頁
社會統(tǒng)計分析方法(第二版) 課件全套 郭志剛 第1-15章 導(dǎo)論與統(tǒng)計基礎(chǔ)知識、多元線性回歸-對應(yīng)分析_第5頁
已閱讀5頁,還剩449頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一章導(dǎo)論與統(tǒng)計基礎(chǔ)知識方法——SP社會統(tǒng)計分析SS軟件應(yīng)用(第二版)(新編21世紀(jì)社會學(xué)系列教材;教育部高等學(xué)校社會學(xué)學(xué)科教學(xué)指導(dǎo)委員會推薦教材;全國普通高等學(xué)校優(yōu)秀教材)作者:郭志剛SPSS是發(fā)展較早、應(yīng)用非常普遍的社會統(tǒng)計軟件包。它具有十分強大的數(shù)據(jù)處理、統(tǒng)計分析功能,同時又具有易學(xué)、易用的特點。因此,本書所介紹的高級統(tǒng)計方法將以SPSSforWindows第13版及其他更新版本作為應(yīng)用軟件。本書是一本多元統(tǒng)計分析方法教材,主要目的是介紹和講解各種統(tǒng)計方法的原理與應(yīng)用。為了方便讀者將這些分析方法投入使用,示范了用SPSS軟件分析例題的操作。對一些統(tǒng)計知識和SPSS軟件兩方面基礎(chǔ)均較為薄弱的讀者,本章第三節(jié)和第四節(jié)分別提供了一些初級統(tǒng)計知識要點的復(fù)習(xí)和SPSS軟件入門的簡介。另外本書還設(shè)有一章,介紹事件史數(shù)據(jù)的預(yù)處理。一、關(guān)于本書各章的簡介為了建立這些方法的分類框架,需要具備一些統(tǒng)計學(xué)基礎(chǔ)知識,即變量測度等級的概念。下面第一小節(jié)是對變量測度等級的簡介。然后,在第二小節(jié)中對各種方法做一概括。第三小節(jié)將按照各種方法應(yīng)用的變量條件列出一個框架圖。(一)變量的測度等級在科學(xué)研究中,用變量來量化描述概念。但是不同概念能夠被量化的程度有所不同,另外即使一個概念實際上具備較高的量化程度,而在實際觀測時也可能因為具體情況而采用較低的量化程度。這種量化程度在統(tǒng)計學(xué)中稱為變量的測度等級或測度水平。變量的測度等級直接關(guān)系到統(tǒng)計分析方法的選擇。變量的測度等級的劃分有多種,一般常用的劃分為四種,即:名義測度、序次測度、間距測度、比率測度。名義測度名義測度是最低的一種測度等級,也稱定名測度。實際上,名義測度變量的值只代表類型的編碼,而這些編碼的數(shù)值只是一個符號,數(shù)值之間不存在有實際意義的量的關(guān)系。比如,性別便是一個名義測度等級的變量,可以將男性編碼定為1,女性編碼定為2。序次測度序次測度的量化水平高于名義測度,也就是說它所包含的信息量大于名義測度等級的變量。因為在序次測度等級的變量中,變量編碼不僅具有分類的作用,而且也存在量的關(guān)系。比如,受教育程度這個序次測度等級的變量,采用數(shù)字編碼表示不同類別,比如:文盲半文盲=1,小學(xué)=2,初中=3,高中=4,大學(xué)=5。間距測度間距測度等級的量化程度更高,它的取值不再是類的編碼,而是采用一定單位的實際測量值。這時不僅可以知道兩個不同變量值存在差異,而且可以應(yīng)用減法得到兩值之間的差或應(yīng)用加法得到兩值之間的和,它們的差與和都有實際意義。但是,間距測度等級的變量值之間不能進(jìn)行乘除計算。比率測度比率測度是最高級的測度等級,它除了具有間距測度等級的所有性質(zhì)外,而且其0值是非人為制定的,比如K溫度中的0度被稱為絕對0度。(二)本書所介紹的分析方法的概述多元線性回歸應(yīng)用于單方程模型,其因變量必須為測量型變量,其自變量既可以為測量型變量也可以采用虛擬變量等特殊編碼變量。研究目的是分析因變量值的變化與自變量值變化之間的關(guān)系。多元回歸用最小二乘法求解回歸系數(shù)。如果變量之間有多層因果關(guān)系,便可以由多個具有內(nèi)在聯(lián)系的多元回歸方程組成一套通徑分析聯(lián)立方程組。在滿足特定條件的情況下,每個方程都可以通過多元回歸求解系數(shù),然后應(yīng)用通徑分析分解變量之間的直接作用和間接作用。如果一套聯(lián)立方程組中含有潛在變量(即不可直接觀測的變量),便不能再用最小二乘法求解,這時可以應(yīng)用結(jié)構(gòu)方程模型,它主要采用最大似然估計求解。在研究有兩組各包含多個變量的變量組之間的關(guān)系時,可以采用典型相關(guān)分析。典型相關(guān)分析的所有變量必須為測量型變量或虛擬變量。多元方差分析研究兩個以上的類別中在多項測量型數(shù)據(jù)指標(biāo)上是否存在顯著差異。當(dāng)因變量為分類變量或序次變量且自變量為測量型變量和虛擬變量時,不能采用常規(guī)的多元線性回歸,而應(yīng)該采用logistic回歸。當(dāng)因變量為計數(shù)變量(即有限的正整數(shù)值)且自變量為測量型變量和虛擬變量時,則應(yīng)該采用泊松回歸。鑒別分析主要應(yīng)用于在已知一些案例的各種條件值及其結(jié)果類型的條件下,形成鑒別方程,然后將其應(yīng)用于其他條件值已知但結(jié)果類型未知的案例,預(yù)測它們的結(jié)果類型。這種方法可以視為因變量為多分類結(jié)果、自變量為測量型或虛擬變量的因果預(yù)測。它的主要應(yīng)用目的是進(jìn)行鑒別分類。在使用縱貫數(shù)據(jù)進(jìn)行因果分析時,事件史分析是可以應(yīng)用的分析技術(shù)。其中,離散時間模型實際上就是用logistic回歸求解。而Cox比例風(fēng)險模型是連續(xù)變量模型,它分為兩種,一種包括動態(tài)變量(即隨時間變化的自變量),另一種不包括動態(tài)變量。事件史分析的數(shù)據(jù)處理是一項比較復(fù)雜的工作,本章第十四章專門介紹這方面的技術(shù)。至于因子分析、聚類分析和對應(yīng)分析,它們并不是因果模型,分別用以分析變量、案例和類型(變量值)之間的結(jié)構(gòu)關(guān)系。它們被稱為相依模型。因子分析經(jīng)常服務(wù)于濃縮多個測量型變量,使之轉(zhuǎn)換為較少數(shù)量的新變量(稱為因子)后,仍然攜帶原變量的絕大部分信息。聚類分析用于分析各案例在多個測量型變量值上的距離,將其按近似性原則進(jìn)行案例排列。對應(yīng)分析可以用來對不同非測量型變量的類別之間的關(guān)系進(jìn)行分析,以作圖形式顯示不同變量類別之間的近似程度。(三)本書所介紹的統(tǒng)計方法的分類框架以下框架首先按照觀測數(shù)據(jù)的來源分為兩大類:第一類是橫貫數(shù)據(jù)橫貫數(shù)據(jù)指在同一時間不同案例的觀察數(shù)據(jù)。它可以來自一次普查、抽樣調(diào)查或分地區(qū)(部門)的統(tǒng)計資料匯總表等。本書所介紹的方法主要是應(yīng)用于橫貫數(shù)據(jù)的方法。第二類是縱貫數(shù)據(jù)縱貫數(shù)據(jù)指對同樣的案例在不同時間上的多次觀測所得到的數(shù)據(jù)。從方法論而言,對于研究因果關(guān)系,縱貫數(shù)據(jù)具有更高的有效性。然而,縱貫數(shù)據(jù)的取得相對于橫貫數(shù)據(jù)要難得多。它可以來自追蹤觀測,然而追蹤調(diào)查存在周期長、成本高、案例容易損耗等困難。它也可以來自回顧調(diào)查,但是回顧調(diào)查往往發(fā)生由于記憶不準(zhǔn)所造成的偏差。實際上,本書所介紹的方法中只有事件史分析屬于這一類。所以,在框架中直接以該方法名稱作為標(biāo)注。該框架的第二種劃分是分析模型的屬性。一類是因果模型,一類是相依模型。該框架所采用的另一種劃分依據(jù)是變量的測度等級。二、在應(yīng)用統(tǒng)計的研究中,要以研究方法論為指導(dǎo)雖然本書的主要宗旨是介紹統(tǒng)計方法,但是作為全書導(dǎo)論,在此要特別強調(diào)社會科學(xué)研究的整體性,即一個好的研究不可能僅僅建立在統(tǒng)計分析的基礎(chǔ)上。統(tǒng)計分析只是整個研究當(dāng)中的一個環(huán)節(jié),因此在學(xué)習(xí)和應(yīng)用統(tǒng)計分析時,必須清醒地把握統(tǒng)計分析的方法論意義,自覺地將其服從于整個研究。(一)理論、觀察、統(tǒng)計之間的關(guān)系現(xiàn)代社會科學(xué)研究中包含三個要素:理論、觀察、統(tǒng)計。所以,統(tǒng)計技術(shù)的應(yīng)用絕不是孤立的事情,它不僅需要專業(yè)理論的指導(dǎo),也需要研究方法論的指導(dǎo)。忽視這兩個方面,便極易導(dǎo)致研究結(jié)論中的謬誤。比如,經(jīng)常可以見到錯誤理解和闡述統(tǒng)計結(jié)果的問題,即分析計算結(jié)果是正確的,但是對于這些結(jié)果的理解和解釋卻是錯誤的。(二)統(tǒng)計研究中的常見謬誤1.混淆統(tǒng)計聯(lián)系與因果關(guān)系2.事后解釋謬誤3.生態(tài)學(xué)謬誤4.還原論謬誤5.混淆統(tǒng)計檢驗顯著性與實際意義顯著性(三)社會科學(xué)的研究對象和模型社會科學(xué)的研究對象應(yīng)該是人所生活于其中的社會有機體,比如客觀存在著的社會制度、經(jīng)濟(jì)體制、家庭模式等等。構(gòu)成這些社會體系的要素并不是人,而是一系列社會存在的構(gòu)件和方面,包括制度、機構(gòu)、規(guī)范、組織等等。這些社會構(gòu)件和方面的屬性、特征、意向、行為可以通過科學(xué)抽象得到概念,將它們定義為一套變量,并經(jīng)過操作化得到測量。(四)統(tǒng)計分析與理論分析實際上,統(tǒng)計研究不可能脫離理論指導(dǎo),比如,如何判定哪些變量應(yīng)該列入分析模型,便主要是理論分析的結(jié)果,而不是統(tǒng)計分析的結(jié)果。統(tǒng)計分析的功能主要是在理論分析的上,檢查各個模型變量的作用,對其作用進(jìn)行量化描述,并對有關(guān)理論假設(shè)進(jìn)行檢驗。(五)真理性的檢驗與統(tǒng)計檢驗實踐是檢驗真理的唯一標(biāo)準(zhǔn)。但是,實踐是一個活動過程,不能簡單歸結(jié)為直接經(jīng)驗這樣的個別環(huán)節(jié)。并且,實踐檢驗過程是借助邏輯推論的鏈條進(jìn)行的,實際上在這一邏輯鏈條中,只是某些環(huán)節(jié)才可能進(jìn)行直接。如果把直接檢驗絕對化,就會犯經(jīng)驗主義的錯誤,把檢驗知識真理性的全過程局限于主體感受中。并且,實證主義的證實性原則在方法論上是排斥理論的。至于統(tǒng)計檢驗,可以認(rèn)為是實踐檢驗的一種形式。一種認(rèn)識是否正確,要看它是否符合客觀實際。反映在統(tǒng)計研究中,就是看理論假設(shè)是否符合觀測數(shù)據(jù)。但是統(tǒng)計檢驗也不可避免地存在其局限性,其結(jié)果會受到分析技術(shù)的成熟程度、模型變量的有效性、測量數(shù)據(jù)的可靠性、樣本規(guī)模的大小等許多方面的影響。所以,統(tǒng)計檢驗不顯著,并不意味著這一研究無價值。事實上,許多統(tǒng)計研究正是從失敗的經(jīng)驗中不斷總結(jié)、修改研究方案,而最終得到正確的結(jié)論的。而在統(tǒng)計檢驗顯著時,則更要清醒地認(rèn)識到,統(tǒng)計分析只是就事物的統(tǒng)計聯(lián)系進(jìn)行分析,從統(tǒng)計分析中得到肯定的事物聯(lián)系到對于事物之間本質(zhì)聯(lián)系的認(rèn)識還有很遠(yuǎn)的距離。因此,統(tǒng)計檢驗只是從一個側(cè)面進(jìn)行的實踐檢驗,并不能替代其他形式的實踐檢驗。三、基礎(chǔ)統(tǒng)計原理與概念回顧在社會科學(xué)研究中,經(jīng)常會從一個總體中抽取一部分個體進(jìn)行調(diào)查,抽樣調(diào)查不僅是最普遍、最流行的數(shù)據(jù)收集方法,而且隨機抽樣也是大部分推斷統(tǒng)計和顯著性檢驗的最基本的條件。通過一定的程序從樣本特征去推斷總體的特征構(gòu)成了推斷統(tǒng)計學(xué)的基本內(nèi)容。(一)抽樣調(diào)查的定義及其相關(guān)概念1.抽樣調(diào)查的定義所謂的抽樣調(diào)查是指從研究對象的總體中按照科學(xué)方法和程序抽取一部分個體作為樣本進(jìn)行調(diào)查,據(jù)此推斷有關(guān)總體的特征。在調(diào)查研究中,除非重大的調(diào)查如人口普查、資源普查等,一般都是進(jìn)行抽樣調(diào)查。根據(jù)抽樣的方法,抽樣調(diào)查又分為非隨機抽樣。2.抽樣調(diào)查的優(yōu)缺點第一,經(jīng)濟(jì)性強。抽樣調(diào)查不需要對總體中的所有單位進(jìn)行逐一調(diào)查,而是調(diào)查其中的一部分,因此可以大大地節(jié)約調(diào)查的人力、物力和財力。第二,及時性強。不像普查那樣每隔幾年進(jìn)行一次,抽樣調(diào)查因為涉及較少的調(diào)查單位,可以隨時進(jìn)行,及時、快速地獲得相關(guān)數(shù)據(jù)。第三,信息量大。抽樣調(diào)查可以包括較多方面的深度信息,提高詳細(xì)程度。第四,質(zhì)量較好。不過,抽樣調(diào)查的技術(shù)難度較大,尤其是隨機抽樣方法,需要經(jīng)過專門的培訓(xùn)才可能掌握;此外,在抽樣調(diào)查尤其是在隨機抽樣時,需要對總體的一些信息比如總體抽樣框、總體方差等有一個了解,而這些信息有時候很難獲得。另外,如果違反隨機原樣,抽樣調(diào)查可能出現(xiàn)較嚴(yán)重的覆蓋偏差,從而導(dǎo)致統(tǒng)計結(jié)果產(chǎn)生較大偏差,這時的抽樣數(shù)據(jù)就不能簡單用于推斷總體。3.總體與樣本所謂的總體就是研究對象的全體。對于社會科學(xué)研究來說,我們可能要關(guān)注總體的某個方面的特征,比如總體的平均數(shù)、總體的標(biāo)準(zhǔn)差等等。我們把描述總體某方面特征的指標(biāo)稱為參數(shù),一般而言用大寫字母標(biāo)注。所謂的樣本就是按照一定的方式從總體中抽取出來的一部分個體,樣本中包含的個體數(shù)目狀稱為樣本規(guī)?;驑颖玖俊#ǘ┙y(tǒng)計推斷與抽樣分布當(dāng)我們用樣本的統(tǒng)計量去推論總體的參數(shù)值時,通常有兩種方法:參數(shù)估計和假設(shè)檢驗。統(tǒng)計推斷,無論是參數(shù)估計還是假設(shè)檢驗,都建立在抽樣分布的基礎(chǔ)之上。四、SPSS入門示范本節(jié)所使用的例題數(shù)據(jù)是根據(jù)美國人口咨詢局2013年發(fā)布的世界人口數(shù)據(jù)表整理而成。原數(shù)據(jù)表中有更多的國家或地區(qū)數(shù)據(jù)和更多的變量,但是數(shù)據(jù)中存在不少缺失。此外在艾滋病感染率這個變量中一些案例是用小于某一上限值的描述。本書為了示范和練習(xí)方便,只保留了其中一些主要變量,而且刪除了這些保留變量中存在數(shù)據(jù)缺失的案例,對上述艾滋病感染率那些不確切的測量值直接取其上限值作為替代,整理后的數(shù)據(jù)文件名為WPDS2013.sav。在本節(jié)的示例分析中,我們都盡量使用這個數(shù)據(jù),并且直接使用案例數(shù)據(jù),并不根據(jù)各國或地區(qū)人口規(guī)模來對統(tǒng)計分析進(jìn)行加權(quán)。并且,我們將這個數(shù)據(jù)作為全世界各國或地區(qū)的一個隨機抽樣數(shù)據(jù)來對待。(一)取得基本統(tǒng)計指標(biāo)1.間距變量的描述性指標(biāo)2.分類變量的頻數(shù)表3.分類別的描述性指標(biāo)4.交互表頻數(shù)與相應(yīng)統(tǒng)計指標(biāo)(二)樣本平均數(shù)的t檢驗1.單樣本平均數(shù)檢驗2.獨立樣本平均數(shù)檢驗(三)方差分析1.方差分析的數(shù)據(jù)要求和假定條件2.方差分析原理3.用SPSS進(jìn)行單因素方差分析4.多因素方差分析簡介5.雙因素飽和模型6.雙因素非飽和模型8.用命令來運行SPSS分析基本概念理論觀察統(tǒng)計研究方案事后解釋謬誤生態(tài)學(xué)謬誤還原論謬誤變量測度等級抽樣調(diào)查總體樣本參數(shù)統(tǒng)計量抽樣分布統(tǒng)計推斷參數(shù)估計置信區(qū)間置信度假設(shè)檢驗棄真錯誤納偽錯誤顯著度描述性統(tǒng)計概要指標(biāo)頻數(shù)表方差分析本章要點1.實際研究中的變量有不同的測度等級,其變量值雖然可能都以數(shù)字形式出現(xiàn),然而表達(dá)的量的意義完全不同。2.各種統(tǒng)計分析方法對于變量測度等級有具體要求。在應(yīng)用統(tǒng)計方法時必須滿足其對于變量測度等級的要求以及其他假設(shè)條件,不合乎統(tǒng)計方法所要求的變量類型不能應(yīng)用。3.不同統(tǒng)計方法的基礎(chǔ)是對變量之間關(guān)系的模型假設(shè)。應(yīng)該按照研究需要和數(shù)據(jù)類型選擇統(tǒng)計方法。4.統(tǒng)計分析只是整個研究的一個組成部分。必須以科學(xué)研究方法論和具體學(xué)科理論為指導(dǎo),正確理解和闡釋所得到的統(tǒng)計結(jié)果。參考文獻(xiàn)郭志剛,郝虹生,杜亞軍,曲海波.社會調(diào)查研究的量化方法.北京:中國人民大學(xué)出版社,1989.肯尼斯·D·貝利.現(xiàn)代社會研究方法.許真譯.上海:上海人民出版社,1986.劉大椿.科學(xué)活動論.北京:人民出版社,1985.第二章多元線性回歸多元線性回歸(multiplelinearregression)是分析一個隨機變量與多個變量之間線性關(guān)系的最常用的統(tǒng)計方法。實際工作中,常常希望知道所關(guān)心的事物受哪些因素的影響,比如銷售量與價格和廣告費的關(guān)系、農(nóng)業(yè)產(chǎn)量與原料和氣候的關(guān)系、生育水平與教育水平和經(jīng)濟(jì)水平的關(guān)系、物價與失業(yè)率的關(guān)系、收入與受教育程度和年齡的關(guān)系等等。多元線性回歸用觀察數(shù)據(jù)擬合所關(guān)注的變量和影響它變化的變量之間的線性關(guān)系式,檢驗影響變量的顯著程度和比較它們的作用大小,進(jìn)而用兩個或多個變量的變化解釋和預(yù)測另一個變量的變化。概括地說,回歸分析要解決三個方面的主要任務(wù)。第一,依據(jù)研究理論和經(jīng)驗建立關(guān)于因變量與一個或多個自變量之間關(guān)系的回歸方程,并且根據(jù)數(shù)據(jù)樣本擬合來求解這個回歸方程的各項回歸系數(shù)值。這些回歸系數(shù)值便反映了各自變量對因變量影響作用的方向和幅度。應(yīng)用SPSS的回歸程序可以非常便利地求解這些回歸系數(shù),保證得出一套最佳的回歸系數(shù)解。第二,評價這一回歸方程對實際數(shù)據(jù)的擬合程度?;貧w分析保證取得“最佳”系數(shù)的意思只是說,這套系數(shù)對實際數(shù)據(jù)的擬合程度肯定比任何其他的解都要相對更好,但是我們還需要進(jìn)一步了解采用這套系數(shù)的回歸方程的擬合程度到底有多好。一般用回歸方程對因變量變化解釋的百分比來描述擬合程度,百分比越高就表示擬合程度越好。第三,在樣本回歸分析的基礎(chǔ)上進(jìn)行總體推斷性統(tǒng)計。前兩個任務(wù)還是在數(shù)據(jù)樣本之內(nèi)對回歸方程的分析,但是社會科學(xué)的統(tǒng)計研究往往是通過樣本分析來推斷總體。所以,研究者需要對樣本回歸分析指標(biāo)進(jìn)行統(tǒng)計顯著性檢驗,看看這些結(jié)果是否能推廣到總體的情況。本章后面將大體按照這三方面的順序來介紹回歸分析。一、變量的關(guān)系和回歸的任務(wù)二、簡單線性回歸模型我們從簡單的情況開始,先來看含有一個自變量的線性回歸問題。一個自變量的回歸稱為簡單回歸或一元回歸。統(tǒng)計分析經(jīng)常是先對總體中隨機抽樣得到的樣本數(shù)據(jù)進(jìn)行分析,然后再對總體進(jìn)行推斷。在抽樣原理統(tǒng)計教科書中,總體的各種指標(biāo)稱為參數(shù),樣本的各種指標(biāo)稱為統(tǒng)計。因此,在后面的統(tǒng)計表述中經(jīng)常需要分清總體參數(shù)和樣本統(tǒng)計量。在很多情況下,兩者相互對應(yīng),所以為了簡明,本章采用許多教科書的做法,在一般情況下將總體參數(shù)用大寫符號標(biāo)注,將樣本統(tǒng)計量用小寫符號標(biāo)注。(一)簡單線性回歸方程(二)簡單回歸系數(shù)的意義在回歸模型式中,犪和犫稱為回歸直線的系數(shù)。犪是直線在狔軸上的截距,代表狔的基礎(chǔ)水平;犫是直線的斜率,它表示狓變化一個單位時,狔的平均變化。(三)變量變換當(dāng)因變量狔與自變量狓是非線性關(guān)系時,可以通過變量變換使經(jīng)過變換的新變量對于參數(shù)是線性的。spss回歸程序可以檢查變量之間是不是有線性關(guān)系,如果是非線性關(guān)系,還可以應(yīng)用spss曲線回歸來探測具體是哪一種非線性關(guān)系。我們將在后面進(jìn)行介紹。這里,我們僅用一個簡單例子介紹如何對自變量進(jìn)行非線性變換,以使線性回歸能更好地擬合數(shù)據(jù)。(四)最小二乘估計的統(tǒng)計性質(zhì)最小二乘估計在求解回歸方程模型時是最常用的估計方法。通過最小二乘法得到的回歸方程估計,有很好的統(tǒng)計性質(zhì)。(五)模型的假定條件統(tǒng)計理論已經(jīng)證明,在滿足一定的假定先決條件下,樣本數(shù)據(jù)的最小二乘估計是總體參數(shù)的最佳線性無偏估計。這是因為在推斷總體參數(shù)或進(jìn)行統(tǒng)計檢驗時,必須考慮總體回歸模型中的隨機誤差項ε的分布特征。因此,對隨機誤差項ε提出若干基本假定條件。三、多元線性回歸模型在本節(jié)中,我們要將簡單回歸推廣到多元回歸。在具體介紹有關(guān)分析之前需要說明,以上討論的所有簡單回歸的假定條件都適用于多元線性回歸。(一)多元線性回歸方程(二)回歸平面和回歸系數(shù)的意義(三)一般回歸模型乘法模型指數(shù)模型1指數(shù)模型2多項式模型(四)多元回歸模型估計的統(tǒng)計推斷四、方程的擬合程度(一)確定系數(shù)R^2(二)調(diào)整的確定系數(shù)R^2(三)多元相關(guān)系數(shù)R(四)偏確定系數(shù)(五)偏相關(guān)系數(shù)五、回歸方程的統(tǒng)計檢驗和回歸系數(shù)的推斷統(tǒng)計在一般情況下,我們是通過抽樣樣本觀測數(shù)據(jù)來推斷總體的情況。因此,樣本中計算的各統(tǒng)計量都服從一定的抽樣誤差。檢驗樣本回歸方程各統(tǒng)計量,就是為了根據(jù)樣本統(tǒng)計量來判斷總體各參數(shù)的情況。(一)整個回歸方程的顯著性檢驗對整個回歸方程的統(tǒng)計檢驗也是通過方差分析完成的。將因變量y的總的離差平方和分解為兩個部分:一部分是可以由回歸方程解釋的部分,稱之為回歸平方和;另一部分則是不能由回歸方程解釋的部分,稱之為殘差平方和。然后,用殘差平方和代表隨機波動,來評價回歸方程的解釋能力是否具有統(tǒng)計顯著性。(二)偏確定系數(shù)的統(tǒng)計檢驗偏確定系數(shù)描述的是,在控制前一步回歸中其他變量的條件下,新納入一個或一組自變量的新增解釋能力。偏確定系數(shù)也是一個百分比,只不過它只涉及前一步回歸沒能解釋的因變量變化。(三)各自變量回歸系數(shù)的顯著性檢驗當(dāng)回歸方程整體檢驗具有統(tǒng)計顯著性時,一般可以表明回歸方程中至少有一個自變量的回歸系數(shù)是顯著的,但并不一定所有自變量的回歸系數(shù)都是顯著的。(四)回歸系數(shù)的置信區(qū)間(五)回歸系數(shù)不顯著的原因(1)樣本量太小,或者自變量個數(shù)較多(2)x(j)的變化范圍太?。ǎ常﹛(j)與方程中的其他自變量線性相關(guān)(4)y與x(j)雖然有關(guān)聯(lián),但卻是非線性關(guān)系(5)y與x(j)確實不存在顯著的線性關(guān)系六、標(biāo)準(zhǔn)化回歸系數(shù)因為變量的標(biāo)準(zhǔn)化過程中都要除以該變量的標(biāo)準(zhǔn)差,這不僅會改變變量的數(shù)值,而且約分掉了原變量的實際測量單位,所以z變量是無量綱變量,即脫離了任何實際測量單位的純統(tǒng)計量。于是,標(biāo)準(zhǔn)化變量的回歸系數(shù)β稱為標(biāo)準(zhǔn)化回歸系數(shù),它表示當(dāng)其他變量不變時,x變化1個標(biāo)準(zhǔn)差單位,y的標(biāo)準(zhǔn)差的平均變化。七、多元統(tǒng)計控制對回歸系數(shù)的影響采用多元回歸最重要的優(yōu)越性就是可以將對因變量有重要影響的自變量同時納入分析,在控制其他模型自變量的條件下一一求解對應(yīng)自變量的偏回歸系數(shù)。因此,偏回歸系數(shù)表達(dá)了對應(yīng)自變量相對“獨立”的影響作用,將更為接近真實情況的反應(yīng)。盡管研究者可能并不清楚還有哪些重要影響變量,但是多元回歸在方法論層次更為優(yōu)越,提供了研究者進(jìn)行深入探索和檢驗的工具。八、回歸預(yù)測的區(qū)間估計九、回歸診斷前面我們已經(jīng)討論過回歸模型的正確估計和推斷必須依賴于一定的假定條件,如果我們的數(shù)據(jù)及變量分布不滿足這些假定條件,用回歸方法獲得的結(jié)果可能會有誤導(dǎo)性。本節(jié)將討論一些回歸診斷的方法,以檢驗我們的數(shù)據(jù)是否滿足線性回歸的假定條件。此外,還有一些問題并不直接涉及回歸的假定條件,但是對回歸結(jié)果的影響也很大,因此在進(jìn)行回歸分析時也要多加注意,比如案例的權(quán)勢影響和自變量之間的共線性問題。在回歸分析中對這類問題的檢查稱為診斷。十、最優(yōu)回歸方程的選擇(1)全部納入法(2)全部刪除法(3)向前回歸法(4)向后回歸法(5)逐步回歸法上述五種方式可結(jié)合運用。十一、標(biāo)識變量在回歸分析中的應(yīng)用在社會科學(xué)研究中,有許多分類變量,比如地區(qū)、時期、公司、民族、性別、婚姻狀況、教育程度、職業(yè)和居住地等分類。這些分類信息對于研究同樣是很重要的。雖然分類變量不能直接用于回歸分析,但是通過將分類變量轉(zhuǎn)換為按特定規(guī)則賦值的一套編碼變量后,便可以將其作為自變量納入多元線性回歸模型,用以解釋因變量的變化。并且,這種編碼變量可以承載原分類變量的所有信息,將其引入回歸方程后,所得到的回歸結(jié)果也具有明確的意義解釋。這類特殊編碼變量在統(tǒng)計分析中通常稱為標(biāo)識。(一)虛擬變量的建立與應(yīng)用分析1.建立虛擬變量的規(guī)則2.用單純虛擬變量的回歸模型來分析簡單類別差異3.用虛擬變量和間距變量的回歸模型分析經(jīng)統(tǒng)計調(diào)整的類別差異4.用虛擬變量、間距變量及其交互變量的回歸模型分析類別的水平差異和斜率差異(二)效應(yīng)變量的建立與應(yīng)用分析1.建立效應(yīng)變量的規(guī)則2.用單純效應(yīng)變量的回歸模型來分析簡單類別差異3.用效應(yīng)變量和間距變量的回歸模型分析經(jīng)統(tǒng)計調(diào)整的類別差異基本概念基本假定回歸方程截距回歸系數(shù)最小二乘估計確定系數(shù)偏確定系數(shù)整體檢驗偏回歸系數(shù)檢驗標(biāo)準(zhǔn)化回歸系數(shù)特定樣本性質(zhì)統(tǒng)計控制回歸診斷異常值杠桿值權(quán)勢影響偏回歸散點圖殘差正態(tài)性均方差性多元共線性誤差獨立性非線性關(guān)系虛擬編碼參照類效應(yīng)編碼大平均數(shù)方差分析協(xié)方差分析自變量交互作用本章要點1.多元回歸分析的功能是描述和預(yù)測多個自變量對一個因變量發(fā)生影響作用的數(shù)量關(guān)系。2.多元回歸分析的因變量必須為間距測度等級,其他自變量則必須為間距測度等級或特定的標(biāo)識編碼形式。3.在多元回歸中,確定系數(shù)表示所有自變量對于因變量的解釋能力。在社會科學(xué)研究中,多元回歸確定系數(shù)一般不是很高,因此這一方法多用來進(jìn)行分析和檢驗,較少用于預(yù)測。4.偏回歸系數(shù)表示在控制其他自變量的條件下,某一自變量與因變量之間在變量實際測量單位基礎(chǔ)上的數(shù)量關(guān)系,表示自變量每增加1個單位量所造成因變量的變化量。5.標(biāo)準(zhǔn)化偏回歸系數(shù)為某一自變量對因變量的純統(tǒng)計聯(lián)系,不受變量實際測量單位的影響,因此可以用來比較各自變量對因變量相對作用大小。參考文獻(xiàn)D.格杰雷蒂.計量經(jīng)濟(jì)學(xué)概論.劉宗鶴,趙明強譯.北京:農(nóng)業(yè)出版社,1988.約翰·內(nèi)特,威廉·沃塞曼,邁克爾·H·庫特納.應(yīng)用線性回歸模型.張勇,王國民,趙秀珍譯.北京:中國統(tǒng)計出版社,1990.N.R.Draper,H.Smith.應(yīng)用回歸分析.王學(xué)仁,溫忠嶙編譯.重慶:重慶大學(xué)出版社,1990.陳希孺,王松桂.近代實用回歸分析.南寧:廣西人民出版社,1984.第三章因子分析因子分析是多元統(tǒng)計分析技術(shù)的一個分支,其主要目的是濃縮數(shù)據(jù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個假想變量來表示基本的數(shù)據(jù)結(jié)構(gòu)。這些假想變量能夠反映原來眾多的觀測變量所代表的主要信息,并解釋這些觀測變量之間的相互依存關(guān)系,我們把這些假想變量稱為基礎(chǔ)變量,即:因子。因子分析就是研究如何以最少的信息丟失為代價把眾多的觀測變量濃縮為少數(shù)幾個因子。課外鏈接spss教程:因子分析/guide/detail/?id=1610017768課外鏈接因子分析(FactorAnalysis)/s?src=3×tamp=1530951925&ver=1&signature=wIOst3f1PiZhG8igzlTmxhrJhZLHx5WG3ydQ7QH6uHz7fA9VOjOBRRBlv1U560scNqzrpjdSjADUu6GG9iQtfRjdFvLcTRLRlVbF1Zrms0Fa92n9KgRs8r3-i8ko0msQ0zOT3FA2YzcD6EM1Y7E65lmtLnEBDUXZFmAZmou9V2A=一、因子分析原理(一)因子分析模型(二)因子分析中的有關(guān)概念1.因子負(fù)載2.公因子方差3.因子的貢獻(xiàn)因子負(fù)載是因子分析模型中最重要的一個統(tǒng)計量,它是連接觀測變量和公因子之間的紐帶。公因子方差也叫共同度,又稱公共方差,指觀測變量方差中由公因子決定的比例。每個公因子對數(shù)據(jù)的解釋能力,可以用該因子所解釋的總方差來衡量,通常稱為該因子的貢獻(xiàn),它等于和該因子有關(guān)的因子負(fù)載的平方和。(三)因子分析的步驟因子分析通常包括以下四個主要步驟:第一步是計算所有變量的相關(guān)矩陣。相關(guān)矩陣是因子分析直接要用的數(shù)據(jù),根據(jù)計算出的相關(guān)矩陣還應(yīng)該進(jìn)一步判斷應(yīng)用因子分析方法是否合適,這一點我們下面再討論。第二步是提取因子。在這一步要確定因子的個數(shù)和求因子解的方法。第三步是進(jìn)行因子旋轉(zhuǎn)。這一步的目的是通過坐標(biāo)變換使因子解的實際意義更容易解釋。第四步是計算因子值。因子值是各個因子在每個案例上的得分值,有了因子值可以在其他的分析中使用這些因子。例題:生育率的影響因素分析。生育率受社會、經(jīng)濟(jì)、文化、計劃生育政策等很多因素影響,但是這些因素對生育率的影響并不是完全獨立的,而是交織在一起的,如果直接用選定的變量對生育率進(jìn)行多元回歸分析,最終結(jié)果往往只能保留兩三個變量,其他變量的信息就丟失了。因此,我們首先對自變量進(jìn)行因子分析,找出基本的數(shù)據(jù)結(jié)構(gòu),用新生成的因子再對生育率進(jìn)行分析。這樣,一方面克服了自變量之間高度相關(guān)的缺陷,另一方面,又保留了這些變量的信息。二、求解初始因子在探測性因子分析中,求解初始因子這一步的主要目的是確定能夠解釋觀測變量之間相關(guān)關(guān)系的最小因子個數(shù)。根據(jù)所依據(jù)的準(zhǔn)則不同,有很多種求因子解的方法,主要可以分為兩類:一類是基于主成分分析模型的主成分分析法,另一類是基于第一節(jié)介紹的公因子模型的公因子分析法,包括主軸因子法、極大似然法、最小二乘法、α因子提取法、映象分析法等等。(一)主成分分析法主成分分析是一種數(shù)學(xué)變換的方法,它把給定的一組(比如k個)相關(guān)變量通過線性變換轉(zhuǎn)換成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。(二)公因子分析法公因子分析法的思想和主成分分析的不同。主成分分析從解釋變量的方差出發(fā),假設(shè)變量的方差能完全被主成分所解釋。而公因子模型是從解釋變量之間的相關(guān)關(guān)系出發(fā)的,假設(shè)觀測變量之間的相關(guān)能完全被公因子解釋,變量的方差不一定能完全被公因子解釋,這樣每個變量被公因子所解釋的方差不再是1,而是公因子方差。所以公因子模型在求因子解時,只考慮公因子方差。(三)因子求解方法對結(jié)果的影響在求解公因子模型時,只要求因子解能夠擬合相關(guān)矩陣主對角線以外的元素,通過調(diào)整主對角線上的元素,使得因子解能夠最大可能地“再現(xiàn)”觀測變量之間的相關(guān)關(guān)系,公因子方差不過是因子解的一個副產(chǎn)品。所以如果提取相同數(shù)目的因子,主成分法比公因子法能夠解釋更多的方差。三、解釋因子因子旋轉(zhuǎn)是尋求這一實際意義的有效工具,因子旋轉(zhuǎn)的目的是通過改變坐標(biāo)軸的位置,重新分配各個因子所解釋的方差的比例,使因子結(jié)構(gòu)更簡單,更易于解釋。因子旋轉(zhuǎn)不改變模型對數(shù)據(jù)的擬合程度,不改變每個變量的公因子方差。(一)正交旋轉(zhuǎn)方法各種因子旋轉(zhuǎn)方法的目標(biāo)都是簡化因子負(fù)載矩陣的行和列,使因子負(fù)載向0和1兩極分化。由于簡化準(zhǔn)則不同,產(chǎn)生了各種旋轉(zhuǎn)方法,有三種主要的正交旋轉(zhuǎn)方法:四次方最大法、方差最大法和等量最大法。(二)斜交旋轉(zhuǎn)方法斜交旋轉(zhuǎn)比正交旋轉(zhuǎn)更具有一般性,它沒有因子之間是不相關(guān)的這個限制。很明顯,要求正交的條件,犧牲了部分因子結(jié)構(gòu)的簡潔性,因為斜交旋轉(zhuǎn)中,因子之間的夾角可以是任意的,所以用斜交因子描述變量會使因子結(jié)構(gòu)更為簡潔。四、因子值及其應(yīng)用前面幾節(jié)我們主要解決了用因子來線性地表示一組觀測變量的有關(guān)問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析、對樣本進(jìn)行分類或評價,這些都需要對因子進(jìn)行測度,給出因子對應(yīng)每個樣本案例上的值,這些值稱為因子值。五、使用spss軟件進(jìn)行因子分析進(jìn)行因子分析有以下基本要素是需要研究者決策的:第一,指定參與因子分析的變量。第二,指定提取公因子的方法和確定因子個數(shù)的方法。第三,確定是否旋轉(zhuǎn)和選定因子旋轉(zhuǎn)方法。第四,確定是否計算因子值,并把它作為新變量保存起來?;靖拍罨窘Y(jié)構(gòu)數(shù)據(jù)化簡公因子特殊因子因子負(fù)載公因子方差因子貢獻(xiàn)主成分分析法公因子分析法提取因子特征值準(zhǔn)則碎石檢驗準(zhǔn)則碎石圖因子的解釋正交旋轉(zhuǎn)斜交旋轉(zhuǎn)因子值系數(shù)矩陣因子值本章要點1.因子分析的主要目的是濃縮數(shù)據(jù)。它用較少數(shù)的幾個假想因子來反映原來眾多觀測變量所代表的信息。2.因子分析主要用于兩個方面:一是尋求數(shù)據(jù)的基本結(jié)構(gòu),二是進(jìn)行數(shù)據(jù)化簡。3.因子分析用于分析間距測度及以上等級的變量,變量之間應(yīng)該有較強的相關(guān)關(guān)系。4.求解初始因子這一步驟確定因子的個數(shù)和求因子解的方法。當(dāng)變量數(shù)較多時,主成分法和公因子法的結(jié)果差異不大。5.因子旋轉(zhuǎn)的目的是通過坐標(biāo)變換使因子解的實際意義更容易解釋。因子旋轉(zhuǎn)不改變模型對數(shù)據(jù)的擬合程度,也不改變每個變量的公因子方差。參考文獻(xiàn)羅積玉,邢瑛.經(jīng)濟(jì)統(tǒng)計分析方法及預(yù)測.北京:清華大學(xué)出版社,1987.盧紋岱,朱一力,沙捷,朱紅兵.Spssforwindows從入門到精通.北京:電子工業(yè)出版社,1997.第四章聚類分析聚類分析是根據(jù)研究對象的特征對研究對象進(jìn)行分類的多元分析技術(shù)的總稱。分類問題是各個學(xué)科領(lǐng)域都普遍存在的問題,例如人口學(xué)中研究人口生育分類模式、人口死亡分類模式,醫(yī)學(xué)中對各種精神病特征的分析,市場營銷學(xué)中進(jìn)行市場分層、確定目標(biāo)市場等等,這些都需要對研究對象進(jìn)行分類。聚類分析是應(yīng)用最廣泛的分類技術(shù),它把性質(zhì)相近的個體歸為一類,使得同一類中的個體具有高度的同質(zhì)性,不同類之間的個體具有高度的異質(zhì)性。課外鏈接聚類分析在市場細(xì)分中的應(yīng)用/s?src=3×tamp=1530953468&ver=1&signature=IXB*IkLwdFOs*eSLfuVG6yyGl--mBocuBb-TT3IvHExxrMx-7jhasRQz5euPJRyTZ4g30nwD4Lj*UfMFTACcLWarB4yiEyemLfWCkBUPUmYfNP6LWNjtniJs3NglZu7c07VunHbYLIN6z9HgTMHROQ==一、聚類分析的主要步驟一般來說,聚類分析至少都應(yīng)該包括以下四個步驟:第一步,根據(jù)研究的目的選擇合適的聚類變量;第二步,計算相似性測度;第三步,選定聚類方法進(jìn)行聚類;第四步,對結(jié)果進(jìn)行解釋和驗證。下面我們對每一步驟進(jìn)行簡單介紹。(一)選擇變量因為聚類分析是根據(jù)所選定的變量對研究對象進(jìn)行分類,聚類的結(jié)果僅僅反映了所選定變量所定義的數(shù)據(jù)結(jié)構(gòu),所以變量的選擇在聚類分析中非常重要。一般來說,選擇哪些變量應(yīng)該具有一定的理論支持,但實踐中往往缺乏這樣強有力的理論基礎(chǔ),研究者一般是根據(jù)實際工作經(jīng)驗和所研究問題的特征人為地選擇一些變量。(二)計算相似性選定了聚類變量,下一步就是計算研究對象之間的相似性。相似性是聚類分析中的一個基本概念,它反映了研究對象之間的親疏程度,聚類分析就是根據(jù)研究對象之間的相似性來進(jìn)行分類的。有很多種相似性測度,關(guān)于它們的計算和使用,我們將在后面詳述。(三)聚類選定了聚類變量、計算出相似性矩陣之后,下一步就是要對研究對象進(jìn)行分類。這時主要涉及兩個問題:一是選定聚類方法,二是確定形成的類數(shù)。我們將在第三節(jié)介紹常用的聚類方法和如何確定形成的類數(shù)。(四)聚類結(jié)果的解釋和證實得到聚類結(jié)果后,還應(yīng)該對結(jié)果進(jìn)行驗證和解釋,以保證聚類解是可信的。二、相似性測度在聚類分析技術(shù)的發(fā)展過程中,形成了很多種測度相似性的方法。每一種方法都從不同的角度測度了研究對象的相似性,主要分為以下三類:(1)相關(guān)測度;(2)距離測度;(3)關(guān)聯(lián)測度。其中相關(guān)測度和距離測度適用于間距測度等級及以上的數(shù)據(jù),關(guān)聯(lián)測度適用于名義測度和序次測度的數(shù)據(jù)。(一)相關(guān)測度應(yīng)用最廣泛的相關(guān)測度是皮爾遜相關(guān)系數(shù),即簡單相關(guān)系數(shù)。它最初用來測度變量之間的相關(guān)程度,聚類分析中用它來測度案例之間的相似程度。(二)距離測度距離測度的出發(fā)點是把每個案例看作m維空間(m為變量個數(shù))中的一個點,在犿維空間中定義點與點之間的距離。距離越近的點,相似程度越高,聚類時更可能歸為一類。如果兩個案例在所有的變量上的值都相同,這兩個點在m維空間中應(yīng)該重合,兩個點之間的距離為0。(三)關(guān)聯(lián)測度關(guān)聯(lián)測度用來度量聚類變量為分類變量的研究對象的相似性。有很多種關(guān)聯(lián)測度系數(shù),其中只有三種得到了廣泛的應(yīng)用,它們分別是簡單匹配系數(shù)、Jaccard和Gower系數(shù)。(四)數(shù)據(jù)的標(biāo)準(zhǔn)化問題前面介紹的大部分相似測度,特別是距離測度,受聚類變量測量單位的影響很大。其中數(shù)量級單位大的變量往往其變差也大,它對相似測度的貢獻(xiàn)占主導(dǎo)地位,這樣就可能掩蓋了其他變差小的變量的影響。另外,當(dāng)變量的測量單位變化時,相似測度的值也隨之改變,有可能改變最終的聚類結(jié)果。為了克服變量測量單位的影響,在計算相似測度之前,一般對變量要做標(biāo)準(zhǔn)化處理。通常是把變量變成均值為0、方差為1的標(biāo)準(zhǔn)化變量。常用的聚類分析軟件中都有這項功能,可以自動完成。三、聚類方法有很多種聚類方法,應(yīng)用最廣泛的有兩類:層次聚類法和迭代聚類法。(一)層次聚類法有兩種層次聚類法:聚集法和分解法。聚集法是首先把每個案例各自看成一類,先把距離最近的兩類合并,然后重新計算類與類之間的距離,再把距離最近的兩類合并,每一步減少一類,這個過程一直持續(xù)到所有的案例歸為一類為止。分解法和聚集法的過程相反,首先把所有的案例歸為一類,然后把最不相似的案例分為兩類,每一步增加一類,直到每個案例都自成一類為止。分解法和聚集法相似,只是過程相反。所以,這里我們只介紹常用的層次聚集算法。層次聚集法是聚類分析中應(yīng)用最廣泛的聚類方法,層次聚集法的聚類過程可以用一個樹狀表示出來,根據(jù)該樹狀結(jié)構(gòu)圖可進(jìn)行不同的分類處理。(二)迭代聚類法層次聚類法在聚類過程中需要存儲距離矩陣,并且在每一步的并類過程中都需要做很多計算。這樣,當(dāng)樣本量很大時會需要較大的計算機內(nèi)存空間和較長的計算時間。迭代聚類法克服了層次聚類法的這兩個缺點,具有占計算機內(nèi)存空間小、速度快的優(yōu)點,適用于大樣本的聚類分析。(三)分類數(shù)的確定到目前為止,我們還沒有討論過如何確定分類數(shù),聚類分析的目的是要對研究對象進(jìn)行分類,因此如何選擇分類數(shù)成為各種聚類方法中的主要問題之一。在迭代聚類法中,聚類之前需要指定分類數(shù),層次聚類法中我們最終得到的只是一個樹狀結(jié)構(gòu)圖,從圖中可以看出存在很多不同的類,但問題是如何確定類的最佳個數(shù)。(四)聚類方法的選擇因為不同的聚類方法對于同一數(shù)據(jù)會得出不同的聚類結(jié)果,那么如何從眾多的聚類方法中進(jìn)行選擇呢?遺憾的是對這一問題并沒有明確的答案,因為并不存在一種總是最優(yōu)的聚類方法。很多對聚類方法的比較研究表明,某種聚類方法是否能發(fā)現(xiàn)真實的數(shù)據(jù)結(jié)構(gòu),受很多因素的影響,至少以下四個因素會大大影響聚類方法的使用效果:(1)類的結(jié)構(gòu)(主要指類的形狀、規(guī)模和個數(shù))。(2)異常值(outliers)的存在。(3)類與類之間重疊的程度。(4)相似測度的選擇。四、聚類結(jié)果的解釋和證實對聚類結(jié)果進(jìn)行解釋是希望對各個類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個合適的名稱。這一步可以借助于各種描述性統(tǒng)計量進(jìn)行分析,通常做法是計算各個類在各聚類變量上的均值,對均值進(jìn)行比較分析,還可以使用聚類變量之外的其他變量,幫助描述各個類的特征,解釋各個類差別的原因。五、使用spss軟件進(jìn)行聚類分析(一)HierarchicalCluster1.指定參與聚類的變量2.指定聚類對象進(jìn)行變量聚類3.指定聚類方法4.選擇要輸出的統(tǒng)計量5.選擇要輸出的統(tǒng)計圖表6.生成新變量(二)K-MeansCluster1.指定聚類變量2.確定分類數(shù)3.引用和存放聚類平均值4.迭代設(shè)置5.備選項目5.備選項目基本概念聚類對象聚類變量對案例聚類相似性相關(guān)測度距離測度關(guān)聯(lián)測度數(shù)據(jù)標(biāo)準(zhǔn)化層次聚類法聚集法分解法樹狀圖類別距離測量法聚類進(jìn)度表冰柱圖迭代聚類法初始聚類中心最終聚類中心聚合系數(shù)類別歸屬距所屬類中心的距離本章要點1.聚類分析是應(yīng)用最廣泛的分類技術(shù)。它根據(jù)研究對象之間的相似性對研究對象進(jìn)行分類。聚類分析可以用來對案例進(jìn)行分類,也可以用來對變量進(jìn)行分類。2.選擇合適的聚類變量在分析中至關(guān)重要。選擇這些變量的要求是:各聚類分析的目標(biāo)密切相關(guān),反映要分類對象的特征,在不同研究對象上的值具有明顯差異,變量之間不存在高度相關(guān)。3.應(yīng)該根據(jù)變量的測度等級選擇合適的相似性測度。相關(guān)測度和距離測度適用于間距測度及以上的數(shù)據(jù),關(guān)聯(lián)測度適用于名義測度和序次測度的數(shù)據(jù)。4.每一種聚類方法各有特點。層次聚類法只能單方向進(jìn)行聚類,聚類結(jié)果受數(shù)據(jù)中異常值的影響很大。迭代聚類法初始分類非常敏感,通常也只能得到局部最優(yōu)解。把這兩種方法結(jié)合起來使用,可以取長補短。參考文獻(xiàn)馮立天,戴星翼.中國人口生活質(zhì)量再研究.北京:高等教育出版社,1996.羅積玉,邢瑛.經(jīng)濟(jì)統(tǒng)計分析方法及預(yù)測.北京:清華大學(xué)出版社,1987.盧紋岱,朱一力,沙捷,朱紅兵.SPSSforWindows從入門到精通.北京:電子工業(yè)出版社,1997.張風(fēng)雨,楚軍紅等譯.SPSSBASE系統(tǒng)用戶指南.北京:北京大學(xué)人口研究所,1995.第五章通徑分析一、引言科學(xué)的最終目的在于揭示事物變化的內(nèi)在規(guī)律,因果關(guān)系是事物內(nèi)在規(guī)律的一種基本形式。然而,事物的內(nèi)在聯(lián)系并不能被直接觀察到,所以需要在科學(xué)研究中應(yīng)用各種方法來加以探索和分析。通徑分析便是一種探索系統(tǒng)因果關(guān)系的統(tǒng)計方法。二、通徑模型的設(shè)置通徑模型既可以用結(jié)構(gòu)方程組的形式來表示,也可以用通徑圖來表示。為了表達(dá)和分析上的簡明,一般在通徑分析中采用標(biāo)準(zhǔn)化的變量,并按照因果序列給出相應(yīng)的下標(biāo)。三、遞歸通徑模型與非遞歸通徑模型通徑模型有兩種基本類型:遞歸模型與非遞歸模型。兩種模型在分析時有所不同。遞歸模型可以直接通過常規(guī)最小二乘法回歸(OLS)來取得通徑系數(shù)估計值,而對于非遞歸模型則不能這樣做。盡管本章主要介紹遞歸模型的通徑分析,但是要求讀者能夠預(yù)先正確判斷一個模型的類型屬性,才能保證應(yīng)用這些分析技術(shù)時不會發(fā)生搞錯研究對象的問題。(一)遞歸通徑模型因果關(guān)系結(jié)構(gòu)中全部為單向鏈條關(guān)系、無反饋作用的模型稱為遞歸模型。并且這意味著在這種模型中,各內(nèi)生變量與其原因變量的誤差之間、各兩個內(nèi)生變量的誤差之間必須相互獨立,即相關(guān)系數(shù)為0。(二)非遞歸通徑模型與遞歸模型相對的另一類模型稱作非遞歸模型。通徑分析在分解相關(guān)系數(shù)時以模型中所有變量之間的相關(guān)系數(shù)矩陣作為基礎(chǔ)數(shù)據(jù),分析也比較繁瑣,我們將放到后面來介紹。而利用通徑分析技術(shù)分解簡單回歸系數(shù)時可以直接依賴計算機統(tǒng)計軟件所輸出的回歸系數(shù)。借助上面陳述的兩個基本性質(zhì),我們將直接以計算輸出的標(biāo)準(zhǔn)化回歸系數(shù)作為基礎(chǔ)數(shù)據(jù),展示遞歸通徑模型分析技術(shù)。(三)遞歸通徑模型分析的假設(shè)條件總結(jié)本節(jié)以上討論,可以歸納出遞歸通徑模型需要滿足以下假設(shè)和限制條件:第一,通徑模型中各變量之間的關(guān)系為線性、可加的因果關(guān)系。模型變量之間的關(guān)系必須為線性關(guān)系,意味著在設(shè)立因果關(guān)系時,原因變量的每一單位變化引起結(jié)果變量的變化量不變。由于變量之間的關(guān)系是線性的,進(jìn)而達(dá)到一個結(jié)果變量在受多個原因變量作用時,各原因變量的作用可以迭加。盡管通徑分析本來可以處理交互作用,但不作為本章介紹的內(nèi)容。第二,每一內(nèi)生變量的誤差項與其前置變量不得相關(guān),同時也不得與其他內(nèi)生變量的誤差項相關(guān)。這就是說,假設(shè)誤差項所代表的一些未明確納入模型的變量不能與前置變量相關(guān)。同時,模型不對外生變量之間的相關(guān)進(jìn)行分析。第三,模型中因果關(guān)系必須為單向,不得包括各種形式的反饋作用。第四,模型中各變量均為間距測度等級。第五,各變量的測量不存在誤差。在滿足上述假設(shè)條件的情況下,便同時滿足了一般回歸的假設(shè)條件,因此通徑分析可以通過對每個內(nèi)生變量進(jìn)行簡單或多元常規(guī)回歸求解模型中各通徑的系數(shù)。四、分解簡單回歸系數(shù)的通徑分析在遞歸模型中,通過回歸分析得到模型的所有通徑系數(shù)以后,可以在此基礎(chǔ)上對于變量之間簡單回歸系數(shù)進(jìn)行分解。與下一節(jié)將要介紹的對相關(guān)系數(shù)分解的方法有所不同,在對回歸系數(shù)分解的通徑分析中,我們將忽略各個回歸方程的誤差項。實際上,每個內(nèi)生變量的誤差項都作為模型的外部影響單列處理。分解簡單回歸系數(shù)的通徑分析的主要功能如下:第一,計算一個變量對最終反應(yīng)變量的直接影響和間接影響,以及作為兩者之和的總影響。第二,在間接影響中,還可以分解出以不同通徑傳遞的間接影響。第三,在控制某些變量的條件下,完成上面兩項工作。第四,對于通徑模型進(jìn)行檢驗,包括對各通徑的檢驗,以及對過度識別模型進(jìn)行檢驗。(一)外生變量對最終反應(yīng)變量的各種影響當(dāng)最終反應(yīng)變量完全作為一個外生變量的函數(shù)時,我們就稱這個表達(dá)式為簡化型模型。在簡化型模型中最終反應(yīng)變量與這一外生變量之間的關(guān)系就通過括號中的部分表示,它就是總影響。而括號中可以包括一項直接影響和若干項間接影響。因為本例中的模型過于簡單,所以只有兩項。(二)以不同通徑傳遞的間接影響如果模型比較復(fù)雜,則簡化型模型便會呈現(xiàn)較為復(fù)雜的情況。由于中間變量較多,一個原因變量對于結(jié)果變量的總間接影響是通過各種通徑傳遞影響的總和。而這些不同的間接影響可以應(yīng)用通徑分析來進(jìn)行分解。(三)在控制某些變量的條件下的總影響的分解在研究工作中,除了需要分析一個原因變量對反應(yīng)變量的總影響并將其分解為直接作用、各種間接作用以外,常常還需要知道在控制某些中間變量的作用以后上述各種影響的強度和方向。這一需要導(dǎo)致了本小節(jié)所要介紹的分析技術(shù)的產(chǎn)生?!翱刂啤边@一概念是整個統(tǒng)計研究的一個極為重要的內(nèi)容。這里所說的控制的目的是為獲得凈作用,并且采取的是統(tǒng)計調(diào)整法手段。在多元回歸中我們已經(jīng)介紹了這種控制的概念。在通徑分析中的控制,實際上是分析如果控制變量處被阻斷以后,原因變量還能發(fā)揮哪些作用。(四)標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化的通徑系數(shù)在統(tǒng)計文獻(xiàn)中,對于通徑分析以及回歸分析中采用標(biāo)準(zhǔn)化系數(shù)還是采用非標(biāo)準(zhǔn)化系數(shù)一直有所爭論。實際上,兩種方式各有其優(yōu)缺點。標(biāo)準(zhǔn)化系數(shù)的優(yōu)點在于,它沒有測量單位,因而在同一層次中的通徑系數(shù)(即同一回歸中不同的偏回歸系數(shù))之間具有可比性。同時,標(biāo)準(zhǔn)化系數(shù)的采用在通徑分析中能使分解和表達(dá)變得更簡單。但是標(biāo)準(zhǔn)化系數(shù)所反映的不僅是自變量對因變量的影響強度,而且還反映了模型中各變量的方差以及它們之間的協(xié)方差,甚至還反映了寓于誤差項之內(nèi)的未包括在模型中的那些變量的方差。(五)用列表法報告各種影響作用分解通常在進(jìn)行了通徑系數(shù)估計之后,都以通徑結(jié)構(gòu)方程組或通徑圖的形式提供報告。然后對于一些簡化型方程所得到的各種影響的分解結(jié)果以列表的形式給出,這不但能夠以簡明的格式表達(dá)多種分解情況,而且還同時對于分解結(jié)果進(jìn)行了驗算。五、分解簡單相關(guān)系數(shù)的通徑分析實際上,通徑分析技術(shù)是從分解相關(guān)系數(shù)發(fā)展起來的,因此分解相關(guān)系數(shù)的通徑分析更帶有一般性意義,并且可以更清楚地揭示出通徑分析的原理。此外,分解相關(guān)系數(shù)的通徑分析還與通徑模型的統(tǒng)計檢驗的理解相聯(lián)系。六、通徑模型的調(diào)試與檢驗通徑模型建立以后,除了估計通徑系數(shù)、分解各種不同作用組成部分以外,通常還需要進(jìn)行模型的調(diào)試與模型的統(tǒng)計檢驗。(一)通徑模型的調(diào)試在很多情況下,通徑模型的調(diào)試及分析往往是先從飽和模型的建立開始的。但是飽和模型往往并不是我們實際上想要的最終模型,飽和模型經(jīng)常只是作為一個起點或基準(zhǔn),并且下一小節(jié)將說明,真正能夠檢驗的是非飽和模型,而飽和模型無法進(jìn)行整個模型的統(tǒng)計檢驗。飽和模型的因果關(guān)系結(jié)構(gòu)必須建立在實際經(jīng)驗的總結(jié)和一定的理論假設(shè)之上。比如,可以通過變量之間的邏輯關(guān)系、時間關(guān)系來設(shè)置因果結(jié)構(gòu)。但是,飽和模型通常都需要進(jìn)一步調(diào)試。有時,調(diào)試是出于初步統(tǒng)計分析的需要,有時是出于理論分析的需要。(二)通徑模型的識別本章第五節(jié)中討論了通徑模型中所有變量之間的相關(guān)系數(shù)可能以通徑系數(shù)函數(shù)的形式來表達(dá),那么反過來還有通徑系數(shù)能否用相關(guān)系數(shù)表達(dá)的問題。模型中所有變量之間的通徑系數(shù)是否能夠完全以相關(guān)系數(shù)表達(dá)是這一模型的基本性質(zhì),這一性質(zhì)在評價和檢驗一個具體模型的有效性時具有十分重要意義。對這一性質(zhì)的判斷在通徑分析中稱為模型的識別。所謂識別,就是判斷模型參數(shù)是否可以被估計出來。(三)對過度識別的通徑模型的整體檢驗方法對于遞歸模型來說,過度識別模型是飽和模型中刪除若干通徑后所形成的模型。因為不論如何具體設(shè)置,飽和遞歸模型能夠完全擬合數(shù)據(jù),即通過其通徑系數(shù)能夠完美地反求出模型變量之間的所有實測相關(guān)系數(shù),因此飽和模型就是完美擬合的代表,可以作為評價非飽和模型(即過度識別模型)的基準(zhǔn)。所以,對于非飽和模型的評價,就是通過其對于相關(guān)系數(shù)的估計與飽和模型估計的相關(guān)系數(shù)進(jìn)行比較所進(jìn)行的。注意要檢驗的非飽和模型實際上是作為標(biāo)準(zhǔn)的飽和模型中的一部分,它除了刪掉了某些通徑(也可以說是將這些通徑系數(shù)值設(shè)置為0)以外,其余部分與作為標(biāo)準(zhǔn)的飽和模型完全相同。這種關(guān)系在統(tǒng)計上稱為嵌套。1.在用飽和模型作為基準(zhǔn)模型時的檢驗2.兩個嵌套的非飽和模型之間差異的比較七、示范例題下面我們用第二章例3回歸方程所用的五個變量建立一個通徑模型,然后分解回歸系數(shù),并根據(jù)有關(guān)回歸結(jié)果進(jìn)行該通徑模型的調(diào)試,最后示范調(diào)試模型的統(tǒng)計檢驗。這個例題并不是一個具有嚴(yán)格理論意義上的研究,其主要目的是示范通徑分析的操作步驟,并通過其具體的統(tǒng)計結(jié)果幫助讀者深入了解通徑分析的原理以及它與回歸分析的不同之處。(一)初始通徑模型(二)初始模型的模擬結(jié)果(三)調(diào)試模型的模擬結(jié)果將圖5—10中兩條統(tǒng)計不顯著的通徑刪去,便得到了新的調(diào)試模型。其中還是有四個內(nèi)生變量,表明它仍是一個四個回歸方程的聯(lián)立方程組。其實,這時其他的方程都沒有任何變化,只有初始模型中的回歸(3)發(fā)生了變化,由三個自變量的多元回歸變成了一個簡單回歸,我們將這個方程稱為回歸(3′)。將其取得的標(biāo)準(zhǔn)化回歸系數(shù)替代初始估計,于是我們就可以將調(diào)試模型的估計結(jié)果畫為一個新的通徑圖。(四)外生變量對最終反應(yīng)變量的影響分解表在初始模型中,如果不考慮各通徑系數(shù)的統(tǒng)計顯著性,人均收入對死亡率的因果影響鏈條是非常復(fù)雜的。它的直接影響為-0.325,表明經(jīng)濟(jì)水平提高可以降低死亡水平。但是它還存在很多的間接影響,其中既有正作用的,也有反作用的,合計的間接總影響為正的0.122。所以,負(fù)的直接影響與正的間接總影響發(fā)生部分抵消,導(dǎo)致人均收入的總影響為-0.204,小于其直接影響幅度。實際上,由于初始模型是一個飽和模型,因此這個總影響的方向與幅度就等于用死亡率對人均收入做簡單回歸取得的標(biāo)準(zhǔn)化回歸系數(shù)。這種結(jié)果并不是出于巧合,而是由統(tǒng)計原理決定的。就此,我們便可以知道,一個簡單回歸雖然并沒有包括其他自變量,但其回歸系數(shù)中其實包含著該自變量通過其他自變量傳遞的間接影響。同時,我們也不應(yīng)該將簡單回歸系數(shù)看成是一種“虛假的”影響,因為它不是虛假的,而是表達(dá)了該自變量對因變量的總影響。(五)調(diào)試模型的統(tǒng)計檢驗上述擬合的調(diào)試模型是通過從初始模型中刪除了兩條通徑后得到的,于是我們就很關(guān)心:這兩條通徑的刪除應(yīng)該理解為出于數(shù)據(jù)樣本的抽樣誤差,而兩個模型之間差異不大,還是應(yīng)該將這種改變理解為兩個模型存在統(tǒng)計性顯著的差異,因此需要拒絕初始模型的理論假設(shè)?這就需要以初始模型作為標(biāo)準(zhǔn)對調(diào)試模型進(jìn)行統(tǒng)計檢驗?;靖拍钔◤侥P屯◤椒匠探M通徑圖通徑系數(shù)外生變量內(nèi)生變量誤差最終反應(yīng)變量遞歸模型非遞歸模型直接影響間接影響總間接影響總影響簡化型模型中間變量飽和模型控制變量偏簡化式標(biāo)準(zhǔn)化系數(shù)非標(biāo)準(zhǔn)化系數(shù)作用分解表偽相關(guān)未析部分模型調(diào)試模型識別過度識別模型模型檢驗放大鏡效應(yīng)顯微鏡效應(yīng)本章要點1.通徑分析探索變量系統(tǒng)的因果關(guān)系結(jié)構(gòu),描述變量之間作用的鏈條傳遞形式。2.通徑模型有兩種類型:遞歸模型與非遞歸模型。本章介紹了這兩種模型的辨別,但是只討論了遞歸模型的建立和分析。3.通徑分析可以用來分解簡單回歸系數(shù),其主要功能是將一個變量對最終反應(yīng)變量的總影響劃分為直接影響和間接影響,并且可以將間接影響進(jìn)一步劃分為以不同通徑傳遞的部分。4.通徑分析還可以用來分解簡單相關(guān)系數(shù)。對簡單相關(guān)系數(shù)的分解包含了對于簡單回歸系數(shù)的分解,它不僅提供一個變量與最終反應(yīng)變量之間簡單相關(guān)系數(shù)之中所包含的直接影響和間接影響,還提供了其中的未析部分和偽相關(guān)部分。5.由于通徑分析是建立在回歸分析和相關(guān)分析基礎(chǔ)上的分析,因此屬于更高層次的分析方法。這一分析技術(shù)不僅具有巨大的實際應(yīng)用價值,而且對于深刻理解回歸分析和相關(guān)分析具有重要的方法論指導(dǎo)意義。參考文獻(xiàn)郭志剛,郝虹生,杜亞軍,曲海波.社會調(diào)查研究的量化方法.北京:中國人民大學(xué)出版社,1989.劉大椿.科學(xué)活動論.北京:人民出版社,1985.第六章logistic回歸知識鏈接邏輯斯蒂(logistic)回歸深入理解、闡述與實現(xiàn)/happylion/p/4169945.html一、引言線性回歸分析在社會科學(xué)中已經(jīng)得到廣泛應(yīng)用,成為標(biāo)準(zhǔn)的統(tǒng)計工具。作為多元分析,它能夠納入多個自變量,對社會現(xiàn)象提供較深入的解釋力。同時,它的計算機軟件現(xiàn)在已廣為可得,它的統(tǒng)計結(jié)果又可以比較直觀地得到解釋。線性回歸的確具有許多良好的統(tǒng)計性質(zhì),甚至在應(yīng)用中的一些必要的假設(shè)條件不能完全滿足時,它也仍然可以得到不失為合理的結(jié)果。二、從線性回歸到logistic回歸根據(jù)實際研究的需要而不斷對線性回歸進(jìn)行改造和發(fā)展促使了logistic回歸的產(chǎn)生。線性回歸不適用于因變量為定性變量的場合,本節(jié)通過這一發(fā)展過程來介紹logistic回歸克服了線性回歸的缺陷,以服務(wù)于對定性因變量的多元分析。同時,也就介紹了logistic回歸的一般原理及其具有的性質(zhì)。多元線性回歸不能應(yīng)用于定性因變量分析主要是由于以下兩個主要方面。(一)線性回歸使用定性因變量嚴(yán)重違反本身假定首先,線性回歸屬于一般最小二乘法一族的統(tǒng)計分析。這種方法通常要求變量,尤其是因變量,在間距測度等級以上,也就是平常所說的連續(xù)變量。它還要求自變量之間不能完全相關(guān),這是OLS回歸能夠求解的前提。此外,它還需要一系列其他假定條件,其中特別是關(guān)于誤差項犲的假定。(二)線性概率模型及其問題當(dāng)因變量只能取值0和1,并作為事件發(fā)生與不發(fā)生兩種情況來理解時,OLS和WLS都是線性概率模型?!熬€性”指模型中假設(shè)自變量對因變量的作用是線性的;“概率”則是指將模型的因變量估計值理解為發(fā)生概率,根據(jù)觀測數(shù)據(jù)中事件發(fā)生和不發(fā)生的案例數(shù)量來估計。這樣一來,回歸模型就是在分析當(dāng)自變量變化時概率p是如何變化的。這時,解釋不同自變量值所產(chǎn)生的因變量估計卻存在很大問題。三、logistic回歸模型的建立上一節(jié)說明,如果我們錯誤地認(rèn)定模型是線性的,那么在線性假設(shè)下導(dǎo)出的統(tǒng)計性質(zhì)一般來說不能成立。其次,還有許多原因?qū)е录僭O(shè)概率與自變量為線性關(guān)系在很多場合并不實用。以非線性概率模型來代替線性概率模型能夠解決這些問題。(一)logistic函數(shù)及其性質(zhì)(二)logistic回歸模型因變量的不同形式四、logistic回歸系數(shù)的意義由于logistic回歸中的因變量本來是表示事件發(fā)生或不發(fā)生的虛擬變量(即0、1編碼),只代表結(jié)果上的不同類別,不具備尺度信息,因此logistic回歸系數(shù)也就不具有確定尺度信息。也就是說,logistic回歸系數(shù)提供的是自變量影響的相對幅度,而不是絕對幅度。logistic回歸系數(shù)的理解和闡釋可以從下面兩個方面來進(jìn)行。(一)以logit(p)方程的線性表達(dá)式來解釋回歸系數(shù)方程logit(p)=∑bx與一般的多元線性回歸方程在形式上相同,是線性表達(dá)式。方程右側(cè)各項自變量的作用體現(xiàn)在回歸系數(shù)犫犻上。各自變量的總影響是由常數(shù)項與各項自變量及相應(yīng)偏回歸系數(shù)之積的迭加形成的。這種形式使得我們能夠以類似常規(guī)多元線性回歸方程的形式來理解和闡釋它。(二)以發(fā)生比Ω的指數(shù)表達(dá)式來解釋回歸系數(shù)與logit(p)不同,發(fā)生比Ω具有一定的實際意義,它代表一種相對風(fēng)險。這一概念在博弈時使用較多。因此,對logistic回歸系數(shù)的解釋通常是從以發(fā)生比的指數(shù)表達(dá)式出發(fā)的。(三)幾種特殊情況的討論1.自變量為虛擬變量2.交互效應(yīng)的分析3.非線性關(guān)系的分析(四)標(biāo)準(zhǔn)化的logistic回歸系數(shù)與常規(guī)回歸類似,由于自變量所取單位不同,非標(biāo)準(zhǔn)化的logistic回歸系數(shù)不能用于比較各自變量相對作用,只有經(jīng)過標(biāo)準(zhǔn)化后的logistic回歸系數(shù)才能用來進(jìn)行自變量之間的比較。但是,標(biāo)準(zhǔn)化的logistic回歸系數(shù)的計算方法與常規(guī)回歸中標(biāo)準(zhǔn)化系數(shù)的計算方法不同,并且存在幾種不同口徑。五、logistic模型的整體評價和檢驗(一)對于整體模型的評價人們希望了解logistic回歸模型的擬合情況或解釋能力,統(tǒng)計學(xué)家也提出了許多偽確定系指標(biāo)作為近似量度。這些偽確定系數(shù)的建構(gòu)思路基本一致,都是根據(jù)模型擬合的似然函數(shù)值來反映擬合情況。(二)對于整體模型的檢驗我們在評價或檢驗一個含有自變量的logistic回歸模型時,通常是將其與截距模型相比較,兩者構(gòu)成嵌套模型。所謂截距模型,就是將所有自變量刪除后只剩一個截距系數(shù)的模型。以截距模型作為標(biāo)準(zhǔn),檢查加入其他自變量后的模型在數(shù)據(jù)擬合水平上是否顯著提高。換句話說,就是檢查解釋變量是否像模型假設(shè)的那樣真的能解釋因變量。六、logistic模型回歸系數(shù)的統(tǒng)計檢驗(一)回歸系數(shù)的檢驗SPSS軟件在執(zhí)行l(wèi)ogistic回歸時除報告回歸系數(shù)b(標(biāo)為B)的估計值以外,還自動報告相關(guān)統(tǒng)計檢驗量,如標(biāo)準(zhǔn)誤、Wald統(tǒng)計量、自由度、顯著度和回歸系數(shù)的冪值(二)系數(shù)子集的聯(lián)合假設(shè)檢驗在很多情況下,研究興趣旨在由多個變量組成的自變量組而又不是全體系數(shù)的重要性和顯著性。比如,在logistic回歸方程中有5個自變量,其中變量x1、x2是調(diào)查對象的人口學(xué)特征,而變量x3、x4、x5為調(diào)查對象的各種社會經(jīng)濟(jì)特征。Wald檢驗可以用來檢驗各種社會經(jīng)濟(jì)特征對y的作用差別。然而,這種檢驗是個別方面的檢驗,沒能提供對于社會經(jīng)濟(jì)方面聯(lián)合作用的適當(dāng)檢驗。此外,也許這三個系數(shù)單獨并不與狔有顯著聯(lián)系,但是這并不意味著三個變量一起對狔也沒有顯著作用。實際上,前面我們已經(jīng)提到過這種變量組(Block)的聯(lián)合檢驗。七、logistic回歸示范例題(一)自變量同時納入模型進(jìn)行回歸(二)含交互作用的回歸(三)自變量組分步納入的回歸(四)自動篩選顯著自變量的回歸有時研究者想從多個自變量中篩選出解釋能力最強的部分。SPSS的logistic回歸提供了多種自動篩選最佳自變量的功能。不過,除了探索性分析,我們并不提倡此類數(shù)據(jù)驅(qū)動的分析。決定是否納入某些變量,研究者應(yīng)該有一定的理論和經(jīng)驗依據(jù)。當(dāng)樣本規(guī)模無力檢驗更多自變量時,可以考慮僅將最顯著的控制變量留下,而研究變量在自動篩選中無論顯著與否都應(yīng)該留下。這時我們可以將研究變量作為強制納入模型的一個組,而其他控制變量則放在另一個組中,允許程序進(jìn)行自動篩選。八、logistic回歸的擴(kuò)展之一:多分類logistic回歸上面我們介紹了因變量為二名義變量的logistic回歸的原理和方法。實際研究中還會經(jīng)常遇到多分類的名義變量或序次變量,它們的取值類數(shù)大于2,各個分類之間沒有大小關(guān)系,或者即使有大小關(guān)系,確切差距也不能確定。前者如通勤方式選擇(坐公交、坐地鐵、自駕車),工作單位類型(政府部門及事業(yè)單位、國有集體企業(yè)、外資企業(yè)、私營企業(yè));后者如生活滿意度評價(很滿意、比較滿意、一般、比較不滿意、非常不滿意),或者老年人對自身自理能力的評估(完全能自理、部分能自理、不能自理)等等。(一)多分類logistic回歸原理(二)多分類logistic回歸示例九、logistic回歸的擴(kuò)展之二:序次logistic回歸多分類logistic回歸作為logistic回歸的擴(kuò)展,適用于包含多個分類且各類別之間不存在序次關(guān)系的因變量。本節(jié)將介紹logistic模型的第二種擴(kuò)展———序次logistic回歸,它能為因變量存在多個類別且各類別之間存在序次關(guān)系的情況提供更為簡潔的估計結(jié)果。(一)序次logistic回歸原理(二)序次logistic回歸示例基本概念二分變量線性概率模型logistic函數(shù)發(fā)生比對數(shù)發(fā)生比優(yōu)勢比相對風(fēng)險比似然函數(shù)值似然比嵌套模型截距模型完全模型簡化模型模型系數(shù)綜合檢驗交互作用多分類logistic回歸關(guān)于無關(guān)選項獨立假定主效應(yīng)模型全因素模型序次logistic回歸累積logit模型比例發(fā)生比模型門檻平行回歸假定比例發(fā)生比假定多分類一般模型連接函數(shù)位置模型尺度模型位置—尺度模型本章要點1.對logistic模型作為廣義線性模型的基本原理進(jìn)行了介紹。logit轉(zhuǎn)換是logistic模型突破因變量為分類變量限制的關(guān)鍵,而經(jīng)過對數(shù)化的發(fā)生比與自變量之間形成了線性可加關(guān)系。logit轉(zhuǎn)換使得模型系數(shù)的解釋比一般線性回歸中更為復(fù)雜。對于發(fā)生概率、發(fā)生比、優(yōu)勢比等概念的掌握有利于對本章介紹模型的理解。2.給出了二分類logistic模型的整體檢驗與擬合優(yōu)度評價標(biāo)準(zhǔn),介紹了模型中檢驗單個自變量影響及自變量組影響的原理和方法。嵌套模型的概念和嵌套比較在logistic模型評價上得到進(jìn)一步的發(fā)揮。3.對多分類logistic回歸的原理進(jìn)行了介紹,演示了如何在該模型中進(jìn)行整體檢驗、整體擬合優(yōu)度評估,并對模型具體回歸參數(shù)的解讀進(jìn)行了說明。著重介紹了獨立于無關(guān)選項假定及其檢驗。4.對序次logistic回歸模型及其他廣義序次模型的原理和操作進(jìn)行了介紹,對這一模型背后的平行線假定進(jìn)行了說明。簡要介紹了本章各類模型之間的嵌套關(guān)系和其他后續(xù)拓展。參考文獻(xiàn)王濟(jì)川,郭志剛.logistic回歸模型———方法與應(yīng)用,北京:高等教育出版社,2001.丹尼爾·A·鮑威斯,謝宇.分類數(shù)據(jù)分析的統(tǒng)計方法.任強等譯.北京:社會科學(xué)文獻(xiàn)出版社,2009.劉錚.人口學(xué)辭典.北京:人民出版社,1986.夏傳玲,麻鳳利.子女?dāng)?shù)對家庭養(yǎng)老功能的影響.人口研究,1995(1).第七章泊松回歸數(shù)」風(fēng)流人物,還靠泊松回歸|協(xié)和八/s?src=11×tamp=1530963933&ver=984&signature=kaUuB*Mp-XihJlnmaDk6YgL2ehBbsp0oKKeqBM0OXY59Ye1SouU2DYXHYIKxhItcFeRTFyRCIVfquZ67FlUgvntL8upsHXPsrEJpY6blo*zc6BCbgUxgpErdFzQWPlmZ&new=1知識之窗社會和行為科學(xué)研究中,經(jīng)常會遇到一類特殊的變量。比如,成年人一生中結(jié)婚的次數(shù)、大學(xué)本科生就讀期間談戀愛的次數(shù)、育齡婦女生育的孩子數(shù)、過去半年上醫(yī)院看病的次數(shù)、一個社區(qū)過去一年發(fā)生的盜竊案件數(shù)、城市道路十字路口在過去一周內(nèi)出現(xiàn)的交通事故數(shù)、一個國家出現(xiàn)大規(guī)模工人罷工的次數(shù)。此類變量還有很多,統(tǒng)計學(xué)上將其稱作計數(shù)變量。它們有一個共同的特征:所測量的是一定時間或空間內(nèi)某個事件出現(xiàn)的次數(shù)。①因此,計數(shù)變量只能取離散的非負(fù)數(shù)值,即0,1,2,…,而且實際情形中,取值的個數(shù)往往是有限的。一、常規(guī)回歸不適用于計數(shù)因變量對于計數(shù)因變量,通常的做法是將其作為取值連續(xù)的間距變量對待,采用常規(guī)最小二乘法進(jìn)行模型估計。但是,任何統(tǒng)計方法都有其內(nèi)在假定和所要求的數(shù)據(jù)條件。這些假定和數(shù)據(jù)要求主要是針對因變量而言的,而針對自變量的假定和要求往往很少。常規(guī)最小二乘回歸亦是如此。所以,將計數(shù)自變量視為間距變量直接納入線性回歸幾乎不會有任何太大的問題。但有一點值得提醒。計數(shù)變量的取值往往限于若干非負(fù)的整數(shù)值,取值范圍很窄,計數(shù)自變量本身的變異很小,這意味著其方差可能會很小,那么將其納入線性回歸用常規(guī)最小二乘法估計的系數(shù)將會很不穩(wěn)定和具有較大的標(biāo)準(zhǔn)誤。①但是,當(dāng)計數(shù)變量作為因變量時,采用常規(guī)最小二乘回歸進(jìn)行分析就可能會出現(xiàn)更為嚴(yán)重的問題。(一)導(dǎo)致有偏且無效的統(tǒng)計檢驗(二)線性函數(shù)的不合理性首先,因為并沒有對自變量犡的取值范圍加以限定,對回歸系數(shù)犅犽和誤差項ε同樣也沒有加以限定,那么,基于回歸得到的因變量預(yù)測值理論上就可以是任意值,包括負(fù)數(shù)。但是,計數(shù)變量的取值只能為非負(fù)的整數(shù)。可見,若采用常規(guī)最小二乘回歸來分析計數(shù)因變量,由于設(shè)定的是一種線性函數(shù)關(guān)系,那么,隨著自變量取值的變化,可能會得到?jīng)]有意義的回歸預(yù)測值。其次,因為所設(shè)定的關(guān)系是線性函數(shù),故意味著在一定時間或空間范圍內(nèi)事件發(fā)生次數(shù)為0和1之間的差別與10和11次之間的差別是一樣的,也就意味著自變量犡的邊際影響是固定不變的。但是,對于計數(shù)因變量而言,這個內(nèi)在隱含的假定往往并不符合實際。真實的關(guān)系往往是非線性的,而線性關(guān)系在大多數(shù)情況下甚至都不能作為一個合理的工作假定。二、泊松分布單變量泊松分布是理解計數(shù)回歸模型的基礎(chǔ)。因此,有必要先認(rèn)識一下泊松分布。泊松分布的發(fā)現(xiàn)者是法國數(shù)學(xué)家泊松。泊松最初從貝努里提出的二項分布基礎(chǔ)上近似推導(dǎo)出這種分布,因此該分布以他的名字命名為泊松分布。設(shè)μ為一定時間或空間狋內(nèi)某事件的期望發(fā)生次數(shù)。同時,設(shè)犢是一個隨機變量,其取值狔表明觀測到的事件發(fā)生次數(shù)。有時候,事件發(fā)生的觀測次數(shù)狔會小于期望發(fā)生次數(shù),或者甚至根本沒有發(fā)生,而其他時候其觀測發(fā)生次數(shù)往往會大于期望次數(shù)。三、泊松回歸當(dāng)觀測案例很多時,通過允許每一觀測案例具有不同期望事件發(fā)生次數(shù)μ,便可將泊松分布擴(kuò)展成泊松回歸。四、模型的參數(shù)估計五、模型擬合評價與模型比較所謂模型擬合評價指的是評估回歸模型對觀測數(shù)據(jù)的擬合優(yōu)度(goodnessoffit)如何,也就是觀測值與擬合值之間的差別如何。完整的擬合評價實際上應(yīng)包括兩個方面的內(nèi)容:一方面是針對單個觀測案例犻的擬合程度的分析,屬于案例別擬合度考察;另一方面則是將回歸模型作為一個整體來進(jìn)行數(shù)據(jù)擬合程度的分析,屬于模型整體擬合度考察。(一)以殘差為基礎(chǔ)的指標(biāo)(二)以似然函數(shù)值為基礎(chǔ)的指標(biāo)(三)以信息標(biāo)準(zhǔn)為基礎(chǔ)的指標(biāo)還有一類評估泊松回歸模型擬合度的指標(biāo)是以信息標(biāo)準(zhǔn)為基礎(chǔ)建構(gòu)的。這類指標(biāo)可用來比較不同模型對觀測數(shù)據(jù)擬合的優(yōu)劣。而且,與上面提到的偏差度統(tǒng)計量只能用于對存在嵌套關(guān)系的模型進(jìn)行比較不同,以信息標(biāo)準(zhǔn)為基礎(chǔ)的指標(biāo)可對任意一對模型之間的擬合優(yōu)度進(jìn)行比較,只要是針對同一因變量進(jìn)行分析,而并不要求模型之間存在嵌套關(guān)系。六、模型回歸系數(shù)的解釋解釋和理解泊松回歸系數(shù)有多種不同的方式。采用何種方式取決于研究者究竟是對計數(shù)變量的期望值還是對計數(shù)取值的分布感興趣。如果對期望值感興趣的話,有多種方法可以用于計算某個自變量一定程度的變化量所帶來的計數(shù)變量期望值的變化。這種變化既可以用期望值的倍數(shù)變化來表達(dá),也可以用百分比變化來表達(dá),甚至還可以用期望值的邊際變化來表達(dá)。其中,最常用的解釋方法是計算倍數(shù)變化。因為這一解釋方法非常直觀,也容易理解。如果對計數(shù)的分布或者某個具體計數(shù)值的概率感興趣,則可以計算出給定某個自變量取值水平處某個計數(shù)的概率。下面分別對此進(jìn)行介紹。(一)關(guān)注條件均值的解釋第一種,倍數(shù)變化第二種,百分比變化第三種,邊際變化(二)關(guān)注預(yù)測概率的解釋七、統(tǒng)計檢驗與推斷前面已經(jīng)介紹過有關(guān)參數(shù)解釋的內(nèi)容,我們已經(jīng)知道如何解釋和說明回歸參數(shù)估計值所代表的具體含義,即自變量與計數(shù)因變量之間的關(guān)系。不過,到現(xiàn)在為止,仍然是就樣本說樣本,對于隨機樣本所對應(yīng)的總體而言,仍然無法判斷參數(shù)估計值所反映的自變量與因變量之間的關(guān)系在相應(yīng)總體中是否存在。而社會和行為科學(xué)研究的目的往往是通過考察抽樣樣本來推知研究總體,或者,基于小規(guī)模樣本得到針對更大規(guī)??傮w的一般性結(jié)論。為了實現(xiàn)此目的,常用的方式是對參數(shù)估計值進(jìn)行正規(guī)的統(tǒng)計檢驗,用以考察樣本數(shù)據(jù)中發(fā)現(xiàn)的自變量與因變量之間的關(guān)系應(yīng)該是源于抽樣誤差還是總

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論