版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2022/7/26ncutstat1第八章 定性數據的建模分析 目錄 上頁 下頁 返回 結束 8.1 對數線性模型基本理論和方法8.2 對數線性模型分析的上機實驗8.3 Logistic回歸基本理論和方法8.4 Logistic回歸的方法與步驟2022/7/26ncutstat2第八章 定型數據的建模分析 目錄 上頁 下頁 返回 結束 第三章我們曾討論過定性數據的列聯表分析,對數線性模型是進一步用于離散型數據或整理成列聯表格式的數據的統計分析工具。它可以把方差分析和線性模型的一些方法應用到對交叉列聯表的分析中,從而對定性變量間的關系作更進一步的描述和分析。2022/7/26ncutstat3
2、列聯表分析無法系統地評價變量間的聯系,也無法估計變量間交互作用的大小,而對數線性模型是處理這些問題的最佳方法。 當被解釋變量是非度量變量時,可以用判別分析。 然而當被解釋變量只有兩組時,Logistic回歸由于多種原因更受歡迎。 首先,判別分析依賴于嚴格的多元正態(tài)性和相等協差陣的假設,這在很多情況下是達不到的。 Logistic回歸沒有類似的假設,而且這些假設不滿足時,結果非常穩(wěn)定。 2022/7/26ncutstat4第八章 定型數據的建模分析 目錄 上頁 下頁 返回 結束 其次,即使?jié)M足假定,許多研究者仍偏好Logistic回歸,因為它類似于回歸分析。兩者都有直接的統計檢驗,都能包含非線性
3、效果和大范圍的診斷。因為這些和更多技術原因,Logistic回歸等同于兩組的判別分析,在很多情況下更加適用。再者,Logistic回歸對于自變量沒有要求,度量變量或者非度量變量都可以進行回歸, 這樣,本章僅介紹定性數據建模的對數線性模型和Logistic回歸方法。2022/7/26ncutstat58 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 本節(jié)將利用22維的交叉列聯表來說明對數線性模型的基本理論和方法,同時利用SPSS軟件對真實的經濟定性數據作分析。 從22維的交叉列聯表的概率表,介紹對數線性模型的基本理論和方法。 2022/7/26ncutstat68 .1 對數線
4、性模型基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat78 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 對上面三式各取其平均數為: 該式的結構與有交互效應,且各水平均為二的雙因素方差分析模型的結構相似,因此模仿方差分析,可以有如下關系式: 2022/7/26ncutstat88 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 若記其中 移項,可得與有交互效應的雙因素方差分析數學模型極為相似的關系式:2022/7/26ncutstat98 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 (8.2) 2022/7/
5、26ncutstat108 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat118 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 在實際分析中,概率表中各項值,以交叉列聯表計算得的頻率表的對應項為無偏估計值。公式表示為:2022/7/26ncutstat128 .1 對數線性模型基本理論和方法 目錄 上頁 下頁 返回 結束 將以上三式代入公式(8.3)即可得 的估計值 。實際分析中,二維數據表并不是每個因素都是雙水平的,在分析中,把公式的 的取值上限調整即可。2022/7/26ncutstat138 .2 對數線性模型分析的上
6、機實踐 目錄 上頁 下頁 返回 結束 可以使用SPSS軟件來實現對數線性模型分析。這里舉一個例子是32維的交叉列聯表的分析。我們用SPSS軟件中的Loglinear模塊實現分析。 【例8.1】 某企業(yè)想了解顧客對其產品是否滿意,同時還想了解不同收入的人群對其產品的滿意程度是否相同。在隨機發(fā)放的1000份問卷中收回有效問卷792份,根據收入高低和滿意回答的交叉分組數據如表8-1: 2022/7/26ncutstat148 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 表8.1. 滿意不滿意合計高533891中434108542低11148159合計5981947922022/7
7、/26ncutstat158 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 首先要準備數據,上面的交叉列連表的數據要輸入到spss的表格里去,具體應當是入下:頻數收入情況滿意情況5311434211113138121082248322022/7/26ncutstat168 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat178 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 按上面的形勢輸入數據后,還不能馬上進行對數線性模型分析,必須先激活頻數,即讓頻數有效。具體步驟是:使用SPSS軟件,從主菜單中,以Data
8、Weight Cases.順序,打開Weight Cases對話框,選中Weight cases by單選框,從變量列表中選出“頻數”變量, 點擊鈕,使之進入Frequency Variable框,然后點擊OK鈕,回到數據表格,這時分析前的準備工作就完成了。這一步很重要,如果頻數沒有被激活,對數線性模型的模塊仍會執(zhí)行命令,但是得出的結果是錯誤的,所以使用時一定要小心。 2022/7/26ncutstat188 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 數據準備工作完成后,就可以進行下一步的分析了。從主菜單中,按AnalyzeLoglinearModel Selection
9、.的流程可打開Model Selection Loglinear Analysis對話框,從左側變量欄里選中“收入情況”,點擊鈕使之進入Factor(s)框,這時該框下面的Define Range.鈕就會從灰色變?yōu)楹谏?,點擊彈出Loglinear Analysis: Define Range對話框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類型,代號分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3, 2022/7/26ncutstat198 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 點擊Continue鈕,返回Model S
10、election Loglinear Analysis對話框;按同樣方法,把“滿意情況”變量選入,并定以其范圍為1、2;然后選中“頻數”變量,點擊鈕使之進入Cell Weight框;最后,點擊Options.鈕,進入Loglinear Analysis:Options對話框,選擇Display for Saturated Model欄下的Parameter estimates項,點擊Continue鈕返回Model Selection Loglinear Analysis對話框,其他選項保持默認值,最后點擊OK鈕即完成分析步驟。2022/7/26ncutstat208 .2 對數線性模型分析的
11、上機實踐 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat218 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 首先顯示系統對792例資料進行分析,這792例資料可分為6類(32)。模型中共有二個分類變量:其中“收入情況”變量為3水平,“滿意情況”情況變量為2水平;分析的效應除了兩個分類變量,還有兩者的交互作用(收入情況*滿意情況)。系統經1次疊代后,即達到相鄰二次估計之差不大于規(guī)定的0.001。 2022/7/26ncutstat228 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat238 .2 對數線性模
12、型分析的上機實踐 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat248 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 這是對模型是否有交互效應和高階效應進行檢驗,原假設是高階效應為0,即沒有高階效應。檢驗結果認為拒絕原假設,存在交互效應和高階效應。在Note里,表示對飽和模型的觀測單元進行了變換。2022/7/26ncutstat258 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat268 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 為了唯一地估計參數,系統強行限定同一分類變量的各水平參
13、數之和為0,故根據上表結果可推得各參數為:2022/7/26ncutstat278 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat288 .2 對數線性模型分析的上機實踐 目錄 上頁 下頁 返回 結束 參數值為正,表示正效應;反之為負效應;零為無效應。分析提供的信息是:(1) 為正值,說明接受調查了的多數顧客對其產品還是滿意的;(2) ,說明各收入階層的顧客對其產品的滿意程度是不同的,其中,高收入的顧客滿意程度最低,而中層收入的顧客滿意程度最高;(3)通過對企業(yè)顧客的收入情況和滿意情況交互效應的研究, 為負值表示高收入與對產品的滿意程度是負效
14、應的, 為正表示中等收入者與對其產品的滿意程度是正效應的,同理,低收入人群對其產品的滿意程度也是負效應的。該企業(yè)的產品主要的消費階層是中等收入者,同時中等收入者對其產品的滿意程度也最好。2022/7/26ncutstat298 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat308 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat318 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat328 .3 Logistic回歸基本
15、理論和方法 目錄 上頁 下頁 返回 結束 Logistic回歸不同于一般回歸分析的地方在于它直接預測出了事件發(fā)生的概率。盡管這個概率值是個度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是01之間的任何值,但是預測值必須落入01的區(qū)間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關系類似于S形曲線。而且,不能從普通回歸的角度來分析Logistic回歸,因為這樣做會違反幾個假定。2022/7/26ncutstat33首先,離散變量的誤差形式服從貝努里分布,而不是正態(tài)分布,這樣使得基于正態(tài)性假設的統計檢驗無效。其次,二值變量的方差不是常數,會造成異方差性。Logi
16、stic回歸是專門處理這些問題的。它的解釋變量與被解釋變量之間獨特的關系使得在估計、評價擬合度和解釋系數方面有不同的方法。2022/7/26ncutstat348 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 估計Logistic回歸模型與估計多元回歸模型的方法是不同的。多元回歸采用最小二乘估計,將解釋變量的真實值與預測值差異的平方和最小化。而Logistic變換的非線性特征使得在估計模型的時候采用極大似然估計的疊代方法,找到系數的“最可能”的估計。這樣在計算整個模型擬合度的時候,就采用似然值而不是離差平方和。 2022/7/26ncutstat358 .3 Logi
17、stic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat368 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 前面已提到Logistic回歸在估計系數時,是用的極大似然估計法。就象多元回歸中的殘差平方和,Logistic回歸對模型擬合好壞通過似然值來測量。(實際上是用2乘以似然值的自然對數即2 Log似然值,簡記為2LL)。一個好的模型應該有較小的2LL。如果一個模型完全擬合,則似然值為,這時2LL達到最小,為0。Logistic回歸對于系數的檢驗采用的是與多元回歸中t檢驗不同的統計量,稱為Wald統計量。有關Logistic回歸的
18、參數估計和假設檢驗詳見參考文獻8。2022/7/26ncutstat378 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 一、分組數據的Logistic回歸模型 針對0-1型因變量產生的問題,我們對回歸模型應該做兩個方面的改進。 第一,回歸函數應該改用限制在0,1區(qū)間內的連續(xù)曲線,而不能再沿用直線回歸方程。限制在0,1區(qū)間內的連續(xù)曲線有很多,例如所有連續(xù)型隨機變量的分布函數都符合要求,我們常用的是Logistic函數與正態(tài)分布函數。Logistic函數的形式為(8.4) Logistic函數的中文名稱是邏輯斯諦函數,或簡稱邏輯函數。這里給出幾個Logistic函數的圖
19、形。見圖8-1、圖8-2。2022/7/26ncutstat388 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 圖8-1 的圖形 2022/7/26ncutstat398 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 圖8-2 的圖形 2022/7/26ncutstat408 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat418 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 【例8.2】 在一次住房展銷會上,與房地產商簽定初步購房意向書的共有n=325名顧
20、客中,在隨后的3個月的時間內,只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數據,建立Logistic回歸模型 2022/7/26ncutstat428 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 表8.2序號年家庭收入(萬元)x簽定意向書人數ni實際購房人數mi實際購房比例pi=mi/ni邏輯變換權重wi=nipi(1-pi)11.52580.320000-0.753775.44022.532130.406250-0.379497.71933.558260.448276-0.20764
21、14.34544.552220.423077-0.3101512.69255.543200.465116-0.1397610.69866.539220.5641030.2578299.59077.528160.5714290.2876826.85788.521120.5714290.2876825.14399.515100.6666670.6931473.3332022/7/26ncutstat438 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat448 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022
22、/7/26ncutstat458 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat468 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat478 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 表8.32022/7/26ncutstat488 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat498 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 得年收入8萬元的家庭預計實際購
23、房比例為58.5%,這個結果與未加權的結果很接近。 以上的例子是只有一個自變量的情況,分組數據的Logistic回歸模型可以很方便的推廣到多個自變量的情況,在此就不舉例說明了。 分組數據的Logistic回歸只適用于大樣本的分組數據,對小樣本的未分組數據不適用。并且以組數c為回歸擬合的樣本量,使擬合的精度低。實際上,我們可以用極大似然估計直接擬合未分組數據的Logistic回歸模型,以下就介紹這個方法。二、未分組數據的Logistic回歸模型 2022/7/26ncutstat508 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat51
24、8 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat528 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat538 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 2022/7/26ncutstat548 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 表8.4:序號性別年齡月收入序號性別年齡月收入10188500151201000020211200016125120003023850117127130004023950118128
25、150005028120011913095016031850020132100002022/7/26ncutstat558 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 表8.4(續(xù))703615001211331800080421000122133100009046950123138120001004812000241411500011055180012514518001120562100126148100001305818001271521500114118850028156180012022/7/26ncutstat568 .3 Logistic回歸基本理論和方
26、法 目錄 上頁 下頁 返回 結束 依次點選SPSS軟件的Statistics-Regression-Logistic命令,進入Logistic回歸對話框,選入變量,點選OK運行,以下表8-5是部分運行結果. 表8.52022/7/26ncutstat578 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 表8.5中SEX(性別)、AGE(年齡)、X2(月收入)是3個自變量,Wald是回歸系數檢驗的統計量值, (8.16) Sig是Wald檢驗的顯著性概率,R是偏相關系數??梢钥吹?,X2(月收入)不顯著,決定將其剔除。用y對性別與年齡兩個自變量做回歸,輸出結果見8-6.2
27、022/7/26ncutstat588 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 表8.6可以看到,SEX、AGE兩個自變量都是顯著的,因而最終的回歸方程為: 2022/7/26ncutstat598 .3 Logistic回歸基本理論和方法 目錄 上頁 下頁 返回 結束 以上方程式表明,女性乘公共汽車的比例高于男性,年齡越高乘車的比例也越高。 SPSS軟件沒有給出Logistic 回歸的標準化回歸系數,對于Logistic 回歸,回歸系數也沒有普通線性回歸那樣的解釋,因而計算標準化回歸系數并不重要。如果要考慮每個自變量在回歸方程中的重要性,不妨直接比較Wald值
28、(或Sig值),Wald值大者(或Sig值小者)顯著性高,也就更重要。當然這里假定自變量間沒有強的復共線性,否則回歸系數的大小及其顯著性概率都沒有意義。2022/7/26ncutstat608 .4 Logistic回歸的方法與步驟 目錄 上頁 下頁 返回 結束 鑒于Logistic回歸與判別分析的相似性,我們可以對比兩種方法的相似性和不同點。Logistic回歸的自變量可以是定量變量或定性變量(需要編碼),這樣可以檢驗自變量對于Logistic回歸模型的貢獻、自變量的顯著性以及Logistic模型的判別精度。Logistic回歸一般有以下幾個步驟。(1)選擇自變量和因變量。這里因變量為分組變量(限于篇幅,我們僅介紹因變量分兩組的情況),自變量可以是定量變量和定性變量。Logistic回歸對于資料數據有較強的穩(wěn)健性(robustness),無須各組自變量的協差陣相等的假定。2022/7/26ncutstat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東科技學院《環(huán)境材料》2023-2024學年第一學期期末試卷
- 廣東金融學院《設計色彩》2023-2024學年第一學期期末試卷
- 廣東建設職業(yè)技術學院《壓焊方法與設備》2023-2024學年第一學期期末試卷
- 廣東機電職業(yè)技術學院《測井數據處理與解釋》2023-2024學年第一學期期末試卷
- 廣東工業(yè)大學《教育與心理統計》2023-2024學年第一學期期末試卷
- 廣東工貿職業(yè)技術學院《國際商務函電》2023-2024學年第一學期期末試卷
- 廣東東軟學院《新聞理論》2023-2024學年第一學期期末試卷
- 廣東創(chuàng)新科技職業(yè)學院《水土保持原理與技術》2023-2024學年第一學期期末試卷
- 《光合作用原初反應》課件
- 廣東白云學院《數字信號處理及實踐》2023-2024學年第一學期期末試卷
- 數學-2025年高考綜合改革適應性演練(八省聯考)
- 景區(qū)旅游安全風險評估報告
- 建筑消防設施檢測誠信承諾書
- ojt問答題未升版ojt204
- 五年級語文滲透法制教育滲透點教案呈現
- 貝雷片-潮白新河鋼棧橋及鋼平臺計算說明書
- VF程序設計知識要點
- 凱普21種基因型HPV分型與其它比較
- 小學數學小專題講座《數學教學生活化 》(課堂PPT)
- 雞場養(yǎng)殖情況記錄登記表
- 高壓配電柜系列產品出廠檢驗規(guī)范
評論
0/150
提交評論