第14章 有序多分類邏輯斯蒂回歸模型_第1頁
第14章 有序多分類邏輯斯蒂回歸模型_第2頁
第14章 有序多分類邏輯斯蒂回歸模型_第3頁
第14章 有序多分類邏輯斯蒂回歸模型_第4頁
第14章 有序多分類邏輯斯蒂回歸模型_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多元回歸中的幾種重要模型多元回歸中的幾種重要模型 第一部分:多重共線情況的處理第一部分:多重共線情況的處理 第第10章章 嶺回歸分析(嶺回歸分析( Ridge Regression ) 第二部分:自變量中含定性變量的處理第二部分:自變量中含定性變量的處理 第第11章章 自變量中含有定性變量的回歸分析自變量中含有定性變量的回歸分析 第三部分:第三部分:因變量中含有定性變量情況的處理因變量中含有定性變量情況的處理 第第12章章 二項二項Logistic回歸回歸 第第13章章 多項多項Logistic回歸回歸 第第14章章 有序回歸有序回歸(等級回歸分析)(等級回歸分析) 第第15章章 Probit

2、回歸回歸(概率單位回歸)(概率單位回歸) 第第16章章 最佳尺度回歸最佳尺度回歸 Logistic回歸回歸因變量因變量二項二項Logistic回歸回歸多項多項Logistic回歸回歸有序回歸有序回歸Probit回歸回歸第第14章章 有序回歸有序回歸(有序多分類因變量(有序多分類因變量Logistic回歸)回歸) 14.1 有序回歸的基本思想有序回歸的基本思想 14.2 有序回歸的案例分析有序回歸的案例分析 研究中常遇到反應(yīng)變量為有序多分類(研究中常遇到反應(yīng)變量為有序多分類(k2)的資料,如城)的資料,如城市綜合競爭力等級、滿意度等可以劃分為低、中、高。市綜合競爭力等級、滿意度等可以劃分為低、中

3、、高。 與名義多分類因變量有所不同,定性有序多分類因變量采用與名義多分類因變量有所不同,定性有序多分類因變量采用累積累積logit模型模型,該模型可利用有序這一特點,得到比基線,該模型可利用有序這一特點,得到比基線-類別有更簡單解釋的模型。類別有更簡單解釋的模型。 Y的累積概率是指的累積概率是指Y落在一個特定點的概率,對結(jié)果為類別落在一個特定點的概率,對結(jié)果為類別j時,其累積概率為:時,其累積概率為: 累積概率滿足:累積概率滿足: 累積概率的模型并不利用最后一個概率,因為它必然等于累積概率的模型并不利用最后一個概率,因為它必然等于114.1 有序回歸的基本思想有序回歸的基本思想kjpppxjY

4、pj, 1 ,)(211)() 1(kYpYpnnjjjjxxxpppit22111ln)(logpj = p(yj | x),它表示,它表示 y 取前取前 j 個值的累積概率個值的累積概率。累積概率函數(shù):累積概率函數(shù): kjkjxxxjyppjjj當當, 111,)exp(1)exp()(14.1 有序回歸的基本思想有序回歸的基本思想 J等級分為兩類:等級分為兩類:1,j 與與 j+1,k在這兩類的基礎(chǔ)上定義的在這兩類的基礎(chǔ)上定義的 logit 表示表示:屬于后屬于后 k-j 個等級的累積個等級的累積概率與前概率與前j個等級的累積概率的優(yōu)勢的對數(shù),故該模型稱為累個等級的累積概率的優(yōu)勢的對數(shù),

5、故該模型稱為累積優(yōu)勢模型積優(yōu)勢模型 (cumulative odds model)。 第一個模型表示了第一個模型表示了y 取第一個值的概率取第一個值的概率p1與與x的關(guān)系;第二個模的關(guān)系;第二個模型表示了型表示了y 取前兩個值的累積概率取前兩個值的累積概率p2與與x的關(guān)系。這兩個模型的的關(guān)系。這兩個模型的常數(shù)項不同常數(shù)項不同,回歸系數(shù)完全相同的回歸系數(shù)完全相同的。 y 取第一個值的概率取第一個值的概率p(1)=p1 ,y 取第二個值的概率取第二個值的概率p(2)=p2 -p1,y 取第三個值的概率取第三個值的概率p(3)=1- p2 。它們的截距不同,斜率相同,所以是。它們的截距不同,斜率相同

6、,所以是J-1條平行直線條平行直線族族。多值因變量多值因變量logistic回歸模型要求進行數(shù)據(jù)的平行性檢驗回歸模型要求進行數(shù)據(jù)的平行性檢驗。 平行性檢驗(平行性檢驗(只適用于位置模型只適用于位置模型/位置參數(shù)位置參數(shù)/斜率系數(shù))斜率系數(shù)) 當因變量維多值變量時,模型包含多個回歸方程。當因變量維多值變量時,模型包含多個回歸方程。Logistic回歸分析要求這多個回歸方程中自變量的系數(shù)是相等的。因回歸分析要求這多個回歸方程中自變量的系數(shù)是相等的。因此需要做平行行檢驗,也稱為比例比數(shù)假設(shè)檢驗(此需要做平行行檢驗,也稱為比例比數(shù)假設(shè)檢驗(test fo the proportional odds a

7、ssumption),使用的方法是計分檢驗法。),使用的方法是計分檢驗法。當當Pa時,接受平行的原假設(shè)。否則,應(yīng)該時,接受平行的原假設(shè)。否則,應(yīng)該將因變量的某些將因變量的某些值進行合并,減少因變量的取值個數(shù)值進行合并,減少因變量的取值個數(shù),使得多值變量,使得多值變量logistic回歸模型平行性成立。還可以回歸模型平行性成立。還可以嘗試其他鏈接函數(shù)嘗試其他鏈接函數(shù)。 如果各種連接函數(shù)都無法滿足平行性假定,則需要考慮回歸如果各種連接函數(shù)都無法滿足平行性假定,則需要考慮回歸系數(shù)是否會隨著分割點而發(fā)生改變。此時最好系數(shù)是否會隨著分割點而發(fā)生改變。此時最好使用無序多分使用無序多分類的類的Logisti

8、c 回歸回歸進行模型擬合,然后再根據(jù)系數(shù)估計值考進行模型擬合,然后再根據(jù)系數(shù)估計值考慮如何進行處理。慮如何進行處理。 以以4 水平的反應(yīng)變量為例,假設(shè)反應(yīng)變量的取值為水平的反應(yīng)變量為例,假設(shè)反應(yīng)變量的取值為1 、2 、3 、4 ,相應(yīng)取值水平的概率為,相應(yīng)取值水平的概率為p1、p2、p3、p4,則則此時進行此時進行Logit 變換的分別為變換的分別為p1、p1+p2、p1+p2 +p3,對,對k 個自變量擬個自變量擬合三個模型如下合三個模型如下:kkxxxpppppppitypit221114321111 ln1ln)(log)1(logkkxxxppppppppppitypit2211243

9、21212121 ln)(1ln)(log)2(logkkxxxpppppppppppppitypit221134321321321321 13ln)(ln)(log)(log常數(shù)項不同常數(shù)項不同,回歸系回歸系數(shù)完全相同的數(shù)完全相同的張文彤版本的常數(shù)項張文彤版本的常數(shù)項前均為負號前均為負號 根據(jù)上述公式,可以分別求出:根據(jù)上述公式,可以分別求出: 由上述建立的模型可以看出,這種模型實際上是依次由上述建立的模型可以看出,這種模型實際上是依次將反應(yīng)變量按不同的取值水平分割成兩個等級,對這將反應(yīng)變量按不同的取值水平分割成兩個等級,對這兩個等級建立反應(yīng)變量為二分類的兩個等級建立反應(yīng)變量為二分類的Log

10、istic 回歸模型?;貧w模型。不管模型中反應(yīng)變量的分割點在什么位置,模型中各不管模型中反應(yīng)變量的分割點在什么位置,模型中各自變量的系數(shù)都保持不變,所改變的只是常數(shù)項自變量的系數(shù)都保持不變,所改變的只是常數(shù)項。此。此時求出的時求出的OR 值表示自變量每改變一個單位,反應(yīng)變值表示自變量每改變一個單位,反應(yīng)變量提高一個及一個以上等級的比數(shù)比量提高一個及一個以上等級的比數(shù)比。 張文彤認為,這里擬合的模型中常數(shù)項之前的符號應(yīng)張文彤認為,這里擬合的模型中常數(shù)項之前的符號應(yīng)當是當是“負號負號”,原因在于此處的常數(shù)項正好表示低級,原因在于此處的常數(shù)項正好表示低級別和高級別相比的情況,且必然有別和高級別相比的

11、情況,且必然有 , 但由但由于研究者主要關(guān)心的是各參數(shù)(系數(shù))的大小,因此于研究者主要關(guān)心的是各參數(shù)(系數(shù))的大小,因此這種差異影響不大。并且由這種差異影響不大。并且由SPSS給出的系數(shù)無需再添給出的系數(shù)無需再添加符號。加符號。iOR exp() 某大學(xué)醫(yī)院外科采用兩種不同的繃帶和兩種不同的包扎某大學(xué)醫(yī)院外科采用兩種不同的繃帶和兩種不同的包扎方式進行腿潰瘍的治療處理。治療的結(jié)果分三種:不愈、方式進行腿潰瘍的治療處理。治療的結(jié)果分三種:不愈、有效和痊愈。試分析治療方法對治療效果的影響。有效和痊愈。試分析治療方法對治療效果的影響。 設(shè)因變量設(shè)因變量 y 表示治療效果,表示治療效果,0=不愈、不愈、

12、1=有效、有效、2=痊愈。痊愈。設(shè)自變量設(shè)自變量x1表示繃帶種類,自變量表示繃帶種類,自變量 x2 表示包扎方式。表示包扎方式。 對于多值因變量模型,平行性假設(shè)決定了每個自變量的對于多值因變量模型,平行性假設(shè)決定了每個自變量的OR值對于前值對于前k-1個模型是相同的。例如,變量個模型是相同的。例如,變量x1的的OR=5.172,它,它表示使用第一種繃帶治愈腿潰瘍的可能表示使用第一種繃帶治愈腿潰瘍的可能性是使用第二種繃帶的性是使用第二種繃帶的5.172倍倍;它;它也表示使用第一種也表示使用第一種繃帶至少有效的可能性是使用第二種繃帶的繃帶至少有效的可能性是使用第二種繃帶的5.172倍倍。14.1

13、有序回歸的基本思想有序回歸的基本思想 有序回歸模型的類型:有序回歸模型的類型: 當定性因變量當定性因變量y取取k個順序類別時,記為個順序類別時,記為1,2,k,這,這里的數(shù)字里的數(shù)字1,2,k僅表示順序的大小。僅表示順序的大小。 因變量因變量y取值于每個類別的概率仍與一組自變量取值于每個類別的概率仍與一組自變量x1,x2,xk 有關(guān),對于樣本數(shù)據(jù)有關(guān),對于樣本數(shù)據(jù) (xi1,xi2,xip ;yi),i=1,2,n ,順序類別回,順序類別回歸模型有兩種主要類型,歸模型有兩種主要類型,位置結(jié)構(gòu)(位置結(jié)構(gòu)(Location component)模型,位置模型,定位模型)模型,位置模型,定位模型規(guī)模

14、結(jié)構(gòu)(規(guī)模結(jié)構(gòu)(Scale component)模型,尺度模型,定量模型)模型,尺度模型,定量模型l 位置結(jié)構(gòu)模型(位置模型位置結(jié)構(gòu)模型(位置模型/定位模型):定位模型):1122link()()ijjiipipxxx(1) l 規(guī)模結(jié)構(gòu)模型規(guī)模結(jié)構(gòu)模型(尺度模型尺度模型/度量模型度量模型,Scale):112211()link()exp()jiipipijimimxxxzz其中z是x1,x2,xp的一個子集,作為規(guī)模結(jié)構(gòu)解釋變量,(2) 14.2 有序回歸的案例分析有序回歸的案例分析 例:對某地人群調(diào)查其對所從事的工作是否滿意,可能的影例:對某地人群調(diào)查其對所從事的工作是否滿意,可能的影響因

15、素有響因素有:年齡、性別、年收入水平、文化程度。變量的賦年齡、性別、年收入水平、文化程度。變量的賦值情況見下表,數(shù)據(jù)見文件值情況見下表,數(shù)據(jù)見文件satisfy. sav 。試進行統(tǒng)計分析。試進行統(tǒng)計分析。 變量的賦值情況如下:變量的賦值情況如下: 警告信息說明自變量的各種取值水平組合中有多少其觀察頻警告信息說明自變量的各種取值水平組合中有多少其觀察頻數(shù)為數(shù)為0 。由于數(shù)據(jù)庫中變量。由于數(shù)據(jù)庫中變量age 為連續(xù)性變量,所以這個比為連續(xù)性變量,所以這個比例顯得較大,此種情況下屬于正常現(xiàn)象。例顯得較大,此種情況下屬于正?,F(xiàn)象。反應(yīng)變量與離散自變量不同取值水平的邊際頻數(shù)分布反應(yīng)變量與離散自變量不同

16、取值水平的邊際頻數(shù)分布 對模型中是否所有自變量偏回歸系數(shù)全為對模型中是否所有自變量偏回歸系數(shù)全為0 進行似然比進行似然比檢驗(判斷規(guī)則:檢驗(判斷規(guī)則:Pa,擬合較好),結(jié)果,擬合較好),結(jié)果P a,擬合較好。,擬合較好。當自變量很多或者自變量中存在連續(xù)性變量當自變量很多或者自變量中存在連續(xù)性變量時,這兩個統(tǒng)計量不太適用。時,這兩個統(tǒng)計量不太適用。這兩個統(tǒng)計量有個致命的缺點是對于這兩個統(tǒng)計量有個致命的缺點是對于自變量取值水平組合的實際觀察頻數(shù)為自變量取值水平組合的實際觀察頻數(shù)為0 的比例十分敏感,如果的比例十分敏感,如果上述比例過高,這兩個統(tǒng)計量不一定仍舊服從卡方分布,因而基上述比例過高,這兩

17、個統(tǒng)計量不一定仍舊服從卡方分布,因而基于卡方分布計算的于卡方分布計算的P 值也不可信。即:這兩個統(tǒng)計量不一定能真值也不可信。即:這兩個統(tǒng)計量不一定能真實地反映模型擬合情況。當自變量中存在連續(xù)性變量時,如本例實地反映模型擬合情況。當自變量中存在連續(xù)性變量時,如本例中的年齡,常會導(dǎo)致上述比例過高。與上述兩個統(tǒng)計量相比,似中的年齡,常會導(dǎo)致上述比例過高。與上述兩個統(tǒng)計量相比,似然比卡方則要穩(wěn)健得多。本例兩個統(tǒng)計量對應(yīng)的然比卡方則要穩(wěn)健得多。本例兩個統(tǒng)計量對應(yīng)的P 值均小于值均小于0.05014.2 有序回歸的案例分析有序回歸的案例分析 例:分析債權(quán)人如何確定申請者信用風險的問題,例:分析債權(quán)人如何確

18、定申請者信用風險的問題,SPSS自帶數(shù)據(jù)文件自帶數(shù)據(jù)文件“信譽評價數(shù)據(jù)信譽評價數(shù)據(jù).sav” 因變量因變量Chist(賬目情況)取值:沒有貸款歷史、現(xiàn)在(賬目情況)取值:沒有貸款歷史、現(xiàn)在沒有貸款、正在償還、逾期償還、拖欠貸款沒有貸款、正在償還、逾期償還、拖欠貸款因子一般為因子一般為分類變量分類變量協(xié)變量一般為協(xié)變量一般為連續(xù)變量,也連續(xù)變量,也可以為二分類可以為二分類變量變量 鏈接:指定鏈接函數(shù)鏈接:指定鏈接函數(shù)(聯(lián)聯(lián)系函數(shù)、連接函數(shù)系函數(shù)、連接函數(shù)),即即對模型估計中的對模型估計中的累積概累積概率的轉(zhuǎn)換函數(shù)率的轉(zhuǎn)換函數(shù),根據(jù)因,根據(jù)因變量(反應(yīng)變量)的情變量(反應(yīng)變量)的情況選擇況選擇補充

19、對數(shù)補充對數(shù)對數(shù)對數(shù)負對數(shù)負對數(shù)對數(shù)對數(shù)輸出偽輸出偽R方方檢驗系數(shù)在各響檢驗系數(shù)在各響應(yīng)類別中是否相應(yīng)類別中是否相同,僅適用于位同,僅適用于位置模型置模型輸出累積頻數(shù)、輸出累積頻數(shù)、概率的殘差、觀概率的殘差、觀測概率、預(yù)測概測概率、預(yù)測概率等內(nèi)容率等內(nèi)容把觀測記錄按因變量進行分類的估計概率,有把觀測記錄按因變量進行分類的估計概率,有幾個水平就保存幾個變量幾個水平就保存幾個變量保存最大的估計響應(yīng)概率保存最大的估計響應(yīng)概率保存預(yù)測正確時保存預(yù)測正確時的估計響應(yīng)概率的估計響應(yīng)概率保存模型的預(yù)測響應(yīng)分類保存模型的預(yù)測響應(yīng)分類 位置模型設(shè)置:用于指定定位模型中的各種效應(yīng)位置模型設(shè)置:用于指定定位模型中的

20、各種效應(yīng) 尺度模型設(shè)置:設(shè)置與尺度模型有關(guān)的參數(shù)尺度模型設(shè)置:設(shè)置與尺度模型有關(guān)的參數(shù)案例處理摘要:可以案例處理摘要:可以看出,本例在鏈接函看出,本例在鏈接函數(shù)的選擇上,可以選數(shù)的選擇上,可以選擇補充對數(shù)擇補充對數(shù)對數(shù),對數(shù),也可以選擇也可以選擇Cauchit鏈接函數(shù)鏈接函數(shù) 主要輸出結(jié)果主要輸出結(jié)果 主要輸出結(jié)果主要輸出結(jié)果說明最終模型要優(yōu)于說明最終模型要優(yōu)于只含截距的模型,即只含截距的模型,即模型顯著成立模型顯著成立由于本例模型包含連續(xù)由于本例模型包含連續(xù)變量,故空單元格較多,變量,故空單元格較多,影響了統(tǒng)計量的計算和影響了統(tǒng)計量的計算和有效性。因此,本例基有效性。因此,本例基于卡方檢驗的

21、擬合優(yōu)度于卡方檢驗的擬合優(yōu)度統(tǒng)計量不太可信統(tǒng)計量不太可信系數(shù)大都不夠顯著,原因可能是因變量的分類順序不對,也可能是因為鏈系數(shù)大都不夠顯著,原因可能是因變量的分類順序不對,也可能是因為鏈接函數(shù)選擇不理想。接函數(shù)選擇不理想。若協(xié)變量的參數(shù)估計之為正,那么對此變量取值越大的觀測目標類別取值若協(xié)變量的參數(shù)估計之為正,那么對此變量取值越大的觀測目標類別取值也越大,如也越大,如age變量顯著且為正,表明年齡越大拖欠貸款的概率也越大。變量顯著且為正,表明年齡越大拖欠貸款的概率也越大。 平行檢驗:原假設(shè)是斜率系數(shù)(位置參數(shù))在各響應(yīng)類別中平行檢驗:原假設(shè)是斜率系數(shù)(位置參數(shù))在各響應(yīng)類別中都是相等的。由于都是

22、相等的。由于Pa,否定原假設(shè),說明各回歸方程否定原假設(shè),說明各回歸方程不平行不平行 如果平行性檢驗的如果平行性檢驗的P 值非常小,是不能就這樣蒙混過關(guān)的。值非常小,是不能就這樣蒙混過關(guān)的。其主要原因是鏈接函數(shù)選擇不準確,或者系數(shù)的確在隨著分其主要原因是鏈接函數(shù)選擇不準確,或者系數(shù)的確在隨著分割點發(fā)生變化??梢钥紤]其他鏈接函數(shù)以及使用無序多分類割點發(fā)生變化??梢钥紤]其他鏈接函數(shù)以及使用無序多分類模型。模型。 根據(jù)所得到的模型預(yù)測方程和相關(guān)個案信息,即可進行根據(jù)所得到的模型預(yù)測方程和相關(guān)個案信息,即可進行預(yù)測,預(yù)測該個案的信譽屬于哪一種類別。這對于銀行預(yù)測,預(yù)測該個案的信譽屬于哪一種類別。這對于銀行貸款決策具有重要意義。貸款決策具有重要意義。 例如,某申請者的信息為:申請例如,某申請者的信息為:申請48個月的貸款,個月的貸款,22歲,歲,有銀行貸款,沒有其他貸款,有住房,此時可以評估其有銀行貸款,沒有其他貸款,有住房,此時可以評估其信譽水

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論