《回歸分析》 課件 第7章 廣義線性回歸_第1頁
《回歸分析》 課件 第7章 廣義線性回歸_第2頁
《回歸分析》 課件 第7章 廣義線性回歸_第3頁
《回歸分析》 課件 第7章 廣義線性回歸_第4頁
《回歸分析》 課件 第7章 廣義線性回歸_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注廣義線性回歸應(yīng)用回歸分析李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院1

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型從泰坦尼克號說起1912年4月14日,當(dāng)時世界上體積最龐大、內(nèi)部設(shè)施最豪華的客運輪船,號稱“永不沉沒”的泰坦尼克號因為與一座冰山相撞,在船體受損后沉入大西洋底。圖

1:泰坦尼克號李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院2

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型從泰坦尼克號說起在這一事件中,社會學(xué)家感興趣的問題可能是:是否可以根據(jù)乘客的社會屬性(如性別、年齡等)來預(yù)測其 是否存活?女士優(yōu)先,相比于男性乘客,女性乘客是否擁有更高的存活概率,如果是,大概高多少?尊老愛幼,

相比于青壯年,

老人和小孩是否更可能存活下來?性別因素是否還與其他因素如年齡、社會地位起到交互作用?李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院3

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型從泰坦尼克號說起在分析這些問題時,就會發(fā)現(xiàn):響應(yīng)變量是服從伯努利分布的二分類名義變量(1

表示存活,0

表示遇難),而不是服從正態(tài)分布的連續(xù)變量。響應(yīng)變量的條件均值(存活概率)也不是預(yù)測變量的線性函 數(shù),否則極有可能會出現(xiàn)不合理的結(jié)果(存活概率小于0或 大于1

)。設(shè)第

i

個樣本點的響應(yīng)變量服從均值為

pi

的伯努利分布,對不同的樣本點,由于均值

pi

不同,方差

pi

(1

?pi)也不相同,即存在異方差性。由于數(shù)據(jù)不滿足一般線性回歸模型最基本的兩大假定,也不滿足同方差假設(shè),不適合繼續(xù)使用一般線性回歸模型進(jìn)行分析。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院4

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型廣義線性回歸模型的意義當(dāng)響應(yīng)變量為非正態(tài)分布,或者因變量的條件均值為預(yù)測變量的非線性函數(shù)時,需要引入廣義線性回歸模型。廣義線性回歸模型適用于響應(yīng)變量為連續(xù)型、二分類名義型、多分類名義型(有序和無序)、計數(shù)型等多種類型的情形,特別地,當(dāng)假設(shè)響應(yīng)變量為服從正態(tài)分布的連續(xù)型變量時,則等價于一般線性回歸模型。廣義線性回歸模型使研究者可以對現(xiàn)實生活中類型繁多的數(shù)據(jù)進(jìn)行建模,并進(jìn)行統(tǒng)計推斷和預(yù)測,在生物、醫(yī)學(xué)和社會經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計分析上,具有重要的意義。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院5

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注目錄模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院6

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院7

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注指數(shù)分布族廣義線性回歸模型的一個基本假設(shè)是響應(yīng)變量所服從的分布屬于指數(shù)分布族。而在一般線性回歸模型中,通常假設(shè)在給定預(yù)測變量的條件下,響應(yīng)變量服從正態(tài)分布。正態(tài)分布也屬于指數(shù)分布族,所以說廣義線性回歸模型是對一般線性回歸模型的推廣,正如指數(shù)分布族是對正態(tài)分布的推廣。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院8

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型指數(shù)分布族一覽圖

2:常見指數(shù)族分布及其聯(lián)系李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院9

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型指數(shù)分布族的形式稱變量

Y

為指數(shù)分布族隨機(jī)變量,如果其概率密度函數(shù)

f

(y;θ,?)具有以下形式:其中:θ

為標(biāo)準(zhǔn)參數(shù),是隨機(jī)變量

Y

的期望

μ

的函數(shù),記為

θ(μ)b(θ)為標(biāo)準(zhǔn)參數(shù)θ

的函數(shù)a(?)>0

為規(guī)模參數(shù)

?

的函數(shù),與

Y

的方差有關(guān)c(y,?)則為觀測值與規(guī)模參數(shù)的函數(shù)該分布中隨機(jī)變量

Y

的值域

A

應(yīng)不依賴于

θ

。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院10

/

105

多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特例:正態(tài)分布不難驗證正態(tài)分布屬于指數(shù)分布族。設(shè)正態(tài)分布隨機(jī)變量

Y的概率密度函數(shù)為:則該密度函數(shù)可以改寫成指數(shù)分布族的形式,即:其中,y

∈R

不依賴于未知參數(shù)

μ

σ2

。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院11

/

105

多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特例:二項分布對于二項分布,設(shè)響應(yīng)變量

Y

表示在

m

次試驗中成功次數(shù),且單次成功概率為

p,則其概率密度函數(shù)為:f

(y;

p)

=

Cy

py

(1?

p)m?ym將其改寫成指數(shù)分布族的形式,即:其中,y

∈{0,1,...,m}不依賴于未知參數(shù)

p。

11為了保持統(tǒng)一,下文將二項分布的均值

mp

表示為

μ,特別地,如果

m

=1,二項分布退化為伯努利分布,則有

μ

=p

。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院12

/

105

多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特例:泊松分布f

(y;

μ)

=對于泊松分布,設(shè)響應(yīng)變量

Y

的均值和方差為

μ,則其概率密度函數(shù)為:μye?μy!將其改寫成指數(shù)分布族的形式,即:f

(y;

μ)

=

exp[y

log

μ?

μ

?

log(y!)]其中,y

∈{0,1,2,...}不依賴于未知參數(shù)

μ

。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院13

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型常見分布的指數(shù)族形式

李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院14

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型指數(shù)分布族的性質(zhì)指數(shù)分布族具有良好的分析性質(zhì)。假設(shè)

Y

為服從指數(shù)分布族的隨機(jī)變量,可以證明:分布均值為

E(Y

)=b′(θ)分布方差為

Var(Y

)=a(?)b′′(θ)b′′(θ)可以表示為關(guān)于

μ

的函數(shù),即方差函數(shù)

V

(μ)對上述三種常見的分布驗證這一結(jié)論,可以得到下表中的結(jié)果。分布

E(Y

)

Var(Y

)

V

(μ)σ2正態(tài)

μ

1二項2mpmp(1

?

p)μ(m

?

μ)/m泊松μμμ2m=1

時,μ

=p,方差函數(shù)為

μ(1

?μ)=p(1

?p)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院15

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型構(gòu)成廣義線性回歸模型包含以下三個組成部分:隨機(jī)成分:表示響應(yīng)變量的隨機(jī)變量

Yi

~f

(yi;θi,?),其中f

(·)是一個指數(shù)分布族的概率密度函數(shù)。系統(tǒng)成分:預(yù)測變量的線性組合,設(shè)存在

p

個預(yù)測變量,則系統(tǒng)成分為pη

=

X

β

=

β

Xi

i

j

ij3j=03

連接函數(shù):連接響應(yīng)變量的條件均值

μi

和系統(tǒng)成分

ηi

的函數(shù)

g(·),使得

ηi

=g

(μi)3為避免混淆,本章規(guī)定:

Xij

表示變量

j

在第

i

個樣本點上的取值;

Xj表示第

j

個隨機(jī)變量;

粗體的

Xi

表示第

i

個樣本點的取值向量,即

Xi

=

(1,Xi1,·

·

·

,Xip);粗體的

X

=(X1,...,Xn)?表示

n

×(p

+1)

維的設(shè)計矩陣;β

=(β0,β1,...,βp)?表示系數(shù)向量。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院16

/

105

模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注確定連接函數(shù)在廣義線性回歸模型中,系統(tǒng)成分是事先給定的,隨機(jī)成分的分布需要基于數(shù)據(jù)作出假設(shè),而由這兩者可以確定相應(yīng)的連接函數(shù)。當(dāng)

Yi

是服從指數(shù)分布族的隨機(jī)變量時,μi

=E

(Yi)=b′(θi),因此,也可以說連接函數(shù)

g(·)在參數(shù)

θi

與系統(tǒng)成分

ηi

之間建立了連接,即

ηi

=g(b′(θi))。4特別地,稱使得

ηi

=θi

成立的

g(·)為典型連接函數(shù)(canonicallink

function)。這意味著,ηi

=g(b′(θi))=θi,因此

g(b′(·))必須為等值函數(shù),即

g

(b′(x))=x。4通常假定

g(·)是一個一一對應(yīng)、連續(xù)且可微的函數(shù),存在逆函數(shù)

g?1(·)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院17

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注確定連接函數(shù)根據(jù)

g(b′(x))=x,對于響應(yīng)變量服從不同分布的情形,可以反解出對應(yīng)的典型連接函數(shù)(以下簡稱連接函數(shù))。eθ1+eθ例如,

當(dāng)響應(yīng)變量服從伯努利分布時,

b′(θ)

=

,

可知連接函數(shù)滿足

geθ1+eθ(

)i

i

pi

1?pi=

θ,

于是有

η

=

g

(p

)

=

log

,

通常稱為

logit

連接函數(shù)。通過類似的簡單推導(dǎo),可以得到響應(yīng)變量服從正態(tài)分布或泊松分布時,對應(yīng)的連接函數(shù)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院18

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特定模型的具體構(gòu)成綜上,當(dāng)假設(shè)響應(yīng)變量服從正態(tài)分布、伯努利分布、泊松分布時,對應(yīng)的廣義線性回歸模型中三個組成部分的具體形式如下表所示。55省略系統(tǒng)成分李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院19

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型再談泰坦尼克號在泰坦尼克數(shù)據(jù)中,可以假設(shè)響應(yīng)變量(1表示存活,0表示遇難)是服從伯努利分布的隨機(jī)變量,并通過

logit連接函數(shù)將預(yù)測變量(性別、年齡等)的線性組合與其建立聯(lián)系,擬合廣義線性回歸模型,這就是二分類

Logistic回歸模型。正如一般線性回歸模型,在擬合該模型時需要回答以下問題:如何估計模型中的系數(shù),得到模型的具體表達(dá)式?如何判斷模型中系數(shù)是否顯著不為

0

,從而推斷預(yù)測變量對響應(yīng)變量的影響?如何根據(jù)模型對新樣本的結(jié)局進(jìn)行預(yù)測,并評估模型的預(yù)測能力?下面以二分類

Logistic回歸模型為例,介紹如何在廣義線性回歸模型中擬合模型,進(jìn)行參數(shù)估計與模型診斷,并對響應(yīng)變量進(jìn)行預(yù)測。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院20

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院21

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型形式二分類

Logistic回歸模型屬于廣義線性回歸模型,適用于分析響應(yīng)變量為服從伯努利的二分類變量的數(shù)據(jù),例如患者在服用某種藥物后是否痊愈、在臨床試驗中被分到實驗組的小白鼠是否增加體重等。響應(yīng)變量

Y

表示研究者所感興趣的事件發(fā)生或者不發(fā)生,分別用

1

0

表示,假設(shè)有

n

個這樣的隨機(jī)變量

y1,...,yn,彼此獨立,并且有

P

(yi

=1)=pi

。已知預(yù)測變量觀測值

X1,...,Xn

。響應(yīng)變量

Y

的概率密度函數(shù)為:f

(y;

p)

=

py

(1

?

p)1?y,

y

{0,

1}模型的連接函數(shù)為:李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院22

/

105

模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注參數(shù)估計對于廣義線性回歸模型中的系數(shù),通常無法得到類似于一般線性回歸模型中那樣的顯示解。例如,在二分類

Logistic

回歸模型中,由連接函數(shù),可知logit

(P

(yi

=

1))

=

Xiβ顯然系數(shù)無法直接由

yi

Xi

解析得到。回顧一般線性回歸模型,使用極大似然法進(jìn)行系數(shù)的估計,可以證明最終系數(shù)估計值等價于最小二乘估計,即那么,在廣義線性模型中,同樣使用極大似然法,可否得到類似形式的估計?如果該估計不具有顯式解,具體如何求解?李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院23

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注極大似然法考慮極大似然法,似然函數(shù)為:因此,對數(shù)似然函數(shù)可表示為:分別對

βj

(j

=0,1,...,p)求導(dǎo),令導(dǎo)數(shù)為

0

,就可以求解出對應(yīng)的估計值

β?j

(j

=0,1,...,p)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院24

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注似然函數(shù)求導(dǎo)李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院25

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注加權(quán)最小二乘李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院26

/

105

模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注

李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院27

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注迭代求解算法由上述推導(dǎo)過程可知,對于特定的廣義線性回歸模型:W

z

的取值依賴于

μμ

=

g?1(η)ηi

=

Xiβ也就是說,目標(biāo)

β

的估計依賴于

W與

z,而要估計

W與

z,又需要先估計

β,這就形成了一個

"雞生蛋,蛋生雞"的循環(huán),因此可以使用迭代算法進(jìn)行求解:先給定

β的初始估計值更新

W

z更新

β

的估計值重復(fù)以上步驟

2

3

直至估計值收斂李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院28

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注迭代求解算法圖

3:迭代加權(quán)最小二乘算法李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院29

/

105Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二分類Logistic回歸模型系數(shù)求解在二分類

Logistic

回歸模型中(μi

=pi):由

g

(pi)=log(pi/(1

?pi)),可得

g?1(η)=exp(η)/(1+

exp(η))。由

a(?)=1,V

(pi)=pi

(1

?pi),且

g′(pi)=1/pi

(1

?pi),可得

wi

=1/V

(pi)a(?)(g′(pi))2

=pi

(1

?pi)。圖

4:迭代加權(quán)最小二乘算法李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院30

/

105Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二分類Logistic回歸模型系數(shù)求解圖

5:二分類Logistic

回歸模型系數(shù)求解函數(shù)(R

代碼)李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院31

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注置信區(qū)間在得到系數(shù)的點估計后,可以構(gòu)造其置信區(qū)間:如果響應(yīng)變量服從正態(tài)分布,給定置信水平,則可以顯式地寫出區(qū)間的上下界,并基于樣本進(jìn)行估計。如果響應(yīng)變量服從其它分布,其置信區(qū)間的構(gòu)建通常需要依賴基于中心極限定理的大樣本性質(zhì)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院32

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注置信區(qū)間當(dāng)響應(yīng)變量是獨立的指數(shù)分布族隨機(jī)變量時,廣義線性回歸模型的系數(shù)估計具有以下大樣本性質(zhì):可以證明,在廣義線性回歸模型中,信息矩陣即為:I(β)

=X?W

Xa(?)李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院33

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注置信區(qū)間李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院34

/

105

多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特例:一般線性回歸模型由于

σ2

未知,可以用其估計值

σ?2

代替,在大樣本條件下可以用正態(tài)分布構(gòu)造置信區(qū)間,樣本量較小時使用

t

分布。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院35

/

105在二分類

Logistic

回歸模型中,由于

a(?)=1,于是有:其中,權(quán)重矩陣

W

=diag(w1,...,wn),wi

=pi

(1

?pi)。注意到,wi

的取值與

pi

有關(guān),而

pi

是未知量,因此

W

也需要估計。實際上,在加權(quán)迭代最小二乘算法中,每一步更新

β后,由

pi

=g?1

(ηi)=g?1

(Xiβ)可以更新

pi

的取值,同時更新矩陣

W

,隨著系數(shù)估計越來越穩(wěn)定,W的取值也會收斂,最后一步得到的

W便可以代入上式,計算出相應(yīng)的置信區(qū)間。Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二元Logistic回歸模型中的置信區(qū)間李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院36

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注假設(shè)檢驗在求解出系數(shù)的估計值后,研究者希望能像分析一般線性回歸模型一樣,進(jìn)行統(tǒng)計推斷,對模型中的系數(shù)進(jìn)行顯著性檢驗,以分析各個預(yù)測變量對于響應(yīng)變量的解釋作用,以及模型對數(shù)據(jù)的擬合程度。由大樣本性質(zhì),對于單個系數(shù),可以基于正態(tài)分布的假設(shè)進(jìn)行檢驗(參照置信區(qū)間的構(gòu)造過程)。而對于模型整體的顯著性檢驗,需要基于似然函數(shù)構(gòu)建檢驗統(tǒng)計量。在一般線性回歸模型中,通常通過殘差平方和來判斷模型擬合程度的好壞并基于此進(jìn)行擬合優(yōu)度檢驗,

而在廣義線性回歸模型中,

要實現(xiàn)與之等價的檢驗,

對應(yīng)的指標(biāo)為偏差(deviance),也被稱為對數(shù)似然統(tǒng)計量。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院37

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注偏差偏差實質(zhì)上是當(dāng)前模型(使用部分變量擬合模型)與全模型(包含所有變量,且響應(yīng)變量完全由系統(tǒng)成分決定)的對數(shù)似然之差。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院38

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特例:一般線性回歸模型可以看到,此時偏差恰好等價于殘差平方和。實際上,偏差正是一般線性回歸模型中的殘差平方和在廣義線性回歸模型中的推廣。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院39

/

105

Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二分類Logistic回歸模型中的偏差值得注意的是,此時,響應(yīng)變量只能取

0

1,使得

log

yi

或log

(1

?yi)不存在,所以需要根據(jù)極限值來定義其取值。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院40

/

105Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二分類Logistic回歸模型中的偏差當(dāng)

yi

=0

時,有:yi→0iy

ip?ilim

y

log

=

limyi→0log

yi

p?i

1yi=

limp?i

1y

p?i

iyi→0

?

1

y2iyi→0i=

lim

?y

=

0.p?i因此,當(dāng)

yi

=0

時,可定義

yi

log

yi

=0

。i

i(同理,當(dāng)

y

=1

時,可定義

(1

?y

)log1?yi1?p?i)=0,由此實現(xiàn)偏差的計算。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院41

/

105Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二分類Logistic回歸模型中的偏差綜上,在二分類

Logistic

回歸模型中,可以將偏差簡潔地表示為:ni

i

i

iD(y,

p?)

=

?2 [y

log

(p?

)

+

(1

?

y

)

log

(1

?

p?

)]i=1可以這樣理解偏差:當(dāng)

yi

=1

時,偏差的每一項退化為

?2

log(p?i),如果

p?i

接近1,那么偏差會接近

0,反之,p?i

越接近

0,則偏差越大當(dāng)

yi

=0

時,偏差的每一項退化為

?2

log

(1

?p?i),如果

p?i接近

0,則偏差接近

0,反之,p?i

越接近

1,則偏差越大李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院42

/

105

模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注偏差的性質(zhì)注意到,在上述偏差的定義中,除了求兩個模型的對數(shù)似然之差外,還乘上

a(?)進(jìn)行標(biāo)準(zhǔn)化,故也稱之為標(biāo)準(zhǔn)化偏差。如果不考慮標(biāo)準(zhǔn)化,那么近似有:D(y,

μ?)=

2[l(θ?)

?

l(θ?)]

χ2(p

?

m)a(?)其中,p

表示全模型中的變量總數(shù),m

表示當(dāng)前模型中所包含變量個數(shù)。例如,在一般線性回歸模型中,有D(y,μ?)

a(?)=ni=1σ2(yi?μ?i)2

服從自由度為

p

?m的卡方分布,與多元回歸中的結(jié)論是一致的。而在二分類

Logistic

回歸模型中,由于

a(?)=1,所以有ni=1i

i

i

i2?2 [y

log

(p?

)

+

(1

?

y

)

log

(1

?

p?

)]

χ

(p

?

m)李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院43

/

105

模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注假設(shè)檢驗流程假設(shè)模型

M0

中包含

m0

個變量,模型

M1

中包含

m1

個變量。不失一般性,令所有非

0的系數(shù)排列在最前面,考慮如下假設(shè)檢驗問題:李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院44

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注假設(shè)檢驗流程當(dāng)模型對數(shù)據(jù)的擬合程度較好時,有

D0

~χ2

(p

?m0)與

D1

a(?)a(?)~χ2

(p

?m1),

因此在變量滿足獨立性條件時,

有T

~χ2

(m1?m0)。當(dāng)由樣本計算得到的檢驗統(tǒng)計量

T

的值大于

χ2

(m1?m0)的

100

×α%分位點時,就以

α

顯著性水平拒絕原假設(shè),說明相比模型

M0

,模型

M1

在對數(shù)據(jù)的擬合優(yōu)度上存在顯著性的優(yōu)勢,所以應(yīng)該使用后者,反之,如果不拒絕原假設(shè),則說明兩個模型在擬合優(yōu)度上不存在顯著差異,傾向于選擇更為簡單的模型

M0

。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院45

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型解釋在得到系數(shù)的估計值并通過假設(shè)檢驗驗證其顯著性后,研究者通常希望借此解釋對應(yīng)的預(yù)測變量對響應(yīng)變量的影響。回顧一般線性回歸模型,系數(shù)

βj表示的含義是

"在控制其它變量保持不變時,變量

Xj每增加一個單位,預(yù)測響應(yīng)變量平均變化的程度"。而在二分類

Logistic

回歸模型中,系數(shù)

βj

表示的含義與優(yōu)勢比

(odds

ratio,以下簡稱

OR)有關(guān)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院46

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注優(yōu)勢比的定義對于第

i

個觀測,設(shè)

P

(Yi

=1)=pi,則定義優(yōu)勢

(odd)為1?pi

pi

,即

Yi

1

相對于

Yi

0

"優(yōu)勢"。1+exp(Xiβ)由

pi

=

exp(Xiβ)

,可知

oddi

=exp(Xiβ)。定義觀測

i

相對于

j

的優(yōu)勢比為

OR=oddi

=exp[(Xi

?Xj

)β]。oddj優(yōu)勢比大于

1,表明第i

個觀測個體相比于第j

個觀測,其響應(yīng)變量

Y

1

的可能性更大。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院47

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注優(yōu)勢比的解釋在數(shù)據(jù)分析中,研究者感興趣的是某個變量

Xj變化時對應(yīng)的優(yōu)勢比,它可以反映該變量對響應(yīng)變量的影響程度,所以需要控制其它變量保持不變,計算當(dāng)

Xj增加一個單位時,相比于增加前的優(yōu)勢比。例如,在泰坦尼克號的例子中,如果要研究性別因素對于乘客是否存活的影響,應(yīng)該控制年齡、艙位檔次這兩個變量不變,計算男性乘客相比于女性乘客的優(yōu)勢比。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院48

/

105Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型優(yōu)勢比的解釋(以泰坦尼克為例)設(shè)模型為logit

(pi)

=

β0+β1

Age

i+β2

Gender

i+β3

Pclass2i

+β4

Pclass3i其中:性別(Gender)是二分類變量,取

1

表示男性,取

0

表示女性年齡(Age)是連續(xù)型變量艙位檔次

(Pclass)是有序變量,可以將其視為一個三分類變 量,用兩個啞變量表示,Pclass2

1

表示乘客來自二等艙, Pclass3取1表示乘客來自三等艙,這兩個變量都取

0表示乘客 來自一等艙李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院49

/

105Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型優(yōu)勢比的解釋(以泰坦尼克為例)不妨設(shè)存在這樣兩名乘客

A

B,年齡均為

30

歲,均乘坐一等艙,A

為男性,B

為女性。那么,根據(jù)上述定義,乘客

A

存活的

"優(yōu)勢"為:oddA

=

exp

(β0

+

30β1

+

β2)而乘客

B

存活的

"優(yōu)勢"為:oddB

=

exp

(β0

+

30β1)優(yōu)勢比

OR

為:OR

=

oddA

/

oddB

=

exp

(β2)顯然,如果

β2

顯著大于

0,OR會顯著大于

1,表示在其他條件相同時,男性存活的可能性顯著大于女性。反之,如果

β2顯著小于

0,則表示女性乘客存活下來的

"優(yōu)勢"更大。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院50

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注優(yōu)勢比的解釋特別地,如果

Xj是一個二分類的變量(比如用

1

0

分別表示男性和女性),優(yōu)勢比顯著大于

1則說明取值為

1所表示的那一類(男性)相比于取值為

0所表示的那一類(女性)發(fā)生事件的概率要更高。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院51

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注預(yù)測在廣義線性回歸模型中,預(yù)測實際上是對條件均值

μi

的預(yù)測。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院52

/

105

多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型特例:一般線性回歸模型李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院53

/

105

Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型

多分類Logistic回歸模型二分類

Logistic

回歸模型中的預(yù)測對于二分類

Logistic

回歸模型,響應(yīng)變量表示感興趣的事件是否發(fā)生(用

1

0

表示),假設(shè)其服從伯努利分布,連接1?pi函數(shù)為:ηi

=g(pi)=log

pi

,其逆函數(shù)為:pi

=g?1

(ηi)=eηi1+eηi.模型的預(yù)測值為:生的概率(即響應(yīng)變量取

1

的概率)。6以泰坦尼克號的例子為例,若

1

表示存活,0

表示遇難,則預(yù)測值為乘客存活的概率。進(jìn)一步,

若需要作出明確的預(yù)測,研究者可以確定一個閾值

δ

來判斷乘客是否能存活。例如,當(dāng)閾值設(shè)為

0.5

時,若某位乘客對應(yīng)的預(yù)測值為

0.7,則預(yù)測其能夠存活。6注意到其取值確實在區(qū)間

(0,1)內(nèi),與通常對概率的定義相符合。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院54

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注混淆矩陣將預(yù)測值與實際值進(jìn)行比對,可以得到混淆矩陣,其中:TP(True

Positive)為真陽性,即實際取

1

且預(yù)測為

1

的觀測FP(False

Positive)為假陽性,即實際為

0

但預(yù)測為

1

的觀測FN(False

Negative)為假陰性,即實際取1但預(yù)測為0的觀測TN(True

Negative)為真陰性,即實際取

0

預(yù)測為

0

的觀測圖

6:混淆矩陣?yán)顡P/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院55

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注根據(jù)混淆矩陣,整體的預(yù)測準(zhǔn)確率為acc

=

(TP

+

TN

)/(TP

+

FN

+

FP

+

TN

)當(dāng)樣本中取

1

和取

0

的觀測數(shù)量存在不平衡現(xiàn)象時,整體準(zhǔn)確率并不是一個合適的評價指標(biāo)。假設(shè)存在這樣一個模型,無論輸入什么數(shù)據(jù),預(yù)測值都為

1,而某樣本中包含

100

個觀測,99

個響應(yīng)變量取值為

1,僅有1個取值為

0,那么這個模型在該樣本內(nèi)可以達(dá)到99%的準(zhǔn)確率。但是,這一模型并不是研究者想要的,因為它實際上對于響應(yīng)變量取值為

1

的樣本沒有任何識別能力。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院56

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型靈敏度與特異度要綜合評價模型的預(yù)測能力,需要引入更全面的指標(biāo):真陽性率

(True

Positive

Rate,TPR),或稱靈敏度

(Sensitivity), 指的是實際上取值為

1

的觀測中預(yù)測值也為

1

的那部分所 占的比例,表達(dá)式為TPR=TP/(TP

+FN

),真陽性率越高, 表明模型對取值為

1

的樣本的識別能力越強。真陰性率

(True

Negative

Rate,TNR),也稱特異度

(Speci- ficity),指的是實際上取值為

0

的觀測中預(yù)測值也為

0

的 那部分所占的比例,表達(dá)式為

TNR=TN/(TN

+FP

),真陰 性率越高,表明模型對取值為

0

的樣本的識別能力越強。對于某個特定的問題,研究者對兩類樣本的預(yù)測精度的要求可能是不同的。例如,在預(yù)測犯罪行為時,通常會對模型將非犯罪分子錯分為犯罪分子的錯誤有更高的容忍度,后續(xù)再對模型篩選出的可疑對象進(jìn)行人工甄別,以此提高對犯罪分子的打擊覆蓋率。研究者需要根據(jù)所研究問題的實際情況,確定靈敏度與特異度在模型評價時的權(quán)重。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院57

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注ROC曲線研究者通過閾值

δ

來確定模型對單個樣本點的預(yù)測結(jié)果,如果

pi

>δ,則預(yù)測

y?i

=1,否則預(yù)測

y?i

=0

。顯然,調(diào)節(jié)閾值

δ

時,模型對整個樣本的預(yù)測結(jié)果會發(fā)生變化,靈敏度和特異度也隨著改變,得到多組結(jié)果。以特異度為橫軸,以靈敏度為縱軸,可以得到受試者工作特征曲線

(簡稱

ROC)。圖

7:ROC曲線李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院58

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注ROC曲線如果模型在取不同的閾值時,特異度和靈敏度都較高,曲線中的點會集中分布于坐標(biāo)軸的左上角,使得整條曲線下方的面積接近1;而如果是隨機(jī)猜測,則對應(yīng)對角線,曲線下面積為0.5。因此,當(dāng)存在多個備選模型時,研究者可以根據(jù)ROC

曲線下面積(AUC)來比較不同模型的預(yù)測能力。圖

8:ROC曲線李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院59

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型示例:泰坦尼克數(shù)據(jù)R包titanic

所提供的數(shù)據(jù)記錄了著名的泰坦尼克號沉沒事件中各位乘客的存活信息,以及相關(guān)的個人信息,例如性別、年齡、艙位檔次(分一等、二等和三等)等,如表所示。將乘客是否存活視為服從伯努利分布的隨機(jī)變量,

使用乘客的個人信息作為預(yù)測變量,擬合二分類Logistic回歸模型,可以預(yù)測不同的乘客在這起海難中被救下的概率,并比較各個變量所發(fā)揮的作用。

IDAgePclassGenderSurvived1223male02381female13263female14351female15353male06541male0李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院60

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注可視化探索在擬合模型前,可以先簡單探索預(yù)測變量與乘客是否存活的關(guān)系。取性別(Gender)、艙位檔次(Pclass)以及是否存活(Survived)這三個變量,得到列聯(lián)表如下所示。圖

9:乘客性別、艙位檔次、是否存活列聯(lián)表李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院61

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注可視化探索為了更直觀地反映這一結(jié)果,還可以畫出如下圖所示的馬賽克圖。圖

10:乘客性別、艙位檔次、是否存活馬賽克圖李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院62

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注可視化探索結(jié)合圖表信息,可以得到以下初步結(jié)論:不管是在哪個檔次的艙位中,女性的存活率都要明顯高于男性 的:在一等艙中,女性的存活率為

82/(3+82)≈96.47%,而 男性存活的比例只有

40/(61+40)

≈39.60%

,確實體現(xiàn)了女 性優(yōu)先的原則。不同的艙位檔次之間,存活比例的差異也很明顯:在三等艙 中,女性存活比例為

47/(55+47)

≈46.08%

,而男性則為 38/(215+38)

≈15.02%

,均遠(yuǎn)遠(yuǎn)低于一等艙的。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院63

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注擬合模型在該數(shù)據(jù)集中,響應(yīng)變量為二分類變量,適用二分類

Logistic回歸模型。預(yù)測變量中:

性別(Gender)是二分類變量,取

1

表示男性,

0

表示女性;

年齡(Age)

是連續(xù)型變量;

而艙位檔次(Pclass)是有序變量,為了方便起見,可以將其視為一個三分類變量,在擬合模型時用兩個啞變量表示,Pclass2取

1

表示乘客來自二等艙,Pclass3

1

表示乘客來自三等艙,這兩個變量都取

0

表示乘客來自一等艙。使用

logit

連接函數(shù),模型可以表示為:logit

(pi)

=

β0+β1

Age

i+β2

Gender

i+β3

Pclass2i

+β4

Pclass3i李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院64

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注擬合結(jié)果分析模型的擬合結(jié)果如下表所示。圖

11:二分類Logistic

回歸模型擬合結(jié)果(泰坦尼克數(shù)據(jù))李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院65

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注性別考慮性別因素,男性(Gender

取1)相比女性

(Gender

0)存活的優(yōu)勢比為

eβ2

,其估計值

eβ?2

=e?2.523

≈0.080

。而性別

(Gender)所對應(yīng)的系數(shù)估計值為

β?2

=?2.523,其標(biāo)準(zhǔn)誤為

0.207,則

95%

置信區(qū)間為(?2.523

?

z0.975

×

0.207,

?2.523

+

z0.975

×

0.207)

=

(?2.929,

?2.117)因此,男性(Gender

1)相比于女性(Gender

0)的存活優(yōu)李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院66

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注艙位檔次考慮艙位檔次(經(jīng)濟(jì)能力)對存活率的影響。由于設(shè)置了啞變量

Pclass2與

Pclass3,相當(dāng)于是以一等艙的乘客為參照,所以在估計優(yōu)勢比時應(yīng)該明確是相對于一等艙乘客的優(yōu)勢比。Pclass2

對應(yīng)的系數(shù)估計值為

β?3

=?1.310,因此二等艙相對于一等艙的存活優(yōu)勢比的估計值為

eβ?3

=e?1.310

≈0.270

。同理,Plass3

對應(yīng)的系數(shù)估計值為

β?4

=?2.581,因此三等艙相對于一等艙的存活優(yōu)勢比的估計值為

eβ?4

=e?2.581

≈0.076

。兩個系數(shù)的估計值都是統(tǒng)計學(xué)顯著的,可以推斷,無論是二等艙還是三等艙,乘客存活下來的可能性都要顯著低于一等艙。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院67

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注年齡年齡對于存活率也有一定的影響,由其系數(shù)估計值為負(fù)值,可以推斷,當(dāng)控制其它變量不變時,年齡越大者的存活可能性越低。值得注意的是,

此處為了方便展示,

只是把年齡當(dāng)成一個連續(xù)變量,而實際上,由于兒童和老者都會在救援中受到優(yōu)待,存活率隨年齡的增長應(yīng)該是有先下降后上升的趨勢的。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院68

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注預(yù)測在模型中用系數(shù)的估計值代替其真值,代入每個乘客的個人信息,得到存活概率的預(yù)測值。取閾值0.5,在訓(xùn)練集上,可以得到預(yù)測結(jié)果與真實值所構(gòu)成的混淆矩陣(Confusion

matrix),如下圖所示。整體的預(yù)測準(zhǔn)確率為

(356+207)/714

≈78.85%

。圖

12:混淆矩陣(泰坦尼克數(shù)據(jù))李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院69

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院70

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注多分類問題在實際數(shù)據(jù)分析中,

有時響應(yīng)變量可能存在多個無序的類別,例如,當(dāng)電影公司想要通過觀眾的性別、年齡、社會地位等背景信息預(yù)測其最喜愛的電影類型時,響應(yīng)變量就是一個多分類的變量,其不同取值代表各種類型片。此時,研究者需要借鑒二分類Logistic

回歸模型的思想,使用多分類Logistic

回歸模型進(jìn)行分析。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院71

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注解決方案基于廣義線性回歸模型,目前主要有兩種思路:把多分類問題拆解為多個二分類問題,分別擬合二分類Logistic 回歸模型,而后通過類似機(jī)器學(xué)習(xí)中的弱分類器集成的方式,由 多個模型投票預(yù)測樣本所屬的類別。直接假定響應(yīng)變量服從多項分布,建立相應(yīng)的廣義線性回歸模型,直接進(jìn)行預(yù)測。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院72

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型拆解為二分類問題借助二分類Logistic

回歸模型解決多分類問題,有“一對一”和“一對其他”

這兩種具體的方法。一對一:每次取兩個類別的樣本,擬合二分類

Logistic

回歸模型。如果有

K

個類別,則一共要擬合

C2

個模型。每個模型K都會預(yù)測樣本屬于兩類中的一類,給對應(yīng)的類

"記上一票"。統(tǒng)計所有模型的投票結(jié)果,票數(shù)最多的那一類就是樣本所屬類的預(yù)測值。一對其他:每次指定

K個類別的其中一類作為正樣本,以所 有其他類作為負(fù)樣本,視為二分類問題,擬合二分類

Logistic 回歸模型。如果有

K個類別,則一共要擬合

K個模型。每 個模型都可以得到樣本屬于所指定類別的概率預(yù)測值,比較

K

個預(yù)測值,以最大值對應(yīng)的類作為樣本所屬類的預(yù)測值。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院73

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型多分類Logistic回歸模型多分類

Logistic

回歸模型直接假定響應(yīng)變量

Y

是服從重復(fù)次數(shù)為

1

的多項分布的隨機(jī)變量,一共可取

{1,2,...,K}共K

個值,表示

K

個不同的類別,且有將

Yi

取值為

k

的概率表示為以下對數(shù)一般線性回歸模型的形式:log

(P

(Yi

=

k))

=

Xiβk

?

log(Z)其中

Xi

表示第

i

行觀測數(shù)據(jù),

βk

表示第

k

類特定的系數(shù)向量,

?log(Z)是為了保證取各個類的概率加和為

1

而引入的正則項。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院74

/

105

多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型多分類Logistic回歸模型由上式,有:與二分類

Logistic

回歸模型的

logit

連接函數(shù)相對應(yīng),該式連接了預(yù)測變量的線性組合與響應(yīng)變量取某一值的概率,被稱作

softmax

連接函數(shù)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院75

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型多分類Logistic回歸模型在實際應(yīng)用中,為了使系數(shù)估計能夠被唯一確定,通常需要指定一個類別作為參照水平,將其對應(yīng)的系數(shù)都設(shè)為

0,在此基礎(chǔ)上估計其他類別對應(yīng)的系數(shù)向量。不失一般性,假定選擇將第一個類別作為參照水平,則上述模型可改寫為:當(dāng)響應(yīng)變量只包含兩個類別時,該式與

logit連接函數(shù)是完全等價的,因此,多分類

Logistic

回歸模型可以看作是二分類

Logistic

回歸模型的推廣。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院76

/

105多分類Logistic回歸模型Possion回歸模型小結(jié)與評注模型的一般形式

二分類Logistic回歸模型示例:學(xué)生項目數(shù)據(jù)UCLA

提供的學(xué)生項目數(shù)據(jù)記錄了200

名學(xué)生在開學(xué)后選擇的項目類型(prog),包括綜合型(general)、學(xué)術(shù)型(academic)和職業(yè)型(vocation)。此外,還記錄了可能對選擇結(jié)果有影響的兩個因素:家庭在社會中的經(jīng)濟(jì)地位(ses,分高中低三檔)、學(xué)生本人的寫作分?jǐn)?shù)(score)。李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院77

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注可視化探索選擇學(xué)術(shù)型項目的學(xué)生寫作分?jǐn)?shù)普遍更高,而選擇職業(yè)型項目的學(xué)生分?jǐn)?shù)最低。圖

13:不同項目組學(xué)生寫作分?jǐn)?shù)分布箱線圖李揚/林存潔/王菲菲/孫韜/廖軍廣義線性回歸中國人民大學(xué)統(tǒng)計學(xué)院78

/

105模型的一般形式二分類Logistic回歸模型多分類Logistic回歸模型Possion回歸模型小結(jié)與評注可視化探索家庭經(jīng)濟(jì)條件較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論