對(duì)廣義線性模型的學(xué)習(xí)_第1頁
對(duì)廣義線性模型的學(xué)習(xí)_第2頁
對(duì)廣義線性模型的學(xué)習(xí)_第3頁
對(duì)廣義線性模型的學(xué)習(xí)_第4頁
對(duì)廣義線性模型的學(xué)習(xí)_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

對(duì)廣義線性模型(GeneralizedLinearMode的學(xué)習(xí)引言在學(xué)習(xí)普通線性模型時(shí)就對(duì)因變量為離散的情況存有疑問。在統(tǒng)計(jì)實(shí)驗(yàn)課程研讀吳喜之老師的《復(fù)雜數(shù)據(jù)》一書的第六章時(shí),發(fā)現(xiàn)了對(duì)離散因變量或者因變量為計(jì)數(shù)或有序數(shù)據(jù)時(shí),可采用廣義線性模型來處理。因此這燃起了我對(duì)于廣義線性模型的學(xué)習(xí)興趣,通過查閱資料,對(duì)此模型有了以下的初步了解。并在對(duì)經(jīng)典方法理論有了一定的了解之后,利用該模型對(duì)實(shí)際數(shù)據(jù)進(jìn)行了處理與分析,同時(shí)又用其他方法(包括機(jī)器學(xué)習(xí)等方法)對(duì)相同的數(shù)據(jù)進(jìn)行了處理,在最后比較了各種方法之間的優(yōu)缺點(diǎn)。一、數(shù)據(jù)特點(diǎn)1、橫截面數(shù)據(jù)(Cross-SectionData):在同一時(shí)間,不同統(tǒng)計(jì)單位相同統(tǒng)計(jì)指標(biāo)組成的數(shù)據(jù)列。Note:①與時(shí)序數(shù)據(jù)相比較,其區(qū)別在于數(shù)據(jù)的排列標(biāo)準(zhǔn)不同,時(shí)序數(shù)據(jù)是按照時(shí)間順序排列的,橫截面數(shù)據(jù)是按照統(tǒng)計(jì)單位排列的。②橫截面數(shù)據(jù)不要求統(tǒng)計(jì)對(duì)象及其范圍相同,但要求統(tǒng)計(jì)的時(shí)間相同。#橫截面數(shù)據(jù)即為同一時(shí)間截面上的數(shù)據(jù)2、橫截面數(shù)據(jù)分析的要點(diǎn):①異方差問題由于數(shù)據(jù)是在某一時(shí)期對(duì)個(gè)體或地域的樣本的采集,不同個(gè)體或地域本身就存在差異。②數(shù)據(jù)的一致性主要包括變量的樣本容量是否一致,樣本的取樣時(shí)期是否一致,數(shù)據(jù)的統(tǒng)計(jì)標(biāo)準(zhǔn)是否一致。3、面板數(shù)據(jù)(PanelData):是指在時(shí)間序列上取多個(gè)截面,對(duì)于每一個(gè)截面上的數(shù)據(jù)均為一橫截面數(shù)據(jù)列。Note:①面板數(shù)據(jù)是一個(gè)m*n的數(shù)據(jù)矩陣,記載的是n個(gè)時(shí)間節(jié)點(diǎn)上,m個(gè)對(duì)象的某一數(shù)據(jù)指標(biāo)。②其有時(shí)間序列和截面兩個(gè)維度,當(dāng)這類數(shù)據(jù)按兩個(gè)維度排列時(shí),是排在一個(gè)平面上,與只有一個(gè)維度的數(shù)據(jù)排在一條線上有著明顯的不同,整個(gè)表格像是一個(gè)面板。③如果從其內(nèi)在含義上講,把paneldata譯為“時(shí)間序列-截面數(shù)據(jù)”更能揭示這類數(shù)據(jù)的本質(zhì)上的特點(diǎn)。4、廣義線性模型主要用于因變量取離散值的情況當(dāng)可能值為一切自然數(shù)0,1,2,……時(shí),多用Poisson分布;當(dāng)Y取有限個(gè)值(實(shí)際是響應(yīng)可以有有限個(gè)狀態(tài))時(shí),多項(xiàng)分布是自然的選擇。5、在很大的程度上可以說,廣義線性回歸就是針對(duì)因變量為有限個(gè)值情況的回歸分析。但在具體定模型時(shí),需要考慮這有限個(gè)狀態(tài)之間的關(guān)系。一種是無序的,即各狀態(tài)的優(yōu)劣并無公共的認(rèn)定。例如外出旅行,有k種交通工具可以選擇,其優(yōu)劣取決于具體情況而并無公認(rèn)的排序。另一種是有序的,即各狀態(tài)的優(yōu)劣次序有公共的認(rèn)定。如治療效果、產(chǎn)品質(zhì)量的分級(jí)等。#不同情況建模方法有所不同。二、廣義線性模型的提出廣義線性模型的提出源于線性模型在應(yīng)用上有重要影響的幾個(gè)缺點(diǎn):1、只適用于因變量Y取值為連續(xù)的情況。它特別不適用于分類數(shù)據(jù)(如Y取0.1為值)。2、Y的期望£(丫)與自變量X是用線性關(guān)系E(Y)=ZT(X)-P相聯(lián)系。選擇面太窄,往往與實(shí)際情況不符。3、線性模型的統(tǒng)計(jì)推斷基本上只適用于誤差正態(tài)的情形。在某些Y取值連續(xù)的場(chǎng)合,Y的分布是偏態(tài)的,如指數(shù)分布、伽馬(Gamma)分布等。廣義線性模型的特點(diǎn)正好是對(duì)應(yīng)上面指出的問題:1、因變量Y可以取連續(xù)值或離散值,從常見的應(yīng)用看,取離散值的場(chǎng)合更重要。2、取代E(Y)=ZT(X)-P,有E(Y)=h(Zt(X)邛)函數(shù)h(其反函數(shù)且稱為聯(lián)系(或連接)函數(shù)(linkfunction))有較大的選擇余地,這樣擴(kuò)大了模型的適用面。3、Y(q維)有指數(shù)型分布Y?expOY—fe(O))d^(y)其中,0為q維參數(shù)向量,□是Rq上的。有限測(cè)度,口與0無關(guān)(或聯(lián)系函數(shù)g=h-1使O=“x).p,稱自然聯(lián)系)。指數(shù)型分布是一個(gè)適中的選擇,一方面它包括了應(yīng)用上最常見的一些分布:二項(xiàng)分布、多項(xiàng)分布、Poisson分布,以及連續(xù)型的正態(tài)分布、指數(shù)分布、伽馬分布等。另一方面,這分布類有很好的分析性質(zhì),又便于理論上的研究。三、廣義線性模型設(shè)有因變量丫,自變量X,普通線性模型有以下幾個(gè)特征:1、E(Y)=ZT(X).p(線性:線性指對(duì)0,而非X)。Z(X)為X的已知(向量)函數(shù)。2、X,Z(X),Y都是取值連續(xù)的變量,如農(nóng)作物產(chǎn)量、人的身高體重之類。3、Y的分布為正態(tài),或接近正態(tài)的分布。廣義線性模型從以下幾個(gè)方面推廣:1、E(Y)=h(Zt(X).p),h為一嚴(yán)格單調(diào)、充分光滑的函數(shù)。h已知,g=h-1(h的反函數(shù))稱為聯(lián)系函數(shù)(linkfunction),則有g(shù)(^)=ZtP。即E(Y)不等于Zt(X)P,而是Zt(X邪的某一函數(shù)。2、X,Z(X),Y可取連續(xù)或離散值,且在應(yīng)用上更多見的情況為離散值。如{0,1},{0,1,2,……}等。3、Y的分布屬于指數(shù)型,正態(tài)是其一特例。

4、以下的表格中列出了GLM中常用的幾種分布:Table1:GLMdistTibutionsRange□fy/(if)3A-nriancetenns收閨口網(wǎng)B^rihoulli或叫[d1}U。-4ri+R產(chǎn)0—31B出0{0…./}c”中-向I帚Y)1PoissoiiFg◎L2…)獷"■exp⑻讓1C^ecunetricCM")(0hL2s.)(rf7)"(母)昌1NegativeBinominalNEQN(OJt2f.M七十y-nV八比十*JU+/ijl-efl1E^poiieudal,上呼加)(。8£一(一卻-1/fljCi-31111113eg時(shí)》8)■初』(一灼N-i/yp21MGimaLw3n(—ochoc)exp{一值不產(chǎn)/僅小)}e1鏟InverseCi-aiissiiLiiJ仃仙港)(。8"P{一5二"『〃&Jj//)]y/2五/必鏟由上表格中的第二列小@口80。£y)可以知道,當(dāng)因變量為對(duì)應(yīng)數(shù)據(jù)形式時(shí)應(yīng)選擇對(duì)應(yīng)的分布來建立模型。5、以下的表格中列出了GLM中常用的幾種分布所對(duì)應(yīng)的聯(lián)系函數(shù):

Lftble2:ChftificterliliesofGL'Ih.(CanonicallinkDeviance

(CanonicallinkBcmoidli ,fa\Bcmoidli ,fa\成心 噫(4)一打摩(符)十n-%)頤(蘭疊)]Eiuoi由呂1正也邛)log晡(翁)+出一姑)1噸值三題]PoisonPPoisonP㈤2L2£Viloe(給一'-Pi)]次卜哨(皓麟)-皿用9]NegativeBiiioinial蜒(告W“㈤ '十一’E^potLenti^lE邛3(mimn1MG加,W)NomialInver陽E內(nèi)鏟:通常稱這幾種聯(lián)系函數(shù)為標(biāo)準(zhǔn)聯(lián)系函數(shù),上表中的第三列為偏差。四、R語言中的模型實(shí)現(xiàn)在R語言中利用stats包中的glm()函數(shù)來進(jìn)行廣義線性模型的擬合。和lm函數(shù)類似,glm的建模結(jié)果可以通過下述的泛型函數(shù)進(jìn)行

二次處理,如summary()、coef()、confint()、residuals()、anova()、plot()、predict。。R提供了一系列廣義線性建模工具,從類型上來說包括gaussian,反gaussian,二項(xiàng)式,poisson和gamma模型的響應(yīng)變量分布以及在響應(yīng)變量分布沒有明確給定時(shí)的擬似然(quasi-likelihood)模型。在后者,方差函數(shù)(variancefunction)可以認(rèn)為是均值的函數(shù),但是在另外一些情況下,該函數(shù)可以由響應(yīng)變量的分布得到。函數(shù)glm()的用法:glm(formula,family=gaussian,data,weights,subset,na.action,start=NULL,etastart,mustart,offset,control=list(...),model=TRUE,method="glm.fit",x=FALSE,y=TRUE,contrasts=NULL,...)多數(shù)選項(xiàng)與普通線性模型的擬合函數(shù)lm()相同,值得注意的是family選項(xiàng),family即為選擇模型的分布,有以下幾種選項(xiàng):binomial(link="logit")#二項(xiàng)分布gaussian(link"identity")#正態(tài)分布Gamma(link=binomial(link="logit")#二項(xiàng)分布gaussian(link"identity")#正態(tài)分布Gamma(link="inverse")#伽馬分布inverse.gaussian(link"i/muA2")#反Gaussian分布poisson(linklog")#泊松分布quasi(link="identity",variance="constant")#(quasi(link="identity",#擬二項(xiàng)分布#擬家族:響應(yīng)變量分布沒有明確給定時(shí)的擬似然模型#擬二項(xiàng)分布quasibinomial(link="logit")并有過度離散現(xiàn)象時(shí)使用:樣本觀測(cè)值變異性過大quasipoisson(link10gquasipoisson(link10g“#擬泊松分布并有過度離散現(xiàn)象時(shí)使用:樣本觀測(cè)值變異性過大注:若樣本觀測(cè)值變異性過大,即出現(xiàn)了過度離散現(xiàn)象,此時(shí)仍使用二項(xiàng)分布假設(shè)就會(huì)影響系數(shù)檢測(cè)的顯著性。那么補(bǔ)救的方法是使用準(zhǔn)二項(xiàng)分布(quasibinomial)。首先要檢測(cè)樣本是否存在過度離散現(xiàn)象,方法是用殘差除以殘差自由度,若超過1則意味著過度離散。那么將family參數(shù)改為quasibinomialo同樣,在進(jìn)行泊松分布也要考慮過度離散現(xiàn)象。其檢測(cè)方法同樣是殘差除以其自由度。若確定過度離散存在,則要將family參數(shù)設(shè)置為準(zhǔn)泊松分布(quasipoisson)。在family的分布選項(xiàng)下還有幾個(gè)常用選型即link和variance,可以用來選擇聯(lián)系函數(shù)和方差的形式。Example:gim(y?Example:gim(y?xfamily=quasi(variance="mu八2",linklog"))五、建立廣義線性模型的實(shí)例1、數(shù)據(jù)分析:該數(shù)據(jù)是由美國(guó)國(guó)家癌癥研究所資助的多中心血友病隊(duì)列研究獲得的。該項(xiàng)研究從1978年1月1日到1995年12月31日在16個(gè)治療中心(12個(gè)在美國(guó),4個(gè)在西歐)跟蹤了超過1600個(gè)血友病人,該數(shù)據(jù)一共有2144個(gè)觀測(cè)值及6個(gè)變量。下表為變量情況:描述性質(zhì)riiv耀者'的HIV狀況口=陰性,2=陽性)亞元型分類變量factor使用凝血肉子制劑的5種劑揖印元型分類受最year日歷年整數(shù)(也可作為分類變鼠1年齡(他5歲建增的絹;幅數(shù)/宓序/分出py人午:該年談組參加該研究的時(shí)間胞量數(shù)量變量deaths該組死亡人數(shù)糧數(shù)說明:變且fflCLS?的五種荊鼠,用唾元1,工通L3代法

為了更加直觀的分析該數(shù)據(jù)的特點(diǎn),截取了原數(shù)據(jù)中的部分?jǐn)?shù)據(jù)行:hivfactoryearagepydeaths117810.3201178211.0201173316.93Q1178屯10.060217840.190217S60.170217921.460217931.790227020.020227920.050227951.2002279100.040139511.370139523.330139536.460139543.84014701120.19014782148.730147S3152.5S0147S41S4.6302593516.3702593614.7512593712.2612593S10.742變量hiv為分類變量,只有兩個(gè)選項(xiàng),1和2;變量factor也為分類變量,有五個(gè)選項(xiàng),1,2,3,4,5;變量year、age和deaths均為整數(shù)數(shù)據(jù),只有變量py為數(shù)量變量。要進(jìn)行以死亡數(shù)即變量deaths作為因變量的回歸,由于因變量為整數(shù)數(shù)據(jù),因此選擇廣義線性模型來進(jìn)行擬合??疾煲蜃兞恐袛?shù)據(jù)的分布情況:>taEiLe(wtdeaths)0 12 3 4 5 61333 62 ZS 6 : 1發(fā)現(xiàn)可將其看作是{0,1,……}或{0,1,……,k}的形式,因此我們將采用Poisson對(duì)數(shù)線性模型(即分布設(shè)定為Poisson分布,聯(lián)系函數(shù)設(shè)定為對(duì)數(shù)函數(shù))和多項(xiàng)logit模型(即分布設(shè)定為二項(xiàng)分布,聯(lián)系函數(shù)設(shè)定為logit函數(shù))兩種方法來進(jìn)行數(shù)據(jù)的擬合。2、卡方檢驗(yàn)卡方檢驗(yàn)法是在總體X的分布未知時(shí),根據(jù)來自總體的樣本,檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法。由于這個(gè)數(shù)據(jù)的分布信息是未知的,并且我們也不是很容易直觀的判斷出它的分布信息,因此在這里我們采用卡方檢驗(yàn)的方法來判斷它的分布信息。使用卡方檢驗(yàn)對(duì)總體分布進(jìn)行檢驗(yàn)時(shí),我們先提出原假設(shè):H0:總體X的分布函數(shù)為F(x)然后根據(jù)樣本的經(jīng)驗(yàn)分布和所假設(shè)的理論分布之間的吻合程度來決定是否接受原假設(shè)。這種檢驗(yàn)通常稱作擬合優(yōu)度檢驗(yàn),它是一種非參數(shù)檢驗(yàn)。3、Poisson對(duì)數(shù)線性模型模型:ln(A)= +%+%+7a+也心1+出啊,其中,a.(i=1,2)代表hiv的兩個(gè)水平,pj(j=1,2,……,5)代表factor的5個(gè)水平,%代表year(°代表year的系數(shù)),1代表age(°2代表age的系數(shù)),*3代表py(e3代表py的系數(shù)),e。代表截距。>ap=glm(deaths~.,family='poisson’,datw)a=>summary(ap)Call:glm(formula=deaths?.,family="poisson”,data=w)DevianceResiduals:Min1Q Median3QMax-2.1139-0.4316-0.2209-0.1026 3.2727Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)-23.1352551.318652-17.545<2e-16***hiv22.7664610.20325913.611<2e-16***factor2-0.6364200.151922-4.1892.80e-05***factor3-0.4034340.140538-2.8710.0041**factor4-0.7075240.142711-4.9587.13e-07***factor5-0.3715850.146238-2.5410.0111*year0.2110470.01409014.979<2e-16***age0.0778670.0154955.0255.03e-07***py0.0330420.00284511.614<2e-16***Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:1892.8on2143degreesoffreedomResidualdeviance:1007.6on2135degreesoffreedomAIC:1725.7NumberofFisherScoringiterations:6得到的模型擬合結(jié)果為:ln(X)=-23.14+0+2,77+0-0.64-0.40-0.71-0.37+0.21%+0.08x2+0.03x3在模型中,定性自變量的各個(gè)水平的單獨(dú)效應(yīng)是不可估計(jì)的,必須加上約束條件,這里的約束條件是每個(gè)定性變量第一個(gè)水平為0。即效應(yīng)a](hiv1)及B](factor1)按照R的默認(rèn)約束條件都等于0。結(jié)果分析:首先,各個(gè)變量都很顯著,相比較而言factor3和factor5的顯著性較差一些。其次,當(dāng)設(shè)定hivl的效應(yīng)為0時(shí),hiv2對(duì)于死亡數(shù)的效應(yīng)為正,且效應(yīng)比hivl的效應(yīng)大;當(dāng)設(shè)定factorl的效應(yīng)為0時(shí),factor的其余四個(gè)選項(xiàng)對(duì)于死亡數(shù)的效應(yīng)均為負(fù),且factor4的效應(yīng)最大,factor5的效應(yīng)最?。蛔兞縴ear對(duì)于死亡數(shù)的影響較大,其余兩個(gè)變量對(duì)其影響較小。由模型擬合結(jié)果來分析實(shí)際情況,可知hiv為陽性時(shí)對(duì)血友病有較壞的影響,且影響較大;而在使用凝血因子制劑之后,對(duì)于病情均有改善,第二種和第四種制劑對(duì)于病情的改善效果較為明顯;而變量year對(duì)于死亡數(shù)的影響明顯比age和py的影響大,分析情況可能是因?yàn)獒t(yī)療條件的進(jìn)步,對(duì)于血友病的治療有了明顯的幫助。十折交叉驗(yàn)證對(duì)測(cè)試集的擬合結(jié)果:for匚二二二力二ir.=irin[二::a=gLm(deaths-.rIaniLy= "耍a己匚己=w:-ir.f])w[nir'f "二已3P□二下已1T)NM3Z;二]=ite己二((w[mPE'一Y二)"2)/inean((w;ir.rE\一m已己二))^2);(I4NMSZ=ir.ea-(NHSZ))[1]0.73911054、擬似然(quasi-likelihood)模型對(duì)于所有的族,響應(yīng)變量的方差依賴于均值并且擁有作為系數(shù)(multiplier)的尺度參數(shù)。方差對(duì)均值的依賴方式是響應(yīng)分布的一個(gè)特性;例如對(duì)于poisson分布Var(y)=muo對(duì)于擬似然估計(jì)和推斷,我們不是設(shè)定精確的響應(yīng)分布而是設(shè)定關(guān)聯(lián)函數(shù)和方差函數(shù)的形式。因?yàn)殛P(guān)聯(lián)函數(shù)和方差函數(shù)都依賴于均值。即擬似然模型為響應(yīng)變量分布沒有明確給定ap=glm(deaths~.,family='quasi',data=w)summary(ap)Call:glm(formula=deaths?.,family="quasi",data=w)DevianceResiduals:Min1QMedian3QMax0.8530-0.2895-0.0874 0.1447 5.2069Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-3.37999530.2172690-15.557<2e-16***hiv0.37833770.023658215.992<2e-16***factor-0.04356310.0086322■5.0474.88e-07***year0.03406880.002465413.819<2e-16***age0.01696870.00328605.1642.64e-07***py0.00667690.00067269.927<2e-16***Signif.codes:0‘***’0.001 ‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforquasifamilytakentobe0.2946817)Nulldeviance:795.31on2143degreesoffreedomResidualdeviance:630.03on2138degreesoffreedomAIC:NANumberofFisherScoringiterations:2由于沒有明確的分布,這里并不區(qū)分分類變量的各個(gè)選項(xiàng),只給出此變量的效應(yīng)值,得到的模型擬合結(jié)果與Poisson對(duì)數(shù)線性模型基本一致,具體分析在這里不再贅述。十折交叉驗(yàn)證對(duì)測(cè)試集的擬合結(jié)果:二已口【口「上)for二二L:Z)-::匚::s.=gLir.(dea.t.jLS-.ffajn3_L\-p=nqaa3i_11rdata=wmr[,\rL=predict,[a,w[mr[typ已=門二已己白口二日已聞JNI1SZ=ite之二[(w[mfD;-yL)^2)/mea-((w:口卡口[—m巳己二(w:卬,£匚F1?(NI43Z))[1]0.3073155、多項(xiàng)logit模型模型:假定對(duì)于第t個(gè)觀測(cè),因變量居有股個(gè)取值;卜2,…,MJ自變量為氏,則多項(xiàng)logit回歸的模型為F(K=k) 呼— k=?,…,M.1一£叫從用引j=i為什么匯從2.開始花,因?yàn)镻(匕=l)=「rJ ,LI£。町仆班)J.1可以從約束條件P(K=1)=1-£二工尸(旌=』)得到一當(dāng)然也可以考慮等價(jià)的模型, ‘pq彳—就=:刈四")—在_L,…,腿一洶)J-1多項(xiàng)logit模型在類別上仍可歸為廣義線性模型,是二項(xiàng)分布的logistic回歸向多項(xiàng)分布的推廣,但是在R語言的glm()函數(shù)中只能進(jìn)行二項(xiàng)分布的回歸,而無法進(jìn)行多項(xiàng)分布的回歸。因此我們利用R語言mlogit包中的mlogit()函數(shù)來進(jìn)行模型的擬合。函數(shù)mlogit的用法:mlogit(formula,data,subset,weights,na.action,start=NULL,alt.subset=NULL,reflevel=NULL,nests=NULL,un.nest.el=FALSE,unscaled=FALSE,heterosc=FALSE,rpar=NULL,probit=FALSE,R=40,correlation=FALSE,halton=NULL,random.nb=NULL,panel=FALSE,estimate=TRUE,seed=10,...)mlogit.data(data,choice,shape=c("wide","long"),varying=NULL,sep=".alt.var=NULL,chid.var=NULL,alt.levels=NULL,id.var=NULL,opposite=NULL,drop.index=FALSE,ranked=FALSE,...)參數(shù)說明:formula:mlogit提供了條件logit,多項(xiàng)logit,混合logit多種模型,對(duì)于多項(xiàng)logit的估計(jì)模型應(yīng)寫為:因變量~0|自變量,如:mode~0|income。data:先使用mlogit.data函數(shù)使得數(shù)據(jù)結(jié)構(gòu)符合mlogit函數(shù)要求。choice:確定分類變量是什么。shape:如果每一行是一個(gè)觀測(cè),我們選擇wide,如果每一行是表示一個(gè)選擇,那么就應(yīng)該選擇long。alt.var:對(duì)于shape為10ng的數(shù)據(jù),需要標(biāo)明所有選擇名稱。a=mlogit(deaths~0|hiv+factor+year+age+py,data=w1)summary(a)Call:mlogit(formula=deaths~0|hiv+factor+year+age+py,data=w1,method="nr”,print.level=0)Frequenciesofalternatives:0 1 2 3 4 5 60.854944030.09888060 0.02891791 0.01305970 0.00279851 0.00093284 0.00046642nrmethod21iterations,0h:0m:9sg'(-H廠-1g=7.61E-07gradientclosetozeroCoefficients:EstimateStd.Errort-valuePr(>|t|)1:(intercept) -2.6616e+01 2.0816e+00 -12.7863 <2.2e-16 ***2:(intercept) -8.2781e+01 2.1635e+04 -0.0038 0.99694713:(intercept) -8.9760e+01 1.8693e+04 -0.0048 0.99616874:(intercept) -1.1801e+02 1.9020e+04 -0.0062 0.99504975:(intercept) -1.3355e+02 1.2532e+04 -0.0107 0.99149696:(intercept) -1.3452e+02 1.4785e+04 -0.0091 0.99274071:hiv 2.5000e+00 2.2145e-01 11.2893 <2.2e-16 ***2:hiv 2.3683e+01 1.0818e+04 0.0022 0.9982532

3:hiv2.3319e+019.3463e+030.00250.99800934:hiv2.1054e+019.5101e+030.00220.99823365:hiv1.7966e+016.1673e+030.00290.99767576:hiv2.2628e+017.3922e+030.00310.99755761:factor-4.6267e-035.8487e-02-0.07910.93694852:factor-1.2710e-011.0385e-01-1.22390.22098193:factor-4.5252e-011.6078e-01-2.81450.0048859**4:factor-7.3439e-013.7890e-01-1.93820.0525968.5:factor-1.5480e+012.2125e+03-0.00700.99441756:factor6.6159e-011.8911e+000.34980.72645231:year2.1558e-012.1647e-029.9590<2.2e-16***2:year3.5500e-014.8365e-027.34002.136e-13***3:year4.3400e-017.9469e-025.46124.728e-08***4:year7.7129e-012.5454e-013.03020.0024442**5:year1.1373e+007.1766e-011.58480.11301946:year8.7575e-016.3633e-011.37620.16874481:age1.2110e-012.4454e-024.95207.344e-07***2:age1.1098e-014.7636e-022.32990.0198138*3:age1.3162e-017.4321e-021.77100.0765611.4:age1.6933e-011.5747e-011.07530.28225025:age2.5431e-013.5224e-010.72200.47030656:age-4.8536e-019.4106e-01-0.51580.60602511:py2.6013e-025.2107e-034.99235.966e-07***2:py5.9033e-029.1636e-036.44211.179e-10***3:py7.8478e-021.3123e-025.98012.230e-09***4:py1.0475e-013.1720e-023.30240.0009588***5:py1.8260e-011.0825e-011.68690.0916288.6:py1.3230e-015.0361e-022.62710.0086127**Signif.codes:0‘***’0.001‘**0.01‘*’0.050.1Log-Likelihood:-841.11Signif.codes:0‘***’0.001‘**0.01‘*’0.050.1McFaddenR"2:0.28468Likelihoodratiotest:chisq=669.49(p.value=<2.22e-16)從輸出結(jié)果可以看出,對(duì)于不同的死亡數(shù),自變量的系數(shù)不同。注:1、多項(xiàng)1。8^模型雖然好用,但從上面的敘述可以看出,多項(xiàng)Logit模型最大的限制在于各個(gè)類別必須是對(duì)等的,因此在可供選擇的類別中,不可有主要類別和次要類別混雜在一起的情形。例如在研究旅游交通工具的選擇時(shí),可將交通工具的類別粗分為航空、火車、公用汽車、自用汽車四大類,但若將航空類別再依三家航空公司細(xì)分出三類而得到總共六個(gè)類別,則多項(xiàng)Logit模型就不適用,因?yàn)楹娇?、火車、公用汽車、自用汽車均屬同一等?jí)的主要類別,而航空公司的區(qū)別則很明顯的是較次要的類別,不應(yīng)該混雜在一起。2、多項(xiàng)logit模型的因變量沒有所列水平之外的可能,即當(dāng)分類變量有兩個(gè)以上的水平且這些水平為僅有的可能時(shí),可以考慮多項(xiàng)logit模型。六、作為比較:用機(jī)器學(xué)習(xí)的算法模型擬合計(jì)數(shù)因變量數(shù)據(jù)1、隨機(jī)森林?jǐn)M合數(shù)據(jù)的十折交叉驗(yàn)證set.seel(L0L0)= (0f2)for(iirL:Z)■:ir.Fir.[:上::A=randoir.Forest(des.t.fdata=wnnr:riir.porta^ce=T支11三rproxLir.Lt.y=T)yL=predlct(A|rW'inf")imsz:二]=ir上立二((w[mFD:-v-}F/m已日二[(w[ir.fE<-in已五二(w:rr.,E<JJ^2J:-五二(區(qū)旺口工))0.65193712、決策樹擬合數(shù)據(jù)的十折交叉驗(yàn)證二已p三)for[1二二L:Z)<ir.=irin'二]]a=rpart[deatris-.rdata=w]yL=predict(arw[mr;)NMSZ::二]=ite己二[(w[mrD'-yl)^2)/near((w;mrE<一皿e己二(w;nrD;))"2);(MNMSZ=ir.ea-(NMSZ))[1]0.730649七、各種方法之間的比較各種方法關(guān)于測(cè)試集十折交叉驗(yàn)證的NMSE回歸方法測(cè)試集NMSEPoisson對(duì)數(shù)線性模型0.7391105擬似然模型0.807315隨機(jī)森林0.6519371決策樹0.730649我們?cè)谶@里所關(guān)注的是測(cè)試集的標(biāo)準(zhǔn)化均方誤差(NMSE)。顯然,對(duì)于這個(gè)數(shù)據(jù),經(jīng)典的計(jì)數(shù)模型中Poisson對(duì)數(shù)線性模型較好;在算法模型中,隨機(jī)森林較好。但總體來說,按照NMSE從優(yōu)到劣排序?yàn)椋弘S機(jī)森林、決策樹、Poisson對(duì)數(shù)線性模型、擬似然模型。附:R語言代碼:1.poisson對(duì)數(shù)線性模型w=read.csv('hemophilia.csv')ap=glm(deaths?.,family='poisson',data=w)summary(ap)AIC(ap)#AIC準(zhǔn)則越小越好并十折交叉驗(yàn)證NMSE=rep(0,Z)for(iin1:Z){m=mm[[i]]a=glm(deaths~.,family="poisson",data=w[-m,])y1=predict(a,w[m,],type="response")NMSE[i]=mean((w[m,D]-y1)"2)/mean((w[m,D]-mean(w[m,D]))"2)}(MNMSE=mean(NMSE))2.擬似然模型w=read.csv('hemophilia.csv')ap=glm(deaths?.,family='quasi',data=w)summary(ap)十折交叉驗(yàn)證NMSE=rep(0,Z)for(iin1:Z){m=mm[[i]]a=glm(deaths?.,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論