第三講廣義與一般線性模2018秋季_第1頁(yè)
第三講廣義與一般線性模2018秋季_第2頁(yè)
第三講廣義與一般線性模2018秋季_第3頁(yè)
第三講廣義與一般線性模2018秋季_第4頁(yè)
第三講廣義與一般線性模2018秋季_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章廣義與一般線性模型一、數(shù)據(jù)的分類二、模型選擇方式三、廣義線性模型四、一般線性模型1.logistic模型2.對(duì)數(shù)線性模型1.完全隨機(jī)設(shè)計(jì)模型2.隨機(jī)單位組設(shè)計(jì)模型3.析因設(shè)計(jì)模型4.正交試驗(yàn)設(shè)計(jì)模型一.數(shù)據(jù)的分類變量取值方式:(1)連續(xù)變量

如胸徑、樹(shù)高、生長(zhǎng)量等(2)

“0-1”變量或稱二分類變量

如實(shí)驗(yàn)成功、失敗,有效、無(wú)效;性別:男、女(3)有序變量(等級(jí)變量)

如施肥效果,立地質(zhì)量、土壤剖面等;二.模型選擇方式1.y為連續(xù)變量其中,為隨機(jī)誤差,。(1)當(dāng)自變量為連續(xù)變量時(shí),也就是上講講的線性回歸模型,為向量,X為矩陣;(2)當(dāng)自變量x是由因素構(gòu)成的啞變量,y為反應(yīng)變量(實(shí)驗(yàn)結(jié)果),X為設(shè)計(jì)陣。模型稱為實(shí)驗(yàn)設(shè)計(jì)模型或方差分析模型。(3)當(dāng)一部分xi是根據(jù)因素產(chǎn)生的啞變量,另一部分zi是變量,模型稱為協(xié)方差模型。

X為啞變量構(gòu)成的設(shè)計(jì)陣,Z為變量構(gòu)成的觀察陣。一般線性模型2.y為0-1變量一般用logistic回歸模型來(lái)描述y與x之間的關(guān)系3.Y為有序變量一般用累積比數(shù)模型和對(duì)數(shù)模型4.y為多分類變量對(duì)數(shù)線性模型和多分類logistic回歸模型三.廣義線性模型一般線性模型:自變量為定性變量的線性模型,如實(shí)驗(yàn)設(shè)計(jì)模型、方差分析模型。其基本假設(shè)是y服從正態(tài)分布或者至少y的方差為有限常數(shù)。廣義線性模型:因變量為非正態(tài)分布的線性模型,如logistic回歸模型、對(duì)數(shù)線性模型和Cox比例風(fēng)險(xiǎn)模型。m為連接函數(shù)m(.)組成的向量將轉(zhuǎn)化成的線性表達(dá)式;為n*n的矩陣,其中每個(gè)元素都是的函數(shù);當(dāng)各值相互獨(dú)立時(shí),為對(duì)角矩陣;當(dāng)時(shí),左式為一般線性模型。三.廣義線性模型廣義線性模型中的常用分布族:分布函數(shù)模型正態(tài)(高斯)普通線性模型二項(xiàng)(Binomial)Logistic模型和概率模型單位模型泊松(Poisson)對(duì)數(shù)線性模型7(一)Logistic回歸模型1模型的引進(jìn)2Logistic回歸模型估計(jì)3Logistic回歸模型的評(píng)價(jià)4Logistic回歸系數(shù)的統(tǒng)計(jì)推斷81模型的引進(jìn)因變量是二分類定性變量時(shí),考慮簡(jiǎn)單線性模型:其中yi服從兩點(diǎn)分布:可知9logistic回歸模型某疾病的病例對(duì)照研究Idyx1x2x3…11113…21032……………………1101……0140……0060…………………N0011…10logistic回歸模型研究目的:X1,X2,X3等因素對(duì)該疾病有無(wú)影響?建立Y與X的多重線性回歸模型?(取值0和1)11logistic回歸模型建立p(Y=1/X)與X的多重線性回歸模型?(取值范圍0~1)12logistic回歸模型Logit(P)P13logistic回歸模型建立logit(p)與X的多重線性回歸模型:

(取值范圍-∞~+∞)優(yōu)勢(shì)(odds)14logistic回歸模型Logistic回歸模型:15Logistic回歸模型一般形式在有m個(gè)自變量時(shí),公式擴(kuò)展為:16Logistic回歸模型1模型的引進(jìn)2.Logistic回歸模型估計(jì)3.Logistic回歸模型的評(píng)價(jià)4.Logistic回歸系數(shù)的統(tǒng)計(jì)推斷172Logistic回歸模型估計(jì)Logistic回歸模型估計(jì)的假設(shè)條件與OLS的不同

(1)logistic回歸的因變量是二分類變量(2)logistic回歸的因變量與自變量之間的關(guān)系是非線性的(3)logistic回歸中無(wú)相同分布的假設(shè)(4)logistic回歸沒(méi)有關(guān)于自變量“分布”的假設(shè)(離散,連續(xù),虛擬)18假設(shè)n個(gè)樣本觀測(cè)值y1,y2……yn,得到一個(gè)觀測(cè)值的概率為其中或

由于各項(xiàng)觀測(cè)相互獨(dú)立,其聯(lián)合分布為:最大似然估計(jì)19選擇上式作為n個(gè)觀測(cè)的似然函數(shù)20分別對(duì)參數(shù)求偏導(dǎo),然后令它等于0:求得的估計(jì)值,從而得到(pi的極大似然估計(jì)),這個(gè)值是在給定xi的條件下yi=1的條件概率的估計(jì),它代表了Logistic回歸模型的擬合值。21Logistic回歸模型1.模型的引進(jìn)2.Logistic回歸模型估計(jì)3.Logistic回歸模型的評(píng)價(jià)4.Logistic回歸系數(shù)的參數(shù)檢驗(yàn)223Logistic回歸模型的評(píng)價(jià)擬合優(yōu)度檢驗(yàn)(Goodnessoffit)似然比檢驗(yàn)(LikelihoodRatioTest)Hosmer-Lemeshow檢驗(yàn)似然比檢驗(yàn)的思想:

建立logistic回歸模型后,再向模型中引入另外的變量,重新擬合模型。兩模型的21nL值之差即為似然比統(tǒng)計(jì)量LR。

23似然比檢驗(yàn)似然比檢驗(yàn)用公式表示為:

2lnL0為只有截距項(xiàng)的零假設(shè)模型的2lnL,2lnLs為設(shè)定模型的2lnL,當(dāng)樣本含量較大時(shí),服從卡方分布,自由度為設(shè)定模型與零假設(shè)模型自由度之差。24Hosmer-Lemeshow檢驗(yàn)

該方法根據(jù)模型預(yù)測(cè)概率的大小將所有觀察單位分為十組,然后根據(jù)每一組中因變量各種取值的實(shí)際值與理論值計(jì)算Pearson卡方:

其中G代表分組數(shù)。Og為第g組的觀測(cè)頻數(shù),Eg為第g組的預(yù)測(cè)頻數(shù)。25例題:高中畢業(yè)生繼續(xù)進(jìn)入大學(xué)學(xué)習(xí)的可能性的影響因素如果一個(gè)高中畢業(yè)生升入了大學(xué),則y=1;如果沒(méi)有升入大學(xué),則y=0。P為高中畢業(yè)后升入大學(xué)的概率。自變量為性別Gender(1為男性,0為女性),高中類型Keysch(1為重點(diǎn)中學(xué)、0為普通中學(xué)),高中成績(jī)Meangr。前兩個(gè)為虛擬變量,Meangr為連續(xù)變量。Logistic回歸模型為:26數(shù)據(jù)2728Logistic回歸模型1.模型的引進(jìn)2.Logistic回歸模型估計(jì)3.Logistic回歸模型的評(píng)價(jià)4.Logistic回歸系數(shù)的參數(shù)檢驗(yàn)294Logistic回歸系數(shù)的參數(shù)檢驗(yàn)(二)對(duì)數(shù)線性模型例:顧客對(duì)產(chǎn)品的滿意度分析根據(jù)收入高低和滿意回答的交叉分組數(shù)據(jù)見(jiàn)下表:在R數(shù)據(jù)中,y表示頻數(shù),x1表示收入人群,x2表示滿意程度>x=read.table("clipboard",header=T)>xyx1x215311243421311131438125108224832>log.glm<glm(y~x1+x2,family=poisson(link=log),data=x)>summary(log.glm)Call:glm(formula=y~x1+x2,family=poisson(link=log)DevianceResiduals:123456-10.78414.444-8.468-2.6204.960-3.142Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)6.156870.1419643.371<2e-16***x10.129150.043702.9550.00312**x2-1.125730.08262-13.625<2e-16***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:662.84on5degreesoffreedomResidualdeviance:437.97on3degreesoffreedomAIC:481.96NumberofFisherScoringiterations:5從右邊的結(jié)果來(lái)看:p1=0.0031<0.01p2<0.01說(shuō)明收入和滿意程度對(duì)產(chǎn)品有重要影響。四、一般線性模型這里講的一般線性模型主要是實(shí)驗(yàn)設(shè)計(jì)模型。1.完全隨機(jī)設(shè)計(jì)模型2.隨機(jī)單位設(shè)計(jì)模型3.析因設(shè)計(jì)模型4.正交實(shí)驗(yàn)設(shè)計(jì)模型1.完全隨機(jī)設(shè)計(jì)模型處理因素A有G個(gè)水平,實(shí)驗(yàn)結(jié)果是此時(shí)模型為:用矩陣表示:μ是總體的均值,αi是啞變量系數(shù)eij是誤差項(xiàng)X為設(shè)計(jì)陣,元素為0或1e是誤差向量Y為觀察結(jié)果向量機(jī)器12.362.382.482.452.472.43機(jī)器22.572.532.552.542.562.61機(jī)器32.582.642.592.672.662.62機(jī)器12.362.382.482.452.472.43機(jī)器22.572.532.552.542.562.61機(jī)器32.582.642.592.672.662.62例:分析各機(jī)器生產(chǎn)的薄板厚度有無(wú)顯著性差異帶入模型得:YXβe用于軟件的數(shù)據(jù)格式:YA2.3612.3812.4812.4512.4712.4312.5722.5322.5522.5422.5622.6122.5832.6432.5932.6732.6632.623>x=read.table("clipboard",header=T)>anova(lm(Y~factor(A),data=x))AnalysisofVarianceTableResponse:YDfSumSqMeanSqFvaluePr(>F)factor(A)20.1220.06140.5348.94e-07***Residuals150.0230.0015---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1P<0.05,說(shuō)明各機(jī)器生產(chǎn)的薄板厚度有顯著性差異。2.隨機(jī)單位設(shè)計(jì)模型A1A2A3A4B1582491601758B2562541709582B3653516392487處理因素A有G個(gè)水平,單位組B有n個(gè)看做n個(gè)水平分別產(chǎn)生A的G個(gè)啞變量和單位組的n個(gè)啞變量實(shí)驗(yàn)結(jié)果yij表示成:其中:μ為總均數(shù);α為處理因素A的第i個(gè)水平的效應(yīng);β為第j個(gè)單位組的效應(yīng);eij為誤差項(xiàng)例:分析各種燃料A與各種推進(jìn)器B對(duì)火箭射程有無(wú)顯著影響A1A2A3A4B1582491601758B2562541709582B3653516392487表中處理因素是燃料A,單位組是推進(jìn)器B,將實(shí)驗(yàn)結(jié)果代入YAB582114912160131758415621254122709325824265313516233923348743相應(yīng)的數(shù)據(jù)格式為:>x=read.table("clipboard",header=T)>anova(lm(Y~factor(A)+factor(B),data=x))AnalysisofVarianceTableResponse:YDfSumSqMeanSqFvaluePr(>F)factor(A)31575952530.43060.7387factor(B)222385111920.91740.4491Residuals67319812200PA>0.05,說(shuō)明各種燃料A對(duì)火箭射程無(wú)顯著性影響;PB>0.05,說(shuō)明各種推進(jìn)器B對(duì)火箭射程也無(wú)顯著影響。3.析因設(shè)計(jì)模型先考慮兩因素析因分析:假定A因素有I個(gè)水平,B因素有J個(gè)水平;實(shí)驗(yàn)中共有I*J個(gè)處理,每個(gè)處理重復(fù)r次。兩因素析因分析模型為:αβ不是表示α×β,僅是一個(gè)符號(hào),表示A、B因素間的交互作用。例:研究?jī)煞N方法提取甲、乙兩種化合物的回收效果采用2*2析因設(shè)計(jì)實(shí)驗(yàn),各個(gè)處理重復(fù)4次。實(shí)驗(yàn)結(jié)果(回收率)列于下表:方法A新法舊法化合物B甲化合物乙化合物甲化合物乙化合物數(shù)據(jù)52845247488844644490405244802645合計(jì)188342162208方法A新法舊法化合物B甲乙甲乙數(shù)據(jù)52845247488844644490405244802645合計(jì)188342162208數(shù)據(jù)格式為:YAB5211481144114411841288129012801252214421402126214722642252224522>x=read.table("clipboard",header=T)>anova(lm(Y~A+B+A:B,data=x))AnalysisofVarianceTableResponse:YDfSumSqMeanSqFvaluePr(>F)A116001600.0028.4020.0001795***B125002500.0044.3792.321e-05***A:B1729729.0012.9410.0036638**Residuals1267656.33---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1PA<0.05,說(shuō)明不同方法對(duì)回收率有顯著影響;PB<0.05,說(shuō)明不同化合物對(duì)回收率有顯著影響;PAB<0.05,說(shuō)明方法和化合物之間交互作用對(duì)回收率有顯著影響。3.析因設(shè)計(jì)模型三因素以上的析因分析略顯復(fù)雜?,F(xiàn)以三因素為例:假定A因素有I個(gè)水平,B因素有J個(gè)水平,C因素有M個(gè)水平。實(shí)驗(yàn)中共有I*J*M個(gè)處理,每個(gè)處理重復(fù)r次。模型為:4.正交實(shí)驗(yàn)設(shè)計(jì)模型例如:三因素三水平的實(shí)驗(yàn),3^3=27種組合的實(shí)驗(yàn)。若按L9(3)正交表安排實(shí)驗(yàn),只需作9次正交試驗(yàn)選擇的水平組合列成表格,稱為正交表均衡搭配試驗(yàn)次數(shù)水平數(shù)因素?cái)?shù)列號(hào)1234567表頭ABA*BCDY11111111862111222295312211229141222211945212121291621221219672211221838221211288ABCDY111186112295121291122194211291212196221183222288例:對(duì)農(nóng)藥收率的因素分析四個(gè)因素:A(反應(yīng)溫度)、B(反應(yīng)時(shí)間)、C(原料配比)、D(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論