




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第十六章其他多變量分析方法簡介
第二軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系馬修強案例在《2012年中國衛(wèi)生統(tǒng)計年鑒》中,收集有反映世界上19個主要國家的衛(wèi)生狀況的統(tǒng)計指標(biāo),如人口年增長率AGR(%)、嬰兒死亡率IMR(‰)、5歲以下兒童死亡率MRU5(‰)、孕產(chǎn)婦死亡率MMR(1/10萬)、每千人口醫(yī)師數(shù)Physicians、每千人口護(hù)士數(shù)Nurses、每千人口病床數(shù)Beds、衛(wèi)生總費用占GDP%THE、人均衛(wèi)生費用PCHE(美元)等。如何利用這些指標(biāo)對這些國家的衛(wèi)生狀況進(jìn)行評價?這些指標(biāo)之間存在相關(guān)性,它們是否受某些不能觀察到的、潛在的因子影響?主成分分析和因子分析聚類分析與判別分析結(jié)構(gòu)方程模型多水平模型多指標(biāo)(變量)問題指標(biāo)個數(shù)過多指標(biāo)之間相關(guān)如何用較少的綜合指標(biāo)來代替原來較多的指標(biāo),同時這些較少的綜合指標(biāo)能夠盡可能的保留原來變量的信息主成分分析因子分析主成分分析主成分分析(principalcomponentanalysis)是利用降維的思想,把多個相關(guān)變量綜合成一個或少數(shù)幾個相互獨立的綜合變量,且提取原來多個變量的主要信息成分的方法可以用來尋找判斷某種事物或者現(xiàn)象的綜合指標(biāo),并結(jié)合綜合指標(biāo)所蘊含的信息進(jìn)行恰當(dāng)?shù)慕忉專员愀羁痰慕沂臼挛锏膬?nèi)在規(guī)律還可以利用主成分得到的綜合指標(biāo)來做進(jìn)一步的分析,如聚類分析、主成分回歸等等有m個指標(biāo)(x1,x2…,xm)的n個對象,假設(shè)每個指標(biāo)已經(jīng)標(biāo)準(zhǔn)化相關(guān)系數(shù)陣為R,特征根為??梢哉业揭唤M新的變量Z1,Z2,…,Zm,它們滿足是原指標(biāo)的線性函數(shù);各個Zi互不相關(guān)(即相互垂直);各Zi提供原指標(biāo)所包含的全部信息,Z1提供的信息最多,Z2次之,…,Zm最少稱Zi為x1,x2…,xm的第i個主成份主成分定義有m個變量必然有m個主成份主成份Zi的方差貢獻(xiàn)就是特征向量的特征根各個主成份方差和等于變量個數(shù)m,即第一主成份對數(shù)據(jù)的方差貢獻(xiàn)就是最大特征根,相對貢獻(xiàn)率為,依次類推。主成分特點例16-1例16-1章前實例中的變量較多,選擇其中7個(嬰兒死亡率、5歲以下兒童死亡率、孕產(chǎn)婦死亡率、每千人口醫(yī)師數(shù)、每千人口病床數(shù)、衛(wèi)生總費用占GDP%、人均衛(wèi)生費用)為例進(jìn)行主成分分析。特征值比例(%)累積14.35562.2162.2121.31918.8481.0530.74910.7091.7640.4736.7698.5250.0731.0499.5660.0300.4299.9970.0010.02100.00通過SPSS軟件計算得到如下結(jié)果:由大到小給出了協(xié)方差矩陣的7個特征值、貢獻(xiàn)率和累計貢獻(xiàn)率結(jié)果各主成份的特征向量第一主成分Prin1、第二主成分Prin2和第三主成分Prin3的表達(dá)式如下:Prin1=0.950IMR+0.926MRU5+0.872MMR-0.756Physicians-0.588Beds-0.622THE-0.728PCHEPrin2=0.249IMR+0.311MRU5+0.386MMR+0.008Physicians-0.147Beds+0.751THE+0.652PCHEPrin3=0.144IMR+0.193MRU5+0.256MMR+0.235Physicians+0.750Beds-0.0.080THE-0.041PCHE變量Prin1Prin2Prin3IMR0.9500.2490.144MRU50.9260.3110.193MMR0.8720.3860.256Physicians-0.7560.0080.235Beds-0.588-0.1470.750THE-0.6220.751-0.080PCHE-0.7280.652-0.041解釋第一主成份系數(shù)均較大且較接近,因此綜合反映了各國衛(wèi)生狀況原始指標(biāo)的信息第二主成份中THE和PCHE的系數(shù)較大,因此主要反映了來自原始指標(biāo)THE和PCHE的信息第三主成份中Beds的系數(shù)較大,因此主要反映了來自原始指標(biāo)Beds的信息據(jù)此可認(rèn)為這三個主成分分別反映了原始指標(biāo)中三類不同的信息,即綜合衛(wèi)生狀況、衛(wèi)生費用和衛(wèi)生設(shè)施三類信息進(jìn)一步綜合評價:主成份得分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)化在SPSS軟件中打開數(shù)據(jù)文件“例16_1.sav”,然后選擇Analyze→DescriptiveStatistics→Descriptives在彈出的對話框左側(cè)的變量列表中選擇嬰兒死亡率(‰)IMR、5歲以下兒童死亡率(‰)MRU5、孕產(chǎn)婦死亡率(1/10萬)MMR、每千人口醫(yī)師數(shù)Physicians、每千人口病床數(shù)Beds、衛(wèi)生總費用占GDP%THE、人均衛(wèi)生費用(美元)PCHE,單擊按鈕,將變量選入到Variables然后單擊選中Savestandardizedvaluesasvariable。單擊OK完成。SPSS軟件實現(xiàn)主成分分析在上一步數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,選擇Analyze→DimensionReduction→FactorAnalysis在彈出的對話框左側(cè)的變量列表中選擇Zscore:嬰兒死亡率(‰)IMR、Zscore:5歲以下兒童死亡率(‰)MRU5、Zscore:孕產(chǎn)婦死亡率(1/10萬)MMR、Zscore:每千人口醫(yī)師數(shù)Physicians、Zscore:每千人口病床數(shù)Beds、Zscore:衛(wèi)生總費用占GDP%THE、Zscore:人均衛(wèi)生費用(美元)PCHE,單擊按鈕,將變量選入到Variables單擊按鈕Descriptives,選中Coefficients,單擊Continue。單擊按鈕Extraction,Method下拉菜單,選擇PrincipalComponents;選擇Fixednumberoffactors,定義Factorstoextract為“3”,單擊Continue。單擊OK完成SPSS軟件實現(xiàn)SPSS軟件實現(xiàn)SPSS軟件實現(xiàn)SPSS軟件實現(xiàn)因子分析因子分析(FactorAnalysis)目的是找出支配多個變量的少數(shù)共性因子,以它們?yōu)榭蚣芊纸庠兞?,從而洞察原變量間的內(nèi)在聯(lián)系或區(qū)別,使原變量中所含的反映個體變異的信息(方差信息)絕大多數(shù)能被解釋。共性因子的數(shù)量一定少于原變量的數(shù)量設(shè)p個經(jīng)過標(biāo)準(zhǔn)化的變量x1,x2…,xp間存在相關(guān)性可能存在一個或多個潛在因子同時影響這些變量每個變量分解為共性部分和個性部分:因子分析共性因子(commonfactor)
:對x1,x2…,xp均有影響的因子特殊因子(specificfactor)
:只影響因子負(fù)荷(factorloading)
:某一共性因子對的影響程度因子分析因子模型特點:每個共性因子和特殊因子的均數(shù)都為0,方差為1;各共性因子和特殊因子彼此獨立;各個共性因子的載荷就是變量和的相關(guān)系數(shù),它反應(yīng)兩者數(shù)量關(guān)系的強度和方向。因子分析變量的方差也可以分成兩部分:共性因子引起的共性方差和特殊因子引起的個性方差共性方差越大,說明共性因子作用越大因子分析因子分析任務(wù)因子分析的根本任務(wù)是尋找共性因子,因此因子分析過程至少要解決下面幾個問題:確定共性因子個數(shù)分解各變量,求變量在上的載荷,解釋共性因子的實際意義解釋共性因子的實際意義例16-2例16-1中七個變量存在相關(guān)性,說明它們受某些共同因素的影響。以這七個變量進(jìn)行因子分析,尋找它們的共性因子。初始因子提取常用的方法有:主成份法和迭代主成份法按照特征根和累計貢獻(xiàn)率的大小,決定共性因子數(shù)m=37個指標(biāo)的特征值及其貢獻(xiàn)率例16-2特征值貢獻(xiàn)率(%)累計貢獻(xiàn)率(%)14.35562.2162.2121.31918.8481.0530.74910.7091.7640.4736.7698.5250.0731.0499.5660.0300.4299.9970.0010.02100.00例16-2計算在各個因子上的初始載荷和共性方差Factor1Factor2Factor3共性方差I(lǐng)MR0.9500.2490.1440.984MRU50.9260.3110.1930.991MMR0.8720.3860.2560.976Physicians-0.7560.0080.2350.627Beds-0.588-0.1470.7500.929THE-0.6220.751-0.0800.957PCHE-0.7280.652-0.0410.958因子旋轉(zhuǎn):使因子載荷的絕對值差別盡可能大,理想狀況是某些因子載荷接近±1,而另外的因子載荷接近0,使各指標(biāo)和因子的關(guān)系變得清楚而易于解釋。旋轉(zhuǎn)后各個因子載荷和載荷平方例16-2IMR0.914-0.270-0.2750.83540.07290.0756MRU50.946-0.210-0.2290.89490.04410.0524MMR0.967-0.124-0.1590.93510.01540.0253Physicians-0.4860.3590.5120.23620.12890.2621Beds-0.2250.0910.9330.05060.00830.8705THE-0.1450.9640.0810.02100.92930.0066PCHE-0.2600.9280.1700.06760.86120.0289變量IMR的變異有98.4%是由共性因子所致,即共性方差=98.4%,其余由特殊因子所致;共性方差中共性因子承擔(dān)了83.54%,共性因子承擔(dān)了7.29%,共性因子承擔(dān)了7.56%。因子是影響IMR、MRU5和MMR的主要共性因子;因子主要影響THE和PCHE;因子則主要影響B(tài)eds和Physicians,尤其是Beds。解釋數(shù)據(jù)的標(biāo)準(zhǔn)化因子分析因子分析與主成分分析的操作過程非常相似,除了重復(fù)主成分分析的上述分析過程之外,還需要單擊按鈕Rotation,選中Varimax,單擊Continue。單擊OK完成SPSS軟件實現(xiàn)SPSS軟件實現(xiàn)聚類分析與判別分析
本節(jié)介紹統(tǒng)計學(xué)中經(jīng)常使用的分類統(tǒng)計分析方法——聚類分析與判別分析。主要內(nèi)容有層次聚類分析、快速聚類分析和判別分析。其中層次聚類分析根據(jù)聚類的對象不同分成Q型聚類和R型聚類。聚類分析與判別分析的基本概念
統(tǒng)計學(xué)研究這類問題的常用分類統(tǒng)計方法主要有聚類分析(clusteranalysis)與判別分析(discriminantanalysis)。其中聚類分析是統(tǒng)計學(xué)中研究這種“物以類聚”問題的一種有效方法,它屬于統(tǒng)計分析的范疇。聚類分析的實質(zhì)是建立一種分類方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照他們在性質(zhì)上的親密程度在沒有先驗知識的情況下自動進(jìn)行分類。這里所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區(qū)別。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。因此我們說聚類分析是一種探索性的分析方法。
對個案的聚類分析類似于判別分析,都是將一些觀察個案進(jìn)行分類。聚類分析時,個案所屬的群組特點還未知。也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知。
聚類分析的方法,主要有兩種,一種是“快速聚類分析方法”(K-MeansClusterAnalysis),另一種是“系統(tǒng)聚類分析方法”(HierarchicalClusterAnalysis)。如果觀察值的個數(shù)多或文件非常龐大(通常觀察值在200個以上),則宜采用快速聚類分析方法。因為觀察值數(shù)目巨大,系統(tǒng)聚類分析的兩種判別圖形會過于分散,不易解釋。
判別分析是一種有效的對個案進(jìn)行分類分析的方法。和聚類分析不同的是,判別分析時,組別的特征已知。將這些收集到的研究資料判別分析,建立判別函數(shù)。那么,以后就可以利用創(chuàng)建好的判別函數(shù),對新的對象進(jìn)行分析,從而判斷新的對象是屬于哪個類別。聚類分析和判別分析的比較判別分析時總體中各類別的劃分清楚,判別分析需要知道一批已知分類的訓(xùn)練樣品,在此基礎(chǔ)上建立判別函數(shù),所以它是有師可循的方法。聚類分析時總體中各類別的劃分不清楚,甚至到底應(yīng)分成幾類也不知道,用于聚類分析的原始數(shù)據(jù)中沒有類別變量,所以是無師可循的統(tǒng)計分析方法。聚類分析和判別分析結(jié)合當(dāng)未知類別,又需要類型識別時:先采用聚類分析獲得各個個體的類別(classification);然后采用判別分析建立判別函數(shù),對新個體進(jìn)行類型識別(identification)聚類分析聚類分析聚類分析(clusteranalysis)又稱集群分析,它是研究“物以類聚”的一種數(shù)理統(tǒng)計方法。聚類分析可將一些觀察對象依據(jù)某些特征加以歸類:相似的聚為一類。例如臨床上修復(fù)耳缺損先以正常耳朵的耳長、耳寬、耳外展距等指標(biāo)為依據(jù),對耳朵進(jìn)行聚類分析,把正常耳朵劃分成幾類然后找出各類之標(biāo)準(zhǔn)化耳朵,以供臨床修復(fù)各種耳缺損病員時參考。遺傳多態(tài)性、藥材譜系聚類分析對于收集到的數(shù)據(jù),人們既可以對變量(指標(biāo))進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。對變量的聚類稱為R型聚類對觀測值聚類稱為Q型聚類這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。聚類分析的方法系統(tǒng)聚類法:用于對小樣本的樣品間聚類及對指標(biāo)聚類。逐步聚類法或稱快速聚類法:用于對大樣本的樣品間聚類。有序樣品聚類法:用于對有排列次序的樣本的樣品間聚類,要求必須是次序相鄰的樣品才能聚在一類
聚類分析的方法模糊聚類法:建立在模糊數(shù)學(xué)基礎(chǔ)上的對樣品間聚類的方法,適用于小樣本。
分割聚類法:適用于對指標(biāo)聚類
聚類統(tǒng)計量定義:在聚類分析中反映樣品或變量間關(guān)系親疏程度的統(tǒng)計量稱為聚類統(tǒng)計量,常用的聚類統(tǒng)計量分為距離和相似系數(shù)兩種距離:用于對樣品的聚類。常用歐氏距離,在求距離前,需把指標(biāo)進(jìn)行標(biāo)準(zhǔn)化(作用:消除量綱的影響)。相似系數(shù):常用于對變量的聚類。一般采用Pearson相關(guān)系數(shù)。距離小或相似系數(shù)大則表示類間關(guān)系密切
系統(tǒng)聚類法
(systematicclustermethod)使用最多的一種聚類分析?;舅枷耄菏紫榷x樣品間距離及類與類之間的距離開始時每個樣品各看成一類將距離最近的兩類合并;重新計算新類與其它類的距離,再將距離最近的兩類合并;再計算新類與其它類的距離,……這樣一步步進(jìn)行下去,每一步減少一類,直至所有的樣品都合并成一類為止畫聚類圖,作出解釋:決定類的個數(shù),及各類包含的樣品數(shù)系統(tǒng)聚類法整個聚類過程可作成聚類圖或樹狀譜(treediagram),按樹狀譜作出適當(dāng)?shù)姆诸?。類與類之間的距離有各種不同的定義方法。定義不同即產(chǎn)生不同的算法。而不同的算法可能聚得不同的結(jié)果。實踐中可用不同的方法,聚得多個結(jié)果,然后根據(jù)專業(yè)知識選擇較合理的分類結(jié)果。類與類之間距離定義方法SPSS提供的計算兩個類間距離的方法有:組間連接法(between-groupslinkage)組內(nèi)連接法(within-groupslinkage)最短距離法(nearestneighbor)最長距離法(furthestneighbor)重心聚類法(centroidclustering)中位數(shù)聚類法(medianclustering)Ward離差平方和法(Ward’smethod)類與類之間距離定義方法最短距離法(nearestneighbor):類與類之間距離定義為兩類間樣品距離的最小值A(chǔ)2A1**
B2B1**B3*
A類B類類與類之間距離定義方法最長距離法(furthestneighbor):類與類之間距離定義為兩類間樣品距離的最大值A(chǔ)2A1**
A類B類
B2B1**B3*類與類之間距離定義方法重心法(centroidmethod):類與類之間距離定義為兩類的重心之間的距離A2A1**
A類B類B2B1**B3*例16-3例16-3章前案例中,收集有反映世界上19個主要國家的衛(wèi)生狀況的下列9個統(tǒng)計指標(biāo):人口年增長率AGR(%)、嬰兒死亡率IMR(‰)、5歲以下兒童死亡率MRU5(‰)、孕產(chǎn)婦死亡率MMR(1/10萬)、每千人口醫(yī)師數(shù)Physicians、每千人口護(hù)士數(shù)Nurses、每千人口病床數(shù)Beds、衛(wèi)生總費用占GDP%THE、人均衛(wèi)生費用PCHE(美元),試?yán)眠@9個指標(biāo)對這19個國家的衛(wèi)生狀況進(jìn)行聚類分析SPSS軟件實現(xiàn)聚類過程StageClusterCombinedCoefficientsStageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster21416489.910004211142648.280003311174298.6802054455056.405107521117758.8870310691023524.500001274843194.267401486760522.670001391370246.350001310213126041.925501111215216432.7261001412918260506.03060161316314154.29098161424348502.3581171515212796620.2311401816191453869.395131217171199858448.0691601818121.810E717150樹狀圖這19個國家可以分為兩類,其中意大利、日本、英國、法國、德國、澳大利亞、加拿大、美國可為一類,其余國家為一類,前者的衛(wèi)生狀況較好。解釋聚類分析注意事項首要一點:聚類之前一定要目標(biāo)明確。用什么指標(biāo)(變量)表達(dá)要分析的樣品:聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會很不同。聚類方法的選擇: 試用多種方法系統(tǒng)聚類與快速聚類相結(jié)合樣品量大時可采用快速聚類方法聚類分析注意事項分類數(shù)的確定:結(jié)合專業(yè)知識!聚類的目的是要使各類距離盡可能地遠(yuǎn),而類中點的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋??傊?,聚類分析是一種探索性多元統(tǒng)計分析技術(shù),對于同一具體問題,可獲得多種聚類結(jié)果,需要結(jié)合專業(yè)知識進(jìn)行解釋判別分析判別分析的基本概念什么是判別分析根據(jù)觀測到的某些指標(biāo)對所研究的對象進(jìn)行分類的一種多元統(tǒng)計分析方法。判別分析利用已知類別的樣本培訓(xùn)模型,為未知樣本判別分類。特點是根據(jù)已掌握的每個類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點時,只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點所屬的類別。醫(yī)學(xué)應(yīng)用醫(yī)學(xué)研究中問題:疾病的診斷:就診者的各項癥狀、體征、實驗室檢查、病理學(xué)檢查及醫(yī)學(xué)影像學(xué)資料等對其作出是否有某種疾病的診斷對幾種可能患有的疾病進(jìn)行鑒別診斷:肺癌,肺結(jié)核和肺炎已初步診斷為某種疾病,需進(jìn)一步判斷屬該類疾病中哪一種或哪一型的:闌尾炎:急性單純性闌尾炎,蜂窩織炎性-,壞疽性-判別分析的一般步驟已知分類的訓(xùn)練樣本
判別分析方法
判別函數(shù)建立判別準(zhǔn)則
考核
合格
實際應(yīng)用:未知樣品的判別歸類
根據(jù)距離判別的思想最簡單的辦法就是:某點離哪個中心距離最近,就屬于哪一類。一個常用距離是Mahalanobis距離。用來比較到各個中心距離的數(shù)學(xué)函數(shù)稱為判別函數(shù)(discriminantfunction)。這種根據(jù)遠(yuǎn)近判別的思想,原理簡單,直觀易懂,為判別分析的基礎(chǔ)判別分析通常都要建立一個判別函數(shù),然后利用此判別函數(shù)來進(jìn)行判別。為了建立判別函數(shù)就必須有一個訓(xùn)練樣本。判別分析的任務(wù)就是向這份樣本學(xué)習(xí),學(xué)出判斷類別的規(guī)則,并作多方考核。訓(xùn)練樣本的質(zhì)量與數(shù)量至為重要。每一個體所屬類別必須用“金標(biāo)準(zhǔn)”予以確認(rèn);解釋變量(簡稱為變量或指標(biāo))X1,X2,…,Xp必須確實與分類有關(guān);個體的觀察值必須準(zhǔn)確;個體的數(shù)目必須足夠多。訓(xùn)練樣本——判別方法——判別函數(shù)判別分析常用方法(1)最大似然法:該法是建立在概率論中獨立事件乘法定律的基礎(chǔ)上,適用于各指標(biāo)是定性的或半定量的情況。(2)Fisher判別分析:用于兩類或兩類以上間判別,但常用于兩類間判別,上例中應(yīng)用的就是Fisher判別分析方法。(3)Bayes判別分析:用于兩類或兩類以上間判別,要求各類內(nèi)指標(biāo)服從多元正態(tài)分布。(4)逐步判別分析:建立在Bayes判別分析基礎(chǔ)上,它象逐步回歸分析一樣,可以在眾多指標(biāo)中挑選一些有顯著作用的指標(biāo)來建立一個判別函數(shù),使方程內(nèi)的指標(biāo)都有顯著的判別作用而方程外的指標(biāo)作用都不顯著。(5)logistic判別:常用于兩類間判別。它不要求多元正態(tài)分布的假設(shè),故可用于各指標(biāo)為兩值變量或半定量的情況。判別分析常用方法判別方法之Bayes判別準(zhǔn)則基礎(chǔ)在臨床實踐中,不僅要考慮發(fā)病率(先驗概率)問題,還要考慮錯判后所造成的損失。如:胃炎的發(fā)病率遠(yuǎn)大于胃癌的發(fā)病率,但將胃癌錯判為胃炎將導(dǎo)致錯失治療良機(jī),后果嚴(yán)重。在判別分析中稱為錯判后,損失嚴(yán)重。Bayes判別準(zhǔn)則基礎(chǔ)因此在引進(jìn)損失函數(shù)L(I,j),表示本屬于第j個總體卻判為第i個總體所造成的損失。例:L(胃炎|胃癌)表示胃癌患者判為胃炎患者所造成的損失。損失函數(shù)是要研究者根據(jù)背景問題對錯判的后果進(jìn)行評估后對損失進(jìn)行定量。
因此將判別分析的考察指標(biāo)定為由于錯判造成損失的期望值Bayes判別準(zhǔn)則就是平均損失最小的準(zhǔn)則。如此去找某判別分類的規(guī)則,就是Bayes判別Bayes判別分析(一)Bayes準(zhǔn)則設(shè)有定義明確的g個總體π1,π2,…,πg(shù),分別為X1,X2,…,Xp的多元正態(tài)分布。對于任何一個個體,若已知p個變量的觀察值,要求判斷該個體最可能屬于哪一個總體。如果我們制訂了一個判別分類規(guī)則,難免會發(fā)生錯分現(xiàn)象。把實屬第i類的個體錯分到第j類的概率記為P(j|i),這種錯分造成的損失記為C(j|i)。Bayes判別準(zhǔn)則就是平均損失最小的準(zhǔn)則(二)分類函數(shù)(g個類別,p個指標(biāo))Bayes準(zhǔn)則下判別分析的分類函數(shù)形式如下:
Y1=C01+C11X1+C21X2+……+Cp1Xp
Y2=C02+C12X1+C22X2+……+Cp2Xp
…………
Yg=C0g+C1gX1+C2gX2+……+CpgXp
Bayes判別分析即g個線性函數(shù)的聯(lián)立方程,每個線性函數(shù)對應(yīng)于某一類別。其中C0j,C1j,……,Cpj,(j=1,2,……,g)為需估計的參數(shù)。用SAS的DISCRIM過程可得到這些參數(shù)的估計值判別函數(shù)建立后通常的判別準(zhǔn)則為:如欲判斷某樣品屬于上述g類中的哪一類,可將該樣品的各Xi值代入式(17.1)中的各個方程,分別算出Y1,Y2,……,Yg等值。其中如Yf為最大則意味著該樣品屬第f類的概率最大,故判它屬于第f類。Bayes判別分析(三)事前概率(priorprobability)又稱先驗概率在所研究的總體中任取一個樣品,該樣品屬于第f類別的概率為q(yf),則稱它為類別f的事前概率。例如,闌尾炎病人總體中卡他性占50%,蜂窩織炎占30%,壞疽性占10%,腹膜炎占10%;則一個闌尾炎病人(屬于該總體中的某個體),在闌尾炎分型確診前該病人屬于以上四型的概率分別為0.5,0.3,0.1和0.1,它們也分別是這四類的事前概率。Bayes判別分析考慮事前概率時,判別函數(shù)如下:
Y1=C01+C11X1+C21X2+……+Cp1Xp+ln(q(Y1))
Y2=C02+C12X1+C22X2+……+Cp2Xp+ln(q(Y2))
…………
Yg=C0g+C1gX1+C2gX2+……+CpgXp+ln(q(Yg))
差別僅僅在于ln(q(Yj))項Bayes判別分析考慮事前概率可適當(dāng)提高判別的敏感性。事前概率可據(jù)于文獻(xiàn)報道或以往的大樣本研究。但是困難在于事前概率往往不容易知道。如果訓(xùn)練樣本是從所研究的總體中隨機(jī)抽取的,則可用訓(xùn)練樣本中各類的發(fā)生頻率Q(Yj)來估計各類別的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)來估計q(Yj),就只能將事前概率取為相等值,即取q(Yj)=1/g。Bayes判別分析(四)事后概率(posteriorprobability)又稱后驗概率如果已知某樣品各個指標(biāo)Xi的觀察值為Si,則在該條件下,樣品屬于Yj類別的概率P(Yj/S1,S2,…,SP)稱為事后概率。事后概率和指標(biāo)的值有關(guān)引入事后概率后,可用事后概率來描述某樣品屬于Yj類別的概率。這就使得判別的可靠性有一個數(shù)量的指標(biāo)。Bayes判別分析事后概率示例:A1,A2,A3的事后概率為0.95,0.03和0.02判為A1類的可靠性好。A1,A2,A3的事后概率為0.40,0.30和0.30判為A1類的可靠性差。如欲判別某樣品屬于哪個類別時,可據(jù)樣品各指標(biāo)的取值S1,S2,……,SP代入判別函數(shù),求得各類別之Y值,即Y1,Y2,……,Yg。Bayes判別分析事后概率的計算公式為:Bayes判別分析Bayes判別分析僅憑哪一個事后概率為最大,就判為那一類別有時是不夠的。例如某樣品屬于三個類別的事后概率分別為0.95,0.03,0.02,則判為第一類的可靠性就較大。但如果三個事后概率分別為0.4,0.3,0.3。再判為第一類的可靠性就較差了。與臨床上診斷相類似,當(dāng)對某病員的診斷把握不大時,常定為可疑或待查等??梢远x一個事后概率p的臨界值,當(dāng)各類別最大的事后概率大于此值時,就作出判別歸類,否則將被判為other類,相當(dāng)于可疑或待查Bayes判別分析例16-4某研究者收集到某市12家醫(yī)院的財務(wù)數(shù)據(jù),已知每家醫(yī)院的財務(wù)風(fēng)險分級分別為優(yōu)、中、差。研究者期望用資產(chǎn)負(fù)債率(%)、流動比率(%)、速動比率(%)、應(yīng)收醫(yī)療款周轉(zhuǎn)率(%)、醫(yī)療服務(wù)利潤率(%)等財務(wù)指標(biāo)建立判別醫(yī)院財務(wù)風(fēng)險分級的分類函數(shù),將來用以判斷醫(yī)院財務(wù)風(fēng)險屬于優(yōu)、中、差(優(yōu)=1,中=2,3=差)中的哪一型。試以此為訓(xùn)練樣本,建立分類函數(shù)例16-4醫(yī)院編號資產(chǎn)負(fù)債率(%)流動比率(%)速動比率(%)應(yīng)收醫(yī)療款周轉(zhuǎn)率(%)醫(yī)療服務(wù)利潤率(%)財務(wù)風(fēng)險分級135.00200.00100.0096.004.101238.00208.00110.0098.004.201340.00198.00102.0095.004.121442.00202.0095.0096.004.001555.00170.0092.0091.003.012656.00175.0099.0092.003.212759.00180.00100.0090.002.942860.00168.0087.0093.003.962968.00100.0076.0088.002.8031069.00110.0077.0086.001.4031170.00115.0075.0087.001.3031271.0098.0074.0089.001.24312家醫(yī)院的財務(wù)指標(biāo)及財務(wù)風(fēng)險分級指標(biāo)結(jié)果財務(wù)風(fēng)險類別123資產(chǎn)負(fù)債率3.3328.14011.642流動比率12.22010.1146.503速動比率-2.410-0.7161.126應(yīng)收醫(yī)療款周轉(zhuǎn)率78.66872.83066.741醫(yī)療服務(wù)利潤率-0.780-4.645-19.303(Constant)-4961.531-4401.787-3695.702判別函數(shù)系數(shù)Fisher'slineardiscriminantfunctions結(jié)果Y1=-4961.531+3.332×資產(chǎn)負(fù)債率+12.220×流動比率-2.410×速動比率+78.668×應(yīng)收醫(yī)療款周轉(zhuǎn)率-0.780×醫(yī)療服務(wù)利潤率Y2=-4401.787+8.140×資產(chǎn)負(fù)債率+10.114×流動比率-0.716×速動比率+72.830×應(yīng)收醫(yī)療款周轉(zhuǎn)率-4.645×醫(yī)療服務(wù)利潤率Y3=-3695.702+11.642×資產(chǎn)負(fù)債率+6.503×流動比率+1.126×速動比率+66.741×應(yīng)收醫(yī)療款周轉(zhuǎn)率-19.303×醫(yī)療服務(wù)利潤率判別函數(shù)利用上述判別函數(shù),可以進(jìn)行新收集的醫(yī)院財務(wù)風(fēng)險的分級。如根據(jù)某醫(yī)院的如下財務(wù)數(shù)據(jù):資產(chǎn)負(fù)債率為45%,流動比率為180%,速動比率為90%,應(yīng)收醫(yī)療款周轉(zhuǎn)率為94%,醫(yī)療服務(wù)利潤率利潤率為3.5%,試判斷其財務(wù)風(fēng)險屬于哪一級。將上述觀察值代入判別函數(shù),可得:Y1=-4961.531+3.332×45+12.220×180-2.410×90+78.668×94-0.780×3.5=4563.11同樣可算得:Y2=4550.39,Y3=4306.24。則其中最大者為Y1,故判斷該醫(yī)院財務(wù)風(fēng)險為優(yōu)。結(jié)果逐步判別法有時,一些變量對于判別并沒有什么作用,為了得到對判別最合適的變量,可以使用逐步判別。即,一邊判別,一邊選擇判別能力最強的變量這個過程可以有進(jìn)有出。一個變量的判別能力的判斷方法有很多種,主要利用各種檢驗,例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗。其細(xì)節(jié)不再贅述。這些不同方法可由統(tǒng)計軟件的各種選項來實現(xiàn)。逐步判別的其他方面和前面相同?;仡櫺钥己撕颓罢靶钥己朔诸惡瘮?shù)及判別準(zhǔn)則建立后必須進(jìn)行考核。考核就是將樣品逐一用所建立的判別準(zhǔn)則進(jìn)行歸類,求出其假陽性率、假陰性率及總的錯誤率??己丝煞譃榛仡櫺钥己伺c前瞻性考核?;仡櫺钥己艘卜Q回代或組內(nèi)考核(internalvalidation),即用原來的訓(xùn)練樣本進(jìn)行考核。前瞻性考核也稱組外考核,是對新的已知其分類的樣品(稱為考核樣本)進(jìn)行考核。用前瞻性考核可估計總體中的假陽性率、假陰性率和總的錯誤率。除了可用前瞻性考核來估計總體中的錯誤率外,還可用刀切法(jackknife)交叉考核(crossvalidation)其方法如下:設(shè)訓(xùn)練樣本中共有n個個體,先擱置第一個個體,對其余n-1個個體進(jìn)行判別分析求出判別函數(shù),用該函數(shù)對第一個個體進(jìn)行考核;然后放回第一個個體,擱置第二個個體,用其余n-1個個體求出判別函數(shù)并對第二個個體進(jìn)行考核……每次擱置一個個體,用其余的n-1個個體作出判別函數(shù)(注意,這些判別函數(shù)可能不相同),對擱置的個體進(jìn)行考核,一共進(jìn)行n次,遍歷每一個個體;從而求出假陽性率、假陰性率和總的錯誤率,稱為刀切法交叉考核,它們可作為前瞻性考核的輔助信息。刀切法交叉考核訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。
要選擇好可能用于判別的預(yù)測變量。這是最重要的。要注意數(shù)據(jù)是否有不尋常的點或者模式存在。還要看預(yù)測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗證。判別分析要注意什么?判別分析要注意什么?判別分析是為了正確地分類,但同時也要注意使用盡可能少的預(yù)測變量來達(dá)到這個目的。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。
在計算中需要看關(guān)于各個類的有關(guān)變量的均值是否顯著不同的檢驗結(jié)果(Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗的計算機(jī)輸出),以確定是否分類結(jié)果僅由于隨機(jī)因素。對于多個判別函數(shù),要弄清各自的重要性。注意訓(xùn)練樣本的正確和錯誤分類率。研究被誤分類的觀測值,看是否能找出原因。
需要考慮成員的權(quán)數(shù)(priorprobability,即“先驗概率”);一般來說,加權(quán)要按照各類觀測值的多少,觀測值少的就要按照比例多加權(quán)。
判別分析要注意什么?判別分析要注意:先驗概率先驗概率的取法:(1)盡可能地根據(jù)背景所對應(yīng)的文獻(xiàn)查到較為合理的先驗概率;(2)如果抽樣采用橫斷面抽樣或整群抽樣,可取樣本各分類的構(gòu)成比作為先驗概率;(3)取等先驗概率,h=1,2,…,G。SPSS軟件實現(xiàn)ClassificationResultsb,c財務(wù)風(fēng)險類別PredictedGroupMembershipTotal123OriginalCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedaCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0a.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.b.100.0%oforiginalgroupedcasescorrectlyclassified.c.100.0%ofcross-validatedgroupedcasescorrectlyclassified.ClassificationResultsb,c財務(wù)風(fēng)險類別PredictedGroupMembershipTotal123OriginalCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedaCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0a.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.b.100.0%oforiginalgroupedcasescorrectlyclassified.c.100.0%ofcross-validatedgroupedcasescorrectlyclassified.小結(jié)
聚類分析的實質(zhì)是建立一種分類方法,將一批樣本數(shù)據(jù)按照他們在性質(zhì)上的密切程度在沒有先驗知識的情況下自動進(jìn)行分類。聚類方法主要分為層析聚類分析方法和快速聚類分析方法,其中層次聚類分析方法又有兩種形式:一種是對樣本進(jìn)行分類,稱為Q型聚類;一種是對研究變量進(jìn)行分類,稱為R型聚類。小結(jié)
判別分析是指先根據(jù)已知類別的事物的性質(zhì),建立函數(shù)式,然后對未知類別的新事物進(jìn)行判斷以將之歸入已知的類別中。判別分析的模型按照判別的不同準(zhǔn)則可以分為典型判別分析、貝葉斯判別分析、非參數(shù)判別分析等不同模型。小結(jié)SPSS中“Analyze”/“Classify”菜單專門用于聚類分析和判別分析。其中,“K-MeansCluster”適用于快速聚類分析方法,“HierarchicalCluster”適用于層次聚類分析方法,“Discriminant”主要用于判別分析。結(jié)構(gòu)方差模型顯變量:可以直接測量的因素,又稱為觀測變量(observedvariable)潛變量(latentvariable):無法直接測量的因素傳統(tǒng)的統(tǒng)計分析方法,如多元回歸分析、通徑分析等僅限于對可以直接觀測的變量的關(guān)系的研究上。因此,當(dāng)欲研究的因果模型中涉及潛變量時,這些方法無能為力在研究事物問的因果關(guān)系時很有必要引入能夠處理潛在變量之間關(guān)系的統(tǒng)計分析方法結(jié)構(gòu)方程模型結(jié)構(gòu)方程模型是一種復(fù)雜的因果關(guān)系模型,可以把潛變量和觀測變量有效地結(jié)合起來,分析觀測變量與潛變量以及潛變量之間的關(guān)系,可以用來驗證某種理論假設(shè)的結(jié)構(gòu)是否成立。分析過程模型設(shè)定(modelspecification)模型識別(modelidentification)模型估計(modelestimation)模型評價(modelevaluation)和模型修正(modelmodification)模型解釋(modelexplanation)分析過程模型設(shè)定是指研究者對假設(shè)變量間關(guān)系的整合設(shè)定研究者通過對所研究現(xiàn)象進(jìn)行前期調(diào)查分析和文獻(xiàn)準(zhǔn)備后,根據(jù)研究目的和專業(yè)知識建立起的觀測變量與潛變量,以及潛變量與潛變量之間的關(guān)系,構(gòu)建模型的路徑圖依據(jù)路徑圖將模型的因果關(guān)系以方程式的方式加以表達(dá),形成理論假設(shè)模型識別模型識別也叫模型確認(rèn),也就是實際數(shù)據(jù)必須滿足模型估計的需要,對于每個未知參數(shù)皆可以導(dǎo)出一個唯一的估計值,若無法滿足此要求,那么就無法對模型進(jìn)行正確的估計識別根據(jù)方程的個數(shù)和模型中待估計參數(shù)的個數(shù),結(jié)構(gòu)方程模型可以分為不足識別的(under-identified)、恰好可識(just-identified)和過度識別的(over-identified)分析過程模型估計結(jié)構(gòu)方程模型的參數(shù)估計過程不同于傳統(tǒng)的統(tǒng)計方法。它不是追求盡量縮小樣本中因變量的個體預(yù)測值與其觀測值之間的差異,而是追求盡量縮小樣本的方差協(xié)方差與模型隱含的理論方差協(xié)方差之間的差異,使兩者的“差距”達(dá)到最小。分析過程模型估計常用方法:最大似然估計法廣義最小二乘法加權(quán)最小二乘法對角加權(quán)最小二乘法分析過程模型評價和修正模型評價
在獲得了參數(shù)的估計值后需要對模型的擬合效果進(jìn)行評價對模型整體擬合效果的評價指標(biāo)主要是擬合指數(shù),大致可分為以下四類:絕對擬合指數(shù)相對擬合指數(shù)信息標(biāo)準(zhǔn)指數(shù)節(jié)儉擬合指數(shù)分析過程模型評價和修正當(dāng)一個模型擬合不好時,通??梢愿淖兤錅y量模型增加新的結(jié)構(gòu)參數(shù),或設(shè)定某些誤差項相關(guān),或者限制某些結(jié)構(gòu)參數(shù)對每一個固定參數(shù)或約束參數(shù)而言,修正指數(shù)測量了當(dāng)單個的固定參數(shù)或約束參數(shù)被釋放為自由參數(shù)時新擬合的模型所引起的χ2值的減小量在進(jìn)行模型修正時,應(yīng)該有實際的理論做指導(dǎo),而不能僅憑樣本數(shù)據(jù)提供的信息做出判斷分析過程模型解釋是對一個合理的擬合后模型的統(tǒng)計結(jié)果進(jìn)行解釋利用模型中的非標(biāo)準(zhǔn)化系數(shù)與標(biāo)準(zhǔn)化系數(shù),來判斷那一個參數(shù)的影響較大,哪一個參數(shù)的影響較小分析過程LISRELAMOS(AnalysisofMomentStructures)CALIS(CovarianceAnalysisandLinearStructuralEquations)EQS(Equations)LISCOMP(LinearStructuralEquationwithaComprehensiveMeasurementModel)RAMONA(ReticularActionModelorNearApproximation)MplusSAS統(tǒng)計分析軟件例16-5為了研究醫(yī)院文化內(nèi)部作用機(jī)制,分析醫(yī)院文化中哪些屬性對醫(yī)院職工滿意度有影響以及影響大小,某研究者在某醫(yī)院進(jìn)行了抽樣調(diào)查,共在該醫(yī)院調(diào)查了700名醫(yī)院職工。該研究者主要采用了DENISON組織文化量表,以及職工滿意度調(diào)查問卷作為調(diào)查工作。DENISON組織文化量表共包括60個條目(條目為5級李科特量表,條目選項為:1.非常不同意,2.不同意,3.一般,4.同意,5.非常同意)。該量表包括參與性(條目I1-I15)、一致性(條目I16-I30)、適應(yīng)性(條目I31-I45)、方向性(條目I46-I60)四個維度,反映了醫(yī)院文化的四個方面。職工滿意度調(diào)查問卷包含10個條目(條目M1-M10),反映了職工對醫(yī)院職稱晉升、績效考核、人際環(huán)境、工作條件、工作風(fēng)氣等方面的滿意程度例16-5研究者根據(jù)專業(yè)知識及查閱參考文獻(xiàn),提出了以下理論假設(shè):醫(yī)院文化的四個維度對職工滿意度有一定程度的影響SAS軟件實現(xiàn)擬合結(jié)果“方向性”、“參與性”兩個潛變量對“職工滿意度”的影響都有統(tǒng)計學(xué)意義而醫(yī)院文化中的“一致性”、“適應(yīng)性”兩個維度與職工滿意度的關(guān)聯(lián)微弱,未發(fā)現(xiàn)有統(tǒng)計學(xué)意義結(jié)論多水平模型多水平模型也稱為層次線性模型(hierarchicallinearmodel)或混合效應(yīng)模型(mixed-effectsmodel),是處理具有層次結(jié)構(gòu)數(shù)據(jù)的一類統(tǒng)計學(xué)方法。多水平模型(multilevelmodel)醫(yī)療衛(wèi)生領(lǐng)域研究中許多數(shù)據(jù)具有層次(hierarchical)或聚集性(clustered)結(jié)構(gòu),例如:生物遺傳學(xué)研究中,父代和子代形成了自然的層次結(jié)構(gòu),同一父母的子代之間與人群中隨機(jī)抽取的個體之間相比,在身體和心理上的特征更具相似性(similarity)衛(wèi)生毒理致畸實驗中,常常對孕鼠染毒,觀察仔鼠的畸形發(fā)生率。由于同一孕鼠遺傳因素、妊娠期長短和致畸物代謝環(huán)境相似,同窩仔鼠發(fā)生畸形的概率趨于相同醫(yī)療衛(wèi)生領(lǐng)域中的多水平數(shù)據(jù)一些精心設(shè)計的試驗也可看成層次結(jié)構(gòu)數(shù)據(jù),如在隨機(jī)抽取的多個中心進(jìn)行的針對患者個體的臨床試驗,可歸納為中心和患者2個層次。社會學(xué)調(diào)查數(shù)據(jù)中也常具有層次機(jī)構(gòu),如為了解2011年某省農(nóng)村65歲以上老年人居民衛(wèi)生服務(wù)需求和利用現(xiàn)狀及其影響因素,采用多階段分層整群隨機(jī)抽樣方法調(diào)查27個村的所有65歲以上老年人,共5680人(全省抽取3個縣,每縣抽取3個鄉(xiāng)鎮(zhèn),每個鄉(xiāng)鎮(zhèn)抽取3個村),這個數(shù)據(jù)可歸納為縣、鄉(xiāng)、村、個人共4個層次。醫(yī)療衛(wèi)生領(lǐng)域中的多水平數(shù)據(jù)這些具有層次結(jié)構(gòu)的數(shù)據(jù)被稱為多水平數(shù)據(jù)(multileveldata)。在孕鼠試驗數(shù)據(jù)中,子代看作一個2水平結(jié)構(gòu)中的水平1單位(level1unit),其父代或家庭則為水平2單位(level2unit);而在衛(wèi)生服務(wù)需求調(diào)查中,65歲以上老年人作為水平1單位,27個村為水平2單位,9個鄉(xiāng)為水平3單位。多水平數(shù)據(jù)(multileveldata)例16-6某研究欲調(diào)查Ⅱ型糖尿病患者對社區(qū)醫(yī)療服務(wù)的滿意度。采用兩階段隨機(jī)抽樣,先在某地隨機(jī)抽取69名社區(qū)醫(yī)生,然后在每名社區(qū)醫(yī)生的診所抽取若干Ⅱ型糖尿病患者,共納入1482名患者。每名入選醫(yī)生需填寫個人相關(guān)資料,包括個人背景、從業(yè)時間等;每名入選患者除提供基本資料(年齡、性別、病史等)外,需完成一份滿意度調(diào)查問卷,問卷總分為100分,分?jǐn)?shù)越高,表示患者對醫(yī)療服務(wù)滿意程度越高忽略數(shù)據(jù)多水平結(jié)構(gòu)的后果1482名糖尿病患者對社區(qū)醫(yī)療服務(wù)的滿意度調(diào)查結(jié)果例16-6資料不同模型分析結(jié)果比較
結(jié)果三種模型所估計的社區(qū)患者平均年齡與社區(qū)醫(yī)生服務(wù)滿意程度均呈負(fù)相關(guān)單水平線性模型和兩水平模型結(jié)果提示患者個人年齡與滿意度呈正相關(guān)因此,忽略個體水平的變異,通過群組水平的研究對個體水平下結(jié)論,可能導(dǎo)致流行病學(xué)中提及的生態(tài)學(xué)謬誤(ecologicalfallacy)結(jié)果多水平模型是集方差成分模型和多元回歸分析為一體的新分析方法,兩水平方差成分模型是多水平模型中最基本和最簡單的一種兩水平方差成分模型方差成分模型單因素方差分析的無效假設(shè)為:是J個組總體均數(shù)
,,各組均數(shù)與總體均數(shù)之差:則單因素方差分析可用線性模型表示為:其中為第組第i個個體測量值,為殘差項
(16-1)若模型中各組均數(shù)與總體均數(shù)的差值為固定數(shù)值,不存在變異,則有:,方差為,,且,稱固定效應(yīng)模型(fixedeffectmodel),對應(yīng)I型方差分析(typeIANOVA)。方差成分模型實際研究中,研究者有時不關(guān)心J組均數(shù)間的差別,而是期望根據(jù)這J組的樣本對其總體做出統(tǒng)計推斷。此時模型仍可用(16-1)表示,但模型中為隨機(jī)變量,所有獨立同分布,且均數(shù)為0,即,且,,,
,
為組間方差(withingroupvariance),為組內(nèi)方差(betweengroupvariance)
方差成分模型由于組間效應(yīng)為隨機(jī)變量,稱隨機(jī)效應(yīng)模型(randomeffectmodel),對應(yīng)的方差分析為Ⅱ型方差分析(typeⅡANOVA),又稱方差成分模型方差成分模型現(xiàn)以例16-6來說明兩水平層次結(jié)構(gòu)數(shù)據(jù)如何擬合兩水平方差成分模型,其基本結(jié)構(gòu)與模型假設(shè)為:
,
,,(16-12)上式中,示水平1單位(患者),,示水平2單位(醫(yī)生)。和分別為第j個醫(yī)生的第i個患者的滿意度分值和解釋變量觀測值(如患者年齡)
為截距,有一個變化的下標(biāo)j,表示其取值在不同社區(qū)醫(yī)生間變化,而同一社區(qū)醫(yī)生的不同患者間其取值相同;為解釋變量的回歸系數(shù),沒有可變化的下標(biāo),表示對于所有社區(qū)醫(yī)生和所有患者,其取值恒定。兩水平方差成分模型為患者水平的隨機(jī)誤差
為隨機(jī)變量,表示第j個醫(yī)生y平均估計值與總均數(shù)的離差,因此又稱水平2殘差項,反映第j個醫(yī)生對y的隨機(jī)效應(yīng),又稱隨機(jī)效應(yīng),等同于。的方差反映醫(yī)生的服務(wù)基線水平在社區(qū)間的變異,稱之為隨機(jī)系數(shù)(randomcoefficient)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國抽屜四門柜數(shù)據(jù)監(jiān)測報告
- 2025年中國扼流圈數(shù)據(jù)監(jiān)測報告
- 2025年中國扁形木柄市場調(diào)查研究報告
- Adobe設(shè)計師考試中的行業(yè)變革反思試題及答案
- 2025年中國彈力布TPU膜復(fù)合搖粒絨市場調(diào)查研究報告
- 七年級道德與法治下冊 第二單元 做情緒情感的主人第四課 揭開情緒的面紗 第2框 情緒的管理教學(xué)設(shè)計 新人教版
- 電氣工程師資格證書考試常識性問題試題及答案
- 2025年中國履帶牽引臥式組合繞包機(jī)數(shù)據(jù)監(jiān)測報告
- 2025年中國小陰角線市場調(diào)查研究報告
- 幾何小實踐-千米的認(rèn)識(教學(xué)設(shè)計)-2024-2025學(xué)年三年級上冊數(shù)學(xué)滬教版
- 游泳館租賃安全責(zé)任協(xié)議書
- 貴州省銅仁市2022-2023學(xué)年度六年級下學(xué)期期末質(zhì)量檢測科學(xué)試卷
- 行政復(fù)議法-形考作業(yè)4-國開(ZJ)-參考資料
- 塑造陽光心態(tài)班會省公開課一等獎全國示范課微課金獎?wù)n件
- 語文六年級下冊辯
- 煤礦+925東大巷掘進(jìn)作業(yè)規(guī)程
- 完整解讀2024年關(guān)于加強社區(qū)工作者隊伍建設(shè)的意見內(nèi)容課件
- 醫(yī)院護(hù)理培訓(xùn)課件:《改善患者就醫(yī)感受提高患者滿意度》
- 淺談抖音短視頻對大學(xué)生的影響
- 福建省海域使用補償辦法
- 數(shù)字經(jīng)濟(jì)概論課件:數(shù)字貿(mào)易
評論
0/150
提交評論