版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十六章其他多變量分析方法簡(jiǎn)介
第二軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系馬修強(qiáng)案例在《2012年中國(guó)衛(wèi)生統(tǒng)計(jì)年鑒》中,收集有反映世界上19個(gè)主要國(guó)家的衛(wèi)生狀況的統(tǒng)計(jì)指標(biāo),如人口年增長(zhǎng)率AGR(%)、嬰兒死亡率IMR(‰)、5歲以下兒童死亡率MRU5(‰)、孕產(chǎn)婦死亡率MMR(1/10萬(wàn))、每千人口醫(yī)師數(shù)Physicians、每千人口護(hù)士數(shù)Nurses、每千人口病床數(shù)Beds、衛(wèi)生總費(fèi)用占GDP%THE、人均衛(wèi)生費(fèi)用PCHE(美元)等。如何利用這些指標(biāo)對(duì)這些國(guó)家的衛(wèi)生狀況進(jìn)行評(píng)價(jià)?這些指標(biāo)之間存在相關(guān)性,它們是否受某些不能觀察到的、潛在的因子影響?主成分分析和因子分析聚類(lèi)分析與判別分析結(jié)構(gòu)方程模型多水平模型多指標(biāo)(變量)問(wèn)題指標(biāo)個(gè)數(shù)過(guò)多指標(biāo)之間相關(guān)如何用較少的綜合指標(biāo)來(lái)代替原來(lái)較多的指標(biāo),同時(shí)這些較少的綜合指標(biāo)能夠盡可能的保留原來(lái)變量的信息主成分分析因子分析主成分分析主成分分析(principalcomponentanalysis)是利用降維的思想,把多個(gè)相關(guān)變量綜合成一個(gè)或少數(shù)幾個(gè)相互獨(dú)立的綜合變量,且提取原來(lái)多個(gè)變量的主要信息成分的方法可以用來(lái)尋找判斷某種事物或者現(xiàn)象的綜合指標(biāo),并結(jié)合綜合指標(biāo)所蘊(yùn)含的信息進(jìn)行恰當(dāng)?shù)慕忉專(zhuān)员愀羁痰慕沂臼挛锏膬?nèi)在規(guī)律還可以利用主成分得到的綜合指標(biāo)來(lái)做進(jìn)一步的分析,如聚類(lèi)分析、主成分回歸等等有m個(gè)指標(biāo)(x1,x2…,xm)的n個(gè)對(duì)象,假設(shè)每個(gè)指標(biāo)已經(jīng)標(biāo)準(zhǔn)化相關(guān)系數(shù)陣為R,特征根為??梢哉业揭唤M新的變量Z1,Z2,…,Zm,它們滿足是原指標(biāo)的線性函數(shù);各個(gè)Zi互不相關(guān)(即相互垂直);各Zi提供原指標(biāo)所包含的全部信息,Z1提供的信息最多,Z2次之,…,Zm最少稱(chēng)Zi為x1,x2…,xm的第i個(gè)主成份主成分定義有m個(gè)變量必然有m個(gè)主成份主成份Zi的方差貢獻(xiàn)就是特征向量的特征根各個(gè)主成份方差和等于變量個(gè)數(shù)m,即第一主成份對(duì)數(shù)據(jù)的方差貢獻(xiàn)就是最大特征根,相對(duì)貢獻(xiàn)率為,依次類(lèi)推。主成分特點(diǎn)例16-1例16-1章前實(shí)例中的變量較多,選擇其中7個(gè)(嬰兒死亡率、5歲以下兒童死亡率、孕產(chǎn)婦死亡率、每千人口醫(yī)師數(shù)、每千人口病床數(shù)、衛(wèi)生總費(fèi)用占GDP%、人均衛(wèi)生費(fèi)用)為例進(jìn)行主成分分析。特征值比例(%)累積14.35562.2162.2121.31918.8481.0530.74910.7091.7640.4736.7698.5250.0731.0499.5660.0300.4299.9970.0010.02100.00通過(guò)SPSS軟件計(jì)算得到如下結(jié)果:由大到小給出了協(xié)方差矩陣的7個(gè)特征值、貢獻(xiàn)率和累計(jì)貢獻(xiàn)率結(jié)果各主成份的特征向量第一主成分Prin1、第二主成分Prin2和第三主成分Prin3的表達(dá)式如下:Prin1=0.950IMR+0.926MRU5+0.872MMR-0.756Physicians-0.588Beds-0.622THE-0.728PCHEPrin2=0.249IMR+0.311MRU5+0.386MMR+0.008Physicians-0.147Beds+0.751THE+0.652PCHEPrin3=0.144IMR+0.193MRU5+0.256MMR+0.235Physicians+0.750Beds-0.0.080THE-0.041PCHE變量Prin1Prin2Prin3IMR0.9500.2490.144MRU50.9260.3110.193MMR0.8720.3860.256Physicians-0.7560.0080.235Beds-0.588-0.1470.750THE-0.6220.751-0.080PCHE-0.7280.652-0.041解釋第一主成份系數(shù)均較大且較接近,因此綜合反映了各國(guó)衛(wèi)生狀況原始指標(biāo)的信息第二主成份中THE和PCHE的系數(shù)較大,因此主要反映了來(lái)自原始指標(biāo)THE和PCHE的信息第三主成份中Beds的系數(shù)較大,因此主要反映了來(lái)自原始指標(biāo)Beds的信息據(jù)此可認(rèn)為這三個(gè)主成分分別反映了原始指標(biāo)中三類(lèi)不同的信息,即綜合衛(wèi)生狀況、衛(wèi)生費(fèi)用和衛(wèi)生設(shè)施三類(lèi)信息進(jìn)一步綜合評(píng)價(jià):主成份得分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)化在SPSS軟件中打開(kāi)數(shù)據(jù)文件“例16_1.sav”,然后選擇Analyze→DescriptiveStatistics→Descriptives在彈出的對(duì)話框左側(cè)的變量列表中選擇嬰兒死亡率(‰)IMR、5歲以下兒童死亡率(‰)MRU5、孕產(chǎn)婦死亡率(1/10萬(wàn))MMR、每千人口醫(yī)師數(shù)Physicians、每千人口病床數(shù)Beds、衛(wèi)生總費(fèi)用占GDP%THE、人均衛(wèi)生費(fèi)用(美元)PCHE,單擊按鈕,將變量選入到Variables然后單擊選中Savestandardizedvaluesasvariable。單擊OK完成。SPSS軟件實(shí)現(xiàn)主成分分析在上一步數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,選擇Analyze→DimensionReduction→FactorAnalysis在彈出的對(duì)話框左側(cè)的變量列表中選擇Zscore:嬰兒死亡率(‰)IMR、Zscore:5歲以下兒童死亡率(‰)MRU5、Zscore:孕產(chǎn)婦死亡率(1/10萬(wàn))MMR、Zscore:每千人口醫(yī)師數(shù)Physicians、Zscore:每千人口病床數(shù)Beds、Zscore:衛(wèi)生總費(fèi)用占GDP%THE、Zscore:人均衛(wèi)生費(fèi)用(美元)PCHE,單擊按鈕,將變量選入到Variables單擊按鈕Descriptives,選中Coefficients,單擊Continue。單擊按鈕Extraction,Method下拉菜單,選擇PrincipalComponents;選擇Fixednumberoffactors,定義Factorstoextract為“3”,單擊Continue。單擊OK完成SPSS軟件實(shí)現(xiàn)SPSS軟件實(shí)現(xiàn)SPSS軟件實(shí)現(xiàn)SPSS軟件實(shí)現(xiàn)因子分析因子分析(FactorAnalysis)目的是找出支配多個(gè)變量的少數(shù)共性因子,以它們?yōu)榭蚣芊纸庠兞?,從而洞察原變量間的內(nèi)在聯(lián)系或區(qū)別,使原變量中所含的反映個(gè)體變異的信息(方差信息)絕大多數(shù)能被解釋。共性因子的數(shù)量一定少于原變量的數(shù)量設(shè)p個(gè)經(jīng)過(guò)標(biāo)準(zhǔn)化的變量x1,x2…,xp間存在相關(guān)性可能存在一個(gè)或多個(gè)潛在因子同時(shí)影響這些變量每個(gè)變量分解為共性部分和個(gè)性部分:因子分析共性因子(commonfactor)
:對(duì)x1,x2…,xp均有影響的因子特殊因子(specificfactor)
:只影響因子負(fù)荷(factorloading)
:某一共性因子對(duì)的影響程度因子分析因子模型特點(diǎn):每個(gè)共性因子和特殊因子的均數(shù)都為0,方差為1;各共性因子和特殊因子彼此獨(dú)立;各個(gè)共性因子的載荷就是變量和的相關(guān)系數(shù),它反應(yīng)兩者數(shù)量關(guān)系的強(qiáng)度和方向。因子分析變量的方差也可以分成兩部分:共性因子引起的共性方差和特殊因子引起的個(gè)性方差共性方差越大,說(shuō)明共性因子作用越大因子分析因子分析任務(wù)因子分析的根本任務(wù)是尋找共性因子,因此因子分析過(guò)程至少要解決下面幾個(gè)問(wèn)題:確定共性因子個(gè)數(shù)分解各變量,求變量在上的載荷,解釋共性因子的實(shí)際意義解釋共性因子的實(shí)際意義例16-2例16-1中七個(gè)變量存在相關(guān)性,說(shuō)明它們受某些共同因素的影響。以這七個(gè)變量進(jìn)行因子分析,尋找它們的共性因子。初始因子提取常用的方法有:主成份法和迭代主成份法按照特征根和累計(jì)貢獻(xiàn)率的大小,決定共性因子數(shù)m=37個(gè)指標(biāo)的特征值及其貢獻(xiàn)率例16-2特征值貢獻(xiàn)率(%)累計(jì)貢獻(xiàn)率(%)14.35562.2162.2121.31918.8481.0530.74910.7091.7640.4736.7698.5250.0731.0499.5660.0300.4299.9970.0010.02100.00例16-2計(jì)算在各個(gè)因子上的初始載荷和共性方差Factor1Factor2Factor3共性方差I(lǐng)MR0.9500.2490.1440.984MRU50.9260.3110.1930.991MMR0.8720.3860.2560.976Physicians-0.7560.0080.2350.627Beds-0.588-0.1470.7500.929THE-0.6220.751-0.0800.957PCHE-0.7280.652-0.0410.958因子旋轉(zhuǎn):使因子載荷的絕對(duì)值差別盡可能大,理想狀況是某些因子載荷接近±1,而另外的因子載荷接近0,使各指標(biāo)和因子的關(guān)系變得清楚而易于解釋。旋轉(zhuǎn)后各個(gè)因子載荷和載荷平方例16-2IMR0.914-0.270-0.2750.83540.07290.0756MRU50.946-0.210-0.2290.89490.04410.0524MMR0.967-0.124-0.1590.93510.01540.0253Physicians-0.4860.3590.5120.23620.12890.2621Beds-0.2250.0910.9330.05060.00830.8705THE-0.1450.9640.0810.02100.92930.0066PCHE-0.2600.9280.1700.06760.86120.0289變量IMR的變異有98.4%是由共性因子所致,即共性方差=98.4%,其余由特殊因子所致;共性方差中共性因子承擔(dān)了83.54%,共性因子承擔(dān)了7.29%,共性因子承擔(dān)了7.56%。因子是影響IMR、MRU5和MMR的主要共性因子;因子主要影響THE和PCHE;因子則主要影響B(tài)eds和Physicians,尤其是Beds。解釋數(shù)據(jù)的標(biāo)準(zhǔn)化因子分析因子分析與主成分分析的操作過(guò)程非常相似,除了重復(fù)主成分分析的上述分析過(guò)程之外,還需要單擊按鈕Rotation,選中Varimax,單擊Continue。單擊OK完成SPSS軟件實(shí)現(xiàn)SPSS軟件實(shí)現(xiàn)聚類(lèi)分析與判別分析
本節(jié)介紹統(tǒng)計(jì)學(xué)中經(jīng)常使用的分類(lèi)統(tǒng)計(jì)分析方法——聚類(lèi)分析與判別分析。主要內(nèi)容有層次聚類(lèi)分析、快速聚類(lèi)分析和判別分析。其中層次聚類(lèi)分析根據(jù)聚類(lèi)的對(duì)象不同分成Q型聚類(lèi)和R型聚類(lèi)。聚類(lèi)分析與判別分析的基本概念
統(tǒng)計(jì)學(xué)研究這類(lèi)問(wèn)題的常用分類(lèi)統(tǒng)計(jì)方法主要有聚類(lèi)分析(clusteranalysis)與判別分析(discriminantanalysis)。其中聚類(lèi)分析是統(tǒng)計(jì)學(xué)中研究這種“物以類(lèi)聚”問(wèn)題的一種有效方法,它屬于統(tǒng)計(jì)分析的范疇。聚類(lèi)分析的實(shí)質(zhì)是建立一種分類(lèi)方法,它能夠?qū)⒁慌鷺颖緮?shù)據(jù)按照他們?cè)谛再|(zhì)上的親密程度在沒(méi)有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類(lèi)。這里所說(shuō)的類(lèi)就是一個(gè)具有相似性的個(gè)體的集合,不同類(lèi)之間具有明顯的區(qū)別。
聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數(shù)未必一致。因此我們說(shuō)聚類(lèi)分析是一種探索性的分析方法。
對(duì)個(gè)案的聚類(lèi)分析類(lèi)似于判別分析,都是將一些觀察個(gè)案進(jìn)行分類(lèi)。聚類(lèi)分析時(shí),個(gè)案所屬的群組特點(diǎn)還未知。也就是說(shuō),在聚類(lèi)分析之前,研究者還不知道獨(dú)立觀察組可以分成多少個(gè)類(lèi),類(lèi)的特點(diǎn)也無(wú)所得知。
聚類(lèi)分析的方法,主要有兩種,一種是“快速聚類(lèi)分析方法”(K-MeansClusterAnalysis),另一種是“系統(tǒng)聚類(lèi)分析方法”(HierarchicalClusterAnalysis)。如果觀察值的個(gè)數(shù)多或文件非常龐大(通常觀察值在200個(gè)以上),則宜采用快速聚類(lèi)分析方法。因?yàn)橛^察值數(shù)目巨大,系統(tǒng)聚類(lèi)分析的兩種判別圖形會(huì)過(guò)于分散,不易解釋。
判別分析是一種有效的對(duì)個(gè)案進(jìn)行分類(lèi)分析的方法。和聚類(lèi)分析不同的是,判別分析時(shí),組別的特征已知。將這些收集到的研究資料判別分析,建立判別函數(shù)。那么,以后就可以利用創(chuàng)建好的判別函數(shù),對(duì)新的對(duì)象進(jìn)行分析,從而判斷新的對(duì)象是屬于哪個(gè)類(lèi)別。聚類(lèi)分析和判別分析的比較判別分析時(shí)總體中各類(lèi)別的劃分清楚,判別分析需要知道一批已知分類(lèi)的訓(xùn)練樣品,在此基礎(chǔ)上建立判別函數(shù),所以它是有師可循的方法。聚類(lèi)分析時(shí)總體中各類(lèi)別的劃分不清楚,甚至到底應(yīng)分成幾類(lèi)也不知道,用于聚類(lèi)分析的原始數(shù)據(jù)中沒(méi)有類(lèi)別變量,所以是無(wú)師可循的統(tǒng)計(jì)分析方法。聚類(lèi)分析和判別分析結(jié)合當(dāng)未知類(lèi)別,又需要類(lèi)型識(shí)別時(shí):先采用聚類(lèi)分析獲得各個(gè)個(gè)體的類(lèi)別(classification);然后采用判別分析建立判別函數(shù),對(duì)新個(gè)體進(jìn)行類(lèi)型識(shí)別(identification)聚類(lèi)分析聚類(lèi)分析聚類(lèi)分析(clusteranalysis)又稱(chēng)集群分析,它是研究“物以類(lèi)聚”的一種數(shù)理統(tǒng)計(jì)方法。聚類(lèi)分析可將一些觀察對(duì)象依據(jù)某些特征加以歸類(lèi):相似的聚為一類(lèi)。例如臨床上修復(fù)耳缺損先以正常耳朵的耳長(zhǎng)、耳寬、耳外展距等指標(biāo)為依據(jù),對(duì)耳朵進(jìn)行聚類(lèi)分析,把正常耳朵劃分成幾類(lèi)然后找出各類(lèi)之標(biāo)準(zhǔn)化耳朵,以供臨床修復(fù)各種耳缺損病員時(shí)參考。遺傳多態(tài)性、藥材譜系聚類(lèi)分析對(duì)于收集到的數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi)對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的,沒(méi)有什么不同。聚類(lèi)分析的方法系統(tǒng)聚類(lèi)法:用于對(duì)小樣本的樣品間聚類(lèi)及對(duì)指標(biāo)聚類(lèi)。逐步聚類(lèi)法或稱(chēng)快速聚類(lèi)法:用于對(duì)大樣本的樣品間聚類(lèi)。有序樣品聚類(lèi)法:用于對(duì)有排列次序的樣本的樣品間聚類(lèi),要求必須是次序相鄰的樣品才能聚在一類(lèi)
聚類(lèi)分析的方法模糊聚類(lèi)法:建立在模糊數(shù)學(xué)基礎(chǔ)上的對(duì)樣品間聚類(lèi)的方法,適用于小樣本。
分割聚類(lèi)法:適用于對(duì)指標(biāo)聚類(lèi)
聚類(lèi)統(tǒng)計(jì)量定義:在聚類(lèi)分析中反映樣品或變量間關(guān)系親疏程度的統(tǒng)計(jì)量稱(chēng)為聚類(lèi)統(tǒng)計(jì)量,常用的聚類(lèi)統(tǒng)計(jì)量分為距離和相似系數(shù)兩種距離:用于對(duì)樣品的聚類(lèi)。常用歐氏距離,在求距離前,需把指標(biāo)進(jìn)行標(biāo)準(zhǔn)化(作用:消除量綱的影響)。相似系數(shù):常用于對(duì)變量的聚類(lèi)。一般采用Pearson相關(guān)系數(shù)。距離小或相似系數(shù)大則表示類(lèi)間關(guān)系密切
系統(tǒng)聚類(lèi)法
(systematicclustermethod)使用最多的一種聚類(lèi)分析。基本思想:首先定義樣品間距離及類(lèi)與類(lèi)之間的距離開(kāi)始時(shí)每個(gè)樣品各看成一類(lèi)將距離最近的兩類(lèi)合并;重新計(jì)算新類(lèi)與其它類(lèi)的距離,再將距離最近的兩類(lèi)合并;再計(jì)算新類(lèi)與其它類(lèi)的距離,……這樣一步步進(jìn)行下去,每一步減少一類(lèi),直至所有的樣品都合并成一類(lèi)為止畫(huà)聚類(lèi)圖,作出解釋?zhuān)簺Q定類(lèi)的個(gè)數(shù),及各類(lèi)包含的樣品數(shù)系統(tǒng)聚類(lèi)法整個(gè)聚類(lèi)過(guò)程可作成聚類(lèi)圖或樹(shù)狀譜(treediagram),按樹(shù)狀譜作出適當(dāng)?shù)姆诸?lèi)。類(lèi)與類(lèi)之間的距離有各種不同的定義方法。定義不同即產(chǎn)生不同的算法。而不同的算法可能聚得不同的結(jié)果。實(shí)踐中可用不同的方法,聚得多個(gè)結(jié)果,然后根據(jù)專(zhuān)業(yè)知識(shí)選擇較合理的分類(lèi)結(jié)果。類(lèi)與類(lèi)之間距離定義方法SPSS提供的計(jì)算兩個(gè)類(lèi)間距離的方法有:組間連接法(between-groupslinkage)組內(nèi)連接法(within-groupslinkage)最短距離法(nearestneighbor)最長(zhǎng)距離法(furthestneighbor)重心聚類(lèi)法(centroidclustering)中位數(shù)聚類(lèi)法(medianclustering)Ward離差平方和法(Ward’smethod)類(lèi)與類(lèi)之間距離定義方法最短距離法(nearestneighbor):類(lèi)與類(lèi)之間距離定義為兩類(lèi)間樣品距離的最小值A(chǔ)2A1**
B2B1**B3*
A類(lèi)B類(lèi)類(lèi)與類(lèi)之間距離定義方法最長(zhǎng)距離法(furthestneighbor):類(lèi)與類(lèi)之間距離定義為兩類(lèi)間樣品距離的最大值A(chǔ)2A1**
A類(lèi)B類(lèi)
B2B1**B3*類(lèi)與類(lèi)之間距離定義方法重心法(centroidmethod):類(lèi)與類(lèi)之間距離定義為兩類(lèi)的重心之間的距離A2A1**
A類(lèi)B類(lèi)B2B1**B3*例16-3例16-3章前案例中,收集有反映世界上19個(gè)主要國(guó)家的衛(wèi)生狀況的下列9個(gè)統(tǒng)計(jì)指標(biāo):人口年增長(zhǎng)率AGR(%)、嬰兒死亡率IMR(‰)、5歲以下兒童死亡率MRU5(‰)、孕產(chǎn)婦死亡率MMR(1/10萬(wàn))、每千人口醫(yī)師數(shù)Physicians、每千人口護(hù)士數(shù)Nurses、每千人口病床數(shù)Beds、衛(wèi)生總費(fèi)用占GDP%THE、人均衛(wèi)生費(fèi)用PCHE(美元),試?yán)眠@9個(gè)指標(biāo)對(duì)這19個(gè)國(guó)家的衛(wèi)生狀況進(jìn)行聚類(lèi)分析SPSS軟件實(shí)現(xiàn)聚類(lèi)過(guò)程StageClusterCombinedCoefficientsStageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster21416489.910004211142648.280003311174298.6802054455056.405107521117758.8870310691023524.500001274843194.267401486760522.670001391370246.350001310213126041.925501111215216432.7261001412918260506.03060161316314154.29098161424348502.3581171515212796620.2311401816191453869.395131217171199858448.0691601818121.810E717150樹(shù)狀圖這19個(gè)國(guó)家可以分為兩類(lèi),其中意大利、日本、英國(guó)、法國(guó)、德國(guó)、澳大利亞、加拿大、美國(guó)可為一類(lèi),其余國(guó)家為一類(lèi),前者的衛(wèi)生狀況較好。解釋聚類(lèi)分析注意事項(xiàng)首要一點(diǎn):聚類(lèi)之前一定要目標(biāo)明確。用什么指標(biāo)(變量)表達(dá)要分析的樣品:聚類(lèi)結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。聚類(lèi)方法的選擇: 試用多種方法系統(tǒng)聚類(lèi)與快速聚類(lèi)相結(jié)合樣品量大時(shí)可采用快速聚類(lèi)方法聚類(lèi)分析注意事項(xiàng)分類(lèi)數(shù)的確定:結(jié)合專(zhuān)業(yè)知識(shí)!聚類(lèi)的目的是要使各類(lèi)距離盡可能地遠(yuǎn),而類(lèi)中點(diǎn)的距離盡可能的近,而且分類(lèi)結(jié)果還要有令人信服的解釋。總之,聚類(lèi)分析是一種探索性多元統(tǒng)計(jì)分析技術(shù),對(duì)于同一具體問(wèn)題,可獲得多種聚類(lèi)結(jié)果,需要結(jié)合專(zhuān)業(yè)知識(shí)進(jìn)行解釋判別分析判別分析的基本概念什么是判別分析根據(jù)觀測(cè)到的某些指標(biāo)對(duì)所研究的對(duì)象進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)分析方法。判別分析利用已知類(lèi)別的樣本培訓(xùn)模型,為未知樣本判別分類(lèi)。特點(diǎn)是根據(jù)已掌握的每個(gè)類(lèi)別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類(lèi)的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來(lái)的判別公式和判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類(lèi)別。醫(yī)學(xué)應(yīng)用醫(yī)學(xué)研究中問(wèn)題:疾病的診斷:就診者的各項(xiàng)癥狀、體征、實(shí)驗(yàn)室檢查、病理學(xué)檢查及醫(yī)學(xué)影像學(xué)資料等對(duì)其作出是否有某種疾病的診斷對(duì)幾種可能患有的疾病進(jìn)行鑒別診斷:肺癌,肺結(jié)核和肺炎已初步診斷為某種疾病,需進(jìn)一步判斷屬該類(lèi)疾病中哪一種或哪一型的:闌尾炎:急性單純性闌尾炎,蜂窩織炎性-,壞疽性-判別分析的一般步驟已知分類(lèi)的訓(xùn)練樣本
判別分析方法
判別函數(shù)建立判別準(zhǔn)則
考核
合格
實(shí)際應(yīng)用:未知樣品的判別歸類(lèi)
根據(jù)距離判別的思想最簡(jiǎn)單的辦法就是:某點(diǎn)離哪個(gè)中心距離最近,就屬于哪一類(lèi)。一個(gè)常用距離是Mahalanobis距離。用來(lái)比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱(chēng)為判別函數(shù)(discriminantfunction)。這種根據(jù)遠(yuǎn)近判別的思想,原理簡(jiǎn)單,直觀易懂,為判別分析的基礎(chǔ)判別分析通常都要建立一個(gè)判別函數(shù),然后利用此判別函數(shù)來(lái)進(jìn)行判別。為了建立判別函數(shù)就必須有一個(gè)訓(xùn)練樣本。判別分析的任務(wù)就是向這份樣本學(xué)習(xí),學(xué)出判斷類(lèi)別的規(guī)則,并作多方考核。訓(xùn)練樣本的質(zhì)量與數(shù)量至為重要。每一個(gè)體所屬類(lèi)別必須用“金標(biāo)準(zhǔn)”予以確認(rèn);解釋變量(簡(jiǎn)稱(chēng)為變量或指標(biāo))X1,X2,…,Xp必須確實(shí)與分類(lèi)有關(guān);個(gè)體的觀察值必須準(zhǔn)確;個(gè)體的數(shù)目必須足夠多。訓(xùn)練樣本——判別方法——判別函數(shù)判別分析常用方法(1)最大似然法:該法是建立在概率論中獨(dú)立事件乘法定律的基礎(chǔ)上,適用于各指標(biāo)是定性的或半定量的情況。(2)Fisher判別分析:用于兩類(lèi)或兩類(lèi)以上間判別,但常用于兩類(lèi)間判別,上例中應(yīng)用的就是Fisher判別分析方法。(3)Bayes判別分析:用于兩類(lèi)或兩類(lèi)以上間判別,要求各類(lèi)內(nèi)指標(biāo)服從多元正態(tài)分布。(4)逐步判別分析:建立在Bayes判別分析基礎(chǔ)上,它象逐步回歸分析一樣,可以在眾多指標(biāo)中挑選一些有顯著作用的指標(biāo)來(lái)建立一個(gè)判別函數(shù),使方程內(nèi)的指標(biāo)都有顯著的判別作用而方程外的指標(biāo)作用都不顯著。(5)logistic判別:常用于兩類(lèi)間判別。它不要求多元正態(tài)分布的假設(shè),故可用于各指標(biāo)為兩值變量或半定量的情況。判別分析常用方法判別方法之Bayes判別準(zhǔn)則基礎(chǔ)在臨床實(shí)踐中,不僅要考慮發(fā)病率(先驗(yàn)概率)問(wèn)題,還要考慮錯(cuò)判后所造成的損失。如:胃炎的發(fā)病率遠(yuǎn)大于胃癌的發(fā)病率,但將胃癌錯(cuò)判為胃炎將導(dǎo)致錯(cuò)失治療良機(jī),后果嚴(yán)重。在判別分析中稱(chēng)為錯(cuò)判后,損失嚴(yán)重。Bayes判別準(zhǔn)則基礎(chǔ)因此在引進(jìn)損失函數(shù)L(I,j),表示本屬于第j個(gè)總體卻判為第i個(gè)總體所造成的損失。例:L(胃炎|胃癌)表示胃癌患者判為胃炎患者所造成的損失。損失函數(shù)是要研究者根據(jù)背景問(wèn)題對(duì)錯(cuò)判的后果進(jìn)行評(píng)估后對(duì)損失進(jìn)行定量。
因此將判別分析的考察指標(biāo)定為由于錯(cuò)判造成損失的期望值Bayes判別準(zhǔn)則就是平均損失最小的準(zhǔn)則。如此去找某判別分類(lèi)的規(guī)則,就是Bayes判別Bayes判別分析(一)Bayes準(zhǔn)則設(shè)有定義明確的g個(gè)總體π1,π2,…,πg(shù),分別為X1,X2,…,Xp的多元正態(tài)分布。對(duì)于任何一個(gè)個(gè)體,若已知p個(gè)變量的觀察值,要求判斷該個(gè)體最可能屬于哪一個(gè)總體。如果我們制訂了一個(gè)判別分類(lèi)規(guī)則,難免會(huì)發(fā)生錯(cuò)分現(xiàn)象。把實(shí)屬第i類(lèi)的個(gè)體錯(cuò)分到第j類(lèi)的概率記為P(j|i),這種錯(cuò)分造成的損失記為C(j|i)。Bayes判別準(zhǔn)則就是平均損失最小的準(zhǔn)則(二)分類(lèi)函數(shù)(g個(gè)類(lèi)別,p個(gè)指標(biāo))Bayes準(zhǔn)則下判別分析的分類(lèi)函數(shù)形式如下:
Y1=C01+C11X1+C21X2+……+Cp1Xp
Y2=C02+C12X1+C22X2+……+Cp2Xp
…………
Yg=C0g+C1gX1+C2gX2+……+CpgXp
Bayes判別分析即g個(gè)線性函數(shù)的聯(lián)立方程,每個(gè)線性函數(shù)對(duì)應(yīng)于某一類(lèi)別。其中C0j,C1j,……,Cpj,(j=1,2,……,g)為需估計(jì)的參數(shù)。用SAS的DISCRIM過(guò)程可得到這些參數(shù)的估計(jì)值判別函數(shù)建立后通常的判別準(zhǔn)則為:如欲判斷某樣品屬于上述g類(lèi)中的哪一類(lèi),可將該樣品的各Xi值代入式(17.1)中的各個(gè)方程,分別算出Y1,Y2,……,Yg等值。其中如Yf為最大則意味著該樣品屬第f類(lèi)的概率最大,故判它屬于第f類(lèi)。Bayes判別分析(三)事前概率(priorprobability)又稱(chēng)先驗(yàn)概率在所研究的總體中任取一個(gè)樣品,該樣品屬于第f類(lèi)別的概率為q(yf),則稱(chēng)它為類(lèi)別f的事前概率。例如,闌尾炎病人總體中卡他性占50%,蜂窩織炎占30%,壞疽性占10%,腹膜炎占10%;則一個(gè)闌尾炎病人(屬于該總體中的某個(gè)體),在闌尾炎分型確診前該病人屬于以上四型的概率分別為0.5,0.3,0.1和0.1,它們也分別是這四類(lèi)的事前概率。Bayes判別分析考慮事前概率時(shí),判別函數(shù)如下:
Y1=C01+C11X1+C21X2+……+Cp1Xp+ln(q(Y1))
Y2=C02+C12X1+C22X2+……+Cp2Xp+ln(q(Y2))
…………
Yg=C0g+C1gX1+C2gX2+……+CpgXp+ln(q(Yg))
差別僅僅在于ln(q(Yj))項(xiàng)Bayes判別分析考慮事前概率可適當(dāng)提高判別的敏感性。事前概率可據(jù)于文獻(xiàn)報(bào)道或以往的大樣本研究。但是困難在于事前概率往往不容易知道。如果訓(xùn)練樣本是從所研究的總體中隨機(jī)抽取的,則可用訓(xùn)練樣本中各類(lèi)的發(fā)生頻率Q(Yj)來(lái)估計(jì)各類(lèi)別的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)來(lái)估計(jì)q(Yj),就只能將事前概率取為相等值,即取q(Yj)=1/g。Bayes判別分析(四)事后概率(posteriorprobability)又稱(chēng)后驗(yàn)概率如果已知某樣品各個(gè)指標(biāo)Xi的觀察值為Si,則在該條件下,樣品屬于Yj類(lèi)別的概率P(Yj/S1,S2,…,SP)稱(chēng)為事后概率。事后概率和指標(biāo)的值有關(guān)引入事后概率后,可用事后概率來(lái)描述某樣品屬于Yj類(lèi)別的概率。這就使得判別的可靠性有一個(gè)數(shù)量的指標(biāo)。Bayes判別分析事后概率示例:A1,A2,A3的事后概率為0.95,0.03和0.02判為A1類(lèi)的可靠性好。A1,A2,A3的事后概率為0.40,0.30和0.30判為A1類(lèi)的可靠性差。如欲判別某樣品屬于哪個(gè)類(lèi)別時(shí),可據(jù)樣品各指標(biāo)的取值S1,S2,……,SP代入判別函數(shù),求得各類(lèi)別之Y值,即Y1,Y2,……,Yg。Bayes判別分析事后概率的計(jì)算公式為:Bayes判別分析Bayes判別分析僅憑哪一個(gè)事后概率為最大,就判為那一類(lèi)別有時(shí)是不夠的。例如某樣品屬于三個(gè)類(lèi)別的事后概率分別為0.95,0.03,0.02,則判為第一類(lèi)的可靠性就較大。但如果三個(gè)事后概率分別為0.4,0.3,0.3。再判為第一類(lèi)的可靠性就較差了。與臨床上診斷相類(lèi)似,當(dāng)對(duì)某病員的診斷把握不大時(shí),常定為可疑或待查等。可以定義一個(gè)事后概率p的臨界值,當(dāng)各類(lèi)別最大的事后概率大于此值時(shí),就作出判別歸類(lèi),否則將被判為other類(lèi),相當(dāng)于可疑或待查Bayes判別分析例16-4某研究者收集到某市12家醫(yī)院的財(cái)務(wù)數(shù)據(jù),已知每家醫(yī)院的財(cái)務(wù)風(fēng)險(xiǎn)分級(jí)分別為優(yōu)、中、差。研究者期望用資產(chǎn)負(fù)債率(%)、流動(dòng)比率(%)、速動(dòng)比率(%)、應(yīng)收醫(yī)療款周轉(zhuǎn)率(%)、醫(yī)療服務(wù)利潤(rùn)率(%)等財(cái)務(wù)指標(biāo)建立判別醫(yī)院財(cái)務(wù)風(fēng)險(xiǎn)分級(jí)的分類(lèi)函數(shù),將來(lái)用以判斷醫(yī)院財(cái)務(wù)風(fēng)險(xiǎn)屬于優(yōu)、中、差(優(yōu)=1,中=2,3=差)中的哪一型。試以此為訓(xùn)練樣本,建立分類(lèi)函數(shù)例16-4醫(yī)院編號(hào)資產(chǎn)負(fù)債率(%)流動(dòng)比率(%)速動(dòng)比率(%)應(yīng)收醫(yī)療款周轉(zhuǎn)率(%)醫(yī)療服務(wù)利潤(rùn)率(%)財(cái)務(wù)風(fēng)險(xiǎn)分級(jí)135.00200.00100.0096.004.101238.00208.00110.0098.004.201340.00198.00102.0095.004.121442.00202.0095.0096.004.001555.00170.0092.0091.003.012656.00175.0099.0092.003.212759.00180.00100.0090.002.942860.00168.0087.0093.003.962968.00100.0076.0088.002.8031069.00110.0077.0086.001.4031170.00115.0075.0087.001.3031271.0098.0074.0089.001.24312家醫(yī)院的財(cái)務(wù)指標(biāo)及財(cái)務(wù)風(fēng)險(xiǎn)分級(jí)指標(biāo)結(jié)果財(cái)務(wù)風(fēng)險(xiǎn)類(lèi)別123資產(chǎn)負(fù)債率3.3328.14011.642流動(dòng)比率12.22010.1146.503速動(dòng)比率-2.410-0.7161.126應(yīng)收醫(yī)療款周轉(zhuǎn)率78.66872.83066.741醫(yī)療服務(wù)利潤(rùn)率-0.780-4.645-19.303(Constant)-4961.531-4401.787-3695.702判別函數(shù)系數(shù)Fisher'slineardiscriminantfunctions結(jié)果Y1=-4961.531+3.332×資產(chǎn)負(fù)債率+12.220×流動(dòng)比率-2.410×速動(dòng)比率+78.668×應(yīng)收醫(yī)療款周轉(zhuǎn)率-0.780×醫(yī)療服務(wù)利潤(rùn)率Y2=-4401.787+8.140×資產(chǎn)負(fù)債率+10.114×流動(dòng)比率-0.716×速動(dòng)比率+72.830×應(yīng)收醫(yī)療款周轉(zhuǎn)率-4.645×醫(yī)療服務(wù)利潤(rùn)率Y3=-3695.702+11.642×資產(chǎn)負(fù)債率+6.503×流動(dòng)比率+1.126×速動(dòng)比率+66.741×應(yīng)收醫(yī)療款周轉(zhuǎn)率-19.303×醫(yī)療服務(wù)利潤(rùn)率判別函數(shù)利用上述判別函數(shù),可以進(jìn)行新收集的醫(yī)院財(cái)務(wù)風(fēng)險(xiǎn)的分級(jí)。如根據(jù)某醫(yī)院的如下財(cái)務(wù)數(shù)據(jù):資產(chǎn)負(fù)債率為45%,流動(dòng)比率為180%,速動(dòng)比率為90%,應(yīng)收醫(yī)療款周轉(zhuǎn)率為94%,醫(yī)療服務(wù)利潤(rùn)率利潤(rùn)率為3.5%,試判斷其財(cái)務(wù)風(fēng)險(xiǎn)屬于哪一級(jí)。將上述觀察值代入判別函數(shù),可得:Y1=-4961.531+3.332×45+12.220×180-2.410×90+78.668×94-0.780×3.5=4563.11同樣可算得:Y2=4550.39,Y3=4306.24。則其中最大者為Y1,故判斷該醫(yī)院財(cái)務(wù)風(fēng)險(xiǎn)為優(yōu)。結(jié)果逐步判別法有時(shí),一些變量對(duì)于判別并沒(méi)有什么作用,為了得到對(duì)判別最合適的變量,可以使用逐步判別。即,一邊判別,一邊選擇判別能力最強(qiáng)的變量這個(gè)過(guò)程可以有進(jìn)有出。一個(gè)變量的判別能力的判斷方法有很多種,主要利用各種檢驗(yàn),例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗(yàn)。其細(xì)節(jié)不再贅述。這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來(lái)實(shí)現(xiàn)。逐步判別的其他方面和前面相同?;仡櫺钥己撕颓罢靶钥己朔诸?lèi)函數(shù)及判別準(zhǔn)則建立后必須進(jìn)行考核??己司褪菍悠分鹨挥盟⒌呐袆e準(zhǔn)則進(jìn)行歸類(lèi),求出其假陽(yáng)性率、假陰性率及總的錯(cuò)誤率??己丝煞譃榛仡櫺钥己伺c前瞻性考核。回顧性考核也稱(chēng)回代或組內(nèi)考核(internalvalidation),即用原來(lái)的訓(xùn)練樣本進(jìn)行考核。前瞻性考核也稱(chēng)組外考核,是對(duì)新的已知其分類(lèi)的樣品(稱(chēng)為考核樣本)進(jìn)行考核。用前瞻性考核可估計(jì)總體中的假陽(yáng)性率、假陰性率和總的錯(cuò)誤率。除了可用前瞻性考核來(lái)估計(jì)總體中的錯(cuò)誤率外,還可用刀切法(jackknife)交叉考核(crossvalidation)其方法如下:設(shè)訓(xùn)練樣本中共有n個(gè)個(gè)體,先擱置第一個(gè)個(gè)體,對(duì)其余n-1個(gè)個(gè)體進(jìn)行判別分析求出判別函數(shù),用該函數(shù)對(duì)第一個(gè)個(gè)體進(jìn)行考核;然后放回第一個(gè)個(gè)體,擱置第二個(gè)個(gè)體,用其余n-1個(gè)個(gè)體求出判別函數(shù)并對(duì)第二個(gè)個(gè)體進(jìn)行考核……每次擱置一個(gè)個(gè)體,用其余的n-1個(gè)個(gè)體作出判別函數(shù)(注意,這些判別函數(shù)可能不相同),對(duì)擱置的個(gè)體進(jìn)行考核,一共進(jìn)行n次,遍歷每一個(gè)個(gè)體;從而求出假陽(yáng)性率、假陰性率和總的錯(cuò)誤率,稱(chēng)為刀切法交叉考核,它們可作為前瞻性考核的輔助信息。刀切法交叉考核訓(xùn)練樣本中必須包含所有要判別的類(lèi)型,分類(lèi)必須清楚,不能有混雜。
要選擇好可能用于判別的預(yù)測(cè)變量。這是最重要的。要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來(lái)驗(yàn)證。判別分析要注意什么?判別分析要注意什么?判別分析是為了正確地分類(lèi),但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果作解釋。
在計(jì)算中需要看關(guān)于各個(gè)類(lèi)的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果(Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗(yàn)的計(jì)算機(jī)輸出),以確定是否分類(lèi)結(jié)果僅由于隨機(jī)因素。對(duì)于多個(gè)判別函數(shù),要弄清各自的重要性。注意訓(xùn)練樣本的正確和錯(cuò)誤分類(lèi)率。研究被誤分類(lèi)的觀測(cè)值,看是否能找出原因。
需要考慮成員的權(quán)數(shù)(priorprobability,即“先驗(yàn)概率”);一般來(lái)說(shuō),加權(quán)要按照各類(lèi)觀測(cè)值的多少,觀測(cè)值少的就要按照比例多加權(quán)。
判別分析要注意什么?判別分析要注意:先驗(yàn)概率先驗(yàn)概率的取法:(1)盡可能地根據(jù)背景所對(duì)應(yīng)的文獻(xiàn)查到較為合理的先驗(yàn)概率;(2)如果抽樣采用橫斷面抽樣或整群抽樣,可取樣本各分類(lèi)的構(gòu)成比作為先驗(yàn)概率;(3)取等先驗(yàn)概率,h=1,2,…,G。SPSS軟件實(shí)現(xiàn)ClassificationResultsb,c財(cái)務(wù)風(fēng)險(xiǎn)類(lèi)別PredictedGroupMembershipTotal123OriginalCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedaCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0a.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.b.100.0%oforiginalgroupedcasescorrectlyclassified.c.100.0%ofcross-validatedgroupedcasescorrectlyclassified.ClassificationResultsb,c財(cái)務(wù)風(fēng)險(xiǎn)類(lèi)別PredictedGroupMembershipTotal123OriginalCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedaCount140042040430044%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0a.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.b.100.0%oforiginalgroupedcasescorrectlyclassified.c.100.0%ofcross-validatedgroupedcasescorrectlyclassified.小結(jié)
聚類(lèi)分析的實(shí)質(zhì)是建立一種分類(lèi)方法,將一批樣本數(shù)據(jù)按照他們?cè)谛再|(zhì)上的密切程度在沒(méi)有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類(lèi)。聚類(lèi)方法主要分為層析聚類(lèi)分析方法和快速聚類(lèi)分析方法,其中層次聚類(lèi)分析方法又有兩種形式:一種是對(duì)樣本進(jìn)行分類(lèi),稱(chēng)為Q型聚類(lèi);一種是對(duì)研究變量進(jìn)行分類(lèi),稱(chēng)為R型聚類(lèi)。小結(jié)
判別分析是指先根據(jù)已知類(lèi)別的事物的性質(zhì),建立函數(shù)式,然后對(duì)未知類(lèi)別的新事物進(jìn)行判斷以將之歸入已知的類(lèi)別中。判別分析的模型按照判別的不同準(zhǔn)則可以分為典型判別分析、貝葉斯判別分析、非參數(shù)判別分析等不同模型。小結(jié)SPSS中“Analyze”/“Classify”菜單專(zhuān)門(mén)用于聚類(lèi)分析和判別分析。其中,“K-MeansCluster”適用于快速聚類(lèi)分析方法,“HierarchicalCluster”適用于層次聚類(lèi)分析方法,“Discriminant”主要用于判別分析。結(jié)構(gòu)方差模型顯變量:可以直接測(cè)量的因素,又稱(chēng)為觀測(cè)變量(observedvariable)潛變量(latentvariable):無(wú)法直接測(cè)量的因素傳統(tǒng)的統(tǒng)計(jì)分析方法,如多元回歸分析、通徑分析等僅限于對(duì)可以直接觀測(cè)的變量的關(guān)系的研究上。因此,當(dāng)欲研究的因果模型中涉及潛變量時(shí),這些方法無(wú)能為力在研究事物問(wèn)的因果關(guān)系時(shí)很有必要引入能夠處理潛在變量之間關(guān)系的統(tǒng)計(jì)分析方法結(jié)構(gòu)方程模型結(jié)構(gòu)方程模型是一種復(fù)雜的因果關(guān)系模型,可以把潛變量和觀測(cè)變量有效地結(jié)合起來(lái),分析觀測(cè)變量與潛變量以及潛變量之間的關(guān)系,可以用來(lái)驗(yàn)證某種理論假設(shè)的結(jié)構(gòu)是否成立。分析過(guò)程模型設(shè)定(modelspecification)模型識(shí)別(modelidentification)模型估計(jì)(modelestimation)模型評(píng)價(jià)(modelevaluation)和模型修正(modelmodification)模型解釋?zhuān)╩odelexplanation)分析過(guò)程模型設(shè)定是指研究者對(duì)假設(shè)變量間關(guān)系的整合設(shè)定研究者通過(guò)對(duì)所研究現(xiàn)象進(jìn)行前期調(diào)查分析和文獻(xiàn)準(zhǔn)備后,根據(jù)研究目的和專(zhuān)業(yè)知識(shí)建立起的觀測(cè)變量與潛變量,以及潛變量與潛變量之間的關(guān)系,構(gòu)建模型的路徑圖依據(jù)路徑圖將模型的因果關(guān)系以方程式的方式加以表達(dá),形成理論假設(shè)模型識(shí)別模型識(shí)別也叫模型確認(rèn),也就是實(shí)際數(shù)據(jù)必須滿足模型估計(jì)的需要,對(duì)于每個(gè)未知參數(shù)皆可以導(dǎo)出一個(gè)唯一的估計(jì)值,若無(wú)法滿足此要求,那么就無(wú)法對(duì)模型進(jìn)行正確的估計(jì)識(shí)別根據(jù)方程的個(gè)數(shù)和模型中待估計(jì)參數(shù)的個(gè)數(shù),結(jié)構(gòu)方程模型可以分為不足識(shí)別的(under-identified)、恰好可識(shí)(just-identified)和過(guò)度識(shí)別的(over-identified)分析過(guò)程模型估計(jì)結(jié)構(gòu)方程模型的參數(shù)估計(jì)過(guò)程不同于傳統(tǒng)的統(tǒng)計(jì)方法。它不是追求盡量縮小樣本中因變量的個(gè)體預(yù)測(cè)值與其觀測(cè)值之間的差異,而是追求盡量縮小樣本的方差協(xié)方差與模型隱含的理論方差協(xié)方差之間的差異,使兩者的“差距”達(dá)到最小。分析過(guò)程模型估計(jì)常用方法:最大似然估計(jì)法廣義最小二乘法加權(quán)最小二乘法對(duì)角加權(quán)最小二乘法分析過(guò)程模型評(píng)價(jià)和修正模型評(píng)價(jià)
在獲得了參數(shù)的估計(jì)值后需要對(duì)模型的擬合效果進(jìn)行評(píng)價(jià)對(duì)模型整體擬合效果的評(píng)價(jià)指標(biāo)主要是擬合指數(shù),大致可分為以下四類(lèi):絕對(duì)擬合指數(shù)相對(duì)擬合指數(shù)信息標(biāo)準(zhǔn)指數(shù)節(jié)儉擬合指數(shù)分析過(guò)程模型評(píng)價(jià)和修正當(dāng)一個(gè)模型擬合不好時(shí),通??梢愿淖兤錅y(cè)量模型增加新的結(jié)構(gòu)參數(shù),或設(shè)定某些誤差項(xiàng)相關(guān),或者限制某些結(jié)構(gòu)參數(shù)對(duì)每一個(gè)固定參數(shù)或約束參數(shù)而言,修正指數(shù)測(cè)量了當(dāng)單個(gè)的固定參數(shù)或約束參數(shù)被釋放為自由參數(shù)時(shí)新擬合的模型所引起的χ2值的減小量在進(jìn)行模型修正時(shí),應(yīng)該有實(shí)際的理論做指導(dǎo),而不能僅憑樣本數(shù)據(jù)提供的信息做出判斷分析過(guò)程模型解釋是對(duì)一個(gè)合理的擬合后模型的統(tǒng)計(jì)結(jié)果進(jìn)行解釋利用模型中的非標(biāo)準(zhǔn)化系數(shù)與標(biāo)準(zhǔn)化系數(shù),來(lái)判斷那一個(gè)參數(shù)的影響較大,哪一個(gè)參數(shù)的影響較小分析過(guò)程LISRELAMOS(AnalysisofMomentStructures)CALIS(CovarianceAnalysisandLinearStructuralEquations)EQS(Equations)LISCOMP(LinearStructuralEquationwithaComprehensiveMeasurementModel)RAMONA(ReticularActionModelorNearApproximation)MplusSAS統(tǒng)計(jì)分析軟件例16-5為了研究醫(yī)院文化內(nèi)部作用機(jī)制,分析醫(yī)院文化中哪些屬性對(duì)醫(yī)院職工滿意度有影響以及影響大小,某研究者在某醫(yī)院進(jìn)行了抽樣調(diào)查,共在該醫(yī)院調(diào)查了700名醫(yī)院職工。該研究者主要采用了DENISON組織文化量表,以及職工滿意度調(diào)查問(wèn)卷作為調(diào)查工作。DENISON組織文化量表共包括60個(gè)條目(條目為5級(jí)李科特量表,條目選項(xiàng)為:1.非常不同意,2.不同意,3.一般,4.同意,5.非常同意)。該量表包括參與性(條目I1-I15)、一致性(條目I16-I30)、適應(yīng)性(條目I31-I45)、方向性(條目I46-I60)四個(gè)維度,反映了醫(yī)院文化的四個(gè)方面。職工滿意度調(diào)查問(wèn)卷包含10個(gè)條目(條目M1-M10),反映了職工對(duì)醫(yī)院職稱(chēng)晉升、績(jī)效考核、人際環(huán)境、工作條件、工作風(fēng)氣等方面的滿意程度例16-5研究者根據(jù)專(zhuān)業(yè)知識(shí)及查閱參考文獻(xiàn),提出了以下理論假設(shè):醫(yī)院文化的四個(gè)維度對(duì)職工滿意度有一定程度的影響SAS軟件實(shí)現(xiàn)擬合結(jié)果“方向性”、“參與性”兩個(gè)潛變量對(duì)“職工滿意度”的影響都有統(tǒng)計(jì)學(xué)意義而醫(yī)院文化中的“一致性”、“適應(yīng)性”兩個(gè)維度與職工滿意度的關(guān)聯(lián)微弱,未發(fā)現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)論多水平模型多水平模型也稱(chēng)為層次線性模型(hierarchicallinearmodel)或混合效應(yīng)模型(mixed-effectsmodel),是處理具有層次結(jié)構(gòu)數(shù)據(jù)的一類(lèi)統(tǒng)計(jì)學(xué)方法。多水平模型(multilevelmodel)醫(yī)療衛(wèi)生領(lǐng)域研究中許多數(shù)據(jù)具有層次(hierarchical)或聚集性(clustered)結(jié)構(gòu),例如:生物遺傳學(xué)研究中,父代和子代形成了自然的層次結(jié)構(gòu),同一父母的子代之間與人群中隨機(jī)抽取的個(gè)體之間相比,在身體和心理上的特征更具相似性(similarity)衛(wèi)生毒理致畸實(shí)驗(yàn)中,常常對(duì)孕鼠染毒,觀察仔鼠的畸形發(fā)生率。由于同一孕鼠遺傳因素、妊娠期長(zhǎng)短和致畸物代謝環(huán)境相似,同窩仔鼠發(fā)生畸形的概率趨于相同醫(yī)療衛(wèi)生領(lǐng)域中的多水平數(shù)據(jù)一些精心設(shè)計(jì)的試驗(yàn)也可看成層次結(jié)構(gòu)數(shù)據(jù),如在隨機(jī)抽取的多個(gè)中心進(jìn)行的針對(duì)患者個(gè)體的臨床試驗(yàn),可歸納為中心和患者2個(gè)層次。社會(huì)學(xué)調(diào)查數(shù)據(jù)中也常具有層次機(jī)構(gòu),如為了解2011年某省農(nóng)村65歲以上老年人居民衛(wèi)生服務(wù)需求和利用現(xiàn)狀及其影響因素,采用多階段分層整群隨機(jī)抽樣方法調(diào)查27個(gè)村的所有65歲以上老年人,共5680人(全省抽取3個(gè)縣,每縣抽取3個(gè)鄉(xiāng)鎮(zhèn),每個(gè)鄉(xiāng)鎮(zhèn)抽取3個(gè)村),這個(gè)數(shù)據(jù)可歸納為縣、鄉(xiāng)、村、個(gè)人共4個(gè)層次。醫(yī)療衛(wèi)生領(lǐng)域中的多水平數(shù)據(jù)這些具有層次結(jié)構(gòu)的數(shù)據(jù)被稱(chēng)為多水平數(shù)據(jù)(multileveldata)。在孕鼠試驗(yàn)數(shù)據(jù)中,子代看作一個(gè)2水平結(jié)構(gòu)中的水平1單位(level1unit),其父代或家庭則為水平2單位(level2unit);而在衛(wèi)生服務(wù)需求調(diào)查中,65歲以上老年人作為水平1單位,27個(gè)村為水平2單位,9個(gè)鄉(xiāng)為水平3單位。多水平數(shù)據(jù)(multileveldata)例16-6某研究欲調(diào)查Ⅱ型糖尿病患者對(duì)社區(qū)醫(yī)療服務(wù)的滿意度。采用兩階段隨機(jī)抽樣,先在某地隨機(jī)抽取69名社區(qū)醫(yī)生,然后在每名社區(qū)醫(yī)生的診所抽取若干Ⅱ型糖尿病患者,共納入1482名患者。每名入選醫(yī)生需填寫(xiě)個(gè)人相關(guān)資料,包括個(gè)人背景、從業(yè)時(shí)間等;每名入選患者除提供基本資料(年齡、性別、病史等)外,需完成一份滿意度調(diào)查問(wèn)卷,問(wèn)卷總分為100分,分?jǐn)?shù)越高,表示患者對(duì)醫(yī)療服務(wù)滿意程度越高忽略數(shù)據(jù)多水平結(jié)構(gòu)的后果1482名糖尿病患者對(duì)社區(qū)醫(yī)療服務(wù)的滿意度調(diào)查結(jié)果例16-6資料不同模型分析結(jié)果比較
結(jié)果三種模型所估計(jì)的社區(qū)患者平均年齡與社區(qū)醫(yī)生服務(wù)滿意程度均呈負(fù)相關(guān)單水平線性模型和兩水平模型結(jié)果提示患者個(gè)人年齡與滿意度呈正相關(guān)因此,忽略個(gè)體水平的變異,通過(guò)群組水平的研究對(duì)個(gè)體水平下結(jié)論,可能導(dǎo)致流行病學(xué)中提及的生態(tài)學(xué)謬誤(ecologicalfallacy)結(jié)果多水平模型是集方差成分模型和多元回歸分析為一體的新分析方法,兩水平方差成分模型是多水平模型中最基本和最簡(jiǎn)單的一種兩水平方差成分模型方差成分模型單因素方差分析的無(wú)效假設(shè)為:是J個(gè)組總體均數(shù)
,,各組均數(shù)與總體均數(shù)之差:則單因素方差分析可用線性模型表示為:其中為第組第i個(gè)個(gè)體測(cè)量值,為殘差項(xiàng)
(16-1)若模型中各組均數(shù)與總體均數(shù)的差值為固定數(shù)值,不存在變異,則有:,方差為,,且,稱(chēng)固定效應(yīng)模型(fixedeffectmodel),對(duì)應(yīng)I型方差分析(typeIANOVA)。方差成分模型實(shí)際研究中,研究者有時(shí)不關(guān)心J組均數(shù)間的差別,而是期望根據(jù)這J組的樣本對(duì)其總體做出統(tǒng)計(jì)推斷。此時(shí)模型仍可用(16-1)表示,但模型中為隨機(jī)變量,所有獨(dú)立同分布,且均數(shù)為0,即,且,,,
,
為組間方差(withingroupvariance),為組內(nèi)方差(betweengroupvariance)
方差成分模型由于組間效應(yīng)為隨機(jī)變量,稱(chēng)隨機(jī)效應(yīng)模型(randomeffectmodel),對(duì)應(yīng)的方差分析為Ⅱ型方差分析(typeⅡANOVA),又稱(chēng)方差成分模型方差成分模型現(xiàn)以例16-6來(lái)說(shuō)明兩水平層次結(jié)構(gòu)數(shù)據(jù)如何擬合兩水平方差成分模型,其基本結(jié)構(gòu)與模型假設(shè)為:
,
,,(16-12)上式中,示水平1單位(患者),,示水平2單位(醫(yī)生)。和分別為第j個(gè)醫(yī)生的第i個(gè)患者的滿意度分值和解釋變量觀測(cè)值(如患者年齡)
為截距,有一個(gè)變化的下標(biāo)j,表示其取值在不同社區(qū)醫(yī)生間變化,而同一社區(qū)醫(yī)生的不同患者間其取值相同;為解釋變量的回歸系數(shù),沒(méi)有可變化的下標(biāo),表示對(duì)于所有社區(qū)醫(yī)生和所有患者,其取值恒定。兩水平方差成分模型為患者水平的隨機(jī)誤差
為隨機(jī)變量,表示第j個(gè)醫(yī)生y平均估計(jì)值與總均數(shù)的離差,因此又稱(chēng)水平2殘差項(xiàng),反映第j個(gè)醫(yī)生對(duì)y的隨機(jī)效應(yīng),又稱(chēng)隨機(jī)效應(yīng),等同于。的方差反映醫(yī)生的服務(wù)基線水平在社區(qū)間的變異,稱(chēng)之為隨機(jī)系數(shù)(randomcoefficient)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【核動(dòng)力】2022屆高三物理一輪復(fù)習(xí)章末綜合檢測(cè)七-第7章-恒定電流-
- 2024年離婚雙方房產(chǎn)分割具體合同書(shū)
- 2025年度服裝品牌授權(quán)經(jīng)銷(xiāo)合同協(xié)議3篇
- 黃岡湖北黃岡市蘄春縣教育系統(tǒng)赴高校招聘2025應(yīng)屆高校畢業(yè)生46人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- 公路工程監(jiān)理規(guī)范-20210715101915
- 安全生產(chǎn)責(zé)任狀
- 微型消防站通訊員職責(zé)
- 17J008擋土墻(重力式、衡重式、懸臂式)圖示圖集
- 貨運(yùn)代理合同法律風(fēng)險(xiǎn)防范考核試卷
- 鐵路車(chē)輛懸掛系統(tǒng)設(shè)計(jì)與性能測(cè)試考核試卷
- 2025年濟(jì)南鐵路局招聘筆試參考題庫(kù)含答案解析
- 2025年心內(nèi)科工作計(jì)劃
- 兒童涂色畫(huà)空白填色圖(100張文本打印版)
- 2024版合同及信息管理方案
- 壓縮空氣(教學(xué)設(shè)計(jì))-2024-2025學(xué)年三年級(jí)上冊(cè)科學(xué)教科版
- JGT266-2011 泡沫混凝土標(biāo)準(zhǔn)規(guī)范
- 大氣課程設(shè)計(jì)---袋式除塵器
- 市政橋梁工程施工
- 長(zhǎng)線法節(jié)段梁預(yù)制施工方案wgm
- ProE5.0全套教程(完整版)
- 鋼筋混凝土框架結(jié)構(gòu)施工工藝(附施工圖)
評(píng)論
0/150
提交評(píng)論