下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
潛在剖面分析與系統(tǒng)聚類法模擬lpa方法的比較
醫(yī)學(xué)和生物學(xué)研究中經(jīng)常存在分類問(wèn)題。根據(jù)一些特征(可測(cè)變量或顯變量),一個(gè)大的異質(zhì)性群體分為幾個(gè)小的異質(zhì)性群體,在類別中相似,在類別之間存在很大的差異。當(dāng)考察的特征為連續(xù)型變量時(shí),常用傳統(tǒng)的聚類分析方法,如系統(tǒng)聚類或動(dòng)態(tài)聚類法(即K-means法)。傳統(tǒng)聚類分析屬于非參數(shù)方法,應(yīng)用時(shí)需定義觀測(cè)間距離和類間距離,而距離的定義有多種,如最長(zhǎng)距離法、最短距離法、類平均法等,不同的距離定義,聚類結(jié)果有所不同,對(duì)應(yīng)用者造成一定困擾。除傳統(tǒng)聚類分析外,近年來(lái)潛在類別聚類法用于解決分類問(wèn)題受到廣泛關(guān)注。與聚類分析出發(fā)點(diǎn)類似,潛在類別聚類法假設(shè)異質(zhì)性群體由多個(gè)總體混合而成,即存在一個(gè)潛在的類別變量可將人群分類。該法基于模型,在概率基礎(chǔ)上對(duì)人群進(jìn)行分類,即個(gè)體以一定的概率歸屬于各個(gè)類別,最終個(gè)體將被分到最高后驗(yàn)概率的那個(gè)類別,因此該法又有聚類最大似然法、基于模型聚類、非監(jiān)督學(xué)習(xí)、貝葉斯聚類或潛在判別分析等多個(gè)名稱。根據(jù)可測(cè)變量的類型,潛在類別聚類法又可分為潛在類別分析(latentclassanalysis,LCA)和潛在剖面分析(latentprofileanalysis,LPA),前者處理分類顯變量,后者則用于連續(xù)顯變量。實(shí)際工作中連續(xù)變量極其常見(jiàn),本文通過(guò)模擬研究對(duì)潛在剖面分析和系統(tǒng)聚類法的聚類效果進(jìn)行比較,為分類問(wèn)題的統(tǒng)計(jì)分析方法選擇提供依據(jù)。1潛在類別預(yù)測(cè)模型假設(shè)P維連續(xù)型顯變量向量Y和K分類潛變量x,j=1,2,…,K,顯變量向量Y的概率密度函數(shù)可表示為:f(Y)=k∑j=1ηjfj(Y│μj,Σj)(1)式(1)中,ηj為潛在類別概率(latentclassprobabilities),表示第j個(gè)類別的觀測(cè)占總觀測(cè)的百分比。對(duì)連續(xù)變量通常假設(shè)在第j類內(nèi),Y來(lái)自獨(dú)立的多元正態(tài)分布,其均值向量為μj,方差協(xié)方差陣為Σj,并假設(shè)方差協(xié)方差陣中協(xié)方差為0,但類間方差可以相等,也可不等。式(1)可稱為潛在剖面模型,ηj、μj和Σj為待估參數(shù)??煽闯瞿P蜐M足兩個(gè)基本假設(shè):(1)潛在類別內(nèi)可測(cè)變量來(lái)自多元正態(tài)分布;(2)在潛變量條件下P個(gè)可測(cè)變量間相互獨(dú)立,即滿足局部獨(dú)立性假設(shè)。模型(1)可通過(guò)最大似然估計(jì)法(maximumlikelihoodestimate,MLE)估計(jì)參數(shù),估計(jì)過(guò)程中采用迭代法,如EM(expectation-maximization)和NR(newton-raphson)算法。軟件中常將兩種算法結(jié)合,既兼顧EM算法的穩(wěn)健性,又兼顧NR算法的快速性。模型評(píng)價(jià)可用AIC(Akaikeinformationcriteria)和BIC(Bayesianinformationcriteria)等指標(biāo),其值越小,意味著模型擬合越好。模型建立后,利用貝葉斯理論,即最大后驗(yàn)概率法,將觀測(cè)歸為后驗(yàn)概率最大的那個(gè)類別,并且基于分類的不確定性,還可用錯(cuò)分誤差或Entropy等指標(biāo)評(píng)價(jià)顯變量對(duì)潛在類別預(yù)測(cè)的優(yōu)劣。后驗(yàn)概率表示為:Ρ(x=k│Y)=ηkfk(Y│μk,Σk)k∑j=1ηjfj(Y│μj,Σj)(2)目前該模型可在Mplus,LatentGold等軟件中實(shí)現(xiàn),實(shí)現(xiàn)過(guò)程中可指定類內(nèi)方差相等或不等兩種情況。2潛在剖面分析和聚類法分類確定本研究主要考慮類別數(shù)、類內(nèi)均數(shù)不同或方差不同(即不同的類間距離),及類間方差相等和不等時(shí)對(duì)潛在剖面分析和系統(tǒng)聚類法分類效果的影響。評(píng)價(jià)指標(biāo)采用錯(cuò)分率(%),定義為錯(cuò)誤分類的觀測(cè)占總觀測(cè)的百分比。錯(cuò)分率越低表明分類效果越好。2.1類內(nèi)可測(cè)變量的總體均數(shù)和方差設(shè)置分別模擬原始類別數(shù)為2類和3類,且潛在類別概率相等(設(shè)類內(nèi)樣本量均為250)的情況。模擬數(shù)據(jù)均包含3個(gè)可測(cè)連續(xù)變量,且類內(nèi)可測(cè)變量來(lái)自獨(dú)立的正態(tài)分布總體,總體均數(shù)和方差設(shè)置見(jiàn)表1。當(dāng)模擬數(shù)據(jù)原始類別為2類時(shí),只采用表1中的類別1和類別2中的參數(shù)。每種類別數(shù)情況下,均模擬6種模型,模型1和4為可測(cè)變量均值不同的兩個(gè)基準(zhǔn)模型,模型4類間均值差距更大。在模型1和4的基礎(chǔ)上,保持均值不變,增大可測(cè)變量的方差,模型2和5設(shè)置為類間方差相等的情況,而模型3和6表示類間方差不等的情況。2.2計(jì)算混合樣本數(shù)據(jù)集(1)根據(jù)表1中模型1-6的參數(shù)分別從正態(tài)分布總體中隨機(jī)抽樣,得到每個(gè)類別的樣本;(2)將各類樣本合并,得到混合的樣本數(shù)據(jù)集;(3)采用系統(tǒng)聚類法和LPA方法對(duì)混合樣本數(shù)據(jù)集進(jìn)行分析,得到各方法分類結(jié)果;(4)與原始分類比較,計(jì)算兩種方法的錯(cuò)分率(%)。(5)改變種子,重復(fù)上述過(guò)程20次,即每種模型模擬20個(gè)數(shù)據(jù)集,分別計(jì)算兩種方法的平均錯(cuò)分率(%)和標(biāo)準(zhǔn)差。2.3統(tǒng)聚類法計(jì)算類間距離數(shù)據(jù)模擬和系統(tǒng)聚類法在SAS軟件中完成,系統(tǒng)聚類法采用類平均法計(jì)算類間距離。潛在剖面分析在Mplus軟件中實(shí)現(xiàn),對(duì)每個(gè)模擬數(shù)據(jù)集,分析時(shí)均指定類間方差相等和不等兩種情況。3類間方差及配比的比較所有模擬數(shù)據(jù)集采用LPA法結(jié)果均顯示潛變量類別數(shù)和原始類別數(shù)相等時(shí)模型擬合最優(yōu)(AIC和BIC最小),預(yù)測(cè)效果最好(Entropy較大)。原始類別為2類時(shí)LPA法和系統(tǒng)聚類法的平均錯(cuò)分率見(jiàn)表2。比較模型1-3和模型4-6,方差相同時(shí),類間均值差距大者(模型4-6),各方法平均錯(cuò)分率均更低。均值相同時(shí),類間方差大者(模型2,3和模型5,6),各方法平均錯(cuò)分率更高。各模型中LPA法平均錯(cuò)分率均明顯低于系統(tǒng)聚類法。當(dāng)類間總體方差相等時(shí)(模型1,2和4,5),分析時(shí)指定類間方差相等(方法1)和不等(方法2)的錯(cuò)分率接近,但類間總體方差不等時(shí)(模型3和6),指定類間方差不等(方法2)的平均錯(cuò)分率較低。表3為原始類別數(shù)為3時(shí)的各法分類結(jié)果。各模型平均錯(cuò)分率均高于表2,但各模型LPA法分類效果仍優(yōu)于系統(tǒng)聚類法,且類間總體方差不等時(shí),分析時(shí)令其自由估計(jì)分類效果更好。4分類結(jié)果模擬本文通過(guò)模擬研究對(duì)潛在剖面分析法和傳統(tǒng)聚類分析中的系統(tǒng)聚類法在處理分類問(wèn)題時(shí)的效果進(jìn)行了比較,結(jié)果表明在本研究參數(shù)設(shè)置條件下,潛在剖面分析法的分類效果均優(yōu)于系統(tǒng)聚類法,是解決分類問(wèn)題的另一有力工具。傳統(tǒng)的聚類分析方法思想樸素,但實(shí)際應(yīng)用中受距離系數(shù)算法選擇的困擾,多數(shù)內(nèi)容未涉及統(tǒng)計(jì)推斷,方法較為粗糙。比較而言,潛在剖面分析是一種基于混合模型的分類方法,將群體分布看作多個(gè)具有相同分布的同質(zhì)總體的混合,利用最大似然法估計(jì)潛在類別概率和類內(nèi)總體分布的參數(shù)??紤]到分類的不確定性,最后將觀測(cè)歸于最大后驗(yàn)概率的那個(gè)類別。MagidsonJ等認(rèn)為L(zhǎng)PA法是傳統(tǒng)聚類分析中K-means法的一種概率擴(kuò)展形式,且可根據(jù)AIC和BIC等信息指標(biāo)或Entropy等分類指標(biāo)選擇最優(yōu)模型,確定相應(yīng)的類別數(shù),進(jìn)而定量化地將觀測(cè)進(jìn)行分類。LPA法屬于參數(shù)方法,分析時(shí)可指定不同類型的方差協(xié)方差陣,其中最簡(jiǎn)單的情況就是假定類間方差協(xié)方差陣相等,此時(shí)模型最為簡(jiǎn)約。本文考慮了類間方差相等和不等兩種情況,模擬結(jié)果顯示當(dāng)數(shù)據(jù)原始類別間方差相等時(shí),兩法分類效果相似,但原始類間方差不等時(shí),指定估計(jì)不同的方差將得到更優(yōu)的分類效果。實(shí)際應(yīng)用中,研究者如無(wú)類間方差陣相等的先驗(yàn)信息,可以選擇自由估計(jì)各類的方差協(xié)方差矩陣。然而也要防止過(guò)度地參數(shù)化,如Steinley等將9種方差協(xié)方差形式的LPA法和K-means法的分類效果做了模擬比較,顯示3種對(duì)角方差協(xié)方差形式的模型分類效果稍優(yōu)于K-means法,而兩種球?qū)ΨQ方差協(xié)方差陣形式的分類效果和K-means法幾乎相同,然而更為一般形式的LPA模型分類效果比其他形式混合模型和K-means法都差。Magidson等也進(jìn)行了潛在剖面分析和K-means法比較的模擬研究,認(rèn)為在聚類數(shù)已知時(shí),LPA法分類效果優(yōu)于傳統(tǒng)聚類方法,本文將LPA法與系統(tǒng)聚類法比較,得到類似的研究結(jié)果。本文中研究的LPA模型假設(shè)在分類潛變量條件下顯變量服從多元正態(tài)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度酒店消防系統(tǒng)設(shè)備更新與優(yōu)化合同3篇
- 2025年度私人承包數(shù)據(jù)中心節(jié)能減排建筑合同范本3篇
- 2025年教育培訓(xùn)機(jī)構(gòu)銷售居間代理協(xié)議3篇
- 2025年度個(gè)人股份質(zhì)押合同標(biāo)準(zhǔn)范本4篇
- 2025年度個(gè)人二手車轉(zhuǎn)讓協(xié)議書(全新升級(jí)版)3篇
- 美容院消防安全責(zé)任及管理協(xié)議書(二零二五年度)4篇
- 濕地湖施工方案
- 畢業(yè)答辯指導(dǎo)模板
- 2025年度個(gè)人裝修借款合同答辯狀編制指南4篇
- 2024年中級(jí)經(jīng)濟(jì)師考試題庫(kù)含答案(能力提升)
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級(jí)上冊(cè) 期末綜合試卷(含答案)
- 收養(yǎng)能力評(píng)分表
- 山東省桓臺(tái)第一中學(xué)2024-2025學(xué)年高一上學(xué)期期中考試物理試卷(拓展部)(無(wú)答案)
- 中華人民共和國(guó)保守國(guó)家秘密法實(shí)施條例培訓(xùn)課件
- 管道坡口技術(shù)培訓(xùn)
- 2024年全國(guó)統(tǒng)一高考英語(yǔ)試卷(新課標(biāo)Ⅰ卷)含答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí) CCAA年度確認(rèn) 試題與答案
- 皮膚儲(chǔ)存新技術(shù)及臨床應(yīng)用
- 外研版七年級(jí)英語(yǔ)上冊(cè)《閱讀理解》專項(xiàng)練習(xí)題(含答案)
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)必考題
- 上海市復(fù)旦大學(xué)附中2024屆高考沖刺模擬數(shù)學(xué)試題含解析
評(píng)論
0/150
提交評(píng)論