醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件-主成分分析與因子分析(第20章)_第1頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件-主成分分析與因子分析(第20章)_第2頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件-主成分分析與因子分析(第20章)_第3頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件-主成分分析與因子分析(第20章)_第4頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件-主成分分析與因子分析(第20章)_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析與因子分析PrincipalComponentsAnalysis&FactorAnalysis2020/12/191醫(yī)學(xué)統(tǒng)計(jì)學(xué)講課內(nèi)容:第一節(jié)主成分分析第二節(jié)因子分析2020/12/192醫(yī)學(xué)統(tǒng)計(jì)學(xué)第一節(jié)主成分分析PrincipalComponentsAnalysis2020/12/193醫(yī)學(xué)統(tǒng)計(jì)學(xué)一、基本思想數(shù)據(jù)的降維、數(shù)據(jù)的解釋將原來(lái)眾多具有一定相關(guān)性的指標(biāo),組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)。

從中選取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來(lái)眾多指標(biāo)的信息。這種既減少了指標(biāo)的數(shù)目又抓住了主要矛盾的做法有利于問(wèn)題的分析和處理。2020/12/194醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/195醫(yī)學(xué)統(tǒng)計(jì)學(xué)

如何利用這些指標(biāo)對(duì)每一兒童的生長(zhǎng)發(fā)育作出正確評(píng)價(jià)??jī)H用單一指標(biāo):結(jié)論片面;沒(méi)有充分利用原有數(shù)據(jù)信息。利用所有指標(biāo):各指標(biāo)評(píng)價(jià)的結(jié)論可能不一致,使綜合評(píng)價(jià)困難;工作量大。2020/12/196醫(yī)學(xué)統(tǒng)計(jì)學(xué)找出幾個(gè)綜合指標(biāo)(長(zhǎng)度、圍度、特體),這些綜合指標(biāo)是原始指標(biāo)的線性組合,既保留了原始指標(biāo)的信息,且互不相關(guān)。各綜合指標(biāo)提供的“信息”量大小用其方差來(lái)衡量。衡量一個(gè)指標(biāo)的好壞除了正確性與精確性外,還必須能充分反映個(gè)體間的變異,一項(xiàng)指標(biāo)在個(gè)體間的變異越大,提供的信息量越多。2020/12/197醫(yī)學(xué)統(tǒng)計(jì)學(xué)二、數(shù)學(xué)模型及幾何意義2020/12/198醫(yī)學(xué)統(tǒng)計(jì)學(xué)Z=AX2020/12/199醫(yī)學(xué)統(tǒng)計(jì)學(xué)第一主成分在所有Zi中最大2020/12/1910醫(yī)學(xué)統(tǒng)計(jì)學(xué)第二主成分……理論上主成分個(gè)數(shù)最多為m個(gè)(指標(biāo)個(gè)數(shù))實(shí)際工作中確定的主成分個(gè)數(shù)總是小于m個(gè)在所有Zi中為第2大。無(wú)關(guān),互相垂直:2020/12/1911醫(yī)學(xué)統(tǒng)計(jì)學(xué)X1X2112-2-2-1-120相關(guān)變異2020/12/1912醫(yī)學(xué)統(tǒng)計(jì)學(xué)X1X2Z1Z2112-2-2-2-211-1-1-1-122202020/12/1913醫(yī)學(xué)統(tǒng)計(jì)學(xué)Z1Z2-2-211-1-1220相關(guān)變異2020/12/1914醫(yī)學(xué)統(tǒng)計(jì)學(xué)三、主成分的求法及性質(zhì)2020/12/1915醫(yī)學(xué)統(tǒng)計(jì)學(xué)(一)主成分的求法

1.對(duì)各原始指標(biāo)值進(jìn)行標(biāo)準(zhǔn)化為了方便,仍用Xij表示Xij’。2020/12/1916醫(yī)學(xué)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣X=2020/12/1917醫(yī)學(xué)統(tǒng)計(jì)學(xué)2.

求出X1,X2,…,Xm

的相關(guān)矩陣RR=Cov(X)

=2020/12/1918醫(yī)學(xué)統(tǒng)計(jì)學(xué)Pearson相關(guān)系數(shù)標(biāo)準(zhǔn)化后的協(xié)方差協(xié)方差2020/12/1919醫(yī)學(xué)統(tǒng)計(jì)學(xué)3.

求出矩陣R的全部特征值(eigenvalue)i,

第i個(gè)主成分的組合系數(shù)ai1,ai2,,aim滿足方程組:(r11-i)ai1+r12ai2++r1maim=0r21ai1+(r22-i)ai2++r2maim=0

rm1ai1+rm2ai2++(rmm-i)aim=0

2020/12/1920醫(yī)學(xué)統(tǒng)計(jì)學(xué)(r11-i)ai1+r12ai2++r1maim=0r21ai1+(r22-i)ai2++r2maim=0

rm1ai1+rm2ai2++(rmm-i)aim=0i為矩陣R的第i個(gè)特征值,共有m個(gè)非負(fù)特征值,由大到小的順序排列為:1≥2≥≥m≥0i=Var(Zi)2020/12/1921醫(yī)學(xué)統(tǒng)計(jì)學(xué)4.由以上方程組,求出相應(yīng)于特征值i的特征向量(eigenvector)(ai1,ai2,,aim)’2020/12/1922醫(yī)學(xué)統(tǒng)計(jì)學(xué)(二)主成分的性質(zhì)

1.各主成分互不相關(guān)

2020/12/1923醫(yī)學(xué)統(tǒng)計(jì)學(xué)2.主成分的貢獻(xiàn)率與累積貢獻(xiàn)率

(原始指標(biāo)值標(biāo)準(zhǔn)化)(指標(biāo)個(gè)數(shù))貢獻(xiàn)率累積貢獻(xiàn)率2020/12/1924醫(yī)學(xué)統(tǒng)計(jì)學(xué)3.主成分個(gè)數(shù)的選?。?)前k個(gè)主成分的累積貢獻(xiàn)率>70%。(2)主成分Zi的特征值i≥

1。4.因子載荷(第i主成分Zi與第j原始指標(biāo)Xi間相關(guān)系數(shù))2020/12/1925醫(yī)學(xué)統(tǒng)計(jì)學(xué)5.樣品的主成分得分2020/12/1926醫(yī)學(xué)統(tǒng)計(jì)學(xué)四、實(shí)例2020/12/1927醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1928醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1929醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1930醫(yī)學(xué)統(tǒng)計(jì)學(xué)1.主成分個(gè)數(shù)的選取

3很接近于1;

3

與2的貢獻(xiàn)率相差不大,為25%左右,若舍去3不合理。取前三個(gè)主成分。2020/12/1931醫(yī)學(xué)統(tǒng)計(jì)學(xué)2.列出主成分表達(dá)式Z1為急性炎癥成分(X1轉(zhuǎn)氨酶、X2肝大指數(shù))Z2為慢性炎癥成分(X3硫酸鋅濁度)Z3為癌變成分(X4甲胎球蛋白)2020/12/1932醫(yī)學(xué)統(tǒng)計(jì)學(xué)3.求出因子載荷陣2020/12/1933醫(yī)學(xué)統(tǒng)計(jì)學(xué)4.主成分得分2020/12/1934醫(yī)學(xué)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)化指標(biāo)主成分還原為原始指標(biāo)主成分2020/12/1935醫(yī)學(xué)統(tǒng)計(jì)學(xué)

將該肝病患者的四項(xiàng)肝功能指標(biāo)代入原始指標(biāo)主成分表達(dá)式:

Z1=2.50865Z2=-1.06626Z3=-1.22943

該肝病患者可能為急性炎癥。2020/12/1936醫(yī)學(xué)統(tǒng)計(jì)學(xué)五、主成分分析的應(yīng)用

1.對(duì)原始指標(biāo)進(jìn)行綜合以互不相關(guān)的較少個(gè)綜合指標(biāo)反應(yīng)眾多原始指標(biāo)提供的信息。

主成分回歸(解決多元共線問(wèn)題)。

2.進(jìn)行綜合評(píng)價(jià)

2020/12/1937醫(yī)學(xué)統(tǒng)計(jì)學(xué)3.進(jìn)行探索性分析利用因子載荷陣,找出影響各綜合指標(biāo)的主要原始指標(biāo)。

4.對(duì)樣品進(jìn)行分類(lèi)利用主成分得分對(duì)樣品進(jìn)行分類(lèi):

Z1為急性炎癥成分

Z2為慢性炎癥成分

Z3為癌變成分2020/12/1938醫(yī)學(xué)統(tǒng)計(jì)學(xué)第二節(jié)因子分析FactorAnalysis2020/12/1939醫(yī)學(xué)統(tǒng)計(jì)學(xué)一、因子分析基本思想從分析多個(gè)可觀測(cè)的原始指標(biāo)的相關(guān)關(guān)系入手,找到支配這種相關(guān)關(guān)系的有限個(gè)不可觀測(cè)的潛在變量。是多元分析中處理降維的一種統(tǒng)計(jì)方法。如:腦部疾病患者的意識(shí)清醒狀態(tài)可由語(yǔ)言能力、辯識(shí)能力、記憶能力、理解能力與思維邏輯能力等可觀測(cè)的指標(biāo)反映。2020/12/1940醫(yī)學(xué)統(tǒng)計(jì)學(xué)二、因子分析數(shù)學(xué)模型

X1:收縮壓X2:舒張壓X3:心跳間隔X4:呼吸間隔X5:舌下溫度F1:交感神經(jīng)F2:副交感神經(jīng)commonfactor2020/12/1941醫(yī)學(xué)統(tǒng)計(jì)學(xué)specificfactorcommonfactor2020/12/1942醫(yī)學(xué)統(tǒng)計(jì)學(xué)Xi:觀測(cè)指標(biāo)(標(biāo)準(zhǔn)化數(shù)據(jù))Fi:公因子ei:特殊因子aij:因子載荷(計(jì)算關(guān)鍵項(xiàng))2020/12/1943醫(yī)學(xué)統(tǒng)計(jì)學(xué)X=AF+e2020/12/1944醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1945醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1946醫(yī)學(xué)統(tǒng)計(jì)學(xué)三、因子模型的性質(zhì)

矩陣A的統(tǒng)計(jì)意義1.公共度(共性方差)2020/12/1947醫(yī)學(xué)統(tǒng)計(jì)學(xué)因子的共性方差2020/12/1948醫(yī)學(xué)統(tǒng)計(jì)學(xué)2.因子貢獻(xiàn)與因子貢獻(xiàn)率矩陣A第j列元素反映了第j個(gè)公因子Fj對(duì)所有原始指標(biāo)的影響;數(shù)據(jù)標(biāo)準(zhǔn)化后全部原始指標(biāo)的總方差為指標(biāo)個(gè)數(shù)m。Fj對(duì)原始指標(biāo)的方差貢獻(xiàn)率2020/12/1949醫(yī)學(xué)統(tǒng)計(jì)學(xué)各因子的貢獻(xiàn)2020/12/1950醫(yī)學(xué)統(tǒng)計(jì)學(xué)3.因子載荷及因子載荷陣A2020/12/1951醫(yī)學(xué)統(tǒng)計(jì)學(xué)四、因子載荷陣的求解及計(jì)算步驟

1.

收集原始數(shù)據(jù)并整理為下表2020/12/1952醫(yī)學(xué)統(tǒng)計(jì)學(xué)2.對(duì)各指標(biāo)進(jìn)行標(biāo)準(zhǔn)化3.求指標(biāo)間的相關(guān)系數(shù)矩陣RX4.求指標(biāo)間的約相關(guān)系數(shù)矩陣R*

(1)R*的非對(duì)角線元素與相關(guān)矩陣RX的非對(duì)角線元素相等

(2)R*的對(duì)角線元素為共性方差2020/12/1953醫(yī)學(xué)統(tǒng)計(jì)學(xué)5.求出約關(guān)系數(shù)矩陣R*所有大于零的特征值及相應(yīng)的特征向量6.寫(xiě)出因子載荷陣A,得出原始指標(biāo)X的公因子表達(dá)式2020/12/1954醫(yī)學(xué)統(tǒng)計(jì)學(xué)要求:1.

保留公因子個(gè)數(shù)q小于指標(biāo)個(gè)數(shù)m,原則:

j≥1

前k個(gè)公因子累積貢獻(xiàn)率≥70%2.

各共性方差接近于1。3.

各原始指標(biāo)在同一公因子Fj上的因子載荷之間的差別應(yīng)盡可能大。2020/12/1955醫(yī)學(xué)統(tǒng)計(jì)學(xué)五、實(shí)例2020/12/1956醫(yī)學(xué)統(tǒng)計(jì)學(xué)1.主成分解2020/12/1957醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1958醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1959醫(yī)學(xué)統(tǒng)計(jì)學(xué)主成分解:除因子1可初步認(rèn)定為綜合因子外,其余3個(gè)因子的專(zhuān)業(yè)意義不明顯。2.主因子解:除因子1可初步認(rèn)定為綜合因子外,其余3個(gè)因子的專(zhuān)業(yè)意義不明顯。2020/12/1960醫(yī)學(xué)統(tǒng)計(jì)學(xué)六、因子旋轉(zhuǎn)當(dāng)各公因子的專(zhuān)業(yè)意義難以解釋時(shí),可以通過(guò)因子旋轉(zhuǎn)來(lái)解決。如求得的因子載荷陣A不甚理想,可右乘一個(gè)正交陣T,使AT有更好的實(shí)際意義,

使各原始指標(biāo)在同一公因子上之間差別盡可能增大。稱(chēng)因子正交旋轉(zhuǎn)。正交旋轉(zhuǎn)可保持各指標(biāo)的共性方差不變;各公因子互不相關(guān)。常用方差最大旋轉(zhuǎn)法等。2020/12/1961醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1962醫(yī)學(xué)統(tǒng)計(jì)學(xué)2020/12/1963醫(yī)學(xué)統(tǒng)計(jì)學(xué)七、幾點(diǎn)注意

1.因子分析的解不唯一(1)同一問(wèn)題可以有不同的因子分析解:主成分解、主因子解、極大似然解(2)進(jìn)行因子旋轉(zhuǎn)以獲得更為滿意的解。2.因子得分不能直接進(jìn)行計(jì)算,但可以估計(jì)。2020/12/1964醫(yī)學(xué)統(tǒng)計(jì)學(xué)3.主成分分析與因子分析間的關(guān)系(1)兩者的分析重點(diǎn)不一致

Z=AX主成分為原始變量線性組合,重點(diǎn)在綜合原始變量信息。

X=AF+e原始變量為公因子與特殊因子線性組合,公因子重點(diǎn)反映支配原始變量的不可觀測(cè)的潛在因素。重

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論