




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)學(xué)建模與數(shù)學(xué)實(shí)驗(yàn)后勤工程學(xué)院數(shù)學(xué)教研室第16講主成分分析實(shí)驗(yàn)?zāi)康膶?shí)驗(yàn)內(nèi)容2.掌握用數(shù)學(xué)軟件求解主成分分析問(wèn)題。1.了解主成分分析的基本內(nèi)容。1.主成分分析問(wèn)題引例及基本理論。2.用數(shù)學(xué)軟件求解主成分分析問(wèn)題。3.應(yīng)用實(shí)例一、主成分分析概念
主成分分析就是設(shè)法將原來(lái)眾多具有一定相關(guān)性的指標(biāo),重新組合成幾個(gè)新的相互無(wú)關(guān)的綜合指標(biāo),并且盡可能多地反映原來(lái)指標(biāo)的信息。它是數(shù)學(xué)上的一種降維方法。例如,在商業(yè)經(jīng)濟(jì)中,可以把復(fù)雜的數(shù)據(jù)綜合成幾個(gè)商業(yè)指數(shù),如物價(jià)指數(shù),消費(fèi)指數(shù)等。
數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo),但是這種線性組合,如果不加限制,則可以有很多,我們應(yīng)該如何去選取呢?為了讓這種綜合指標(biāo)反映足夠多原來(lái)的信息,要求綜合指標(biāo)的方差要大,即若Var(F1)越大,表示F1包含的信息越多,因此在所有線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息。再考慮選取第二個(gè)線性組合F2
,稱F2為第二主成分,為了有效地反映原來(lái)的信息,F(xiàn)1中已有的信息就不需要出現(xiàn)在F2中,數(shù)學(xué)表達(dá)就是要求Cov(F1,
F2)=0。依次類推可以構(gòu)造出第三,第四,……,第p個(gè)主成分。這些主成分之間不僅不相關(guān),而且它們的方差是依次遞減的。在實(shí)際工作中,通常挑選前幾個(gè)最大主成分,雖然可能會(huì)失去一小部分信息,但抓住了主要矛盾。
二、主成分分析法定理顯然,貢獻(xiàn)率越大,表明該成分綜合的信息越多。
貢獻(xiàn)率主成分分析計(jì)算步驟三、案例數(shù)據(jù)來(lái)源:《中國(guó)統(tǒng)計(jì)年鑒》(1997-2006)
主成分分析過(guò)程(1)錄入原始數(shù)據(jù)
x=[-0.7608-0.6421-0.5406-1.2510-1.1981-1.1417-1.3815-0.5071-0.8451-0.7553-0.7886-1.1346-1.0196-1.2123-1.1304-0.5096-0.7479-0.63980.2219-0.8632-0.7682-0.7998-0.77660.4160-0.7352-0.8850-0.5092-0.5594-0.7586-0.6164-0.54151.3918-0.6667-0.64430.1044-0.3407-0.6214-0.4043-0.24721.1301-0.4746-0.4592-0.91820.17140.03490.3036-0.1172-1.70540.19510.2756-0.52920.33260.70170.17480.5043-0.89400.93470.5575-0.55140.75200.98780.74951.1870-0.58511.21910.99841.45911.24171.23301.37711.09910.27981.88142.19432.05191.65111.40841.56941.40390.9836]x=zscore(X);%數(shù)據(jù)標(biāo)準(zhǔn)化(2)數(shù)據(jù)標(biāo)準(zhǔn)化每一列進(jìn)行標(biāo)準(zhǔn)化:每一列減去均值后除以標(biāo)準(zhǔn)差V是一列,則Z=(V-mean(V))./std(V)計(jì)算出各指標(biāo)之間的相關(guān)系數(shù)矩陣
std=[1.00000.98040.74140.94460.94620.93730.93280.11200.98041.00000.79020.91360.90580.90130.87880.12580.74140.79021.00000.67560.59370.67910.59850.55170.94460.91360.67561.00000.97710.99460.97680.07020.94620.90580.59370.97711.00000.96880.9804-0.05390.93730.90130.67910.99460.96881.00000.96240.04060.93280.87880.59850.97680.98040.96241.00000.07370.11200.12580.55170.0702-0.05390.04060.07371.0000]
std=CORRCOEF(X)%計(jì)算相關(guān)系數(shù)矩陣
(3)計(jì)算相關(guān)系數(shù)矩陣(3)求出標(biāo)準(zhǔn)化相關(guān)系數(shù)矩陣的特征根和特征向量[vec,val]=eig(std)
vec=0.2856-0.08100.70550.0976-0.4783-0.1476-0.02100.3919-0.29010.1049-0.53550.2760-0.4894-0.39250.02210.38440.09180.11910.0499-0.34870.4449-0.57750.47780.30590.6940-0.0721-0.32910.35510.27710.2002-0.08910.3923-0.1529-0.6837-0.1472-0.5231-0.02390.1591-0.19880.3854-0.5589-0.02060.28510.45640.46560.1347-0.10430.3896-0.05100.6871-0.0237-0.4158-0.07990.4303-0.11380.3839-0.0767-0.1521-0.03430.1082-0.18220.47110.83630.0591val=0.0005000000000.0047000000000.0122000000000.0231000000000.0998000000000.2743000000001.3060000000006.2794將特征值構(gòu)成一個(gè)新向量newval=diag(val);newval=0.00050.00470.01220.02310.09980.27431.30606.2794[y,ii]=sort(newval)(將特征向量的特征值排序)
y=0.00050.00470.01220.02310.09980.27431.30606.2794
ii=12345678
rate=y/sum(y);newrate=newy/sum(newy)rate=0.00010.00060.00150.00290.01250.03430.16320.7849最后兩個(gè)指標(biāo)累計(jì)貢獻(xiàn)率為94.7%,是主要成分,說(shuō)明最后兩個(gè)主成分已包含了全部測(cè)量指標(biāo)所具有的信息,這樣既減少了變量的個(gè)數(shù)又便于對(duì)實(shí)際問(wèn)題的分析和研究,因此只采用最后兩個(gè)主成分來(lái)分析。
(4)計(jì)算特征值的貢獻(xiàn)率及累計(jì)貢獻(xiàn)率累計(jì)貢獻(xiàn)率中用到的特征值中,最大的特征值開(kāi)平方與該特征值對(duì)應(yīng)的特征向量之積作為第一主成分的系數(shù),第二大的特征值開(kāi)平方與該特征值對(duì)應(yīng)的特征向量之積作為第二主成分的系數(shù),其余的以此類推,得到主成分載荷矩陣。
(5)計(jì)算主成分載荷(系數(shù))
aa=[0.98200.96320.76660.98310.96570.97630.96200.1481-0.02410.02530.5461-0.1018-0.2272-0.1192-0.13000.9558]在本例中:第一主成分系數(shù):第二主成分系數(shù):(6)對(duì)主成分載荷歸一化Matlab程序(zcffx)程序(續(xù)):fprintf('主成分?jǐn)?shù):%g\n\n',length(newi));fori=1:1:length(newi)%計(jì)算載荷aaforj=1:1:length(y)
aa(i,j)=sqrt(newval(newi(i)))*vec(j,newi(i));endendaaa=aa.*aa;%主成分載荷歸一化zcfhzfori=1:1:length(newi)forj=1:1:length(y)
zcfhz(i,j)=aa(i,j)/sqrt(sum(aaa(i,:)));endendfprintf('主成分載荷:\n'),zcfhz%輸出主成分載荷zcfhz計(jì)算結(jié)果:主成分?jǐn)?shù):2計(jì)算主成分載荷:aa=0.98200.96320.76660.98310.96570.97630.96200.1481-0.02410.02530.5461-0.1018-0.2272-0.1192-0.13000.9558主成分載荷(單位化后):a=0.39190.38440.30590.39230.38540.38960.38390.0591-0.02100.02210.4778-0.0891-0.1988-0.1043-0.11380.8363結(jié)果分析:1.在第一主成分的表達(dá)式中,我們可以看出第一項(xiàng)、二項(xiàng)、四項(xiàng)、五項(xiàng)、六項(xiàng)、七項(xiàng)的系數(shù)比較大,這6項(xiàng)指標(biāo)對(duì)城鎮(zhèn)居民消費(fèi)水平的影響較大。其中食品消費(fèi)和醫(yī)療保健消費(fèi)系數(shù)比另外幾項(xiàng)都大,說(shuō)明居民現(xiàn)在很注重吃和健康兩方面。
2.在第二主成分表達(dá)式中,只有第八項(xiàng)的系數(shù)比較的系數(shù)比較大,遠(yuǎn)遠(yuǎn)超過(guò)其他指標(biāo)的系數(shù),因此可以單獨(dú)看作是雜項(xiàng)商品和服務(wù)的影響,說(shuō)明人們的生活用品等雜項(xiàng)商品及服務(wù)在消費(fèi)水平中也占據(jù)了很大的比例。
建模案例:葡萄酒評(píng)價(jià)模型1.問(wèn)題的重述
葡萄酒的品質(zhì)由品酒員確定,每位品酒員品嘗后對(duì)葡萄酒的分類指標(biāo)打分,求和得到總分即可確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。根據(jù)附件中給出的某一年份一些葡萄酒的評(píng)價(jià)結(jié)果與該年份這些葡萄酒的和釀酒葡萄的成分?jǐn)?shù)據(jù),建立數(shù)學(xué)模型討論下列問(wèn)題。(1)分析附件1中兩組評(píng)酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,哪一組結(jié)果更可信?(2)根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對(duì)這些釀酒葡萄進(jìn)行分級(jí)。
2.問(wèn)題一求解:分析附件1中兩組評(píng)酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,哪一組結(jié)果更可信?經(jīng)檢驗(yàn)兩組品酒員所打分?jǐn)?shù)均服從正態(tài)分布,因此在正態(tài)總體下可以對(duì)均值和方差進(jìn)行假設(shè)檢驗(yàn)。我們從三個(gè)方面入手,作假設(shè)檢驗(yàn)。計(jì)算步驟為:
(1)兩組評(píng)酒員評(píng)價(jià)結(jié)果的差異性檢驗(yàn);(2)兩組評(píng)酒員評(píng)價(jià)結(jié)果可信度評(píng)估
。
2.1兩組評(píng)酒員評(píng)價(jià)結(jié)果的差異性檢驗(yàn)附件12)評(píng)酒員評(píng)分的正態(tài)分布檢驗(yàn)分析兩組評(píng)分的均值數(shù)據(jù)是否服從正態(tài)分布,需要繪制數(shù)據(jù)的正態(tài)概率圖。如果正態(tài)概率圖中期望累計(jì)概率和觀測(cè)累計(jì)概率分布或近似分布在斜率為1的直線上,則該數(shù)據(jù)服從或近似服從正態(tài)分布。
根據(jù)附件表1的平均分?jǐn)?shù)據(jù),利用Matlab命令:h=normplot(x)直接得到葡萄酒平均分x的正態(tài)概率圖。
h=normplot(x)
圖9-21兩組評(píng)酒員對(duì)紅葡萄酒評(píng)分的正態(tài)概率圖圖9-22兩組評(píng)酒員對(duì)白葡萄酒評(píng)分的正態(tài)概率圖結(jié)論:由圖分析可知,兩組數(shù)據(jù)都可以近似看成正態(tài)分布,從而可以進(jìn)行參數(shù)的顯著性檢驗(yàn)。
3)評(píng)酒員評(píng)分的顯著差異檢驗(yàn)對(duì)假設(shè)檢驗(yàn)(2),同理進(jìn)行F檢驗(yàn):2.2兩組評(píng)酒員評(píng)價(jià)結(jié)果可信度評(píng)估圖9-24
白葡萄酒兩組評(píng)價(jià)結(jié)果的變異系數(shù)比較圖根據(jù)Excel表(附件3)可得,兩組評(píng)酒員評(píng)分的變異系數(shù)比較:圖9-23
紅葡萄酒兩組評(píng)價(jià)結(jié)果的變異系數(shù)比較圖評(píng)價(jià)結(jié)果
通過(guò)上面葡萄酒的兩組評(píng)價(jià)結(jié)果變異系數(shù)比較圖可以直觀的發(fā)現(xiàn):兩組葡萄酒評(píng)分的變異系數(shù)明顯不一樣。
3.問(wèn)題二求解:根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒
的質(zhì)量對(duì)釀酒葡萄進(jìn)行分級(jí)問(wèn)題二的關(guān)鍵是確定評(píng)價(jià)指標(biāo),建立綜合評(píng)價(jià)模型。計(jì)算步驟為:
(1)
根據(jù)資料篩選附表中的數(shù)據(jù),確定對(duì)釀酒葡萄影響較大的理化指標(biāo),由于第二組的評(píng)價(jià)結(jié)果更可信,選取第二組的評(píng)價(jià)結(jié)果作為葡萄酒的質(zhì)量。
(2)
將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,采用主成分分析法,找出主成分,以簡(jiǎn)化評(píng)價(jià)指標(biāo)。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 嘉定工地吊車租賃合同范例
- 雙層罐合同范例
- 商場(chǎng)禮品采購(gòu)合同范本
- 商業(yè)店鋪拆裝合同范本
- 啤酒提成合同范本
- 出售轉(zhuǎn)讓合同范本
- 廚房轉(zhuǎn)讓合同范本
- 團(tuán)建活動(dòng)場(chǎng)地合同范例
- 國(guó)企貨采購(gòu)合同范本
- 土地到期歸還合同范本
- 《國(guó)家綜合性消防救援隊(duì)伍處分條令(試行)》知識(shí)考試題庫(kù)(含答案)
- 電動(dòng)平車使用說(shuō)明書(shū)
- 人口學(xué)概論完
- 火場(chǎng)排煙課件
- 人行道開(kāi)挖施工方案簡(jiǎn)單版
- 氯氣的性質(zhì) 說(shuō)課課件 2023-2024學(xué)年高一上學(xué)期化學(xué)人教版(2019)必修第一冊(cè)
- 2020年上海市三月專科層次自主招生素質(zhì)技能考試原題+答案
- 旅游政策與法規(guī)教案
- 《中國(guó)建設(shè)銀行“裕農(nóng)快貸-專享版”借款合同》
- 實(shí)現(xiàn)偉大復(fù)興的中國(guó)夢(mèng)說(shuō)課稿
- 應(yīng)付賬款主題分析小結(jié)
評(píng)論
0/150
提交評(píng)論