版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
的多元統(tǒng)計分析演示文稿當前1頁,總共35頁。(優(yōu)選)第五講的多元統(tǒng)計分析當前2頁,總共35頁。SAS多元統(tǒng)計分析概論現(xiàn)實中的統(tǒng)計對象經(jīng)常用多個指標來表示,比如人口普查,就可以有姓名、性別、出生年月日、籍貫、婚姻狀況、民族、政治面貌、地區(qū)等,企業(yè)調(diào)查,可以有凈資產(chǎn)、負債、盈利、職工人數(shù)、還貸情況等等。多個指標(變量)可以分別進行分析,但是,我們往往希望綜合使用這些指標,這時,有主分量分析、因子分析等方法可以把數(shù)據(jù)的維數(shù)降低,同時又盡量不損失數(shù)據(jù)中的信息。當前3頁,總共35頁。SAS多元統(tǒng)計分析概論I.主分量分析一、理論介紹主分量分析的目的是從原始的多個變量取若干線性組合,能盡可能多地保留原始變量中的信息。從原始變量到新變量是一個正交變換(坐標變換)。設有是一個
維隨機變量,有二階矩,記,??紤]它的線性變換當前4頁,總共35頁。當前5頁,總共35頁。當前6頁,總共35頁。當前7頁,總共35頁。當前8頁,總共35頁。SAS的PRINTCOMP過程有如下功能:完成主分量分析。主分量的個數(shù)可以由用戶自己確定,主分量的名字可以用戶自己規(guī)定,主分量得分是否標準化可自己規(guī)定。輸入數(shù)據(jù)集可以是原始數(shù)據(jù)集、相關陣、協(xié)方差陣或叉積陣。輸入為原始數(shù)據(jù)時,用戶還可以規(guī)定從協(xié)方差陣出發(fā)還是從相關陣出發(fā)進行分析。由協(xié)方差陣出發(fā)時方差大的變量在分析中起到更大的作用。計算結(jié)果有:簡單統(tǒng)計量,相關陣或協(xié)方差陣,從大到小排序的特征值和相應特征向量,每個主分量解釋的方差比例,累計比例等??缮蓛蓚€輸出數(shù)據(jù)集:一個包含原始數(shù)據(jù)及主分量得分,另一個包含有關統(tǒng)計量,類型為TYPE=CORR或COV??山沂咀兞块g的共線關系。若某特征值特別接近0說明變量線性相關,這時用這些變量作回歸自變量可能得到錯誤的結(jié)果。當前9頁,總共35頁。PRINCOMP主要使用PROCPRINCOMP語句與VAR語句。PROCPRINCOMP語句用來規(guī)定輸入輸出和一些運行選項,包括:DATA=輸入數(shù)據(jù)集,可以是原始數(shù)據(jù)集,也可以是TYPE=CORR,COV的數(shù)據(jù)集OUT=輸出包含原始數(shù)據(jù)和主分量得分的數(shù)據(jù)集OUTSTAT=統(tǒng)計量輸出數(shù)據(jù)集COV要求從協(xié)方差陣出發(fā)計算主分量。缺省為從相關陣出發(fā)計算。N=要計算的主分量個數(shù)。缺省時全算。NOINT要求在模型中不使用截距項。這時統(tǒng)計量輸出數(shù)據(jù)集類型為TYPE=UCORR或UCOV。STD要求在OUT=的數(shù)據(jù)集中把主分量得分標準化為單位方差。不規(guī)定時方差為相應特征值。用VAR語句指定原始變量。必須為數(shù)值型(區(qū)間變量)。當前10頁,總共35頁。三、應用舉例例1.一月和七月平均氣溫的主分量分析在數(shù)據(jù)集TEMPERAT中存放有美國一些城市一月和七月的平均氣溫。我們希望對這兩個氣溫進行主成分分析,希望用一個統(tǒng)一的溫度來作為總的可比的溫度,所以進行主分量分析。程序如下:SAS多元統(tǒng)計分析概論當前11頁,總共35頁。/*EXAMPLE1*/DATATEMPERAT;INPUTCITY$1-15JANUARYJULY;CARDS;MOBILE51.281.6PHOENIX51.291.2LITTLEROCK39.581.4SACRAMENTO45.175.2DENVER29.973.0HARTFORD24.872.7WILMINGTON32.075.8WASHINGTONDC35.678.7JACKSONVILLE54.681.0MIAMI67.282.3ATLANTA42.478.0BOISE29.074.5CHICAGO22.971.9PEORIA23.875.1INDIANAPOLIS27.975.0DESMOINES19.475.1WICHITA31.380.7LOUISVILLE33.376.9NEWORLEANS52.981.9PORTLAND,MAINE21.568.0BALTIMORE33.476.6BOSTON29.273.3DETROIT25.573.3SAULTSTEMARIE14.263.8DULUTH8.565.6MINNEAPOLIS12.271.9JACKSON47.181.7KANSASCITY27.878.8STLOUIS31.378.6GREATFALLS20.569.3OMAHA22.677.2RENO31.969.3CONCORD20.669.7ATLANTICCITY32.775.1ALBUQUERQUE35.278.7ALBANY21.572.0BUFFALO23.770.1NEWYORK32.276.6CHARLOTTE42.178.5RALEIGH40.577.5BISMARCK8.270.8CINCINNATI31.175.6CLEVELAND26.971.4COLUMBUS28.473.6OKLAHOMACITY36.881.5PORTLAND,OREG38.167.1PHILADELPHIA32.376.8PITTSBURGH28.171.9PROVIDENCE28.472.1COLUMBIA45.481.2SIOUXFALLS14.273.3MEMPHIS40.579.6NASHVILLE38.379.6DALLAS44.884.8ELPASO43.682.3HOUSTON52.183.3SALTLAKECITY28.076.7BURLINGTON16.869.8NORFOLK40.578.3RICHMOND37.577.9SPOKANE25.469.7CHARLESTON,WV34.575.0MILWAUKEE19.469.9CHEYENNE26.669.1;PROC
PRINCOMPCOVOUT=PRIN;VARJULYJANUARY;RUN;當前12頁,總共35頁。組成分得分輸出到了數(shù)據(jù)集PRIN中,在INSIGHT中打開WORK.PRIN,分別繪制JULY對JANUARY、PRIN2對PRIN1的散點圖。從圖可以看出主分量為原始變量的一個正交旋轉(zhuǎn)。圖1一月、七月氣溫的散點圖和主分量散點圖
一月、七月氣溫的散點圖和主分量散點圖
當前13頁,總共35頁。TheSASSystem02:18Wednesday,October26,20051ThePRINCOMPProcedureObservations64Variables2SimpleStatisticsJULYJANUARYMean75.6078125032.09531250StD5.1276191011.71243309CovarianceMatrixJULYJANUARYJULY26.292477746.8282912JANUARY46.8282912137.1810888TotalVariance163.47356647EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative1154.310607145.1476470.94390.943929.1629600.05611.0000EigenvectorsPrin1Prin2JULY0.3435320.939141JANUARY0.939141-.343532顯示結(jié)果如下:當前14頁,總共35頁。輸出中,第一部分為簡單統(tǒng)計量(均值和標準差),第二部分為協(xié)方差的特征值(注意我們在過程中用了COV選項,無此選項用相關陣),從這里可以看到貢獻率(Proportion)和累計貢獻率(Cumulative),第三部分為特征向量。按本結(jié)果的特征向量值及用COV選項規(guī)定使用協(xié)方差陣,我們可以知道兩個主分量如此計算:PRIN1=0.326866(JULY-75.92)+0.945071(JANUARY-32.55)PRIN2=0.945071(JULY-75.92)+(-0.326866)(JANUARY-32.55)如果沒有用COV選項,原始變量還需要除以標準差。由系數(shù)可見,第一主分量是兩個月份的加權(quán)平均,代表了一個地方的氣溫水平,第二主分量系數(shù)一正一負,反應了冬季和夏季的氣溫差別。當前15頁,總共35頁。例2.美國各種類型犯罪的主分量分析在數(shù)據(jù)集CRIME中有美國各個州的各種類型犯罪的犯罪率數(shù)據(jù)。希望對這些犯罪率數(shù)據(jù)進行主分量分析以概括犯罪情況。程序如下:SAS多元統(tǒng)計分析概論當前16頁,總共35頁。/*EXAMPLE2*/DATACRIME;TITLE'各州每十萬人的犯罪率';
INPUTSTATE$1-15MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;CARDS;ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONA9.534.2138.2312.32346.14467.4439.5ARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHO5.519.439.6172.51050.82599.6237.6ILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTS3.120.8169.1231.61532.22311.31140.1MICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHCAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4SOUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRGINIA6.013.242.290.9597.41341.7163.3WISCONSIN2.812.952.263.7846.92614.2220.7WYOMING5.421.939.7173.9811.62772.2282.0;PROC
PRINCOMPOUT=CRIMCOMP;RUN;PROC
SORT;BYPRIN1;PROC
PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第一主分量作為總犯罪率排列';PROC
SORT;BYPRIN2;PROC
PRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第二主分量作為金錢犯罪與暴力犯罪對比的排列';PROC
GPLOT;PLOTPRIN2*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTTWOPRINCIPALCOMPONENTS';PROC
GPLOT;PLOTPRIN3*PRIN1=STATE;TITLE2'PLOTOFTHEFIRSTANDTHIRDPRINCIPALCOMPONENTS';RUN;當前17頁,總共35頁。EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN14.114962.876240.5878510.58785PRIN21.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.12406.0.0177221.00000
EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046
當前18頁,總共35頁。第一主分量貢獻率只有59%,前兩個主分量累計貢獻率達到76%,可以用前兩個主分量。前三個主分量累計貢獻率已達到87%,所以前三個主分量可以表現(xiàn)犯罪率的大部分信息。第一主分量的計算系數(shù)都是正數(shù),所以它是一個州的犯罪率的一個加權(quán)平均,代表這個州的總的犯罪情況。第二主分量在入室盜竊(BURGLARY)、盜竊罪(LARCENY)、汽車犯罪(AUTO)上有較大的正系數(shù),在謀殺(MURDER)、強奸(RAPE)、攻擊(ASSAULT)上有較大的負系數(shù),所以代表了暴力犯罪與其它犯罪的一種對比。第三主分量為搶劫、汽車犯罪等與盜竊罪、入室盜竊、強奸的對比,其意義不易解釋。當前19頁,總共35頁。為了看出各州按第一主分量和第二主分量由低到高排列的情況,先用SORT過程排了序,然后用PRINT過程打印了結(jié)果(結(jié)果略)。在按第一主分量排序中,NorthDakota、SouthDakota、WestVirginia排列在前,說明其犯罪率最低,Nevada、California排列在后,說明其犯罪率最高。在按第二主分量排列的結(jié)果中,Mississippi排在最前,說明其暴力犯罪最高,Massachusetts最后,說明其暴力犯罪最低。后面用PLOT過程畫了主成分的散點圖。當前20頁,總共35頁。四、用SAS/INSIGHT進行主分量分析 在SAS/INSIGHT中可進行主分量分析。例如,對于上面的WORK.CRIME數(shù)據(jù)集,在INSIGHT中打開它后,選“Analyze|Multivariate(Y's)”,彈出選擇變量的對話框,把各犯罪率變量都選為Y變量,然后按Output按鈕,選中主分量分析(PrincipalComponentAnalysis)復選框,OK后就得到了多變量分析結(jié)果(包括原始變量的簡單統(tǒng)計量、相關陣)和主分量分析的結(jié)果(特征值、累計貢獻率、特征向量)。另外還畫了前兩個主分量的散點圖。當前21頁,總共35頁。應用組成分分析的論文討論1.TheEffectofFinancialRatiosonReturnsfromInitialPublicOfferings:AnApplicationofPrincipalComponentsAnalysis2.ConceptualPerspectivesonSelectingthePrincipalVariablesinthePurchasingmanager’sindex當前22頁,總共35頁。因子分析當前23頁,總共35頁。當前24頁,總共35頁。
SAS/STAT的FACTOR過程可以進行因子分析、分量分析和因子旋轉(zhuǎn)。對因子模型可以使用正交旋轉(zhuǎn)和斜交旋轉(zhuǎn),可以用回歸法計算得分系數(shù),同時把因子得分的估計存貯在輸出數(shù)據(jù)集中;用FACTOR過程計算的所有主要統(tǒng)計量也能存貯在輸出數(shù)據(jù)集中。二、FACTOR過程使用當前25頁,總共35頁。FACTOR過程用法很簡單,主要使用如下語句:
PROCFACTORDATA=數(shù)據(jù)集
選項;VAR原始變量;RUN;輸出結(jié)果包括特征值情況、因子載荷、公因子解釋比例,等等。為了計算因子得分,一般在PROCFACTOR語句中加一個SCORE選項和“OUTSTAT=輸出數(shù)據(jù)集”選項,然后用如下的得分過程計算公因子得分:PROCSCOREDATA=原始數(shù)據(jù)集SCORE=FACTOR過程的輸出數(shù)據(jù)集
OUT=得分輸出數(shù)據(jù)集;VAR用來計算得分的原始變量集合;RUN;當前26頁,總共35頁。三、例子數(shù)據(jù)集SOCECON為洛杉基12個地區(qū)統(tǒng)計的五個社會經(jīng)濟指標:人口總數(shù)(POP),教育程度(SCHOOL),就業(yè)數(shù)(EMPLOY),服務業(yè)人數(shù)(SERVICES),中等的房價(HOUSE)。用FACTOR過程可以進行主分量分析。下例中的SIMPLE選項要求計算變量的簡單統(tǒng)計量,CORR要求輸出相關陣。當前27頁,總共35頁。DATASOCECON;TITLE'五個經(jīng)濟指標的分析';INPUTPOPSCHOOLEMPLOYSERVICESHOUSE;CARDS;570012.8250027025000100010.9600101000034008.81000109000380013.6170014025000400012.816001402500082008.326006012000120011.44001016000910011.533006014000990012.5340018018000960013.736003902500096009.633008012000940011.4400010013000;PROC
FACTORDATA=SOCECONSIMPLECORR;TITLE2'主分量分析';RUN;
當前28頁,總共35頁。12345Eigenvalue2.87331.79670.21480.09990.0153Difference1.07671.58180.11490.0847Proportion0.57470.35930.04300.02000.0031Cumulative0.57470.93400.97700.99691.0000結(jié)果給出了五個變量的簡單統(tǒng)計量,相關陣,和相關陣的特征值、累計貢獻:2factorswillberetainedbytheMINEIGENcriterion.
當前29頁,總共35頁。前兩個主分量解釋了93.4%的方差,按照缺省的選擇因子個數(shù)的準則MINEIGEN,取大于1的特征值,所以取兩個因子。因子模式陣(factorpattern,或稱因子載荷陣)為最重要的結(jié)果之一:
FactorPatternFACTOR1FACTOR2P
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 甘肅中醫(yī)藥大學《中國特色社會主義建設狀況的調(diào)查研究》2023-2024學年第一學期期末試卷
- 贛南科技學院《工程師職業(yè)素養(yǎng)》2023-2024學年第一學期期末試卷
- 七年級科學上冊11.1生物的感覺11.1.2人體具有的感覺學案無答案牛津上海版
- 七年級語文上冊第一單元1春課后習題新人教版
- 七年級道德與法治上冊第二單元友誼的天空第五課交友的智慧第2框網(wǎng)上交友新時空說課稿新人教版
- 小學生開學課件背景
- 2021中級經(jīng)濟師 工商管理 真題速攻-案例題合集(附有答案解析)
- 美術教室培訓課件
- 發(fā)音不清改正培訓課件
- 餐飲加盟合作協(xié)議書范本7篇
- 2024-2025學年人教新版九年級上冊數(shù)學期末復習試卷(含詳解)
- 2024年河南省公務員考試《行測》真題及答案解析
- 中醫(yī)醫(yī)療技術手冊2013普及版
- 自考網(wǎng)頁設計與制作試卷及答案
- 火力發(fā)電廠山谷型干貯灰場設計
- 柳宗元毛筆楷書字帖
- 電伴熱帶熱計算表xls
- 纖力玻璃鋼管道厚度,重量一覽表
- 鄉(xiāng)政府老辦公樓改造項目工程施工組織設計
- 八年級科學電路計算題含答案
- 單個軍人隊列動作教案
評論
0/150
提交評論