統(tǒng)計分析讀書筆記_第1頁
統(tǒng)計分析讀書筆記_第2頁
統(tǒng)計分析讀書筆記_第3頁
統(tǒng)計分析讀書筆記_第4頁
統(tǒng)計分析讀書筆記_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計分析讀書筆記閱讀書籍:R語言與統(tǒng)計分析、統(tǒng)計學1. 概述統(tǒng)計分析分為統(tǒng)計描述和統(tǒng)計推斷兩部分。2. 描述性分析 標準差(Standard Deviation)是樣本數(shù)據(jù)方差的平方根,它衡量的是樣本數(shù)據(jù)的離散程度;標準誤是樣本均值的標準差,衡量的是樣本均值的離散程度。標準誤(英文:Standard Error),也稱標準誤差,即樣本均數(shù)的標準差(英文:Standard Deviation),是描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度。2.1 描述統(tǒng)計量統(tǒng)計量計算公式含義均值中位數(shù)百分位數(shù)方差數(shù)據(jù)取值分散性的一個度量樣本方差樣本標準差標準誤sn樣本均值的標準差,描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度極差偏度系數(shù)(Skewness)刻畫數(shù)據(jù)的對稱性指標。關(guān)于均值對稱時為0,右側(cè)更分散時為正;左側(cè)更分散時為負峰度系數(shù)(kurtosis)數(shù)據(jù)的總體分布為正態(tài)分布時,接近0;系數(shù)為正時,兩側(cè)極端數(shù)據(jù)較多;系數(shù)為負時,極端數(shù)據(jù)較少。2.2 離散隨機變量隨機變量Y是一個定義在樣本空間上的數(shù)值函數(shù),樣本空間中的每個事件都被指派一個Y值。離散隨機變量Y是一個僅能取可數(shù)個值的變量。離散隨機變量Y的概率分布是給出Y的每個可能取值Y=y以及相應概率p(y)的表、圖或公式。伯努利(Bernoulli)概率分布/二項概率分布: Y = n次試驗中S的次數(shù)(每次試驗的兩個可能結(jié)果:S和F)泊松分布Y = 單位時間、面積或體積內(nèi)稀有事件S發(fā)生的次數(shù)。py=ye-y! (y=0,1,2)隨機變量P(y)2*m(t)離散(一般)P(y)EY=yp(y)EY2-2伯努利Bernoullipy=pyq1-y 其中q=1-p,y=0,1ppq二項binomialpy=nypyqn-y其中q=1-p,y=0,1,nnpnpq超幾何py=ryN-rn-yNnnrNrN-rn(N-n)N2(N-1)泊松py=ye-y! y=1,2,=給定的單位時間、面積或體積內(nèi)事件的平均數(shù)幾何py=p(1-p)y-1 y=1,2,1p1-pP2負二項py=y-1r-1pr1-py-r y=r,r+1,rpr(1-p)P2多項py1,y2.yk=n!y1!y2!yk!(p1)y1(p2)y2(pk)yknpinpi(1-pi)負二項分布:表示直至觀測到第r次成功時試驗(時間單位)的次數(shù)。如直到一個設(shè)備失效的時間長度;一個顧客排隊等候直到得到服務的時間長度。幾何:對于r=1的特殊情況2.3 連續(xù)隨機變量連續(xù)隨機變量Y1 在區(qū)間(-,+)上的隨機變量Y取不可數(shù)無窮多個值。2 累積分布函數(shù)F(y)是連續(xù)的3 Y等于任意特定值的概率為0.密度函數(shù)fy=dF(y)dy?f(y)與p(y)的關(guān)系正態(tài)概率分布。密度函數(shù)為:fy=12e-(y-)2(22)型概率分布:是關(guān)于壽命長度(如計算機的使用壽命)或等待時間的連續(xù)隨機變量模型;兩種特殊類型,卡方隨機變量和指數(shù)隨機變量正態(tài)性檢驗:l QQ圖l Shaprio-Wilk檢驗:shaprio.test()卡方(Chi-Square)概率分布威布爾概率分布是表示失效時間的連續(xù)隨機變量模型型概率分布是落在區(qū)間(0,1)上連續(xù)隨機變量模型。 貝塔(Beta,)分布,be(,), 均勻分布2.4 二元概率分布及抽樣分布統(tǒng)計量的抽樣分布:統(tǒng)計量的概率分布中心極限定理:如果n個觀察值Y1,Y2,Yn的隨機樣本來自有限均值和方差2的總體,那么當n充分大時,樣本均值Y的抽樣分布可由正態(tài)密度函數(shù)近似。設(shè)Y1,Y2,Yn來自于有限均值和有限標準差的總體n個觀測值的隨機樣本。那么Y的抽樣分布的均值和標準差,記為y和y,分別是:y=,y=n卡方密度函數(shù):如果n個觀察值Y1,Y2,Yn的隨機樣本來自有限均值和方差2的正態(tài)分布,那么2=(n-1)S22 (S2:樣本方差)的抽樣分布式自由度為=(n-1)的卡方密度函數(shù)學生氏T分布設(shè)Z是標準正態(tài)隨機變量,2是自由度為的卡方隨機變量,如果Z與2獨立,那么稱T=Z2是自由度為的學生氏T分布。F分布如果12和22是自由度為1和2的卡方隨機變量,若12和22是獨立的,則稱F=121222為分子自由度為1,分母自由度為2的F分布。2.5 相關(guān)分析統(tǒng)計建模與R語言(上冊)3.4Pearson相關(guān)性檢驗(原假設(shè):不相關(guān))當(X,Y)T是二元正態(tài)總體,且X,Y=0, 則統(tǒng)計量t=rxyn-21-rxy2t(n-2)cov() 協(xié)方差矩陣cor() 相關(guān)矩陣Kendall秩相關(guān)系數(shù):非參數(shù)相關(guān)分析偏相關(guān)分析:3. 參數(shù)估計參數(shù)估計:在很多實際問題中,總體的分布類型已知但它包含一個或多個參數(shù),總體的分布完全由所含的參數(shù)決定,這樣就需要對參數(shù)作出估計。推斷總體參數(shù)有兩種方法:估計未知參數(shù)值或?qū)?shù)的假設(shè)值進行決策。參數(shù)估計有兩類:點估計;區(qū)間估計。無偏:E=最小方差無偏估計:3.1 估計方法矩估計法:用樣本矩去估計總體矩矩估計 1,2 等可以通過前m階樣本矩等于m階總體矩來求等EY=1nyiEY2=1nyi2極大似然法: 隨機選取離散隨機變量Y的n個觀察值y1,y2,yn,如果概率分布p(y)是單個參數(shù)的函數(shù),那么觀測到Y(jié)的這n個獨立值的概率是p(y1,y2,yn)=p(y1)p(y2)p(yn),稱樣本值的聯(lián)合概率為樣本的似然函數(shù)L,并建議使L達到最大的值為的估計值。3.2 單正態(tài)總體參數(shù)(均值、方差)的估計一個置信區(qū)間的置信系數(shù)等于在抽樣前隨機區(qū)間包含被估參數(shù)的概率如:1總體均值u的大樣本(1-)100%置信區(qū)間:yz2y=yz2n如何推導?P191,定義6.15;抽樣總體的標準差,s為標準樣本差yz2sn為抽樣總體的標準差,n是樣本大小,s是樣本標準差。N大于30假設(shè):沒有,中心極限定理保證無論抽樣總體服從什么分布,y均近似正態(tài)??傮w均值u的小樣本(1-)100%置信區(qū)間:yt2snT為自由度為n1的學生氏T分布。假設(shè)抽樣總體近似服從正態(tài)分布 R函數(shù):t.test()總體方差的估計:設(shè)y1,y2,yn是來自均值為u、方差為2的正態(tài)分布隨機樣本,2(n-1)s22是具有自由度為(n-1)的卡方分布。置信區(qū)間為:(n-1)s222,(n-1)s21-22)3.3 兩正態(tài)總體參數(shù)(均值、方差)的估計兩均值差如何推導?:T檢驗設(shè)方差未知且相等: 檢驗統(tǒng)計量:T= x-y- (1-2)(1n1+1n2)s2 t(n1+n2-2)其中:s2= n1-1s12+(n2-1)s22n1-1+(n2-1)方差比:F檢驗(方差齊性檢驗) 原假設(shè):方差相等,或大于等于一方,或小于等于一方12(n1-1)s1212 , 22(n2-1)s2222S1與S2相互獨立,F(xiàn)s1212s2222 F(n1-1, n2-1)假定:被抽樣樣本的兩個總體有近似正態(tài)的相對頻率分布;隨機樣本是獨立地從兩個總體中抽取的。3.4 單總體比率p的區(qū)間估計二項分布中成功比率p(即總體中具有某種特征的元素比率)的估計方法樣本比率p=yn,當n較大時,p近似正態(tài)分布Ep=p, Vp=p(1-p)n總體比率p的大樣本(1)100置信區(qū)間pZ2ppZ2p(1-p)n假定:樣本容量n必須充分大。R語言: prop.test()3.5 兩總體比率差p1-p2的區(qū)間估計R語言: prop.test()3.6 樣本容量的確定精度要求:置信度1,允許均值的最大絕對誤差d4. 參數(shù)的假設(shè)檢驗先對總體的某個未知參數(shù)或總體的分布形式作某種假設(shè),然后由抽取的樣本提供的信息, 構(gòu)造合適的統(tǒng)計量,對所提供的假設(shè)進行檢驗,以做出統(tǒng)計判斷是接受假設(shè)還是拒絕假設(shè),這類統(tǒng)計推斷問題稱為假設(shè)檢驗問題,前者稱為參數(shù)假設(shè)檢驗,后者稱為非參數(shù)假設(shè)檢驗。歸納得到假設(shè)檢驗的主要步驟:1) 提出原假設(shè)H0與備擇假設(shè)H1;2) 選擇檢驗統(tǒng)計量W并確定其分布;3) 在給定的顯著性水平下, 確定H0關(guān)于統(tǒng)計量W的拒絕域;4) 算出樣本點對應的檢驗統(tǒng)計量的值;5) 判斷: 若統(tǒng)計量的值落在拒絕域內(nèi), 則拒絕H0, 否則接受H0.在一個假設(shè)檢驗問題中, 拒絕原假設(shè)H0的最小顯著性水平稱為檢驗的p值.觀測到檢驗統(tǒng)計量一個值至少如從樣本數(shù)據(jù)計算的統(tǒng)計量值那樣與原假設(shè)矛盾,且支持備擇假設(shè)的概率。4.1 單正態(tài)總體參數(shù)(均值、方差)的檢驗均值的假設(shè)檢驗:Z檢驗,t檢驗方差的假設(shè)檢驗:2檢驗2(n-1)s224.2 兩正態(tài)總體參數(shù)(均值、方差)的檢驗均值的比較:t檢驗l 大樣本檢驗統(tǒng)計量:Z檢驗假定:樣本容量足夠大,兩個樣本都是從目標總體中獨立、隨機地選取的。l 小樣本檢驗統(tǒng)計量:t檢驗設(shè)方差相等,在u1,u2相等的原假設(shè)下檢驗統(tǒng)計量:T= x-y- (1-2)(1n1+1n2)s2 t(n1+n2-2)假定:抽取樣本的兩個總體有近似正態(tài)的相對頻率分布;兩個總體的方差相等;隨機樣本是獨立地取自兩個總體。R語言:t.test(x, y, var.equal=TRUE); 當方差齊性不滿足時,var.equal=FALSE例子:可燃氣體和電力能源,哪種能以較低的成本產(chǎn)生出更多的有用能量。(基于兩種方法的投入產(chǎn)出比數(shù)據(jù))原假設(shè):u1=u2方差的比較:F檢驗R語言:var.test()4.3 成對數(shù)據(jù)的t檢驗對一般情況下的兩樣本均值檢驗還沒有完全解決. 所謂成對數(shù)據(jù),是指兩個樣本的樣本容量相等,且兩個樣本之間除均值之外沒有另的差異。大樣本:Z檢驗小樣本:t檢驗 T= d-D0dn d-D0sdnT分布的自由度為(n-1), d和sd表示差的樣本均值和標準差。假定:差的總體相對頻率分布是近似正態(tài)的;配對差是從差的總體中隨機選取的。當正態(tài)性假定嚴重違反時,t檢驗可能導致錯誤的推斷。這種情況下,采用非參數(shù)Wilcoxon檢驗。R語言:t.test(x, y, paired=TRUE)4.4 檢驗總體比率總體比率假設(shè)的大樣本檢驗: 檢驗統(tǒng)計量:Z= p-p0p01-p0n假定:樣本容量n足夠大以保證近似正態(tài)性。np,n(1p) 4R語言:prop.test( )例:某產(chǎn)品的優(yōu)質(zhì)品率一直保持在40%, 近期技監(jiān)部門抽查了12件產(chǎn)品, 其中優(yōu)質(zhì)品為5件, 問在=0.05水平上能否認為其優(yōu)質(zhì)品率仍保持在40%?binom.test(c(7, 5), p=0.4)4.5 檢驗兩個總體比率的差(p1-p2)假設(shè)的大樣本檢驗:獨立樣本 / Z檢驗l P1-p2 0l P1-p2 = 0 假定:樣本容量足夠大以保證p1, p2近似正態(tài)性檢驗統(tǒng)計量:p1,p2相等的情況下:Z= p1-p2n1+n2p(1-p)n1n2 N(0,1)其中p= n1p1+n2p2n1+n2R語言:prop.test( )有電腦沒有電腦男女1) 男、女生家中擁有電腦的比例是否一致?2) 有沒有電腦跟性別是否有關(guān)系?5. 非參數(shù)的假設(shè)檢驗 許多非參數(shù)技術(shù)適用于分析不服從正態(tài)分布的數(shù)據(jù);盡量從數(shù)據(jù)本身來獲取所需要的信息。非參數(shù)檢驗著重于總體概率分布的位置,而不是總體參數(shù),如均值。 不假定總體分布的具體形式,盡量從數(shù)據(jù)(或樣本)本身來獲得所需信息的統(tǒng)計方法稱為非參數(shù)方法。5.1 檢驗單個總體的位置符號檢驗(位置檢驗),專門用于檢驗任一連續(xù)總體中位數(shù)的假設(shè);與均值一樣,中位數(shù)是分布中心或位置的度量。注:從一個肯定是非正態(tài)總體抽取一個小樣本時,T檢驗是無效的。中位數(shù)的符號檢驗:對于充分大的n,均值為u=np,=np(1-p)的正態(tài)分布可以用來近似二項分布(n次中,每次概率為p,最后結(jié)果為k的概率,k=1,2,n)。檢驗統(tǒng)計量:Z= S-E(S)V(S)= S-0.5n0.5n R語言:借助于binom.testWilcoxon符號秩檢驗:大樣本(n=25)檢驗統(tǒng)計量:Z=T - n(n+1)4n(n+1)(2n+1)24R語言:wilcox.test()5.2 分布的一致性檢驗: 2檢驗檢驗樣本是否屬于某種分布的假設(shè) 擬合性檢驗將a,b分成m份區(qū)間,假定分布為F0(x), 每個小區(qū)間Ai對應的概率pi0= F0ai- F0(ai-1)設(shè)ni為落入Ai的頻數(shù),總共為n。若假設(shè)成立,則實際頻數(shù)ni與理論頻數(shù)npi0比較接近,因此擬合優(yōu)度檢驗轉(zhuǎn)化為分類數(shù)據(jù)的實際頻數(shù)與理論頻數(shù)的一致性檢驗。檢驗統(tǒng)計量:1)分布完全已知(不帶有未知參數(shù))2=i=1m(ni-npi0)2npi0 2(m-1) 2)分布含有r個未知參數(shù):2=i=1m(ni-npi0)2npi0 2(m-r-1)R語言:chisq.test(); 沒有直接算帶參數(shù)的擬合檢驗函數(shù) Kolmogorov-Smirnov Tests: ks.test()5.3 兩總體的比較與檢驗分類數(shù)據(jù)分析2獨立性檢驗與5.2還是一致的若隨機變量X, Y 的分布函數(shù)分別為F1(x)和F2(y), 且聯(lián)合分布為F(x; y),則X與Y 的獨立性歸結(jié)為假設(shè)檢驗問題:H0 : F(x; y) = F1(x)F2(y) H1 : F(x; y) F1(x)F2(y)單向表:P3191) Pi的大樣本置信區(qū)間2) Pi-pj的置信區(qū)間3) 假設(shè)檢驗,p相同(卡方檢驗)在r x s聯(lián)列表下,問題等價為:pij= pi.p.j 其中pi.=PX=Xi,p.j=P(Y=Yj)pi.= ni.n; p.j=n.jn檢驗統(tǒng)計量:2=i=1rk=1snij-ni.n.jn2ni.n.jn在H0成立時,近似服從于 2(r-1s-1)R語言中函數(shù)chisq.test( )可完成獨立性檢驗。drink - data.frame(tors=c(s,s,t,t),dr=c(drink,nodrink,drink,nodrink), num=c(90,10,20,80)drink.x - xtabs(num tors + dr, data=drink)chisq.test(drink.x)當22時,與“檢驗兩個總體比率的差”的區(qū)別:某種特質(zhì)的x1/n1,x2/n2兩者的差獨立性檢驗:比較兩個因素之間是否有關(guān)系(獨立)吸煙不吸煙肺癌患病者5030對照組100800Fisher精確檢驗在格子的期望頻數(shù)小于5,選擇Fisher精確檢驗獨立性R語言中的fisher.test( )Wilcoxon秩和檢驗法在正態(tài)總體的假定下, 兩樣本的均值檢驗通常用t檢驗。但在不知總體分布時,t檢驗有風險。Wilcoxon秩和檢驗法是比較整個概率分布將兩組樣本排序,分別計算他們的秩,通過秩進行兩總體的比較,而不僅僅是中位數(shù)。大樣本(n110, n210)Wilcoxon秩和檢驗:(P617-618)檢驗統(tǒng)計量:Z=T1-n1n2+n1(n1+1)2n1n2(n1+n2+1)12wilcox.testMood檢驗位置參數(shù):描述了總體的位置尺度參數(shù):描述總體概率分布離散程度的參數(shù)兩總體的方差檢驗在總體為正態(tài)時,可采用F檢驗;Mood檢驗是用來檢驗兩樣本尺度參數(shù)之間關(guān)系的一種非參數(shù)方法。樣本X1;X2; ;Xm F(x-11)F分布?Y1; Y2; ; Yn F(y-22)構(gòu)造秩統(tǒng)計量 符合正態(tài)分布R語言中函數(shù)mood.test( )可完成原假設(shè)的檢驗例子:兩村農(nóng)民的月收入的內(nèi)部差異是否相同?5.4 多總體的比較與檢驗位置參數(shù)的Kruskal-Wallis秩和檢驗R中函數(shù)kruskal.test( )可完成原假設(shè)的檢驗例子:游泳、打籃球、騎自行車三種不同的運動在30分鐘內(nèi)消耗的熱量是否相同?尺度參數(shù)的Ansari-Bradley檢驗R語言中函數(shù)ansari.test( )可完成原假設(shè)的檢驗例子:已知兩個工人加工的零件尺寸,推斷兩人的加工精度是否一樣?尺度參數(shù)的Fligner-Killeen檢驗6. 方差分析方差分析的主要工作就是將觀測數(shù)據(jù)的總變異(波動)按照變異的原因的不同分解為因子效應與試驗誤差,并對其作出數(shù)量分析,比較各種原因在總變異中所占的重要程度,以此作為進一步統(tǒng)計推斷的依據(jù).在總體方差相同的假定下,對兩總體均值差異的顯著性進行了檢驗。在許多情況下有必要對3個或更多樣本均值差異的顯著性進行檢驗,或者等同于去檢驗零假設(shè),樣本均值全相等。(全美經(jīng)典統(tǒng)計學)Understanding Group differences對只有一個因素兩個水平的方差分析,與兩總體均值檢驗的區(qū)別?6.1 單因子方差分析因素A有r個水平A1;A2; : : : ;Ar. 現(xiàn)在水平Ai下進行ni次獨立觀測, 得到觀測數(shù)據(jù)為Xij ; j 1; 2; ; ni; i=1; 2; ; r; 則單因素方差模型可表示為 Xij= + i+ ij ij N(0,2) i=1rnii=0原假設(shè):H0: 1=2=r注:則 Xij N(+i, 2) ; 上式也就是多正態(tài)總體均值是否相等的檢驗(vs. 4.2)條件:獨立性、正態(tài)性、方差齊性SST 總離差平方和(總變差):所有數(shù)據(jù)與總平均之差的平方和SST=i=1rj=1ni(Xij-X)2, X=1ni=1rj=1niXijSSE 誤差平方和(組內(nèi)平方和):對于固定的i,觀測值之間的差異大小的度量SSE=i=1rj=1ni(Xij-Xi.)2, Xi.=1nj=1niXijSSA 效應平方(組間平方和):各水平下平均值與總平均值之差的平方和SSA=i=1rj=1ni(Xi.-X)2當H0成立時SSE2 2n-r, SSA2 2r-1且SSe,SSa獨立,于是F= SSA(r-1)SSE(n-r) F(r-1, n-r)R語言:aov()均值的多重比較:找出在進行方差分析時,哪些均值是不相等的原假設(shè):H0: i= j , ijR軟件中p值調(diào)整使用函數(shù)p.adjust( )R軟件中函數(shù)pairwise.t.test( )可以得到多重比較的p值TukeyHSD(fit)同時置信區(qū)間:基于學生化極差分布的Tukey方法當原假設(shè)被拒絕,則因子A的r個水平色效應不全相等,希望對效應之差均值的多重比較只是找出哪些不一樣i- j (ij)做出置信區(qū)間R語言:函數(shù)qtukey( )用于計算q分位數(shù), 函數(shù)TukeyHSD( )用于計算同時置信區(qū)間方差齊性檢測多正態(tài)總體方差的檢驗:檢驗數(shù)據(jù)在不同水平下方差是否相同R軟件中, 函數(shù)Barlett.test( )提供Bartlett檢驗R的程序包car中提供了Levene檢驗的函數(shù)levene.test( )6.2 雙因子方差分析無交互作用的方差分析每一個水平組合Ai,Bj下進行一次獨立試驗得到觀察值Xij Xij= + i+ j + ij, i=1,2.,r;j=1,2,.,s ij N0,2,且各ij相互獨立 i=1ri=0 ;j=1sj=0原假設(shè):H01: 1=2=r=0; H02: 1=2=s=0 有交互作用的方差分析 為了考察因素間的交互作用, 要求在兩個因素的每一水平組合下進行重復試驗. 設(shè)在每種水平組合(Ai;Bj)下重復試驗t次. 記第k次的觀測值為Xijk. Xijk= + i+ j + ij + ijk, i=1,2.,r;j=1,2,.,s;k=1,2,t ijk N0,2,且各ijk相互獨立 i=1ri=0 ;j=1sj=0; i=1rij=j=1sij=0原假設(shè):H01: 1=2=r=0;A對指標X沒有影響H02: 1=2=s=0;B對指標X沒有影響H03: 11=12=rs=0;A和B對指標X沒有聯(lián)合影響6.3 協(xié)方差分析協(xié)方差分析(Analysis of Covariance, 簡稱ancova)是將線性回歸分析與方差分析結(jié)合起來的一種統(tǒng)計分析方法. 協(xié)變量:將那些很難控制的因素作為協(xié)變量。協(xié)變量必須是連續(xù)數(shù)值型變量,多個協(xié)變量間相互獨立,且與因素變量之間也沒有交互影響。其基本思想就是: 將一些對響應變量Y 有影響的變量(指未知或難以控制的因素)看作協(xié)變量(covariate), 建立響應變量Y 隨協(xié)變量X變化的線性回歸關(guān)系, 并利用這種回歸關(guān)系把X值化為相等后再對各處理組Y 的修正均值(adjusted means)間差別進行假設(shè)檢驗, 其實質(zhì)就是從Y 的總的平方和中扣除X對Y 的回歸平方和, 對殘差平方和作進一步分解后再進行方差分析, 以更好地評價這種處理的效應. Yij= + i+Xij-X.+ ij, i=1,2,r;j=1,2,ni ij N(0,2) ,且各ij相互獨立 i=1rnii=0, 0 其中為總平均, i為第i個水平的效應, 是Y 對X的線性回歸函數(shù), ij為隨機誤差,其中 X.是Xij的總平均原假設(shè):H0: 1=2=rR中HH程序包中的函數(shù)ancova( )提供了協(xié)方差分析的計算7. 回歸分析7.1 相關(guān)性及其度量cor.test()8. 主成分分析library(psych)data(USJudgeRatings)fa.parallel(USJudgeRatings,-1, fa=PC, n.iter=100, show.legend=FALSE, main=Scree plot with parallel analysis)pc - principal(USJudgeRatings,-1, nfactors=1)data(Harman23.cor)fa.parallel(Harman23.cor$cov, n.obs=302, fa=both, n.iter=100, show.legend=FALSE, main=Scree plot with parallel analysis)PC - principal(Harman23.cor$cov, nfactors=2, rotate=none)rc - principal(Harman23.cor$cov, nfactors=2, rotate=varimax)library(GPArotation)pc - principal(USJudgeRatings,-1, nfactors=1, score=TRUE)head(pc$scores)rc - principal(Harman23.cor$cov, nfactors=2, rotate=varimax)round(unclass(rc$weights), 2)rc$loadingsunclass(pc$weights)pc$loadingspc$scores與princomp不同,依據(jù)標準化的輸入產(chǎn)生標準化的weights和scores9. 因子分析因子分析概念和理解因子分析是主成分分析的推廣和擴展。主成分分析是將主成分表示為觀察變量的線性組合;而因子分析是將變量表示為因子的線性組合。因子分析用以分析隱藏在表面現(xiàn)象(觀察)背后的因子作用。例子:通過體育項目測試結(jié)果,發(fā)現(xiàn)決定體育成績的因子(耐力、速度等),并計算各個學生因子的得分;通過面試結(jié)果,發(fā)現(xiàn)決定面試成績的因子(外露能力、經(jīng)驗、專業(yè)、外貌等),并計算各個面試者各因子的得分,從而決定錄取名單。 因子分析是研究相關(guān)陣或協(xié)方差陣的內(nèi)部依賴關(guān)系,它將多個變量綜合為少數(shù)幾個因子,以再現(xiàn)原始變量與因子之間的相關(guān)關(guān)系。l R型因子分析:研究變量之間的相關(guān)關(guān)系(相關(guān)陣)l Q型因子分析:研究樣本之間的相關(guān)關(guān)系(相似陣)主成分分析和因子分析都是數(shù)據(jù)降維的方法,但是因子分析在以下兩個方面區(qū)別于主成分分析:1) 二者使用的模型不同。主成分分析并非一種模型,得到的主成分只是原始變量的線性組合;因子分析則假定存在因子模型,認為原始變量的變異可以用少數(shù)幾個公共因子以及一個特殊因子來解釋;2) 因子數(shù)目不同。主成分分析生成的主成分的數(shù)目與原始變量個數(shù)相同,事后由研究者根據(jù)需要保留一定數(shù)目的主成分;而在因子分析中,公因子數(shù)目是在公因子模型中事先規(guī)定的。因子分析過程模型:X=+AF+其中 X是隨機向量(一個觀察樣本結(jié)果),A為因子載荷(loading)矩陣,F(xiàn)為公共因子(common factor)矩陣,為特殊因子(specific factor)向量1)參數(shù)估計:估計因子載荷矩陣和特殊方差矩陣l 主成分法l 主因子法l 極大似然法2)方差最大的正交旋轉(zhuǎn) (因子載荷不唯一,通過因子旋轉(zhuǎn),使得新因子有更好的實際意義)3)計算因子得分:加權(quán)最小二乘法(或Bartlett因子得分)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論