下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、皮爾遜積矩相 關(guān)系數(shù)(Pearson product-moment correlation coefficient)1 定義在統(tǒng)計(jì)學(xué)中,皮爾遜積矩相關(guān)系數(shù)( Pearson product-moment correlation coefficient ),有時(shí)也簡(jiǎn) 稱為PMCC,通常用r或是p表示,是用來度量?jī)蓚€(gè)變量X和Y之間的相互關(guān)系(線性相關(guān))的,取值范圍在-1,+1之間.皮爾遜積矩相關(guān)系數(shù)在學(xué)術(shù)研究中被廣泛應(yīng)用來度量?jī)蓚€(gè)變量線性相關(guān)性 的強(qiáng)弱,它是由 Karl Pearson在19世紀(jì)80年代從Francis Galton介紹的想法根底開展起來的,但是 開展后原想法相似但略有不同的,這種
2、相關(guān)系數(shù)常被稱為“ Pearson的r.兩個(gè)變量之間的皮爾遜積矩相關(guān)系數(shù)定義為這兩個(gè)變量的協(xié)方差與二者標(biāo)準(zhǔn)差積的商,即 一 cov(X,Y) E(X-L)(Y-八) :'XY ''-'X -Y-'X-,Y上式定義了總體相關(guān)系數(shù),一般用希臘字母p (rho)表示.假設(shè)用樣本計(jì)算的協(xié)方差和標(biāo)準(zhǔn)差代替總體的協(xié)方差和標(biāo)準(zhǔn)差,那么為樣本相關(guān)系數(shù),一般用 r表示:n,(Xi -X)(Yi -丫)i 1 r = 一.:(Xi -X)2 , :(Y -Y)2另外一個(gè)與上式等效的定義相關(guān)系數(shù)的公式是通過標(biāo)準(zhǔn)化以后變量均值的積定義的.假設(shè)樣本 可以記為(Xi,Y),那么樣本
3、Pearson相關(guān)系數(shù)為1 $,Xi X 丫丫 丫 r =2 I In 1 i 苴 I sX 大 sY j其中X_ZX , X和sx分別為標(biāo)準(zhǔn)化變量,樣本均值和樣本標(biāo)準(zhǔn)差. sx2 皮爾遜積矩相關(guān)系數(shù)的數(shù)學(xué)特性不管是樣本的還是總體的Pearson相關(guān)系數(shù)絕對(duì)值均小于等于1,相關(guān)系數(shù)等于1或-1時(shí),所有數(shù)據(jù)的點(diǎn)都精確地落在一條直線上(為樣本相關(guān)系數(shù)的情況),或是兩變量的分布完全由一條直線支撐(為總體相關(guān)系數(shù)的情況).Pearson相關(guān)系數(shù)具有對(duì)稱性,即:corrcorr(X,Y) =corr(Y, X).Pearson相關(guān)系數(shù)的一個(gè)關(guān)鍵的特性就是它并不隨著變量的位置或是大小的變化而變化.也就是說
4、,我們可以把 X變?yōu)閍+bX,把丫變?yōu)閏+dY,其中a, b, c和d都是常數(shù),而并不會(huì)改變相互之 間的相關(guān)系數(shù)(這點(diǎn)對(duì)總體和樣本Pearson相關(guān)系數(shù)都成立).Pearson相關(guān)系數(shù)可以用原點(diǎn)矩的形式表示.由于2222%=E(X), Ok=E(X)X =E(X)E(X),對(duì)于Y也有相似的表達(dá)式.又E(X -E(X)E(Y-E(Y) =E(XY)-E(X)E(Y)于是式(1)可寫為 E (XY )匚E (X ) E(Y) . E(X2) -E2(X) E(Y2)-E2(Y)上述形式對(duì)于樣本的Pearson相關(guān)系數(shù)同樣是可用的,有n£ Xi y -Z xZ yr / XynXy&quo
5、t;n-1sAn- x2-x2.n-y2-y 2上式提供了一個(gè)非常簡(jiǎn)單的計(jì)算樣本相關(guān)系數(shù)的算法,但是有時(shí)受數(shù)據(jù)的影響,可上式可能存 在數(shù)值上的不穩(wěn)定性.相關(guān)系數(shù)取值范圍為-1,1.取1時(shí)表示變量X和Y之間具有線性變化的關(guān)系,即 Y隨著X的 增加而增加,而且所有的點(diǎn)都落在一條直線上.取 -1時(shí)那么是所有點(diǎn)落在一條直線上,但是變量 Y隨 著X的增加而減小.相關(guān)系數(shù)值為 0是表示變量之間沒有線性相關(guān)關(guān)系.更一般地,應(yīng)該注意到,只要Xi和Y落在各自均值的同一側(cè),那么 Xi XY -Y就是大于0的.也就是說,只要 Xi和Y同時(shí)趨近于大于或是同時(shí)趨近于小于他們各自的均值,那么它們的相關(guān) 系數(shù)為正.反之,當(dāng)
6、二者區(qū)于在相反的一邊時(shí),二者相關(guān)系數(shù)為負(fù).幾種的x, y點(diǎn)即相應(yīng)的x、y的相關(guān)系數(shù).可以看出,相關(guān)反映線性關(guān)系分散程度和方向第 一行,但是不能反映線性關(guān)系時(shí)的斜率第二行 ,也不能反映出非線性關(guān)系的許多方面最底下 一行.注:圖中第二行第四個(gè)小圖的直線斜率是0,在這種情況下,相關(guān)系數(shù)是沒有意義的,由于Y的方差是零.3 幾何解釋對(duì)于相對(duì)中央性的數(shù)據(jù)例如,一組已經(jīng)通過樣本均值轉(zhuǎn)換為均值為0的數(shù)據(jù),相關(guān)系數(shù)可以看做是由兩隨機(jī)變量樣本繪出的兩個(gè)向量之間夾角的余弦值.有些學(xué)者那么比擬傾向于非中央性費(fèi)皮爾遜兼容的相關(guān)系數(shù).以下通過一個(gè)例子比擬二者之 間的差異.假設(shè)有5個(gè)國(guó)家,國(guó)民生產(chǎn)總值分別為10億美元、20
7、億美元、30億美元、50億美元和80億美元,而貧困人數(shù)占總?cè)丝诘谋壤謩e為11%、12%、13%、15%和18%.那么可令X = 10, 20, 30, 50, 80, Y = 0.11, 0.12, 0.13 , 0.15, 0.18.有一般的計(jì)算兩個(gè)向量之間的角度的過程點(diǎn)乘可得非中央性相關(guān)系數(shù)為:=0.920814711r_ x y _2.93C0S x I yl.'17o3 , 0.0983應(yīng)該注意到,上述數(shù)據(jù)是特意從完全線性相關(guān)的線性函數(shù)Y=0.10+0.001X中挑選出來的,所以Pearson相關(guān)系數(shù)應(yīng)該精確地為1.將數(shù)據(jù)中央化(將 X減去E(X)=38 , Y減去E(Y)=
8、0.138 ),可得X = (-28, -18, -0.8, 12, 42), Y'= (-0.028, -0.018, -0.08, 0.012, 0.042),并有x'.|y'|<3080 ,0.00308跟期望的一樣.相關(guān)系數(shù)大小與相關(guān)性大小的關(guān)系許多學(xué)者都提出了通過相關(guān)系數(shù)大小判斷變量相關(guān)性的標(biāo)準(zhǔn).但是正如Cohen (1988)所指出的一樣,這些標(biāo)準(zhǔn)或多或少的有些武斷,不應(yīng)該過于嚴(yán)格地遵守.相同相關(guān)系數(shù)對(duì)相關(guān)性大小的判斷取決于不同的背景和目的.同樣是 0.9的相關(guān)系數(shù),在使用很精確的儀器驗(yàn)證物理定律的時(shí)候可能 被認(rèn)為是很低的,但是社會(huì)科學(xué)中,在評(píng)定許多復(fù)
9、雜因素的奉獻(xiàn)時(shí),卻可能被認(rèn)為是很高的相關(guān)性.相關(guān)系數(shù)與相關(guān)性的關(guān)系相關(guān)性負(fù)值正值不相關(guān)-0.090.00.00.09低相關(guān)-0.3-0. 10.10.3中等相關(guān)-0.5-0. 30.30.5顯著相關(guān)-1.0-0. 50.51.04對(duì)數(shù)據(jù)分布的敏感性4.1 存在性總體的Pearson相關(guān)系數(shù)是通過原點(diǎn)矩來定義的,所以二元概率分布的總體協(xié)方差以及變量邊緣總體反差必須是有意義且是非零的.一些概率分布例如柯西(Cauchy)分布的反差就是無意義的,因此在X或Y服從這種分布時(shí),.也是沒有意義的.在一些實(shí)際應(yīng)用中,例如那些涉及數(shù)據(jù)在尾部比擬集中的情況,考慮這點(diǎn)就是很重要的.但是,相關(guān)系數(shù)的存在性通常不是我
10、們關(guān)注的焦點(diǎn),因 為一般只要分布是有界的,那么P就可以被定義.4.2 大樣本性在二元正態(tài)分布中,假設(shè)變量的邊緣分布的均值和標(biāo)準(zhǔn)差,那么由 Pearson相關(guān)系數(shù)就可以 完全確定該分布的特性.但是對(duì)于其它的二元分布,情況就有所不同.然而,不管變量之間的聯(lián)合 概率密度函數(shù)是不是正態(tài)的,Pearson相關(guān)系數(shù)都是用來衡量?jī)蓚€(gè)隨機(jī)變量之間的線性相關(guān)程度的.對(duì)于二元正態(tài)數(shù)據(jù),樣本的相關(guān)系數(shù)是總體相關(guān)系數(shù)的極大似然估計(jì),并且具有漸進(jìn)無偏性和有效 性,也即是說在數(shù)據(jù)來自正態(tài)分布,且樣本大小適中或是足夠大的時(shí)候,不可能構(gòu)造一個(gè)比樣本相 關(guān)相關(guān)系數(shù)更加精確的量來估計(jì)變量之間的相關(guān)性.對(duì)于非正態(tài)總體,樣本相關(guān)系數(shù)
11、依然是漸進(jìn)無 偏的,但是可能不是有效的估計(jì).只要樣本均值、方差、協(xié)方差是一致的(可以通過應(yīng)用大數(shù)定律 來保證),樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一個(gè)一致估計(jì)量.UO二 uoBJEEdSample size圖中顯示了在給定的樣本大小時(shí),在置信水平為0.05時(shí),具有顯著非零Pearson相關(guān)系數(shù)的的最小 值. A graph showing the minimum value of Pearson's correlation coefficient that is significantly different from zero at the 0.05 level, for a given
12、sample size.5 魯棒性(Robustness )與其他一些廣泛應(yīng)用的統(tǒng)計(jì)量相同,樣本統(tǒng)計(jì)量r是不可靠的,在存在異常彳1的時(shí)候,r的值可能會(huì)誤導(dǎo)我們.也就是說,PMCC不僅受變量分布的影響,還隨異常值非常敏感.觀察 X、Y之間的散點(diǎn)圖,就可以看出,缺少魯棒性確實(shí)是一個(gè)很大的問題,在這種情況下,就需要采用更加穩(wěn)健 的參量來度量變量的相關(guān)性.但是值得一提的是,無論采用多么穩(wěn)健的參量來度量變量之間的相關(guān) 性,都與Pearson相關(guān)系數(shù)在數(shù)值大小保持很好的一致性.基于Pearson相關(guān)系數(shù)的統(tǒng)計(jì)推斷對(duì)數(shù)據(jù)的分布類型是很敏感的.所以只有在數(shù)據(jù)是近似正態(tài) 分布的時(shí)候,基于 Fisher變換的精確
13、檢驗(yàn)和近似檢驗(yàn)才能被采用,否那么就可能導(dǎo)致錯(cuò)誤的結(jié)論.在 某些情況下,引導(dǎo)可用于構(gòu)造置信區(qū)間,并置換測(cè)試可用于進(jìn)行假設(shè)檢驗(yàn).在二元正態(tài)不成立時(shí), 非參數(shù)的方法在某些情況下可能會(huì)得到更有意義的結(jié)果.但這些方法的標(biāo)準(zhǔn)版本依賴于數(shù)據(jù)的互換 性,也就是說,在沒有特定的順序或是數(shù)據(jù)可供分析時(shí),可能影響相關(guān)估計(jì)的行為.Spearman 秩相關(guān)系數(shù) ( Spearman's rank correlation coefficient)Pearson線性相關(guān)系數(shù)只是許多可能中的一種情況,為了使用Pearson線性相關(guān)系數(shù)必須假設(shè)數(shù)據(jù)是成對(duì)地從正態(tài)分布中取得的,并且數(shù)據(jù)至少在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù).
14、如果這兩條件 不符合,一種可能就是采用 Spearman秩相關(guān)系數(shù)來代替 Pearson線性相關(guān)系數(shù).Spearman秩相關(guān)系 數(shù)是一個(gè)非參數(shù)性質(zhì)(與分布無關(guān))的秩統(tǒng)計(jì)參數(shù),由Spearman在1904年提出,用來度量?jī)蓚€(gè)變量之間聯(lián)系的強(qiáng)弱(Lehmann and D'Abrera 1998) . Spearman秩相關(guān)系數(shù)可以用于 R檢驗(yàn),同樣可以 在數(shù)據(jù)的分布使得 Pearson線性相關(guān)系數(shù)不能用來描述或是用來描述或?qū)е洛e(cuò)誤的結(jié)論時(shí),作為變 量之間單調(diào)聯(lián)系強(qiáng)弱的度量.在統(tǒng)計(jì)學(xué)中,Spearman秩相關(guān)系數(shù)或稱為 Spearman的p,是由Charles Spearman命名的,一般
15、 用希臘字母ps (rho)或是%表示.Spearman秩相關(guān)系數(shù)是一個(gè)非參數(shù)的度量?jī)蓚€(gè)變量之間的統(tǒng)計(jì) 相關(guān)性的指標(biāo),用來評(píng)估當(dāng)用單調(diào)函數(shù)來描述是兩個(gè)變量之間的關(guān)系有多好.在沒有重復(fù)的數(shù)據(jù)的 情況下,如果一個(gè)變量是兩外一個(gè)變量的嚴(yán)格單調(diào)的函數(shù),那么二者之間的Spearman秩相關(guān)系數(shù)就是+1或-1,稱變量完全Spearman相關(guān).Spearman秩相關(guān)系數(shù)通常被認(rèn)為是排列后的變量之間的Pearson線性相關(guān)系數(shù),在實(shí)際計(jì)算中,有更簡(jiǎn)單的計(jì)算 恁的方法.假設(shè)原始的數(shù)據(jù)xi, yi已經(jīng)按從大到小的順序排列,記x'i, y'i為原xi,yi在排列后數(shù)據(jù)所在的位置,那么x'i,
16、 y'i稱為變量x'i, y'i的秩次,那么di=x'i-y'i為xi, yi的秩次之差.如果沒有相同的秩次,那么 e可由下式計(jì)算6、d: ;s =1 -12n(n -1)如果有相同的秩次存在,那么就需要計(jì)算秩次之間的Pearson的線性相關(guān)系數(shù):= x i(xi -x)(y -y) 、一 i (x - x)i (y -y)一個(gè)相同的值在一列數(shù)據(jù)中必須有相同的秩次,那么在計(jì)算中采用的秩次就是數(shù)值在按從大到 小排列時(shí)所在位置的平均值.表1為一個(gè)球平均秩次的例子.注意在秩次相同時(shí),用他們?cè)谂帕泻蟮臄?shù)據(jù)中所在的位置的平均值作為秩次. 表1有相同數(shù)值時(shí)秩次的計(jì)算
17、變量Xi從大到小排列時(shí)的位置秩次x'i0.8551.24(4+3)/2=3.51.23(4+3)/2=3.52.3221811Spearman秩相關(guān)系數(shù)的符號(hào)表示 X和Y之間聯(lián)系的方向.如果 Y隨著X的增加而增加,那么 Spearman秩相關(guān)系數(shù)是正的, 反之,假設(shè)果Y隨著X的增加而減小,Spearman秩相關(guān)系數(shù)就是負(fù)的. Spearman秩相關(guān)系數(shù)為0表示隨著X的增加,Y沒有增大或減小的趨勢(shì).隨著 X和Y越來越接近 嚴(yán)格單調(diào)的函數(shù)關(guān)系,Spearman秩相關(guān)系數(shù)在數(shù)值上越來越大.當(dāng) X、丫有嚴(yán)格單增的關(guān)系是,它 們之間的Spearman秩相關(guān)系數(shù)為1,反之,在X、Y有嚴(yán)格單減的關(guān)系
18、時(shí),Spearman秩相關(guān)系數(shù)為 -1.嚴(yán)格單增的關(guān)系為對(duì)于任意的兩對(duì)數(shù)據(jù)值Xi , Yi和Xj , Yj , Xi-Yi和Xj-Yj都具有相同的符號(hào).嚴(yán)格單減那么上述差值在任何時(shí)候都具有相反的符號(hào).Spearman秩相關(guān)系數(shù)經(jīng)常被稱為非參數(shù)相關(guān)系數(shù),這具有兩層含義:第一,只要在X和Y具有單調(diào)的函數(shù)關(guān)系的關(guān)系,那么X和Y就是完全Spearman相關(guān)的,這與 Pearson相關(guān)性不同,后者只有在變量之間具有線性關(guān)系時(shí)才是完全相關(guān)的.兩外一個(gè)關(guān)于Spearman秩相關(guān)系數(shù)的非參數(shù)性的理解就是樣本之間精確的分布可以在不知道X和Y的聯(lián)合概率密度函數(shù)時(shí)獲得.Spearman correlation=l不管變量之間的關(guān)系是不是線性的,只要變量之間具有嚴(yán)格的單調(diào)增加的函數(shù)關(guān)系,變量之間的Spearman秩相關(guān)系數(shù)就是1,相同情況下,Pearson相關(guān)性在變量不是線性函數(shù)關(guān)系時(shí),并不是 完全相關(guān)的.Spearman correlation=0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年超額保險(xiǎn)合同賠付限制
- 2025版城市更新改造項(xiàng)目投標(biāo)承諾書規(guī)范范本3篇
- 2025版木雕工藝品制作木工分包合同范本4篇
- 2025版企業(yè)銷售業(yè)務(wù)員合作協(xié)議范本3篇
- 2025年度豬圈建造與農(nóng)業(yè)循環(huán)經(jīng)濟(jì)合同4篇
- 二零二五版電影院裝修升級(jí)合同范本3篇
- 2025版學(xué)校教師聘用合同范本:職稱晉升條款詳解3篇
- 2025年度體育場(chǎng)館草坪鋪設(shè)與維護(hù)服務(wù)合同4篇
- 2025年度貨車司機(jī)勞動(dòng)合同(附交通事故責(zé)任及賠償)
- 2025年度智能科技股權(quán)眾籌協(xié)議書模板
- 高考語(yǔ)文復(fù)習(xí)【知識(shí)精研】《千里江山圖》高考真題說題課件
- 河北省承德市2023-2024學(xué)年高一上學(xué)期期末物理試卷(含答案)
- 高中物理斜面模型大全(80個(gè))
- 012主要研究者(PI)職責(zé)藥物臨床試驗(yàn)機(jī)構(gòu)GCP SOP
- 農(nóng)耕研學(xué)活動(dòng)方案種小麥
- 2024年佛山市勞動(dòng)合同條例
- 污水管網(wǎng)規(guī)劃建設(shè)方案
- 城鎮(zhèn)智慧排水系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- 采購(gòu)管理制度及流程采購(gòu)管理制度及流程
- 五年級(jí)美術(shù)下冊(cè)第9課《寫意蔬果》-優(yōu)秀課件4人教版
- 節(jié)能降耗課件
評(píng)論
0/150
提交評(píng)論