




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、關于相關分析第一張,PPT共五十三頁,創(chuàng)作于2022年6月事物之間的聯系總是錯綜復雜的,任何事物的變化與其它事物是相互聯系和相互影響的。事物之間的關系可分為兩類,一類是函數關系,一類是統(tǒng)計關系。所謂函數關系指的是兩事物之間的一種一一對應的關系,即當一個變量 取一定值時,另一變量 可以依確定的函數取唯一確定的值。另一類普遍存在的關系是統(tǒng)計關系。統(tǒng)計關系指的是兩事物之間的一種非一一對應關系,即當一個變量 取一定值時,另一變量 無法依確定的函數取唯一確定的值,例如,家庭收入和支出、子女身高和父母身高之間的關系等。第二張,PPT共五十三頁,創(chuàng)作于2022年6月事物之間的函數關系比較容易分析和測度,而事
2、物之間的統(tǒng)計關系卻不像函數關系那樣直接,但確實普遍存在,并且有的關系強,有的關系弱,程度各有差異。如何測度事物間統(tǒng)計關系的強弱是人們關注的問題。相關分析和回歸分析是以不同的方式測度事物間統(tǒng)計關系的非常有效的工具。相關分析通過圖形和數值兩種方式,能夠有效地揭示事物之間統(tǒng)計關系的強弱程度。在進行相關分析的時候,散點圖是非常重要的工具,分析前最好用繪制散點圖,已初步判斷變量之前是否存在相關趨勢,該趨勢是否為直線趨勢,忽視散點圖的作用直接進行相關分析很可能得出錯誤結論。雖然散點圖比較形象直觀,但不是很精確。相關分析更精確的方法是通過統(tǒng)計指標描述變量之間的關系。比較常見的是相關系數。第三張,PPT共五十
3、三頁,創(chuàng)作于2022年6月8.2.1散點圖含義繪制散點圖是相關分析過程中極為常用且非常直觀的分析方式。它將數據以點的形式在直角平面上。通過觀察散點圖能夠直觀地發(fā)現變量間的統(tǒng)計關系以及它們的強弱程度和數據對的可能走向,在實際分析中,散點圖經常表現出某些特定的形式。如極大多數的是數據點組成類似于橄欖球的形狀,或集中形成一根棒狀,而剩余的少數數據點則零散地分布在四周,通常橄欖球和棒狀代表了數據對的主要結構和特征,可以利用曲線將這種主要結構的輪廓描述出來,使數據的主要特征更突顯。第四張,PPT共五十三頁,創(chuàng)作于2022年6月繪制散點圖的基本操作步驟如下:1選擇菜單圖形 舊對話框 散點圖,出現如下圖的對
4、話框。第五張,PPT共五十三頁,創(chuàng)作于2022年6月2 選擇散點圖的類型。SPSS提供了5種類型的散點圖。3 根據所選擇的散點圖類型,比如選擇【簡單散點圖】,單擊【定義】出現如圖8-2的對話框第六張,PPT共五十三頁,創(chuàng)作于2022年6月簡單散點圖是表示一對變量間統(tǒng)計關系的散點圖。應定義的選項主要有:指定某個變量為散點圖的縱軸變量,選【Y軸(Y)】框中。指定某個變量為散點圖的橫軸變量,選【Y軸(Y)】框中??芍付ㄗ鳛榉纸M的變量到【設置標記】 框中,表示按該變量的不同取值將樣本數據分成若干組,并在一張圖上分別以不同顏色繪制個散點圖。該項可以省略。可指定標記變量到【標注個案】框中,表示將標記變量的
5、各變量標記在散點圖的相應點的旁邊。該項可以省略。 不同類型的散點圖具體的定義選項略有差別,相關分析主要用簡單散點圖。其他四種類型的散點圖在第十章圖形制作中再做具體介紹。第七張,PPT共五十三頁,創(chuàng)作于2022年6月例8.1某科學基金會的管理人員欲分析從事數學研究工作的中等或較高水平的數學家的年工資額y與他們的研究成果的質量指標x1,從事研究工作的時間x2以及能夠獲得資助x3的指標之間的關系,調查了24位數學家,得到如表8-1數據.試繪制出簡單散點圖。第八張,PPT共五十三頁,創(chuàng)作于2022年6月yx1x2x333.23.59440.35.320638.75.1185.946.85.8336.4
6、41.44.231537.56136.7396.8257.540.75.530630.13.153.552.97.247838.24.525531.84.9115.843.38238.344.16.535742.86.6397.433.63.7214.334.26.277487407.6384354.935.94.523540.45.9336.436.85.6276.145.24.8345.535.13.9154.4表8-1 24位數學家相關數據第九張,PPT共五十三頁,創(chuàng)作于2022年6月具體操作步驟:1選擇菜單圖形 舊對話框 散點圖,出現如圖8-1的對話框。2選擇散點圖的類型【簡單散點圖】
7、。3單擊【定義】,出現如圖8-2的對話框,把左側“數學家的年工資”指定到右側【Y軸】中,把“研究工作時間”指定到【X軸】中。得到如圖8-3的散點圖,從散點圖中可以看出,研究工作時間與年工資具有較強的相關關系。第十張,PPT共五十三頁,創(chuàng)作于2022年6月第十一張,PPT共五十三頁,創(chuàng)作于2022年6月雖然散點圖能夠直觀展現變量之間的統(tǒng)計關系,但并不精確。相關系數則以數值的方式精確地反映了兩個變量間線性相關的強弱程度。利用相關關系進行變量間線性關系的分析通常需要完成以下兩大步驟:第一,計算樣本相關系數 。利用樣本數據計算樣本相關系數。樣本相關系數反映了兩變量間線性相關程度的強弱。對不同類型的變量
8、應采用不同的相關關系指標,但它們的取值范圍和含義都是相同的第十二張,PPT共五十三頁,創(chuàng)作于2022年6月 相關系數 的取值在-1至+1之間。 表示兩變量存在正的線性相關關系; 表示兩變量存在負的線性相關關系。 表示兩變量存在完全正相關關系; 表示兩變量存在完全負相關關系; 表示兩變量不存在線性相關關系。 表示兩變量之間具有較強的線性關系; 表示兩變量之間具有較弱的線性關系。第十三張,PPT共五十三頁,創(chuàng)作于2022年6月第二,對樣本來自的兩總體是否存在顯著的線性關系進行推斷。由于存在抽樣的隨機性和樣本量可能較小等原因,通常樣本相關關系數不能直接用來說明樣本來自的兩總體是否具有顯著的線性相關性
9、,而需要通過假設檢驗的方式對樣本來自的總體是否存在顯著的線性相關進行統(tǒng)計推斷。第十四張,PPT共五十三頁,創(chuàng)作于2022年6月基本步驟是:提出零假設,即兩總體無線性相關性。選擇檢驗統(tǒng)計量。對不同類型的變量應采用不同的相關系數,對應也應采用不同的檢驗統(tǒng)計量。計算檢驗統(tǒng)計量的觀測值和對應的概率 值。決策。如果檢驗統(tǒng)計量的概率 值小于給定的顯著性水平 ,應拒絕零假設,認為兩總體間存在顯著的線性相關性;反之,如果檢驗統(tǒng)計量的概率 值大于給定的顯著性水平 ,則不能拒絕零假設,可以認為兩總體不存在顯著的線性相關性。 對不同類型的變量應采用不同的相關系數來度量,常用相關系數Pearson 簡單相關系數、Sp
10、earman相關系數和Kendall 相關等。第十五張,PPT共五十三頁,創(chuàng)作于2022年6月Pearson 簡單相關系數用來度量兩定距型變量間的線性相關性。如測度收入和儲蓄、身高和體重、工齡和收入等變量間的線性相關關系時可用Pearson 簡單相關系數,它的數學定義為 (8.1)第十六張,PPT共五十三頁,創(chuàng)作于2022年6月 為樣本數, 和 分別為兩變量的變量值 進一步得知簡單相關系數也即 (8.2)第十七張,PPT共五十三頁,創(chuàng)作于2022年6月Pearson 簡單相關系數的檢驗統(tǒng)計量為 統(tǒng)計量,其數學定義為SPSS將自動計算Pearson 簡單相關系數、 檢驗統(tǒng)計量的觀測值和對應的概率
11、 值。第十八張,PPT共五十三頁,創(chuàng)作于2022年6月 Spearman等級相關系數用來度量定序變量間的線性相關關系。該系數的設計思想與Pearson 簡單相關系數完全相同,仍然可依照式(8.1)計算,相應的指標特征也相似。然而在計算Spearman等級相關系數時,由于數據為非定距的,因此計算時并不直接采用原始數據 ,而是利用數據的秩,即將兩變量的秩 代替 代入式(8.1)中,于是其中的 和 的取值范圍被限制在1至 n 之間, 第十九張,PPT共五十三頁,創(chuàng)作于2022年6月且式(8.1)可被簡化為其中第二十張,PPT共五十三頁,創(chuàng)作于2022年6月小樣本下,在零假設成立時Spearman等級
12、相關系數服從Spearman分布;在大樣本,Spearman等級相關系數的檢驗統(tǒng)計量為 統(tǒng)計量,其數學定義為第二十一張,PPT共五十三頁,創(chuàng)作于2022年6月 Kendall 相關采用非參數檢驗方法用來度量定序變量間的線性相關關系。它利用變量秩數據計算一致對數目 (U) 和非一致對數目(V)第二十二張,PPT共五十三頁,創(chuàng)作于2022年6月在小樣本下Kendall 服從Kendall 分布在大樣本下采用的檢驗統(tǒng)計量為 統(tǒng)計量近似服從標準正態(tài)分布SPSS將自動計算Kendall 相關、 檢驗統(tǒng)計量的觀測值和對應的概率 P值。第二十三張,PPT共五十三頁,創(chuàng)作于2022年6月在利用SPSS計算兩變
13、量間的相關系數之前應按一定格式組織好數據,應定義兩個SPSS變量分別存放相應兩變量的變量值。 計算相關系數的基本操作步驟是:1 選擇菜單中分析相關雙變量。如圖8-42 選擇參加計算相關系數的變量到【變量】框。3 在 【相關系數】 框中選擇計算哪種相關系數。第二十四張,PPT共五十三頁,創(chuàng)作于2022年6月4 在【顯著性檢驗】 框中選擇輸出相關系數檢驗的雙側檢驗的概率值還是單側檢驗的概率 值。5 選中【標記顯著性相關】 選項表示分析結果中除顯示統(tǒng)計檢驗的概率 值以外,還輸出星號標記,以標明變量間的相關性是否顯著;不選中則不輸出星號標記。6 在 【選項】 按鈕中的【統(tǒng)計量】 選項中,若選中叉積偏差
14、和協方差,表示輸出各變量的離差平方和、樣本方差、兩變量的叉積離差和協方差。如圖8-5所示第二十五張,PPT共五十三頁,創(chuàng)作于2022年6月第二十六張,PPT共五十三頁,創(chuàng)作于2022年6月第二十七張,PPT共五十三頁,創(chuàng)作于2022年6月例8.2 以下是29名中學生的編號、身高、體重和肺活量數據,求身高、體重和肺活量之間的Pearson相關系數以及Spearman相關系數第二十八張,PPT共五十三頁,創(chuàng)作于2022年6月第二十九張,PPT共五十三頁,創(chuàng)作于2022年6月具體操作步驟:1、按照順序分析分析相關雙變量。如圖8-42、在【雙變量相關分析】框中,選擇“身高”“體重”“肺活量”到【變量框
15、】。在【相關系數】中選擇Pearson以及Spearman,在【顯著性檢驗】中選擇 雙側檢驗 。3、選中 【標記顯著性相關】4、在 【選項】 按鈕中的 【統(tǒng)計量】 選項中將兩個選項選中如圖8-5分析結果如表8-3,8-4,8-5所示第三十張,PPT共五十三頁,創(chuàng)作于2022年6月表8-3給出了身高、體重、肺活量的描述性統(tǒng)計分析第三十一張,PPT共五十三頁,創(chuàng)作于2022年6月表8-4給出了Pearman相關系數,從表中可以看出,在0.01的顯著性水平下,身高、體重、肺活量顯著相關。第三十二張,PPT共五十三頁,創(chuàng)作于2022年6月表8-5,給出了Spearman相關系數,從表中可以看出,在0.
16、01的顯著性水平下,身高、體重、肺活量顯著相關。第三十三張,PPT共五十三頁,創(chuàng)作于2022年6月8.4.1 偏相關分析和偏相關系數 相關分析中研究兩事物之間的線性相關性是通過計算相關系數等方式實現,并通過對相關系數值得大小來判定事物之間的線性相關強弱。然而,就相關系數本身來講,它未必是兩事物間線性相關強弱的真實體現,往往有夸大的趨勢。第三十四張,PPT共五十三頁,創(chuàng)作于2022年6月單純利用相關系數來評價變量間的相關顯然是不準確的,而需要在剔除其他因素影響的條件下計算變量間的相關。偏相關分析的意義就在于此。偏相關分析也凈相關分析,它在控制其他變量的線性影響的條件下分析兩變量間的線性相關,所采
17、用的工具是偏相關系數(凈相關關系)??刂谱兞總€數為一時,偏相關系數稱為一階偏相關;當控制變量個數為兩個時,偏相關系數稱為二階偏相關;當控制變量個數為零個時,偏相關系數稱為零階偏相關,也就是相關系數。第三十五張,PPT共五十三頁,創(chuàng)作于2022年6月利用偏相關系數進行變量間凈關系分析通常需要完成以下兩大步驟:第一 計算樣本的偏相關系數利用樣本數據計算樣本的偏相關系數,它反映了兩變量間凈相關的程度強弱。在分析變量 和 之間的凈相關時,當控制了 的線性作用后, 和 之間的一階偏自相關系數定義為第三十六張,PPT共五十三頁,創(chuàng)作于2022年6月第二,對樣本來自的兩總體是否存在顯著的凈相關進行推斷凈相關
18、分析檢驗的基本步驟是1 提出零假設2 選擇檢驗統(tǒng)計量3 決策4 計算檢驗統(tǒng)計量的觀測值和對應的概率 P值。第三十七張,PPT共五十三頁,創(chuàng)作于2022年6月在利用SPSS進行偏相關分析前應按一定格式組織好數據,應定義若干個SPSS變量分別存放相應變量的變量值。偏相關分析的基本操作步驟是:1 選擇菜單分析相關偏相關。如圖8-62 選擇參與分析的變量到【變量】框中。3 選擇一個或多個控制變量到 【控制】 框中。第三十八張,PPT共五十三頁,創(chuàng)作于2022年6月第三十九張,PPT共五十三頁,創(chuàng)作于2022年6月4 在 【顯著性檢驗】 框中選擇輸出相關系數檢驗的雙側檢驗概率 P值還是單側檢驗概率P值。
19、5 在 【選項】 按鈕中的 【統(tǒng)計量】 選項中,選中 【零階相關相關系數】 表示輸出零階偏相關系數。如圖8-7至此,SPSS將自動進行偏相關分析和統(tǒng)計檢驗,并將結果輸出到輸出窗口。第四十張,PPT共五十三頁,創(chuàng)作于2022年6月第四十一張,PPT共五十三頁,創(chuàng)作于2022年6月例8.4 以例8.2為例,求分別以體重和身高為控制變量的偏相關系數。具體操作如圖8-6,8-7,分析結果如表8-9,8-10第四十二張,PPT共五十三頁,創(chuàng)作于2022年6月表8-9給出了以體重為控制變量的偏相關系數,控制體重后,身高與肺活量的相關系數變?yōu)?.102,P值為0.607,沒有顯著的統(tǒng)計意義,與無控制變量的零
20、階相關系數0.599相差很大。第四十三張,PPT共五十三頁,創(chuàng)作于2022年6月表8-10給出了以身高為控制變量的偏相關系數,控制身高后,體重與肺活量的相關系數變?yōu)?.571,與零階相關系數0.751有下降,但仍有統(tǒng)計意義。第四十四張,PPT共五十三頁,創(chuàng)作于2022年6月8.5.1距離相關分析的思想簡單相關分析以及偏相關分析研究的都是變量之間的線性相關關系,但是在現實生活中,有很多情況下,變量之間的關系可能不是線性關系。且無論在簡單相關分析還是偏相關分析中,我們關心的都是某兩個變量的相關性,但實際問題往往比較復雜,涉及的變量很多,且每個變量所代表的信息有可能重疊,此時,可以通過距離相關分析,考察他們之間是否具有相似性進而研究其相互關系。第四十五張,PPT共五十三頁,創(chuàng)作于2022年6月距離相關分析是對樣品或者變量之間相似或不相似程度的一種度量,計算的是一種廣義距離。距離相關分析可以用于度量樣品之間的相互接近的程度也可用于度量變量之間的相互接近程度。但距離相關分析一般不單獨使用,而是作為聚類分析,因子分析等統(tǒng)計方法的預分析過程,探測復雜數據的內在結構,以得到初步的分析線索,為進一步分析做準備。距離相關分析根據統(tǒng)計量的不同,分為不相似性測度,是通過計算距離來表示的,其數值越大,表示相似的程度就越弱,對于相似
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 認知能力發(fā)展教育
- 高中開學安全教育指南
- 甲狀腺切口引流管的護理
- 《智能網聯整車綜合測試》課件-超車場景測試評價
- 《社會財務共享服務實務》課件-個人所得稅申報
- 預防流感安全課件
- 預應力混凝土工程課件
- 船員上船前培訓指南
- 韻母un的課件教學課件
- 音樂鑒賞課件作品介紹
- 《樹立正確的“三觀”》班會課件
- 園林綠化移樹合同
- 醫(yī)療機構保潔人員培訓
- 企業(yè)員工健康促進計劃的設計與實施
- 助理工程師答辯演示
- 成人失禁相關性皮炎的預防與護理-護理團標
- 裝載機的基礎知識-裝載機的結構及儀表
- 現代低壓電器技術 課件 2. 常見低壓電器
- 浙江天垣新型墻體材料有限公司年產40萬立方米ALC板材項目環(huán)境影響報告
- 放射事件應急處理預案牙科
- GSV2.0反恐安全管理手冊
評論
0/150
提交評論