回歸分析與聚類分析_第1頁
回歸分析與聚類分析_第2頁
回歸分析與聚類分析_第3頁
回歸分析與聚類分析_第4頁
回歸分析與聚類分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

回歸分析與聚類分析1第一頁,共二十八頁,編輯于2023年,星期五8.1一元線性回歸(1)確定性關(guān)系—對應(yīng)關(guān)系、函數(shù)關(guān)系。其變量稱確定性變量。(2)相關(guān)關(guān)系—對應(yīng)的變量稱隨機變量。沒有一一對應(yīng)的函數(shù)關(guān)系,但有統(tǒng)計規(guī)律—散點圖、回歸方程。

一元回歸分析——研究單因素與試驗指標間相關(guān)關(guān)系;多元回歸分析——研究多因素與試驗指標間相關(guān)關(guān)系;線性回歸、非線性回歸——相關(guān)關(guān)系為線性或非線性。8.1.1概述科研與生產(chǎn)中,變量之間的關(guān)系有兩種情況2第二頁,共二十八頁,編輯于2023年,星期五設(shè)有一組試驗數(shù)據(jù)xi,yi(i=1,2,…,n),其中x是自變量,y是因變量。若x,y符合線性關(guān)系,或已知經(jīng)驗公式為直線形式,即:8.1一元線性回歸8.1.2回歸方法

a,b稱為回歸系數(shù);是由xi代入回歸方程的計算值,稱為回歸值。3第三頁,共二十八頁,編輯于2023年,星期五與yi之間的偏差稱為殘差,用ei表示,則有:殘差平方值(考慮到殘差有正有負)之和為:顯然,只有殘差平方和最小時,回歸方程與試驗值的擬合程度最好。殘差平方和SSe為a,b的函數(shù),即:SSe=f(a,b),為使SSe值到達極小,根據(jù)極值原理,只要對上式分別對a,b求偏導(dǎo)數(shù),并令其等于零,求解方程組即可求得a,b之值————最小二乘法原理。4第四頁,共二十八頁,編輯于2023年,星期五要使誤差最小,則對方程組求解,即可得到回歸系數(shù)a,b的計算式:正規(guī)方程組5第五頁,共二十八頁,編輯于2023年,星期五為了方便計算,令:于是:6第六頁,共二十八頁,編輯于2023年,星期五(1)相關(guān)系數(shù)檢驗法

先求出回歸方程的相關(guān)系數(shù),然后與臨界值進行對比:計算值>臨界值——兩變量不是獨立,相關(guān)關(guān)系成立;計算值<臨界值——兩變量獨立,相關(guān)關(guān)系不成立。8.1.3一元線性回歸效果的檢驗相關(guān)系數(shù)檢驗法、F檢驗即方差分析法——檢驗回歸方程的可靠性或可信性7第七頁,共二十八頁,編輯于2023年,星期五相關(guān)系數(shù)用下式求出回歸系數(shù)b與相關(guān)系數(shù)r的關(guān)系為:

b與r有相同的符號決定系數(shù)——相關(guān)系數(shù)的平方r2

P101,例8-48第八頁,共二十八頁,編輯于2023年,星期五有一定的線性關(guān)系

有一定的線性關(guān)系

無線性關(guān)系

無線性關(guān)系

相關(guān)系數(shù)的特點:

0≤|r|≤1完全線性相關(guān)完全線性相關(guān)9第九頁,共二十八頁,編輯于2023年,星期五(2)F檢驗—方差分析法(1)計算離差平方和回歸平方和—回歸值與算術(shù)平均值的偏差總離差平方和—試驗值yi與其算術(shù)平均值的偏差殘差平方和—試驗值yi與回歸值的偏差三種平方和之間有下述關(guān)系:

SST=SSR+SSe

SSR還可以用更簡單的公式計算:

10第十頁,共二十八頁,編輯于2023年,星期五(2)計算自由度

總離差平方和SST的自由度為:fT=n-1回歸平方和SSR的自由度為:fR

=1殘差平方和SSe的自由度為:fe=n-2顯然,三種自由度之間的關(guān)系為:fT

=fR+fe

(3)計算均方——離差平方和/自由度回歸平方和的均方殘差平方和的均方(4)F檢驗服從自由度為(fR,fe)的F分布11第十一頁,共二十八頁,編輯于2023年,星期五一元線性回歸方差分析表1.若F>F0.01(fR,fe),稱x與y有非常顯著的線性關(guān)系,用兩個“**”號表示2.若F0.05(fR,fe)<F<F0.01(fR,fe),稱x與y有顯著的線性關(guān)系,用一個“*”號表示;3.若F<F0.05(fR,fe),則稱x與y沒有明顯著的線性關(guān)系,回歸方程不可信。差異源SSdfMSF顯著性

回歸SSR1MSR=SSRMSR

/MSe誤差SSen-2MSe=SSe/(n-2)總和SSTn-112第十二頁,共二十八頁,編輯于2023年,星期五8.2二元線性回歸分析設(shè)試驗指標(因變量)y與多個試驗因素(自變量)xj,(j=1,2,…,m)之間的近似函數(shù)關(guān)系式為:則上式稱為因變量y關(guān)于自變量x1,x2,…,xm的多元線性回歸方程,其中b1,b2,…,bm稱為偏回歸系數(shù)設(shè)y有n組試驗數(shù)據(jù)x1i,x2i,…,xmi,yi(i=1,2,…,n),如果將自變量x1i,x2i,…,xmi

,代入上述回歸方程,就可以得到對應(yīng)的函數(shù)計算值,即回歸值。殘差平方和為:

8.2.1二元線性回歸方程13第十三頁,共二十八頁,編輯于2023年,星期五根據(jù)最小二乘法原理,要使Q達到最小,應(yīng)滿足以下條件:由此可以得到如下的正規(guī)方程組:14第十四頁,共二十八頁,編輯于2023年,星期五方程組的解就是偏回歸系數(shù)8.2.2二元線性回歸方程的顯著性檢驗4.3.2.1F檢驗法

總平方和:回歸平方和:殘差平方和:

15第十五頁,共二十八頁,編輯于2023年,星期五二元線性回歸方差分析表差異源SSfMSF顯著性

回歸SSR2MSR=SSR/2MSR

/MSe誤差SSen-3MSe=SSe/(n-3)總和SSTn-11.若F>F0.01(fR,fe),稱y與x1,x2,…,xm有非常顯著的線性關(guān)系,用兩個“**”號表示2.若F0.05(fR,fe)<F<F0.01(fR,fe),稱y與x1,x2,…,xm有顯著的線性關(guān)系,用一個“*”號表示;3.若F<F0.05(fR,fe),則稱y與x1,x2,…,xm沒有明顯著的線性關(guān)系,回歸方程不可信。16第十六頁,共二十八頁,編輯于2023年,星期五8.3主成分分析多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,多變量中可能存在信息的重疊。因此,人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息.

這實際上是一種“降維”的思想。17第十七頁,共二十八頁,編輯于2023年,星期五主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標相差不多時為止。這就是主成分分析的思想。18第十八頁,共二十八頁,編輯于2023年,星期五在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。

要討論的問題是:

(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析當(dāng)分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。19第十九頁,共二十八頁,編輯于2023年,星期五(2)選擇幾個主成分主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟意義20第二十頁,共二十八頁,編輯于2023年,星期五8.3.2主成分的計算

設(shè)兩個變量(x1,x2)的樣板數(shù)據(jù)如下表X1x11x12…..x1nx2x21x22…..x2n求得平均值和協(xié)和方差矩陣分別為并有適當(dāng)選?。╝1,a2)使y1處于方差最大的方向。21第二十一頁,共二十八頁,編輯于2023年,星期五設(shè)總體X的樣本數(shù)據(jù)陣為則樣本協(xié)方差陣S及樣本相關(guān)陣R分別為22第二十二頁,共二十八頁,編輯于2023年,星期五其中下面以樣本協(xié)方差陣S作為的估計或用R作為總體相關(guān)陣的估計,然后按上節(jié)方法求樣本主成分。23第二十三頁,共二十八頁,編輯于2023年,星期五8.4聚類分析8.4.1概述聚類分析的基本思想是在樣品之間定義距離,在樣品之間定義相似系數(shù),距離或相似系數(shù)代表樣品或者變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關(guān)系密切的類聚集到一個小的分類單位,然后逐步擴大,使得關(guān)系疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚集完畢,形成一個表示親疏關(guān)系的譜系圖,依次按照某些要求對樣品(或變量)進行分類.24第二十四頁,共二十八頁,編輯于2023年,星期五(距離可以自己定義,只要滿足距離的條件)8.4.2樣品間的距離25第二十五頁,共二十八頁,編輯于2023年,星期五一般情況下,我們常用到下面定義的幾種距離歐氏距離(Euclideandistance)絕對距離(Block距離)明考斯基距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論