數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用_第1頁
數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用_第2頁
數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用_第3頁
數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用_第4頁
數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘數(shù)據(jù)挖掘回歸分析技術(shù)在建模中的應(yīng)用回歸分析技術(shù)在建模中的應(yīng)用Never forget how to dreamcontents回歸分析技術(shù)概述31回歸分析易存在誤區(qū)23回歸分析建模方法3回歸分析技術(shù)應(yīng)用4Never forget how to dream回歸分析技術(shù)概述回歸分析技術(shù)概述概述發(fā)展內(nèi)容及模型建立模型步驟Never forget how to dream1Never forget how to dream 從高斯(Gauss)提出最小二乘法算起,回歸分析已經(jīng)有200年的歷史。統(tǒng)計(jì)學(xué)的許多方法與回歸分析有著密切聯(lián)系,如時(shí)間序列分析、主成分分析、判別分析等。 矩陣?yán)碚摵陀?jì)算機(jī)技術(shù)

2、的發(fā)展為回歸分析模型的應(yīng)用提供了極大的方便。近年來的非參數(shù)統(tǒng)計(jì)、自助法、刀切法、經(jīng)驗(yàn)貝葉斯估計(jì)對(duì)回歸分析起著滲透和促進(jìn)作用。1.1 回歸分析技術(shù)發(fā)展Never forget how to dream一元線性回歸線性回歸 多元線性回歸多個(gè)因變量與多個(gè)自變量的回歸討論如何從數(shù)據(jù)推斷回歸模型基本假設(shè)的合理性當(dāng)基本假設(shè)不成立時(shí)如何對(duì)數(shù)據(jù)進(jìn)行修正回歸診斷判定回歸方程擬合的效果選擇回歸函數(shù)的形式自變量選擇的準(zhǔn)則回歸變量的選擇回歸分析逐步回歸分析方法嶺回歸參數(shù)估計(jì)方法的改進(jìn)主成分回歸偏最小二乘法一元非線性回歸非線性回歸 分段回歸多元非線性回歸含有定性變量的回歸自變量含定性變量的情況因變量是定性變量的情況1.

3、2 回歸分析的主要內(nèi)容及其一般模型Never forget how to dream 設(shè)置指標(biāo)變量收集整理數(shù)據(jù)構(gòu)造理論模型估計(jì)模型參數(shù)修改 N 模型運(yùn)用Y因素分析變量控制 決策預(yù)測(cè)實(shí) 際 問 題模型檢驗(yàn)1.3 建立實(shí)際問題回歸模型的過程N(yùn)ever forget how to dream回歸分析技術(shù)易存在誤區(qū)2認(rèn)識(shí)誤區(qū)回歸建模指標(biāo)變量的設(shè)置變量數(shù)據(jù)的收集和整理回歸擬合效果與檢驗(yàn)回歸方程的解釋與應(yīng)用Never forget how to dream 回歸分析研究的主要對(duì)象是客觀事物變量間的依賴關(guān)系, 客觀事物變量間依賴關(guān)系的普遍性決定了回歸分析方法的廣泛應(yīng)用性。它是建立在對(duì)客觀事物進(jìn)行大量試驗(yàn)和觀

4、察的基礎(chǔ)上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計(jì)規(guī)律性的統(tǒng)計(jì)方法?;貧w分析方法是通過建立統(tǒng)計(jì)模型研究變量間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)、模型預(yù)測(cè)的一種有力的工具。2.1 回歸分析認(rèn)識(shí)誤區(qū)Never forget how to dream 統(tǒng)計(jì)學(xué)科發(fā)展到今天已經(jīng)非常豐富繁茂,統(tǒng)計(jì)學(xué)的分支和研究方向也異常細(xì)化。近些年來,統(tǒng)計(jì)學(xué)的應(yīng)用隨著計(jì)算機(jī)的飛速發(fā)展很受人們重視,在諸多現(xiàn)代統(tǒng)計(jì)分析方法中回歸分析是最基本最實(shí)用應(yīng)用最廣泛的統(tǒng)計(jì)學(xué)方法。許多統(tǒng)計(jì)學(xué)分支都是在回歸分析模型的基礎(chǔ)上通過改進(jìn)、推廣、提升為新的統(tǒng)計(jì)理論及分支。如時(shí)間序列分析時(shí)間序列分析作為現(xiàn)代統(tǒng)計(jì)學(xué)的一個(gè)重要分支就是序列自回歸模型的

5、發(fā)展和豐富。2.1 回歸分析技術(shù)認(rèn)識(shí)誤區(qū)Never forget how to dream 然而,目前回歸分析受重視程度不高,認(rèn)為回歸分析是統(tǒng)計(jì)學(xué)里的小兒科,所講的回歸分析內(nèi)容太簡(jiǎn)單,甚至連模型的基本假定都忽略,在運(yùn)用回歸分析技術(shù)時(shí)容易犯錯(cuò)。2.1 回歸分析技術(shù)認(rèn)識(shí)誤區(qū)Never forget how to dream 回歸分析模型主要是揭示事物間相關(guān)變量的數(shù)量回歸分析模型主要是揭示事物間相關(guān)變量的數(shù)量聯(lián)系。聯(lián)系。首先要根據(jù)所研究問題的目的設(shè)置因變量,然后再選取與因變量有統(tǒng)計(jì)關(guān)系的一些變量做為自變量。建立實(shí)際問題的回歸分析模型一定要搞清楚哪個(gè)變量是因變量,哪些指標(biāo)是自變量。 通常情況下,所研究

6、的實(shí)際問題因變量與自變量之通常情況下,所研究的實(shí)際問題因變量與自變量之間應(yīng)具有一定的因果關(guān)系。間應(yīng)具有一定的因果關(guān)系。因此在研究某種現(xiàn)象時(shí),必須根據(jù)具體研究目的,利用專業(yè)理論,從定性角度來確定某種經(jīng)濟(jì)問題中各因素之間的因果關(guān)系。2.2 回歸建模指標(biāo)變量的設(shè)置Never forget how to dream因變量確定因變量確定:對(duì)一個(gè)具體的問題,當(dāng)研究目的確定之后,被解釋變量容易確定,被解釋變量一般直接表達(dá)、刻畫研究的目的。自變量確定自變量確定:對(duì)被解釋變量有影響的解釋變量的確定不太容易。一是由于人們的認(rèn)識(shí)有局限,可能并不知道對(duì)被解釋變量有重要影響的因素;二是為了模型參數(shù)估計(jì)的有效性,設(shè)置的解

7、釋變量之間應(yīng)該是不相關(guān)的。人們很難確定哪些變量是相關(guān)的,哪些不是相關(guān)的,這這就看如何在多個(gè)變量中確定幾個(gè)重要的且不相關(guān)的變就看如何在多個(gè)變量中確定幾個(gè)重要的且不相關(guān)的變量。量。2.2 回歸建模指標(biāo)變量的設(shè)置Never forget how to dream注意注意:一個(gè)回歸模型所涉及到的解釋變量不是越多越好。一個(gè)模型,如果把一些主要變量漏掉肯定會(huì)影響模型的應(yīng)用效果,但如果無關(guān)緊要因素一起進(jìn)入模型也未必就好。當(dāng)引入的變量太多時(shí),可能選擇了一些與問題可能選擇了一些與問題無關(guān)緊要的變量無關(guān)緊要的變量, ,還可能由于一些變量的相關(guān)性很強(qiáng)還可能由于一些變量的相關(guān)性很強(qiáng), ,它們所反映的信息有較嚴(yán)重的重疊

8、它們所反映的信息有較嚴(yán)重的重疊, ,這就出現(xiàn)這就出現(xiàn)多重共線多重共線性問題性問題。當(dāng)變量太多時(shí),計(jì)算工作量太大,計(jì)算誤差積計(jì)算誤差積累也大累也大,估計(jì)出的模型參數(shù)精度自然不高。2.2 回歸建模指標(biāo)變量的設(shè)置Never forget how to dream 當(dāng)確定好回歸模型的變量之后,就要對(duì)這些變量收集、整理統(tǒng)計(jì)數(shù)據(jù)。常用的樣本數(shù)據(jù)分為時(shí)間序列數(shù)常用的樣本數(shù)據(jù)分為時(shí)間序列數(shù)據(jù)和橫截面數(shù)據(jù)。據(jù)和橫截面數(shù)據(jù)。時(shí)間序列數(shù)據(jù)就是按時(shí)間順序排列的統(tǒng)計(jì)數(shù)據(jù)。對(duì)于收集到的時(shí)間序列資料要特別注意數(shù)據(jù)的可比性及數(shù)據(jù)的統(tǒng)計(jì)口徑問題。對(duì)于沒有可比對(duì)于沒有可比性和統(tǒng)計(jì)口徑計(jì)算不一致的統(tǒng)計(jì)數(shù)據(jù)就要作認(rèn)真調(diào)整性和統(tǒng)計(jì)口徑

9、計(jì)算不一致的統(tǒng)計(jì)數(shù)據(jù)就要作認(rèn)真調(diào)整, ,這個(gè)調(diào)整過程就是一個(gè)數(shù)據(jù)整理過程。這個(gè)調(diào)整過程就是一個(gè)數(shù)據(jù)整理過程。2.3 變量數(shù)據(jù)的收集和整理Never forget how to dream 時(shí)間序列數(shù)據(jù)容易產(chǎn)生模型中隨機(jī)誤差項(xiàng)的序列相關(guān),這是因?yàn)樵S多變量的前后期之間總是有關(guān)聯(lián)的。如在經(jīng)濟(jì)中建立需求模型時(shí),人們的消費(fèi)習(xí)慣、商品短缺程度等具有一定的延續(xù)性,它們會(huì)對(duì)相當(dāng)一段時(shí)間的需求量有影響,這樣就產(chǎn)生隨機(jī)誤差項(xiàng)的序列相關(guān)。對(duì)對(duì)于具有隨機(jī)誤差項(xiàng)序列相關(guān)的情況于具有隨機(jī)誤差項(xiàng)序列相關(guān)的情況, ,就要通過對(duì)數(shù)據(jù)的就要通過對(duì)數(shù)據(jù)的某種計(jì)算、整理來消除序列相關(guān)性。最常用的處理方某種計(jì)算、整理來消除序列相關(guān)性。

10、最常用的處理方法是差分方法。法是差分方法。2.3 變量數(shù)據(jù)的收集和整理Never forget how to dream 橫截面數(shù)據(jù)即為在同一時(shí)間截面上的統(tǒng)計(jì)數(shù)據(jù)。如同一年在不同的地塊上做的施肥量與小麥產(chǎn)量試驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)就是截面數(shù)據(jù)。 當(dāng)用截面數(shù)據(jù)作樣本時(shí)當(dāng)用截面數(shù)據(jù)作樣本時(shí), ,容易產(chǎn)生異方差性容易產(chǎn)生異方差性。這是因?yàn)橐粋€(gè)回歸模型往往涉及到眾多解釋變量,如果其中如果其中某一因素或一些因素隨著解釋變量觀測(cè)值的變化而對(duì)某一因素或一些因素隨著解釋變量觀測(cè)值的變化而對(duì)被解釋變量產(chǎn)生不同影響被解釋變量產(chǎn)生不同影響, ,就產(chǎn)生異方差性。就產(chǎn)生異方差性。 yi=0+1xi+ui , i=1,n 隨機(jī)項(xiàng)u

11、i具有不同的方差。2.3 變量數(shù)據(jù)的收集和整理Never forget how to dream 在實(shí)際應(yīng)用中,人們往往只能得到樣本相關(guān)系數(shù)r,而無法得到總體相關(guān)系數(shù)r 。用樣本相關(guān)系數(shù)r判定兩變量間相關(guān)程度的強(qiáng)弱時(shí)一定要注意樣本量的大小,只有當(dāng)樣本量較大時(shí)用樣本相關(guān)系數(shù)只有當(dāng)樣本量較大時(shí)用樣本相關(guān)系數(shù)r r判定兩變量間相判定兩變量間相關(guān)程度的強(qiáng)弱才可信服。關(guān)程度的強(qiáng)弱才可信服。 需要正確區(qū)分相關(guān)系數(shù)顯著性檢驗(yàn)與相關(guān)程度強(qiáng)需要正確區(qū)分相關(guān)系數(shù)顯著性檢驗(yàn)與相關(guān)程度強(qiáng)弱的關(guān)系,弱的關(guān)系,相關(guān)系數(shù)的t檢驗(yàn)顯著只是表示總體相關(guān)系數(shù)顯著不為零,并不能表示相關(guān)程度高。2.4 回歸擬合效果與檢驗(yàn)Never

12、forget how to dream有A、B兩位同學(xué),A同學(xué)計(jì)算出 r=0.8,但是顯著性檢驗(yàn)沒有通過;B同學(xué)計(jì)算出 r=0.1,而聲稱此相關(guān)系數(shù)高度顯著,我們都不能判斷誰對(duì)誰錯(cuò)。這個(gè)問題的回答同樣與樣本量有關(guān)。由檢驗(yàn)統(tǒng)計(jì)量可以看到t值不僅與樣本相關(guān)系數(shù)r有關(guān),同時(shí)與樣本量n有關(guān),對(duì)同樣的相關(guān)系數(shù)r,樣本量n大時(shí)|t|就大,樣本量n小時(shí)|t|就小。實(shí)際上,對(duì)任意固定的非0的r值,只要樣本量n充分大就能使|t|足夠大,從而得到相關(guān)系數(shù)高度顯著的結(jié)論。明白這個(gè)道理后你就會(huì)相信A、B兩位同學(xué)說的都可能是正確的。2.4 回歸擬合效果與檢驗(yàn)Never forget how to dream樣本決定系數(shù)

13、:樣本決定系數(shù):是一個(gè)回歸直線與樣本觀測(cè)值擬合優(yōu)度的相對(duì)指標(biāo),反映了因變量的波動(dòng)中能用自變量解釋的比例。其數(shù)值在0到1之間,可以用百分?jǐn)?shù)表示。如果決定系數(shù) 接近于1,說明因變量不確定性的絕大部分能由回歸方程解釋,回歸方程擬合優(yōu)度就好。反之,如 不大,說明回歸方程的效果不好,應(yīng)進(jìn)行修改, 可以考慮增加新的自變量或者使用曲線回歸。需要注意以下幾個(gè)方面:2.4 回歸擬合效果與檢驗(yàn)Never forget how to dream第一,樣本量太小時(shí),決定系數(shù)很大,但這個(gè)大的決第一,樣本量太小時(shí),決定系數(shù)很大,但這個(gè)大的決定系數(shù)很可能是虛假現(xiàn)象。樣本量越小時(shí),決定系數(shù)定系數(shù)很可能是虛假現(xiàn)象。樣本量越小時(shí)

14、,決定系數(shù)越容易大。越容易大。第二,即使樣本量并不小,決定系數(shù)很大,例如是0.9,也并不能肯定自變量與因變量之間的關(guān)系就是線性的,這是因?yàn)橛锌赡芮€回歸的效果更好。尤其是當(dāng)自變量的取值范圍很窄時(shí),線性回歸的效果通常是較好的,這樣的線性回歸方程是不能用于外推預(yù)測(cè)的。可以用可以用模型失擬檢驗(yàn)(模型失擬檢驗(yàn)(Lack of fit test)來判定因變量與自變)來判定因變量與自變量之間的真實(shí)函數(shù)關(guān)系量之間的真實(shí)函數(shù)關(guān)系,到底是線性關(guān)系還是曲線關(guān)系,如果是曲線關(guān)系到底是哪一種曲線關(guān)系。2.4 回歸擬合效果與檢驗(yàn)Never forget how to dream第三、不論是時(shí)間序列數(shù)據(jù)還是橫截面數(shù)據(jù)的建

15、模,樣本容量的多少一般要與設(shè)置的解釋變量數(shù)目相匹配。當(dāng)樣本容量的個(gè)數(shù)小于解釋變量的數(shù)目時(shí),普通的最小二乘估計(jì)方法失效;當(dāng)樣本容量大于解釋變量數(shù)目,但比較接近時(shí),用于評(píng)價(jià)回歸擬合效果的決定系數(shù)虛假現(xiàn)象嚴(yán)重。通常為了使模型的參數(shù)估計(jì)更有效,要求樣本容量n比解釋變量個(gè)數(shù)p大的多。一般來說樣本容量樣本容量n應(yīng)是解釋變量個(gè)數(shù)應(yīng)是解釋變量個(gè)數(shù)p的的10倍。倍。2.4 回歸擬合效果與檢驗(yàn)Never forget how to dream變量的因素分析是回歸模型的一個(gè)重要應(yīng)用。變量的因素分析是回歸模型的一個(gè)重要應(yīng)用。應(yīng)用回歸模型對(duì)變量之間的關(guān)系作出度量,從模型的回歸系數(shù)可發(fā)現(xiàn)經(jīng)濟(jì)變量的結(jié)構(gòu)關(guān)系,給出政策評(píng)價(jià)的

16、一些量化依據(jù)。對(duì)一般情況含有p個(gè)自變量的多元線性回歸,每個(gè)回歸系數(shù)表示在回歸方程中其他自變量保持不變的情況下,自變量每增加一個(gè)單位時(shí)因變量y的平均增加程度。在分析各自變量對(duì)因變量的相對(duì)重要性時(shí),標(biāo)在分析各自變量對(duì)因變量的相對(duì)重要性時(shí),標(biāo)準(zhǔn)化回歸系數(shù)是比較自變量對(duì)準(zhǔn)化回歸系數(shù)是比較自變量對(duì)y y影響程度相對(duì)重要性的影響程度相對(duì)重要性的一種較為理想的方法。一種較為理想的方法。但是,仍對(duì)回歸系數(shù)的解釋須采取謹(jǐn)慎的態(tài)度,這是因?yàn)楫?dāng)自變量相關(guān)時(shí)會(huì)影響標(biāo)準(zhǔn)化回歸系數(shù)的大小。2.5 回歸方程的解釋與應(yīng)用Never forget how to dream進(jìn)行預(yù)測(cè)是回歸模型的另一個(gè)重要應(yīng)用。進(jìn)行預(yù)測(cè)是回歸模型的

17、另一個(gè)重要應(yīng)用。通過建立模型就可以對(duì)未來做出預(yù)測(cè)。但在作長(zhǎng)期預(yù)測(cè)時(shí),要特別注意相應(yīng)的自變量是否還保持建模當(dāng)初數(shù)據(jù)的變化是否還保持建模當(dāng)初數(shù)據(jù)的變化趨勢(shì)和特征趨勢(shì)和特征。在回歸模型的運(yùn)用中在回歸模型的運(yùn)用中, ,還要特別強(qiáng)調(diào)定性分析和定量分還要特別強(qiáng)調(diào)定性分析和定量分析的有機(jī)結(jié)合。析的有機(jī)結(jié)合。這是因?yàn)榻y(tǒng)計(jì)學(xué)方法只是從事物外在的數(shù)量表面上去研究問題,不涉及事物質(zhì)的規(guī)定性。2.5 回歸方程的解釋與應(yīng)用Never forget how to dream 回歸分析建模方法3回歸分析建模主成分回歸與偏最小二乘含定性變量回歸嶺回歸多元線性回歸Never forget how to dream3.1 多元線

18、性回歸回歸模型參數(shù)估計(jì)回歸應(yīng)用顯著性檢驗(yàn)Never forget how to dreamText in here基本假定基本假定:1. 解釋變量x1,x2,xp是確定性變量,不是隨機(jī)變量,且要求rank(X)=p+1n。表明設(shè)計(jì)矩陣X中的自變量列之間不相關(guān),X是一滿秩矩陣。2.隨機(jī)誤差項(xiàng)具有0均值和等方差。多元線性回歸模型一般形式一般形式:y=0+ 0 x1+ 0 x2+ 0 xp+其中0,1,2,p是p+1個(gè)未知參數(shù), 0稱為回歸常數(shù), 1,2,p稱為回歸系數(shù)?;貧w方程解釋回歸方程解釋:對(duì)一般含有p個(gè)自變量的多元線性回歸,每個(gè)回歸系數(shù)i表示在回歸方程中其他變量保持不變的情況下,自變量xi每

19、增加一個(gè)單位時(shí)因變量y的平均增加程度,多元線性回歸系數(shù)稱為偏回歸系數(shù)。Never forget how to dream回歸參數(shù)估計(jì)普通最小二乘估計(jì)普通最小二乘估計(jì):尋找012,p, , ,使得0122012011221201122,1(,)() min()pnpiiipipiniiipipiQyxxxyxxx 最大似然估計(jì):最大似然估計(jì): y yN(X,X,2I In)X X- -y yX X- -y y(21exp()2(2222nnL)X X- -y yX X- -y y(21)ln(2)2ln(2ln22nnLNever forget how to dream顯著性檢驗(yàn)一、一、F檢驗(yàn)檢

20、驗(yàn) (回歸方程顯著性檢驗(yàn)) H0:1=2=p=0niiiniiniiyyyyyy121212)()()(SST = SSR + SSE ) 1/(/pnSSEpSSRF當(dāng)H0成立時(shí)服從) 1,( pnpFNever forget how to dream顯著性檢驗(yàn)二、回歸系數(shù)的顯著性二、回歸系數(shù)的顯著性t檢驗(yàn)檢驗(yàn) H0j:j=0, j=1,2,p(,(X)-1)構(gòu)造t統(tǒng)計(jì)量 jjjjct 其中, (X)-1=(cij) i,j=0,1,2, ,pniiiniiyypnepn12121111Never forget how to dream多元線性回歸分析實(shí)例年份yx1x2x3x4x519782

21、31301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.951987131093136386112

22、42938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.70Never forget how to dream多元線性回歸分析實(shí)例方差擴(kuò)大因子Never forget how to dream多元線性回歸分析實(shí)

23、例0k10時(shí),設(shè)計(jì)矩陣X沒有多重共線性;10k100時(shí),認(rèn)為X存在較強(qiáng)的多重共線性;當(dāng)k100時(shí),則認(rèn)為存在嚴(yán)重的多重共線性。 特征根方法Never forget how to dream多元線性回歸分析實(shí)例直觀判定法1.當(dāng)增加或剔除一個(gè)自變量,或者改變一個(gè)觀測(cè)值時(shí),回歸系數(shù)的估計(jì)值發(fā)生較大變化。2.從定性分析認(rèn)為,一些重要的自變量在回歸方程中沒有通過顯著性檢驗(yàn)。3.有些自變量的回歸系數(shù)所帶正負(fù)號(hào)與定性分析結(jié)果違背。4.自變量的相關(guān)矩陣中,自變量間的相關(guān)系數(shù)較大。 5.一些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大。 Never forget how to dream多元線性回歸分析實(shí)例剔除x1的結(jié)

24、果Never forget how to dream多元線性回歸分析實(shí)例剔除x2結(jié)果Never forget how to dream多元線性回歸分析實(shí)例 從以上結(jié)果可以看出,此回歸模型不存在強(qiáng)多重共線性,最終回歸方程為:345591.8760.0103726.4360.317yxxx3450.1190.6500.411yxxx 標(biāo)準(zhǔn)化回歸方程為:Never forget how to dream多元線性回歸分析注意問題多元線性回歸分析注意問題 當(dāng)回歸模型的未知參數(shù)估計(jì)出來后,我們實(shí)際上是由n組樣本觀測(cè)數(shù)據(jù)得到一個(gè)經(jīng)驗(yàn)回歸方程,這個(gè)經(jīng)驗(yàn)回歸方程是否真正反映了變量y和變量x1,x2,xp之間的線

25、性關(guān)系,這就需要進(jìn)一步對(duì)回歸方程進(jìn)行檢驗(yàn)。一種檢驗(yàn)方法是擬合優(yōu)度檢驗(yàn),即用樣本決定系數(shù)的大小來衡量模型的擬合優(yōu)度。樣本決定系數(shù)R2越大,說明回歸方程擬合原始數(shù)據(jù)y的觀測(cè)值的效果越好。但由于R2的大小與樣本容量n以及自變量個(gè)數(shù)p有關(guān),當(dāng)n與p的數(shù)目接近時(shí),R2容易接近于1,這說明R2中隱含著一些虛假成分。因此,僅由R2的值很大,去推斷模型優(yōu)劣一定要慎重。Never forget how to dream多元線性回歸分析注意問題多元線性回歸分析注意問題一般來說,當(dāng)接受假設(shè)H0時(shí),認(rèn)為在給定的顯著性水平之下,自變量x1,x2,xp對(duì)因變量y無顯著性影響,于是通過x1,x2,xp去推斷y也就無多大意義

26、。在這種情況下,一方面可能這個(gè)問題本來應(yīng)該用非線性模型去描述,而我們誤用線性模型描述了,使得自變量對(duì)因變量無顯著影響;另一方面可能是在考慮自變量時(shí)由于我們認(rèn)識(shí)上的局限性把一些影響因變量y的自變量漏掉了。這就從兩個(gè)方面提醒我們?nèi)ブ匦驴紤]建模問題。Never forget how to dream多元線性回歸分析注意問題當(dāng)樣本容量n較小,變量個(gè)數(shù)p較大時(shí),F檢驗(yàn)或t檢驗(yàn)的自由度太小,這時(shí)盡管樣本決定系數(shù)R2很大,但參數(shù)估計(jì)的效果很不穩(wěn)定。Never forget how to dream多元線性回歸分析注意問題 多重共線性危害:當(dāng)出現(xiàn)多重共線性時(shí),回歸系數(shù)的估計(jì)值方差變大,回歸系數(shù)置信區(qū)間變寬,估

27、計(jì)精度降低,估計(jì)值穩(wěn)定性差,出現(xiàn)回歸方程高度顯著時(shí),一些回歸系數(shù)通不過顯著性檢驗(yàn),回歸系數(shù)出現(xiàn)正負(fù)號(hào)倒置,使得回歸方程無法得到合理解釋。 因此,利用模型去做分析時(shí),要盡量避免多重共線性。如果利用模型去做預(yù)測(cè),只要保證自變量的相關(guān)類型在未來時(shí)期中保持不變,未來時(shí)期自變量仍具有建模時(shí)數(shù)據(jù)聯(lián)系特征,即使回歸模型包含多重共線性,也可以去的較好預(yù)測(cè)結(jié)果;如果不能保證自變量的相關(guān)類型在未來時(shí)期中保持不變,那么多重共線性就會(huì)對(duì)回歸預(yù)測(cè)產(chǎn)生嚴(yán)重影響。 Never forget how to dream多元線性回歸分析注意問題關(guān)于復(fù)決定系數(shù)與調(diào)整復(fù)決定系數(shù):我們往往用殘差平方和和復(fù)相關(guān)系數(shù)來衡量回歸擬合好壞,然

28、而這顯然存在不足。 可以證明,當(dāng)模型增加自變量時(shí),復(fù)決定系數(shù)也隨之增大,然而復(fù)決定系數(shù)增大的代價(jià)是殘差自由度減少(殘差自由度等于樣本個(gè)數(shù)與自變量個(gè)數(shù)之差),自由度減少說明估計(jì)和預(yù)測(cè)的可靠性降低,因此采用調(diào)整復(fù)相關(guān)系數(shù):2211(1)1anRRnp 樣本量自變量個(gè)數(shù)Never forget how to dream 主成分回歸主成分回歸(Principal Components Regression,簡(jiǎn)記為PCR)是對(duì)普通最小二乘估計(jì)的另外一種改進(jìn)方法,它的參數(shù)估計(jì)是一種有偏估計(jì)。W.F.Massy1965年根據(jù)多元統(tǒng)計(jì)分析中的主成分分析提出了主成分回歸。 設(shè)對(duì)某一事物的研究涉及p個(gè)指標(biāo),分別用

29、X1,X2,Xp表示,這p個(gè)指標(biāo)構(gòu)成p維隨機(jī)變量X=(X1,X2,Xp).設(shè)隨機(jī)變量X的均值為,協(xié)方差矩陣為。 對(duì)X進(jìn)行線性變換,可以形成新的綜合變量,用Y表示,即:主成分回歸主成分回歸Never forget how to dream主成分回歸主成分回歸11111221221122221122ppppppppppYXXXYXXXYXXX 由于可以任意的對(duì)原始變量進(jìn)行上述線性變換,得到的綜合變量Y也不同,因此需對(duì)線性變化進(jìn)行約束限制:Never forget how to dream主成分回歸主成分回歸123 3222121,1(1,2, )iiiiipip 即Yi與Yj不相關(guān)(ij;i,j=1,2,p)Y1是X1,X2,Xp的所有滿足第一個(gè)條件的線性組合中方差最大者;Y2是與Y1不相關(guān)的X1,X2,Xp的所有線性組合中方差最大者; Yp是與Y1、Y2,Yp都不相關(guān)的X1,X2,Xp的所有線性組合中方差最大者;Never forget how to dream實(shí)例應(yīng)用:實(shí)例應(yīng)用:主成分回歸主成分回歸年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論