回歸分析的基本思想及其初步應(yīng)用_第1頁
回歸分析的基本思想及其初步應(yīng)用_第2頁
回歸分析的基本思想及其初步應(yīng)用_第3頁
回歸分析的基本思想及其初步應(yīng)用_第4頁
回歸分析的基本思想及其初步應(yīng)用_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、稱為樣本點的中心9/18/202213.1回歸分析的基本思想及其初步應(yīng)用(一)高二數(shù)學(xué) 選修2-3求回歸方程的關(guān)鍵是如何用數(shù)學(xué)的方法來刻畫“從整體上看各點與此直線的距離和最小” .9/18/20222選 變 量畫散點圖選 模 型(線性)估計參數(shù)(a,b)分析和預(yù)測建立回歸模型的基本步驟通過散點圖,可直觀地分析和了解兩個變量是否存在相關(guān)關(guān)系,以確定回歸模型通過分析相關(guān)指數(shù)、隨機誤差(殘差圖),評價模型的好壞,進(jìn)行預(yù)報這也就是回歸分析的基本思想9/18/20223最小二乘法估計公式:探究1:你能推導(dǎo)出著兩個計算公式嗎?(推導(dǎo)思路見下一片;推導(dǎo)過程見課本)回歸直線一定過樣本點的中心!對于一組具有線性

2、相關(guān)關(guān)系的數(shù)據(jù):(x1,y1), (x2,y2), , (xn,yn), 我們知道其回歸直線y=bx+a的斜率和截距的最小二乘估計分別為:4(xi,yi )5(xi,yi )69/18/202279/18/20228后兩項與,無關(guān)前兩項均為正且與,有關(guān)此項為0,Q有最小值.9/18/202299/18/202210 2008年5月,中共中央國務(wù)院關(guān)于加強青少年體育、增強青少年體質(zhì)的意見指出城市超重和肥胖青少年的比例明顯增加. “身高標(biāo)準(zhǔn)體重”該指標(biāo)對于學(xué)生形成正確的身體形態(tài)觀具有非常直觀的教育作用. “身高標(biāo)準(zhǔn)體重”從何而來?我們怎樣去研究?1.創(chuàng)設(shè)情境:例1 從某大學(xué)中隨機選取8名女大學(xué)生,

3、其身高和體重數(shù)據(jù)如表1-1所示:編號12345678身高/cm165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重.問題呈現(xiàn):女大學(xué)生的身高與體重分析:1、選取身高為自變量x,體重為因變量y,作散點圖:2、由散點圖可以看出,樣本點呈現(xiàn)條狀分布,身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程刻畫它們之間的關(guān)系.3、從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以不能用一次函數(shù)y=bx+a描述它們關(guān)系.解:1.由于問題中要求根據(jù)身高預(yù)報體重,因

4、此選取身高為自變量x,體重為因變量y3.用公式求出回歸方程:2. 畫散點圖;本例中, 可求得r=0.7980.75這表明體重與身高有很強的線性相關(guān)關(guān)系,從而也表明我們建立的回歸模型是有意義的.身高172cm女大學(xué)生可以預(yù)報其體重為:所以回歸方程為:對回歸模型進(jìn)行統(tǒng)計檢驗探究2:身高為172cm的女大學(xué)生的體重一定是60.316kg嗎?如果不是,你能解析一下原因嗎?答:身高為172cm的女大學(xué)生的體重不一定是60.316kg,但一般可以認(rèn)為她的體重接近于60.316kg.下圖中的樣本點和回歸直線的相互位置說明了這一點.由于樣本點不在同一條直線上,只是散布在某一條直線附近,所以身高與體重的關(guān)系可用

5、線性回歸模型:y=bx+a+e, (3) 來表示,其中a和b為模型的未知參數(shù),e是y與bx+a之間的誤差.通常e為隨機變量,稱為隨機誤差(random error),即e稱為隨機誤差.它的均值E(e)=0,方差D(e)=2.這樣線性回歸模型的完整表達(dá)式為:一般假定均值為0,即期望各點都在直線y=bx+a上.真實值a,b,y思考:產(chǎn)生隨機誤差e的原因(主要來源)是什么?一個人的體重除了受身高的影響外,還受其他許多因素的影響.其主要來源是(誤差越小,回歸模型的擬合效果越好!)(1)用線性回歸模型近似真實模型(真實模型是客觀存在的,只是通常我們不知道真實模型到底是什么)所引起的誤差.另外可能存在非線

6、性的函數(shù)能夠更好地描述y與x之間的關(guān)系,但是現(xiàn)在卻用線性函數(shù)來表達(dá)這種關(guān)系,結(jié)果就會產(chǎn)生誤差.這種由于模型近似所引起的誤差都包含在e中.(2)忽略了某些因素的影響.因為影響變量y的因素不只是變量x一個.例如:遺傳因素、飲食習(xí)慣、是否喜歡運動等,所引起的誤差都包含在e中.(3)觀測誤差.由于測量工具等原因造成度量誤差也包含在e中.事實上,我們無法知道身高和體重之間的確切關(guān)系是什么,這里只是利用線性回歸方程來近似這種關(guān)系.這種近似以及上面提到的影響因素都是產(chǎn)生隨機誤差e的原因.探究3:在線性回歸模型中,e是用bx+a預(yù)報真實值y的隨機誤差,它是一個不可觀測的量,那么怎樣研究隨機誤差呢?是真實值與估

7、計值的差!思考:如何發(fā)現(xiàn)數(shù)據(jù)中的錯誤?如何衡量模型的擬合效果?即在實際應(yīng)用中應(yīng)該盡量選擇 R2 大的回歸模型.例2、在一段時間內(nèi),某中商品的價格x元和需求量Y件之間的一組數(shù)據(jù)為:求出Y對的回歸直線方程,并說明擬合效果的好壞。價格x1416182022需求量Y1210753解:例2、在一段時間內(nèi),某中商品的價格x元和需求量Y件之間的一組數(shù)據(jù)為:求出Y對的回歸直線方程,并說明擬合效果的好壞.價格x1416182022需求量Y1210753列出殘差表為0.994因而,擬合效果較好.00.3-0.4-0.10.24.62.6-0.4-2.4-4.4用身高預(yù)報體重時,需要注意下列問題:1、回歸方程只適用

8、于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;3、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的精確值。 事實上,它是預(yù)報變量的可能取值的平均值。這些問題也使用于其他問題。涉及到統(tǒng)計的一些思想:模型適用的總體;模型的時間性;樣本的取值范圍對模型的影響;模型預(yù)報結(jié)果的正確理解。小結(jié):假設(shè) 1:身高和隨機誤差的不同不會對體重產(chǎn)生任何影響, 54.554.554.554.554.554.554.554.5體重/kg170155165175170157165165身高/cm87654321編號54.5kg探究3:在線性回歸模型中,e是用bx+

9、a預(yù)報真實值y的隨機誤差,它是一個不可觀測的量,那么怎樣研究隨機誤差呢?5943616454505748體重/kg170155165175170157165165身高/cm87654321編號 例如,編號為6的女大學(xué)生的體重并沒有落在水平直線上,她的體重為61kg。解釋變量(身高)和隨機誤差共同把這名學(xué)生的體重從54.5kg“推”到了61kg,相差6.5kg,所以6.5kg是解釋變量和隨機誤差的組合效應(yīng)。用這種方法可以對所有預(yù)報變量計算組合效應(yīng)。數(shù)學(xué)上,把每個效應(yīng)(觀測值減去總的平均值)的平方加起來,即用表示總的效應(yīng),稱為總偏差平方和。5943616454505748體重/kg17015516

10、5175170157165165身高/cm87654321編號 假設(shè)2:隨機誤差對體重沒有影響,也就是說,體重僅受身高的影響,那么散點圖中所有的點將完全落在回歸直線上。 怎樣研究隨機誤差? 因此,數(shù)據(jù)點和它在回歸直線上相應(yīng)位置的差異 是隨機誤差的效應(yīng),稱 為殘差。例如,編號為6的女大學(xué)生,計算隨機誤差的效應(yīng)(殘差)為:對每名女大學(xué)生計算這個差異,然后分別將所得的值平方后加起來,用數(shù)學(xué)符號稱為殘差平方和,它代表了隨機誤差的效應(yīng)。表示為:我們可以用相關(guān)指數(shù)R2來刻畫回歸的效果,其計算公式是如何衡量預(yù)報的精度?顯然,R2的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。 如果某組數(shù)據(jù)可能采取幾

11、種不同回歸方程進(jìn)行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數(shù)據(jù)的模型。3.分析方程回歸效果的常用方法(1)相關(guān)指數(shù):該法主要從量上清楚地反映解釋變量與預(yù)報變量間的效應(yīng).(2)殘差圖:該法主要從圖上直觀地分析點的分布情況,看一下樣本數(shù)據(jù)與回歸直線的擬合效果.只通過圖形判斷,無法精確地給出所得結(jié)論的可靠程度!學(xué)以致用:1、在對兩個變量,進(jìn)行線性回歸分析時有下列步驟:對所求出的回歸方程作出解釋,收集數(shù)據(jù)(,)求線性回歸方程,求相關(guān)系數(shù),根據(jù)所搜集的數(shù)據(jù)繪制散點圖如果根據(jù)可靠性要求能夠作出變量,具有線性相關(guān)結(jié)論,則在下列操作順序中正確的是()學(xué)以致用:2、對于相關(guān)指數(shù),下列說法正確的是()、的取植越小,模型擬合效果越好、的取值可以是任意大,且取值越大擬合效果越好、的取值越接近,模型擬合效果越好、以上答案都不對學(xué)以致用:3、甲、乙、丙,丁四位同學(xué)各自對,兩變量的線性相關(guān)性做實驗,并用回歸分析方法分別求得相關(guān)系數(shù)r與殘差平方和m如下表:則哪位同學(xué)的實驗結(jié)果體現(xiàn),兩變量有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論