高中數學選修1-2_1.1回歸分析的基本思想及其初步應用_第1頁
高中數學選修1-2_1.1回歸分析的基本思想及其初步應用_第2頁
高中數學選修1-2_1.1回歸分析的基本思想及其初步應用_第3頁
高中數學選修1-2_1.1回歸分析的基本思想及其初步應用_第4頁
高中數學選修1-2_1.1回歸分析的基本思想及其初步應用_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章第一章 統計案例統計案例什么是回歸分析:什么是回歸分析:“回歸回歸”一詞是由英國生物學家一詞是由英國生物學家F.Galton在研究人體身高的遺傳問題時首先提在研究人體身高的遺傳問題時首先提出的。出的。 根據遺傳學的觀點,子輩的身高受父輩影響,以根據遺傳學的觀點,子輩的身高受父輩影響,以X記父輩身高,記父輩身高,Y記子輩身高。記子輩身高。雖然子輩身高一般受父輩影響,但同樣身高的父親,其子身高并不一致,因此,雖然子輩身高一般受父輩影響,但同樣身高的父親,其子身高并不一致,因此,X和和Y之間存在一種相關關系。之間存在一種相關關系。 一般而言,父輩身高者,其子輩身高也高,依此推論,祖祖輩輩遺傳下

2、來,一般而言,父輩身高者,其子輩身高也高,依此推論,祖祖輩輩遺傳下來,身高必然向兩極分化,而事實上并非如此,顯然有一種力量將身高拉向中心,身高必然向兩極分化,而事實上并非如此,顯然有一種力量將身高拉向中心,即子輩的身高有向中心回歸的特點。即子輩的身高有向中心回歸的特點。“回歸回歸”一詞即源于此。一詞即源于此。 雖然這種向中心回歸的現象只是特定領域里的結論,并不具有普遍性,但從雖然這種向中心回歸的現象只是特定領域里的結論,并不具有普遍性,但從它所描述的關于它所描述的關于X為自變量,為自變量,Y為不確定的因變量這種變量間的關系看,和我們?yōu)椴淮_定的因變量這種變量間的關系看,和我們現在的回歸含義是相同

3、的?,F在的回歸含義是相同的。 不過,現代回歸分析雖然沿用了不過,現代回歸分析雖然沿用了“回歸回歸”一詞,但內容已有很大變化,它是一一詞,但內容已有很大變化,它是一種應用于許多領域的廣泛的分析研究方法,在經濟理論研究和實證研究中也發(fā)種應用于許多領域的廣泛的分析研究方法,在經濟理論研究和實證研究中也發(fā)揮著重要作用。揮著重要作用。a. 比數學3中“回歸”增加的內容數學統計1. 畫散點圖畫散點圖2. 了解最小二乘法了解最小二乘法的思想的思想3. 求回歸直線方程求回歸直線方程ybxa4. 用回歸直線方程用回歸直線方程解決應用問題解決應用問題選修-統計案例5. 引入線性回歸模型引入線性回歸模型ybxae6

4、. 了解模型中隨機誤差項了解模型中隨機誤差項e產產生的原因生的原因7. 了解相關指數了解相關指數 R2 和模型擬和模型擬合的效果之間的關系合的效果之間的關系8. 了解殘差圖的作用了解殘差圖的作用9. 利用線性回歸模型解決一類利用線性回歸模型解決一類非線性回歸問題非線性回歸問題10.正確理解分析方法與結果正確理解分析方法與結果問題1:正方形的面積y與正方形的邊長x之間 的函數關系是y = x2確定性關系問題2:某水田水稻產量y與施肥量x之間是否 -有一個確定性的關系?例如:在 7 塊并排、形狀大小相同的試驗田上 進行施肥量對水稻產量影響的試驗,得到如下所示的一組數據:施化肥量x 15 20 25

5、 30 35 40 45水稻產量y 330 345 365 405 445 450 455復習:變量之間的兩種關系自變量取值一定時,因變量的取值帶有一定隨機性的兩個變量之間的關系叫做相關關系。1、定義: 1):相關關系是一種不確定性關系;注對具有相關關系的兩個變量進行統計分析的方法叫回歸分析。2):例1 從某大學中隨機選取8名女大學生,其身高和體重數據如表1-1所示。編號12345678身高/cm165165 157 170 175 165 155 170體重/kg4857505464614359求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。案例1

6、:女大學生的身高與體重解:1、選取身高為自變量x,體重為因變量y,作散點圖:2、由散點圖知道身高和體重有比較好的線性相關關系,因此可以用線性回歸方程刻畫它們之間的關系。3、從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以不能用一次函數y=bx+a描述它們關系。 我們可以用下面的線性回歸模型來表示:y=bx+a+e,其中a和b為模型的未知參數,e稱為隨機誤差。思考P3產生隨機誤差項e的原因是什么?思考產生隨機誤差項e的原因是什么?隨機誤差e的來源(可以推廣到一般):1、其它因素的影響:影響體重y 的因素不只是身高 x,可能還包括遺傳基因、飲食習慣、生長環(huán)境等因素;2、用線性

7、回歸模型近似真實模型所引起的誤差;3、身高 x 的觀測誤差。函數模型與回歸模型之間的差別函數模型:abxy回歸模型:eabxy可以提供選擇模型的準則例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數據如表名女大學生,其身高和體重數據如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。根據最小二乘法估計 和 就是未

8、知參數a和b的最好估計,abniiniiiniiniiixnxyxnyxxbyaxxyyxxb1221121)()(所以回歸方程是0.84985.712yx( , )x y 稱為樣本點的中心例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數據如表名女大學生,其身高和體重數據如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大

9、學生的體重。712.85849.0ab,于是得到回歸直線經過樣本 注:點的中心( , )x y 稱為樣本點的中心回歸直線經過樣本 注:點的中心所以回歸方程是0.84985.712yx所以,對于身高為172cm的女大學生,由回歸方程可以預報其體重為0.849 7285.71260.316()ykg探究P4:身高為172cm的女大學生的體重一定是60.316kg嗎?如果不是,你能解析一下原因嗎?例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數據如表名女大學生,其身高和體重數據如表1-1所示。所示。5943616454505748體重/kg170155165175170157

10、165165身高/cm87654321編號求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。712.85849.0ab,于是得到探究P4:身高為172cm的女大學生的體重一定是60.316kg嗎?如果不是,你能解析一下原因嗎?答:身高為172cm的女大學生的體重不一定是60.316kg,但一般可以認為她的體重在60.316kg左右。60.136kg不是每個身高為172cm的女大學生的體重的預測值,而是所有身高為172cm的女大學生平均體重的預測值。函數模型與回歸模型之間的

11、差別函數模型:abxy回歸模型:eabxy 線性回歸模型y=bx+a+e增加了隨機誤差項e,因變量y的值由自變量x和隨機誤差項e共同確定,即自變量x只能解析部分y的變化。 在統計中,我們也把自變量x稱為解析變量,因變量y稱為預報變量。對回歸模型進行統計檢驗 假設隨機誤差對體重沒有影響,也就是說,體重僅受身高的影響,那么散點圖中所有的點將完全落在回歸直線上。但是,在圖中,數據點并沒有完全落在回歸直線上。這些點散布在回歸直線附近,所以一定是隨機誤差把這些點從回歸直線上“推”開了。 因此,數據點和它在回歸直線上相應位置的差異 是隨機誤差的效應,稱 為殘差。例如,編號為6的女大學生,計算隨機誤差的效應

12、(殘差)為:編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數據,或體重估計值等,這樣作出的圖形稱為殘差圖。表1

13、-4列出了女大學生身高和體重的原始數據以及相應的殘差數據。使用公式 計算殘差殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選擇;坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應該分布在以若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶形區(qū)域;橫軸為心的帶形區(qū)域;對于遠離橫軸的點,要特別注意對于遠離橫軸的點,要特別注意。身高與體重殘差圖 錯誤數據 模型問題 幾點說明: 第1個樣本點和第6個樣本點的殘差比較大,需要確認在采集過程中是否有人為的錯誤。如果數據采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數據;如果數據采集沒有錯誤,則需要尋找其他的原因

14、。 另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。異常點我們可以用相關指數R2來刻畫回歸的效果,其計算公式是22121()1()niiiniiyyRyy 顯然,R2的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。 在線性回歸模型中,R2表示解析變量對預報變量變化的貢獻率。 R2 越接近1,表示回歸的效果越好(因為R2越接近1,表示解析變量和預報變量的線性相關性越強)。一般地,建立回歸模型的基本步驟為:(1)確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。(2)畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系(如是否存在線性關系等)。(3)由經驗確定回歸方程的類型(如我們觀察到數據呈線性關系,則選用線性回歸方程y=bx+a).(4)按一定規(guī)則估計回歸方程中的參數(如最小二乘法)。(5)得出結果后分析殘差圖是否有異常(個別數據對應殘差過大,或殘差呈現不隨機的規(guī)律性,等等),過存在異常,則檢查

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論