變量間的相關關系及回歸模型-2025高考數學一輪復習(二)_第1頁
變量間的相關關系及回歸模型-2025高考數學一輪復習(二)_第2頁
變量間的相關關系及回歸模型-2025高考數學一輪復習(二)_第3頁
變量間的相關關系及回歸模型-2025高考數學一輪復習(二)_第4頁
變量間的相關關系及回歸模型-2025高考數學一輪復習(二)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三節(jié)成對數據的統(tǒng)計分析

第1課時變量間的相關關系及回歸模型

■課程標準

1.結合實例,了解樣本相關系數的統(tǒng)計含義,了解樣本相關系數與標準化數據向量夾角的關系.

2.結合實例,會通過相關系數比較多組成對數據的相關性.

3.結合具體實例,了解一元線性回歸模型的含義,了解模型參數的統(tǒng)計意義,了解最小二乘原理,掌握一元線

性回歸模型參數的最小二乘估計方法.

4.針對實際問題,會用一元線性回歸模型進行預測.

口----------必備知識系統(tǒng)梳理基礎重落實---------課前自修

I_____知___識___?__逐____點___夯____實_______________________________________________________________J__________

知識梳理

1.變量的相關關系

(1)相關關系:若兩個變量之間有關系,但又不是函數關系,這種關系稱為相關關系;

(2)相關關系的分類:①從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現(xiàn)增加的趨勢,就

稱這兩個變量________;

②當一個變量的值增加時,另一個變量的相應值呈現(xiàn)減小的趨勢,則稱這兩個變量_______;

提醒注意相關關系與函數關系的區(qū)別:函數關系是一■種確定的關系,而相關關系是一■種非確定的關系.(3)

線性相關:如果兩個變量的取值呈現(xiàn)正相關或負相關,而且散點落在附近,就稱這兩個變量線性

相關.

2.樣本相關系數

對于變量X和變量》設經過隨機抽樣獲得的成對樣本數據為(X1,%),(X2,>2),…,Cxn,yn)>若無

與y存在線性相關關系,可用樣本相關系數r定量分析它們的相關程度的強弱.

(1)樣本相關系數

n__

2(Xi-x)(yi-y)

r=,i=i,:

fn2fn2,

(2)樣本相關系數廠的性質

①當廠>0時,稱成對樣本數據相關;當r<0時,稱成對樣本數據相關;當廠=0時,稱成對樣本

數據間沒有線性相關關系;

②樣本相關系數r的取值范圍為.當IrI越接近1時,成對樣本數據的線性相關程度越;

當I川越接近0時,成對樣本數據的線性相關程度越.

3.一元線性回歸模型

(1)經驗回歸直線:從散點圖上看,如果這些點從整體上看大致分布在通過散點圖中心的一條直線附近,稱

兩個變量之間具有線性相關關系,這條直線叫做經驗回歸直線;

n_n_

八-z(%i-x)(yi-y)Yxiyi-nxy4

(2)經驗回歸方程為夕=bx+6,其中------——=嗎----—JS=y—hx;

X(%i-x)Xxf—rix

i=li=l

n

(3)通過求。=E(V—2的最小值而得到經驗回歸直線的方法,即使得樣本數據的點到回歸直線的

i=l

距離的平方和最小,這一方法叫做最小二乘法.

4.判斷回歸模型的擬合效果

由成對樣本數據(尤"?)(i=l,2,…,w)按照最小二乘法得到經驗回歸方程夕=6尤+4,其中y叫做觀測

值,夕叫做預測值,殘差2=y一夕.相對于樣本點(孫弘)的隨機誤差瓦=%—%=%—Cbxi+a).

(1)殘差分析法

①作殘差圖:作圖時縱坐標為,橫坐標可以選為樣本編號,或國數據,或%數據,這樣作出的圖形稱

為殘差圖;

②殘差分析:殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越

窄,說明模型擬合精度越高,經驗回歸方程的預報精度越高.

n2

ccZ(力一%)/n\

(2)決定系數(爐)法:R2=IT-----J其中夕=工£%).爐的值越趨近于I,模型的擬合效果越好.

z(.yi-y)\ni=i'

i=l

對點自測

1.判斷正誤.(正確的畫r”,錯誤的畫“x”)

(1)“名師出高徒”可以解釋為教師的教學水平與學生的水平成正相關關系.()

(2)散點圖是判斷兩個變量相關關系的一種重要方法和手段.()

(3)經驗回歸直線夕=5尤+a至少經過點(X1,力),(X2,>2),…,Cxn,yn)中的一個點.()

(4)樣本相關系數的絕對值越接近1,成對樣本數據的線性相關程度越強.()

2.兩個變量的相關關系有①正相關,②負相關,③不相關,則下列散點圖從左到右分別反映的變量間的相關關

系是()

A.①②③B.②③①

C.②①③D.①③②

3.對于尤,y兩變量,有四組成對樣本數據,分別算出它們的樣本相關系數廠如下,則線性相關性最強的是

()

A.-0.82B.0.78

C.-0.69D.-0.87

4.在對兩個變量x,y進行回歸分析時有下列步驟:①對所求出的經驗回歸方程作出解釋;②收集數據(沏,

9),i=l,2,n;③求經驗回歸方程;④根據所收集的數據繪制散點圖.則下列操作順序正確的是

()

A.①②④③B.③②④①

C.②③①④D.②④③①

5.已知尤,y的取值如下表,已知y與x具有線性相關關系,且經驗回歸方程為9=0.95戈+4,貝值=.

X0134

y2.24.34.86.7

尸考點?分類突破口----------精選考點典例研析技法重悟通---------T課堂演練

1—________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

變量間相關關系的判斷

(師生共研過關

【例1】(1)某商家今年上半年各月的人均銷售額(單位:千元)與利潤率統(tǒng)計表如下:

月份123456

人均銷售額658347

利潤率(%)12.610.418.53.08.116.3

根據表中數據,下列說法正確的是()

A.利潤率與人均銷售額成正比例函數關系B.利潤率與人均銷售額成反比例函數關系

C.利潤率與人均銷售額成正相關關系D.利潤率與人均銷售額成負相關關系

(2)已知變量x和y滿足關系y=-0.卜+1,變量y與z正相關.下列結論中正確的是()

A.x與y正相關,%與z負相關B.尤與y正相關,尤與z正相關

C.x與y負相關,x與z負相關D.x與y負相關,x與z正相關

聽課記錄_______________________________

解題技法

判定兩個變量相關性的方法

(1)畫散點圖:點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相

關;

(2)樣本相關系數:當廠>0時,正相關;當r<0時,負相關;|川越接近于1,相關性越強;

(3)經驗回歸方程:當時,正相關;當B<0時,負相關.

E訓練

1.下列關系不屬于相關關系的是()

A.森林中的同一類樹木,其橫截面直徑與高度之間的關系

B.球的體積與表面積的關系

C.父母的身高與子女身高的關系

D.人的身高與體重的關系

2.對四組數據進行統(tǒng)計,獲得如圖所示的散點圖,關于其樣本相關系數的比較,正確的是()

3535

303()

2525

2020

1515

1()1()

5.3

00

51()1520253()355101520253035

樣本相關系數為。樣本相關系數為二

(1)(2)

3533

3()30

2525

2020

1515

1()1()

55

00

51()152025303551()1520253035

樣本相關系數為7樣本相關系數為。

(3)(4)

A.r2<^4<0<f3<riB.r4<^r2<0<ri<F3

C.r4<r2<0<r3<nD.r2<r4<0<ri<r3

1考點二

【例2】(2022?全國乙卷19題)某地經過多年的環(huán)境治理,已將荒山改造成了綠水青山.為估計一林區(qū)某種

樹木的總材積量,隨機選取了10棵這種樹木,測量每棵樹的根部橫截面積(單位:m2)和材積量(單位:

m3),得到如下數據:

樣本號,12345678910總和

根部橫截

0.040.060.040.080.080.050.050.070.070.060.6

面積尤

材積量》0.250.400.220.540.510.340.360.460.420.403.9

101010

并計算得£婷=0.038,23^=1.6158,2%M=0.2474.

i=li=li=l

(1)估計該林區(qū)這種樹木平均一棵的根部橫截面積與平均一棵的材積量;

(2)求該林區(qū)這種樹木的根部橫截面積與材積量的樣本相關系數(精確到0.01);

(3)現(xiàn)測量了該林區(qū)所有這種樹木的根部橫截面積,并得到所有這種樹木的根部橫截面積總和為186m2.已知

樹木的材積量與其根部橫截面積近似成正比.利用以上數據給出該林區(qū)這種樹木的總材積量的估計值.

Z(xi-x)(yi-y)

附:相關系數i=l=,VL896=1.377.

r=In2n

2

z(咫一元)x(刃一歹)

i=li=i

解題技法

樣本相關系數廠的統(tǒng)計含義及應用

(1)由r的正、負可判斷成對樣本數據中兩相關變量是正相關還是負相關;

(2)可根據IrI的大小從量的角度判斷成對樣本數據是否具有線性相關性,進而可知能否用經驗回歸方程進

行分析和預測;

(3)當I*W0.25時,即便求得了經驗回歸方程也沒有任何統(tǒng)計意義.

Q訓練

某沙漠地區(qū)經過治理,生態(tài)系統(tǒng)得到很大改善,野生動物數量有所增加.為調查該地區(qū)某種野生動物的數量,

將其分成面積相近的200個地塊,從這些地塊中用簡單隨機抽樣的方法抽取20個作為樣區(qū),調查得到樣本數

據(尤,?,9)(/=1,2,…,20),其中即和9分別表示第,個樣區(qū)的植物覆蓋面積(單位:公頃)和這種野

2020202020

生動物的數量,并計算得Z蒼=60,29=1200,Z(汨一元產=80,2(M—歹)2=9000,£(%,—%)(%

i=li=li=li=li=l

-y)=800.

(1)求該地區(qū)這種野生動物數量的估計值(這種野生動物數量的估計值等于樣區(qū)這種野生動物數量的平均數

乘以地塊數);

(2)求樣本(xi,yi)(z=l,2,20)的相關系數(精確到0.01);

(3)根據現(xiàn)有統(tǒng)計資料,各地塊間植物覆蓋面積差異很大.為提高樣本的代表性以獲得該地區(qū)這種野生動物數

量更準確的估計,請給出一種你認為更合理的抽樣方法,并說明理由.

n__

Z(%i-x)(yi-y)

附:r=I匚1,V2-1.414.

n2n、2

Z(Xi-x)Z(”一歹)

Ji=ii=i

經驗回歸模型

(定向精析突破

考向7線性經驗回歸問題

【例3】某研究機構為調查人的最大可視距離y(單位:米)和年齡無(單位:歲)之間的關系,對不同年

齡的志愿者進行了研究,收集數據得到下表:

X2025303540

y167160150143130

(1)根據上表提供的數據,求出y關于x的經驗回歸方程;

(2)根據(1)中求出的經驗回歸方程,估計年齡為50歲的人的最大可視距離.

nn__

八I(芍一元)(“一?)Ixiyi-nxy

參考公式:經驗回歸方程夕=以+6中斜率和截距的最小二乘估計公式分別為b=j----------------------

X(%i—x)Xxf—nx2

i=li=l

a=y-bx.

解題技法

線性回歸分析問題的解題策略

(1)利用公式,求出回歸系數有;

(2)利用經驗回歸直線過樣本點的中心求系數式;

(3)利用經驗回歸方程進行預測,把回歸方程看作一次函數,將解釋變量x的值代入,得到預測變量夕的值.

考向2非線性經驗回歸問題

【例4】“綠水青山就是金山銀山”的理念推動了新能源汽車產業(yè)的迅速發(fā)展.以下表格和散點圖反映了近幾

年某新能源汽車的年銷售量情況.

年份20192020202120222023

年份代碼X12345

某新能源汽車年銷售量y/萬輛1.55.917.732.955.6

60:年銷售量y/萬輛

*

40■

*

20?

*

02345屋份代碼工

(1)請根據散點圖判斷,y^bx+a與中哪一個更適宜作為年銷售量y關于年份代碼x的回歸方程類

型;(給出判斷即可,不必說明理由)

(2)根據(1)的判斷結果及表中數據,建立y關于尤的經驗回歸方程,并預測2024年該新能源汽車的年銷

售量精確到0.1)

55

參考數據:9=22.72,2(W,—iv)2=374,工(w,—w)(j,—y)=851.2(其中陰=婢).

i=li=l

解題技法

有些非線性回歸分析問題并不給出經驗公式,這時我們可以畫出已知數據的散點圖,把它與學過的各種函

數(賽函數、指數函數、對數函數等)的圖象進行比較,挑選一種跟這些散點擬合得最好的函數,用適當的變

量進行變換,如通過換元或取對數等方法,把問題化為線性回歸分析問題,使之得到解決.

q訓練

1.已知變量X與》且觀測數據如下表(其中6.5>44>6>1,a+b=6),則由該觀測數據算得的經驗回歸

方程可能是()

X12345

y6.5a4b1

A.y=0.4A-+2.3B.y=2x~2.4

C.y=-2x+9.5D.夕=-0.3尤+0.44

2.數獨是源自18世紀瑞士的一種數學游戲,玩家需要根據9義9盤面上的已知數字,推理出所有剩余空格的數

字,并滿足每一行、每一列、每一個粗線宮(3X3)內的數字均含1?9,且不重復.數獨愛好者小明打算報名

參加“絲路杯”全國數獨大賽初級組的比賽,賽前小明在某數獨APP上進行一段時間的訓練,每天的解題平

均速度y(秒)與訓練天數無(天)有關,經統(tǒng)計得到如表的數據:

X(天)1234567

y(秒)990990450320300240210

(1)現(xiàn)用y=a+2作為經驗回歸模型,請利用表中數據,求出該經驗回歸方程;

(2)請用第(1)題的結論預測,小明經過100天訓練后,每天解題的平均速度約為多少秒?

77

笏考數據(其中ti=E):Z砂尸1845,£=0.37,2珞―7冒=0.55.

參考公式:對于一組數據(兩,VI),("2,V2),…,(說,%),其經驗回歸直線。=2+6"的斜率和截距

n

XuiV[—nuv

的最小二乘估計公式分別為6=弓----一,a=v-pu.

Xuf—nu2

i=l

刻畫擬合效果

(師生共研過關

【例5】假定小麥基本苗數x與成熟期有效穗y之間存在相關關系,今測得5組數據如下:

X15.025.830.036.644.4

y39.442.942.943.149.2

若由最小二乘法計算得經驗回歸方程為y=0.29x+347

(1)計算各組殘差,并計算殘差平方和;

(2)求出,并說明回歸模型擬合效果的好壞.

5

參考數據:20一歹)2=50.18.

i=l

解題技法

刻畫擬合效果的三種方法

(1)殘差圖法:殘差點比較均勻地落在水平的帶狀區(qū)域內說明選用的模型比較合適;

(2)殘差平方和法:殘差平方和£(%—%)之越小,模型的擬合效果越好;

i=l

n2

CI(月一9i)

(3)決定系數法:K=1一早-------越接近1,表明模型的擬合效果越好.

I(力一步)

i=l

E訓練

1.在一元線性回歸模型¥=法+。+?中,下列說法正確的是()

A.Y=bx+a+e是一次函數

B.響應變量y是由解釋變量尤唯一確定的

C.響應變量y除了受解釋變量X的影響外,可能還受到其他因素的影響,這些因素會導致隨機誤差e的產生

D.隨機誤差e是由于計算不準確造成的,可通過精確計算避免隨機誤差e的產生

2.現(xiàn)代物流成為繼勞動力、自然資源外影響企業(yè)生產成本及利潤的重要因素.某企業(yè)去年前八個月的物流成本和

企業(yè)利潤的數據(單位:萬元)如下表所示:

月份1234

物流成本尤83

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論