版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第
4
章
線性回歸回歸分析
用最小二乘法求最佳擬合參數(shù)(如變量系數(shù))的過(guò)程。
還包括:變量間的相關(guān)性、回歸參數(shù)的標(biāo)準(zhǔn)偏差、數(shù)據(jù)與表達(dá)式的吻合程度、分析變量是否獨(dú)立曲線擬合——應(yīng)用數(shù)學(xué)方法對(duì)觀測(cè)數(shù)據(jù)進(jìn)行處理,從而得出比較符合測(cè)量結(jié)果的數(shù)學(xué)表達(dá)式,即近似函數(shù)關(guān)系
y=f(x),直線/曲線。最佳擬合判據(jù)——?dú)埐钇椒胶?SumofSquareofResidual)最小,即最小二乘法。第6講數(shù)據(jù)處理-線性與LOGIT回歸任務(wù)要求:1.完成上節(jié)課的EXCEL處理工作;2.完成以下統(tǒng)計(jì)分析工作:2.1
對(duì)各地GDP與就業(yè)人數(shù)進(jìn)行兩兩比較:4個(gè)城市,光GDP就有6對(duì)比較結(jié)果,所以一共有12對(duì)結(jié)果;2.2對(duì)每個(gè)城市的GDP與就業(yè)人數(shù)進(jìn)行回歸:共8個(gè)結(jié)果(思考為什么)2.3任選一個(gè)城市做因變量,另外三個(gè)做自變量,進(jìn)行多重線性回歸:回歸完成之后逐一剔除自變量觀察結(jié)果;2.4做所有城市就業(yè)人數(shù)對(duì)總GDP的多重線性回歸:提示,之前應(yīng)對(duì)GDP數(shù)據(jù)進(jìn)行簡(jiǎn)單操作;2.5
選用“員工薪酬與離職決策”數(shù)據(jù),進(jìn)行離職決策對(duì)薪資進(jìn)行Logit回歸23第4章線性回歸4.1基本概念計(jì)算方法
4.2Excel函數(shù)的使用方法4.3一元線性回歸4.4多元線性回歸44.1基本概念計(jì)算方法xyABC若已知a,b,則由
xi和方程得計(jì)算值yi計(jì)算。第i點(diǎn)殘差i:i=
yi-
yi計(jì)算=
yi-(axi+b)殘差(residual)平方和不同直線a,b
值不同,SSresid亦不同,
SSresid,C>SSresid,B>SSresid,A,SSresid,A最小。yiyi計(jì)算i
一元線性回歸,又稱直線擬合。一個(gè)自變量。p914.1.1最小二乘法(1)概念:設(shè)從實(shí)驗(yàn)得到n
組x,y數(shù)據(jù)x:x1,
x2
···
xi
···
xn
y:y1,y2···
yi
···
yn
若理論上x,y呈線性關(guān)系,則應(yīng)符合方程
y
=
ax
+
b
求出斜率a、截距b;幾何上是得到一條盡可能靠近各(xi
,yi)點(diǎn)的直線。
判斷標(biāo)準(zhǔn)——?dú)埐钇椒胶妥钚?。圖4.1SSresid與a,b
54.1.1最小二乘法由前式
即SSresid=f(a,b)
殘差平方和最小(極值)的條件(2)求回歸系數(shù)斜率a,截距b的計(jì)算方法回歸直線:殘差平方和最小的直線;Excel的趨勢(shì)線?;貧w方程:
回歸直線的方程。擬合方程最小二乘法——使殘差平方和最小的方法?!?jì)算斜率a,截距b。64.1.1最小二乘法代入b得
求斜率
a分母>0即即求截距b74.1.2相關(guān)系數(shù)
r
相關(guān)系數(shù)——衡量回歸方程與原始數(shù)據(jù)相符合的程度的數(shù)值。⑴總離差平方和SS:
yi
-
y平均稱為yi的離差。全部yi
的離差平方之和稱為y
的總離差平方和SS
由yi–
y平均=(yi–yi計(jì)算)+(yi計(jì)算–y平均)
則
可推導(dǎo)出,上式第三項(xiàng)為0,故SSresid殘差平方和
反映了實(shí)驗(yàn)值yi
與按回歸方程計(jì)算的值y計(jì)算的總偏差,它越小,表明回歸效果→好。SS回歸回歸平方和
反映了因x與y
的線性關(guān)系而引起y變化的大小,它越大,表明回歸效果→好?;貧wregression8⑵r2—r的平方
p95
CoefficientofDetermination,決定系數(shù),判定系數(shù)
定義r2的意義:SS回歸→大,x與y
的回歸關(guān)系→重要,r2→大;另
SSresid→小,r2→大,線性關(guān)系→好。故r2——表明回歸方程反映
x與y
變量間關(guān)系的相關(guān)程度的標(biāo)志。r2計(jì)算
Excel趨勢(shì)線,RSQ函數(shù),回歸分析等中的r2⑶r
值及其意義
x與y
的相關(guān)系數(shù)9
r
值范圍r
正負(fù)號(hào)取決于其計(jì)算式中的分子,且與斜率a符號(hào)相同。xyxyxyxyr
>0,a>0,x,y,y與x正相關(guān);r<0,a<0,x,y,y與x負(fù)相關(guān);r=0,y與x不存在線性相關(guān)關(guān)系。|r|=1,y與x存在完全的相關(guān)性,實(shí)驗(yàn)數(shù)據(jù)點(diǎn)與回歸線完全重合。|r|<1,y與x存在不同程度的相關(guān)性?!逽S=SSresid+SS回歸
,且均>0,∴SS回歸≤SS,|r|≤1,即范圍
r=1~+1
總之,|r|→1,y與x相關(guān)性→好,
線性回歸的線性關(guān)系→好。圖4.2y與x的相關(guān)性
r>0
r<0
r=0
r=110
由Excel可得到
E=4.20E-6p+39.82r=0.9936???(r0.01,8=0.7646)
r
值可由Excel函數(shù)求出
例在指定溫度下某化學(xué)反應(yīng)的活化能E與壓力p關(guān)系
E=ap+b,實(shí)驗(yàn)數(shù)據(jù)如下CORREL(array1,array2)p/MPa0.100.200.300.400.500.600.700.800.901.00E/kJ·mol-140.240.740.941.641.842.642.843.243.743.8表4.1活化能E與壓力p實(shí)驗(yàn)數(shù)據(jù)
11上一例題,n=?,臨界值r=?線性??4.1.3回歸方程顯著性的檢驗(yàn)(1)相關(guān)系數(shù)檢驗(yàn)法方法由自由度f(wàn)(=n-2)及指定顯著性水平(置信度=1-)得到的r,f臨界值和由n組數(shù)據(jù)最小二乘法計(jì)算的r值的相對(duì)大小判斷。若計(jì)算值r的|r|>相同f及的r,f
臨界值,則y與x線性關(guān)系好;
若計(jì)算值r的|r|<相同f及的r,f臨界值,則y與x線性關(guān)系差。影響相關(guān)系數(shù)臨界值的因素
f(Excel中的df)、。
r,f與f(=n-2)、有關(guān),n小,小,r,f
大。如n=5,f=3,取
=0.01,查表得r0.01,3=0.9587;r0.01,8=0.7646
→
r0.01,3>r0.01,8
n=10,臨界值r0.01,8=0.7646,由最小二乘法計(jì)算得到
r0.01,8=0.9936,>>
r0.01,8=0.7646,線性顯著相關(guān)。12表4.2相關(guān)系數(shù)r
臨界值表
(數(shù)理統(tǒng)計(jì)給出)n-2a=0.05a=0.01n-2a=0.05a=0.0110.996920.999877110.55290.683520.950000.99000120.53240.661430.87830.95873130.51390.641140.81140.91720140.49730.622650.75450.8745150.48210.605560.70670.8343160.46830.589770.66640.7977170.45550.575180.63190.7646180.44380.561490.60210.7348190.43290.5487100.57600.7079200.42270.536813(1)相關(guān)系數(shù)檢驗(yàn)法r—相關(guān)系數(shù)查表可得F臨界值F(m,f),其中m為自變量個(gè)數(shù),f=n-2。上題F0.01(1,8)=11.3;由r=0.9936,得F=619,>>F0.01(1,8),則y與x線性
相關(guān)關(guān)系顯著。多用于多變量檢驗(yàn)(2)F
檢驗(yàn)法
n,與
r
通常要求
n≥4(?)
一般要求,=0.05,置信度=1-a=95%,n=4時(shí),r0.05,2=0.950;高要求,=0.01,置信度=99%,n=4時(shí),r0.01,2=0.990。
定義:在一元線性回歸中14(3)其它統(tǒng)計(jì)參數(shù)
Page93,101
y值的標(biāo)準(zhǔn)誤差
SE(y)—反映測(cè)量值的準(zhǔn)確度。SE(y)小,根據(jù)擬合方程計(jì)算的y值準(zhǔn)確。
斜率a的標(biāo)準(zhǔn)誤差
SE(a)
截距b的標(biāo)準(zhǔn)誤差SE(b)SE(a)、SE(b)是衡量擬合函數(shù)好壞的參數(shù);用于計(jì)算斜率a、截距b的置信區(qū)間(t檢驗(yàn))。154.2Excel函數(shù)的使用方法p24
函數(shù):計(jì)算機(jī)執(zhí)行的一步或多步運(yùn)算過(guò)程,包括數(shù)學(xué)和三角函數(shù)、較復(fù)雜的矩陣運(yùn)算函數(shù)及復(fù)雜的數(shù)據(jù)分析函數(shù)等。12類,300多種。(1)
Excel函數(shù)組成函數(shù)名、參數(shù)函數(shù)名:指定要執(zhí)行的運(yùn)算。參數(shù)—指定函數(shù)使用的數(shù)值或單元格數(shù)據(jù)。要放在括號(hào)()內(nèi)。(2)基本語(yǔ)法①
開頭必須有=。如=
LOG(10)(也可用+,
-開頭)②
參數(shù)必須放在圓括號(hào)()內(nèi),()前后無(wú)空格,不用參數(shù)的函數(shù)用空()。③參數(shù)間要用逗號(hào)“,”隔開;參數(shù)可以是數(shù)值、數(shù)組、單元格、單元格區(qū)域、表達(dá)式、函數(shù)(嵌套≤7層)等。
④可用名稱作為參數(shù),如已定義的單元格名、區(qū)域名。16(3)函數(shù)調(diào)用方法先選定插入函數(shù)的單元格,用下列方法之一調(diào)用函數(shù)。①“插入”/fx→插入函數(shù)→搜索函數(shù)/選擇類別/
選擇函數(shù)→函數(shù)名→輸入?yún)?shù);②鍵盤輸入=函數(shù)名,參數(shù);③輸入=,再點(diǎn)擊左側(cè)函數(shù)列表框,選已用過(guò)的函數(shù);在()內(nèi)輸入?yún)?shù);④點(diǎn)擊按鈕S選函數(shù)名。例
概念:函數(shù)調(diào)用—使用函數(shù)的過(guò)程。函數(shù)的返回值—結(jié)果。
用好幫助
菜單欄→幫助/“F1”鍵;有關(guān)該函數(shù)的幫助…Excel174.3一元線性回歸
由最小二乘法求直線方程y=ax+b
的參數(shù):斜率slope—a,截距intercept—b;
還有相關(guān)系數(shù)
correlation—r/R2,
其它回歸統(tǒng)計(jì)值。
184.3.1
用SLOPE()函數(shù)求斜率a
用INTERCEPT()函數(shù)求截距b名稱格式返回值SLOPESLOPE(y值數(shù)列,x值數(shù)列)
斜率a值INTERCEPTINTERCEPT(y值數(shù)列,x值數(shù)列)
截距b值語(yǔ)法
示例:乙酸乙酯皂化反應(yīng),為二級(jí)反應(yīng)。
CH3COOC2H5+NaOHDCH3COONa+C2H5OHc0-xc0-xxx
二級(jí)反應(yīng)速率方程用電導(dǎo)率法,測(cè)定的電導(dǎo)率
Lt~x呈直線關(guān)系,從上二式對(duì)t
作圖,其直線斜率為k。Excel19
4.3.2
用CORREL(
)
函數(shù)求相關(guān)系數(shù)R語(yǔ)法
CORREL函數(shù)
Coefficientofcorrelation
格式:CORREL(數(shù)列1,數(shù)列2)
參數(shù):自變量、因變量數(shù)列。
返回值:兩數(shù)列的相關(guān)系數(shù)R值。實(shí)例204.3.3用LINEST(
)函數(shù)作線性回歸分析Linest函數(shù)可對(duì)一組數(shù)據(jù)作線性回歸分析。Line
Statistic線性方程的通式為y=ax+b
或y=a1x1+a2x2+...+amxm+bLinest給出回歸參數(shù)a,b,或a1,a2,...,am,b,
數(shù)值數(shù)組形式,即返回{a,b}回歸參數(shù),還可有附加回歸統(tǒng)計(jì)值r2,F,df,SS,誤差等。
Linest函數(shù)語(yǔ)法
格式
Linest(y值數(shù)列,x值數(shù)列,常數(shù)_邏輯,統(tǒng)計(jì)_邏輯)
參數(shù)
①因變量數(shù)列,②自變量數(shù)列;
③常數(shù)—是否不強(qiáng)制截距為0;為邏輯值:缺省/1/True—不強(qiáng)制b=0;
0/False—強(qiáng)制b=0得到過(guò)原點(diǎn)的直線方程y=ax。
④統(tǒng)計(jì)—是否返回附加回歸統(tǒng)計(jì)值,邏輯值:1/True—有;省/False—無(wú)。
返回值為數(shù)值數(shù)組。21數(shù)值數(shù)組(回歸參數(shù)+回歸統(tǒng)計(jì)值)數(shù)值數(shù)組的順序斜率mn
m1截距bm的標(biāo)準(zhǔn)誤差b的標(biāo)準(zhǔn)誤差r2
y的標(biāo)準(zhǔn)誤差F值自由度df回歸平方和殘差平方和使用Linest函數(shù)的操作過(guò)程:
應(yīng)先選定將要顯示數(shù)組的區(qū)域,然后輸入函數(shù)、適當(dāng)參數(shù),再依次按下(不松手)Ctrl+Shift+Enter——輸入?yún)?shù)后“確定”的方法。不能刪除數(shù)值數(shù)組中的單個(gè)元素。Excel224.3.4使用“數(shù)據(jù)分析”—“回歸”的線性擬合
Excel有附加的獨(dú)立程序包“分析工具庫(kù)”,可作線性回歸分析。未曾用過(guò)“分析工具庫(kù)”的,需加載。
“工具”菜單中有“數(shù)據(jù)分析”。加載方法:(MSOfficeCD→)“工具”菜單加載宏分析工具庫(kù)
。
“數(shù)據(jù)分析”中“回歸”進(jìn)行線性回歸分析的方法
①“工具”菜單“數(shù)據(jù)分析”“分析工具”“回歸”②“回歸”對(duì)話框:在“輸入”選項(xiàng)區(qū)輸入數(shù)據(jù)區(qū)域(可含數(shù)據(jù)欄名稱)?!皹?biāo)志”數(shù)據(jù)欄名稱?!爸眯哦取?5%,99%...“常數(shù)為零”截距=0,若選中就是強(qiáng)制回歸線通過(guò)原點(diǎn)。由需要確定?!拜敵鲞x項(xiàng)”指定回歸分析數(shù)據(jù)輸出的區(qū)域?!熬€性擬合圖”—數(shù)據(jù)點(diǎn)+預(yù)測(cè)點(diǎn)?!皻埐睢?“正態(tài)分布”—可不選。輸出匯總表SUMMARYOUTPUT包括:回歸統(tǒng)計(jì)、方差分析、回歸參數(shù)及統(tǒng)計(jì)。MultipleR=R
的絕對(duì)值(復(fù)相關(guān)系數(shù));AdjustedRSquare
修正的R2(=1-(1-R^2)*(N-1)/(N-k-1)),與n和變量個(gè)數(shù)k有關(guān),用于多變量回歸)Excel23
提示回歸值與預(yù)測(cè)值
回歸值:將實(shí)驗(yàn)數(shù)據(jù)中自變量值代入回歸方程得到的計(jì)算值。
預(yù)測(cè)值:將其它自變量值代入回歸方程得到的計(jì)算值。244.4多元線性回歸LINEST和“數(shù)據(jù)分析”的“回歸”還可對(duì)多個(gè)自變量xi的函數(shù)式
y=a1x1+a2x2+...+amxm+b
作線性擬合,計(jì)算出m個(gè)xi相對(duì)應(yīng)的系數(shù)a1,a2,...,a
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022《創(chuàng)新設(shè)計(jì)》江蘇專用高考英語(yǔ)二輪專題復(fù)習(xí)-沖刺演練-綜合模擬預(yù)測(cè)卷(一)
- 天津市河北區(qū)2023-2024學(xué)年八年級(jí)下學(xué)期期末考試語(yǔ)文試題(無(wú)答案)
- 【名師一號(hào)】2020-2021學(xué)年新課標(biāo)版物理選修3-1-第一章靜電場(chǎng)雙基限時(shí)練8
- 山東省日照市實(shí)驗(yàn)中學(xué)2024-2025學(xué)年七年級(jí)上學(xué)期 歷史期末試題(含答案)
- 五年級(jí)上冊(cè)語(yǔ)文期末模擬試題及答案
- 【紅對(duì)勾】2020年高中化學(xué)(人教版-必修二)-第3章-第4節(jié)-課時(shí)作業(yè)23
- 【優(yōu)教通】2021年高一生物同步練習(xí):4.1.2-酶作用特性及其影響因素(蘇教版必修1)-
- 上海市各區(qū)2021屆高三英語(yǔ)一模試卷分類匯編:寫作專題
- 《瑜伽健身》課件
- 2022法律知識(shí)競(jìng)賽參考題庫(kù)300題(含答案)
- 公司扭虧方案
- 第十四章出口管制課件
- 常用井下工具原理與用途課件
- 國(guó)家開放大學(xué)《學(xué)前兒童游戲指導(dǎo)》期末復(fù)習(xí)題參考答案
- 誰(shuí)是臥底小游戲
- 廣東省東莞市2023-2024學(xué)年高一上學(xué)期期末生物試題
- 腦病科中醫(yī)健康宣教課件
- 物業(yè)管理服務(wù)領(lǐng)域:保利物業(yè)企業(yè)組織架構(gòu)及部門職責(zé)
- 鄂州市重點(diǎn)中學(xué)2023年七年級(jí)數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 融媒體專題報(bào)道方案
評(píng)論
0/150
提交評(píng)論