版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、2.1 2.1 數(shù)理統(tǒng)計的基本概念數(shù)理統(tǒng)計的基本概念 2.2 2.2 參數(shù)估計參數(shù)估計 2.3 2.3 假設(shè)檢驗假設(shè)檢驗 2.4 2.4 方差分析方差分析 2.5 2.5 回歸分析回歸分析 2.6 2.6 判別分析判別分析 2.7 2.7 建模實例建模實例 數(shù)理統(tǒng)計的任務是以數(shù)理統(tǒng)計的任務是以概率論為基礎(chǔ)概率論為基礎(chǔ), , 根據(jù)試驗根據(jù)試驗的數(shù)據(jù)的數(shù)據(jù), , 對研究對象的客對研究對象的客觀規(guī)律性作出合理的估計觀規(guī)律性作出合理的估計與推斷與推斷. . 近幾年來的全國大學近幾年來的全國大學生數(shù)學建模競賽中,幾乎生數(shù)學建模競賽中,幾乎每次都有一道題要用到此每次都有一道題要用到此方法方法. . 我們把
2、研究對象的全體稱為我們把研究對象的全體稱為總體總體, , 而把而把組成總體的每個基本單元稱為組成總體的每個基本單元稱為個體個體. . 從總體從總體X中隨機抽取中隨機抽取n個個體個個體(X1 , X2 , , Xn )稱為總稱為總體體X中一個中一個樣本樣本, n 稱為稱為樣本容量樣本容量. 由于樣本是隨機抽樣的由于樣本是隨機抽樣的, 可以認為來自可以認為來自總體總體X中一個樣本中一個樣本(X1 , X2 , , Xn)是一組相是一組相互獨立且與總體互獨立且與總體X同分布的隨機變量同分布的隨機變量. 樣本的觀測值記為樣本的觀測值記為(x1 , x2 , , xn), 樣本樣本(X1 , X2 ,
3、, Xn)的不含任何未知參數(shù)的函數(shù)的不含任何未知參數(shù)的函數(shù) f (X1 , X2 , , Xn) 稱為稱為統(tǒng)計量統(tǒng)計量. 常用統(tǒng)計量常用統(tǒng)計量樣本均值樣本均值樣本方差樣本方差樣本標準差樣本標準差nkkXnX11nkkXXnS122)(11nkkXXnS12)(11 根據(jù)樣本的觀測值根據(jù)樣本的觀測值 ( x1 , x2 , , xn ), 可以繪出樣本頻率直方圖和累積頻率直方可以繪出樣本頻率直方圖和累積頻率直方圖圖( (具體方法見具體方法見P10-11). P10-11). 根據(jù)樣本頻率直方圖和累積頻率直方根據(jù)樣本頻率直方圖和累積頻率直方圖可以近似描繪出總體的分布密度函數(shù)曲圖可以近似描繪出總體的
4、分布密度函數(shù)曲線和分布函數(shù)曲線線和分布函數(shù)曲線. .記?。鹤罱K還是要找出總體的分布規(guī)律!記?。鹤罱K還是要找出總體的分布規(guī)律! 根據(jù)實際數(shù)據(jù)找出其規(guī)律根據(jù)實際數(shù)據(jù)找出其規(guī)律, , 它一般是含它一般是含有未知參數(shù)的數(shù)學關(guān)系式有未知參數(shù)的數(shù)學關(guān)系式. . 參數(shù)估計就是要根據(jù)實際數(shù)據(jù)給出數(shù)學參數(shù)估計就是要根據(jù)實際數(shù)據(jù)給出數(shù)學關(guān)系式中未知參數(shù)的估計值關(guān)系式中未知參數(shù)的估計值. . 參數(shù)估計的方法比較多參數(shù)估計的方法比較多. .一般情況下一般情況下, ,參參數(shù)估計問題可歸結(jié)為求一個函數(shù)的極值點問數(shù)估計問題可歸結(jié)為求一個函數(shù)的極值點問題題. . 下面主要介紹最小二乘法和極大似然法下面主要介紹最小二乘法和極大
5、似然法. .最小二乘法最小二乘法 設(shè)設(shè) y = f (x ; ), ,其中其中x是自變量是自變量( (或向量或向量),), 是未知參數(shù)是未知參數(shù)( (或未知向量或未知向量),), y 是是 x的函數(shù)的函數(shù). . x 和和 y 都是可觀測的都是可觀測的. . (x1, y1), (x2, y2), , (xn, yn)是是n組觀測值組觀測值. . 最小二乘法的基本思想就是求最小二乘法的基本思想就是求 的一個的一個估計值估計值, ,使函數(shù)取使函數(shù)取niiixfyQ12);()(最小值最小值. . 例如,例如,2003年年全國大學生數(shù)學建模競?cè)珖髮W生數(shù)學建模競賽賽A題:題:SARS的傳播的傳播 (
6、http:/) 假如你已經(jīng)得到已確診假如你已經(jīng)得到已確診SARS病例累計病例累計數(shù)數(shù)x(t)與時間與時間t的關(guān)系符合的關(guān)系符合Logistic傳播規(guī)律:傳播規(guī)律: rtxKxKxtxe )()(000 應用最小二乘法,可求出其中的未知應用最小二乘法,可求出其中的未知參數(shù)參數(shù)K、x0 0、r ( (可利用可利用MATLAB軟件中的軟件中的fmins函數(shù)函數(shù)).).極大似然法極大似然法 設(shè)總體設(shè)總體 的概率分布為的概率分布為 p(x; ),其中,其中 是是未知參數(shù)未知參數(shù). .x1 , x2, , xn是總體的樣本觀測值是總體的樣本觀測值. . niixpL1);()(稱稱L( )為似然函數(shù)為似然
7、函數(shù). .令令 極大似然法的基本思想是:在極大似然法的基本思想是:在 的取值的取值范圍內(nèi)范圍內(nèi), , 挑選使似然函數(shù)挑選使似然函數(shù)L( )取得最大值的取得最大值的 估計值估計值. .一般只需求一般只需求ln L( )的最大值點即可:的最大值點即可:max ln L( ) . 例如,例如,1999年年全國大學生數(shù)學建模競?cè)珖髮W生數(shù)學建模競賽賽A題:自動化車床管理題:自動化車床管理 (P49). 100次刀具故障記錄次刀具故障記錄( (完成的零件數(shù)完成的零件數(shù)) )服服從正態(tài)分布從正態(tài)分布( (在假設(shè)檢驗中,我們將會驗證在假設(shè)檢驗中,我們將會驗證這一點這一點) ):222)(e21)(xxp似然
8、函數(shù)為似然函數(shù)為1001222)(21ln),(lniixnL可以驗證未知參數(shù)可以驗證未知參數(shù) 、 分別是樣本均值與標準差分別是樣本均值與標準差 假設(shè)總體期望值為假設(shè)總體期望值為 0, , 假設(shè)總體方差假設(shè)總體方差不大于不大于 02,假設(shè)總體服從某種分布,假設(shè)總體服從某種分布, ,上述上述種種假設(shè)是否成立呢?種種假設(shè)是否成立呢? 還有某種品種是否比其它品種更優(yōu)?還有某種品種是否比其它品種更優(yōu)?某種藥品是否比其它藥品更有效?等等這某種藥品是否比其它藥品更有效?等等這些問題需通過概率計算些問題需通過概率計算, , 采用假設(shè)檢驗的采用假設(shè)檢驗的方法方法, , 才能做出正確的推斷才能做出正確的推斷.
9、. 假設(shè)檢驗的主要內(nèi)容有:一個正態(tài)總假設(shè)檢驗的主要內(nèi)容有:一個正態(tài)總體的假設(shè)檢驗、兩個正態(tài)總體的假設(shè)檢驗體的假設(shè)檢驗、兩個正態(tài)總體的假設(shè)檢驗以及分布律的假設(shè)檢驗以及分布律的假設(shè)檢驗. .假設(shè)檢驗的基本方法假設(shè)檢驗的基本方法 提出待檢驗的假設(shè)提出待檢驗的假設(shè)H0 它可能有以下幾個來源:它可能有以下幾個來源: 依據(jù)以往的經(jīng)依據(jù)以往的經(jīng)驗或某些實驗的結(jié)果;驗或某些實驗的結(jié)果; 依據(jù)某種理論或某種依據(jù)某種理論或某種模型;模型; 根據(jù)事先所做的某種規(guī)定根據(jù)事先所做的某種規(guī)定. . 選擇檢驗假設(shè)選擇檢驗假設(shè)H0 的統(tǒng)計量,并確定其分的統(tǒng)計量,并確定其分布,再根據(jù)樣本觀測值計算出該統(tǒng)計量的值布,再根據(jù)樣本觀
10、測值計算出該統(tǒng)計量的值. . 確定拒絕域并作出判斷確定拒絕域并作出判斷 在給定的檢驗水平在給定的檢驗水平( (或顯著性水平或顯著性水平) ) (0(0 1)1)下,查所選統(tǒng)計量服從的分布表,求出臨界下,查所選統(tǒng)計量服從的分布表,求出臨界值,然后根據(jù)小概率事件在一次觀測中不可能發(fā)值,然后根據(jù)小概率事件在一次觀測中不可能發(fā)生的原理確定檢驗假設(shè)生的原理確定檢驗假設(shè)H0的拒絕域并做出判斷的拒絕域并做出判斷. . 一個正態(tài)總體的假設(shè)檢驗有以下兩種:一個正態(tài)總體的假設(shè)檢驗有以下兩種: 未知未知方差方差 2, 檢驗假設(shè)檢驗假設(shè)H0: = 0 ( 0為為已知,步驟已知,步驟見見P15-16)P15-16) 提
11、出待檢假設(shè)提出待檢假設(shè)H0: = 0 . 選取樣本選取樣本 ( X1, X2, , Xn ) 的統(tǒng)計量:的統(tǒng)計量:) 1(0ntnSxT再根據(jù)樣本觀測值計算出統(tǒng)計量再根據(jù)樣本觀測值計算出統(tǒng)計量T 的值的值. 查表得臨界值:查表得臨界值:t = t (n - - 1). . 然后根據(jù)然后根據(jù)P|T| |t = 下結(jié)論:若下結(jié)論:若| |T| |t , , 則否定則否定H0;否則;否則, ,一般情況下接受一般情況下接受H0. . 未知未知期望期望 , 檢驗假設(shè)檢驗假設(shè)H0: 2 02 ( 02已知,步驟已知,步驟見見P16)P16) 提出待檢假設(shè)提出待檢假設(shè)H0: 2 02. 選取樣本選取樣本 (
12、 X1, X2, , Xn ) 的統(tǒng)計量:的統(tǒng)計量:),1() 1(2222nSn再根據(jù)樣本觀測值計算出統(tǒng)計量再根據(jù)樣本觀測值計算出統(tǒng)計量 2 的值的值. 查表得臨界值:查表得臨界值: 2 = 2 (n - - 1). . 然后根據(jù)然后根據(jù)P| 2| 2 = 下結(jié)論:下結(jié)論: 若若| | 2| 2, , 則否定則否定H0;否則;否則, ,一般情況下一般情況下接受接受H0. . 例如,假設(shè)你要例如,假設(shè)你要檢查食鹽檢查食鹽包裝機工作是包裝機工作是否正常?否正常?( (見見P16)P16) 首先首先, ,你要建立你要建立假設(shè)檢驗假設(shè)檢驗H0: = 0 ( ( 0 =500) ),檢驗檢驗包裝機有沒
13、有產(chǎn)生系統(tǒng)誤差;包裝機有沒有產(chǎn)生系統(tǒng)誤差; 再建立再建立假設(shè)檢驗假設(shè)檢驗H1: 2 02( ( 02=102) ),檢驗檢驗包裝機工作是否穩(wěn)定包裝機工作是否穩(wěn)定. .兩個正態(tài)總體的假設(shè)檢驗有以下三種:兩個正態(tài)總體的假設(shè)檢驗有以下三種: 未知期望未知期望 1 , 2, 檢驗假設(shè)檢驗假設(shè)H0: 12= 22. . 建立待檢假設(shè)建立待檢假設(shè)H0: 12= 22. ( (步驟見步驟見P17)P17) 選取樣本選取樣本(X1, X2, , Xm ),( Y1, Y2, , Yn )的統(tǒng)計量的統(tǒng)計量( (不妨設(shè)不妨設(shè)S12S22 ) ):),1, 1(2221nmFSSF再根據(jù)樣本觀測值計算出統(tǒng)計量再根據(jù)
14、樣本觀測值計算出統(tǒng)計量F 的值的值. 查表得臨界值:查表得臨界值:F /2 = F /2(m - -1, n - - 1). . 然后根據(jù)然后根據(jù)P FF /2 = /2 下結(jié)論:若下結(jié)論:若FF /2 , , 則否定則否定H0;否則;否則, ,一般情況下接受一般情況下接受H0. . 未知未知期望期望 1 , 2, 檢驗假設(shè)檢驗假設(shè)H0: 12 22 建立待檢假設(shè)建立待檢假設(shè)H0: 12 22. ( (步驟見步驟見P17)P17) 選取樣本選取樣本(X1, X2, , Xm ),( Y1, Y2, , Yn )的統(tǒng)計量:的統(tǒng)計量:),1, 1(2221nmFSSF再根據(jù)樣本觀測值計算出統(tǒng)計量再
15、根據(jù)樣本觀測值計算出統(tǒng)計量F 的值的值. 查表得臨界值:查表得臨界值:F = F (m - -1, n - - 1). . 然后根據(jù)然后根據(jù)P FF = 下結(jié)論:若下結(jié)論:若FF , , 則否定則否定H0;否則;否則, ,一般情況下接受一般情況下接受H0. . 未知未知方差方差 12, 22, 但但 12= 22,檢驗假設(shè),檢驗假設(shè)H0: 1 = 2 ( (步驟見步驟見P17)P17) 建立建立待檢假設(shè)待檢假設(shè)H0: 1 = 2 . 選取統(tǒng)計量:選取統(tǒng)計量:),2(nmtWyxT其中其中 ,112) 1() 1(2221nmnmSnSmW特別地特別地, 當當m = n時時,./ )(2221n
16、SSW 查表得臨界值:查表得臨界值:t = t (m + n 2 ). . 然后根據(jù)然后根據(jù)P|T| |t = 下結(jié)論:若下結(jié)論:若| |T| |t , , 則否定則否定H0;否則;否則, ,一般情況下接受一般情況下接受H0. . 例如,要例如,要檢查某種新藥檢查某種新藥是否有效?是否有效? 首先首先, ,將病人分為兩類將病人分為兩類, ,一類用該藥一類用該藥, ,另一類另一類不用不用. . 然后建立然后建立假設(shè)檢驗假設(shè)檢驗H0: 12= 22, ,檢驗檢驗兩類兩類病人指標方差是否相等?病人指標方差是否相等? 當方差相等時當方差相等時, ,再建立再建立假設(shè)檢驗假設(shè)檢驗H1: 1= 2 , ,檢
17、驗檢驗兩類病人指標均值是否相等?兩類病人指標均值是否相等? 又如,你要又如,你要檢查兩臺食鹽檢查兩臺食鹽包裝機中哪一臺包包裝機中哪一臺包裝機更好?裝機更好? 首先首先, , 你要分別建立你要分別建立假設(shè)檢驗假設(shè)檢驗H1: 1= 0與與H2: 1= 0 ( ( 0 =500),),檢驗每臺檢驗每臺包裝機有沒有產(chǎn)包裝機有沒有產(chǎn)生系統(tǒng)誤差?生系統(tǒng)誤差? 再建立再建立假設(shè)檢驗假設(shè)檢驗H3: 12 22, ,檢驗檢驗哪一臺包哪一臺包裝機更好?裝機更好? 分布律的假設(shè)檢驗按分布律的假設(shè)檢驗按皮爾遜皮爾遜(K.Pearson)平方和準則平方和準則( (步驟見步驟見P18-19)P18-19) 例如,例如,1
18、999年年全國大學生數(shù)學建模競?cè)珖髮W生數(shù)學建模競賽賽A題:自動化車床管理題:自動化車床管理 (P49). 檢驗檢驗100次次刀具故障記錄刀具故障記錄( (完成的零件數(shù)完成的零件數(shù)) )是否服從正是否服從正態(tài)分布態(tài)分布N(600, 38663.02=196.632). 100100-200 200-300 300-400 400-500 500-600頻數(shù)頻數(shù)mi12461522概率概率pi0.00440.01550.04260.09100.15090.1945 600-700 700-800 800-900900-10001000-11001100頻數(shù)頻數(shù)mi22148411概率概率pi0.
19、19450.15100.09100.04260.01550.0044首先做首先做假設(shè)假設(shè)H0:F(x)=F0(x),其中,其中 xxxxFde63.19621)(2263.1962)600(0其次選取統(tǒng)計量:其次選取統(tǒng)計量:)75. 3(100)100(12122iiiippm查表得臨界值查表得臨界值205.0( 12 - - 1 - - 2 ) = 3.33. 因為因為3.333.75, 故否定故否定H0, 所以在顯著所以在顯著性水平性水平0.05下認為?下認為? 因為因為 ( 12 - - 1 - - 2 ) = 3.333.75, 故故否定否定H0. 205.0 所以在顯著性水平所以在顯
20、著性水平0.05下認為下認為 100次刀次刀具故障記錄具故障記錄( (完成的零件數(shù)完成的零件數(shù)) )不服從正態(tài)分不服從正態(tài)分布布N(600, 196.632).但是但是21 .0( 12 - - 1 - - 2 ) = 4.17.因為因為3.754.17, 故接受故接受H0. 所以在顯著性所以在顯著性水平水平0.1下認為下認為 100次刀具故障次刀具故障記錄服從正態(tài)分布記錄服從正態(tài)分布N(600, 196.632). . 即有即有90%90%的可能性認為的可能性認為 100次刀具故障記錄服次刀具故障記錄服從正態(tài)分布從正態(tài)分布N(600, 196.632). . 用不同的生產(chǎn)方法生產(chǎn)同一種產(chǎn)品用
21、不同的生產(chǎn)方法生產(chǎn)同一種產(chǎn)品, , 比較各種生產(chǎn)方法對產(chǎn)品的影響是人們經(jīng)比較各種生產(chǎn)方法對產(chǎn)品的影響是人們經(jīng)常遇到的問題常遇到的問題. . 為此為此, , 需要找出對產(chǎn)品有顯著影響的需要找出對產(chǎn)品有顯著影響的因素因素. . 方差分析就是鑒別各因素效應的一種方差分析就是鑒別各因素效應的一種有效的統(tǒng)計方法有效的統(tǒng)計方法. . 方差分析包括單因素方差分析和雙因方差分析包括單因素方差分析和雙因素方差分析素方差分析. .單因素方差分析單因素方差分析 如果在試驗中只有一個因素在變化如果在試驗中只有一個因素在變化, , 其其它可控制的條件不變它可控制的條件不變, , 稱它為稱它為單因素試驗單因素試驗;若試驗
22、中變化的因素多于一個若試驗中變化的因素多于一個, , 則稱為則稱為雙因雙因素以及多因素試驗素以及多因素試驗. . 單因素試驗中單因素試驗中, , 若只有兩個水平若只有兩個水平, , 就是就是以前講過的兩個總體的比較問題以前講過的兩個總體的比較問題. . 超過兩個超過兩個水平的時候水平的時候, , 也就是需要好多個總體進行比也就是需要好多個總體進行比較較, , 這時這時, , 方差分析是一種有效的方法方差分析是一種有效的方法. . 單因素方差分析的假設(shè)前提、解題方法單因素方差分析的假設(shè)前提、解題方法與步驟見與步驟見P20-21 例例 為了考察為了考察6種不同的農(nóng)藥的殺蟲率有無顯種不同的農(nóng)藥的殺蟲
23、率有無顯著差異著差異, 做了做了18次試驗次試驗, 得數(shù)據(jù)如下:得數(shù)據(jù)如下: 農(nóng)藥農(nóng)藥 殺殺 蟲蟲 率率(%) (%) 行平均值行平均值 1 87.4 85.0 80.2 84.201 87.4 85.0 80.2 84.20 2 90.5 88.5 87.3 94.7 90.26 2 90.5 88.5 87.3 94.7 90.26 3 56.2 62.4 59.30 3 56.2 62.4 59.30 4 55.0 48.2 51.60 4 55.0 48.2 51.60 5 92.0 99.2 95.3 91.5 94.50 5 92.0 99.2 95.3 91.5 94.50 6
24、76.2 72.3 81.3 76.27 6 76.2 72.3 81.3 76.27 要考察這要考察這6 6種不同的農(nóng)藥的殺蟲率有無顯著差異,需種不同的農(nóng)藥的殺蟲率有無顯著差異,需要建立假設(shè)檢驗:要建立假設(shè)檢驗:H0: 1= 2 = = 6 = . 進一步進一步, ,自然希望找出最優(yōu)的農(nóng)藥自然希望找出最優(yōu)的農(nóng)藥, ,以便提高殺蟲率以便提高殺蟲率. . 因此要檢驗假設(shè):因此要檢驗假設(shè): H1: 2 = 5 .雙因素方差分析雙因素方差分析 進行雙因素方差分析的目的進行雙因素方差分析的目的, ,是要檢驗是要檢驗兩個因素對試驗結(jié)果有無影響兩個因素對試驗結(jié)果有無影響. . 在試驗中在試驗中, ,對每一
25、因素的每一水平都可對每一因素的每一水平都可取一個容量為取一個容量為nij的樣本的樣本. . 按按nij = 1( (無重復試驗無重復試驗, ,不考慮兩因素間不考慮兩因素間的交互作用的交互作用) )和和nij2( (不等重復試驗不等重復試驗, , 考慮考慮兩因素間的交互作用兩因素間的交互作用) )分為兩種情形:無重分為兩種情形:無重復試驗的雙因素方差分析和重復試驗的雙因復試驗的雙因素方差分析和重復試驗的雙因素方差分析素方差分析. . 在重復試驗的雙因素方差分析中,在重復試驗的雙因素方差分析中,就是要考察兩個因素就是要考察兩個因素 A, ,B之間是否存在之間是否存在交互作用的影響交互作用的影響,
26、, 需要對兩個因素各種需要對兩個因素各種水平的組合水平的組合( (Ai , ,Bj ) )進行重復試驗進行重復試驗, , 假假設(shè)每一個組合都重復試驗設(shè)每一個組合都重復試驗 m( ( m1 ) )次次( (若是不等重復試驗若是不等重復試驗, ,殘缺數(shù)據(jù)可按均值殘缺數(shù)據(jù)可按均值補齊以便于計算補齊以便于計算).). 無重復試驗的雙因素方差分析和重無重復試驗的雙因素方差分析和重復試驗的雙因素方差分析解題方法與步復試驗的雙因素方差分析解題方法與步驟見驟見P22-24 P22-24 例例 設(shè)設(shè)4 4個工人操作個工人操作3 3臺機器各一天臺機器各一天, ,日產(chǎn)日產(chǎn)量數(shù)據(jù)如下:量數(shù)據(jù)如下: 工人工人機器機器B
27、1 B2B3B4行平均值行平均值 25A25354575855.5A35242414845.75列平均值列平均值 51.6747.6748.335350.17問是否真正存在機器或工人之間的差別?問是否真正存在機器或工人之間的差別? 回歸分析是考察兩個變量之間統(tǒng)計聯(lián)系回歸分析是考察兩個變量之間統(tǒng)計聯(lián)系的一種重要方法的一種重要方法, , 它在許多領(lǐng)域中都有極其它在許多領(lǐng)域中都有極其廣泛的應用廣泛的應用. . 變量之間的關(guān)系大致可分為兩類變量之間的關(guān)系大致可分為兩類, , 一類一類是確定性的關(guān)系是確定性的關(guān)系, , 如我們熟知的函數(shù)關(guān)系;如我們熟知的函數(shù)關(guān)系;另一類是非確定
28、性的關(guān)系另一類是非確定性的關(guān)系. . 本節(jié)主要考察非確定性的關(guān)系中一個隨本節(jié)主要考察非確定性的關(guān)系中一個隨機變量與另一個或多個非隨機變量之間的關(guān)機變量與另一個或多個非隨機變量之間的關(guān)系系. .回歸函數(shù)回歸函數(shù) 對于某些非確定性的關(guān)系對于某些非確定性的關(guān)系, 如隨機變量如隨機變量Y與變量與變量x(它可能是多維向量它可能是多維向量)之間的關(guān)系之間的關(guān)系,當自變量當自變量x確定之后確定之后, 因變量因變量Y 的值并不跟著的值并不跟著確定確定, 而是按一定的統(tǒng)計規(guī)律而是按一定的統(tǒng)計規(guī)律(即隨機變量即隨機變量Y的分布的分布)取值取值. 這時我們將它們之間的關(guān)系表示為這時我們將它們之間的關(guān)系表示為Y =
29、f (x) + ,其中其中f (x)是一個確定的函數(shù)是一個確定的函數(shù), 稱之為稱之為回歸函回歸函數(shù)數(shù). 為隨機項為隨機項, 且且 N(0, 2 ).回歸分析的任務之一是確定回歸函數(shù)回歸分析的任務之一是確定回歸函數(shù) f (x). . 當當 f (x)是一元線性函數(shù)時是一元線性函數(shù)時, ,稱之為稱之為一元線性一元線性回歸回歸; 當當 f (x)是多元線性函數(shù)時是多元線性函數(shù)時, ,稱之為稱之為多元線性多元線性回歸回歸; 當當 f (x)是非線性函數(shù)時是非線性函數(shù)時, ,稱之為稱之為非線性回歸非線性回歸. . 如何確定回歸函數(shù)如何確定回歸函數(shù) f (x)呢?一是根據(jù)經(jīng)驗公呢?一是根據(jù)經(jīng)驗公式式, ,
30、 二是根據(jù)散點圖二是根據(jù)散點圖. . 不管是那種類型的回歸不管是那種類型的回歸, , f (x)總含有未知參總含有未知參數(shù)數(shù), ,需要用到參數(shù)估計方法需要用到參數(shù)估計方法. . 一般情況下一般情況下, , 還需要檢驗回歸函數(shù)還需要檢驗回歸函數(shù) f (x)是否是否合理合理. . 回歸分析的目的是用回歸分析的目的是用 f (x)來做預測和決策來做預測和決策. . 一元線性回歸、一元線性回歸、預測和控制預測和控制 一元線性回歸是根據(jù)一元線性回歸是根據(jù)數(shù)據(jù)數(shù)據(jù)(xi, yi ) ( i =1, 2, , n )確定線性關(guān)系確定線性關(guān)系y = 0 + 1 x,利用最小二乘法確定回歸直線方程利用最小二乘法
31、確定回歸直線方程中的未中的未知參數(shù)知參數(shù) 0和和 1 :xySSxxxy101,其中其中niiixyniixxyyxxSxxS112).)(,)(,1,111niiniiynyxnx 判斷變量判斷變量y與與x之間是否存在線性關(guān)系之間是否存在線性關(guān)系, 需要檢驗假設(shè)需要檢驗假設(shè)H0: 1 = 0.選取統(tǒng)計量選取統(tǒng)計量).2, 1 ()2/(nFnQUFniiyyyyS12)(niiixyQ1210)(U + Q = Syy回歸和總和殘差平方和根據(jù)根據(jù)PFF (1, n - - 2 )= 下結(jié)論:下結(jié)論: 如果如果FF 拒絕拒絕H0, 即變量即變量y與與x之間存之間存在線性關(guān)系;在線性關(guān)系; 否則
32、接受否則接受H0, 即變量即變量y與與x之間不存在線之間不存在線性關(guān)系性關(guān)系, 考慮用其它回歸模型考慮用其它回歸模型. .利用回歸函數(shù)進行利用回歸函數(shù)進行預測和控制預測和控制 如何根據(jù)樣本提供的信息來預測當變量如何根據(jù)樣本提供的信息來預測當變量 x = x0 時隨機變量時隨機變量Y0的值?的值? 一個自然的想法是用預測量一個自然的想法是用預測量 y0 = 0 + 1 x0 來來代替代替, 但是它與真值但是它與真值Y0 的差值是多少呢?的差值是多少呢? 預測量預測量y0 的優(yōu)劣取決于的優(yōu)劣取決于| y0 - - Y0 |的大小的大小. 2nQ記記 當當n較大時較大時, , 估測區(qū)間的上下限近似取
33、作估測區(qū)間的上下限近似取作96. 10y( (可信程度為可信程度為95%)95%);或或58. 20y( (可信程度為可信程度為99%).99%). 控制是預測的反問題控制是預測的反問題, , 即要使隨機變量即要使隨機變量 Y 落落在指定的區(qū)間在指定的區(qū)間( yL, yU )內(nèi)內(nèi), ,變量變量x應控制在什么區(qū)間應控制在什么區(qū)間內(nèi)?內(nèi)?從方程從方程96. 1, 96. 11010UULLxyxy中解出中解出xL和和xU . . 則當則當 10 0時時, ,控制區(qū)間為控制區(qū)間為(xL, xU );當;當 10 0時時, , 控制區(qū)間為控制區(qū)間為(xU, xL ). . 例例 下面給出了懸掛不同重量
34、下面給出了懸掛不同重量x (單位:單位:g)的物的物體時彈簧的長度體時彈簧的長度y (單位:單位:cm):xi 5 10 15 20 25 5 10 15 20 25 30 30yi 7.25 8.12 8.95 9.90 10.90 11.80 7.25 8.12 8.95 9.90 10.90 11.80 (1) (1)變量變量y與與x之間的線性關(guān)系如何?之間的線性關(guān)系如何? (2)(2)當懸掛當懸掛16g重物時彈簧的長度大約是多少?重物時彈簧的長度大約是多少? (3)(3)要使彈簧的長度控制在要使彈簧的長度控制在1011cm之間之間, 問問懸掛物體的重量應控制在什么范圍內(nèi)?懸掛物體的重量
35、應控制在什么范圍內(nèi)? 可線性化回歸可線性化回歸 根據(jù)經(jīng)驗公式或散點圖根據(jù)經(jīng)驗公式或散點圖, ,選擇適當?shù)那€回歸選擇適當?shù)那€回歸方程方程. . 為了確定其中的未知參數(shù)為了確定其中的未知參數(shù), ,往往可以通過變往往可以通過變量代換量代換, ,把非線性回歸化為線性回歸把非線性回歸化為線性回歸, , 然后用線性然后用線性回歸的方法確定這些參數(shù)的值回歸的方法確定這些參數(shù)的值. . 下表列出了常用的可線性化回歸下表列出了常用的可線性化回歸( (a0). 0). 曲線方程曲線方程變換公式變換公式變換后的線性方程變換后的線性方程1/y = a + b/xu = 1/x, v = 1/yv = a + bu
36、y = axbu = lnx, v = lnyv = c + bu ( c = lna )y = a + blnxu = lnx, v = yv = a + buy = aebxu = x, v = lnyv = c + bu ( c = lna )y = 1/ ( a + be- -x ) u = e- -x, v = 1/yv = a + bu多元線性回歸和預測多元線性回歸和預測 設(shè)隨機變量設(shè)隨機變量Y與與m個變量個變量x1 , x2 , , xm有線性有線性關(guān)系關(guān)系Y = 0 + 1 x1 + 2 x2 + + m xm + ,其中其中 為隨機項為隨機項, 且且 N(0, 2 ). .
37、nyyy21y) 1(1221111111mnnmnmmxxxxxxXn21m10記記其中其中yi為隨機變量為隨機變量Y的觀測值的觀測值, X為已知的常數(shù)矩為已知的常數(shù)矩陣陣, 且殘差且殘差 i N(0, 2 ). 則問題歸結(jié)為根據(jù)則問題歸結(jié)為根據(jù)y和和X求求 使殘差平方和使殘差平方和達到達到最小值最小值. .Q = T = ( y - - X )T ( y - - X )0.10mQQQ令令得得 = ( X T X )- -1 X T y.即得到所求的回歸方程為即得到所求的回歸方程為 y = 0 + 1 x1 + 2 x2 + + m xm .相關(guān)性檢驗相關(guān)性檢驗 H0: 1 = 2 = =
38、 m = 0.選取統(tǒng)計量選取統(tǒng)計量).1, 1() 1/(/mnmFmnQmUFU + Q = SyyniiyyyyS12)(根據(jù)根據(jù)PFF (m - -1, n - - m - - 1)= 下結(jié)論:下結(jié)論: 如果如果FF 拒絕拒絕H0, 即變量即變量 y與與x1 , x2 , , xm 之間存在線性關(guān)系;之間存在線性關(guān)系; 否則接受否則接受H0, 即變量即變量y與與x1 , x2 , , xm之間不之間不存在線性關(guān)系存在線性關(guān)系.偏偏F檢驗法檢驗法 在多元線性回歸模型中在多元線性回歸模型中, 拒絕假設(shè)拒絕假設(shè)H0, 即回即回歸方程顯著歸方程顯著. 然而變量然而變量x1 , x2 , , xm
39、對對Y的影響并的影響并不都是十分重要的不都是十分重要的, 人們還關(guān)心人們還關(guān)心Y對對x1 , x2 , , xm的回歸中哪些因素更重要些的回歸中哪些因素更重要些, 哪些不重要哪些不重要. 要剔除不重要的要剔除不重要的, 需要采用需要采用偏偏F檢驗法檢驗法, 即檢即檢驗假設(shè)驗假設(shè)Hk: k = 0, k = 1, 2, , m .通常選取統(tǒng)計量通常選取統(tǒng)計量).1, 1 () 1/(/2mnFmnQaFkkkkakk是是(X T X )- -1的主對角線上的主對角線上第第k + 1個元素個元素.偏偏F檢驗法檢驗法檢驗假設(shè)檢驗假設(shè)Hk: k = 0, k = 1, 2, , m .通常選取統(tǒng)計量通
40、常選取統(tǒng)計量).1, 1 () 1/(/2mnFmnQaFkkkk其中其中 akk是是(X T X )- -1的主對角線上第的主對角線上第k + 1個元素個元素. 根據(jù)根據(jù)PFkF (1, n m 1)= 下結(jié)論:下結(jié)論: 如果如果FkF 拒絕拒絕H0, 即即xk對對Y的影響顯著;否的影響顯著;否則接受則接受Hk, 即即xk對對Y的影響不顯著的影響不顯著. 多元線性回歸模型的預測問題較為多元線性回歸模型的預測問題較為復雜,這里從略復雜,這里從略( (見見P32).P32).多項式回歸多項式回歸 非線性回歸比較復雜,通常采用適當?shù)姆蔷€性回歸比較復雜,通常采用適當?shù)淖兞看鷵Q,把非線性回歸轉(zhuǎn)化為線性
41、回歸變量代換,把非線性回歸轉(zhuǎn)化為線性回歸,然后用線性回歸的方法確定其中的未知參數(shù)然后用線性回歸的方法確定其中的未知參數(shù)以及檢驗其合理性以及檢驗其合理性. . 由于任意一個函數(shù)都可以用一個適當?shù)挠捎谌我庖粋€函數(shù)都可以用一個適當?shù)亩囗検絹磔^好地近似,這就是多項式回歸的多項式來較好地近似,這就是多項式回歸的意義所在意義所在. . 因此下面我們主要介紹一元多項式回歸因此下面我們主要介紹一元多項式回歸方法,對于多元多項式回歸,處理方法是類方法,對于多元多項式回歸,處理方法是類似的似的. .一元多項式回歸一元多項式回歸 假設(shè)回歸函數(shù)假設(shè)回歸函數(shù) y = f (x) 是一個是一個一元一元多項式:多項式:y
42、= 0 + 1 x + 2 x2 + + m xm,其中其中m2. . 對自變量對自變量x作變換:作變換:xj = x j, j = 1, 2, , m. 由由此得到此得到 y = 0 + 1 x1 + 2 x2 + + m xm. 再將原來的再將原來的一元一元多項式回歸問題中的多項式回歸問題中的n對數(shù)對數(shù)據(jù)據(jù)( xi , yi ) 相應地變換成:相應地變換成:( yi ; xi1, xi2, , xim ), i = 1,2, , n,其中其中xij = ( xi ) j, i = 1,2, , n, j = 1, 2, , m . 這樣我們便能用上一節(jié)多元線性回歸分析的這樣我們便能用上一節(jié)
43、多元線性回歸分析的方法來處理了方法來處理了. 例例 某種合金的主要成分是金屬甲與金屬乙某種合金的主要成分是金屬甲與金屬乙. . 經(jīng)試驗與分析經(jīng)試驗與分析, , 發(fā)現(xiàn)這兩種金屬成分所占的百分發(fā)現(xiàn)這兩種金屬成分所占的百分比之和比之和x與合金的膨脹系數(shù)與合金的膨脹系數(shù)y之間有一定的相關(guān)關(guān)之間有一定的相關(guān)關(guān)系系. . 先測試了先測試了1313次次, , 得數(shù)據(jù)如下:得數(shù)據(jù)如下:xi 37.0 37.5 43.0 yi 3.40 3.00 2.90 試建立試建立x與與y之間的經(jīng)驗公式之間的經(jīng)驗公式. . 畫出散點圖畫出散點圖, , 從散點圖從散點圖上看出上看出, , 這這1313個已知的數(shù)據(jù)個已知的數(shù)據(jù)
44、點大致在一條拋物線的周圍點大致在一條拋物線的周圍. .假定回歸函數(shù)為假定回歸函數(shù)為y = 0 + 1 x + 2 x2, 作變換作變換x1 = x, x2 = x2, 用多元線性回歸用多元線性回歸分析方法得到分析方法得到y(tǒng) = (3.40, 3.00, , 2.90)T,31300.18490 .43125.14065 .37100.13690 .371X =( 0 , 1 , 2 )T, = (X TX )- -1X T y = (300.93, - -14.85 , 0.1843)T,殘差平方和殘差平方和Q = ( y - - X )T ( y - - X ) = 0.2944,總和總和
45、Syy = 4.2212, 回歸和回歸和 U = Syy - - Q = 3.9268.檢驗假設(shè)檢驗假設(shè) H0: 1 = 2 = 0.).1, 1()1/(/mnmFmnQmUF F =66.69F0.01 (2 - - 1, 13 - - 2- -1)= 10.04, 所以所以拒絕拒絕H0, 即即Y與與2個變量個變量 x1, x2 之間存在特別顯著之間存在特別顯著的線性相關(guān)關(guān)系的線性相關(guān)關(guān)系.故故x與與y之間的經(jīng)驗公式為之間的經(jīng)驗公式為y = 300.93- -14.85x + 0.1843x2 . 判別分析方法最初應用于考古學判別分析方法最初應用于考古學, , 例如要根例如要根據(jù)挖掘出來的
46、人頭蓋骨的各種指標來判別其性別據(jù)挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等年齡等. . 近年來近年來, , 在生物學分類在生物學分類, , 醫(yī)療診斷醫(yī)療診斷, , 地地質(zhì)找礦質(zhì)找礦, , 石油鉆探石油鉆探, , 天氣預報等許多領(lǐng)域天氣預報等許多領(lǐng)域, , 判別判別分析方法已經(jīng)成為一種有效的統(tǒng)計推斷方法分析方法已經(jīng)成為一種有效的統(tǒng)計推斷方法. . 假定需要作出判別分析的對象分成假定需要作出判別分析的對象分成 r 類類, 記記作作A1, A2, , Ar , 每一類由每一類由m個指標的若干個標本個指標的若干個標本確定確定, 即即A1, A2, Ar為已知的分類為已知的分類. 現(xiàn)在問待判斷的對象
47、現(xiàn)在問待判斷的對象x = (x1, x2, xm)T是屬是屬于于A1, A2, Ar中的哪一類?這就構(gòu)成了判別分析中的哪一類?這就構(gòu)成了判別分析問題的基本內(nèi)容問題的基本內(nèi)容. 判別分析的原理判別分析的原理 為了能識別待判斷的對象為了能識別待判斷的對象x = (x1, x2, xm)T是是屬于已知類屬于已知類A1, A2, Ar中的哪一類?中的哪一類? 事先必須要有一個一般規(guī)則事先必須要有一個一般規(guī)則, 一旦知道了一旦知道了x的的值值, 便能根據(jù)這個規(guī)則立即作出判斷便能根據(jù)這個規(guī)則立即作出判斷, 稱這樣的一稱這樣的一個規(guī)則為個規(guī)則為判別規(guī)則判別規(guī)則. 判別規(guī)則往往通過的某個函數(shù)來表達判別規(guī)則往往通過的某個函數(shù)來表達, , 我們我們把它稱為把它稱為判別函數(shù)判別函數(shù), 記作記作W(i; x). 一旦知道了一旦知道了判別函數(shù)并確定了判別函數(shù)并確定了判別規(guī)則,最判別規(guī)則,最好將已知類別的對象代入檢驗,這一過程稱為好將已知類別的對象代入檢驗,這一過程稱為回回代檢驗代檢驗,以便檢驗你的,以便檢驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球高純溴化鈰粉末行業(yè)調(diào)研及趨勢分析報告
- 二零二五旅行社旅游交通服務轉(zhuǎn)讓及資源共享合同4篇
- 二零二五年度內(nèi)河船只船員聘用與培訓合同3篇
- 2025年度櫥浴柜模塊化設(shè)計供貨與現(xiàn)場裝配服務合同4篇
- 二零二四年度醫(yī)院財務審計外包聘用協(xié)議書3篇
- 二零二五年文化產(chǎn)業(yè)合伙人合作協(xié)議4篇
- 二零二五年度高速公路除冰鏟雪應急隊伍培訓協(xié)議4篇
- 二零二五年度龍門吊拆除與拆除現(xiàn)場安全培訓合同4篇
- 二零二五版綠化工程環(huán)保材料采購合同4篇
- 2024水利工程勞務輸出合同范本規(guī)范3篇
- 2024年發(fā)電廠交接班管理制度(二篇)
- 《數(shù)學課程標準》義務教育2022年修訂版(原版)
- 農(nóng)機維修市場前景分析
- HG+20231-2014化學工業(yè)建設(shè)項目試車規(guī)范
- 匯款賬戶變更協(xié)議
- 電力系統(tǒng)動態(tài)仿真與建模
- 蝦皮shopee新手賣家考試題庫及答案
- 四川省宜賓市2023-2024學年八年級上學期期末義務教育階段教學質(zhì)量監(jiān)測英語試題
- 價值醫(yī)療的概念 實踐及其實現(xiàn)路徑
- 2024年中國華能集團燃料有限公司招聘筆試參考題庫含答案解析
- 《紅樓夢》中的男性形象解讀
評論
0/150
提交評論