非參數(shù)統(tǒng)計模型_第1頁
非參數(shù)統(tǒng)計模型_第2頁
非參數(shù)統(tǒng)計模型_第3頁
非參數(shù)統(tǒng)計模型_第4頁
非參數(shù)統(tǒng)計模型_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

本文格式為Word版,下載可任意編輯——非參數(shù)統(tǒng)計模型非參數(shù)統(tǒng)計其次次作業(yè)——局部多項式回歸與樣條回歸

習題一:

一、此題是研究加拿大工人收入狀況,即年齡(age)和收入(income)的關系。

此次共調(diào)查了205個加拿大工人的年齡和收入,所有工人都是高中畢業(yè)。且此題設定因變量為log.income,協(xié)變量為age,運用統(tǒng)計方法來擬合log.income與age之間的函數(shù)關系。

二、模型的建立

1.估計方法的選取

擬合兩個變量之間的函數(shù)關系,即因變量和協(xié)變量之間的關系,用回歸估計的方法,回歸估計包括參數(shù)回歸估計和非參數(shù)回歸估計。參數(shù)估計是先假定某種數(shù)學模型或已知總體的分布,例如總體聽從正態(tài)分布,其中某些參數(shù)未知,如總體均值、方差等,然后利用樣本去估計這些未知參數(shù),常用的方法有極大似然估計,Bayes估計等,線性模型可以用最小二乘法估計。非參數(shù)估計是不假定具有某種特定的數(shù)學模型,或總體分布未知,直接利用樣本去估計總體的數(shù)學模型,常用的方法有局部多項式回歸方法和樣條函數(shù)回歸方法。

此題調(diào)查了205個加拿大工人的年齡和收入,但是加拿大工人年齡和收入的具體分布未知,即這兩個變量所能建立的數(shù)學模型未知,而且由協(xié)變量和因變量所形成的散點圖可以看出它不符合某種特定的已知模型,需要進一步研究,然后擬合它們之間的函數(shù)關系。因此此題選用非參數(shù)回歸估計的方法,來擬合因變量和協(xié)變量之間的關系。

針對此問題分別采用非參數(shù)估計中的局部多項式回歸和樣條函數(shù)回歸方法對log.income與age之間的函數(shù)關系進行估計。

2.局部多項式回歸方法

局部多項式的思想是在某個點x附近,用一個多項式函數(shù)來迫近未知的光滑函數(shù)g(x)。選定局部鄰域的大小h,對于任意給定某個點x0,在其小鄰域內(nèi)展開泰勒公式,用一個p階多項式來局部迫近g(x),然后再用極大似然估計。

(1)加拿大工人的收入(log.income)與年齡(age)之間的散點圖如下所示:

注:以下所做的圖中用X表示協(xié)變量年齡age,用Y表示因變量收入log.income

(2)用將X與Y排序的方法擬合的加拿大工人的收入(log.income)與年齡(age)之間函數(shù)關系如下圖所示:

(3)用局部多項式回歸方法擬合的加拿大工人的收入(log.income)與年齡(age)之間函數(shù)關系如下圖所示:

(4)用cross-validation的方法選擇最正確的smoothingparameter,圖形如下:

由上圖可以大約看出smoothingparameter的取值,使得函數(shù)CV.vec達到最小的h.vec取值是7,即最正確的smoothingparameter取值h=7。

(5)結果分析

對于最終用局部多項式回歸方法擬合的收入(log.income)與年齡(age)之間函數(shù)關系圖中,黑色線條表示的是將X與Y排序擬合的函數(shù)關系;紅色線條

Locallinearestimate1表示的是用Epanechnikov核函數(shù)確定的smoothingparameter進行局部多項式回歸得到的函數(shù)關系;藍色線條表示用cross-validation方法確定的最正確smoothingparameter進行局部多項式回歸得到的函數(shù)關系,顯然藍色線條對X與Y擬合的函數(shù)關系比較確鑿。

3.樣條函數(shù)回歸方法

樣條函數(shù)的思想是在區(qū)間[a,b]內(nèi)等距離選取K個點作為節(jié)點,每兩個相鄰的節(jié)點區(qū)域內(nèi)都是一個基函數(shù),且每一個基函數(shù)都是分段函數(shù),每一組基函數(shù)構成一個線性空間。在眾多基函數(shù)選取中,B-樣條基函數(shù)更穩(wěn)定,應用更廣泛。對于擬合的函數(shù)的光滑程度的控制,P-Spline函數(shù)方法更好。P-Spline函數(shù)方法用一些預先定義的節(jié)點來定義一組基函數(shù),同時增加一個教訓函數(shù),來控制擬合函數(shù)的光滑程度。然后用一組B-樣條基函數(shù)的線性組合來迫近f(x),最終解最優(yōu)函數(shù)。

(1)加拿大工人的收入(log.income)與年齡(age)之間的散點圖如下所示:

(2)用penalized-splines方法擬合的加拿大工人的收入(log.income)與年齡(age)之間函數(shù)關系如下圖所示:

(3)用generalizedcross-validation的方法選擇最正確的smoothingparameter,圖形如下:

由上圖可以大約看出smoothingparameter的取值,最正確的smoothingparameter取值h=0.035。

(4)結果分析

上圖中紅色線條表示的是用generalizedcross-validation方法選擇的最正確smoothingparameter進行penalized-splines回歸得到的X與Y的函數(shù)關

系,顯然此回歸結果與局部多項式回歸中藍色線條所代表的擬合函數(shù)相像,而且都充分凸顯了散點圖中xobs與yobs函數(shù)關系的雙峰效果,擬合程度較好。

習題二

一、此題是對ethanol數(shù)據(jù)集進行研究,因變量為NOx,協(xié)變量為E,運用統(tǒng)計

方法來擬合E與NOx之間的函數(shù)關系。

二、模型的建立

1.估計方法的選取

擬合兩個變量之間的函數(shù)關系,即因變量和協(xié)變量之間的關系,用回歸估計的方法,回歸估計包括參數(shù)回歸估計和非參數(shù)回歸估計。參數(shù)估計是先假定某種數(shù)學模型或已知總體的分布,例如總體聽從正態(tài)分布,其中某些參數(shù)未知,如總體均值、方差等,然后利用樣本去估計這些未知參數(shù),常用的方法有極大似然估計,Bayes估計等,線性模型可以用最小二乘法估計。非參數(shù)估計是不假定具有某種特定的數(shù)學模型,或總體分布未知,直接利用樣本去估計數(shù)學模型,常用的方法有局部多項式回歸方法,和樣條函數(shù)回歸方法。

此題是針對ethanol數(shù)據(jù)集進行研究,但是ethanol數(shù)據(jù)集的具體分布未知,而且由協(xié)變量和因變量所形成的散點圖可以看出它不符合某種特定的已知模型,需要進一步研究,然后擬合它們之間的函數(shù)關系。因此此題選用非參數(shù)回歸估計的方法,來擬合因變量和協(xié)變量之間的關系。

針對此問題分別采用非參數(shù)估計中的局部多項式回歸和樣條函數(shù)回歸方法對NOx與E之間的函數(shù)關系進行估計。

1.局部多項式回歸方法

注:以下所繪的圖中用X表示協(xié)變E,用Y表示因變量NOx。

(1)ethanol數(shù)據(jù)集中NOx與E之間的函數(shù)關系散點圖如下所示:

(2)用將X與Y排序的方法擬合協(xié)變量E與因變量NOx之間函數(shù)關系如下圖所示:

(3)用局部多項式回歸方法擬合的協(xié)變量E與因變量NOx之間函數(shù)關系,如下圖所示:

(4)用cross-validation的方法選擇最正確的smoothingparameter,圖形如下:

由上圖可以大約看出smoothingparameter的取值,使得函數(shù)CV.vec達到最小的h.vec取值是0.035,即最正確的smoothingparameter取值h=0.035。

(5)結果分析

對于最終用局部多項式回歸方法擬合的協(xié)變量E與因變量NOx之間函數(shù)關系圖中,黑色線條表示的是將X與Y排序擬合的函數(shù)關系;紅色線條Locallinearestimate1表示的是用Epanechnikov核函數(shù)確定的smoothingparameter進行局部多項式回歸得到的函數(shù)關系;藍色線條表示用cross-validation方法確定最正確的smoothingparameter進行局部多項式回歸得到的函數(shù)關系,顯然藍色線條對X與Y擬合的函數(shù)關系比較確鑿。

2.樣條函數(shù)回歸方法

注:以下所繪的圖中用xobs表示協(xié)變E,用yobs表示因變量NOx。

(1)ethanol數(shù)據(jù)集中NOx與E之間的函數(shù)關系散點圖如下所示:

(2)用penalized-splines方法擬合的ethanol數(shù)據(jù)集中NOx與E之間的函數(shù)關系如下圖所示:

(3)用generalizedcross-validation的方法選擇最正確的smoothingparameter,圖形如下:

由上圖可以大約看出smoothingparameter的取值,使得函數(shù)GCV達到最小的橫坐標取值是-6,即最正確的smoothingparameter取值h=-6。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論