《統(tǒng)計學原理與實務》課件第八章 相關與回歸分析_第1頁
《統(tǒng)計學原理與實務》課件第八章 相關與回歸分析_第2頁
《統(tǒng)計學原理與實務》課件第八章 相關與回歸分析_第3頁
《統(tǒng)計學原理與實務》課件第八章 相關與回歸分析_第4頁
《統(tǒng)計學原理與實務》課件第八章 相關與回歸分析_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

鍵人均壽命的影響因素分析根據(jù)2010年第6次全國人口普查詳細匯總資料計算,我國人口平均預期壽命達到74.83歲,比2000年的71.40歲提高3.43歲。按性別來區(qū)分,男性為72.38歲,比2000年提高2.75歲;女性為77.37歲,比2000年提高4.04歲。按地區(qū)來區(qū)分,雖然各省市的人均壽命都比10年前顯著提高了,但各省市之間仍存在明顯的差別,東部省市的人口平均預期壽命普遍高于中西部地區(qū)。2010年世界人口的平均預期壽命為69.6歲,其中高收入國家及地區(qū)為79.8歲,中等收入國家及地區(qū)為69.1歲??梢?,我國人口平均預期壽命不僅明顯高于中等收入國家及地區(qū),也大大高于世界平均水平,但比高收入國家及地區(qū)平均水平低5歲左右。導入案例

鍵人均壽命的影響因素分析導入案例分析影響人均壽命的因素根多,不僅有經濟發(fā)展、醫(yī)療衛(wèi)生、文教體育等方面的發(fā)展水平,也有人口結構、自然環(huán)境及其他因素。各地區(qū)的人均壽命究竟與哪些因素或變量密切相關呢?如何找出導致不同地區(qū)壽命存在顯著差異的主要影響因素?人均壽命與其主要影響因素之間存在什么樣的數(shù)量依存關系?如何根據(jù)各主要影響因素的變化對人均壽命進行預測呢?通過學習本章的內容就能找到答案。目錄1第一節(jié)相關關系的概念和種類2第二節(jié)相關關系的測定3第三節(jié)一元線性回歸分析第一節(jié)相關關系的概念和種類1一相關關系的概念和種類一、相關關系的概念在自然界和社會中的許多事物或現(xiàn)象,彼此之間都是有機地相互聯(lián)系、相互制約的。離開周圍的現(xiàn)象和條件而孤立地存在的現(xiàn)象是不存在的。事物或現(xiàn)象的相互聯(lián)系、相互制約,構成錯綜復雜的客觀世界,構成世界的運動和發(fā)展。社會經濟現(xiàn)象也是在錯綜復雜的相互聯(lián)系中存在和發(fā)展的,任何一個部門的現(xiàn)象都會影響到其他部門,并受到其他部門的影響和制約。在企業(yè)內部的生產和經營活動也是如此。所有各種現(xiàn)象之間的相互聯(lián)系,都可以通過數(shù)量關系反映出來。一相關關系的概念和種類(一)確定性關系如果進一步加以考察,可以發(fā)現(xiàn),現(xiàn)象之間的相互聯(lián)系一般可以區(qū)分為兩種不同的類型:確定性關系也稱為函數(shù)關系。函數(shù)關系反映著現(xiàn)象之間存在著嚴格的依存關系。在這種關系中,對于某一變量的每一數(shù)值,都有表達式反映出來。例如:圓的面積對于半徑的依存關系就是屬于確定性關系。若是用S表示圓的面積、R表示半徑,則二者的關系就是:

一相關關系的概念和種類這里,圓的面積是隨半徑的大小而變動的,當R的值一經確定,就可以得到S的確定的值。在工業(yè)企業(yè)里,產品的總價值V與單位產品價格p,產品總產量q三者之間的關系可表示為:

若單位產品價格p保持不變,則產品總價值V便隨著總產量q的增加或減少而成比例地變動。由此可見,確定性關系反映現(xiàn)象之間具有嚴格的依存性,當一個變量發(fā)生變動,另一個變量便嚴格地按照一定的規(guī)律作相應的變動??陀^世界的各種現(xiàn)象之間,特別是在自然界,廣泛存在著函數(shù)關系。一相關關系的概念和種類(二)相關關系相關關系的主要特征是:某一現(xiàn)象的標志值與另外的標志值之間存在著一定的依存關系,但與函數(shù)關系不同,即它們不是確定的和嚴格依存的。在這種關系中,對于某項標志的每一個數(shù)值,可以有另外標志的若干個數(shù)值與之相適應,表現(xiàn)一定的波動性,但又總是圍繞著它們的平均數(shù)并遵循一定的規(guī)律而變動。這種依存關系稱為相關關系。例如:每畝耕地的施肥與畝產量之間存在著一定的依存關系。在一般情況下,施肥量適當增加,畝產量便相應地提高。但是畝產量的增長與施肥量增長的數(shù)值之間,并不存在嚴格的依存關系。因為對每畝耕地的產量來說,除了施肥量多少這一因素外,還受到種子品質、土壤條件、降雨降雪量等其他因素的影響。但即使如此,它們之間仍然存在著一定的規(guī)律性,即在一定范圍內,隨施肥量的增加,畝產量便相應地有所提高。一相關關系的概念和種類在各種經濟活動和生產過程中,許多經濟的、技術的因素之間,都存在著這種相關關系。分析這種關系的內在聯(lián)系和表現(xiàn)形式以研究和掌握其規(guī)律性,是統(tǒng)計研究的一項重要任務。函數(shù)關系與相關關系是兩種不同類型的關系,但是它們之間并不存在嚴格的界限。由于在觀察或實驗中出現(xiàn)的誤差,函數(shù)關系也有時通過相關關系反映出來,而當現(xiàn)象之間的內在聯(lián)系和規(guī)律性了解得更加清楚的時候,相關關系又可能轉化為函數(shù)關系。在相關關系中,通常在相互的現(xiàn)象中間存在著一定的因果關系,這時就把其中的起著影響作用的現(xiàn)象具體化,通過一定的標志反映出來。這樣的標志稱為自變量,把由于受到自變量變動的影響而發(fā)生變動的某項標志,稱為因變量。一相關關系的概念和種類二、相關關系的種類根據(jù)現(xiàn)象變量之間相關的形態(tài)和特征,我們可以把相關關系分為以下幾種。按照研究變量個數(shù)分為:單相關、復相關和偏相關。兩個變量之間的相互關系,稱為單相關。當所研究的是一個變量對兩個或兩個以上其他變量的相關關系時,稱為復相關。當我們研究多個變量之間的關系時,如果假定其他變量不變,其中兩個變量的相關關系稱為偏相關。例如,某種商品的需求量與其價格水平之間的相關關系為單相關;某種商品的需求量與其價格水平、人們收入水平之間的相關關系為復相關;在假定人們收入不變的條件下,某種商品的需求量與其價格水平之間的關系為偏相關。(一)按照所研究變量個數(shù)的多少劃分一相關關系的概念和種類(二)按照相關關系的程度劃分按照相關關系的程度分為:完全相關、不完全相關和不相關。當一個變量的變化完全由另一個變量確定時,稱這兩個變量之間的關系為完全相關,例如,在價格不變的條件下,某種商品的銷售收入由其銷售量完全確定,這時,相關關系實際上是函數(shù)關系,因此,可以說,函數(shù)關系是相關關系的一個特例。當兩個變量彼此互不影響,相互獨立,我們稱這兩個變量之間為不相關。例如,人的姓氏筆畫和收入之間是不相關的。介于完全相關和不相關之間的兩個變量之間的關系,稱為不完全相關。我們可以用圖8-1表示變量相關程度之間的這三種關系。一相關關系的概念和種類(a)完全相關(b)不完成相關(c)完全不相關一相關關系的概念和種類按照相關關系表現(xiàn)的形態(tài)分為:線性相關和非線性相關。當兩個變量之間的關系大致呈現(xiàn)為線性關系時,稱這兩個變量之間的關系為線性相關。如果兩個變量之間的關系大致近似于某種曲線方程的關系,則這兩個變量之間的關系為非線性相關關系。我們可以用圖8-2表示出相關關系的兩種表現(xiàn)形態(tài)。(三)按照相關關系表現(xiàn)的形態(tài)劃分一相關關系的概念和種類(a)線性相關(b)非線性相關一相關關系的概念和種類按相關變量變化的方向分為:正相關和負相關。當一個變量增加時,相應的另一個變量隨之也增加,我們稱這兩個變量之間為正相關;反之,當一個變量增加時,相應的另一個變量隨之減少,我們稱這兩個變量之間為負相關。例如空氣中污染物的數(shù)量與人口壽命呈負相關關系,而身高和體重之間為正相關關系。我們可以用圖8-3表示出變量之間的方向的變化。(四)按照相關變量變化的方向劃分一相關關系的概念和種類(a)正相關(b)負相關一相關關系的概念和種類三、相關關系分析的主要內容相關關系分析的目的在于研究現(xiàn)象之間相互依存關系的形式及密切程度,并用一定的數(shù)學形式把這種關系反映出來,為統(tǒng)計估算和預測提供重要的依據(jù)和方法。相關關系分析的內容具體包括:(1)確定現(xiàn)象之間是否存在相關關系及相關關系的種類現(xiàn)象之間有無相關關系是能否運用相關關系分析法的前提。確定現(xiàn)象之間有無相關關系的方法有兩種:一是作定性判斷,它是從現(xiàn)象之間的本質聯(lián)系著手,根據(jù)有關的理論及實踐經驗進行分析研究來判斷的;二是繪制相關圖表,判斷現(xiàn)象之間有無相關關系,相關的方向、形式等。一相關關系的概念和種類(2)確定現(xiàn)象之間相關關系的密切程度當現(xiàn)象之間存在相關關系時,就要測定它們之間相關關系的密切程度,為進一步分析研究問題提供依據(jù)。確定現(xiàn)象之間相關關系密切程度的方法是:繪制相關圖和計算相關系數(shù)。相關圖對相關關系的密切程度可以做出粗略的判斷,而相關系數(shù)能從數(shù)量上對經濟現(xiàn)象之間的相關程度做出明確的測量。(3)建立現(xiàn)象之間數(shù)量變動關系的數(shù)學方程式當變量之間至少呈現(xiàn)顯著相關時,可以選擇一個適當?shù)臄?shù)學模型近似地描述現(xiàn)象之間的變動規(guī)律,這里的數(shù)學模型稱為回歸方程,用以說明自變量發(fā)生變動時,因變量平均來說會發(fā)生多大的變化。一相關關系的概念和種類(4)計算因變量的佑計標準誤差根據(jù)變量之間變動關系的數(shù)學方程式可以計算出各個因變量的估計值,這些估計值與實際值之間存在一定的差異。差異小,表示估計值比較可靠,回歸方程的代表性高;差異大,表示估計值不準確,回歸方程的代表性低。所以相關關系分析還要測定因變量估計值和實際值之間差異的大小,用以反映因變量估計值的準確程度及回歸方程的代表性高低。這種用來反映因變量估計值準確程度的指標叫估計標準誤差。其中,研究現(xiàn)象之間是否存在相關關系、相關關系的種類及相關關系的密切程度的內容屬于相關分析。根據(jù)變量之間變動關系的數(shù)學方程式計算各個因變量的估計值,并且通過計算估計標準誤差判斷估計值的準確性、回歸方程的代表性等內容屬于回歸分析。第二節(jié)相關關系的測定2二相關關系的測定一、定性分析(一)相關表判別現(xiàn)象之間有無相關關系有兩種方法,一種是定性分析,另一種是定量分析。相關表是一種統(tǒng)計表,它是直接根據(jù)現(xiàn)象之間的原始資料,將一變量的若干變量值按從小到大的順序排列,并將另一變量的值與之對應排列形成的統(tǒng)計表。定性分析是依據(jù)研究者的理論知識、專業(yè)知識和實踐經驗,對客觀現(xiàn)象之間是否存在相關關系以及有何種相關關系做出的判斷,并可在定性認識的基礎上,編制相關表、繪制相關圖,以便直觀地判斷現(xiàn)象之間相關的方向、形態(tài)及大致的密切程度。二相關關系的測定【例8-1】某財務軟件公司在全國有許多代理商,為研究它的財務軟件產品的廣告投入與銷售額的關系,統(tǒng)計人員隨機選擇310家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數(shù)據(jù),并編制成相關表,如表8-1所示。表8-1廣告費與月平均銷售額相關表單位:萬元年廣告費投入月均銷售額12.521.215.323.923.232.926.434.133.542.534.443.239.449.045.252.855.459.460.963.5二相關關系的測定從表中可以直觀地看出,隨著廣告投入費的增加,銷售量也增加,兩者之間存在一定的正相關關系。二相關關系的測定(二)相關圖相關圖又稱散點圖,它是用直角坐標系的x軸代表自變量,y軸代表因變量,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用以表明相關點分布狀況的圖形。根據(jù)表8-1的資料可以繪制相關圖,如圖8-4所示。從相關圖可以直觀地看出年廣告費投入與月平均銷售額之間相關密切,且有線性正相關關系。圖8-4廣告投入與銷售額的相關圖二相關關系的測定二、定量分析相關表和相關圖可反映兩個變量之間的相互關系及其相關方向,但無法確切地表明兩個變量之間相關的程度。著名統(tǒng)計學家卡爾?皮爾遜(KarlPearson)設計了統(tǒng)計指標—相關系數(shù),它是用以反映變量之間相關關系密切程度的統(tǒng)計指標。依據(jù)相關現(xiàn)象之間的不同特征,其統(tǒng)計指標的名稱也有所不同。例如,將反映兩變量間線性相關關系的統(tǒng)計指標稱為相關系數(shù)(相關系數(shù)的平方稱為判定系數(shù));將反映兩變量間曲線相關關系的統(tǒng)計指標稱為非線性相關系數(shù)、非線性判定系數(shù);將反映多元線性相關關系的統(tǒng)計指標稱為復相關系數(shù)。二相關關系的測定相關系數(shù)用的測定方法,直接來源于數(shù)理統(tǒng)計中相關系數(shù)的定義。在這里,我們不對公式做理論上的推導和證明,只簡要介紹各公式間的聯(lián)系。相關系數(shù)的定義公式為式中n表示資料項數(shù);表示x變量的標準差;表示y變量的標準差;表示兩個變量的協(xié)方差。(8-1)二相關關系的測定公式(8-1)的分子分母中,有公因子1/n,同時化簡得公式(8-2)是通過各個變量離差乘積的方法來計算相關系數(shù)的,也稱為“積差法”相關系數(shù)公式。由于各變量的離差通常帶有小數(shù),因而“積差法”公式的計算結果往往缺乏準確性。在實際應用中,如果依據(jù)原始資料計算相關數(shù),可將公式(8-2)簡化計算。(8-2)二相關關系的測定現(xiàn)將公式(8-2)的分子分母轉換為把以上結果代入公式(8-2),可得(8-3)二相關關系的測定相關系數(shù)的值介于-1與+1之間,即-1≤r≤+1。其具有下面幾種性質。(1)當r>0時,表示兩變量正相關,當r<0時,表示兩變量負相關。(2)當|r|=1時,表示兩變量為完全線性相關,即為函數(shù)關系。(3)當r

=0時,表示兩變量間無線性相關關系。(4)0<|r|<1時,表示兩變量存在一定程度的線性相關。|r|越接近于1,兩變量間線性關系越密切;|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。二相關關系的測定【例8-2】根據(jù)表8-1的資料,計算相關系數(shù)。根據(jù)表8-1相關數(shù)據(jù),得相應表8-2所列數(shù)據(jù)。表8-2相關系數(shù)計算表序號廣告投入x

(萬元)月均增銷額

y(萬元)112.521.2156.25449.44265.00215.323.9234.09571.21365.67323.232.9538.241082.41763.28426.434.1696.961162.81900.24533.542.51122.251806.251423.75634.443.21183.361866.241486.08739.449.01552.362401.001930.60845.252.82043.042787.842386.56955.459.43069.163528.363290.761060.963.53708.814032.253867.15合計346.2422.514304.5219687.8116679.09二相關關系的測定將表8-2有關數(shù)據(jù)代入相關系數(shù)公式得:相關系數(shù)為0.9942,說明廣告投入費與月平均銷售額之間有高度的線性正相關關系。解二相關關系的測定這里需要指出的是,相關系數(shù)有一個明顯的缺點,即它接近于1的程度與數(shù)據(jù)組數(shù)n相關,這容易給人一種假象。因為當n較小時,相關系數(shù)的波動較大,對有些樣本相關系數(shù)的絕對值易接近于1;當n較大時,相關系數(shù)的絕對值容易偏小。特別是當n=2時,相關系數(shù)的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關系數(shù)較大就判定變量x與y之間有密切的線性關系是不妥當?shù)?。例如,在研究我國深滬兩股市資產負債率與每股收益率之間的相關關系時發(fā)現(xiàn)1999年資產負債率前40名的上市公司,兩者的相關系數(shù)為r

=-0.6139;資產負債率后20名的上市公司,兩者的相關系數(shù)r

=0.1072而對于滬、深全部上市公司(基金除外)的結果卻是,r

=-0.5509,r

=-0.4361,根據(jù)三級劃分方法,兩變量為顯著性相關。這也說明僅憑的計算值大小判斷相關程度有一定的缺陷。第三節(jié)一元線性回歸分析3三一元線性回歸分析一、回歸分析的含義相關分析中的相關系數(shù)指標,可以從數(shù)量上說明在直線相關的條件下,變量之間相關關系的方向和密切程度,但它不能反映一個變量發(fā)生一定數(shù)量的變化,另一個變量會發(fā)生多少變化。為解決這一問題,就必須采用回歸分析方法。三一元線性回歸分析回歸分析通過一個變量或一些變量的變化解釋另一變量的變化。其主要內容和步驟是:首先,根據(jù)理論和對問題的分析判斷,將變量分為自變量和因變量;其次,設法找出合適的數(shù)學方程式(即回歸模型)描述變量間的關系;由于涉及的變量具有不確定性,接著還要對回歸模型進行統(tǒng)計檢驗;統(tǒng)計檢驗通過后,最后是利用回歸模型,根據(jù)自變量的數(shù)值去估計因變量的數(shù)值。三一元線性回歸分析回歸分析可以從不同的角度劃分為不同的種類。按照自變量的個數(shù)多少可分為一元回歸分析和多元回歸分析,只有一個自變量的回歸分析叫一元回歸分析,有兩個或兩個以上自變量的回歸分析叫多元回歸分析;按照回歸的形式可分為直線回歸分析和曲線回歸分析。這里我們只討論一元直線回歸分析。三一元線性回歸分析二、相關分析和回歸分析的關系(一)相關分析和回歸分析的聯(lián)系相關分析是回歸分析的基礎和前提,回歸分析則是相關分析的深入和繼續(xù)。相關分析需要依靠回歸分析來表現(xiàn)變量之間數(shù)量相關的具體形式,而回歸分析則需要依靠相關分析來表現(xiàn)變量之間的相關程度。只有當變量之間存在高度相關時,進行回歸分析尋求其相關的具體形式才有意義。如果在對變量之間是否相關以及相關方向和程度做出正確判斷之前,就進行回歸分析,很容易造成“虛假回歸”。與此同時,相關分析的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況,因此,在具體應用過程中,只有把相關分析和回歸分析結合起來,才能達到研究和分析的目的。三一元線性回歸分析(二)相關分析和回歸分析的區(qū)別(1)在相關分析中涉及的變量不存在自變量和因變量的劃分問題,變量之間的關系是對等的;而在回歸分析中,則必須根據(jù)研究對象的性質和研究分析的目的,對變量進行自變量和因變量的劃分。因此,在回歸分析中,變量之間的關系是不對等的。(2)在相關分析中所有的變量都必須是隨機變量;而在回歸分析中,自變量是給定的,因變量才是隨機的。(3)相關分析主要是通過一個指標即相關系數(shù)來反映變量之間相關密切程度的大小,由于變量之間是對等的,因此相關系數(shù)是唯一確定的;而在回歸分析中,對于互為因果關系的兩個變量(如人的身高與體重),則有可能存在多個回歸方程。三一元線性回歸分析三、一元線性回歸方程一元線性回歸方程(regressionequation),亦稱直線方程,是分析一個自變量x與一個因變量y之間線性關系的數(shù)學方程。方程的基本形式為(8-4)三一元線性回歸分析

a和b稱為回歸方程中的兩個待定參數(shù),是需要根據(jù)相關表中的x與y的實際資料求解的數(shù)值,a和b的值確定了直線的位置,而它們一旦確定,這條直線就被唯一確定了。但用于描述這n組數(shù)據(jù)的直線有許多條,究竟用哪條直線代表兩個變量之間的關系,則需要有一個原則。即希望這條直線離各離散點最近,具體表述為對于相關表中的x,它對應的實際數(shù)值y同這條直線上的理論值yc的離差平方和為最小值。用公式表示為(8-5)三一元線性回歸分析設,則Q是兩個待定參數(shù)a和b的函數(shù)。要使Q為最小值,就要用對二元函數(shù)求極值的原理,求Q關于a和b的偏導數(shù),并令其等于零。經過整理得出直線回歸方程中求解參數(shù)a和b的標準方程組:(8-6)解此方程租,得出求解a、b的計算公式(8-7)根據(jù)這一思想確定未知參數(shù)的方法,稱為最小平方法(leastsquaresanalysis)。三一元線性回歸分析【例8-3】表8-3給出的2013年國內10個品牌啤酒廣告費用及銷售量為例,運用最小平方法,求解回歸方程數(shù),并建立一元線性回歸模型。正文表8-32013年國內10個品牌啤酒廣告費用及銷售量表廣告費用(萬元)120

68.710.1

76.6

8.7

1

21.5

1.45.31.7銷售量(萬箱)

36.320.7

15.913.2

8.17.1

5.64.4

4.44.3三一元線性回歸分析設所建立的一元線性回歸方程為:yc=a+bx,其中,廣告費用為x,銷售量為y。根據(jù)表8-3資料可得表8-4的結果。解表8-4直線回歸模型計算編號廣告費用

萬元銷售量

/萬箱112036.3144004356268.720.74719.691422.093100.115.910020.011591.59476.613.25867.561011.1258.78.175.6970.47617.117.1721.55.6462.25120.481.44.41.966.1695.34.428.0923.32101.74.32.897.31合計40512035579.148615.56三一元線性回歸分析根據(jù)最小平方法確定參數(shù)的公式,可計算出參數(shù)a為b將a和b代入回歸方程,則三一元線性回歸分析回歸直線確定后,將各品牌啤酒的廣告費用依次代入方程式,即可求得相應的銷售量理論值。根據(jù)所建立的直線回歸方程,也可以進行外推預測。例如,廣告費用為110萬元,在其他條件相對穩(wěn)定時,可以預測其銷售量為(萬箱)三一元線性回歸分析在這里,下列幾個問題應引起注意。(1)回歸方程中,a=4.07,是銷售量的起點值,即廣告費用x=0時,yc的值。(2)b稱為回歸系數(shù)(regressioncoefficient)。b

=0.1958,表示廣告費用每增加一個單位((1萬元),啤酒銷售量平均增加0.1958個單位(萬箱)。(3)由于b的計算公式中的分子與相關系數(shù)r計算公式中的分子完全一樣,且b與r為正值還是負值,其符號均取決于這個分子,所以,回歸系數(shù)b與相關系數(shù)r的符號必然一致。即通過回歸系數(shù)b的符號可判斷兩變量相關的方向。(4)回歸系數(shù)b與相關系數(shù)r之間還存在密切的數(shù)量關系,兩者可相互推算。根據(jù)相關和回歸系數(shù),可知,亦即。三一元線性回歸分析(5)另外,一個直線回歸方程只能做一種推算,不能反向進行推算。也就是說,只能以自變量x推算因變量y,而不能以因變量y推算自變量x。如上例所配合的直線回歸方程,只能在給定廣告費用數(shù)值時推算銷售量,不能以給定的銷售量數(shù)值反過來推算廣告費用。若根據(jù)研究需要,想了解當銷售量一定時,相對應的廣告費用數(shù)值應達到多少,則應建立x對y的直線回歸方程,即xc=c+dy。式中c與d的意義與公式y(tǒng)c=a+bx中a、b意義相同,均為待定參數(shù),只是x與y的位置互換而已。同樣采用最小平方法,確定出參數(shù)c與d公式為(8-8)三一元線性回歸分析【例8-4】根據(jù)表8-3給出的2013年國內10個品牌啤酒廣告費用及銷售量,預測若銷售量為30萬箱時,相對應的廣告費用數(shù)值。若要預測銷售量為30萬箱時,相對應的廣告費用數(shù)值,需建立以銷售量為自變量,廣告費用為因變量的直線回歸模型,然后將自變量數(shù)值代入方程,得到因變量的估計值,見表8-5。解表8-32013年國內10個品牌啤酒廣告費用及銷售量表廣告費用(萬元)120

68.710.1

76.6

8.7

1

21.5

1.45.31.7銷售量(萬箱)

36.320.7

15.913.2

8.17.1

5.64.4

4.44.3三一元線性回歸分析表8-5直線回歸模型計算編號廣告費用

萬元銷售量

/萬元112036.31317.694356268.720.7428.491422.093100.115.9252.811591.09476.613.2174.241011.1258.78.165.6170.47617.150.417.1721.55.631.36120.481.44.419.366.1695.34.419.3623.32101.74.318.497.31合計4051202377.828615.06三一元線性回歸分析根據(jù)最小平方法確定參數(shù)的公式,可計算出參數(shù)c與d為

將c和d代入回歸方程,則,顯然,此時的回歸方程與原來的回歸方程是兩條不同的回歸直線,具有不同的斜率和意義,只能給定自變量來推算因變量。當銷售量為30萬箱時,相對應的廣告費用理論數(shù)值為:(萬元)三一元線性回歸分析四、估計標準誤差根據(jù)直線回歸方程,按給定的自變量值可以推算出相應的因變量值,即得出估計值yc。而估計值yc與其對應的實際觀察值y之間可能一致,也可能不一致,它們之間存在一系列離差,有的是正差,有的是負差。這些離差稱為統(tǒng)計估計誤差。這種估計誤差的大小,可以說明推算結果的準確程度,即回歸方程估計的準確程度。同時,統(tǒng)計上,一般是通過計算“估計標準誤差”指標來反映回歸方程的代表性的。若誤差大,說明回歸方程的代表性低;若誤差小,則說明回歸方程的代表性高。三一元線性回歸分析估計標準誤差(standarderroroftheestimate)是指因變量實際值與理論值離差的平均值,其計算原理與能夠反映平均數(shù)代表性大小的標準差基本相同,定義公式為

(8-9)式中:Syx為估計標準誤差,其下標yx代表y依x而回歸的方程;yx為根據(jù)回歸方程推算出來的因變量的估計值;y為因變量的實際值;n為數(shù)據(jù)的項數(shù)。利用定義式計算估計標準誤差,需要計算所有的估計值,計算量大,且計算比較麻煩。將定義式中yc

用a+bx替代,經過化簡,可得如下的計算公式:(8-10)三一元線性回歸分析【例8-5】現(xiàn)仍以表8-3的有關資料為例,計算估計標準誤差。根據(jù)表8-3和表8-5中的數(shù)據(jù)資料,可得如下計算結果:

根據(jù)前面計算有a=4.07,b=0.1958,由n=10,有

結果表明,國內10個品牌啤酒銷售量的估計理論值與實際值的平均誤差約為5.03萬箱。由此可見,只有把回歸估計值與估計標準誤差結合起來分析運用,才更具有意義。解三一元線性回歸分析估計標準誤差Syx與相關系數(shù)r在數(shù)量上也存在著密切的關系,可看成從另一個角度說明相關分析與回歸分析之間的聯(lián)系。兩者之間的關系可由下列公式表述:(8-11)(8-12)從相互聯(lián)系的兩個算式中,可以看出r與Syx二的變化方向是相反的。當r大時,Syx越小,這時相關密切程度越高,回歸直線的代表性越大;當r越小時,Syx越大,這時相關密切程度越低,回歸直線的代表性越小;r

±1,Syx

=0,這時現(xiàn)象間完全相關,各相關點均落在回歸直線上,此時對x的任何變化,y總有一個相應的值與之對應;r=0時,Syx取得最大值,這時現(xiàn)象間不存在直線關系。三一元線性回歸分析五、判定系數(shù)在回歸分析中,除了可用估計標準誤差反映回歸方程估計的準確程度及回歸直線代表性的大小外,還有一個廣泛應用的指標,叫做判定系數(shù)(coefficientofdetermination),它通常用r2表示,用來測定回歸方程擬合數(shù)據(jù)的好壞程度。判定系數(shù)r2就是相關系數(shù)r的平方。當然,判定系數(shù)有它的基本公式:(8-13)式中:分母是總離差平方和,分子叫做回歸平方和。

r2越大,回歸平方和在總離差平方和中所占的比重就越大,表明總離差中由回歸方程解釋的部分也越大,線性回歸效果越好。三一元線性回歸分析判定系數(shù)的范圍在0~1。如果r2為1,則表明兩個變量之間有非常好的相關性,y的估計值與實際值之間沒有差別,此時,估計標準誤差為0;如果r2為0,則回歸方程不能用來預測y值,此時,估計標準誤差最大。例如,根據(jù)表8-3給出的2013年國內10個品牌啤酒廣告費用及銷售量,前面已計算出r=0.8856,則判定系數(shù)r2

=0.7843,這說明,總離差平方和中有78.43%可以用回歸方程解釋。三一元線性回歸分析六、應用相關分析和回歸分析應注意的問題(1)在定性分析的基礎上進行定量分析相關關系的有無、自變量和因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論