統(tǒng)計學知識點梳理0001_第1頁
統(tǒng)計學知識點梳理0001_第2頁
統(tǒng)計學知識點梳理0001_第3頁
統(tǒng)計學知識點梳理0001_第4頁
統(tǒng)計學知識點梳理0001_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計學第一章導論1.1.1 什么是統(tǒng)計學統(tǒng)計學是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學。數(shù)據(jù)分析所用的方法分為描述統(tǒng)計方法和推斷統(tǒng)計方法。1.2統(tǒng)計數(shù)據(jù)的類型1.2.1 分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)按照所采用的計算尺度不同,可以將統(tǒng)計數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)。分類數(shù)據(jù):只能歸于某一類別的非數(shù)字型數(shù)據(jù),它是對事物進行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,是用文字來表示。例如:支付方式、性別、企業(yè)類型等。順序數(shù)據(jù):只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。例如:員工對改革措施的態(tài)度、產(chǎn)品等級、受教育程度等。數(shù)值型數(shù)據(jù):按數(shù)字尺度測量的觀測值,其結(jié)果表現(xiàn)為具體的數(shù)值。例如:年齡、工資、產(chǎn)

2、量等。統(tǒng)計數(shù)據(jù)大體上可分為品質(zhì)數(shù)據(jù)(定性數(shù)據(jù))和數(shù)量數(shù)據(jù)(定量數(shù)據(jù)、數(shù)值型數(shù)據(jù))。1.2.2 觀測數(shù)據(jù)和實驗數(shù)據(jù)按照統(tǒng)計數(shù)據(jù)的收集方法,可以分為觀測數(shù)據(jù)和實驗數(shù)據(jù)。觀測數(shù)據(jù):通過調(diào)查或觀測而收集的數(shù)據(jù)。例如:降雨量、GDP、家庭收入等。實驗數(shù)據(jù):在實驗中控制實驗對象而收集到的數(shù)據(jù)。例如:醫(yī)藥實驗數(shù)據(jù)、化學實驗數(shù)據(jù)等。1.2.3 截面數(shù)據(jù)和時間序列數(shù)據(jù)按照被描述的現(xiàn)象與時間的關系,可分類截面數(shù)據(jù)和時間序列數(shù)據(jù)。截面數(shù)據(jù):在相同或近似相同的時間點上收集的數(shù)據(jù)。例如:2012年我國各省市的GDP。時間序列數(shù)據(jù):同一現(xiàn)象在不同的時間收集的數(shù)據(jù)。例如:2000-2012年湖北省的GDP。1.3.1 總體

3、和樣本總體:包含所研究的全部個體(數(shù)據(jù))的集合。樣本:從總體中抽取的一部分元素的集合。1.3.2 參數(shù)和統(tǒng)計量參數(shù):用來描述總體特征的概括性數(shù)字度量。統(tǒng)計量:用類描述樣本特征的概括性數(shù)字度量。例如:某研究機構(gòu)準備從某鄉(xiāng)鎮(zhèn)5萬個家庭中抽取1000個家庭用于推斷該鄉(xiāng)鎮(zhèn)所有農(nóng)村居民家庭的年人均純收入。這項研究的總體是5萬個家庭;樣本是1000個家庭;參數(shù)是5萬個家庭的人均純收入;統(tǒng)計量是1000個家庭的人均純收入。第二章數(shù)據(jù)的搜集2.1 數(shù)據(jù)的來源2.1.1 數(shù)據(jù)的間接來源間接來源的數(shù)據(jù):如果與研究內(nèi)容有關的原信息已經(jīng)存在,我們只是對這些原信息重新加工、整理,使之成為我們進行統(tǒng)計分析可以使用的數(shù)據(jù)。

4、例如:統(tǒng)計公報、統(tǒng)計年鑒、某機構(gòu)或某團體提供的數(shù)據(jù)、期刊、報紙和圖書提供的數(shù)據(jù)、會議交流的數(shù)據(jù)、互聯(lián)網(wǎng)查閱的數(shù)據(jù)等。二手數(shù)據(jù)的優(yōu)缺點:優(yōu)點:搜集方便,采集成本低,數(shù)據(jù)采集快,作用廣泛等。缺點:針對性不夠。2.1.2 數(shù)據(jù)的直接來源普查:調(diào)查針對總體中的所有個體單位進行。普查數(shù)據(jù)的優(yōu)缺點:優(yōu)點:調(diào)查范圍廣,被調(diào)查單位多,信息全面,完整。缺點:調(diào)查費時,費力,費錢。2.2 調(diào)查數(shù)據(jù)2.2.1 概率抽樣和非概率抽樣重復抽樣:從總體中抽取一個元素后,把這個元素放回到總體中再抽取第二個元素,直至抽取n個元素為止的抽樣方法。簡單隨機抽樣:從含有N個元素的總體中,抽取n個元素作為樣本,使得總體中的每一個元素

5、都有相同的概率被抽中的抽樣方式。分層抽樣:在抽樣時,將總體分成互不交叉的若干個層級,然后按一定的比例,從各層次獨立地隨機抽取一定數(shù)量的個體,將各層次取出的個體合在一起作為樣本。整群抽樣:先將總體劃分為若干群體,然后以群作為抽樣單位從中抽取部分群,再對抽中的各個群中所包含的所有元素進行觀察的抽樣方式。方便抽樣:調(diào)查過程中由調(diào)查員依據(jù)方便原則,自行確定入樣單位。滾雪球抽樣:調(diào)查時首先選擇一組調(diào)查單位,對其實施調(diào)查后,再請他們提供另外一些屬于研究總體的調(diào)查對象,調(diào)查人員根據(jù)所提供的線索,進行此后的調(diào)查的調(diào)查方式。2.4.1抽樣誤差樣本量與抽樣誤差成反比。隨著樣本量的逐漸增大,抽樣誤差就越小。2.4.

6、3誤差的控制通過樣本量的大小控制可以改變誤差大小,要求的抽樣誤差越小,所需要的樣本量就越大。第三章數(shù)據(jù)的圖表展示3.2.1分類數(shù)據(jù)的整理與圖示( 3)餅圖主要用于表示一個樣本(或總體)中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例。適合于描述結(jié)構(gòu)性問題。( 4)環(huán)形圖顯示多個樣本各部分所占的相應比例。適合于比較研究兩個或多個樣本或總體的結(jié)構(gòu)性問題。3.3.1 數(shù)據(jù)分組為解決數(shù)據(jù)分組不重的問題,統(tǒng)計分組時習慣上規(guī)定“上組限不在內(nèi)”即當相鄰兩組的上下限重疊時,恰好等于某一組上限的變量值不算在本組內(nèi),而計算在下一組。(a&x<b)3.3.2 數(shù)值型數(shù)據(jù)的圖示1.分組數(shù)據(jù):直方圖用于展示分組數(shù)據(jù)分布

7、的一種圖形。直方圖與條形圖區(qū)別:條形圖:條形長度表示頻數(shù);寬度固定不變;矩形分開排列;展示分類數(shù)據(jù)直方圖:面積表示頻數(shù);寬度表示組距;矩形連續(xù)排列;展示數(shù)值型數(shù)據(jù)3 .時間序列數(shù)據(jù):線圖主要用于反映現(xiàn)象隨時間變化的特征,描述其變化趨勢。4 .多變量數(shù)據(jù)的圖示(1)散點圖適合用于描述兩變量之間是否存在某種關系。數(shù)據(jù)圖示的原則:適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)第四章數(shù)據(jù)的概率性度量4.1 集中趨勢的度量集中趨勢:一組數(shù)據(jù)向其中心值靠攏的傾向和程度,它反映了一組數(shù)據(jù)中心點的位置所在。原則:低層次數(shù)據(jù)的測度值適用于高層次的測

8、量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù)4.1.1 分類數(shù)據(jù):眾數(shù)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。適合于數(shù)據(jù)量較多時使用。主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。4.1.2 順序數(shù)據(jù):中位數(shù)和分位數(shù)1 .中位數(shù)一組數(shù)據(jù)排序后處于中間位置上的變量值,用Me表示。中位數(shù)將全部數(shù)據(jù)平分為兩部分,各占50%數(shù)據(jù)。適用范圍:順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)的集中趨勢測度,不適用于分類數(shù)據(jù)測量。中位數(shù)計算步驟:1 .數(shù)據(jù)排序;2.確定中位數(shù)位置;3.確定具體值中位數(shù)位置計算:(n+1)/2中位數(shù)值的計算:奇數(shù)時,X(n+1)/2;偶數(shù)時,1/2X(n/2)+X(n/2+1)2 .四分位數(shù)將一組數(shù)

9、據(jù)數(shù)據(jù)排序后四等份(各占25%數(shù)據(jù)),處于25%位置點(下四分位)和75%位置點(上四分位)上的值。四分位數(shù)計算步驟:1 .數(shù)據(jù)排序;2.確定四分位數(shù)位置;3.確定具體值四分位數(shù)位置確定方法:(不同確定方法,不同四分位數(shù)值)QL=n/4;Qu=3n/4,整數(shù)位置:整數(shù)對應值0.5的位置:兩側(cè)值得平均值0.25或0.75的位置:下側(cè)值+(上側(cè)值一下側(cè)值)*0.25或者0.754.1.3 數(shù)值型數(shù)據(jù):平均數(shù)一組數(shù)據(jù)相加之后除以數(shù)據(jù)個數(shù)得到的數(shù)值,是集中趨勢的最主要測度值適用范圍:數(shù)值型數(shù)據(jù),不適用于順序數(shù)據(jù)和分類數(shù)據(jù)。4.1.4 眾數(shù)、中位數(shù)和平均數(shù)的比較1.眾數(shù)、中位數(shù)和平均數(shù)的關系眾數(shù):一組數(shù)

10、據(jù)分布的最高峰中位數(shù):處于一組數(shù)據(jù)的中間位置的值平均數(shù):全部數(shù)據(jù)的算術平均對稱分布情況:眾數(shù)=中位數(shù)=平均數(shù)左偏分布情況:存在較小值,平均數(shù)(中位數(shù)(眾數(shù)右偏分布情況:存在極大值,眾數(shù)(中位數(shù)(平均數(shù)4.2離散程度的度量反映各變量值遠離中心值的程度。離散程度越大,集中趨勢測度值的代表性越差。4.2.3數(shù)值型數(shù)據(jù):方差和標準差1.極差(全距)一組數(shù)據(jù)的最大值與最小值的差。3.方差和標準差方差是各變量值與平均數(shù)離差平方的平均數(shù)(通過平方消去正負號)。標準差是方差的平方根。方差和標準差能較好地反映出數(shù)據(jù)的離散程度,是實際中應用最廣的離散程度測度值。4.2.4相對離散程度:離散系數(shù)離散系數(shù)是一組數(shù)據(jù)的

11、標準差與平均數(shù)的比值,是離散程度的相對統(tǒng)計量。適用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)越大,離散程度越大(正比)。練習題:4.1(P94)、4.2(P95)第六章統(tǒng)計量及其抽樣分布6.4樣本均值的分布于中心極限定理當總體服從正態(tài)分布N(j(r2)時,來自該總體的所有容量為n的樣本的均值x也服從正態(tài)分布,x的數(shù)學期望為(1,方差為(r2/n。即xN(n,er2/n)中心極限定理:從均值為七方差為仃2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為1>方差為(r2/n的正態(tài)分布。經(jīng)驗法則是n>30時算是充分大,滿足中心極限定理要求。關于大樣本和小樣本

12、:理論而言,小樣本:樣本量固定,不論樣本量多少;大樣本:樣本量n00經(jīng)驗做法,大樣本:n30小樣本:n<30第七章參數(shù)估計7.1.2 點估計與區(qū)間估計當置信水平固定時,置信區(qū)間的寬度隨著樣本量的增大而減小。95%的置信水平是指在用同樣方法構(gòu)造的總體參數(shù)的多個區(qū)間中,包含該總體參數(shù)的區(qū)間的比例為95%o這個概率不是用來描述某個特定區(qū)間包含真值的可能性,一個特定的區(qū)間總是包含或者絕不包含真值,不存在一會包含,一會不包含的問題。用概率可以知道在多次抽樣得到的區(qū)間中大概有多少個包含了參數(shù)的真值。7.1.3 評估估計量的標準無偏性無偏性是指估計量抽樣分布的數(shù)學期望等于被估計的總體參數(shù)。有效性較小標

13、準誤差的點估計量比其他點估計量相對有效。一致性一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體參數(shù)。第八章假設檢驗8.1 假設檢驗的基本問題假設檢驗的基本思想:假設檢驗推斷過程所依據(jù)的基本思想是小概率反證法思想。小概率思想是指發(fā)生概率很小的隨機事件,在某一次特定的實驗中是幾乎不可能發(fā)生的。若小概率事件在一次實驗中發(fā)生了則假設可能錯誤。反證法思想是首先對總體參數(shù)值提出假設,然后再利用樣本提供的信息去驗證先前提出的假設是否成立。如果樣本數(shù)據(jù)不能夠充分證明和支持假設,則在一定概率條件下,應該拒絕該假設;相反,如果樣本數(shù)據(jù)不能夠充分證明和支持假設是不成立的,則不能推翻假設成立的合理性和真實性

14、。8.1.2 假設的表達式原假設假定兩個或多個事物之間是等同的或沒有關系的,是變量之間無關的陳述。原假設表示否定的意義。備擇假設假定變量間存在一定的關系。零假設是變量之間無關的陳述,而研究假設是變量有關系的明確陳述。在邏輯上與原假設內(nèi)容完全對立的假設成為備擇假設。原假設與備擇假設在邏輯上是互斥的,肯定原假設,則備擇假設就必須放棄;否定原假設,則接受備擇假設。8.1.3 兩類錯誤根據(jù)所犯錯誤的類型,我們分為兩種類型:(舉例見教材P188)第一類:原假設為真,拒絕真假設,犯此類錯誤的概率為豆,稱為豆錯誤或棄真錯誤。第二類:原假設為偽,接受偽假設,犯此類錯誤的概率為P,稱為F錯誤或取偽錯誤。對原假設

15、為真的判斷與概率:(1)拒絕原真假設的概率為«,也稱為顯著性水平。(2)接受原真假設,做出正確判斷的概率為1-«o在實踐中,由進行假設檢驗的人設定顯著性水平,一般取為0.05和0.01.通過選擇%控制了犯第一類錯誤的概率。在應用中,一般將只控制第一類錯誤的結(jié)社檢驗稱為顯著性檢驗。許多假設檢驗的應用都屬于這一種類型。對原假設為偽的判斷與概率:(1)接受原偽假設的概率為一:(2)拒絕原偽假設,做出正確判斷的概率為1正確決策與犯錯誤決策的概率歸納表見表8-1。我們希望犯這兩類錯誤的概率越小越好。但是對于特定樣本量來說,不能同時做到犯這兩類錯誤的概率都很小。如果減小a錯誤(棄真),

16、則犯P錯(取偽錯誤)的概率就增加。棄真取偽如果減小P錯誤(取偽),則犯a錯誤(棄真錯誤)的概率就增加。取偽棄真8.1.4 假設檢驗的流程1 .提出原始假設和備擇假設2 .選擇檢驗統(tǒng)計量3 .確定顯著性水平4 .根據(jù)數(shù)據(jù)計算出檢驗統(tǒng)計量的值5 .得到檢驗是否顯著的結(jié)論假設檢驗決策的兩種方法:(1)臨界值法是利用檢驗統(tǒng)計量與其臨界值進行比較作出決策,根據(jù)檢驗統(tǒng)計量落入的區(qū)域作出是否拒絕原假設的決策。若檢驗統(tǒng)計量大于臨界值,落入拒絕域,則拒絕原假設,反之,則不能拒絕原假設。以F檢驗為例。若F>Fa,拒絕Ho;若F<F不才!絕H0(2) P值法是根據(jù)檢驗統(tǒng)計量的概率P值與顯著性水平進行比較

17、,以要判定應拒絕原假設還是不應拒絕原假設。如果P值小于顯著性水平口,則拒絕原假設;如果P值大于顯著性水平%則不能拒絕原假設。8.1.5利用P值進行決策P值:當原假設為真是所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。P值決策原理:得到檢驗統(tǒng)計量的概率P值后的決策就是要判定應拒絕原假設還是不應拒絕原假設。如果檢驗統(tǒng)計量的概率P值小于顯著性水平。,則拒絕原假設;P值越小,拒絕原假設的理由就越充分。反之,如果檢驗統(tǒng)計量的概率P值大于顯著性水平口,則不應拒絕原假設。8.2.1檢驗統(tǒng)計量的確定檢驗統(tǒng)計量選擇的影響因素:樣本量n、總體標準差仃。1 .樣本量在大樣本情況下,樣本量都服從正態(tài)分布,我們使用z統(tǒng)計

18、量。2 .總體標準差。是否已知(1)總體標準差仃已知樣本統(tǒng)計量服從正態(tài)分布,采用z統(tǒng)計量。(2)總體標準差仃未知使用樣本標準差代替總體標準差,樣本統(tǒng)計量服從t分布,采用t統(tǒng)計量。當n<30且總體標準差。未知時,采用t統(tǒng)計量;當n>30時,根據(jù)使用者偏好選if¥z統(tǒng)計量還是t統(tǒng)計量。一個總體參數(shù)檢驗的檢驗統(tǒng)計量的確定歸納為圖8-7,見教材p195。8.4.1 關于檢測結(jié)果的解釋通常統(tǒng)計學家建議我們在敘述中采用“不能拒絕Ho”而不采用“接受Ho”這種說法。8.4.2 單側(cè)檢驗中假設的建立在實際應用中,我們通常把希望驗證的命題放在備擇假設,通過備擇假設來確定原假設,即把原有的、

19、傳統(tǒng)的觀點或結(jié)論放在原假設上。我們需要注意的是:如果沒有拒絕原假設,并不意味著原假設是真實的、真理,也并不意味著備擇假設就是錯的,只是暫時沒有充分的證據(jù)證明原假設不成立(如同無罪假設);接受備擇假設則一定意味著原假設是錯誤的。關于何謂“原有的、傳統(tǒng)的”,原假設,即原有理論、看法、狀況、歷史經(jīng)驗、以及被大多數(shù)人認可的事情,在沒有充分證據(jù)的情況下,被假定為正確的事情。關于何謂“新的、可能的”備擇假設,即檢驗者感興趣的那些新事物、可能的、猜測質(zhì)疑的問題,希望用事實推翻原假設以得出新觀點。第十章方差分析10.1.1 方差分析及其有關術語方差分析是比較多個總體的均值是否相等的統(tǒng)計方法,本質(zhì)上主要是研究一

20、個或多個分類自變量與一個數(shù)值型變量之間的關系(即分類自變量對數(shù)值型因變量的影響)。10.1.2 方差分析的基本思想和原理2.誤差分解組內(nèi)誤差:來自水平內(nèi)部的數(shù)據(jù)誤差,反映了一個樣本內(nèi)部數(shù)據(jù)的離散程度。組內(nèi)誤差只含有隨機誤差。(見教材P238)組間誤差:來自不同水平之間的數(shù)據(jù)誤差,是隨機誤差和系統(tǒng)誤差的總和,反映了不同樣本之間數(shù)據(jù)的離散程度。在方差分析中,數(shù)據(jù)的誤差是用平方和來表示的??偲椒胶停⊿ST):反映全部數(shù)據(jù)誤差大小的平方和。教材P239誤差平方和(SSE):反映組內(nèi)誤差大小的平方和。教材P239因素平方和(SSA):反映組間誤差大小的平方和。教材P239SST=SSE+SSA10.1.

21、3方差分析中的基本假定(1)每個總體應服從于正態(tài)分布。(2)各總體的方差必須相同。(3)觀測值是獨立的。10.2.2分析步驟1 .提出假設2 .構(gòu)造檢驗的統(tǒng)計量為構(gòu)造檢驗的統(tǒng)計量,在方差分析中,需要計算三個誤差平方和。SSE:每個組的各樣本數(shù)據(jù)與其組均值的誤差平方和,反映了每個樣本各觀測值的離散程度(隨機誤差的大小)。對隨機誤差大小的度量,反映了除自變量對因變量的影響之外,其他因素對因變量的總影響,也即殘差變量。殘差變量所引起的誤差成為殘差效應。SSA:各組均值與總均值的誤差平方和,反映各樣本均值之間的差異程度。對隨機誤差和系統(tǒng)誤差大小的測度,反映了自變量對因變量的影響,稱為自變量效應或因子效

22、應。SST:全部觀測值與總均值的誤差平方和。對全部數(shù)據(jù)總誤差程度的度量,反映了自變量和殘差變量的共同影響,等于自變量效應與殘差效應之和??偲椒胶停⊿ST)=組間平方和(SSA)+組內(nèi)平方和(SSE)為了消除觀測值多少對誤差平方和大小的影響,需要將其平均,也就是用各平方和除以它們所對應的自由度。計算結(jié)果成為均方或方差。三個平方和所對應的自由度分別為:SST的自由度為n-1,其中n為全部觀測值的個數(shù)。SSA的自由度為k-1,其中k為因素水平的個數(shù)。SSE的自由度為n-koSSA的均方也稱為組間均方或組間方差,記為MSA,其計算公式:MSA=SSA/(k-1)SSE的均方也稱為組內(nèi)均方或組內(nèi)方差,記

23、為MSE,其計算公式:MSE=SSE/(n-k)將上述MSA與MSE進行對比(MSA/MSE),即得到所需要的檢驗統(tǒng)計量F。3 .統(tǒng)計決策如果F>F“,則拒絕原假設,表明各水平的均值有顯著差異,也即所檢驗的因素(行業(yè))對觀測值有顯著影響。如果F<F“,則不能拒絕原假設,沒有證據(jù)表明各水平的均值有顯著差異,也即不能認為所檢驗的因素(行業(yè))對觀測值有顯著影響。在進行決策時,除了使用以上方法進行判斷之外,還可以直接利用方差分析表中的P值與顯著性水平a的值進行比較。如果P<a時,則拒絕原假設;如果P>a時,則不能拒絕原假設。4 .方差分析表教材P246、P247,表10-4、表

24、10-5,熟練掌握表中各字母及數(shù)值的代表意義、利用臨界值或P值進行統(tǒng)計決策。練習題:10.7(P263),熟練應用。第十一章一元線性回歸11.1.1 變量間的關系函數(shù)關系:因變量隨著自變量一起變化,并完全依賴于自變量。一一對應的確定關系。例如:銷售額與銷售量相關關系:非完全確定關系、一個變量的取值不能由另一個變量唯一確定。(比如:家庭儲蓄與家庭收入、父母身高與子女身高、教育程度與個人收入、產(chǎn)量與施肥量)。11.1.2 相關關系的描述與測度相關分析就是對兩個變量之間線性關系的描述與度量。它要解決的問題包括:(1)變量之間是否存在關系(YES/NO)(2)存在什么樣的關系(What)(3)關系強度

25、如何?(4)樣本能否代表總體關系相關系數(shù)相關系數(shù):根據(jù)統(tǒng)計數(shù)據(jù)計算的度量兩個變量之間線性關系強度的統(tǒng)計量。相關系數(shù)的性質(zhì):1 .r的取值范圍是-1,1若0<r<1,正線性相關;若-1<r<0,負線性相關;r=+1,完全正線性相關;r=-1,完全負線性相關;r=1,y的取值完全意外與x,二者為函數(shù)關系;r=0,無線性相關2 .r具有對稱性。&y=ryx3 .r的數(shù)值大小與x和y的原點及尺度無關。4 .r僅僅是x與y之間線性關系的度量,不能用于描述非線性關系。這意味著,當r=0時,只能表示兩變量之間不存在線性相關關系,但并不表示變量之間沒有任何關系,可能存在曲線相關

26、關系。5 .r是兩變量之間線性關系的度量,但是不一定意味著x與y一定有因果關系。了解相關系數(shù)的性質(zhì)有助于對其實際意義的解釋。根據(jù)實際計算出的r取值一般在-1與1之間;r取值越接近于±1,則說明兩變量之間的線性相關越強;r取值越接近于0,則說明兩變量之間的線性關系越弱。經(jīng)驗法則:r之0.8時,可視為高度相關0.5r<0.8時,可視為中度相關0.3<|r|<0.5時,可視為低度相關r<0.3時,可視為不相關11.2一元線性回歸回歸分析主要解決以下幾個方面的問題:(1)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學關系式。(2)對這些關系式的可信程度進行各種統(tǒng)計檢驗,并從影

27、響某一特定變量的諸多變量中找出哪些變量的影響是顯著,哪些是不顯著的。(3)利用所求的關系式,根據(jù)一個或幾個變量的取值來估計或預測另一個特定變量的取值,并給出這種估計或預測的可靠程度。11.2.1一元線性回歸模型3.估計的回歸方程貿(mào)二?02x11.2.2 參數(shù)的最小二乘估計最小二乘估計的思想原理最小二乘法估計的基本出發(fā)點是:應使每個樣本點(Xi,yj與回歸線上的對應點(Xi,E(yi)在垂直方向上的利差平方和最小。最小二乘法是利用樣本數(shù)據(jù),通過使應變量的觀測值y與應變量的估計值?之間的離差平方和達到最小的方法求得民和生的值。11.2.3 回歸直線的擬合優(yōu)度1.判定系數(shù)判定系數(shù)是對估計的回歸方程擬合優(yōu)度的度量。SST分解為兩部分:SSR和SSE。SST=SSR+SSE回歸直線擬合的好壞取決于SSR及SSE的大小,或者取決于SSR(回歸平方和)占SST(總平方和)的比例(SSR/SST)的大小。SSR/SST越大,各觀測點越靠近直線,回歸直線擬合越好。SSR/SST被稱為判定系數(shù)。公式見P261判定系數(shù)R2測度了回歸直線對觀測數(shù)據(jù)的擬合程度。若所有觀測點都落在直線上,那么估計的回歸方程將給出一個完全的擬合。在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論