回歸分析及獨立性檢驗的基本知識點及習習題集錦_第1頁
回歸分析及獨立性檢驗的基本知識點及習習題集錦_第2頁
回歸分析及獨立性檢驗的基本知識點及習習題集錦_第3頁
回歸分析及獨立性檢驗的基本知識點及習習題集錦_第4頁
回歸分析及獨立性檢驗的基本知識點及習習題集錦_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、回歸分析的基本知識點及習題本周題目:回歸分析的基本思想及其初步應用本周重點:(1)通過對實際問題的分析,了解回歸分析的必要性與回歸分析的一般步驟;了解線性回歸模型與函數(shù)模型的區(qū)別;(2)嘗試做散點圖,求回歸直線方程;(3)能用所學的知識對實際問題進行回歸分析,體會回歸分析的實際價值與基本思想;了解判斷刻畫回歸模型擬合好壞的方法相關指數(shù)和殘差分析。本周難點:(1)求回歸直線方程,會用所學的知識對實際問題進行回歸分析. (2)掌握回歸分析的實際價值與基本思想. (3)能運用自己所學的知識對具體案例進行檢驗與說明. (4)殘差變量的解釋;(5)偏差平方和分解的思想;本周內(nèi)容: 一、基礎知識梳理回歸直

2、線:如果散點圖中點的分布從整體上看大致在一條直線附近,我們就稱這兩個變量之間具有線性相關關系,這條直線叫作回歸直線。求回歸直線方程的一般步驟:作出散點圖(由樣本點是否呈條狀分布來判斷兩個量是否具有線性相關關系),若存在線性相關關系求回歸系數(shù) 寫出回歸直線方程 ,并利用回歸直線方程進行預測說明.2.回歸分析:對具有相關關系的兩個變量進行統(tǒng)計分析的一種常用方法。建立回歸模型的基本步驟是:確定研究對象,明確哪個變量是解釋變量,哪個變量是預報變量;畫好確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(線性關系). 由經(jīng)驗確定回歸方程的類型. 按一定規(guī)則估計回歸方程中的參數(shù) (最小二乘法);得出結

3、論后在分析殘差圖是否異常,若存在異常,則檢驗數(shù)據(jù)是否有誤,后模型是否合適等. 3.利用統(tǒng)計方法解決實際問題的基本步驟:(1)提出問題;(2)收集數(shù)據(jù);(3)分析整理數(shù)據(jù);(4)進行預測或決策。4.殘差變量 的主要來源:(1)用線性回歸模型近似真實模型(真實模型是客觀存在的,通常我們并不知道真實模型到底是什么)所引起的誤差??赡艽嬖诜蔷€性的函數(shù)能夠更好地描述 與 之間的關系,但是現(xiàn)在卻用線性函數(shù)來表述這種關系,結果就會產(chǎn)生誤差。這種由于模型近似所引起的誤差包含在 中。(2)忽略了某些因素的影響。影響變量 的因素不只變量 一個,可能還包含其他許多因素(例如在描述身高和體重關系的模型中,體重不僅受身

4、高的影響,還會受遺傳基因、飲食習慣、生長環(huán)境等其他因素的影響),但通常它們每一個因素的影響可能都是比較小的,它們的影響都體現(xiàn)在 中。(3)觀測誤差。由于測量工具等原因,得到的 的觀測值一般是有誤差的(比如一個人的體重是確定的數(shù),不同的秤可能會得到不同的觀測值,它們與真實值之間存在誤差),這樣的誤差也包含在 中。上面三項誤差越小,說明我們的回歸模型的擬合效果越好。二、例題選講例1:研究某灌溉渠道水的流速 與水深 之間的關系,測得一組數(shù)據(jù)如下:水深 流速 (1)求 對 的回歸直線方程;(2)預測水深為 時水的流速是多少?分析:本題考查如何求回歸直線的方程,可先把有關數(shù)據(jù)用散點圖表示出來,若這些點大

5、致分布在通過散點圖中心的一條直線附近,說明這兩個變量線性相關,從而可利用我們學過的最小二乘估計思想及計算公式求得線性回歸直線方程。解:1)由于問題中要求根據(jù)水深預報水的流速,因此選取水深為解釋變量,流速為預報變量,作散點圖:由圖容易看出, 與 之間有近似的線性關系,或者說,可以用一個回歸直線方程 來反映這種關系。由計算器求得 。 對 的回歸直線方程為 。(2)由(1)中求出的回歸直線方程,把 代入,易得 。計算結果表示,當水深為 時可以預測渠水的流速為 。評注:建立回歸模型的一般步驟:(1)確定研究對象,明確兩個變量即解釋變量和預報變量;(2)畫出散點圖,觀察它們之間的關系;(3)由經(jīng)驗確定回

6、歸方程類型(若呈線性關系,選用線性回歸方程);(4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法);(5)得出結果后分析殘差圖是否有異常(個別數(shù)據(jù)對應殘差過大,或殘差出現(xiàn)不隨機的規(guī)律性,等等),若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。例2:1993年到2002年中國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP1993199419951996199719981999200020012002(1)作GDP和年份的散點圖,根據(jù)該圖猜想它們之間的關系應是什么。(2)建立年份為解釋變量,GDP為預報變量的回歸模型,并計算殘差。(3)根據(jù)你得到的模型,預報2003年的GDP,并查閱資料,看看你

7、的預報與實際GDP的誤差是多少。(4)你認為這個模型能較好地刻畫GDP和年份的關系嗎請說明理由。解:(1)由表中數(shù)據(jù)制作的散點圖如下:從散點圖中可以看出GDP值與年份近線呈線性關系;(2)用yt表示GDP值,t表示年份,根據(jù)截距和斜率的最小二乘計算公式,得: 從而得線性回歸方程: 殘差計算結果見下表:GDP值與年份線性擬合殘差表年份19931994199519961997殘差年份19981999200020012002殘差(3)2003年的GDP預報值為,根據(jù)國家統(tǒng)計局2004年統(tǒng)計,2003年實際GDP值為,所以預報與實際相;(4)上面建立的回歸方程的R2=,說明年份能夠解釋約97%的GDP

8、值變化,因此所建立的模型能夠很好地刻畫GDP和年份的關系。說明: 關于2003年的GDP的值來源,不同的渠道可能會有所不同。例3:如下表所示,某地區(qū)一段時間內(nèi)觀察到的大于或等于某震級x的地震個數(shù)為N,試建立回歸方程表述二者之間的關系。震級34地震數(shù)28381203801479510695764155023842269819191356973震級67 地震數(shù)74660443527420614898574125 解:由表中數(shù)據(jù)得散點圖如下: 從散點圖中可以看出,震級x與大于該震級的地震次數(shù)N之間不呈線性相關關系,隨著x的減少,所考察的地震數(shù)N近似地以指數(shù)形式增長.做變換y=lgN,得到的數(shù)據(jù)如下表

9、所示:x345yx67 y x和y的散點圖如下: 從這個散點圖中可以看出x和y之間有很強的線性相差性,因此可以用線性回歸模型擬合它們之間的關系。根據(jù)截距和斜率的最小二乘計算公式,得: 故線性回歸方程為: 相關指數(shù)R2,說明x可以解釋y的%的變化。因此,可以用回歸方程 描述x和y之間的關系。例4:電容器充電后,電壓達到 ,然后開始放電,由經(jīng)驗知道,此后電壓 隨時間 變化的規(guī)律公式 表示,觀測得時間 時的電壓 如下表所示:012345678910100755540302015101055試求電壓 對時間 的回歸方程。分析:由于兩個變量不呈線性相關關系,所以不能直接利用線性回歸方程來建立兩個變量之間

10、的關系,我們可通過對數(shù)變換把指數(shù)關系變?yōu)榫€性關系,通過線性回歸模型來建立 與 之間的非線性回歸方程。解:對 兩邊取自然對數(shù)得 ,令 ,即 。由所給數(shù)據(jù)可得012345678910其散點圖為:由散點圖可知 與 具有線性相關關系,可用 來表示。經(jīng)計算得: (最小二乘法), ,即 。所以, 。評注:一般地,有些非線性回歸模型通過變換可以轉(zhuǎn)化為線性回歸模型,即借助于線性回歸模型研究呈非線性回歸關系的兩個變量之間的關系:(1)如果散點圖中的點分布在一個直線狀帶形區(qū)域,可以選用線性回歸模型來建模;(2)如果散點圖中的點的分布在一個曲線狀帶形區(qū)域,要先對變量作適當?shù)淖儞Q,再利用線性回歸模型來建模。 本周練習

11、:1.對具有相關關系的兩個變量統(tǒng)計分析的一種常用的方法是( )A回歸分析 B.相關系數(shù)分析 C.殘差分析 D.相關指數(shù)分析2.在畫兩個變量的散點圖時,下面敘述正確的是( )A預報變量在 軸上,解釋變量在 軸上 B.解釋變量在 軸上,預報變量在 軸上 C.可以選擇兩個變量中任意一個變量在 軸上D.可以選擇兩個變量中任意一個變量在 軸上3.兩個變量相關性越強,相關系數(shù) ( )A越接近于0 B.越接近于1 C.越接近于1 D.絕對值越接近14.若散點圖中所有樣本點都在一條直線上,解釋變量與預報變量的相關系數(shù)為( )A0 C.1 D.1或15.一位母親記錄了她兒子3到9歲的身高,數(shù)據(jù)如下表:年齡(歲)

12、3456789身高( 由此她建立了身高與年齡的回歸模型 ,她用這個模型預測兒子10歲時的身高,則下面的敘述正確的是( )A.她兒子10歲時的身高一定是 B.她兒子10歲時的身高在 以上C.她兒子10歲時的身高在 左右 D.她兒子10歲時的身高在 以下6.兩個變量有線性相關關系且正相關,則回歸直線方程中, 的系數(shù) ( )A. B. C. D. 7.兩個變量有線性相關關系且殘差的平方和等于0,則( )A.樣本點都在回歸直線上 B.樣本點都集中在回歸直線附近 C.樣本點比較分散 D.不存在規(guī)律8.在建立兩個變量 與 的回歸模型中,分別選擇了4個不同的模型,它們的相關指數(shù) 如下,其中擬合最好的模型是(

13、 )A.模型1的相關指數(shù) 為 B.模型2的相關指數(shù) 為C.模型3的相關指數(shù) 為 D.模型4的相關指數(shù) 為 9.相關指數(shù) 。10.某農(nóng)場對單位面積化肥用量 和水稻相應產(chǎn)量 的關系作了統(tǒng)計,得到數(shù)據(jù)如下:15202530354045330345365405445450455如果 與 之間具有線性相關關系,求出回歸直線方程,并預測當單位面積化肥用量為 時水稻的產(chǎn)量大約是多少(精確到 )11.假設美國10家最大的工業(yè)公司提供了以下數(shù)據(jù):公司銷售總額經(jīng)x1/百萬美元利潤x2/百萬美元通用汽車 1269744224福特969333835埃克森866563510IBM634383758通用電氣5526439

14、39美孚509761809菲利普·莫利斯390692946克萊斯勒36156359杜邦352092480德士古324162413(1)作銷售總額和利潤的散點圖,根據(jù)該圖猜想它們之間的關系應是什么形式;(2)建立銷售總額為解釋變量,利潤為預報變量的回歸模型,并計算殘差;(3)你認為這個模型能較好地刻畫銷售總額和利潤之間的關系嗎請說明理由。參考答案:A B D B C A A A 9 10.由于問題中要求根據(jù)單位面積化肥用量預報水稻相應的產(chǎn)量,因此選取單位面積的化肥用量為解釋變量,相應水稻的產(chǎn)量為預報變量,作散點圖: 由圖容易看出, 與 之間有近似的線性關系,或者說,可以用一個回歸直線方

15、程 來反映這種關系。由計算器求得 。 對 的回歸直線方程為 ( *)。由(*)中求出的回歸直線方程,把 代入,易得 。計算結果表示,當單位面積化肥用量為 時水稻的產(chǎn)量大約是 .11(1)將銷售總額作為橫軸,利潤作為縱軸,根據(jù)表中數(shù)據(jù)繪制散點圖如下:由于散點圖中的樣本點基本上在一個帶形區(qū)域分布,猜想銷售總額與利潤之間呈現(xiàn)線性相關關系;(2)由最小二乘法的計算公式,得: 則線性回歸方程為: 其殘差值計算結果見下表:銷售總額12697496933866566343855264利潤42243835351037583939殘差銷售總額5097639069361563520932416利潤18092946

16、35924802413殘差(3)對于(2)中所建立的線性回歸方程,相關指數(shù)為R2,說明在線性回歸模型中銷售總額只能解釋利潤變化的46%,所以線性回歸模型不能很好地刻畫銷售總額和利潤之間的關系。說明:此題也可以建立對數(shù)模型或二次回歸模型等,只要計算和分析合理,就算正確。獨立性檢驗的基本知識點及習題本周題目:獨立性檢驗的基本思想及其初步應用本周重點:(1)通過對實際問題的分析探究,了解獨立性檢驗(只要求2×2列聯(lián)表)的基本思想、方法及初步應用.;了解獨立性檢驗的常用方法:三維柱形圖和二維條形圖,及其K²(或R²)的大小關系.(2)通過典型案例的探究,了解實際推斷原理和

17、假設檢驗的基本思想、方法及初步應用. (3)理解獨立性檢驗的基本思想及實施步驟,能運用自己所學的知識對具體案例進行檢驗. 本周難點:(1)了解獨立性檢驗的基本思想;(2)了解隨機變量 的含義, 太大認為兩個分類變量是有關系的;(3)能運用自己所學的知識對具體案例進行檢驗與說明. 本周內(nèi)容: 一、基礎知識梳理1.獨立性檢驗利用隨機變量 來確定在多大程度上可以認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗。2.判斷結論成立的可能性的步驟:(1)通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關系,但是這種判斷無法精確地給出所得結論的可靠程度。(2)可以利用獨立性檢驗來考察

18、兩個分類變量是否有關系,并且能較精確地給出這種判斷的可靠程度。二、例題選講例1.為了探究患慢性氣管炎是否與吸煙有關,調(diào)查了339名50歲以上的人,調(diào)查結果如下表所示: 患病不患病合計吸煙43162205不吸煙13121134合計56283339試問:50歲以上的人患慢性氣管炎與吸煙習慣有關嗎?分析:最理想的解決辦法是向所有50歲以上的人作調(diào)查,然后對所得到的數(shù)據(jù)進行統(tǒng)計處理,但這花費的代價太大,實際上是行不通的,339人相對于全體50歲以上的人,只是一個小部分,已學過總體和樣本的關系,當用樣本平均數(shù),樣本方差去估計總體相應的數(shù)字特征時,由于抽樣的隨機性,結果并不唯一。現(xiàn)在情況類似,我們用部分對

19、全體作推斷,推斷可能正確,也可能錯誤。如果抽取的339個調(diào)查對象中很多人是吸煙但沒患慢性氣管炎,而雖不吸煙因身體體質(zhì)差而患慢性氣管炎,能夠得出什么結論呢我們有95%(或99%)的把握說事件 與事件 有關,是指推斷犯錯誤的可能性為5%(或1%),這也常常說成是“以95%(或99%)的概率”是一樣的。解:根據(jù)列聯(lián)表中的數(shù)據(jù),得 。因為 ,所以我們有99%的把握說:50歲以上的人患慢性氣管炎與吸煙習慣有關。評注:對兩個分類變量進行獨立性檢驗,要對樣本的選取背景、時間等因素進行分析。例2甲乙兩個班級進行一門考試,按照學生考試成績優(yōu)秀和不優(yōu)秀統(tǒng)計成績后,得到如下的列聯(lián)表:班級與成績列聯(lián)表 優(yōu)秀不優(yōu)秀總計

20、甲班103545乙班73845總計177390畫出列聯(lián)表的條形圖,并通過圖形判斷成績與班級是否有關;利用列聯(lián)表的獨立性檢驗估計,認為“成績與班級有關系”犯錯誤的概率是多少。解:列聯(lián)表的條形圖如圖所示:由圖及表直觀判斷,好像“成績優(yōu)秀與班級有關系”;由表中數(shù)據(jù)計算得K2的觀察值為k>。由下表中數(shù)據(jù)P(K2k)k得:P(K2,從而有50%的把握認為“成績與班級有關系”,即斷言“成績優(yōu)秀與班級有關系”犯錯誤的概率為。評注:(1)畫出條形圖后,從圖形上判斷兩個分類變量之間是否有關系。這里通過圖形的直觀感覺的結果可能會出錯。(2)計算得到K2的觀測值比較小,所以沒有理由說明“成績優(yōu)秀與班級有關系”

21、。這與反證法也有類似的地方,在使用反證法證明結論時,假設結論不成立的條件下如果沒有推出矛盾,并不能說明結論成立也不能說明結論不成立。在獨立性檢驗中,在假設“成績優(yōu)秀與班級沒有關系”的情況下,計算得到的K2的值比較小,且P(K2,說明事件(K2不是一個小概率事件,這個事件的發(fā)生不足以說明“成績優(yōu)秀與班級沒有關系”,即沒有理由說明“成績優(yōu)秀與班級有關系”。這里沒有推出小概率事件發(fā)生類似于反證法中沒有推出矛盾。例3為考察某種藥物預防疾病的效果,進行動物試驗,得到如下的列聯(lián)列表:藥物效果與動物試驗列聯(lián)表 患病未患病總計服用藥104555沒服用藥203050總計3075105請問能有多大把握認為藥物有效

22、?解: 假設“服藥情況與是否患病之間沒有關系”,則K2的值應比較??;如果K2的值很大,則說明很可能“服藥情況與是否患病之間有關系”。由題目中所給數(shù)據(jù)計算,得K2的觀測值為k,而P(K2,所以有%的把握認為“服藥情況與是否患病之間有關系”,即大約有%的把握認為藥物有效。例4在一次惡劣氣候的飛行航程中調(diào)查男女乘客在機上暈機的情況如下表所示,根據(jù)此資料你是否認為在惡劣氣候中男人比女人更容易暈機 暈機不暈機合計男人243155女人82634合計325789分析:這是一個 列聯(lián)表的獨立性檢驗問題,根據(jù)列聯(lián)表的數(shù)據(jù)求解。解:由條件中數(shù)據(jù),計算得: ,因為 ,所以我們沒有理由說暈機是否跟男女性別有關,盡管這

23、次航班中男人暈機的比例 比女人暈機的比例 高,但我們不能認為在惡劣的氣候飛行中男人比女人更容易暈機。評注:在使用 統(tǒng)計量作 列聯(lián)表的獨立性檢驗時,要求表中的4個數(shù)據(jù)大于等于5,為此,在選取樣本的容量時一定要注意這一點,本例中的4個數(shù)據(jù)都大于5,且滿足這一要求的。本周練習:1在一次獨立性檢驗中,其把握性超過了99%,則隨機變量 的可能值為( )A B C D2把兩個分類變量的頻數(shù)列出,稱為( )A三維柱形圖 B二維條形圖 C列聯(lián)表 D獨立性檢驗3由列聯(lián)表 合計43 16220513121134合計56283339則隨機變量 的值為 。4某大學希望研究性別與職稱之間是否有關系,你認為應該收集哪些數(shù)

24、據(jù)?5某高校“統(tǒng)計初步”課程的教師隨機調(diào)查了該選修課的一些學生情況,具體數(shù)據(jù)如下表: 非統(tǒng)計專業(yè)統(tǒng)計專業(yè)男1310女720為了檢驗主修專業(yè)是否與性別有關系,根據(jù)表中的數(shù)據(jù),得到 。因為 ,所以斷定主修統(tǒng)計專業(yè)與性別有關系。這種判斷出錯的可能性為 。6在對人們休閑的一次調(diào)查中,共調(diào)查了124人,其中女性70人,男性54人。女性中有43人主要的休閑方式是看電視,另外27人主要的休閑方式是運動;男性中有21人主要的休閑方式是看電視,另外33人主要的休閑方式是運動。(1)根據(jù)以上數(shù)據(jù)建立一個 的列聯(lián)表;(2)檢驗性別與休閑方式是否有關系。7 調(diào)查某醫(yī)院某段時間內(nèi)嬰兒出生的時間與性別的關系,得到下面的數(shù)據(jù)表。試問能以多大把握認為嬰兒的性別與出生的時間有關系。出生時間 性別晚上白天合計男嬰243155女嬰82634合計325789參考答案:1C 2C3 4女

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論