




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
一.隨機抽樣1.隨機抽樣:滿足每個個體被抽到的機會是均等的抽樣,共有三種經(jīng)常采用的隨機抽樣方法:⑴簡單隨機抽樣:從元素個數(shù)為N的總體中不放回地抽取容量為n的樣本,如果每一次抽取時總體中的各個個體有相同的可能性被抽到,這種抽樣方法叫做簡單隨機抽樣.抽出辦法:①抽簽法:用紙片或小球分別標號后抽簽的方法.隨機數(shù)表法:隨機數(shù)表是使用計算器或計算機的應用程序生成隨機數(shù)的功能生成的一張數(shù)表.表中每一位置出現(xiàn)各個數(shù)字的可能性相同.隨機數(shù)表法是對樣本進行編號后,按照一定的規(guī)律從隨機數(shù)表中讀數(shù),并取出相應的樣本的方法.簡單隨機抽樣是最簡單、最基本的抽樣方法.⑵系統(tǒng)抽樣:將總體分成均衡的若干部分,然后按照預先制定的規(guī)則,從每一部分抽取一個個體,得到所需要的樣本的抽樣方法.抽出辦法:從元素個數(shù)為N的總體中抽取容量為n的樣本,如果總體容量能被樣本容量整N除,設k=N,先對總體進行編號,號碼從1到N,再從數(shù)字1到k中隨機抽取一個數(shù)s作n為起始數(shù),然后順次抽取第s+k,+2k,,+(n-1)k個數(shù),這樣就得到容量為n的樣本.如果總體容量不能被樣本容量整除,可隨機地從總體中剔除余數(shù),然后再按系統(tǒng)抽樣方法進行抽樣.系統(tǒng)抽樣適用于大規(guī)模的抽樣調(diào)查,由于抽樣間隔相等,又被稱為等距抽樣.⑶分層抽樣:當總體有明顯差別的幾部分組成時,要反映總體情況,常采用分層抽樣,使總體中各個個體按某種特征分成若干個互不重疊的幾部分,每一部分叫做層,在各層中按層在總體中所占比例進行簡單隨機抽樣,這種抽樣方法叫做分層抽樣.分層抽樣的樣本具有較強的代表性,而且各層抽樣時,可靈活選用不同的抽樣方法,應用廣泛.2.簡單隨機抽樣必須具備下列特點:⑴簡單隨機抽樣要求被抽取的樣本的總體個數(shù)N是有限的.⑵簡單隨機樣本數(shù)n小于等于樣本總體的個數(shù)N.⑶簡單隨機樣本是從總體中逐個抽取的.⑷簡單隨機抽樣是一種不放回的抽樣.⑸簡單隨機抽樣的每個個體入樣的可能性均為空.NN3?系統(tǒng)抽樣時,當總體個數(shù)N恰好是樣本容量n的整數(shù)倍時,取k=N;nN若N不是整數(shù)時,先從總體中隨機地剔除幾個個體,使得總體中剩余的個體數(shù)能被樣本容n量n整除.因為每個個體被剔除的機會相等,因而整個抽樣過程中每個個體被抽取的機會仍N然相等,為N.n二.頻率直方圖列出樣本數(shù)據(jù)的頻率分布表和頻率分布直方圖的步驟:計算極差:找出數(shù)據(jù)的最大值與最小值,計算它們的差;決定組距與組數(shù):取組距,用決定組數(shù);組距決定分點:決定起點,進行分組;列頻率分布直方圖:對落入各小組的數(shù)據(jù)累計,算出各小數(shù)的頻數(shù),除以樣本容量,得到各小組的頻率.繪制頻率分布直方圖:以數(shù)據(jù)的值為橫坐標,以頻距的值為縱坐標繪制直方圖,知小長方形的面積=組距x||=頻率.頻率分布折線圖:將頻率分布直方圖各個長方形上邊的中點用線段連接起來,就得到頻率分布折線圖,一般把折線圖畫成與橫軸相連,所以橫軸左右兩端點沒有實際意義.總體密度曲線:樣本容量不斷增大時,所分組數(shù)不斷增加,分組的組距不斷縮小,頻率分布直方圖可以用一條光滑曲線y=f(x)來描繪,這條光滑曲線就叫做總體密度曲線.總體密度曲線精確地反映了一個總體在各個區(qū)域內(nèi)取值的規(guī)律.三.莖葉圖制作莖葉圖的步驟:將數(shù)據(jù)分為“莖”、“葉”兩部分;將最大莖與最小莖之間的數(shù)字按大小順序排成一列,并畫上豎線作為分隔線;將各個數(shù)據(jù)的“葉”在分界線的一側對應莖處同行列出.四.統(tǒng)計數(shù)據(jù)的數(shù)字特征用樣本平均數(shù)估計總體平均數(shù);用樣本標準差估計總體標準差.數(shù)據(jù)的離散程序可以用極差、方差或標準差來描述.極差又叫全距,是一組數(shù)據(jù)的最大值和最小值之差,反映一組數(shù)據(jù)的變動幅度;樣本方差描述了一組數(shù)據(jù)平均數(shù)波動的大小,樣本的標準差是方差的算術平方根.一般地,設樣本的元素為x,x,,x樣本的平均數(shù)為x,12n定義樣本方差為s2=(匸X)2+(X2—X上++(匸X上,n樣本標準差S乙匸X)2+(X2—X)2++(匸X)2n簡化公式:s2=1[(x2+x2++X2)一nx2].n12n五.獨立性檢驗1.兩個變量之間的關系;常見的有兩類:一類是確定性的函數(shù)關系;另一類是變量間存在關系,但又不具備函數(shù)關系所要求的確定性,它們的關系是帶有一定隨機性的.當一個變量取值一定時,另一個變量的取值帶有一定隨機性的兩個變量之間的關系叫做相關關系.散點圖:將樣本中的n個數(shù)據(jù)點(x,y)(i=1,2,,n)描在平面直角坐標系中,就得到ii了散點圖.散點圖形象地反映了各個數(shù)據(jù)的密切程度,根據(jù)散點圖的分布趨勢可以直觀地判斷分析兩個變量的關系.如果當一個變量的值變大時,另一個變量的值也在變大,則這種相關稱為正相關;此時,散點圖中的點在從左下角到右上角的區(qū)域.反之,一個變量的值變大時,另一個變量的值由大變小,這種相關稱為負相關.此時,散點圖中的點在從左上角到右下角的區(qū)域.散點圖可以判斷兩個變量之間有沒有相關關系.統(tǒng)計假設:如果事件A與B獨立,這時應該有P(AB)=P(A)P(B),用字母H表示此式,0即H:P(AB)=P(A)P(B),稱之為統(tǒng)計假設.0x2(讀作“卡方”)統(tǒng)計量:統(tǒng)計學中有一個非常有用的統(tǒng)計量,它的表達式為X2=nWin22—"J/,用它的大小可以nnnn1十2+十1+2用來決定是否拒絕原來的統(tǒng)計假設H.如果X2的值較大,就拒絕H,即認為A與B是有00關的.X2統(tǒng)計量的兩個臨界值:3.841、6.635;當X2〉3.841時,有95%的把握說事件A與B有關;當X2〉6.635時,有99%的把握說事件A與B有關;當X2W3.841時,認為事件A與B是無關的.獨立性檢驗的基本思想與反證法類似,由結論不成立時推出有利于結論成立的小概率事件發(fā)生,而小概率事件在一次試驗中通常是不會發(fā)生的,所以認為結論在很大程度上是成立的.獨立性檢驗的步驟:統(tǒng)計假設:H;列出2x2聯(lián)表;計算X2統(tǒng)計量;查對臨界值表,0作出判斷.幾個臨界值:P(X2三2.706)?0.10,P(X2三3.841)?0.05,P(X2三6.635)-0.01.2x2聯(lián)表的獨立性檢驗:如果對于某個群體有兩種狀態(tài),對于每種狀態(tài)又有兩個情況,這樣排成一張2x2的表,如下:狀態(tài)B狀態(tài)B合計狀態(tài)An11n12n1+狀態(tài)An21n22n2+n+1n+2n如果有調(diào)查得來的四個數(shù)據(jù)n,n,n,n,并希望根據(jù)這樣的4個數(shù)據(jù)來檢驗上述的兩種11122122狀態(tài)A與B是否有關,就稱之為2x2聯(lián)表的獨立性檢驗.六.回歸分析回歸分析:對于具有相關關系的兩個變量進行統(tǒng)計分析的方法叫做回歸分析,即回歸分析就是尋找相關關系中這種非確定關系的某種確定性.回歸直線:如果散點圖中的各點都大致分布在一條直線附近,就稱這兩個變量之間具有線性相關關系,這條直線叫做回歸直線.最小二乘法:
記回歸直線方程為:y=a+bx,稱為變量Y對變量x的回歸直線方程,其中a,b叫做回歸系數(shù).y是為了區(qū)分Y的實際值y,當x取值x時,變量Y的相應觀察值為y,而直線上對應于xiii的縱坐標是y=a+bx.ii設x,Y的一組觀察值為(x,y),i=1,2,,n,且回歸直線方程為y=a+bx,ii當x取值x時,Y的相應觀察值為y,差y-y(i=1,2,,n)刻畫了實際觀察值y與回歸iiiii直線上相應點的縱坐標之間的偏離程度稱這些值為離差.我們希望這n個離差構成的總離差越小越好,這樣才能使所找的直線很貼近已知點.記Q=》(y-a-bx)2,回歸直線就是所有直線中Q取最小值的那條.iii=1這種使“離差平方和為最小”的方法叫做最小二乘法.用最小二乘法求回歸系數(shù)a,b有如下的公式:工xy-nxyiib=芍,a=y-bx,其中a,b上方加“a”,表示是由觀察值按最小二乘法求得的乙x2-nx2ii=1回歸系數(shù).線性回歸模型:將用于估計y值的線性函數(shù)a+bx作為確定性函數(shù);y的實際值與估計值之間的誤差記為£,稱之為隨機誤差;將y=a+bx+8稱為線性回歸模型.產(chǎn)生隨機誤差的主要原因有:所用的確定性函數(shù)不恰當即模型近似引起的誤差;忽略了某些因素的影響通常這些影響都比較小;由于測量工具等原因存在觀測誤差.線性回歸系數(shù)的最佳估計值:利用最小二乘法可以得到a,b的計算公式為丫(x-x)(y-y)丫(x-x)(y-y)工xy-nxyiiii丫(x-x)2i=-7=1工x2-n(x)2i,a=y-bx,其中xini=1y=-Yynii=1i=1ii=1由此得到的直線y=a+bx就稱為回歸直線,此直線方程即為線性回歸方程.其中a,b分別為a,b的估計值,a稱為回歸截距,b稱為回歸系數(shù),y稱為回歸值.相關系數(shù):
丫(x-x)(y-y)ii丫(x-x)(y-y)ii工xy-nxyii:(工x2-n(x)2)疋y2-n(y)2)i=1i=1i=1ii=16.相關系數(shù)r的性質:⑴IrIW1;⑵IrI越接近于1,x,y的線性相關程度越強;⑶IrI越接近于0,x,y的線性相關程度越弱.可見,一條回歸直線有多大的預測功能,和變量間的相關系數(shù)密切相關.7.轉化思想:根據(jù)專業(yè)知識或散點圖,對某些特殊的非線性關系,選擇適當?shù)淖兞看鷵Q,把非線性方程轉化為線性回歸方程,從而確定未知參數(shù).8.一些備案①回歸(regression)一詞的來歷:“回歸"這個詞英國統(tǒng)計學家FrancilsGalton提出來的.1889年,他在研究祖先與后代的身高之間的關系時發(fā)現(xiàn),身材較高的父母,他們的孩子也較高但這些孩子的平均身高并沒有他們父母的平均身高高;身材較矮的父母,他們的孩子也較矮,但這些孩子的平均身高卻比他們父母的平均身高高.Galton把這種后代的身高向中間值靠近的趨勢稱為“回歸現(xiàn)象”.后來,人們把由一個變量的變化去推測另一個變量的變化的方法稱為回歸分析.②回歸系數(shù)的推導過程:X+b2工X2iiQ=工[(y.-a)-bx]2=工y2-2a工y+na2-2b工xyX+b2工X2iiiiiiii=na2+2a(b工x-y)+b2ii把上式看成a的二次函數(shù),a2的系數(shù)n>0,因此當a=2@工x-Yy.)工因此當a=2@工x-Yy.)工匸旦時取最小值.2n同理,把Q的展開式按b的降幕排列,看成b的二次函數(shù),當b=工xy-a工x之一-時取最小值.丫xy-nxyVziiV(x-x)(y-y)ii-V(x-x)2i解得:b=節(jié)乙x2-nx2ia=y-bx,i=1其中y=-Vy,x=丄Vx是樣本平均數(shù).nin19.對相關系數(shù)r進行相關性檢驗的步驟:①提出統(tǒng)計假設h0:變量x,y不具有線性相關關系;②如果以95%的把握作出推斷,那么可以根據(jù)1-0.95=0.05與n-2(n是樣本容量)在相關性檢驗的臨界值表中查出一個r的臨界值r(其中1-0.95=0.05稱為檢驗水平);0.05計算樣本相關系數(shù)r;作出統(tǒng)計推斷:若Ir卜r,則否定H,表明有95%的把握認為變量y與x之間具有線0.050性相關關系;若IrIWr,則沒有理由拒絕H,即就目前數(shù)據(jù)而言,沒有充分理由認為變0.050量y與x之間具有線性相關關系.說明:⑴對相關系數(shù)r進行顯著性檢驗,一般取檢驗水平a二0.05,即可靠程度為95%.⑵這里的r指的是線性相關系數(shù),r的絕對值很小,只是說明線性相關程度低,不一定不相關,可能是非線性相關的某種關系.⑶這里的r是對抽樣數(shù)據(jù)而言的?有時即使IrI=1,兩者也不一定是線性相關的?故在統(tǒng)計分析時,不能就數(shù)據(jù)論數(shù)據(jù),要結合實際情況進行合理解釋.:I1忖_典例分析題型一線性相關及回歸【例1】已知變量y與x之間的相關系數(shù)是r=-0.872,查表得到相關系數(shù)臨界值r=0.482,要使可靠性不低于95%,則變量y與x之間()0.05A.不具有線性相關關系b.具有線性相關關系C線性相關關系還待進一步確定D.具有確定性關系【例2】當相關系數(shù)r=0時,表明()A現(xiàn)象之間完全無關B相關程度較小C現(xiàn)象之間完全相關D無直線相關關系【例3】下列結論中,能表示變量x,y具有線性相關關系的是()A.|廠|上|A.|廠|上|r0.05lB-|r|W|r0.05!C.D.Ir|<Ir0.05|例4】下列現(xiàn)象的相關密切程度最高的是()A.某商店的職工人數(shù)與商品銷售額之間的相關系數(shù)0.87B■流通費用水平與利潤率之間的相關關系為-0.94商品銷售額與利潤率之間的相關系數(shù)為0.51商品銷售額與流通費用水平的相關系數(shù)為-0.81例5】在吸煙與患肺病這兩個分類變量的計算中,下列說法正確的是()若X2的值為6.635,我們有99%的把握認為吸煙與患肺病有關系,那么在100個吸煙的人中必有99人患有肺??;從獨立性檢驗可知有99%的把握認為吸煙與患肺病有關系時,我們說某人吸煙,那么他有99%的可能患有肺?。蝗魪慕y(tǒng)計量中求出有95%的把握認為吸煙與患肺病有關系,是指有5%的可能性使得判斷出現(xiàn)錯誤;以上三種說法都不正確.【例6】設兩個變量x和y之間具有線性相關關系,它們的相關系數(shù)是r,y關于x的回歸直線的斜率是b,縱截距是a,那么必有()A.b與r的符號相同B.a與r的符號相同C.b與r的相反D.a與r的符號相反【例7】定義:點(x,y)與直線y=bx+a的“縱向距離"為ly-(bx+a)l.已知iiiiA(0,0),B(0,-1),C(1,1)三點,存在直線l,使A,B,C三點到直線l的"縱向距離的平方和”Q最小.⑴求直線l的方程和Q的最小值;⑵判斷點D(|,0)與直線l的位置關系.
例8】(2009寧夏海南卷理)對變量x,y有觀測數(shù)據(jù)(xi,yi)(i=1,2,,10),得散點圖1;對變量U,v有觀測數(shù)據(jù)(u,v)(i=1,2,,10),得散點圖2.由這兩個散點圖可以判斷.11A.變量x與y正相關,u與v正相關B.變量x與y正相關,u與v負相關C.變量x與y負相關,u與V正相關D.變量x與y負相關,U與V負相關【例9】為了考查兩個變量x和y之間的線性關系,甲、乙兩位同學各自獨立做了10次和15次的試驗,并且利用線性回歸方法求得回歸直線分別為l,l,已知兩人得到的試驗數(shù)據(jù)中,12變量x和y的數(shù)據(jù)的平均值都對應相等,那么下列說法正確的是()A.直線l和l一定有交點B.直線l一定平行于直線l1212C.直線l一定與l重合D.以上都不對12【例10】某地高校教育經(jīng)費(x)與高校學生人數(shù)(y)連續(xù)6年的統(tǒng)計資料如下:教育經(jīng)費(萬元)x316343373393418455在校學生(萬人)y111618202225試求回歸直線方程,估計教育經(jīng)費為500萬元時的在校學生數(shù).例11】一家庭問題研究機構想知道是否夫妻所受的教育越高越不愿生孩子,現(xiàn)隨機抽樣了8對夫妻,計算夫妻所受教育的總年數(shù)x與孩子數(shù)y,得結果如下x1917211815121420y13112321試求y對x回歸直線方程.【例12】某種產(chǎn)品的廣告費支出x與銷售額y(單位:百萬元)之間有如下對應數(shù)據(jù):x24568y3040605070⑴畫出散點圖;⑵求回歸直線方程.【例13】某五星級大飯店的住屋率(%)(x)與每天每間客房的成本(元)(y)如下:x10075655550y20002500280032004000⑴試求y對x回歸直線;⑵若y的表示不變,x以小數(shù)表示(如75%表為0.75),求新的回歸直線例14】某興趣小組欲研究晝夜溫差大小與患感冒人數(shù)多少之間的關系,他們分別到氣象局與某醫(yī)院抄錄了1至6月份每月10號的晝夜溫差情況與因患感冒而就診的人數(shù),得到如下資料:日期1月10日2月10日3月10日4月10日5月10日6月10日晝夜溫差x(C)1011131286就診人數(shù)y(個)222529261612該興趣小組確定的研究方案是:先從這六組數(shù)據(jù)中選取2組,用剩下的4組數(shù)據(jù)求線性回歸方程,再用被選取的2組數(shù)據(jù)進行檢驗.⑴若選取的1月與6月的兩組數(shù)據(jù),請根據(jù)2至5月份的數(shù)據(jù),求出y關于x的線性回歸方程;⑵若由線性回歸方程得到的估計數(shù)據(jù)與所選出的檢驗數(shù)據(jù)的誤差均不超過2人,則認為得到的線性回歸方程是理想
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工廠車間安全培訓考試試題帶答案(基礎題)
- 2025管理人員安全培訓考試試題含答案(研優(yōu)卷)
- 25年公司管理人員安全培訓考試試題能力提升
- 2025年個體土地承包經(jīng)營合同范本
- 2025辦公設備租賃合同范本 辦公設備租賃合同模板
- 2025試論《中華人民共和國國際貨物銷售合同公約》中的價格條款
- 2025建筑改建合同樣本
- 2025無需抵押個人借款合同范本【標準】
- 2025年度物料供應合同
- 2025林地樹木栽培與銷售承包合同
- (2024年)面神經(jīng)炎課件完整版
- 減鹽減油健康教育教案反思
- 特斯拉國產(chǎn)供應鏈研究報告
- 如何進行醫(yī)療垃圾的安全運輸
- 公共停車場建設項目可行性研究報告
- 保安服務標準及工作流程
- 2024年中考數(shù)學幾何模型歸納(全國通用):18 全等與相似模型之十字模型(學生版)
- 外科疾病分級目錄
- 國家級教學成果的培育提煉與申報
- 海南師范大學《高等數(shù)學》2020-2021期末試卷B
- 2023年09月黑龍江省大興安嶺地區(qū)“黑龍江人才周”校園引才活動引進90名人員筆試歷年難易錯點考題薈萃附帶答案詳解
評論
0/150
提交評論