120《統(tǒng)計初步(含抽樣和回歸直線方程)》基礎知識_第1頁
120《統(tǒng)計初步(含抽樣和回歸直線方程)》基礎知識_第2頁
120《統(tǒng)計初步(含抽樣和回歸直線方程)》基礎知識_第3頁
120《統(tǒng)計初步(含抽樣和回歸直線方程)》基礎知識_第4頁
120《統(tǒng)計初步(含抽樣和回歸直線方程)》基礎知識_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基礎綜合能力創(chuàng)新統(tǒng)計知識點一.抽樣方法:簡單隨機抽樣:也叫純隨機抽樣,從總體中不加任何分組、劃類、排隊等,完全隨機地抽取調查單位。1.定義:從元素個數(shù)為的總體中不放回地抽取容量為的樣本,如果每一次抽取時,總體中的每一個個體被抽到的可能性相等,那么這種抽樣方法叫做簡單隨機抽樣,這樣抽取的樣本叫做簡單隨機樣本。1)特點是:每個樣本單位被抽中的可能性相同(概率相等),樣本的每個單位完全獨立,彼此間無一定的關聯(lián)性和排斥性。簡單隨機抽樣是其它各種抽樣形式的基礎。通常只是在總體單位之間差異程度較小和數(shù)目較少時,才采用這種方法。2.簡單隨機抽樣常用的方法:抽簽法;隨機數(shù)表法;計算機模擬法;使用統(tǒng)計軟件直接抽

2、取。(后兩者用得較少)3.抽簽法及其操作步驟:1)制簽:先將總體中的所有個體編號(號碼可以從1到N),并把號碼寫在形狀、大小相同的號簽上,號簽可以用小球、卡片、紙條等制作,然后將這些號簽放在同一個箱子里,進行均勻攪拌;2)抽簽:抽簽時,每次從中抽出1個號簽,連續(xù)抽取次;3)成樣:對應號簽就得到一個容量為的樣本。抽簽法簡便易行,當總體的個體數(shù)不多時,適宜采用這種方法。例:請調查你所在的學校的學生做喜歡的體育活動情況。4.隨機數(shù)表法及其步驟:1)編號:對總體進行編號,保證位數(shù)一致;2)數(shù)數(shù):當隨機地選定開始讀數(shù)的數(shù)后,讀數(shù)的方向可以向右,也可以向左、向上、向下等等。在讀數(shù)過程中,得到一串數(shù)字號碼,

3、在去掉其中不合要求和與前面重復的號碼后,其中依次出現(xiàn)的號碼可以看成是依次從總體中抽取的各個個體的號碼。3)成樣:對應號簽就得到一個容量為的樣本。5.結論:用簡單隨機抽樣,從含有N個個體的總體中抽取一個容量為的樣本時,每次抽取一個個體時任一個體被抽到的概率為1/N;在整個抽樣過程中各個個體被抽到的概率為n/N;基于此,簡單隨機抽樣體現(xiàn)了抽樣的客觀性與公平性;簡單隨機抽樣的特點:它是不放回抽樣;它是逐個地進行抽取;它是一種等概率抽樣。6.簡單隨機抽樣的特點:1)被抽取樣本的總體中的個體數(shù)目是有限的2)從總體中逐個地抽取,使抽樣便于在實踐中操作3)它是不放回抽樣,這使其具有廣泛的應用性4)每一次抽樣

4、,每個個體被抽到的可能性相等,保證了抽樣方法的公平性。例:利用隨機數(shù)表在所在的班級中抽取10位同學參加某項活動。系統(tǒng)抽樣1.系統(tǒng)抽樣的定義(等距抽樣或機械抽樣): 當總體中的個數(shù)較多時,可將總體分成均衡的幾個部分,然后按照預先定出的規(guī)則,從每一部分抽取個個體,得到所需要的樣本,這種抽樣叫做系統(tǒng)抽樣(也稱為機械抽樣)。由于系統(tǒng)抽樣的間隔相等,因此系統(tǒng)抽樣也被稱作“等距抽樣”。從每一部分抽取個個體時,采取的是簡單隨機抽樣。2.系統(tǒng)抽樣的步驟可概括為:將總體中的個體編號。采用隨機的方式將總體中的個體編號;將整個的編號進行分段。為將整個的編號進行分段,要確定分段的間隔.當N/n是整數(shù)時,k=n/N;當

5、N/n不是整數(shù)時,通過從總體中剔除一些個體使剩下的個體數(shù)N能被整除,這時k=N/n;確定起始的個體編號。在第1段用簡單隨機抽樣確定起始的個體邊號;抽取樣本。按照先確定的規(guī)則(常將加上間隔)抽取樣本:。這樣繼續(xù)下去,直到獲取整個樣本。注意:K(抽樣距離)=N(總體規(guī)模)/n(樣本規(guī)模)分層抽樣1.分層抽樣的定義(也叫按比例抽樣):當已知總體由差異明顯的幾部分組成時,為使得抽取的樣本更好地反映總體的情況,常將總體中各個個體按照某種特征分成互不重疊的幾部分,然后按照各部分在總體中所占的比進行簡單隨機抽樣,這種抽樣方法叫做分層抽樣,其中所分成的各部分叫做層。2.分層抽樣的操作步驟:1)先確定樣本容量與

6、總體個數(shù)之間的比例2)再計算出各層需要抽取的個體數(shù)3)然后采用簡單隨機抽樣或系統(tǒng)抽樣的方法從每一層抽取相應數(shù)目的個體4)最后將各層所抽取的個體合在一起,就是所要抽取的樣本。3.結論:(1)分層抽樣是等概率抽樣,它也是公平的。用分層抽樣從個體數(shù)為N的總體中抽取一個容量為的樣本時,在整個抽樣過程中每個個體被抽到的概率相等,都等于n/N;(2)分層抽樣是建立在簡單隨機抽樣或系統(tǒng)抽樣的基礎上的,由于它充分利用了已知信息,因此利用它獲取的樣本更具有代表性,在實踐的應用更為廣泛。4.說明: 1)先將總體中的所有單位按照某種特征或標志(性別、年齡等)劃分成若干類型或層次,然后再在各個類型或層次中采用簡單隨機

7、抽樣或系用抽樣的辦法抽取一個子樣本,最后,將這些子樣本合起來構成總體的樣本。兩種方法:先以分層變量將總體劃分為若干層,再按照各層在總體中的比例從各層中抽取。先以分層變量將總體劃分為若干層,再將各層中的元素按分層的順序整齊排列,最后用系統(tǒng)抽樣的方法抽取樣本。2)分層抽樣是把異質性較強的總體分成一個個同質性較強的子總體,再抽取不同的子總體中的樣本分別代表該子總體,所有的樣本進而代表總體。分層標準:(1)以調查所要分析和研究的主要變量或相關的變量作為分層的標準。(2)以保證各層內部同質性強、各層之間異質性強、突出總體內在結構的變量作為分層變量。(3)以那些有明顯分層區(qū)分的變量作為分層變量。3)分層的

8、比例問題:(1)按比例分層抽樣:根據(jù)各種類型或層次中的單位數(shù)目占總體單位數(shù)目的比重來抽取子樣本的方法。(2)不按比例分層抽樣:有的層次在總體中的比重太小,其樣本量就會非常少,此時采用該方法,主要是便于對不同層次的子總體進行專門研究或進行相互比較。如果要用樣本資料推斷總體時,則需要先對各層的數(shù)據(jù)資料進行加權處理,調整樣本中各層的比例,使數(shù)據(jù)恢復到總體中各層實際的比例結構。二.用樣本估計總體:用樣本的頻率分布估計總體的分布:1.頻率分布的概念:頻率分布是指一個樣本數(shù)據(jù)在各個小范圍內所占比例的大小。常采用頻率分布表或頻率分布直方圖。1)一般用頻率分布直方圖反映樣本的頻率分布。其一般步驟為:求極差。即

9、計算一組數(shù)據(jù)中最大值與最小值的差。決定組距與組數(shù)決定分點位置,將數(shù)據(jù)分組列頻率分布表繪制頻率分布直方圖2)頻率分布直方圖的特征:從頻率分布直方圖可以清楚的看出數(shù)據(jù)分布的總體趨勢。從頻率分布直方圖得不出原始數(shù)據(jù)內容,把數(shù)據(jù)表示成直方圖后,原有的具體數(shù)據(jù)信息就被抹掉了。2.頻率分布折線圖、總體密度曲線1)頻率分布折線圖的定義:連接頻率分布直方圖中各小長方形上端的中點,就得到頻率分布折線圖。2)總體密度曲線的定義:在樣本頻率分布直方圖中,相應的頻率折線圖會越來越接近于一條光滑曲線,統(tǒng)計中稱這條光滑曲線為總體密度曲線。它反映了總體的分布,即反映了總體在各個范圍內取值的百分比,它能給我們提供更加精細的信

10、息。根據(jù)這條曲線,可求出總體在區(qū)間(a,b)內取值的概率(即取值的百分比)等于該區(qū)間上總體密度曲線與x軸、直線x=a、x=b所圍成曲邊梯形的面積??傮w分布密度密度曲線函數(shù)y=f(x)的兩條基本性質:f(x) 0(xR);由曲線y=f(x)與x軸圍成面積為1。3.莖葉圖:又稱“枝葉圖”,與頻率分布直方圖一樣,都是用來表示樣本數(shù)據(jù)的一種統(tǒng)計圖。通常我們將數(shù)的大小基本不變或者變化不大的位作為“莖”,將變化大的位作為“葉”。1)莖葉圖的書寫規(guī)則:書寫規(guī)則是:“莖”一般要求按照從小到大的順序從上到下列出。公用“莖”的“葉”一般也按照從小到大的順序同行列出,注意重復的項也必須寫上。2)特點:圖形形狀的特點

11、:(1)若圖形扁而寬,則說明整體的樣本數(shù)據(jù)集中,樣本數(shù)據(jù)的差異性不大。(2)若圖形長而窄,則說明樣本數(shù)據(jù)比較分散,標準差較大,距組較大。3)優(yōu)缺點:優(yōu)點:同頻率分布直方圖比較,莖葉圖中所有的原始數(shù)據(jù)都可以得到,莖葉統(tǒng)計圖上沒有原始信息的損失;可隨時記錄,方便記錄與表示。并且在以后新增加數(shù)據(jù)的時候容易修改,但直方圖這樣操作起來就很困難了。缺點,就是當樣本數(shù)據(jù)比較多的時候,很難進行此操作。如果我們將莖葉圖的莖和葉按逆時針方向旋轉90度,得到的是一個沒有坐標的直方圖。通過此操作,很容易求出各個數(shù)據(jù)段的頻率分布或頻率百分比。用樣本的數(shù)字特征估計總體的數(shù)字特征:1.用樣本平均數(shù)估計總體平均數(shù)1)樣本平均

12、數(shù)描述了樣本數(shù)據(jù)的平均水平,定量地反映了數(shù)據(jù)集中趨勢所處的水平。2)用樣本平均數(shù)估計總體平均數(shù)時,樣本平均數(shù)只是總體平均數(shù)的近似值。3)平均數(shù)的計算公式:取值為的頻率分別為時,則其平均數(shù)為.注意:頻率分布表計算平均數(shù)要取組中值。2.用樣本標準差估計總體標準差1)樣本方差反映了一組數(shù)據(jù)圍繞平均數(shù)的波動程度,即數(shù)據(jù)集中和發(fā)散程度。2)為得到以樣本數(shù)據(jù)為單位表示的波動幅度,常取方差的算術平方根,即樣本標準差。注意:方差、標準差計算公式及作用意義:(1)方差的計算公式:若一組樣本數(shù)據(jù)為,則方差為化簡為: (2)標準差的計算公式:(3)方差和標準差的意義:用于考察樣本數(shù)據(jù)的分散程度的大小,標準差越大,數(shù)

13、據(jù)的離散程度越大;標準差越小,數(shù)據(jù)的離散程度越小注:方差與標準差越小,說明樣本數(shù)據(jù)越穩(wěn)定。平均數(shù)反映數(shù)據(jù)總體水平;方差與標準差反映數(shù)據(jù)的穩(wěn)定水平。說明:(1)如果把一組數(shù)據(jù)中的每一個數(shù)據(jù)都加上或減去同一個共同的常數(shù),新方差和新標準差保持不變;新的平均數(shù)等于原平均數(shù)減去這個同一個共同的常數(shù)(2)如果把一組數(shù)據(jù)中的每一個數(shù)據(jù)乘以一個共同的常數(shù)k,標準差變?yōu)樵瓉淼膋倍;方差變?yōu)樵瓉矸讲畹谋?新的平均數(shù)等于原平均數(shù)的k倍;(3)一組數(shù)據(jù)中的最大值和最小值對標準差的影響,區(qū)間的應用;說明了“去掉一個最高分,去掉一個最低分”中的科學道理。3.樣本的一些特征數(shù):1)眾數(shù):在一組數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù)叫做

14、這組數(shù)據(jù)的眾數(shù)。 2)中位數(shù):將一組數(shù)據(jù)按大小依次排列,處在最中間位置的一個數(shù)據(jù)(或最中間兩個數(shù)據(jù)的平均數(shù))叫做這組數(shù)據(jù)的中位數(shù)。4.從頻率分布直方圖中估計眾數(shù)、中位數(shù)、平均數(shù):1)眾數(shù)在樣本數(shù)據(jù)的頻率分布直方圖中,就是最高矩形的中點的橫坐標。2)在樣本中,有50的個體小于或等于中位數(shù),也有50的個體大于或等于中位數(shù),因此,在頻率分布直方圖中,中位數(shù)左邊和右邊的直方圖的面積應該相等,由此可以估計中位數(shù)的值。3)平均數(shù)是頻率分布直方圖的“重心”,等于頻率分布直方圖中每個小矩形的面積乘以小矩形底邊中點的橫坐標之和。4)三種數(shù)字特征的優(yōu)缺點:(1)眾數(shù)體現(xiàn)了樣本數(shù)據(jù)的最大集中點,但它對其它數(shù)據(jù)信息的

15、忽視使得無法客觀地反映總體特征。(2)中位數(shù)是樣本數(shù)據(jù)所占頻率的等分線,它不受少數(shù)幾個極端值的影響。(3)平均數(shù)可以反映出更多的關于樣本數(shù)據(jù)全體的信息,但平均數(shù)受數(shù)據(jù)中的極端值的影響較大。 三.變量的相關關系:變量與變量之間的關系常見的有兩類:1)確定性關系即函數(shù)關系;2)相關關系函數(shù)關系:它是一種確定性關系,如一次函數(shù)關系,二次函數(shù)關系相關關系:兩個變量之間確實存在關系,但不不具備像函數(shù)關系那樣的確定性。他們之間的關系帶有隨機性。自變量取值一定時,因變量的取值帶有一定的隨機性,則兩個變量之間的關系叫做相關關系.如每天的最低氣溫與緯度之間的關系,產(chǎn)量與成本的關系等.注意:函數(shù)關系是一種非常確定

16、的關系,而相關關系是一種非確定性關系,即相關關系是非隨機變量與隨機變量之間的關系.而函數(shù)關系可以看成是兩個非隨機變量之間的關系.因此,不能把相關關系等同于函數(shù)關系,(1)函數(shù)關系是一種因果關系,而相關關系不一定是因果關系,也可能是伴隨關系.例如,有人發(fā)現(xiàn),對于在校兒童,鞋的大小與閱讀能力有很強的相關關系.然而,學會新詞并不能使腳變大,而是涉及到第三個因素年齡.當兒童長大一些,他們的閱讀能力會提高而且由于長大腳也變大.(2)在現(xiàn)實生活中存在著大量的相關關系,如何判斷和描述相關關系,統(tǒng)計學發(fā)揮著非常重要的作用.變量之間的相關關系帶有不確定性,這需要通過收集大量的數(shù)據(jù),對數(shù)據(jù)進行統(tǒng)計分析,發(fā)現(xiàn)規(guī)律,

17、才能作出科學的判斷.散點圖:將兩個變量的統(tǒng)計數(shù)據(jù)分別作為橫坐標和縱坐標,在直角坐標系中描點,這樣的圖叫做散點圖。通過散點圖可初步判斷兩個變量之間是否具有相關關系。散點圖反映了各數(shù)據(jù)間的密切程度。四.兩個變量的線性相關1.“兩個變量的線性關系”的定義:通過觀察散點圖,一般地,若圖中的數(shù)據(jù)大致分布在一條直線的附近,那么這兩個變量的關系近似地看成線性相關關系。2.兩個變量的線性相關性最終用“回歸直線方程”來表示:求回歸直線方程的思想方法1)通過觀察散點圖,發(fā)現(xiàn)圖中的數(shù)據(jù)大致分布在一條直線的附近,那么這兩個變量的關系近似地看成線性相關關系。畫出的直線不止一條,當個偏差的平方和最小時,最能代表變量與之間關系的直線特征,將此時的直線方程叫做散點圖對應的回歸直線方程。設所求的回歸直線方程為其中是待定系數(shù),則有的書上將叫做的預報值。顯然,偏差的符號有正有負,若將它們直接相見,容易造成相互抵消,故采用當個偏差的平方和最小時的那條直線。2)回歸直線系數(shù):3.最小二乘法:回歸直線的定義:就是使偏差的平方和最小的那條直線。這種使“離差的平方和為最小”的方法叫做最小二乘法,要掌握用最小二乘法求回歸直線系數(shù)的公式:采用最小二乘法可求出使偏差平方和最小時的系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論