抽樣的思想課件_第1頁
抽樣的思想課件_第2頁
抽樣的思想課件_第3頁
抽樣的思想課件_第4頁
抽樣的思想課件_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第八講

抽樣的思想第八講

抽樣的思想1普查與抽樣調(diào)查統(tǒng)計思想:從總體中抽取一部分個體組成樣本,先研究樣本的情況,再由此推斷總體的情況一個抽樣調(diào)查抽樣方案非常關鍵,如“你是否經(jīng)常吸煙?”兩種誤差抽樣誤差(代表性誤差):非抽樣方案不好引起,是固有的隨機性的反映,但應通過抽樣設計,通過計算并采用一系列科學的方法,把代表性誤差控制在允許的范圍之內(nèi)測量誤差(工作誤差):如問卷等測量工具的設計缺陷、登記差錯等,應加強責任心。由于抽樣調(diào)查單位少,工作誤差有可能比普查要小,特別是在總體包括的調(diào)查單位較多的情況下。普查與抽樣調(diào)查統(tǒng)計思想:從總體中抽取一部分個體組成樣本,先研2獲得對敏感性問題的誠實回答一個裝有50個白球50個紅球的袋子,每個被調(diào)查者隨機從袋中摸出一個球(放回),是白球回答問題1:你的父親陽歷生日日期是不是奇數(shù)?是紅球回答問題2:你是否經(jīng)常吸煙?回答“是”的人往一個盒子中放一個籌碼,回答“否”的人什么都不要做200個被調(diào)查者,最后盒子中有58個籌碼,能估計吸煙人數(shù)的百分比嗎?365天中186天為陽歷日期是奇數(shù),在回答第1題的100人中大約有51人回答“是”,推出回答第2個問題的100人中大約有7人回答“是”,所以估計百分比是7%·獲得對敏感性問題的誠實回答一個裝有50個白球50個紅球的袋子3抽樣方法及其適用性有意抽樣(目的抽樣)以調(diào)查者的主觀判斷為依據(jù)來抽取樣本。易操作但主觀隨意性大、難以估計和控制抽樣誤差典型抽樣隨意調(diào)查定額抽樣便利抽樣隨機抽樣以隨機原則為依據(jù)來抽取樣本。每個對象都有平等的機會被選到簡單的隨機抽樣系統(tǒng)抽樣(先隨機地選取第一個對象,然后每隔一定數(shù)目選取一個對象)分層抽樣(按對象的特征,將總體劃分為幾個不同層次,再在每個層次中參考各層次對象在總體中所占的比例,作簡單的隨機抽樣或系統(tǒng)抽樣)

整群抽樣選用哪一種方法應視具體情況而定,也可以采用幾種方法抽樣方法及其適用性有意抽樣(目的抽樣)以調(diào)查者的主觀判斷為依4高中必修3中的統(tǒng)計要求隨機抽樣簡單隨機抽樣(抽簽法、隨機數(shù)法)學會有無放回;形式不同,隨機程度略有不同;從0開始編號的優(yōu)點;不適用于總體中個體未確定和總體本身變異大的情形系統(tǒng)抽樣了解

適用于大樣本,不適用于周期、循環(huán)排列分層抽樣了解

適用于層內(nèi)同質(zhì)性好,層間差異顯著中外研究表明,在簡單隨機抽樣與分層抽樣之間,學生可能更喜歡分層抽樣方法(每一層都有個體被抽到,含有個體多的層其個體在樣本中所占的比例也大,關于各層可獲得結論)高中必修3中的統(tǒng)計要求隨機抽樣5有無放回的影響假設甲袋中裝著12個彩球,10個是紅色的2個是藍色的,乙袋中裝著12000個彩球,10000個是紅色的2000個是藍色的。在下面兩種情況下,請針對甲袋和乙袋分別回答下述問題:取出的前8個球都是紅球,問第9個球還是紅球的概率是多少?每次取一個球,取出后不放回每次取一個球,取出后放回P甲=0.5,P乙=0.833P甲=0.833,P乙=0.833有無放回的影響假設甲袋中裝著12個彩球,10個是紅色的2個是6通過樣本能了解總體嗎?通過樣本能了解總體嗎?7樣本大小不同的幾次抽樣樣本大小不同的幾次抽樣8樣本大小為500的三次抽樣樣本大小為500的三次抽樣9通過樣本能了解總體嗎?小王家中有4口人,體重分別是20公斤、50公斤、60公斤和70公斤.可以計算得到4個人的平均體重為50公斤.若只能抽樣調(diào)查2個人次,則樣本均值與總體均值相差不超過10公斤的概率大嗎?通過樣本能了解總體嗎?小王家中有4口人,體重分別是20公斤、10大多數(shù)的時候像16種可能結果,有10種誤差不超過10公斤,有14種誤差不超過15公斤大多數(shù)的時候像16種可能結果,有10種誤差不超過10公斤,有11對樣本概念的分析“樣本,也稱子樣,是指從被抽樣總體中抽取并要對其進行調(diào)查或觀察的部分單位所組成的集合體?!薄皬乃芯繉ο蟮娜w(即總體)中抽出的部分個體叫做總體的一個樣本?!?/p>

這兩種定義指出樣本的基本含義是“樣本是總體中的一部分,它與總體的關系是部分和整體的關系”僅僅停留在從屬關系上統(tǒng)計的基本思想是通過調(diào)查或觀察樣本來了解或推斷總體的數(shù)量特征。因此,樣本概念有兩層含義,一是樣本與總體的部分與整體的關系,二是樣本對了解總體的意義。兩層中的第一層是基本的。對樣本概念的分析“樣本,也稱子樣,是指從被抽樣總體中抽取并要12池塘里有多少魚?捉--放--捉的方法:捉來c條魚,作標記,放回,充分混合后,再捉r條,其中t條已作標記,記池塘里有魚N條,則有2種理解途徑:替換原理,樣本有很好的代表性,用樣本中的比例估計總體中的比例最大似然估計,寫出該觀察值出現(xiàn)的概率,捉r條恰有t條已作標記,它是N的函數(shù),找出N的估計值,使得概率 達到最大。最大值時N的取值為了避免出現(xiàn)除數(shù)為0的情況,改用池塘里有多少魚?捉--放--捉的方法:13高中統(tǒng)計選修內(nèi)容回歸(不限于線性)獨立性檢驗假設檢驗聚類分析參數(shù)估計點估計區(qū)間估計高中統(tǒng)計選修內(nèi)容回歸(不限于線性)14變量間的相關關系相互依存關系可分為兩種類型。一類是函數(shù)關系(確定性的依存關系)。另一類為相關關系,對于變量的某個數(shù)值,可以有另一變量的若干數(shù)值與之相對應,這若干個數(shù)值圍繞著它們的平均數(shù)呈現(xiàn)出有規(guī)律的波動(同時受其他隨機因素影響)確定現(xiàn)象之間有無相關關系以及相關關系的類型(可用散點圖,如果每個點已經(jīng)集中了一群個體的信息,那么相關關系會顯現(xiàn)得更加明顯)判定現(xiàn)象之間相關關系的密切程度,通常是計算相關系數(shù)r,若其絕對值在0.75以上表明高度相關,0.25以下表明相關性較弱擬合回歸方程判斷回歸分析的可靠性,對回歸方程進行檢驗根據(jù)回歸方程進行預測和控制變量間的相關關系相互依存關系可分為兩種類型。一類是函數(shù)關系(15售出熱茶的杯數(shù)與氣溫之間的關系2620182413341038450-164r=-0.96962相互依存關系畫圖→判斷相互關系類型→回歸方程→預測售出熱茶的杯數(shù)與氣溫之間的關系26201824133410316最小二乘法意義?回歸直線一定經(jīng)過散點圖的中心最小二乘法意義?回歸直線一定經(jīng)過散點圖的中心17選修課中講回歸(線性/非線性)Y=ax+b+e隨機誤差最小二乘估計殘差相關指數(shù)(刻畫回歸效果)若有幾個回歸方案,可以選擇相關指數(shù)最大的那個。在殘差圖上檢查數(shù)據(jù)是否有異常,尋找異常的原因選修課中講回歸(線性/非線性)Y=ax+b+e隨機誤差18選修中的統(tǒng)計通過典型案例介紹基本、常用的一些統(tǒng)計思想方法回歸根據(jù)所收集到的數(shù)據(jù)找出回歸方程,預測可化為線性回歸的非線性問題獨立性檢驗假設……無關聯(lián),即獨立的,看是否某個概率很小的事件卻發(fā)生了,從而否定假設假設檢驗假設……,看是否某個概率很小的事件卻發(fā)生了,從而否定假設聚類分析將距離最小的兩個類合并成一個新類,計算新類與其他類的距離,再將距離最近的兩個類合并……選修中的統(tǒng)計通過典型案例介紹基本、常用的一些統(tǒng)計思想方法19國家和人們對他人態(tài)度列聯(lián)表舉例(1)關系強度系數(shù)=0.00越小與國別關系越弱丹麥法國總計對他人的態(tài)度信任419412831懷疑5665571123總計9859691954(2)關系強度系數(shù)=0.43——》2——》p丹麥法國總計對他人的態(tài)度信任625206831懷疑3607631123總計9859691954(3)關系強度系數(shù)=1.00丹麥法國總計對他人的態(tài)度信任9850985懷疑0969969總計9859691954國家和人們對他人態(tài)度列聯(lián)表舉例(1)關系強度系數(shù)=0.020獨立性檢驗的基本思想為調(diào)查吸煙是否對患肺癌有影響,某腫瘤研究所隨機地調(diào)查了9965人,得到如下結果(單位:人):吸煙與患肺癌列聯(lián)表

不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965那么吸煙是否對患肺癌有影響?獨立性檢驗的基本思想為調(diào)查吸煙是否對患肺癌有影響,某腫瘤研究21先假設H0:吸煙與患肺癌沒有關系56.632先假設H0:吸煙與患肺癌沒有關系56.63222為什么構造這樣復雜而意義并不顯然的隨機變量K2?既然吸煙與患肺癌沒有關系,我們可以期望,不吸煙組中不患肺癌的百分比和吸煙組中不患肺癌的百分比相同,吸煙組中患肺癌的百分比和不吸煙組中患肺癌的百分比相同,再看預期的數(shù)據(jù)與我們觀察到的數(shù)據(jù)之間的差距如何我們有99%的把握認為H0不成立,即有99%的把握認為“吸煙與患肺癌有關系”。為什么構造這樣復雜而意義并不顯然的隨機變量K2?我們有99%23一位顧客買了一包標有5公斤裝的面粉,回家稱后發(fā)現(xiàn)份量不足,于是向消費者協(xié)會投訴。在正常情況下,這種面粉重量的分布是正態(tài)分布N(5,0.25).消協(xié)去實地隨機抽檢了這種面粉25包,發(fā)現(xiàn)其平均重量為4.8公斤,的確比標示的份量少。問是否可以說該工廠有不實包裝之嫌?一位顧客買了一包標有5公斤裝的面粉,回家稱后發(fā)現(xiàn)份量不足,于24原假設:這25包面粉重量屬于均值為5.0的這個總體,即.相對的備擇假設:這25包面粉重量屬于均值小于5.0的總體如果在N(5,0.25)下發(fā)生“25包的平均重量為4.8公斤”的概率并不小,那么我們不能拒絕原假設,應將這次的份量不足歸為完全是由隨機性造成的。那么這件事在N(5,0.25)下發(fā)生的概率是多少呢?我們可以計算一下下面這個檢驗統(tǒng)計量原假設:這25包面粉重量屬于均值為5.0的這個總體,即25所求概率為0.0228。p-值越小,數(shù)據(jù)所提供拒絕H0的證據(jù)就越強?,F(xiàn)在該值小于0.05,所以可以拒絕原假設,認為該工廠有不實包裝之嫌,錯誤拒絕的概率是0.023。在H0為真的假設下,“25包的平均重量不超過4.8公斤”的概率所求概率為0.0228。p-值越小,數(shù)據(jù)所提供拒絕H0的證據(jù)26反復抽樣法反復抽樣法27聚類分析—利用數(shù)學進行分類聚類思想:將每個事物看作數(shù)學空間中的一個點,規(guī)定兩點間的距離,分類時把距離近的點歸成一類。對某地21個古墓挖掘后,記錄每個古墓陪葬的瓷器用具數(shù)(x1)和陶俑數(shù)(x2),要求按這兩個指標對古墓進行分類。聚類分析—利用數(shù)學進行分類聚類思想:將每個事物看作數(shù)學空間中28墓號1234567891011x1557799101111128x211101089867659墓號1213141516171819202127757643420墓號1234567891011x1557799101111129每個古墓陪葬的瓷器用具數(shù)(x1)和陶俑數(shù)(x2)每個古墓陪葬的瓷器用具數(shù)(x1)和陶俑數(shù)(x2)30聚類過程以通常平面上點的距離為衡量距離的標準,兩個類中,點的最短距離作為兩個類的類間距離聚類過程以通常平面上點的距離為衡量距離的標準,兩個類中,點的31點估計的基本評價標準相合性:估計量隨著樣本量的不斷增大而逼近參數(shù)真值樣本均值是總體均值的相合估計樣本標準差是總體標準差的相合估計無偏性:把偏差平均起來其值為0樣本均值是總體均值的無偏估計樣本方差s2n-1是總體方差的無偏估計,樣本方差s2只是總體方差的漸近無偏估計,所以當n較小時要使用s2n-1但是,“有偏估計一定是不好的估計”不真點估計的基本評價標準相合性:估計量隨著樣本量的不斷增大而逼近32兩種好的點估計(平均數(shù)、比率)如果從一個平均數(shù)為μ,方差為σ2的總體中抽取一個容量為n的樣本(X1,X2,。。。,Xn),那么當n足夠大時,樣本平均數(shù)近似服從正態(tài)分布N(μ,σ2/n)。如果從總體中抽取一個容量為n的樣本,那么樣本中某些特殊個體所占的比率當n足夠大時,近似服從正態(tài)分布N(p,p(1-p)/n),其中p是總體中該種特殊個體的比率。隨著n的增大,σ2/n和p(1-p)/n都越來越小,樣本平均數(shù)和樣本中該種特殊個體的比率越來越往總體平均數(shù)μ和總體中該種特殊個體的比率p集中,估計值的誤差也越來越小,所以,這兩種用樣本平均數(shù)作為總體平均數(shù)的估計值、用樣本中該種特殊個體的比率作為總體中該種特殊個體比率的估計值都是好的點估計。兩種好的點估計(平均數(shù)、比率)如果從一個平均數(shù)為μ,方差為σ33區(qū)間估計區(qū)間估計給出的估計是一個區(qū)間范圍,一般應根據(jù)擬定的某一置信度,通過查表計算,得出來自該樣本的置信區(qū)間的兩個端點值,使待估計的參數(shù)落在置信區(qū)間內(nèi)的概率為置信概率(置信度)。置信度是在來自不同樣本的多個置信區(qū)間當中包含未知的總體參數(shù)的區(qū)間所占的百分比。置信度為95%的意思是多次(如100次)抽樣中有95%的置信區(qū)間包含未知的總體參數(shù)值而另外的5%則不包含真值。區(qū)間估計區(qū)間估計給出的估計是一個區(qū)間范圍,一般應根據(jù)擬定的某34抽樣的思想課件35某廠產(chǎn)品的壽命服從正態(tài)分布N(μ,σ2),現(xiàn)擬從該廠生產(chǎn)的大量產(chǎn)品中隨機地抽取n個產(chǎn)品來估計產(chǎn)品壽命總體平均值μ,若擬定的置信度為95%,求置信區(qū)間。因為X~N(μ,σ2)的話,其樣本平均數(shù)就服從N(μ,σ2/n),若算得這批樣本的平均壽命,方差σ2,則服從N(0,1)因為p(-1.961.96)=0.95,所以置信區(qū)間為[-1.96,+1.96]如何使置信區(qū)間短一些?兩條途徑(增加樣本容量,降低置信度),但是,一般不愿意降低置信度某廠產(chǎn)品的壽命服從正態(tài)分布N(μ,σ2),現(xiàn)擬從該廠生產(chǎn)的36一枚硬幣扔10次,結果全是反面,它是一個普通的硬幣嗎?一位體育老師想通過測定8年級女同學仰臥起坐的次數(shù)來了解她們的體質(zhì)。憑經(jīng)驗,8年級女同學的這項運動平均數(shù)是30.3個,標準差是3.2個。他隨機地在學校里選取了64個8年級的女同學,讓她們參加一個特別的訓練班。訓練班結束時,他測試后發(fā)現(xiàn)她們的平均數(shù)達到了32.17個。你認為他能夠宣稱這是參加他的訓練班起的作用嗎?作業(yè)一枚硬幣扔10次,結果全是反面,它是一個普通的硬幣嗎?作業(yè)37第八講

抽樣的思想第八講

抽樣的思想38普查與抽樣調(diào)查統(tǒng)計思想:從總體中抽取一部分個體組成樣本,先研究樣本的情況,再由此推斷總體的情況一個抽樣調(diào)查抽樣方案非常關鍵,如“你是否經(jīng)常吸煙?”兩種誤差抽樣誤差(代表性誤差):非抽樣方案不好引起,是固有的隨機性的反映,但應通過抽樣設計,通過計算并采用一系列科學的方法,把代表性誤差控制在允許的范圍之內(nèi)測量誤差(工作誤差):如問卷等測量工具的設計缺陷、登記差錯等,應加強責任心。由于抽樣調(diào)查單位少,工作誤差有可能比普查要小,特別是在總體包括的調(diào)查單位較多的情況下。普查與抽樣調(diào)查統(tǒng)計思想:從總體中抽取一部分個體組成樣本,先研39獲得對敏感性問題的誠實回答一個裝有50個白球50個紅球的袋子,每個被調(diào)查者隨機從袋中摸出一個球(放回),是白球回答問題1:你的父親陽歷生日日期是不是奇數(shù)?是紅球回答問題2:你是否經(jīng)常吸煙?回答“是”的人往一個盒子中放一個籌碼,回答“否”的人什么都不要做200個被調(diào)查者,最后盒子中有58個籌碼,能估計吸煙人數(shù)的百分比嗎?365天中186天為陽歷日期是奇數(shù),在回答第1題的100人中大約有51人回答“是”,推出回答第2個問題的100人中大約有7人回答“是”,所以估計百分比是7%·獲得對敏感性問題的誠實回答一個裝有50個白球50個紅球的袋子40抽樣方法及其適用性有意抽樣(目的抽樣)以調(diào)查者的主觀判斷為依據(jù)來抽取樣本。易操作但主觀隨意性大、難以估計和控制抽樣誤差典型抽樣隨意調(diào)查定額抽樣便利抽樣隨機抽樣以隨機原則為依據(jù)來抽取樣本。每個對象都有平等的機會被選到簡單的隨機抽樣系統(tǒng)抽樣(先隨機地選取第一個對象,然后每隔一定數(shù)目選取一個對象)分層抽樣(按對象的特征,將總體劃分為幾個不同層次,再在每個層次中參考各層次對象在總體中所占的比例,作簡單的隨機抽樣或系統(tǒng)抽樣)

整群抽樣選用哪一種方法應視具體情況而定,也可以采用幾種方法抽樣方法及其適用性有意抽樣(目的抽樣)以調(diào)查者的主觀判斷為依41高中必修3中的統(tǒng)計要求隨機抽樣簡單隨機抽樣(抽簽法、隨機數(shù)法)學會有無放回;形式不同,隨機程度略有不同;從0開始編號的優(yōu)點;不適用于總體中個體未確定和總體本身變異大的情形系統(tǒng)抽樣了解

適用于大樣本,不適用于周期、循環(huán)排列分層抽樣了解

適用于層內(nèi)同質(zhì)性好,層間差異顯著中外研究表明,在簡單隨機抽樣與分層抽樣之間,學生可能更喜歡分層抽樣方法(每一層都有個體被抽到,含有個體多的層其個體在樣本中所占的比例也大,關于各層可獲得結論)高中必修3中的統(tǒng)計要求隨機抽樣42有無放回的影響假設甲袋中裝著12個彩球,10個是紅色的2個是藍色的,乙袋中裝著12000個彩球,10000個是紅色的2000個是藍色的。在下面兩種情況下,請針對甲袋和乙袋分別回答下述問題:取出的前8個球都是紅球,問第9個球還是紅球的概率是多少?每次取一個球,取出后不放回每次取一個球,取出后放回P甲=0.5,P乙=0.833P甲=0.833,P乙=0.833有無放回的影響假設甲袋中裝著12個彩球,10個是紅色的2個是43通過樣本能了解總體嗎?通過樣本能了解總體嗎?44樣本大小不同的幾次抽樣樣本大小不同的幾次抽樣45樣本大小為500的三次抽樣樣本大小為500的三次抽樣46通過樣本能了解總體嗎?小王家中有4口人,體重分別是20公斤、50公斤、60公斤和70公斤.可以計算得到4個人的平均體重為50公斤.若只能抽樣調(diào)查2個人次,則樣本均值與總體均值相差不超過10公斤的概率大嗎?通過樣本能了解總體嗎?小王家中有4口人,體重分別是20公斤、47大多數(shù)的時候像16種可能結果,有10種誤差不超過10公斤,有14種誤差不超過15公斤大多數(shù)的時候像16種可能結果,有10種誤差不超過10公斤,有48對樣本概念的分析“樣本,也稱子樣,是指從被抽樣總體中抽取并要對其進行調(diào)查或觀察的部分單位所組成的集合體?!薄皬乃芯繉ο蟮娜w(即總體)中抽出的部分個體叫做總體的一個樣本。”

這兩種定義指出樣本的基本含義是“樣本是總體中的一部分,它與總體的關系是部分和整體的關系”僅僅停留在從屬關系上統(tǒng)計的基本思想是通過調(diào)查或觀察樣本來了解或推斷總體的數(shù)量特征。因此,樣本概念有兩層含義,一是樣本與總體的部分與整體的關系,二是樣本對了解總體的意義。兩層中的第一層是基本的。對樣本概念的分析“樣本,也稱子樣,是指從被抽樣總體中抽取并要49池塘里有多少魚?捉--放--捉的方法:捉來c條魚,作標記,放回,充分混合后,再捉r條,其中t條已作標記,記池塘里有魚N條,則有2種理解途徑:替換原理,樣本有很好的代表性,用樣本中的比例估計總體中的比例最大似然估計,寫出該觀察值出現(xiàn)的概率,捉r條恰有t條已作標記,它是N的函數(shù),找出N的估計值,使得概率 達到最大。最大值時N的取值為了避免出現(xiàn)除數(shù)為0的情況,改用池塘里有多少魚?捉--放--捉的方法:50高中統(tǒng)計選修內(nèi)容回歸(不限于線性)獨立性檢驗假設檢驗聚類分析參數(shù)估計點估計區(qū)間估計高中統(tǒng)計選修內(nèi)容回歸(不限于線性)51變量間的相關關系相互依存關系可分為兩種類型。一類是函數(shù)關系(確定性的依存關系)。另一類為相關關系,對于變量的某個數(shù)值,可以有另一變量的若干數(shù)值與之相對應,這若干個數(shù)值圍繞著它們的平均數(shù)呈現(xiàn)出有規(guī)律的波動(同時受其他隨機因素影響)確定現(xiàn)象之間有無相關關系以及相關關系的類型(可用散點圖,如果每個點已經(jīng)集中了一群個體的信息,那么相關關系會顯現(xiàn)得更加明顯)判定現(xiàn)象之間相關關系的密切程度,通常是計算相關系數(shù)r,若其絕對值在0.75以上表明高度相關,0.25以下表明相關性較弱擬合回歸方程判斷回歸分析的可靠性,對回歸方程進行檢驗根據(jù)回歸方程進行預測和控制變量間的相關關系相互依存關系可分為兩種類型。一類是函數(shù)關系(52售出熱茶的杯數(shù)與氣溫之間的關系2620182413341038450-164r=-0.96962相互依存關系畫圖→判斷相互關系類型→回歸方程→預測售出熱茶的杯數(shù)與氣溫之間的關系26201824133410353最小二乘法意義?回歸直線一定經(jīng)過散點圖的中心最小二乘法意義?回歸直線一定經(jīng)過散點圖的中心54選修課中講回歸(線性/非線性)Y=ax+b+e隨機誤差最小二乘估計殘差相關指數(shù)(刻畫回歸效果)若有幾個回歸方案,可以選擇相關指數(shù)最大的那個。在殘差圖上檢查數(shù)據(jù)是否有異常,尋找異常的原因選修課中講回歸(線性/非線性)Y=ax+b+e隨機誤差55選修中的統(tǒng)計通過典型案例介紹基本、常用的一些統(tǒng)計思想方法回歸根據(jù)所收集到的數(shù)據(jù)找出回歸方程,預測可化為線性回歸的非線性問題獨立性檢驗假設……無關聯(lián),即獨立的,看是否某個概率很小的事件卻發(fā)生了,從而否定假設假設檢驗假設……,看是否某個概率很小的事件卻發(fā)生了,從而否定假設聚類分析將距離最小的兩個類合并成一個新類,計算新類與其他類的距離,再將距離最近的兩個類合并……選修中的統(tǒng)計通過典型案例介紹基本、常用的一些統(tǒng)計思想方法56國家和人們對他人態(tài)度列聯(lián)表舉例(1)關系強度系數(shù)=0.00越小與國別關系越弱丹麥法國總計對他人的態(tài)度信任419412831懷疑5665571123總計9859691954(2)關系強度系數(shù)=0.43——》2——》p丹麥法國總計對他人的態(tài)度信任625206831懷疑3607631123總計9859691954(3)關系強度系數(shù)=1.00丹麥法國總計對他人的態(tài)度信任9850985懷疑0969969總計9859691954國家和人們對他人態(tài)度列聯(lián)表舉例(1)關系強度系數(shù)=0.057獨立性檢驗的基本思想為調(diào)查吸煙是否對患肺癌有影響,某腫瘤研究所隨機地調(diào)查了9965人,得到如下結果(單位:人):吸煙與患肺癌列聯(lián)表

不患肺癌患肺癌總計不吸煙7775427817吸煙2099492148總計9874919965那么吸煙是否對患肺癌有影響?獨立性檢驗的基本思想為調(diào)查吸煙是否對患肺癌有影響,某腫瘤研究58先假設H0:吸煙與患肺癌沒有關系56.632先假設H0:吸煙與患肺癌沒有關系56.63259為什么構造這樣復雜而意義并不顯然的隨機變量K2?既然吸煙與患肺癌沒有關系,我們可以期望,不吸煙組中不患肺癌的百分比和吸煙組中不患肺癌的百分比相同,吸煙組中患肺癌的百分比和不吸煙組中患肺癌的百分比相同,再看預期的數(shù)據(jù)與我們觀察到的數(shù)據(jù)之間的差距如何我們有99%的把握認為H0不成立,即有99%的把握認為“吸煙與患肺癌有關系”。為什么構造這樣復雜而意義并不顯然的隨機變量K2?我們有99%60一位顧客買了一包標有5公斤裝的面粉,回家稱后發(fā)現(xiàn)份量不足,于是向消費者協(xié)會投訴。在正常情況下,這種面粉重量的分布是正態(tài)分布N(5,0.25).消協(xié)去實地隨機抽檢了這種面粉25包,發(fā)現(xiàn)其平均重量為4.8公斤,的確比標示的份量少。問是否可以說該工廠有不實包裝之嫌?一位顧客買了一包標有5公斤裝的面粉,回家稱后發(fā)現(xiàn)份量不足,于61原假設:這25包面粉重量屬于均值為5.0的這個總體,即.相對的備擇假設:這25包面粉重量屬于均值小于5.0的總體如果在N(5,0.25)下發(fā)生“25包的平均重量為4.8公斤”的概率并不小,那么我們不能拒絕原假設,應將這次的份量不足歸為完全是由隨機性造成的。那么這件事在N(5,0.25)下發(fā)生的概率是多少呢?我們可以計算一下下面這個檢驗統(tǒng)計量原假設:這25包面粉重量屬于均值為5.0的這個總體,即62所求概率為0.0228。p-值越小,數(shù)據(jù)所提供拒絕H0的證據(jù)就越強。現(xiàn)在該值小于0.05,所以可以拒絕原假設,認為該工廠有不實包裝之嫌,錯誤拒絕的概率是0.023。在H0為真的假設下,“25包的平均重量不超過4.8公斤”的概率所求概率為0.0228。p-值越小,數(shù)據(jù)所提供拒絕H0的證據(jù)63反復抽樣法反復抽樣法64聚類分析—利用數(shù)學進行分類聚類思想:將每個事物看作數(shù)學空間中的一個點,規(guī)定兩點間的距離,分類時把距離近的點歸成一類。對某地21個古墓挖掘后,記錄每個古墓陪葬的瓷器用具數(shù)(x1)和陶俑數(shù)(x2),要求按這兩個指標對古墓進行分類。聚類分析—利用數(shù)學進行分類聚類思想:將每個事物看作數(shù)學空間中65墓號1234567891011x1557799101111128x211101089867659墓號1213141516171819202127757643420墓號1234567891011x1557799101111166每個古墓陪葬的瓷器用具數(shù)(x1)和陶俑數(shù)(x2)每個古墓陪葬的瓷器用具數(shù)(x1)和陶俑數(shù)(x2)67聚類過程以通常平面上點的距離為衡量距離的標準,兩個類中,點的最短距離作為兩個類的類間距離聚類過程以通常平面上點的距離為衡量距離的標準,兩個類中,點的68點估計的基本評價標準相合性:估計量隨著樣本量的不斷增大而逼近參數(shù)真值樣本均值是總體均值的相合估計樣本標準差是總體標準差的相合估計無偏性:把偏差平均起來其值為0樣本均值是總體均值的無偏估計樣本方差s2n-1是總體方差的無偏估計,樣本方差s2只是總體方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論