![應(yīng)用統(tǒng)計(jì)學(xué)課件_第1頁](http://file4.renrendoc.com/view3/M02/36/3F/wKhkFmYRR6OAWrs2AABVhGpjaGI540.jpg)
![應(yīng)用統(tǒng)計(jì)學(xué)課件_第2頁](http://file4.renrendoc.com/view3/M02/36/3F/wKhkFmYRR6OAWrs2AABVhGpjaGI5402.jpg)
![應(yīng)用統(tǒng)計(jì)學(xué)課件_第3頁](http://file4.renrendoc.com/view3/M02/36/3F/wKhkFmYRR6OAWrs2AABVhGpjaGI5403.jpg)
![應(yīng)用統(tǒng)計(jì)學(xué)課件_第4頁](http://file4.renrendoc.com/view3/M02/36/3F/wKhkFmYRR6OAWrs2AABVhGpjaGI5404.jpg)
![應(yīng)用統(tǒng)計(jì)學(xué)課件_第5頁](http://file4.renrendoc.com/view3/M02/36/3F/wKhkFmYRR6OAWrs2AABVhGpjaGI5405.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1第二講
概率分布2概率(Probability)概率是事件發(fā)生的可能性的數(shù)值度量。取值在0到1之間古典法,相對(duì)頻數(shù)法,主觀法必然事件不可能事件.5103對(duì)以下情況應(yīng)使用哪種方法找概率?一個(gè)有六個(gè)孩子的家庭有一對(duì)雙胞胎;從一副牌中抽出一張A;明天郊游時(shí)下雨。4樣本空間(SampleSpace)
一個(gè)試驗(yàn)所有可能出現(xiàn)的結(jié)果構(gòu)成樣本空間。
e.g.All6facesofadie:e.g.All52cardsofabridgedeck:
5事件(Event)
若干樣本點(diǎn)的集合。事件的概率等于事件中所有樣本點(diǎn)的概率的和
6隨機(jī)變量(RandomVariable)
一次試驗(yàn)結(jié)果的數(shù)值性描述離散型隨機(jī)變量,連續(xù)型隨機(jī)變量期望,方差7離散型隨機(jī)變量ProbabilityDistributionValues(x)
Probability(f(x)) 0 1/4=.25 1 2/4=.50 2 1/4=.25Toss2Coins.
Count#Tails.TTTT8離散隨機(jī)變量的數(shù)學(xué)期望定義:對(duì)期望的解釋:
1)以概率作為加權(quán)的加權(quán)平均值
2)概率分布的中心
3)長期重復(fù)的平均值
4)一場賭博的公平值
5)得到隨機(jī)變量的總體的平均值
9離散隨機(jī)變量的方差定義:對(duì)方差的解釋
1)與平均值偏差的平方的概率加權(quán)平均值
2)概率分布的散布程度
3)多次重復(fù)結(jié)果的方差
4)賭博的“風(fēng)險(xiǎn)”
5)得到隨機(jī)變量的總體的方差
10例A股票:獲得3%回報(bào)的概率是0.7。獲得–1%回報(bào)的概率是0.3B股票:獲得
6%回報(bào)的概率是0.7。獲得–8%回報(bào)的概率是0.3C股票:獲得45.42%回報(bào)的概率是0.7。獲得–100%回報(bào)的概率是0.3
你選擇哪一個(gè)?
A股票:均值=1.8%,標(biāo)準(zhǔn)差=1.83B股票:均值=1.8%,標(biāo)準(zhǔn)差=6.42C股票:均值=1.8%,標(biāo)準(zhǔn)差=66.64
11方差作為期權(quán)定價(jià)
A股票:今天的價(jià)格是150。假定3個(gè)月后,價(jià)格將變?yōu)椋?/p>
X=
每股收益:
R=X-150
期望收益:
0
方差
標(biāo)準(zhǔn)差
50期權(quán):在特定時(shí)間以特定價(jià)格買賣股票的權(quán)利
一個(gè)‘150看跌期權(quán)’:‘在3個(gè)月后以$150的價(jià)格售出一股股票的權(quán)利’
一個(gè)‘150看漲期權(quán)’:‘在3個(gè)月后以$150的價(jià)格買入一股股票的權(quán)利’
12
你如何賺錢?
==現(xiàn)在以$150的價(jià)格買入一股。買入兩個(gè)看跌期權(quán)(可以以$150的價(jià)格售出)
3個(gè)月后:
如果X=$200.收益=$50(股票收益
$50.期權(quán)作廢)
如果X=$100.收益=$50(股票損失
$50.每一個(gè)期權(quán)盈利$50)
但是,你需要為期權(quán)付費(fèi)(它不是免費(fèi)的!)
期權(quán)的價(jià)值是多少?$2513B股票:今天價(jià)格是$150。3個(gè)月后
如果
X=
期望收益
0
方差
標(biāo)準(zhǔn)差
100
同樣的方案:收益
$100期權(quán)價(jià)格:5014方差作為質(zhì)量的度量
15Bernoulli分布又稱二值分布,X只取0和1兩個(gè)值,而且Pr(x=1)=p,Pr(x=0)=1-p.期望和方差:
E(X)=p;Var(X)=p(1-p).什么樣的問題(數(shù)據(jù))可以使用該模型?16二項(xiàng)分布(Binomial)概率函數(shù)期望方差
17(1)
n次獨(dú)立的試驗(yàn)
(2)
每一個(gè)試驗(yàn)有兩種可能的結(jié)果
{成功,失敗}(3)
所有試驗(yàn)的成功的概率,P(S)=p,都相等
(4)在n次獨(dú)立的試驗(yàn)中成功了的次數(shù)是X
18n=5p=0.1n=5p=0.5MeanStandardDeviation
EXnpnpp
()()10.2.4.6012345XP(X).2.4.6012345XP(X)e.g.
=5(.1)=.5e.g.
=5(.5)(1-.5) =1.118019超幾何分布(Hypergeometric)概率函數(shù):期望和方差:從抽樣方式上看:二項(xiàng)式分布和超幾何分布的區(qū)別。20泊松分布(Poisson)概率函數(shù):期望和方差:21
=0.5
=6)0.2.4.6012345XP(X)0.2.4.60246810XP(X)22連續(xù)隨機(jī)變量
密度:f(x)期望:方差:23均勻分布(Uniform)概率密度函數(shù):期望和方差:24正態(tài)分布(Normal)概率密度函數(shù)標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)25正態(tài)分布的圖形26指數(shù)分布(Exponential)密度函數(shù):期望和方差:
27ExponentialDistributionsf(X)X
=0.5
=2.028隨機(jī)變量的組合
假如和是兩個(gè)隨機(jī)變量。它們的(線性)組合可這樣取得
式中c1和c2
代表確定的數(shù)字。
應(yīng)用:這種組合的典型用途是描述證券投資組合的收益。29例:設(shè)定隨機(jī)變量
=%SafeCo共同基金的收益
=%RiskCo共同基金的收益
假設(shè)N(5,22)而N(8,42)
你更愿意要哪一種基金?
假設(shè)你有一筆固定數(shù)目的錢要投資。
假如你將50%投資在SafeCo,將50%投資在RiskCo,你的收益將會(huì)如何?
假如你將80%投資在SafeCo,將20%投資在RiskCo,你的收益將會(huì)如何?3031平均收益方差50%+50%組合
6.557380%+20%組合
5.63.24.481.9232第三講
抽樣分布和估計(jì)33概率論與統(tǒng)計(jì)學(xué)之間的關(guān)系
一個(gè)概率論的問題:
假定有一個(gè)大盒子中有
10,000個(gè)球,分布如下:70%的黑球和
30%的白球隨機(jī)抽取100個(gè)球,得到60個(gè)黑球和40個(gè)白球的概率是多少?
----給定一個(gè)總體(盒子中的所有小球)的已知特征(70%和30%),研究一個(gè)試驗(yàn)(抽取小球)的可能的結(jié)果
(例如
60-40)。34一個(gè)統(tǒng)計(jì)學(xué)的問題:
假定一個(gè)大盒子中有
10,000個(gè)小球(黑和白)。隨機(jī)抽取100個(gè)小球,發(fā)現(xiàn)其中有60個(gè)黑球和40個(gè)白球。那么黑球在盒子中所占的比例是多少?
----觀察到一個(gè)試驗(yàn)(抽取小球)的結(jié)果
(60-40),推斷出這個(gè)總體(盒子中的所有小球)的特征(比例)
35總體-樣本理論
統(tǒng)計(jì)推斷采用一個(gè)(有代表性的)子總體(樣本)來對(duì)總體的某些特征進(jìn)行科學(xué)的推斷。
36總體
撲克籌碼總體,
中國所有MBA學(xué)生的身高總體,
深圳所有居民的收入總體,
金融資產(chǎn)收益總體
可以認(rèn)為被研究的總體包含了一個(gè)非常大的(或無限的)數(shù)量的元素,這些元素以一定的方式分布。
37樣本
從盒子中隨機(jī)抽取100個(gè)撲克籌碼從中國隨機(jī)抽取的200個(gè)MBA學(xué)生的身高隨機(jī)抽取的1000個(gè)深圳居民的收入觀察到的金融資產(chǎn)的收益
樣本必須是總體的一個(gè)具有真實(shí)代表性的子集。只有依靠這樣的樣本,我們才能得出科學(xué)的(符合統(tǒng)計(jì)學(xué)的)結(jié)論。
38例:EAI的抽樣問題(p.185)人事主管要制定一項(xiàng)公司2500名管理人員的簡報(bào)。內(nèi)容包括平均年薪、已完成培訓(xùn)項(xiàng)目的管理人員所占比例。如果已有全部2500人的信息······如果沒有······39幾個(gè)問題如何抽樣?樣本和總體有什么樣的關(guān)系?如何由樣本估計(jì)出平均年薪及完成培訓(xùn)的比例?估計(jì)的誤差有多大?某人聲稱該公司管理人員平均年薪為53000元,你是否同意這個(gè)說法?該公司管理人員的年薪有什么樣的分布?(是正態(tài)分布嗎?)40統(tǒng)計(jì)推斷的基本概念總體:有限總體、無限總體;樣本;統(tǒng)計(jì)推斷的任務(wù):通過樣本來了解總體。為什么需要抽樣:
1)總體無法得到;
2)時(shí)間成本不允許;
3)實(shí)驗(yàn)具有破壞性。41參數(shù):總體的特征
例:P(正面),P(不合格品)
深圳居民的平均收入
統(tǒng)計(jì)量:從樣本中計(jì)算出的任何量
例:在100次拋擲硬幣中得到正面的比例
在隨機(jī)抽取的1000枚芯片中不合格品的比例
隨機(jī)抽取的1000個(gè)深圳居民的平均收入
估計(jì)量:用來估計(jì)參數(shù)的統(tǒng)計(jì)量42統(tǒng)計(jì)推斷的內(nèi)容之一估計(jì)參數(shù)點(diǎn)估計(jì)和區(qū)間估計(jì)管理人員年薪
43統(tǒng)計(jì)推斷內(nèi)容之二
假設(shè)檢驗(yàn):是否可以選用這個(gè)模型?例子:是否可以使用模型N(53000,16062)來刻畫管理人員的年薪?思想:如果該模型是好的,那么和53000相差很多的可能性不能太大。44簡單隨機(jī)抽樣有限總體的簡單隨機(jī)抽樣:等概率抽樣;有放回抽樣:獨(dú)立性無放回抽樣:非獨(dú)立性抽樣方法:利用Excel
45無限總體的簡單隨機(jī)抽樣:獨(dú)立性;例子:某快餐店11:30-13:00午飯時(shí)間顧客從點(diǎn)餐到拿到食品的時(shí)間。
46樣本和總體分布例子:籌碼一個(gè)箱子中有10000個(gè)籌碼,其中50%為5元,30%為10元,10%為15元,10%為30元。yP(y)5.510.315.130.147從中抽一個(gè)容量為30的樣本:50抽樣分布樣本不同,值也不同。那么取不同值的可能性分別是什么?的概率分布稱作它的抽樣分布。抽樣分布在統(tǒng)計(jì)推斷中的中心地位。抽樣分布取決于總體的分布(模型)以及抽樣的方式。
抽樣方式總體分布=====
抽樣分布51
樣本均值的抽樣分布
(無限總體)如果總體服從,那么簡單隨機(jī)樣本的均值服從正態(tài)分布如果樣本容量n非常大,而且總體的期望是,方差是2〈+,那么簡單隨機(jī)樣本的均值近似服從正態(tài)分布(中心極限定理)52樣本比率的抽樣分布
(無限總體)小樣本情況
x服從二項(xiàng)分布B(n,p).大樣本情況,按照中心極限定理,近似地
53正態(tài)分布的圖形54一個(gè)例子一種電器元件設(shè)計(jì)的服務(wù)壽命為3000小時(shí),標(biāo)準(zhǔn)差為800小時(shí)。一名顧客買了49個(gè)元件。這49個(gè)元件的平均壽命至少為2750小時(shí)的概率為多大?至少為3000小時(shí)呢?55樣本方差的抽樣分布如果是來自正態(tài)總體的一個(gè)隨機(jī)樣本,定義樣本方差為:
56認(rèn)識(shí)卡方分布57方差未知時(shí)樣本均值的抽樣分布正態(tài)總體,
2未知,使用樣本方差s2來替代2,則樣本均值滿足:n>30時(shí),可以用標(biāo)準(zhǔn)正態(tài)分布近似。58正態(tài)分布和t分布的比較59估計(jì)的誤差不能以個(gè)別估計(jì)值作為評(píng)價(jià)準(zhǔn)則;估計(jì)的誤差:
60對(duì)估計(jì)量的評(píng)價(jià)無偏性:偏差是零;有效性:方差最?。灰恢滦裕簶颖救萘吭黾訒?huì)降低估計(jì)誤差。樣本均值(比率)是對(duì)總體均值(比率)的一個(gè)無偏的、有效的、一致的估計(jì)量。61EstimatePopulationParameter...withSampleStatisticMean
ProportionpVariances2PopulationParametersEstimated
2Difference
-
12x-x12___62聯(lián)合食品公司的案例針對(duì)“聯(lián)合食品公司”的案例(P.44案例2-1),我們假設(shè)調(diào)查的100個(gè)客戶組成一個(gè)簡單隨機(jī)樣本。嘗試回答下面的問題:1)所有客戶一次購買金額的平均值是多少?2)所有使用信用卡的客戶一次購買金額的平均值是多少?3)使用信用卡的客戶占的比例是多少?651)所有客戶一次購買金額的平均值是多少?(29.4449)2)所有使用信用卡的客戶一次購買金額的平均值是多少?(40.8768)3)使用信用卡的客戶占的比例是多少?(0.22)66第四講
區(qū)間估計(jì)67區(qū)間估計(jì)總體均值總體比例總體方差68聯(lián)合食品公司的案例1)所有客戶一次購買金額的平均值是多少?(29.4449)2)所有使用信用卡的客戶一次購買金額的平均值是多少?(40.8768)3)使用信用卡的客戶占的比例是多少?(0.22)69我們的估計(jì)值離真值有多遠(yuǎn)?我們希望通過樣本的信息給出一個(gè)范圍,使這個(gè)范圍按足夠大的概率包含我們所感興趣的參數(shù)。如何尋找K和L,使得以95%的概率成立:70抽樣誤差:無偏點(diǎn)估計(jì)值與總體參數(shù)之差的絕對(duì)值。71大樣本且已知的情況72理解置信區(qū)間的含義
抽取100個(gè)樣本,計(jì)算出100個(gè)平均值和100個(gè)區(qū)間,它們當(dāng)中至少有(1-
)*100個(gè)包含了未知的總體均值。因此,可以以(1-)的程度確信落在每一個(gè)區(qū)間里面。邊際誤差:
73聯(lián)合食品公司的例子如果已知所有消費(fèi)者一次購買金額的標(biāo)準(zhǔn)差是22,那么一次購買平均金額的一個(gè)95%的置信區(qū)間是:
29.44491.96*(22/10)或者(25.1329,33.7569),其中邊際誤差=4.312.問題:
怎么可能知道標(biāo)準(zhǔn)差?74大樣本且未知的情形76聯(lián)合食品公司的例子所有顧客一次購買金額的平均值的95%的置信區(qū)間:
29.44491.96*(20.4162/10)或者
(25.44333,33.44506)問題:對(duì)使用信用卡的顧客一次購買金額的平均值能否類似進(jìn)行區(qū)間估計(jì)?77小樣本且未知的情形
79聯(lián)合食品公司的例子所有持信用卡的顧客一次購買金額的平均值的95%的置信區(qū)間是:問題:你獲得上述結(jié)論時(shí)對(duì)總體作了什么假定?是否合理?
80總體比率p的區(qū)間估計(jì)81聯(lián)合食品公司的例子使用信用卡支付的顧客的比率的95%的置信區(qū)間是多少?問題:是否符合大樣本的條件?進(jìn)一步的問題:如果嫌精度不夠怎麼辦?82DataVariation
SampleSizenLevelofConfidence
(1-
)IntervalsExtend
?1984-1994T/MakerCo.影響區(qū)間長度的因素
8390%Samples95%Samples
x_ConfidenceIntervals99%SamplesX_84樣本容量的確定(1)給定邊際誤差E和置信系數(shù)1-
,問題是:確定樣本容量n使得總體均值(比率)的1-
水平的置信區(qū)間長度不超過2E?(該問題有什么實(shí)際意義?)
85樣本容量的確定(2)
怎么獲得?
1)用以前相同或類似的樣本的樣本標(biāo)準(zhǔn)差代替;
2)用試驗(yàn)調(diào)查的方法選擇初始樣本,用該樣本的樣本標(biāo)準(zhǔn)差代替;
3)對(duì)進(jìn)行判斷或者猜測:比如全距的1/4作為估計(jì)。為什么用正態(tài)分布的
/2分位數(shù)而不用t分布?86樣本容量的確定(3)對(duì)于總體比率來說:如何確定p?
1)類似對(duì)的確定方法;
2)使用p=0.5,此時(shí)p(1-p)最大,從而高估樣本容量。
87聯(lián)合食品公司的例子為使得所有顧客一次購買金額的平均值的95%的置信區(qū)間長度不超出6美圓,需至少采用多大的樣本?
E=?
=?(全距=77.07)n=(1.96*77.07/4)2/9=158.46159n=(1.96*20.42)2/9=177.9817888聯(lián)合食品公司的例子為了使得對(duì)持信用卡購買的顧客比率p的95%的置信區(qū)間長度不超過0.1,樣本至少多大?E=?P=?n=(1.96)2*0.5*0.5/0.052=384.16385n=(1.96)2*0.22*0.78/0.052=263.726489總體方差的區(qū)間估計(jì)正態(tài)總體時(shí),9091例某食品企業(yè)生產(chǎn)一種名牌蛋糕,經(jīng)驗(yàn)說明溫度會(huì)影響蛋糕的口味,所以生產(chǎn)蛋糕時(shí)需要將溫度控制在一定范圍內(nèi),以保證產(chǎn)品的穩(wěn)定性與一致性。現(xiàn)從一批產(chǎn)品中隨機(jī)抽取25批蛋糕進(jìn)行檢測,得溫度的標(biāo)準(zhǔn)差為2.13度,假定總體溫度的分布服從正態(tài)分布,以95%的置信度來估計(jì)生產(chǎn)蛋糕溫度的方差的置信區(qū)間。92例:DollComputerCompanyDoll計(jì)算機(jī)公司生產(chǎn)計(jì)算機(jī)并銷售給通過Internet訂購的顧客。該公司主要競爭力在于價(jià)格和送貨速度。為達(dá)到快速送貨的目的,該公司將生產(chǎn)的五種最暢銷的機(jī)型運(yùn)到遍布全國的倉庫貯存,從這些倉庫只需一天就可將商品送達(dá)消費(fèi)者。為降低成本,部門經(jīng)理想建立貯存模型從而確定最優(yōu)存貨水平(inventorylevel)。93經(jīng)理了解到leadingtime期間的需求量是近似正態(tài)分布的,且標(biāo)準(zhǔn)差是50,現(xiàn)在他想知道分布的均值是多少。他記錄了60個(gè)leadingtime的需求量(見文件doll),如何估計(jì)分布的均值?94例2零售店選址張先生是臺(tái)灣某集團(tuán)的企劃部經(jīng)理,在今年的規(guī)劃中,集團(tuán)準(zhǔn)備在某地新建一新的零售商店。張先生目前正在做這方面的準(zhǔn)備工作。其中有一項(xiàng)便是進(jìn)行市場調(diào)查。在眾多信息中,經(jīng)過該地行人數(shù)量是要考慮的一個(gè)很重要的方面。張先生委托他人進(jìn)行了兩個(gè)星期的觀察,得到每天經(jīng)過該地人數(shù)如下:95544,468,399,759,526,212,256,
456,553,259,469,366,197,178如果設(shè)立商店要求行人數(shù)最低為520的話,這個(gè)地點(diǎn)是否合適?(經(jīng)計(jì)算,樣本均值403,標(biāo)準(zhǔn)差168.46)96第五講假設(shè)檢驗(yàn)問題97從一個(gè)例子看假設(shè)檢驗(yàn)的思路假設(shè)我們有意估計(jì)一個(gè)社區(qū)的平均收入。假設(shè)收入總體是正態(tài)N(
,25),且抽取了一個(gè)隨機(jī)樣本,其中有n=25個(gè)觀測值,得到
=17。
現(xiàn)在,一位經(jīng)濟(jì)專家A先生宣稱說,根據(jù)他的知識(shí),平均收入
=16。你對(duì)此作何反應(yīng)?
我們可以按照以下方式推理。在觀察
=17之前,的抽樣分布為N(
,1)。(這是因?yàn)?)
觀察到的
(=17)與A先生宣稱的
僅有1個(gè)標(biāo)準(zhǔn)誤差
,可被視作這一分布的一個(gè)典型觀察。因而,在A先生的說法與證據(jù)之間沒有多少不一致。假如另一位專家B先生宣稱說
=15,你會(huì)作何反應(yīng)呢?根據(jù)B先生的說法,所觀察到的
(=17)開始顯得有點(diǎn)極端,因?yàn)樗F(xiàn)在偏離
有兩個(gè)標(biāo)準(zhǔn)誤差了。
假如第三位專家C先生宣稱說
=14又如何呢?當(dāng)然,假如
=14,那么觀察到的
(=17)的確非常極端,我們要么拒絕其說法,要么研究數(shù)據(jù)的準(zhǔn)確性。
對(duì)
值的假設(shè)(宣稱)值與觀測到的值之間的差異大小的度量就是觀察到更加極端的的概率(機(jī)率)。即:這一概率稱作觀察值的p-值。因而一個(gè)較小的p-值意味著假設(shè)沒有得到數(shù)據(jù)的支持
較大的p-值意味著假設(shè)與數(shù)據(jù)一致
102假設(shè)檢驗(yàn)的基本概念H0:
=
0
稱為原假設(shè)H1:
0稱為備擇假設(shè)選擇的態(tài)度:拒絕?不拒絕?
(Tobeornottobe,……)更多的例子,簡單假設(shè)和復(fù)合假設(shè)。按照標(biāo)準(zhǔn)誤差單位來度量偏離有多遠(yuǎn)。
首先,當(dāng)
為已知時(shí),這一距離由下式給出
這稱作z統(tǒng)計(jì)量。按照原假設(shè),即H0:
=
0為真時(shí),在得到樣本平均值之前,隨機(jī)變量
z
的分布為單位正態(tài)N(0,1)。使用p-值檢驗(yàn)來衡量觀測值z
與
0之間的差異。這里的p-值是得到比觀測值更為極端的z統(tǒng)計(jì)量的概率。
104一般的統(tǒng)計(jì)實(shí)踐中:假如p-值
<0.05,則拒絕H0,并報(bào)告結(jié)果在統(tǒng)計(jì)上是顯著的(在0.05的水平)
如果p-值
0.05,則結(jié)果在統(tǒng)計(jì)上不顯著(在0.05的水平)
105原假設(shè)
=15。由于觀測到=17,觀測到的z=17-15=2.(這是因?yàn)?)因而,p-值是概率
所以拒絕原假設(shè)。106另一方面,對(duì)于本例而言,p-值<0.05等價(jià)于因此上式稱為拒絕域,意思是如果樣本均值的觀測值如果落在這個(gè)區(qū)域里就要拒絕原假設(shè)。107你會(huì)犯什么錯(cuò)誤?108第一類錯(cuò)誤:當(dāng)H0為真時(shí)拒絕H0
第二類錯(cuò)誤:當(dāng)H0為假時(shí)不拒絕H0顯著水平
:犯第一類錯(cuò)誤的最大概率。前面的例子,犯第一類錯(cuò)誤的最大概率為0.05。如果希望犯第一類錯(cuò)誤的最大概率為0.01,則拒絕域變?yōu)?09假設(shè)檢驗(yàn)的步驟確定適應(yīng)的原假設(shè)和備擇假設(shè);選擇檢驗(yàn)統(tǒng)計(jì)量;指定顯著水平;根據(jù)顯著水平和統(tǒng)計(jì)量的抽樣分布來確定統(tǒng)計(jì)量的臨界值,從而確定拒絕域;根據(jù)樣本計(jì)算統(tǒng)計(jì)量的值并與臨界值比較看是否落入拒絕域;或計(jì)算p-值,并比較p-值與
得出結(jié)論。110方差未知時(shí)總體均值的雙邊檢驗(yàn)111一個(gè)例子所有聯(lián)合食品公司的顧客一次購買金額的平均值是35美圓?H0:=35.H1:35給定顯著水平=0.05。拒絕域?yàn)楝F(xiàn)有一樣本,n=100,
112是否對(duì)Hilltop咖啡投訴?聯(lián)邦貿(mào)易委員會(huì)(FTC)意欲對(duì)大瓶Hilltop牌咖啡進(jìn)行檢查,以確定是否符合其標(biāo)簽上注明的“容量至少是3磅”的說法,并由此決定是否因?yàn)榘b重量的不足而對(duì)其提出投訴。H0:3H1:<3.顯著水平=0.05,113大樣本下的解決方案如果
2已知,則拒絕域?yàn)槿绻?/p>
2未知,則拒絕域?yàn)?/p>
114假定由36聽罐頭所組成的一個(gè)樣本的樣本均值為
磅,樣本標(biāo)準(zhǔn)差s=0.18,你能拒絕原假設(shè)嗎?115小樣本下的解決方案如果
2未知,則
116一組虛擬的數(shù)據(jù)我們設(shè)FTC抽取了20瓶Hilltop咖啡作為隨機(jī)樣本,得到其質(zhì)量分別為(磅):
2.823.013.112.712.932.683.023.012.932.56 2.783.013.092.942.822.813.053.012.852.79其樣本均值為2.8965,樣本標(biāo)準(zhǔn)為0.148440135,你可以拒絕原假設(shè)嗎?
拒絕域?yàn)椋航Y(jié)論:拒絕原假設(shè)。顯著性水平
a和拒絕域H0:m
3H1:m<3000H0:m
3H1:m>3H0:m
=3H1:m
3aa
a/2
臨界值拒絕域119置信區(qū)間和雙邊檢驗(yàn)總體均值的95%置信區(qū)間:雙邊檢驗(yàn)的拒絕域:啟示:通過置信區(qū)間進(jìn)行雙邊檢驗(yàn)。H0:
=
0如果0不在總體均值的95%置信區(qū)間內(nèi),則拒絕H0。未知均值
,關(guān)于方差
2
的檢驗(yàn)。H0:
2
=H1:2
121
122自動(dòng)飲料機(jī)的例子某種自動(dòng)飲料機(jī)的飲料灌裝量的方差是一個(gè)重要的技術(shù)指標(biāo),方差太大,意味著可能經(jīng)常出現(xiàn)過度灌裝或者灌裝不足,這會(huì)引起飲料機(jī)的擁有者或者顧客的不滿。在對(duì)某一特定的機(jī)器灌裝量的測試中,由18杯飲料組成的隨機(jī)樣本得到樣本方差是0.40。問題:
如果一個(gè)可以接受的方案是方差不超過0.25,根據(jù)測試的結(jié)果你是否認(rèn)為該機(jī)器不合格?123該機(jī)器是否合格?檢驗(yàn)假設(shè):H0:
20.25,H1:2>0.25;拒絕域?yàn)?/p>
124總體比率的檢驗(yàn)一個(gè)例子:PineGreek高爾夫球場的性別比率問題。400個(gè)運(yùn)動(dòng)者中100個(gè)女性,能否認(rèn)為女性比率比過去的20%增加了?H0:p0.20,H1:p>0.20;拒絕域的形狀:利用大樣本下樣本比率的抽樣分布得到拒絕域?yàn)椋?/p>
當(dāng)
=0.05時(shí),拒絕域?yàn)橛蓸颖局?,所以拒絕原假設(shè)。即女性比率比過去增加了。126總體比率的雙邊檢驗(yàn)127更多的例子FordTaurus宣稱在高速路上行駛的油耗為30英里/加侖。一個(gè)保護(hù)消費(fèi)者利益的小組對(duì)汽車進(jìn)行檢驗(yàn)。從的50次高速路行駛組成的樣本中,得到樣本平均為29.5英里/加侖,樣本標(biāo)準(zhǔn)差為1.8英里/加侖。取顯著性水平0.01,得出你的結(jié)論。128129一個(gè)快餐店決定計(jì)劃實(shí)施一次特殊供應(yīng),使顧客能購買到專門印有著名卡通人物的杯裝飲料。如果有超過15%的消費(fèi)者購買這種飲料,則認(rèn)為可以推行這種特殊供應(yīng)。在某些地方已經(jīng)進(jìn)行的初步試驗(yàn)表明,500名消費(fèi)者有88名購買了這種杯裝飲料。是否應(yīng)推行這種特殊杯裝飲料?當(dāng)顯著性水平為0.01時(shí),得出你的建議。130131
第六講假設(shè)檢驗(yàn)(續(xù))132兩個(gè)總體均值和比率的統(tǒng)計(jì)推斷;兩個(gè)總體方差的統(tǒng)計(jì)推斷。133雙樣本比較
(均值)
例:平均來看,男性比女性所賺的錢更多嗎?多多少?培訓(xùn)能改善消費(fèi)者的滿意評(píng)級(jí)嗎?消費(fèi)者為這一新產(chǎn)品所樂意支付的平均價(jià)格比他們?yōu)樵a(chǎn)品所愿意支付的平均價(jià)格多出$200嗎?
平均來看,電視廣告A比B更有效嗎?促銷手段A是否比手段B產(chǎn)生了更多的銷售額?
134兩總體均值之差的估計(jì)(獨(dú)立樣本)135小樣本情形假定兩總體方差相等。136137均值差的檢驗(yàn)138誰的起薪更高一些?《財(cái)富》雜志1995年6月26日刊載了會(huì)計(jì)師和財(cái)務(wù)計(jì)劃人員的起始年薪。他們分別抽取了12名會(huì)計(jì)師和14名財(cái)務(wù)計(jì)劃人員作為樣本,得到他們的起始年薪。問題:能否說這兩種職業(yè)的平均起薪有明顯差異?140解決我們的問題合并方差=8.914027778
142例為了比較兩家經(jīng)紀(jì)人公司的股票經(jīng)營能力,我們比較了在每一家公司的‘最強(qiáng)烈推薦’股票清單上所列示的30種股票的各自的$1000的投資的年度獲利(不包括傭金費(fèi)用)。得到樣本統(tǒng)計(jì)量的值為公司A:
公司B:
143144例一個(gè)超級(jí)市場連鎖店在商場員工接受了一項(xiàng)客戶關(guān)系培訓(xùn)項(xiàng)目的前后進(jìn)行了消費(fèi)者對(duì)服務(wù)意見的抽樣調(diào)查。在培訓(xùn)課程的前后分別調(diào)查了40位消費(fèi)者,每人都要為商場的服務(wù)評(píng)級(jí)打分,分值從1(非常差)到10(非常好)。得到結(jié)果為培訓(xùn)前:培訓(xùn)后:試判斷該培訓(xùn)是否提高了消費(fèi)者服務(wù)評(píng)級(jí)。
145146雙樣本成對(duì)比較
(均值)
例:
平均而言,丈夫比妻子賺的錢多嗎?
增加營銷預(yù)算會(huì)改進(jìn)銷售嗎?平均而言,一個(gè)消費(fèi)者愿意為新產(chǎn)品比原產(chǎn)品多花多少錢?
平均而言,電視廣告A比B更有效嗎?促銷手段A是否比手段B在同一家店產(chǎn)生了更多的銷售額?針對(duì)匹配樣本的解決方案:化成一個(gè)樣本解決。例:12支股票1997年市盈率和1998年市盈率平均市盈率在2年中是否有變化?(
=0.05置信區(qū)間為:(4.96,9.21)結(jié)論:市盈率在兩年中發(fā)生了變化。153為了鼓勵(lì)客戶盡早支付費(fèi)用,一家咨詢公司承諾如果客戶在帳單開出30天內(nèi)支付費(fèi)用就可獲得2%的折扣。為了評(píng)估這項(xiàng)關(guān)于支付時(shí)間的新政策的效果,這家公司隨機(jī)抽取了15個(gè)帳戶并記錄了它們在原體系下支付最后一張開出的帳單的天數(shù)和新激勵(lì)體系下第一張開出的帳單得到支付的天數(shù)。
例:oldsystem928865859564656290896575849080
incentive283029852928262988307030279229
difference645836066363933259-54557-251154得到前后平均付款天數(shù)差的95%置信區(qū)間(21.86,50.00)你的結(jié)論?
155雙樣本比較(比率)例:在大多數(shù)家庭中,丈夫賺錢比妻子多是真的嗎?
在大多數(shù)家庭中,妻子做出大多數(shù)購買決策是真的嗎?增加的營銷預(yù)算改善了銷售嗎?多數(shù)消費(fèi)者喜歡新產(chǎn)品勝過老產(chǎn)品是真的嗎?
156兩個(gè)樣本比率之差的抽樣分布157男女的態(tài)度有區(qū)別嗎?對(duì)于“丈夫在外工作,妻子沒有收入的婚姻,離婚后妻子應(yīng)該擁有結(jié)婚期間積累財(cái)產(chǎn)的一半”進(jìn)行的一項(xiàng)民意測驗(yàn)發(fā)現(xiàn),在被隨機(jī)調(diào)查的300名男子和300名女子當(dāng)中分別有255名和279名同意。你能否認(rèn)為對(duì)此問題男女的態(tài)度有差異?檢驗(yàn)假設(shè)H0:p1=p2158拒絕域給定顯著水平,拒絕域是:159回答我們的問題160例
一個(gè)醫(yī)院的高層管理者懷疑拖欠醫(yī)院帳單的行為的比率在過去一年內(nèi)有所上升。醫(yī)院的記錄表明,在4月份就診的1284人中,有48人的帳單被拖欠了90天以上。與一年前同期的34個(gè)拖欠者(1002人中)相比,這些數(shù)據(jù)是否提供了足夠的證據(jù)來說明拖欠醫(yī)院帳單超過90天的比率有所上升?例
一個(gè)制造商改進(jìn)了一條生產(chǎn)線以減少零件的平均不合格品率。為了確定這一改進(jìn)是否有效,這個(gè)制造商在技術(shù)改造前后各隨機(jī)抽取了400個(gè)零件,其中分別有21個(gè)和14個(gè)零件是不合格品。
163兩總體方差的統(tǒng)計(jì)推斷164
一個(gè)重要的性質(zhì):F1-
F
自由度為n和m的F分布。如何找到分位數(shù)?F分布165選擇哪個(gè)公司的校車服務(wù)?
Dullus縣學(xué)校要更新明年的校車服務(wù)合同,需要從Milbank和GulfPark兩家公司中選擇一個(gè)。選擇校車運(yùn)送或者到達(dá)時(shí)間的方差作為衡量公司服務(wù)質(zhì)量的指標(biāo)。學(xué)校需要了解這兩家公司的服務(wù)質(zhì)量是否相同,如果相同,他們就會(huì)選擇價(jià)格較低的一家。他們調(diào)查了M公司的25個(gè)到達(dá)時(shí)間以及G公司的16個(gè)到達(dá)時(shí)間,分別得到樣本的方差是48和20。他們是否有充分的理由認(rèn)為兩家公司的服務(wù)質(zhì)量不同?166對(duì)選擇校車問題,使用顯著水平0.10,則
根據(jù)上面的分析,你對(duì)Dullus學(xué)校選擇校車有什么建議?你的根據(jù)是什么?167兩個(gè)總體的方差的單邊檢驗(yàn)
根據(jù)你對(duì)假設(shè)檢驗(yàn)過程的理解,你能夠?qū)懗鱿旅鎯蓚€(gè)檢驗(yàn)的拒絕域嗎?168例子:誰的起薪更高一些?《財(cái)富》雜志1995年6月26日刊載了會(huì)計(jì)師和財(cái)務(wù)計(jì)劃人員的起始年薪。他們分別抽取了12名會(huì)計(jì)師和14名財(cái)務(wù)計(jì)劃人員作為樣本,得到他們的起始年薪。問題:能否說這兩種職業(yè)的平均起薪有明顯差異?第七講案例研究案例1空軍訓(xùn)練計(jì)劃見教材案例11-1案例2廣告的影響研究觀看HostSelling和Announcer廣告的孩子是否記得更多廣告細(xì)節(jié)并更可能購買該廣告所推銷的產(chǎn)品。研究試驗(yàn)包括兩組年齡為6至10歲的孩子。案例3重要管理人員死亡對(duì)股票價(jià)格的影響分析21家公司CEO死亡后,股票價(jià)格在6周內(nèi)的異常變動(dòng)情況,給出投資建議。176第八講:擬合優(yōu)度檢驗(yàn)和獨(dú)立性檢驗(yàn)177擬合優(yōu)度檢驗(yàn)檢驗(yàn)樣本是否來自某種分布的總體例:到達(dá)服務(wù)窗口的顧客數(shù)服從泊松分布嗎?各個(gè)銷售地區(qū)的潛在訂貨都相同嗎?公司招聘考試的分?jǐn)?shù)服從正態(tài)分布嗎?消費(fèi)者對(duì)各種顏色的餅干喜愛程度是相同的嗎?節(jié)目的收視率有變化嗎?市場份額發(fā)生變化了嗎?178ScottMarketingResearchCo.
Scott公司進(jìn)行了一項(xiàng)市場份額的研究。在過去的一年里,公司A的市場份額穩(wěn)定在30%,公司B在50%,公司C在20%。最近公司C開發(fā)了一種“新型”產(chǎn)品并取代了當(dāng)前市場的產(chǎn)品。Scott受雇于公司C,為它判斷新產(chǎn)品是否使市場份額發(fā)生了改變。
Scott公司通過問卷調(diào)查了一組200名的顧客群體,詢問他們對(duì)公司A、B、C的購買偏好,結(jié)果48人選擇A,98人選擇了B,54人選擇了C。根據(jù)這些數(shù)據(jù),Scott公司需要判斷市場份額是否已經(jīng)發(fā)生了變化。
179建立我們的模型總體是什么?用什么分布描述?多項(xiàng)分布(二項(xiàng)分布的推廣)檢驗(yàn)假設(shè):
H0:PA=0.30PB=0.50PC=0.20;
H1:總體比例已經(jīng)發(fā)生改變。檢驗(yàn)的思路:如果H0是對(duì)的,那么200人中的觀測結(jié)果不會(huì)與期望的結(jié)果相差太大。180類別
假設(shè)比例 觀測頻數(shù) 期望頻數(shù) 公司A 0.3 48 60 公司B 0.5 98 100 公司C0.2 54 40 合計(jì) 200 200 181檢驗(yàn)方法計(jì)算觀測頻數(shù)和期望頻數(shù)以及它們之差;拒絕域的形狀是抽樣分布是什么?在大樣本情形而且所有期望頻數(shù)不少于5的時(shí)候,近似地有
182計(jì)算結(jié)果類別
假設(shè)比例 觀測頻數(shù) 期望頻數(shù) 差值 差值平方 差值平方與期望頻數(shù)之比 公司A 0.3 48 60 -12 144 2.4 公司B 0.5 98 100 -2 4 0.04 公司C0.2 54 40 14 196 4.9 合計(jì) 200 200 7.34 給定顯著水平為0.05,拒絕域應(yīng)該是什么?你認(rèn)為市場份額發(fā)生改變了嗎?
5.99拒絕183例
某工廠近5年來發(fā)生了63次事故,按星期幾分類如下:星期一二三四五六次數(shù)9101181312問:事故的發(fā)生是否與星期幾有關(guān)?184185例通過對(duì)135名消費(fèi)者的調(diào)查得到他們對(duì)商店櫥窗的三種陳列方式的喜好如下:
陳列方式A陳列方式B陳列方式C435339
消費(fèi)者對(duì)這三種陳列方式的喜好是否有差異?186187到達(dá)顧客數(shù)服從泊松分布嗎?
某食品市場的經(jīng)理將根據(jù)預(yù)期到達(dá)商店的顧客來決定職員分配數(shù)目以及收款臺(tái)的數(shù)目。為檢驗(yàn)工作日上午顧客到達(dá)數(shù)(用5分鐘時(shí)間段內(nèi)進(jìn)入商店的顧客數(shù)來定義)是否服從泊松分布,隨機(jī)選取了一個(gè)由3周內(nèi)工作日上午的128個(gè)5分鐘時(shí)間段組成的樣本。189H0:5分鐘時(shí)間段內(nèi)進(jìn)入商店的顧客數(shù)服從泊松分布(均值為5)。
在大樣本情形而且所有期望頻數(shù)不少于5的時(shí)候,近似地有193考試分?jǐn)?shù)的總體是服從正態(tài)分布嗎?Chemline每年大約為其分布在美國的四家工廠雇傭400名新雇員。由人事部進(jìn)行標(biāo)準(zhǔn)化考試,考試分?jǐn)?shù)是錄用雇員決策中的主要因素。隨著每年進(jìn)行的大量考試,人事主管提出正態(tài)分布是否可以用于考試分?jǐn)?shù)總體的問題。如果可以應(yīng)用正態(tài)分布,它的使用將有助于評(píng)價(jià)具體考分。(數(shù)據(jù)見P.502)194檢驗(yàn)的思路:如果H0是對(duì)的,那么50人中的觀測結(jié)果不會(huì)與期望的結(jié)果相差太大。195檢驗(yàn)方法劃分取值區(qū)間;計(jì)算各區(qū)間觀測頻數(shù)和期望頻數(shù)以及它們之差;拒絕域的形狀是抽樣分布是什么?在大樣本情形而且所有期望頻數(shù)不少于5的時(shí)候,近似地有
給定顯著水平為0.1,拒絕域應(yīng)該是什么?0拒絕12.017197其他檢驗(yàn)正態(tài)性的方法P-P圖Q-Q圖偏度檢驗(yàn)(正態(tài)分布偏度為0)峰度檢驗(yàn)(正態(tài)分布峰度為3)Wilk檢驗(yàn)D’Agostino檢驗(yàn)198Bowman-Shelton正態(tài)性檢驗(yàn)199獨(dú)立性檢驗(yàn)檢驗(yàn)兩個(gè)定性變量之間的獨(dú)立性例:對(duì)啤酒的選擇與飲酒者性別有關(guān)系嗎?不同的供應(yīng)商的零件質(zhì)量(有缺陷產(chǎn)品數(shù))有差異嗎?行業(yè)類型與市盈率有關(guān)嗎?某雜志不同地區(qū)版與訂戶職業(yè)有關(guān)系嗎?200阿爾伯特釀酒廠的啤酒
阿爾伯特釀酒廠生產(chǎn)三種類型的啤酒:淡啤酒、普通啤酒和黑啤酒。在一次對(duì)三種啤酒的市場份額的分析中,公司市場研究小組提出了男女飲酒者對(duì)三種啤酒的偏好是否有差異的問題,從而幫助廠家針對(duì)不同的目標(biāo)市場采取不同的廣告策略。他們抽樣調(diào)查了150名飲酒者,每個(gè)人對(duì)三種啤酒的偏好匯總?cè)缦卤?。他們需要判斷性別與對(duì)啤酒的偏好是否有關(guān)系。
淡啤酒 普通啤酒黑啤酒 合計(jì) 男性 20 40 20 80 女性 30 30 10 70 合計(jì) 50 70 30 150 201建立假設(shè)和檢驗(yàn)的思路H0:啤酒的偏好與飲酒者的性別獨(dú)立;H1:啤酒的偏好與飲酒者的性別有關(guān);檢驗(yàn)思路:如果原假設(shè)是正確的,那么各單元的觀測頻數(shù)與期望頻數(shù)之差不會(huì)太大。問題:如何計(jì)算各單元的期望頻數(shù)?202計(jì)算期望頻數(shù)一個(gè)飲酒者喜歡三種啤酒的概率分別是多少?既然與性別獨(dú)立,那么按照這種概率分布在調(diào)查的這些男性中應(yīng)該喜歡三種不同啤酒的人數(shù)是多少?女性中呢?H0成立時(shí)的期望頻數(shù):
淡啤酒 普通啤酒黑啤酒 合計(jì) 男性 26.67 37.33 16 80 女性 23.33 32.67 14 70 合計(jì) 50 70 30 150 203檢驗(yàn)統(tǒng)計(jì)量和拒絕域檢驗(yàn)統(tǒng)計(jì)量:
204計(jì)算的結(jié)果更深入的話題:Fisher精確檢驗(yàn)205例三家供應(yīng)商提供了如下所示零件質(zhì)量數(shù)據(jù):檢驗(yàn)供應(yīng)商與零件質(zhì)量的獨(dú)立性。你的分析結(jié)果可以為采購部門提供什么信息?期望頻數(shù)207第九講方差分析單因子隨機(jī)區(qū)組雙因子208MBA的起薪與專業(yè)有關(guān)嗎?一家關(guān)于MBA報(bào)考、學(xué)習(xí)、就業(yè)指導(dǎo)的網(wǎng)站希望了解國內(nèi)MBA畢業(yè)生的起薪是否與各自所學(xué)的專業(yè)有關(guān),為此,他們在已經(jīng)在國內(nèi)商學(xué)院畢業(yè)并且獲得學(xué)位的MBA學(xué)生中按照專業(yè)分別隨機(jī)抽取了10人,調(diào)查了他們的起薪情況,數(shù)據(jù)如下表所示(單位:萬元),根據(jù)這些數(shù)據(jù)他們能否得出專業(yè)對(duì)MBA起薪有影響的結(jié)論?209對(duì)數(shù)據(jù)的初步認(rèn)識(shí)...根據(jù)這些匯總,你的印象是什么?210了解幾個(gè)術(shù)語因變量或者響應(yīng)變量(responsevariable);自變量或者因子(factor);因子的水平或處理(treatment);單因子和多因子;一般單因子方差分析問題的數(shù)據(jù)結(jié)構(gòu)。獨(dú)立地采樣的情況。211使用模型描述我們的問題四個(gè)專業(yè)MBA的起薪分別服從正態(tài)分布
四個(gè)總體的方差是相等的。檢驗(yàn)假設(shè):
212使用雙樣本t檢驗(yàn)?能否分別對(duì)四個(gè)專業(yè)兩兩進(jìn)行雙樣本的t檢驗(yàn)來完成對(duì)H0的檢驗(yàn)?犯第一類錯(cuò)誤的概率是多少?降低顯著水平可以彌補(bǔ)嗎?213我們的思路這40個(gè)人起薪的差異可能是有什么原因造成的?專業(yè)不同可能是一個(gè)因素(如果原假設(shè)為真的時(shí)候);專業(yè)之外的其它偶然因素。如何刻畫這些差異性?214總變差的分解215One-FactorANOVA
PartitionsofTotalVariationVariationDuetoTreatmentSSTRVariationDuetoRandomSamplingSSETotalVariationSSTCommonlyreferredtoas:SumofSquaresWithin,orSumofSquaresError,orWithinGroupsVariationCommonlyreferredtoas:SumofSquaresAmong,orSumofSquaresBetween,orSumofSquaresModel,orAmongGroupsVariation=+216如何理解平方和的分解式?SST刻畫了40個(gè)人起薪總的變異程度;SSTR刻畫了不同處理之間的變異程度;SSE刻畫了同一處理內(nèi)部個(gè)體之間的變異程度;為了拒絕原假設(shè),選擇什么樣的拒絕域?為了選擇c=?,我們需要知道什么?
217檢驗(yàn)方法在H0成立的情況下,統(tǒng)計(jì)量在顯著水平下,選擇拒絕域是
218方差分析表方差來源 平方和自由度 均方 F統(tǒng)計(jì)量 處理 SSTRk-1MSTR MSTR/MSE 誤差 SSE nT-k MSE
合計(jì) SST nT-1若=0.05,對(duì)我們提出的問題,使用EXCEL獲得方差分析表,你覺得專業(yè)與MBA的起薪有關(guān)系嗎?
219若=0.1,你的結(jié)論是什么?220進(jìn)一步的問題...多重比較問題:Fisher的最小顯著差異(LSD)方法:
221哪些專業(yè)MBA的MBA起薪是真正
存在差異的?給定顯著水平0.1,計(jì)算得到LSD=2.758686.(如何計(jì)算?)根據(jù)你的結(jié)論是什么?注意的問題以及其它的方法。來自中國最大的資料庫下載
222整理我們的思路哪些問題可以化成單因子方差分析問題?方差分析時(shí)使用的模型是什么?方差分析的過程是怎樣的?如何使用EXCEL獲得方差分析表?在什么情況下才需要并且可以做多重比較?223One-FactorANOVAF
TestExampleAsproductionmanager,youwanttoseeif3fillingmachineshavedifferentmeanfillingtimes.Youassign15similarlytrained&experiencedworkers,5permachine,tothemachines.Atthe.05level,isthereadifferenceinmeanfillingtimes?
Machine1
Machine2
Machine3
25.40
23.40
20.00
26.31
21.80
22.20
24.10
23.50
19.75
23.74
22.75
20.60
25.10
21.60
20.40224225Chemitech公司的問題
Chemitech公司開發(fā)了一種新型的城市供水過濾系統(tǒng),其元件要從幾家供應(yīng)商處購買,然后在Chemitech位于南加州的工廠組裝。為了選擇最佳的裝配方法,工程部列出了三種方案,即方案A、B、C。公司管理者需要了解使用三種方案每周裝配的系統(tǒng)數(shù)量是否不同,哪種方案最大?試驗(yàn)辦法一:隨機(jī)抽取24名工人,隨機(jī)指派到3組中。試驗(yàn)辦法二:將工人按照裝配經(jīng)驗(yàn)劃分成8類,每一類中抽取3人指派到三組中。226完全隨機(jī)化設(shè)計(jì)的方差分析數(shù)據(jù)的結(jié)構(gòu)形式;將k個(gè)處理隨機(jī)地指派給試驗(yàn)單元(工人)與從k個(gè)總體中獨(dú)立地抽取隨機(jī)樣本的情況是一致的。分析的方法:方差分析表的形式。你可以自己完成嗎?227隨機(jī)化區(qū)組設(shè)計(jì)的數(shù)據(jù)228總變差的分解
對(duì)于隨機(jī)化區(qū)組設(shè)計(jì),最大的益處在于可以把區(qū)組之間的差異從誤差項(xiàng)中分離出來,從而減少了誤差項(xiàng),得出處理之間差異的更好的檢驗(yàn)。即
SST=SSTR+SSBL+SSE其中,SSBL表示了區(qū)組間差異的程度。229方差分析表方差來源 平方和自由度均方F值 處理SSTR k-1 MSTR MSTR/MSE區(qū)組SSBL b-1 MSBL MSBL/MSE誤差SSE (k-1)(b-1) MSE
合計(jì)SST nT-1
如何使用EXCEL產(chǎn)生上面的方差分析表?230檢驗(yàn)的假設(shè)H01:三種方案(處理)下每周生產(chǎn)的系統(tǒng)平均數(shù)是一樣的;拒絕域H02:不同熟練程度的工人每周生產(chǎn)的系統(tǒng)平均數(shù)量是一樣的。拒絕域
231給Chemitech公司的結(jié)論
使用EXCEL分析隨機(jī)化區(qū)組設(shè)計(jì)進(jìn)行的試驗(yàn)而得到的數(shù)據(jù),你如何分析方差分析表,你如何分析三種組裝方案兩兩之間的差異?你的結(jié)論是什么?你給Chemitech公司什么樣的建議?232整理我們的思路完全隨機(jī)化設(shè)計(jì)與隨機(jī)化區(qū)組設(shè)計(jì)的區(qū)別是什么?你會(huì)區(qū)分嗎?完全隨機(jī)化設(shè)計(jì)得到的數(shù)據(jù)如何運(yùn)用方差分析?隨機(jī)化區(qū)組設(shè)計(jì)的方差分解是怎樣的?它帶來的好處在哪里?你會(huì)使用EXCEL完成對(duì)兩種設(shè)計(jì)結(jié)果的方差分析嗎?233哪些因素影響GMAT成績?得克薩斯州的一所大學(xué)提出了三種GMAT輔導(dǎo)課程:即3小時(shí)復(fù)習(xí)、1天課程和10周強(qiáng)化班,他們需要了解這三種輔導(dǎo)方式如何影響GMAT成績。另外,通??忌鷣碜匀愒盒#瓷虒W(xué)院、工學(xué)院、藝術(shù)與科學(xué)院。因此,了解不同類型學(xué)校畢業(yè)的考生GMAT成績是否有差異也是一個(gè)讓人感興趣的話題。最后,是否一類學(xué)校的考生適應(yīng)一種輔導(dǎo)課程,而另一類學(xué)校的考生適合其他課程?他們在三類學(xué)校中每一個(gè)隨機(jī)抽取6個(gè)學(xué)生,隨機(jī)指派兩名到一門輔導(dǎo)課程中,最后他們的GMAT成績結(jié)果如下表所示。23418個(gè)學(xué)生的GMAT成績235對(duì)問題的初步分析雙因子,因子A--輔導(dǎo)課程:三個(gè)水平;因子B--學(xué)校類型:三個(gè)水平;檢驗(yàn)假設(shè):
H01:因子A對(duì)GMAT成績無影響;
H02:因子B對(duì)GMAT成績無影響;
H03:因子A與因子B無交互作用。236認(rèn)識(shí)交互作用--
無交互作用的情況237認(rèn)識(shí)交互作用--
有交互作用的情況238總變差的分解
239Two-WayANOVA
TotalVariationPartitioningVariationDuetoTreatmentAVariationDuetoRandomSamplingVariationDuetoInteractionSSESSA
+SSAB+SST=VariationDuetoTreatmentBSSB+TotalVariation240方差分析表方差來源平方和自由度均方F值 因子A SSA a-1 MSA MSA/MSE 因子B SSB b-1 MSB MSB/MSE 交互作用SSAB (a-1)(b-1)MSAB MSAB/MSE誤差 SSE ab(r-1)MSE
合計(jì) SST nT-1
使用EXCEL產(chǎn)生方差分析表。241檢驗(yàn)原假設(shè)你能夠?qū)懗銮懊嫒齻€(gè)原假設(shè)各自的拒絕域嗎?利用EXCEL產(chǎn)生的方差分析表,你覺得哪些因素影響到GMAT的成績?你的結(jié)論是什么?242TwoWayANOVA:
TheF
TestStatisticF
TestforFactor
AEffectMSAMSEF=F
TestforFactor
BEffectF=MSBMSEF
Testfor
InteractionEffectF=MSABMSERejectifF>F
RejectifF>F
RejectifF>F
H01:因子A對(duì)GMAT成績無影響;
H02:因子B對(duì)GMAT成績無影響;
H03:因子A與因子B無交互作用。243244本講總結(jié)使用方差分析可以解決什么問題?單因子獨(dú)立觀測樣本的方差分析;完全隨機(jī)化設(shè)計(jì)試驗(yàn)的數(shù)據(jù)分析;隨機(jī)化區(qū)組設(shè)計(jì)試驗(yàn)的數(shù)據(jù)分析;兩因素析因試驗(yàn)(FactorialExperiment)的數(shù)據(jù)分析;借助EXCEL你會(huì)操作嗎?245
第十一講多元回歸與建模
246研究多個(gè)變量間的關(guān)系,因變量如何受到多個(gè)自變量的影響,用多個(gè)自變量預(yù)測因變量的值。例:超市中商品的價(jià)格、擺放位置、促銷手段如何影響銷售量;如何用客戶的個(gè)人資料(職業(yè)、收入、家庭成員人數(shù)、婚姻狀況、是否有抵押等)進(jìn)行信用預(yù)測;連鎖旅店的利潤主要受哪些因素影響;如何預(yù)測每個(gè)客戶的流失概率;如何在達(dá)到環(huán)保標(biāo)準(zhǔn)的前提下找到最佳生產(chǎn)條件;如何給二手車定價(jià);如何預(yù)測故障維修時(shí)間;如何定新員工的薪水及解聘員工的補(bǔ)償金。247248X2X1Y
i249認(rèn)識(shí)R2總變差的分解:SST=SSR+SSE;判定系數(shù):R2=SSR/SST;多重相關(guān)系數(shù)R;調(diào)整(修正)的判定系數(shù):
250對(duì)回歸方程的檢驗(yàn)問題:因變量和所有自變量的集合之間是否存在顯著的關(guān)系?檢驗(yàn)假設(shè)拒絕域
251對(duì)回歸系數(shù)的檢驗(yàn)檢驗(yàn)假設(shè)檢驗(yàn)統(tǒng)計(jì)量拒絕域
252例:巴特勒運(yùn)輸公司
巴特勒運(yùn)輸公司的主營業(yè)務(wù)地域?yàn)楸镜?,為了建立更好的工作日程表,?jīng)理們計(jì)劃為他們的駕駛員估計(jì)日常行駛時(shí)間。253254257回歸系數(shù)的解釋b1=0.0611當(dāng)送貨次數(shù)不變時(shí),行駛里程每增加1英里,行駛時(shí)間期望的估計(jì)值增加0.0611小時(shí)。b2=0.9234當(dāng)行駛里程不變時(shí),送貨次數(shù)每增加1次,行駛時(shí)間期望的估計(jì)值增加0.9234小時(shí)。258例:房屋售價(jià)一個(gè)房地產(chǎn)經(jīng)紀(jì)人認(rèn)為房屋的售價(jià)可由房屋的面積、臥室的個(gè)數(shù)和批量的大小來預(yù)測。他隨機(jī)選取了100座房屋并收集數(shù)據(jù)如下:259260多重共線性問題在多元線性回歸模型中,多重共線性性(Multicollinearity)是指自變量之間存在線性相關(guān)的關(guān)系。多重共線性存在時(shí)會(huì)使得系數(shù)估計(jì)的標(biāo)準(zhǔn)誤差增大,從而使得相應(yīng)的t統(tǒng)計(jì)量減小和p值增加。我們將無法確定任一自變量對(duì)因變量的單獨(dú)影響。單個(gè)系數(shù)的符號(hào)可能與實(shí)際不符。261識(shí)別多重共線性性自變量的相關(guān)矩陣:樣本相關(guān)系數(shù)的絕對(duì)值大于0.7。方差膨脹因子(VarianceInflationFactors,
簡記作VIF):刻畫了相比多重共線性不存在時(shí)回歸系數(shù)估計(jì)的方差增大了多少。VIF越大說明多重共線性問題越嚴(yán)重。經(jīng)驗(yàn)法則:VIF>10262263例:Johnson過濾水股份公司
Johnson公司對(duì)遍步南弗羅里達(dá)州的水過濾系統(tǒng)提供維修服務(wù)。為了估計(jì)服務(wù)時(shí)間和成本,公司希望能夠?qū)︻櫩偷拿恳淮尉S修請(qǐng)求預(yù)測必要的維修時(shí)間。他們收集的數(shù)據(jù)中包含最近一次維修至今的時(shí)間(月數(shù))、故障的類型(電子和機(jī)械)以及相應(yīng)的維修時(shí)間(小時(shí))。你能夠建立起一個(gè)預(yù)測方程嗎?264定性的自變量引入虛擬變量(DummyVariable)如何定義虛擬變量?例:x=0(女性),x=1(男性)
x=0(機(jī)械類),x=1(電子類)如何解釋回歸模型?
265建立維修時(shí)間的回歸方程二元回歸方程解釋你得到的回歸方程!
藍(lán)色為電子類,紅色為機(jī)械類267診斷你的模型:殘差分析殘差分析不僅被用于判斷你對(duì)模型中誤差項(xiàng)所設(shè)的假定是否符合,而且還可以檢測出異常值和有影響的點(diǎn)。殘差圖:由橫軸為自變量或者因變量的預(yù)測值、縱軸為殘差或者學(xué)生化殘差組成的散點(diǎn)圖。268識(shí)別影響點(diǎn)、異常值識(shí)別影響點(diǎn)的方法:杠桿率比較大(大于3(p+1)/n),或者Cook距離D比較大(>1).檢測異常值的方法:散點(diǎn)圖;利用學(xué)生化標(biāo)準(zhǔn)殘差基本服從標(biāo)準(zhǔn)正態(tài)分布來檢測(落在2個(gè)標(biāo)準(zhǔn)差之外時(shí))。識(shí)別之后:建議應(yīng)該同時(shí)報(bào)告包含影響點(diǎn)和除去影響點(diǎn)的兩種回歸結(jié)果。269其它的內(nèi)容使用殘差檢驗(yàn)誤差項(xiàng)的正態(tài)性;使用殘差來分析誤差項(xiàng)的獨(dú)立性:Durbin-Watson統(tǒng)計(jì)量d
殘差對(duì)時(shí)間的散點(diǎn)圖270Durbin-Watson檢驗(yàn)271Howdoestheweatheraffectthesalesofliftticketsinaskiresort?Dataofthepast20yearssalesoftickets,alongwiththetotalsnowfallandtheaveragetemperatureduringChristmasweekineachyear,wascollected.ThemodelhypothesizedwasTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+e
Regressionanalysisyieldedthefollowingresults:ExampleThemodelseemstobeverypoor:
Thefitisverylow(R-square=0.12),Itisnotvalid(Signif.F=0.33)Novariableissignificant273TheerrorsmaybenormallydistributedResidualovertimeResidualvs.predictedyTheerrorsarenotindependentTheerrorvarianceisconstantThemodifiedregressionmodelTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+b3YEARS+eAlltherequiredconditionsaremetforthismodel.ThefitofthismodelishighR2=0.74.Themodelisuseful.SignificanceF=5.93E-5.
SNOWFALLandYEARSaresignificant.TEMPERATUREisnotsignificant.276“沒有哪一個(gè)模型是對(duì)的,但是的確有一些模型是好的?!被貧w模型的建立277一般線性模型
模擬曲線關(guān)系交互作用包含因變量的變換內(nèi)蘊(yùn)線性的非線性模型278模擬曲線關(guān)系例:雷諾茲公司管理人員希望對(duì)公司銷售人員工作年限的長短和電子實(shí)驗(yàn)室天平的銷售數(shù)量之間的關(guān)系進(jìn)行調(diào)研。282交互作用例:泰勒為他的一種新的洗發(fā)產(chǎn)品進(jìn)行的回歸研究。284285286考慮交互作用的模型建立下面的模型怎樣檢驗(yàn)交互作用是否存在?H0:
=0287過原點(diǎn)的回歸變量間的真正關(guān)系;自變量和為一常數(shù);數(shù)據(jù)已中心化。288包含因變量的變換經(jīng)常用來修正非常數(shù)方差。常用變換:對(duì)數(shù)倒數(shù)例:汽車每加侖行使里程與重量的關(guān)系。289內(nèi)蘊(yùn)線性的非線性模型常見于指數(shù)模型290自變量的選擇逐步回歸必須預(yù)先為F統(tǒng)計(jì)量設(shè)定終止值:Fenter,Fremove最佳子集291總結(jié):如何建立一個(gè)回歸模型?1、正確選擇自變量和因變量(需要考慮交互作用嗎?是否需要進(jìn)行必要的變換?需要虛擬變量嗎?);2、正確使用計(jì)算機(jī)軟件建立回歸模型;3、查看殘差圖(線性假設(shè)成立嗎?存在異方差嗎?有異常值或影響點(diǎn)存在嗎?);4、判斷是否存在多重共線性問題;292總結(jié):如何建立一個(gè)回歸模型?5、小心地處理系數(shù)的p值比較大的變量,區(qū)別VIF比較大和VIF比較小的情況。切記:你不應(yīng)該馬上把那些p值較大的自變量都消除!6、你可以嘗試使用軟件提供的變量選擇過程建立模型。(但是你要明白選擇出什么樣的模型仍然是由你來控制的。)7、無論如何再回到第3步都是有益的!
293第十二講案例研究294案例1:HOTDOG!
Dubuque是一家熱狗生產(chǎn)廠家,他們最近收到信息說,BallPark,一家與他們競爭的品牌,將會(huì)降低他們熱狗的價(jià)格。公司內(nèi)部圍繞這是否會(huì)給他們現(xiàn)在的市場份額帶來負(fù)面影響展開了爭論,有人認(rèn)為應(yīng)該采取相應(yīng)的措施來保護(hù)已有的市場份額,也有人說OscarMayer才是他們的主要競爭對(duì)手,可以不必采取任何措施。你覺得應(yīng)該如何處理這一問題?295LaQuintaMotorInnsisplanninganexpansion.Managementwishestopredictwhichsitesarelikelyt
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度合作建房項(xiàng)目竣工驗(yàn)收合同范本
- 2025年度建筑涂料工程招投標(biāo)代理與咨詢服務(wù)合同
- 2025年度智能家電研發(fā)生產(chǎn)合同協(xié)議書標(biāo)準(zhǔn)格式
- 貴州2025年貴州省市場監(jiān)管局所屬事業(yè)單位招聘39人筆試歷年參考題庫附帶答案詳解
- 蚌埠2025年安徽馬鞍山和縣中學(xué)招聘勞務(wù)派遣制教師筆試歷年參考題庫附帶答案詳解
- 牡丹江2024年黑龍江牡丹江市直事業(yè)單位集中選調(diào)15人筆試歷年參考題庫附帶答案詳解
- 淮安2024年江蘇淮安市公安局經(jīng)濟(jì)技術(shù)開發(fā)區(qū)分局招聘警務(wù)輔助人員15人筆試歷年參考題庫附帶答案詳解
- 沈陽2025年遼寧沈陽市渾南區(qū)事業(yè)單位博士招聘36人筆試歷年參考題庫附帶答案詳解
- 柳州2025年廣西柳州市事業(yè)單位招聘2077人筆試歷年參考題庫附帶答案詳解
- 昆明2025年云南昆明市晉寧區(qū)人民政府辦公室招聘編外工作人員筆試歷年參考題庫附帶答案詳解
- GB/T 26189.2-2024工作場所照明第2部分:室外作業(yè)場所的安全保障照明要求
- 新教科版一年級(jí)科學(xué)下冊第一單元《身邊的物體》全部課件(共7課時(shí))
- 2025年中國水解聚馬來酸酐市場調(diào)查研究報(bào)告
- 高考百日誓師動(dòng)員大會(huì)
- 2025江蘇常州西太湖科技產(chǎn)業(yè)園管委會(huì)事業(yè)單位招聘8人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年北京控股集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 2024年北京東城社區(qū)工作者招聘筆試真題
- 2024新人教版初中英語單詞表默寫版(七~九年級(jí))
- 體育科學(xué)急救知識(shí)
- 復(fù)工復(fù)產(chǎn)質(zhì)量管理工作
- 2025年東方電氣集團(tuán)東方鍋爐股份限公司校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
評(píng)論
0/150
提交評(píng)論