假設(shè)測定一個(gè)樣本之假設(shè)測定_第1頁
假設(shè)測定一個(gè)樣本之假設(shè)測定_第2頁
假設(shè)測定一個(gè)樣本之假設(shè)測定_第3頁
假設(shè)測定一個(gè)樣本之假設(shè)測定_第4頁
假設(shè)測定一個(gè)樣本之假設(shè)測定_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章假設(shè)測定:一個(gè)樣本之假設(shè)測定壹、 本單元目標(biāo)1、 說明假設(shè)測定(hypothesis testing)的邏輯。2、 定義並解釋假設(shè)測定所涉及之關(guān)鍵概念,特別是虛無假設(shè)(the null hypothesis)、抽樣分配、顯著水準(zhǔn)(the level)、測定統(tǒng)計(jì)(the test statistic)。3、 解釋何謂拒絕虛無假設(shè)或無法拒絕虛無假設(shè)。4、 說明何時(shí)適用一個(gè)樣本的假設(shè)測定。5、 以5個(gè)步驟來測定一個(gè)樣本平均數(shù)及比例之顯著度,並說明測定結(jié)果的意義。6、 說明一尾及兩尾測定之不同,並解釋兩者各自適用的時(shí)機(jī)。7、 定義並解釋Type I及Type II錯(cuò)誤,並連結(jié)這些概念與 leve

2、l的關(guān)係。貳、導(dǎo)論上個(gè)單元介紹以樣本統(tǒng)計(jì)值估計(jì)母數(shù)的一些基本技巧。自本單元起,則開始談推論統(tǒng)計(jì)的另一個(gè)大任務(wù),即假設(shè)測定(hypothesis testing)或顯著測定(significance testing)。在此,先就和一個(gè)樣本有關(guān)之假設(shè)測定加以討論。何種情況會(huì)用到一個(gè)樣本的假設(shè)測定呢?以下是三個(gè)適用此類假設(shè)測定例子:1、一個(gè)研究者想要知道老人成為犯罪被害人的比例,是比一般人多或少。如果研究者抽樣得到一個(gè)老人樣本,也從政府得到去年全部人口中犯罪被害人的比例時(shí),就可以進(jìn)行一個(gè)樣本的假設(shè)測定。2、住宿生的平均成績是否與整體學(xué)生的平均成績不同?研究者可以對(duì)住宿生進(jìn)行樣本,然後與學(xué)校提供的整體

3、學(xué)生的成績資料做比較。3、研究者想要知道某市一項(xiàng)協(xié)助酗酒者的方案是否有效時(shí),此研究者可以對(duì)此方案服務(wù)的所有案主進(jìn)行抽樣,並詢問其包括工作情況在內(nèi)的各項(xiàng)資料。如果此研究者發(fā)現(xiàn)參與此方案的案主與全市工作人口相比,其全年沒有去工作的天數(shù)比較少時(shí),研究者可以用一個(gè)樣本的假設(shè)測定的推論統(tǒng)計(jì),來看是否經(jīng)過方案協(xié)助的酗酒者,在工作上是否與一般人一樣可靠。上述的例子,都是研究者在成本或時(shí)間等因素的限制下,以隨機(jī)抽樣方式得到一個(gè)樣本後,就此樣本的某一特性,進(jìn)行與母群體的特性做比較。要注意的是,我們所關(guān)心的,並不是樣本本身,而是此樣本所來自的團(tuán)體(老人、住宿生、參與方案的酗酒者)。我們想知道的是,此樣本所來自的團(tuán)

4、體的某一特性,是否與母群體在同一特性(犯罪受害比例、平均成績、全年工作天數(shù))上有所不同。貳、 假設(shè)測定的邏輯簡言之,一個(gè)樣本假設(shè)測定的推論任務(wù),是根據(jù)一個(gè)來自某一更大團(tuán)體的隨機(jī)樣本與一個(gè)母群體間比較的結(jié)果,來推論此團(tuán)體是否與母群體在某一特性上不同。例如,如果研究者以假設(shè)測定的作法,發(fā)現(xiàn)抽樣得到之127位參與協(xié)助酗酒者方案的全年工作缺席平均天數(shù)為6.8天,而整個(gè)城市工作人口的平均工作缺席天數(shù)()是7.2天,標(biāo)準(zhǔn)差()是1.43。則此研究者可以推論,整個(gè)參與協(xié)助方案者的平均缺席天數(shù)是顯著比整個(gè)人口來的少。所有參與方案者(?)全市工作者( 7.2;1.43)參與方案者樣本 ( 6.8)相同或不同?由

5、所有參與者中抽樣7.2與6.8是否達(dá)統(tǒng)計(jì)顯著差異?圖1 一個(gè)樣本平均數(shù)的假設(shè)測定這裡所謂的顯著(significant)是一個(gè)統(tǒng)計(jì)觀念,其意思是我們樣本與全市工作人口間在平均缺席天數(shù)上的差異,並不可能是隨機(jī)(random chance)造成的。之所以有此說法,是因?yàn)槲覀兊玫降臉颖局皇撬锌赡軜颖局械囊粋€(gè)。我們得到的樣本即使是以EPSEM程序抽樣而得的,也並不能絕對(duì)保證代表性。因此,我們以一個(gè)樣本來做任何推論時(shí),都有些不確定性。推論統(tǒng)計(jì)的好處,就是可以讓我們針對(duì)推論結(jié)果,估計(jì)出我們可能犯錯(cuò)的機(jī)率。以圖1所示意的為例,當(dāng)樣本得到的平均缺席天數(shù)與母群體不同時(shí),研究者要問的是:這個(gè)差異是真的嗎?還是因

6、為random chance所造成的?換言之,我們有兩個(gè)可能的解釋(或假設(shè)):解釋1:樣本平均數(shù)與全市工作者平均數(shù)的差異真的是反映了全部參與方案者與全市工作者間的差異。也可以說,樣本所來自的母群體並不是來自一個(gè)平均缺席天數(shù)為7.2天的母群體。解釋2:我們觀察到的差異是random chance所造成的。換言之,我們看到的差異並不大。有此可能性,是因?yàn)橹灰勒胀瑯拥某闃舆^程而得到的樣本,就相當(dāng)可能會(huì)得到這種大小的差異。因此,全部參與方案者與全市工作者在平均缺席天數(shù)是一樣的。以上兩個(gè)解釋,何者為正確的?在假設(shè)測定的過程中,我們是以解釋2為正確的,做為假設(shè)測定的起點(diǎn)。也就是說,我們是假設(shè)參與方案者的

7、全年平均缺席天數(shù)是7.2天(亦即7.2;事實(shí)上這也是目前對(duì)於母群體唯一能掌握的訊息)。在此假設(shè)下,我們就可進(jìn)一步的計(jì)算出,從這樣的一個(gè)母群體中,得到一個(gè)平均數(shù)是6.8之樣本的機(jī)率有多大。在判定是否要拒絕解釋2以前,我們要先立下做客觀判斷的規(guī)則。這個(gè)規(guī)則就是要先決定當(dāng)?shù)玫竭@種樣本的機(jī)率是多大時(shí),我們就會(huì)拒絕或不拒絕解釋2。從保守的角度出發(fā),如果我們要拒絕解釋2的話,那就應(yīng)該在將此樣本發(fā)生的機(jī)率定的偏低,如低過百分之5(p0.05)的情況下,才會(huì)拒絕解釋2。換言之,在做假設(shè)測定時(shí),我們是在賭說,如果我們實(shí)際得到之樣本的發(fā)生機(jī)率相當(dāng)偏低,那麼我們比較有信心認(rèn)為這個(gè)樣本並非來自所假定的母群體。我們?nèi)绾?/p>

8、在假設(shè)解釋2為正確的前提下,計(jì)算出樣本平均數(shù)是6.8的發(fā)生機(jī)率呢?這時(shí)就要用到由所有可能樣本所組成之抽樣分配的知識(shí)了。依照中央極限定理樣本平均數(shù)之抽樣分配的平均數(shù)也是7.2(=),而且此抽樣分配之標(biāo)準(zhǔn)差(。知道這些知識(shí)後,下一步就要利用我們對(duì)於標(biāo)準(zhǔn)化常態(tài)分配的知識(shí)。首先,我們知道當(dāng)一個(gè)樣本平均數(shù)發(fā)生機(jī)率小於0.05時(shí),在標(biāo)準(zhǔn)化常態(tài)分配中,如果將此機(jī)率等分在兩尾,則相對(duì)應(yīng)的Z分?jǐn)?shù)是±1.96。當(dāng)我們在解釋2的假定下,換算我們得到的樣本平均數(shù)6.8為Z分?jǐn)?shù)時(shí),是以- 3.15。以圖來看,就如下圖所示:圖2 樣本平均數(shù)之抽樣分配及相對(duì)應(yīng)之Z分?jǐn)?shù)由圖2可看出,當(dāng)假設(shè)解釋2為正確的前提下,一個(gè)

9、樣本之時(shí),其發(fā)生的機(jī)率是小於0.05的。所以,在此情況下,我們就可以推論說,這個(gè)127名參與方案者的樣本,在工作缺席天數(shù)的特性上,是來自一個(gè)與全市工作者不同的母群體。也就是說,我們可以拒絕解釋2。做此推論時(shí),我們要記得這推論是建立在一個(gè)隨機(jī)樣本的資訊上。雖然機(jī)率不大,但此樣本有可能並不具代表性,因而我們?nèi)钥赡茏龀鲥e(cuò)誤的推論。但是只要依照假設(shè)測定的一定步驟,我們也知道,從長遠(yuǎn)的角度看,犯錯(cuò)的機(jī)率是只有0.05。換言之,我們拒絕解釋2,但解釋2卻是正確的可能性,是100次中只有5次有此可能。參、假設(shè)測定的五個(gè)步驟總言之,一個(gè)樣本假設(shè)測定的任務(wù)是在決定了允許犯下推論錯(cuò)誤的機(jī)率(即 level)後,我

10、們要決定是否此樣本是來自具有某些特性(如有某值,或P 值)的母群體。如果說,樣本之某特性和母數(shù)在一定機(jī)率誤差(a probability of error)之水準(zhǔn)下相差夠大,我們可以推論說此樣本並非來自此母群體(從另一角度來看,雖然這樣本是由此母群抽樣得來的,但此母群內(nèi)有些異質(zhì)的群體,此群體的特性與母群整體的或平均的特性不同,故可視為是另一種母群體),或是說此樣本在此一特性方面不能代表母群體,這些情況都可說是此樣本特性與母數(shù)在統(tǒng)計(jì)上有顯著差異(the difference is statistically significant)。自然,要能做以上之推論的基本前提是我們要知道母群體之一些特性,

11、在此單元討論的特性是樣本與母群之平均數(shù)及比例,要測定的也就是樣本與母群體間平均數(shù)及比例的差異。比較差異之基礎(chǔ)就是建立在我們對(duì)於樣本平均數(shù)及樣本比例之抽樣分配的性質(zhì)的了解上。以樣本平均數(shù)(sample means)的抽樣分配來說,我們知道其平均數(shù)為母數(shù),而其標(biāo)準(zhǔn)差為(即),我們?nèi)羰怯梢荒溉褐须S機(jī)抽一樣本,此樣本之只是s (所有可能的樣本平均數(shù))之抽樣分配中的其中一個(gè)而已,而且就我們對(duì)樣本平均數(shù)抽樣分配的瞭解,絕大部份的樣本平均數(shù)會(huì)在其抽樣分配之平均數(shù)(也就是母數(shù))的 ±2 個(gè)標(biāo)準(zhǔn)差之內(nèi)。因此,一個(gè)隨機(jī)抽樣而得到的樣本的平均數(shù)與母數(shù)略有差異並不是非常不可能的事。而從事一個(gè)樣本及母群體平均

12、數(shù)之假設(shè)測定,就是要決定是否此樣本之離開十分的遠(yuǎn),遠(yuǎn)到此出現(xiàn)的機(jī)率是很小。從事假設(shè)測定的任務(wù)可以分成五個(gè)步驟。以下即以另一例子來進(jìn)一步說明和一個(gè)樣本有關(guān)之假設(shè)測定的五個(gè)步驟:例有人認(rèn)為住校生的成績一般而言較好,有些人則認(rèn)為較差。因此某研究者即由住校生中以簡單隨機(jī)抽樣法選出100人,然後又從教務(wù)處得到全校學(xué)生之成績,做成以下之資料:全校學(xué)生住校生 70 (?) 2.5 N100要測定住校生的成績是否和全校學(xué)生不同,我們可以下列五個(gè)步驟來做假設(shè)測定:1、列出基本假定(making assumptions),並確定符合做此測定的要求;2、說明虛無假設(shè)(stating the null hypothe

13、sis)3、選出抽樣分配及建立臨界區(qū)(selecting the sampling distributionand establishing the critical region);4、算出測定統(tǒng)計(jì)(computing the test statistic);5、做出決定(making a decision),並解釋測定結(jié)果。 以下就以上面的例子來看這五個(gè)步驟:1、列出基本假定(假定就是我們暫時(shí)不去懷疑的事情,而假設(shè)是我們要驗(yàn)證的),並確定符合做此測定的要求:當(dāng)我們從事一個(gè)樣本的假設(shè)測定時(shí),必須符合三個(gè)條件:(1)我們的樣本是一個(gè)由母群體中依EPSEM抽樣方法得來的(事實(shí)上,我們所學(xué)的所有統(tǒng)

14、計(jì)分析都必須符合此條件);(2)如果我們要做平均數(shù)之假設(shè)測定,自然要進(jìn)一步假定說資料是以等距比率尺度測量而得,或是依我們設(shè)計(jì)的變項(xiàng)所測量得到的資料是等距比率尺度的;(3)我們要假定樣本平均數(shù)之抽樣分配是一常態(tài)分配(在樣本數(shù)夠大時(shí),依中央極限定理可做此假定),通常我們將這些基本假定以下列方式列出: 模式(Model):隨機(jī)抽樣(Random sampling) 測量尺度是等距比率(Level of measurement is interval-ratio) 抽樣分配是常態(tài)的(Sampling distribution is normal)2、說明虛無假設(shè)(Ho):所謂虛無假設(shè)(the null

15、 hypothesis)就是前述解釋2的正式名稱,也就是認(rèn)為樣本特性與母數(shù)無差別的假設(shè)。換言之,在和一個(gè)樣本有關(guān)的假設(shè)測定中(在別種假設(shè)測定情況下,虛無假設(shè)之形式會(huì)有所不同),其虛無假設(shè)即為樣本是由具某一特性之母群中得來的。以我們的例子而言,虛無假設(shè)就是住校生之平均成績與全校學(xué)生無異,亦即70分與分之差別可歸因於random chance。在形式上,虛無假設(shè)是以 Ho:70 來表示(此處之是指對(duì)住校生之成績之假定,做此假定的根據(jù)是認(rèn)為住校生的成績與全校學(xué)生的相同)。指出虛無假設(shè)為何是假設(shè)測定中的核心部份,因?yàn)檎麄€(gè)假設(shè)測定就是在決定是否要拒絕虛無假設(shè)。相對(duì)於虛無假設(shè)的是所謂的研究假設(shè)(resea

16、rch hypothesis)。通常研究者當(dāng)然是希望拒絕虛無假設(shè),而研究者所相信的假設(shè)(如樣本與母群體的差異是真的)就是研究假設(shè)。研究假設(shè)可以幾種型式出現(xiàn),其中最簡單的,就是假設(shè)樣本所來自的母群體並沒有(或不同於)虛無假設(shè)所假定之母群體的特性。但首先要指出的是,研究假設(shè)在假設(shè)測定中並無正式地位(除以下所說之一尾或兩尾測定時(shí))。通常我們的研究假設(shè)是以 (H1: 70) 這種型式來表示將H1放在( )內(nèi),即突顯其非正式地位。3、選擇抽樣分配及建立臨界區(qū):一個(gè)樣本特性(如平均數(shù))是否出現(xiàn)的機(jī)率很小,是以此特性之抽樣分配來衡量。在假定虛無假設(shè)為真的條件下,透過抽樣分配,我們可以知道此樣本值出現(xiàn)之機(jī)率有

17、多大(要特別注意的是,抽樣分配有好幾種;在此,我們僅針對(duì)樣本平均數(shù)之抽樣分配做討論)。如我們已知,之抽樣分配是一種常態(tài)分配,其平均數(shù)為,標(biāo)準(zhǔn)差是(即)。此外,我們進(jìn)一步選擇標(biāo)準(zhǔn)常態(tài)分配(即Z分配)來進(jìn)行假設(shè)測定的工作。因?yàn)槔肸分配,我們可以清楚的知道樣本平均數(shù)抽樣分配各部份的面積,並可配合以下所說臨界區(qū)的設(shè)定來進(jìn)行假設(shè)測定的工作。而所謂的臨界區(qū)(the critical region),即我們事先決定抽樣分配所涵蓋之區(qū)域中,那一部份的區(qū)域是表示樣本特性不太可能發(fā)生之區(qū)域。更具體的說,以之抽樣分配為例,我們可以先決定某個(gè)抽樣分配區(qū)域或面積(通常很?。?,而此區(qū)域即為一種發(fā)生的機(jī)率,而此機(jī)率因?yàn)楹?/p>

18、小,所以我們可以說,如果虛無假設(shè)為真,則在此虛無假設(shè)下的抽樣分配中,得到此樣本平均數(shù)是不太可能發(fā)生的(亦即,有此種平均數(shù)之樣本被抽到之機(jī)會(huì)很?。4朔N臨界區(qū)亦稱拒絕區(qū)(the region of rejection)在樣本平均數(shù)之抽樣分配是以Z分?jǐn)?shù)來決定此區(qū)域之起點(diǎn),此種Z分?jǐn)?shù)被稱為Z(臨界) Z (critical)。圖3樣本平均數(shù)之抽樣分配中之臨界區(qū)(兩尾測定,Z (critical) = )critical region critical region以上圖為例,Z (critical)即為,陰影部份即為對(duì)應(yīng)此Z (critical)之臨界區(qū)。由圖3亦可知臨界區(qū)通常為一極小之區(qū)域,我們事

19、實(shí)上是先決定此區(qū)域面積大小,以 level來表示,Z (critical)為時(shí), = 。其他常用的 level為0.1、0.01或0.001。建立臨界區(qū)的目的是,當(dāng)樣本特性(如平均數(shù))是落在此抽樣分配之區(qū)域時(shí),我們可以決定拒絕(reject) Ho為真(自然是在冒某種機(jī)率之錯(cuò)誤下)。以我們的例子來說抽樣分配Z分配(標(biāo)準(zhǔn)常態(tài)分配)Z (critical)4、計(jì)算測定統(tǒng)計(jì):此即為算出我們樣本特性發(fā)生的機(jī)率為何。以我們的例子來說,我們將樣本平均數(shù)換算成抽樣分配下之Z分?jǐn)?shù)(為何我們可以這麼做?研究一下基本假定),這Z分?jǐn)?shù)即為測定統(tǒng)計(jì)值(test statistic),亦稱Z (obtained)。因此

20、,當(dāng)樣本平均數(shù)為 ,其Z分?jǐn)?shù)之計(jì)算為: 72.5 - 70 = 10 / Z (obtained) = 10;換言之,離虛無假設(shè)所假定的母數(shù)70,有10個(gè)標(biāo)準(zhǔn)誤差之多。5、做出決定,並解釋測定結(jié)果既然換算成Z分?jǐn)?shù)後為10,而Z (critical)為 ,我們可知,Z (obtained) = 10是在Z = 之右邊,所以是落在臨界區(qū)內(nèi),因此我們必須拒絕Ho為真之假設(shè)。也就是說,住校生的成績並不是和全校生一樣。如果說Z (obtained)為1(如當(dāng) = 25,而非時(shí))的話,那我們就不能拒絕Ho,而必須說在 = 之顯著水準(zhǔn)下,在校生之成績與全校學(xué)生之成績間的差異並未達(dá)到統(tǒng)計(jì)上之顯著差異。以上所述

21、之假設(shè)測定的五個(gè)步驟是一個(gè)基本架構(gòu)。在此嚴(yán)格的架構(gòu)下,研究者尚需決定兩件重要的事情:1、 研究者必須要決定是否要做一尾(one-tailed)或兩尾(two-tailed)的假設(shè)測定;2、 要選擇 level。肆、一尾及兩尾假設(shè)測定選擇一尾或兩尾測定,是基於研究者對(duì)於樣本所來自的母群體有所預(yù)期。此預(yù)期是反映在研究假設(shè)(H1)的設(shè)定上。通常研究者是認(rèn)為研究假設(shè)為真,而想要拒絕虛無假設(shè)。在上述例子中,研究假設(shè)的形式是(H1:70)。這只是研究假設(shè)的兩種形式中的一種。這種形式所表示之假設(shè)測定,我們稱之為兩尾測定(a two-tailed test of significance)。這種形式之測定所表

22、達(dá)之意義是研究者並不確定母數(shù)真正的特性是否大於或小於虛無假設(shè)所設(shè)定之值,如樣本所來自之母群體的平均數(shù),可能是大於或是小於H0中所說之。在另一種情況下,如理論上所給予之某種期待,會(huì)引導(dǎo)研究者假設(shè)說真正之母數(shù)之值可能與虛無假設(shè)中所述之值間的差別有某種方向性,或研究者只關(guān)心往某一個(gè)方向的差別時(shí),研究者可以利用一尾的測定。一尾測定可以有兩個(gè)形式。當(dāng)研究者預(yù)期真正的母數(shù)是大於虛無假設(shè)所假定的值時(shí),則研究假設(shè)是以如(H1:70)的形式來表示。但是如果預(yù)期真正的母數(shù)是小於虛無假設(shè)所假定之值時(shí),則以如(H1:70)的形式表現(xiàn)。一尾測定常適用於評(píng)估某一解決問題或改善情況的方案是否有效。譬如說,研究者知道學(xué)校給住

23、校生額外之課業(yè)輔導(dǎo),因此不論70或70都不是研究者所期待的,在此情況下,研究者自是可以(H1:70)之研究假設(shè)做為H 之a(chǎn)lternative hypothesis。這種情況之假設(shè)測定,即為一尾測定。在前述五個(gè)步驟假設(shè)測定的架構(gòu)下,做一尾或兩尾測定的選擇時(shí),會(huì)影響到第3步驟有關(guān)抽樣分配之臨界區(qū)的設(shè)定。做兩尾測定時(shí),臨界區(qū)是平分在抽樣分配的兩個(gè)尾端。而做一尾測定時(shí),在同樣之顯著水準(zhǔn)下,如,臨界區(qū)是放在抽樣分配之一端,而非平分放在兩端,而Z (critical)是,或(見圖4a、4b)。圖4a一尾測定,Z (critical) critical region 圖4b一尾測定,Z (critical

24、)critical region 如圖4a所示,當(dāng)研究者認(rèn)為母數(shù)應(yīng)是大於時(shí),Z (critical)在時(shí),是在處。與在下做兩尾測定時(shí)相比較,一尾測定之臨界區(qū)較接近抽樣分配之平均數(shù),因此如果研究者預(yù)測之方向正確,則拒絕H之機(jī)率增加。(當(dāng)然,如果事實(shí)是正好相反的話,拒絕H之機(jī)會(huì)是0)伍、選擇水準(zhǔn)(顯著水準(zhǔn))我們除了可以選擇做一尾或兩尾測定外,研究者也要決定臨界區(qū)之大小,亦即水準(zhǔn)。只是一般研究者常用之水準(zhǔn),另外也有人用、或。我們決定水準(zhǔn)也就是決定(或定義)什麼樣之樣本特性之值是不太可能發(fā)生的,如果我們樣本特性之值發(fā)生之機(jī)率是小於水準(zhǔn)時(shí)(也就是落如臨界區(qū)時(shí)),我們會(huì)拒絕H,因此水準(zhǔn)之選擇就決定了我們是

25、否拒絕虛無假設(shè)(H)的機(jī)率。由於我們可能永遠(yuǎn)不知道我們所得到的樣本是否為一具代表性之樣本,因此當(dāng)我們以樣本特性之值為基礎(chǔ)計(jì)算測定統(tǒng)計(jì),然後據(jù)以判斷是否其所來自的母群體之特性的值與虛無假設(shè)相同或相異時(shí),永遠(yuǎn)有一不確定性,也就是有犯錯(cuò)之可能。Type I error在假設(shè)測定中,如果我們因測定統(tǒng)計(jì)是在臨界區(qū)內(nèi),而決定拒絕H,但H事實(shí)上是為真時(shí),我們就犯了錯(cuò)誤。這種錯(cuò)誤,我們稱之為第一類錯(cuò)誤(Type I error)或Alpha錯(cuò)誤。犯Type I error之機(jī)率即為。為了避免這種錯(cuò)誤,我們自應(yīng)用一很小的值(如),所以一旦水準(zhǔn)決定後,我們即將抽樣分配內(nèi)所包含之樣本特性之值分成兩類。在臨界區(qū)內(nèi)的,

26、我們認(rèn)定為不太可能發(fā)生之值,並據(jù)以做出拒絕H之決定。另一類則被認(rèn)為是非不太能會(huì)發(fā)生者。當(dāng)值愈小時(shí),臨界區(qū)也就越小,離開以虛無假設(shè)為真之前提下所選擇之抽樣分配的平均數(shù)也就越遠(yuǎn),我們自然也就愈難拒絕H。Type II error但世界是充滿矛盾的,因?yàn)楫?dāng)我們設(shè)定很小之水準(zhǔn)(顯著水準(zhǔn))想儘量避免犯第一類錯(cuò)誤時(shí),我們卻相對(duì)的增加了犯下另一種錯(cuò)誤之可能。因?yàn)楫?dāng)我們增加非臨界區(qū)的面積時(shí),我們就減少了樣本統(tǒng)計(jì)測定之值落入臨界區(qū)的可能,而這種情況有可能使我們犯下第二類錯(cuò)誤(Type II error)或Beta錯(cuò)誤,也就是未能拒絕一個(gè)事實(shí)上為假之H的錯(cuò)誤。要特別注意的是犯第一類錯(cuò)誤的機(jī)率雖然是和犯第二類錯(cuò)誤之

27、機(jī)率成反比之關(guān)係,但是值(犯Type II error 之機(jī)率)並不是等於1。值的大小是以所謂統(tǒng)計(jì)考驗(yàn)力(power)來決定,一個(gè)統(tǒng)計(jì)測定之power即為1,這power與值、真正之母數(shù)、樣本數(shù)大小等有關(guān)。在此不做進(jìn)一步討論。表1可幫助我們了解H與、之關(guān)係。表1 H、之關(guān)係測定決定結(jié)果H實(shí)際為(如果我們知道的話)拒絕不能拒絕真Type I error (機(jī)率)決定正確假?zèng)Q定正確Type II error (機(jī)率)嚴(yán)格說來,我們只會(huì)犯一種錯(cuò)誤,或,但因我們常不知H所假設(shè)之母數(shù)的值為何,因此只能說犯錯(cuò)誤和犯錯(cuò)誤之機(jī)率是相對(duì)立的。再度要強(qiáng)調(diào)的是,值(顯著水準(zhǔn))的設(shè)定是以研究者之關(guān)心為主,沒有麼理由一

28、定要設(shè)定為,而非或或任何數(shù)字,什麼時(shí)候要設(shè)定極小的值昵?通常如果拒絕H有莫大影響或後果,如一種新藥經(jīng)測定後,拒絕了此新藥為無效之藥,但如經(jīng)採用卻可能有副作用,或一個(gè)提升學(xué)習(xí)效果的實(shí)驗(yàn)方案(如採取小班小校),如經(jīng)測定被認(rèn)為有效後,就會(huì)成為大規(guī)模實(shí)施的教育政策,但也會(huì)因此而大幅增加政府的教育預(yù)算等。此外,何時(shí)用一尾或兩尾測定,也必須由研究者根據(jù)理論或其它訊息來決定。陸、Students t分配以上討論之假設(shè)測定基本上是在涉及一個(gè)樣本平均數(shù),以及我們知道母群的標(biāo)準(zhǔn)差為何的情況下所做的測定。我們需要知道為多少,才能計(jì)算平均數(shù)抽樣分配的標(biāo)準(zhǔn)差(),並進(jìn)一步將樣本平均數(shù)轉(zhuǎn)成Z 分?jǐn)?shù)。但是我們常常並不知道到

29、底是多少。在此種情形下,我們就必須以樣本統(tǒng)計(jì)值來推估,但我們已知樣本標(biāo)準(zhǔn)差S如是以來計(jì)算,會(huì)是的biased estimator。因此,對(duì)S必須加以修正成以來計(jì)算的話,則此種樣本標(biāo)準(zhǔn)差(此處以來表示)是之unbiased estimator。所以在不知之情況下,我們以來代入之中而成 (也就等於S)。但我們也知道,以代,必須是在樣本數(shù)夠大(N 100)時(shí)才能這麼做。如果N100時(shí),怎麼辦呢?這就牽涉到了一種新的抽樣分配:Students t 分配(Students t distribution)。Students t 分配之表是列在教科書中之Appendix B,您可看到此表與早先之Z分配的表不

30、同。首先,在t 分配表的左側(cè),有一標(biāo)示為為df的欄,所謂df 即degrees of freedom(自由度),這df是和樣本數(shù)有關(guān),在t 分配中,df是N1,而t 分配之形狀,以及在某個(gè)水準(zhǔn)下臨界區(qū)之大小是和樣本數(shù)有關(guān)(見圖5)。Z distribution (df = )圖5當(dāng)df為3、6、時(shí)之 t分配曲線(df =時(shí),t分配的曲線與常態(tài)分配相同)第二不同處是水準(zhǔn)是列在表的頭兩列,一列是一尾測定時(shí)之值,另一列則為兩尾測定之值。t分配表另一個(gè)不同之處是表中所列之?dāng)?shù)值為t(critical)之?dāng)?shù)值,也就是標(biāo)定臨界區(qū)(面積)起始點(diǎn)之t分?jǐn)?shù)。所以,以之兩尾測定,而N = 30時(shí)為例,則df29,其

31、t(critical)值是,換言之,此測定之臨界區(qū)是由t開始,(如果您記得的話,在Z分配中,相對(duì)應(yīng)於兩尾測定之Z(critical))。由t分配表也可看出, 在之兩尾測定的情況下,當(dāng)df=1時(shí),t(critical)為±12.706。隨著df的增加,則t(critical)開始減小。且當(dāng)df120時(shí),t(critical)值在同樣.05兩尾測定的情況下,是和Z(critical)值相同的。以下為做Students t測定之例:如果一研究者由教務(wù)處得知全校學(xué)生之平均成績是70,而她經(jīng)隨機(jī)抽樣得到30位通勤生之成績平均為,S4 。她想要知道的是是否通勤生的樣本是由一個(gè)70的母群中取得的。全校學(xué)生通勤生 70 68.5 ? S4 N301、列出基本假定,並確定符合做此測定的要求Model : Ra

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論