第五章-測量效度(共12頁)_第1頁
第五章-測量效度(共12頁)_第2頁
第五章-測量效度(共12頁)_第3頁
第五章-測量效度(共12頁)_第4頁
第五章-測量效度(共12頁)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上第五章測量效度第一節(jié)效度概述一、 什么是效度(一)效度的概念效度是指一個測驗或量表實際能測出其所要測的心理特質的程度。例如,一個小學生數(shù)學測驗的成績若同時受到其數(shù)學和語文能力的影響(如,有的人看不懂題意等)則認為實際測到其所要測的特質(數(shù)學能力)的程度不高,因而它是個效度不高的數(shù)學測驗。(二)對效度概念的理解1、效度是一個相對概念。這種相對性表現(xiàn)在兩個方面:(1)效度是相對于一定的測量目的而言的。因為效度是指實測結果與所要測查的特質之間的吻合一致性程度,因此,一個測驗或量表是否有效主要是看它是否達到了測量目的。 測量某一特質有效的量表,若用它來測量另一種特質,則必然會

2、無效或效度極低。例如,測量身高很有效的鋼尺若用它來測量體重則必定無效。又如,人的測量智力很有效的量表若是用來測量性格則必定是效度不高的。(2)心理特質是較隱蔽的特性,只能通過他的行為表現(xiàn)來進行推測,因此,心理測量不可能達到百分之百的準確,而只能達到某種程度上的準確。不過,由于任何一個量表的編制都有其目的,所以在正常情況下,一個量表的效度也不會為零。例如,一個數(shù)學測驗,無論其文字表達如何艱深,它總能測到一定的數(shù)學能力,即總會有一定的效度,而不會效度為零。(3)判斷一個測量是否有效要從多方面收集證據。表面上看來,測量的效度就是實際測量的結果與我們所要測量的心理特性的吻合一致性程度,獲取效度的辦法也

3、就是拿實測結果與心理特性來比較。然而,心理特性是我們要測的東西,是未知的,通常也是比較抽象和隱蔽的。因此,不能把它直接拿來與結果比較,而必須先從多種角度把這種特性描述清楚。由于描述心理特性的角度可以是理論上的,也可以是實踐上的,途徑很多,因此,獲取測量效度的途徑也是多樣的。例如,智力測驗是否測得了人的智力,我們就可以從理論上做邏輯分析,也可以從他在工作、學習中的實際表現(xiàn)等許多方面加以證實。 (4) 效度和信度一樣,也是指一列測量的特性,也是一個構想概念。在測量理論中,效度被定義為:在一列測量中,與測量目的的有關真實變異數(shù)(由所要測量的變因引起的有效變異)與總變異數(shù)(實得變異數(shù))的比率,即:效度

4、=這里,代表測量的效度系數(shù),代表有效變異數(shù),代表總變異數(shù)。一個測驗的效度表明,在一組測驗分數(shù)中,有多大比例的變異是由測量的變因引起的。 根據公式=+,可以得到信度與效度的關系如下(一) 信度高是效度高的必要而非充分條件當隨機誤差的變異()減小時,真實分數(shù)的變異數(shù)增加,測驗信度()隨之提高。信度的提高只給有效變異數(shù)()的增加提供了可能,至于是否能提高效度,還要看系統(tǒng)誤差變異數(shù)()的大小??梢姡哦雀卟灰欢ㄐФ染透?。但一個測驗要想效度高,真分數(shù)的變異數(shù)必須占較大的比重,即測驗的信度必須高。(二)測驗的效度受它的信度制約根據效度和信度的定義( =,=)以及公式()可得到:=- <第二

5、節(jié) 效度的估計方法由于測量效度是就測量結果達到測量目的的程度而言的,所以測量效度的估計在很大程度上取決于人們對測量目的的解釋。目前比較常見的解釋角度有3種:一是用測量的內容來說明目的的;二是用心理學上某種理論結構來說明目的;三是用實際實效來說明目的。于是有了內容效度、結構效度和實證效度之說。當然,這種分類是相對的,一個測驗也許需要同時考察它在這3個方面的效度。有專家認為,效度估計就是多方尋找證據來證明一個測驗的有效性程度的過程。本章著重介紹內容效度、結構效度和實證效度的含義與估計方法。(一)內容效度的含義及應用范圍1、內容效度的含義內容效度是指一個測驗實際測到的內容與所要測量的內容之間的吻合程

6、度。估計一個測驗的內容效度就是去確定該測驗在多大程度上代表了所要測量的行為領域。而所要測量的內容或行為領域是依據測量目的而定的。比如,在判斷一個高中物理試卷是否有較高的內容效度時,我們必須首先分析考題是否有效地覆蓋了中學物理所包括的力學、電學、光學、熱學以及原子物理5個方面。內容效度高的物理測驗應當是由這5個方面最有代表性的試題樣本組成的。其次,我們還必須分析題目的難度等指標是否較好地反映了考試大綱中對這5個方面能力水平的要求,等等。2、內容效度的應用范圍(1)內容效度主要應用于成就測驗。因為成就測驗主要是測量被試掌握某種技能或學習某門課程所達到的程度的。在這種測驗中,題目取樣的代表性問題是內

7、容效度的主要考察方面。內容效度高,則可以把被試在該測驗上的分數(shù)推論到他在相應的知識總體上去,說他在某個方面水平處在一個什么樣的位置。反之,內容效度低,則這種推論將是無效的。(2)內容效度也適合于某些用于選拔和分類的職業(yè)測驗。這種測驗所要測的內容就是實際工作所需要的知識和技能,編制這種測驗應首先對實際工作做較細的分析,否則,題目取樣的代表性就難以令人滿意。3、應該注意的幾點(1)內容效度不適合用于能力傾向測驗和人格測驗。(2)在使用內容效度時要避免與表面效度相混淆。表面效度是外行人對某個測驗從表面上看好像是測某種心理特質的一種現(xiàn)象。當外行人認為某個測驗能有效地測得某種心理特質時,該測驗就被認為有

8、較高的表面效度。一般來說,最佳行為測驗往往表面效度高,其他測驗則希望表面效度低。(二)內容效度的確定方法1、邏輯分析法內容效度的確定方法主要是邏輯分析法,其工作思路是請有關專家對測驗題目與原定內容范圍的吻合程度作出判斷。其具體步驟是:(1)明確欲測內容的范圍明確欲測內容的范圍包括知識范圍和能力要求兩個方面。這種范圍的確定必須具體、詳細,并要根據一定目的規(guī)定好各綱目的比例。(2)確定每個題目所測的內容確定每個題目所測的內容,并與測驗編制者所列的雙向細目表(考試藍圖)對照,逐題比較自己的分類與制卷者的分類,并做記錄。(3)制訂評定量表制訂評定量表,考察題目對所定義的內容范圍的覆蓋率、判斷題目難度與

9、能力要求之間的差異,還要考察各種題目數(shù)量和分數(shù)的比例以及題目形式對內容的適當性等等,對整個測驗的有效性作出總的評價。2、克龍巴赫的統(tǒng)計分析方法克龍巴赫還提出過內容效度的統(tǒng)計分析方法。其具體方法是:從同一個教學內容總體中抽取出兩套獨立的平行測驗,用這兩個測驗來測同一批被試,求其相關。若相關低,則兩個測驗中至少有一個缺乏內容效度;若相關高,則測驗可能有較高的內容效度(除非兩個測驗取樣偏向同一個方面)。3、再測法再測法的操作過程是:在被試學習某種知識之前作一次測驗(如學習電學之前考電學知識),在學過該知識后再作同樣的測驗。這時,若后測成績顯著優(yōu)于前測成績,則說明所測內容正是被試新近所學內容,進而證明

10、該測驗對這部分內容而言具有較高的內容效度。二、結構效度(一)結構效度的含義、特點與應用范圍1、結構效度的含義結構效度是指一個測驗實際測到所要測量的理論結構和特質的程度,或者說它是指測驗分數(shù)能夠說明心理學理論的某種結構或特質的程度。這里,構想或結構是指心理學理論所涉及到的抽象而屬假設性的概念或特質,如智力、焦慮、外向、動機等等,它們通常用某種操作來定義,并用測驗來測量。2、結構效度的特點(1)結構效度的大小首先取決于事先假定的心理特質理論。一旦人們對同一種心理特質有著不同的定義和假設,則會使得關于該特質測驗的結構效度的研究結果無法比較。(2)當實際測量的資料無法證實我們的理論假設時,并不一定就表

11、明該測驗結果效度不高,因為還有可能出現(xiàn)理論假設不成立,或者該實驗設計不能對該假設作適當?shù)臋z驗等情況。這就使得結構效度的獲取很難。(3)結構效度是通過測量什么、不測量什么的證據累積起來給予確定的,因而不可能有單一的數(shù)量指標來描述結構效度。3、結構效度的應用范圍與內容效度不同,結構效度主要用于智力測驗、人格測驗等一些心理測驗方面。(二)結構效度的確定方法1、確立結構效度的步驟(1)提出理論假設,并把這一假設分解成一些細小的綱目,以解釋被試在測驗上的表現(xiàn)。(2)依據理論框架,推演出有關測驗成績的假設。(3)用邏輯的和實證的方法來驗證假設。2、結構效度的估計方法(1)測驗內部尋找證據法。首先,我們可以

12、考察該測驗的內容效度,因為有些測驗對所測內容或行為范圍的定義或解釋類似于理論構想的解釋,所以,內容效度高實質上也說明結構效度高。其次,我們可以分析被試的答題過程。若有證據表明某一題的作答除了反映著所要測的特質外,還反映著其他因素的影響,則說明該題沒有較好地體現(xiàn)理論構想,該題的存在會降低結構效度。再次,我們足可以通過計算測驗的同質性信度的方法來檢測結構效度。若有證據表明該測驗不同質,則可以斷定該測驗結構效度不高。當然,測驗同質只是結構效度高的必要條件。(2)測驗之間尋找證據法。首先,我們可以去考察新編測驗與已知的能有效測量相同特質的舊測驗之間的相關。若二者相關較高,則說明新測驗有較高的效度。這種

13、方法叫相容效度法。其次,我們也可以去考察新編測驗與某個已知的能有效測量不同特質的舊測驗間的相關。若二者相關較高,則說明新測驗效度不高,因為它也測到了其他心理特質。需要注意的是,二測驗間相關不高只是新測驗效度較高的必要條件,并不是充分條件。這種方法也叫區(qū)分效度法。再次,我們還可以通過因素分析的方法來了解測驗的結構效度。其原理是:通過對一組測驗進行因素分析,找出影響測驗的共同因素。每個測驗在共同因素上的負荷量(即測驗與各因素的相關)就是測驗的因素效度,測驗分數(shù)總變異中來自有關因素的比例即是該測驗結構效度的指標。(3)考察測驗的實證效度法。如果一個測驗有實證效度,則可以拿該測驗所預測的效標的性質與種

14、類作為該測驗的結構效度指標,至少可以從效標的性質與種類作為該測驗的結構效度指標。其做法有兩種:一是根據效標把人分成兩類,考察其得分的差異。例如,一組被公認是性格外向的人在測驗中得分較高,另一組被公認為是性格內向的人在測驗中的得分較低,則什么說明該測驗能區(qū)分人的內向與外向特征,進而說明該測驗在測量的性格內外向方法有較高的結構效度。二是根據測驗得分把分成高分組和低分組,考察這兩組人在所測特質方面是否確有差異。若兩組人在所測特質方面差異顯著,則說明高測驗有效,具有較高的結構效度。此外,對于一些被認為是較穩(wěn)定的特質,若在短期內兩次施測的結果差異不大,則說明該測驗符合理論構想。(4)多種特質-多種方法矩

15、陣法。該方法實質是相容效度和區(qū)分效度的綜合運用,其原理是若用多種極不相同的方法測量同一種特質相關很高(用極為相似的方法測量不同特質相關很低),則說明測量效度較高。例如,若有多種特質(如A、B、C)都接受了多種方法(如1、2、3)的測查,就可以分別計算出任意兩種方法測量同一特質的相關和測量不同特質的相關,以及任意兩種特質接受同一方法和不同方法的相關,并以這些相關系數(shù)為元素構成一個矩陣,如表5.1所示:表5.1 多特質多方法矩陣  Method 1Teacher ratingMethod 2TestsMethod 3Observers rating  A1B

16、1C1A2B2C2A3B3C3M1A1誠實(.89)        B1 攻擊性.43(.89)       C1智力.36.32(.76)      M2A2誠實.62.03.20(.93)     B2攻擊性.22.70.13.40(.94)    C2智力.10.13.64.22.30(.84

17、)   M3A3誠實.59.11.02.60.20.21(.94)  B3攻擊性.14.82-.16.13.61.23.30(.92) C3智力.21.10.72.06.19.52.49.36(.85) 在上表中,位于主對角線上的數(shù)值,是用同樣的方法測相同特質所得的相關,是信度指標;在實三角形內的數(shù)值,是用同樣方法測不同特質所得之相關。此相關若高,則說明方法間共同點較多;在虛線三角形內的數(shù)值,是用不同方法測量不同特質所得的相關,它一般較低,是特質與方法間交互影響的反映;在虛線三角形之間的兩條對角線上的數(shù)值,是用不同方法測相同

18、特質的相關,它是測驗效度的指標。  三、實證效度(一)實證效度的含義、種類及作用1、實證效度的含義實證效度是指一個測驗對處于特定情境中的個體的行為進行估計的有效性。也就是說,一個測驗十分有效,應該以實踐的效果來作為檢驗標準。如,當我們用機械能力傾向測驗測查了一大批機械工人之后,若有證據表明測驗高分組的實際工作成績確實優(yōu)于低分組的實際工作成績,則可以認為該測驗具有較高的實證效度。又如,在軍隊選拔汽車駕駛兵時,若用測驗選出來的兵在學習駕駛技術,以及日后的駕駛過程中的表現(xiàn)都大大好于以前未用測驗隨意指派的汽車兵,則表明該測驗也具有較高的實證效度。被估計的行為是檢驗測驗效度的標準,簡稱為效標。

19、實證效度主要重視那些與測驗獨立的效標行為,而不太注重測驗內容或結構。實證效度也稱效標關聯(lián)效度。2、實證效度的種類根據效標資料搜集的時間差異,實證效度可以分成同時效度和預測效度兩種。例如,前面提到的機械能力傾向測驗,其效標資料是與測驗分數(shù)同時搜集的,所以它是同時效度。前面提到的汽車兵選拔測驗,其效標資料是在測驗之后根據實際工作成績來確定的,所以它叫預測效度。3、實證效度的作用(1)對于同時效度來說同時效度主要用于診斷現(xiàn)狀,在于用更簡單、更省時、更廉價和更有效的測驗分數(shù)來取代不易搜集的效標資料。(2)對于預測效度來說預測效標的作用在于預測某個個體將來的行為。無論是同時效度還是預測效度,其目的都是想

20、通過對測驗在一個有代表性的樣本上,用實證的方法來證明測驗有效,于是在今后就可以用簡便的測驗去預測類似樣本的其他團體或個體的行為。因此,有人把這兩種效度都稱作預測效度,并把測驗稱作預測源。(二)效標1、效標的含義效標就是衡量一個測驗是否有效的外在標準,它是獨立于測驗并可以從實踐中直接獲得的我們所感興趣的行為。2、效標測量 通常我們感興趣的行為往往是一個觀念上的東西(觀念效標),它必須用一個數(shù)字 或等級來進行表達(效標測量)。如,大學入學考試的觀念效標通常是“大學學習成功”,它的一種常用的效標測量便是大學頭兩年或一年相關學科的平均成績。同一個觀念效標可以有多個效標測量(多樣性),而且每一種效標行為

21、往往都是由多種特質構成,因此,效標測量是件極為復雜的事(復雜性)。又因效標測量有多種多樣,所以有些效標測量只可以反映測驗在某一特殊方面的有效性程度,即,在一種情況下有效的測量,在另一種情況下未必有效(特殊性和時間性)。這就要求測驗的編制者和使用者要特別小心。一般說來,效標測量要想較好到體現(xiàn)觀念效標,那效標測量本身就必須是有效的和可靠的,而且還必須客觀、使用。3、常用的效標在心理與教育測量工作中,常用的效標主要有:學業(yè)成就、等級評定、臨床診斷、專門的訓練成績、實際的工作表現(xiàn)、對團體的區(qū)分能力以及其他現(xiàn)成的有效測驗。這些效標可以是連續(xù)變量,也可以是離散變量;可以是自然的現(xiàn)成指標,也可以是人為設計的

22、指標;可以是主觀判斷,也可以是客觀測量;可以是自我評定,也可以是他人評定等等。(三)實證效度的確定方法1、確定實證效度的步驟:(1)明確觀念效標(2)確定效標測量(3)考察測量分數(shù)與效標測量的關系2、估計實證效度的方法(1)相關法實證效度的一種常用估計方法是計算測驗分數(shù)與效標測量的相關系數(shù)(積差相關法、等級相關法、二列相關法、四分相關法等等)。(2)區(qū)分法該方法的思路是,被試接受測驗后,讓他們工作一段時間,再根據工作成績(效標測量)的好壞分成兩組。這時再回過頭來分析這兩組被試原先接受測驗的分數(shù)差異,若這兩種人的測驗分數(shù)差異顯著,則說明該測驗有較高的效度。(3)命中率當用測驗作取舍決策時,決策的

23、正命中率和總命中率是測驗有效性的較好指標。其中,總命中率是指根據測驗選出的人當中工作合格的人數(shù),以及根據測驗淘汰的人當中工作不合格的人數(shù)之和與總人數(shù)之比。若總命中率高,則說明測驗的效度高。這種測驗在區(qū)別合格者與不合格者方法是有效的。正命中率是指用測驗選出的人中合格者所占的比例。這個比例越高,測驗越有效。這類測驗只關心被選中合格者有多少,而不關心被淘汰者中是否有合格者。這時測驗的效度應該用測驗的正命中率來評價。另外,在評價一個測驗的效度時,還要注意測驗使用的功利率比例,即:使用測驗所帶來的好處應大大高于使用測驗所耗費的時間、精力和經費,還要比較用測驗與不用測驗的效益之差,若差別不大,則沒有使用測

24、驗的必要。第三節(jié) 提高測量效度的方法一、影響測量效度的因素嚴格說來,凡是與測量目的無關的穩(wěn)定的和不穩(wěn)定的變異來源都會影響測量的效度。這就是說,測驗本身的構成、受測被試的特點、施測的過程、閱卷評分、分數(shù)轉換與解釋等一切與測量有關的環(huán)節(jié)都可能影響測量的效度。這里就其主要方面做以說明。(一)測驗的構成當組成測驗的試題樣本沒有較好地代表欲測內容或結構時,測量的內容效度或結構效度就必然會不高。同時若題目語義不清、指導語不明、題目太難或太易、題目太少或安排不當?shù)鹊龋紩档蜏y量效度。一般而言,增加測驗的長度可以提高測量信度,進而為提高測量效度提供了可能。于是,一些研究者便得出了測量長度與效度的公式如下:(

25、5.2)式中是測驗x增長至原來的K倍后,新測驗與效標(y)的相關;K為測驗增長的倍數(shù);原測驗的效度系數(shù);為原測驗的信度系數(shù)。(二)測驗的實施過程一個測驗在實施過程中,如不遵從指導語的要求、或出現(xiàn)以外干擾、或評分計分出現(xiàn)差錯等等,都會降低測量效度。(三)接受測驗的被試一般情況下,被試的應試動機、情緒、態(tài)度、身體狀態(tài)等等,都會影響測量信度,造成較大的隨機誤差,進而影響測量的效度。 就整個被試團體而言,如果缺乏必要的同質性,則很可能會得到不恰當?shù)男Ф荣Y料。有時候,同樣一個測驗,對年齡、性別、文化程度、職業(yè)等方面不同的被試團體,常常表現(xiàn)出不同的預測能力,即具有不同的測量效度。事實上,被試團體的年齡、性別、文化程度與職業(yè)等方面的特征,常常成為干涉變量。我們在考察效度時,要特別注意測驗在不同團體上的效果,避免出現(xiàn)測驗偏倚(test bias)。(四)所選效標的性質由于同一個測驗可以有不同的效標,同一個觀念效標也可以有不同的效標測量,所以在評價測量效度時,所選效標的性質是很重要的考慮因素。有的學者認為,智力測驗分數(shù)與教師對學生等級評定之間的效度系數(shù)只要在0.300.50之間就可以了,因為教師的評價會受到與智力無關的其他因素的影響。與此類似,相同科目的標準化測驗成績與教師評價之間的相關應達到0.600.70,兩種不同智力測驗或標準化測驗之間的相關應達到0.600.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論