基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究_第1頁(yè)
基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究_第2頁(yè)
基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究_第3頁(yè)
基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究_第4頁(yè)
基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究     基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究焦麗亞/辛濤1問(wèn)題提出許多大型測(cè)驗(yàn)項(xiàng)目,出于保密性或者多次施測(cè)的需求等原因,常常要求對(duì)同一測(cè)驗(yàn)構(gòu)建不同的測(cè)驗(yàn)版本,盡管編制者總是盡量保持不同版本的難度相同,但難以避免會(huì)存在一些差異。為使這些不同測(cè)驗(yàn)版本上的分?jǐn)?shù)具有可比性,必須將其置于一個(gè)統(tǒng)一的尺度上,這個(gè)過(guò)程就是等值(equating)。在大型正規(guī)考試中,為使參加同一考試的不同試卷形式的考生之間的分?jǐn)?shù)具有可比性,保證測(cè)驗(yàn)的公平性,也必須進(jìn)行等值處理。當(dāng)前,隨著項(xiàng)目反應(yīng)理論的普及應(yīng)用,以及計(jì)算

2、機(jī)技術(shù)的飛速發(fā)展,計(jì)算機(jī)自適應(yīng)考試日趨成為一種重要的考試手段,計(jì)算機(jī)自適應(yīng)考試的核心問(wèn)題之一就是實(shí)現(xiàn)不同考生所測(cè)不同題目之間的等值。另外,題庫(kù)建設(shè)也需要以等值為前提。如今,等值研究在國(guó)外已經(jīng)非常深入,但在我國(guó)相關(guān)的介紹和研究還很少,等值研究迄今是我國(guó)測(cè)驗(yàn)研究中最薄弱的一個(gè)環(huán)節(jié)1。所有的等值方法都包括兩部分:數(shù)據(jù)收集設(shè)計(jì)和用于分析數(shù)據(jù)的統(tǒng)計(jì)模型。等值數(shù)據(jù)收集設(shè)計(jì)中,由于錨測(cè)驗(yàn)設(shè)計(jì)的眾多優(yōu)點(diǎn),在實(shí)踐中應(yīng)用最為廣泛。等值數(shù)據(jù)分析依據(jù)的測(cè)量模型有兩種:經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論,分別對(duì)應(yīng)于傳統(tǒng)等值方法和IRT等值方法。 這些不同等值方法的比較研究是等值研究領(lǐng)域的熱點(diǎn)問(wèn)題之一。關(guān)于不同等值方法的比較,存

3、在著兩種類型的研究2。一種是使用不同的等值群體來(lái)比較某一等值方法的充分性,另一種是對(duì)不同等值方法的最終結(jié)果進(jìn)行比較。本研究屬于第二種。早在1977年,Lord3,Marco4,Woods和Wiley5 等人就對(duì)基于CTT和IRT的不同等值方法進(jìn)行了比較研究,這些研究發(fā)現(xiàn),不同的等值方案產(chǎn)生了不同的結(jié)果。Marco , Petersen 和Stewart6 比較了傳統(tǒng)等值方法和IRT等值方法對(duì)SAT(Scholastic Aptitude Test)的口語(yǔ)部分等值的充分性,結(jié)果發(fā)現(xiàn)當(dāng)使用和某一測(cè)驗(yàn)具有相同難度的錨測(cè)驗(yàn)將該測(cè)驗(yàn)等值到自身時(shí),除了等百分位方法中的一種變體外,所有方法的結(jié)果都較好,其中

4、線性等值的結(jié)果最精確。Lord3 從理論角度出發(fā), 認(rèn)為傳統(tǒng)等值方法不適合等值不同難度的測(cè)驗(yàn)。Slinde和Linn7 的研究也發(fā)現(xiàn),等百分位方法在等值不同難度的測(cè)驗(yàn)時(shí)效果不好。Kolen2 在Lord等人觀點(diǎn)的基礎(chǔ)上提出了平行測(cè)驗(yàn)等值和非平行測(cè)驗(yàn)等值的區(qū)分,認(rèn)為非平行測(cè)驗(yàn)等值只要求參加兩等值測(cè)驗(yàn)的同一考生所得分?jǐn)?shù)相同,而平行測(cè)驗(yàn)等值除要求參加兩等值測(cè)驗(yàn)的同一考生所得分?jǐn)?shù)相同之外,還要求考生在等值之后的兩測(cè)驗(yàn)上所得分?jǐn)?shù)的分布情況(測(cè)量標(biāo)準(zhǔn)誤和高階動(dòng)差)也相同。Kolen認(rèn)為2,為使傳統(tǒng)等值方法精確,必須進(jìn)行平行測(cè)驗(yàn)等值。這不難理解,因?yàn)閭鹘y(tǒng)等值方法通常要求構(gòu)建共同的分?jǐn)?shù)尺度,以使期望頻數(shù)分布在

5、考生組的所有子群體中都相同。在我國(guó)測(cè)驗(yàn)研究領(lǐng)域,有關(guān)等值問(wèn)題的系統(tǒng)性文獻(xiàn)十分罕見(jiàn)1。關(guān)于不同等值方法的比較,只有謝小慶1 對(duì)此進(jìn)行了較為全面的研究,這是等值方法比較中的一個(gè)開(kāi)創(chuàng)性研究,具有參考和借鑒價(jià)值。但是,我們認(rèn)為,該研究存在以下問(wèn)題。第一,沒(méi)有在平行測(cè)驗(yàn)的前提下考慮傳統(tǒng)等值方法的比較,而只是得出了兩測(cè)驗(yàn)相關(guān)較高的結(jié)論,但由于兩測(cè)驗(yàn)中包含部分共同題目,相關(guān)較高是在意料之中,因此并不能說(shuō)明問(wèn)題。第二,樣本容量不夠大(關(guān)于樣本容量對(duì)等值結(jié)果的影響見(jiàn)后文論述)。這兩個(gè)問(wèn)題都將使傳統(tǒng)等值方法的精確度降低。然而該研究在等值方法的比較標(biāo)準(zhǔn)中又以傳統(tǒng)等值方法的結(jié)果作為操作性檢驗(yàn)標(biāo)準(zhǔn),以精確度不是足夠高的

6、等值結(jié)果作為總誤差計(jì)算時(shí)的標(biāo)準(zhǔn)等值分?jǐn)?shù),所得結(jié)論令人質(zhì)疑。而且,僅以一個(gè)單一的指標(biāo)來(lái)衡量各等值方法的優(yōu)劣,顯得不夠充分。該研究對(duì)于傳統(tǒng)等值方法比較所得結(jié)論是,Tucker線性方法最好,等百分位方法其次,再次是Levine線性方法1。但是,Petersen8 的研究卻表明,對(duì)于嚴(yán)格的平行測(cè)驗(yàn),線性等值較為合適,其中,Levine線性方法的結(jié)果(對(duì)于其研究所選用的等值情境)更穩(wěn)健。那么,利用傳統(tǒng)等值方法對(duì)平行測(cè)驗(yàn)進(jìn)行等值時(shí),線性等值是否最為精確?在線形等值中,Tucker方法好還是Levine方法更好?本研究選用實(shí)踐中應(yīng)用較多的錨測(cè)驗(yàn)非等組設(shè)計(jì),基于平行測(cè)驗(yàn)等值,依據(jù)多種評(píng)價(jià)指標(biāo),對(duì)基于經(jīng)典測(cè)量理

7、論的等值方法進(jìn)行比較,以期對(duì)上述問(wèn)題得出有效的結(jié)論,同時(shí)為實(shí)踐中等值方法的選擇提供理論依據(jù)。2研究方法2.1等值數(shù)據(jù)收集設(shè)計(jì)采用錨測(cè)驗(yàn)非等組設(shè)計(jì),錨題內(nèi)置。錨測(cè)驗(yàn)設(shè)計(jì)要求對(duì)兩組考生(組1和組2)實(shí)施不同的測(cè)驗(yàn)版本(X,Y),這兩個(gè)測(cè)驗(yàn)版本包含共同的題目(錨題V)。錨題得分既可以包含在總測(cè)驗(yàn)得分中(錨題內(nèi)置),也可以不包含在總測(cè)驗(yàn)得分中,而采取單獨(dú)施測(cè)的形式(錨題外置)9。借助錨測(cè)驗(yàn)對(duì)兩測(cè)驗(yàn)版本上的分?jǐn)?shù)進(jìn)行等值。2.2實(shí)驗(yàn)數(shù)據(jù)選自TIMMS1999數(shù)據(jù)庫(kù)。TIMMS是由國(guó)際性評(píng)價(jià)組織所組建的數(shù)據(jù)庫(kù),用來(lái)測(cè)量不同國(guó)家不同年級(jí)學(xué)生的數(shù)學(xué)成績(jī)。其測(cè)驗(yàn)共有8個(gè)測(cè)驗(yàn)副本,題目分別選自從A到Z的26個(gè)部分中

8、的個(gè)別部分。本研究選取的是TIMMS1999的第1和第3個(gè)測(cè)驗(yàn)副本,為使測(cè)驗(yàn)更接近嚴(yán)格意義的平行測(cè)驗(yàn),將測(cè)驗(yàn)1刪掉3題,實(shí)施等值時(shí)兩測(cè)驗(yàn)長(zhǎng)度均為42題。錨題數(shù)量均為17個(gè)。題目為多擇一型選擇題,采用0、1記分。施測(cè)對(duì)象是七(或八)年級(jí)學(xué)生。被試來(lái)自美國(guó),測(cè)驗(yàn)X的被試(組1)數(shù)目是1132個(gè),測(cè)驗(yàn)Y的被試(組2)數(shù)目是1144個(gè)。2.3所比較的等值方法。本研究比較了四種傳統(tǒng)等值方法9:(1)Tucker線性方法:該方法有兩個(gè)前提假設(shè),假設(shè)一為線性回歸假設(shè), 即假設(shè)測(cè)驗(yàn)X(Y)對(duì)錨測(cè)驗(yàn)V的回歸在兩被試組中有相同的線性函數(shù)形式。假設(shè)二為條件方差假設(shè),即假設(shè)對(duì)于給定的錨測(cè)驗(yàn)V,測(cè)驗(yàn)X(Y)的條件方差在

9、兩被試組中相等?;谶@兩個(gè)前提假設(shè),得出兩考生組的合成組(S)在兩測(cè)驗(yàn)中的均數(shù)和方差,進(jìn)而依據(jù)線性等值公式進(jìn)行等值。(2)Levine觀察分?jǐn)?shù)線性方法:該方法有三個(gè)假設(shè), 這三個(gè)假設(shè)均是基于真分?jǐn)?shù)所做的假設(shè)。假設(shè)一為相關(guān)假設(shè),即假設(shè)測(cè)驗(yàn)X、測(cè)驗(yàn)Y與錨測(cè)驗(yàn)V 的真分?jǐn)?shù)在兩被試組中的相關(guān)都是1。假設(shè)二為線性回歸假設(shè),即假設(shè)測(cè)驗(yàn)X(Y)的真分?jǐn)?shù)對(duì)錨測(cè)驗(yàn)V的真分?jǐn)?shù)的回歸在兩被試組中有相同的線性函數(shù)形式。假設(shè)三為誤差方差假設(shè),即假設(shè)測(cè)驗(yàn)X、測(cè)驗(yàn)Y和錨測(cè)驗(yàn)V的測(cè)量誤差方差在兩被試組中都相同。 基于這三個(gè)前提假設(shè),得出兩考生組的合成組(S)在兩測(cè)驗(yàn)中的均數(shù)和方差, 進(jìn)而依據(jù)線性等值公式進(jìn)行等值。(3)Bra

10、un-Holland線性方法:它也是一種線性方法,但其均數(shù)和標(biāo)準(zhǔn)差的估計(jì)都用到了頻數(shù)估計(jì)中的假設(shè)。Braun-Holland線性方法可以看作是Tucker 線性方法的一般化拓展,由于其計(jì)算方法比Tucker線性方法復(fù)雜,所以在實(shí)踐中很少使用,但它可用于Tucker線性方法的線性回歸假設(shè)不被滿足的情況。(4)頻數(shù)估計(jì)等百分位方法:該方法有一個(gè)前提假設(shè)條件概率假設(shè), 即假設(shè)兩被試組中測(cè)驗(yàn)X(Y)的頻數(shù)分布在給定錨測(cè)驗(yàn)V條件下的概率相等?;谶@一前提假設(shè),得出合成組(S)在兩測(cè)驗(yàn)中的頻數(shù)分布, 進(jìn)而依據(jù)等百分位方法的等值公式進(jìn)行等值。2.4等值比較的評(píng)價(jià)標(biāo)準(zhǔn)本研究兼用兩個(gè)指標(biāo)對(duì)四種等值方法進(jìn)行比較。

11、首先,使用等值標(biāo)準(zhǔn)誤作為衡量各等值方法優(yōu)劣的指標(biāo)。等值標(biāo)準(zhǔn)誤是描述等值隨機(jī)誤差的指標(biāo),其定義為,通過(guò)從總體中重復(fù)抽樣,以一個(gè)完全擬合數(shù)據(jù)條件的等值方法進(jìn)行等值,那么,等值結(jié)果分布的平均數(shù)即是真正的等值分?jǐn)?shù),而分布的標(biāo)準(zhǔn)差即是等值標(biāo)準(zhǔn)誤10。其次,使用交叉驗(yàn)證(cross-validation)分析方法來(lái)評(píng)價(jià)不同等值方法。具體做法為:從大樣本(參加測(cè)驗(yàn)X,Y的兩考生組)中抽取約10的小樣本(100人)作為交叉驗(yàn)證樣本,以大樣本所得等值結(jié)果為檢驗(yàn)標(biāo)準(zhǔn),衡量各等值方法在跨樣本比較中所得結(jié)果的穩(wěn)定性。我們生成了一個(gè)計(jì)算指標(biāo)T 作為各方法所得等值結(jié)果比較的統(tǒng)計(jì)指標(biāo),這個(gè)指標(biāo)是在跨樣本比較時(shí),不同等值方法

12、在交叉驗(yàn)證樣本中所得結(jié)果差異量或誤差(YY)的均方差根。其計(jì)算公式為:附圖。其中,Y,i是在交叉驗(yàn)證樣本中,測(cè)驗(yàn)X上總分排在第i位的考生采用各等值方法所對(duì)應(yīng)于測(cè)驗(yàn)Y上的實(shí)際等值分?jǐn)?shù),n是獲得該分?jǐn)?shù)的人數(shù),Y 是依據(jù)大樣本的等值結(jié)果,該分?jǐn)?shù)所對(duì)應(yīng)的測(cè)驗(yàn)Y的等值分?jǐn)?shù),N是交叉驗(yàn)證樣本的總?cè)藬?shù)。該統(tǒng)計(jì)指標(biāo)的值越小,表明各等值方法所得結(jié)果的一致性越高。2.5所采用的計(jì)算機(jī)程序采用Kolen和Brennan等人(Kolen和Brennan,2004)開(kāi)發(fā)的CIPE程序, 使用windows console 1.0版本。3結(jié)果3.1兩測(cè)驗(yàn)的主要統(tǒng)計(jì)量匯總兩等值測(cè)驗(yàn)X和Y及錨測(cè)驗(yàn)V在考生組1和組2上的統(tǒng)計(jì)量

13、見(jiàn)表1。表1兩測(cè)驗(yàn)和錨測(cè)驗(yàn)的統(tǒng)計(jì)量匯總組別分?jǐn)?shù)平均數(shù) 標(biāo)準(zhǔn)差 偏度峰度相關(guān)系數(shù)1 X 21.1538468.838627 0.2244592.206325,1(X,V)1 V 8.136163 3.996797 0.2396472.189007=0.942 Y 21.5144368.990396 0.1876962.104102,2(X,V)2 V 8.449694 4.105654 0.0483362.116774=0.94 從表中可以看出,組1在測(cè)驗(yàn)X和錨測(cè)驗(yàn)V上的相關(guān)及組2在測(cè)驗(yàn)Y和錨測(cè)驗(yàn)V上的相關(guān)均高達(dá)0.93以上。說(shuō)明錨測(cè)驗(yàn)V和測(cè)驗(yàn)X和Y的難度非常近似。另外,從錨測(cè)驗(yàn)V上的

14、得分可見(jiàn)組2的水平略高于組1。      3.2三種線性等值方法的比較結(jié)果首先,對(duì)三種線性方法進(jìn)行比較。表2列出了三種線性方法等值的斜率和截距,從表中可見(jiàn),三種方法的斜率和截距值較為接近,這表明,它們所估計(jì)出的等值結(jié)果較為相似,這從表3中可以看出,表3列舉了三種線性方法所得測(cè)驗(yàn)X對(duì)應(yīng)的測(cè)驗(yàn)Y的等值分?jǐn)?shù)。表2三種線性方法等值的斜率和截距方法 斜率截距Tucker 0.993614-0.146522Levine 0.986288-0.083325Braun-Holland1.000325-0.364191 表3三種線性方法所得測(cè)驗(yàn)X對(duì)應(yīng)的測(cè)驗(yàn)Y的等

15、值分?jǐn)?shù)(例舉)XTucker Levine Braun-Holland0-0.15-0.08-0.3610 9.79 9.78 9.6420 19.7319.6419.6430 29.6629.5129.6540 39.6039.3739.6542 41.5941.3441.65 3.3Tucker方法線性回歸假設(shè)的檢驗(yàn)結(jié)果對(duì)于每一個(gè)給定的錨測(cè)驗(yàn)V上的分?jǐn)?shù),我們可以分別計(jì)算出考生組1和考生組2在給定V條件下在測(cè)驗(yàn)X和測(cè)驗(yàn)Y上所得實(shí)際分?jǐn)?shù)的平均值,同時(shí)也可以根據(jù)Tucker方法的線性回歸假設(shè),利用回歸方程計(jì)算出給定V條件下估計(jì)的測(cè)驗(yàn)X和Y的均數(shù),估計(jì)均數(shù)和實(shí)際均數(shù)的差值為均數(shù)殘差,對(duì)給

16、定V條件下的測(cè)驗(yàn)X和Y上的均數(shù)進(jìn)行檢驗(yàn),如果均數(shù)殘差的值在0附近隨機(jī)變化,那么說(shuō)明線性回歸假設(shè)是正確的。 檢驗(yàn)結(jié)果如圖1所示。附圖圖1測(cè)驗(yàn)X和測(cè)驗(yàn)Y總分對(duì)錨測(cè)驗(yàn)V線性回歸的殘差分析結(jié)果圖由圖1可見(jiàn),除末端極端值外,測(cè)驗(yàn)X和Y的均數(shù)殘差基本在0附近上下波動(dòng),說(shuō)明測(cè)驗(yàn)X(Y)對(duì)錨測(cè)驗(yàn)V的線性回歸假設(shè)滿足。那么,在這種情況下,Braun-Holland方法不如Tucker方法合適。因此,在3.5的各等值方法的比較結(jié)果中不再涉及該方法。3.4線性方法和等百分位方法的等值關(guān)系圖圖2列出了不同等值方法將測(cè)驗(yàn)X上的分?jǐn)?shù)轉(zhuǎn)化為測(cè)驗(yàn)Y上分?jǐn)?shù)的比較結(jié)果。從圖2可以明顯看出,等百分位方法的結(jié)果非常不規(guī)則, 而且與其

17、他方法相差較大。線性方法中,Tucker和Levien方法的結(jié)果較為接近,Braun-Holland方法的結(jié)果則與其他兩種線形方法有一定差距,這與上面的線性回歸假設(shè)檢驗(yàn)結(jié)果基本一致。附圖圖2各等值方法的關(guān)系圖3.5三種等值方法的比較結(jié)果圖3列出了三種等值方法的等值標(biāo)準(zhǔn)誤比較結(jié)果。從圖3可見(jiàn),等百分位方法的等值標(biāo)準(zhǔn)誤較大,Tucker線性方法的等值標(biāo)準(zhǔn)誤最小,而Levine線性方法介于二者之間,與Tucker方法的結(jié)果較為接近。因此,依據(jù)等值標(biāo)準(zhǔn)誤指標(biāo),可以初步得出三種方法的一個(gè)優(yōu)劣比較結(jié)果。等百分位方法不足取,線性方法中,Tucker方法結(jié)果更精確。附圖圖3三種方法的等值標(biāo)準(zhǔn)誤表4列出了依據(jù)第

18、二個(gè)比較標(biāo)準(zhǔn)交叉驗(yàn)證分析方法所得指標(biāo)T的結(jié)果。結(jié)果顯示,Tucker方法的跨樣本穩(wěn)定性最好,等百分位方法穩(wěn)定性最差,而Levine方法略次于Tucker方法。這與前面依據(jù)等值標(biāo)準(zhǔn)誤指標(biāo)的比較結(jié)果一致。表4交叉驗(yàn)證比較結(jié)果方法T 名次Tucker1.3547581Levine1.3933672Unsmoothed EQ%1.4736853 【參考文獻(xiàn)】 1謝小慶對(duì)15種測(cè)驗(yàn)等值方法的比較研究心理學(xué)報(bào),2000.32.(2):2172232Kolen M J. Comparsion of traditional and item response theory methods for e

19、quating tests. Journal of educational measurement, 1981,18:1113Lord F M. Practical applications of item characteristic curve theory. Journal of educational measurement, 1977, 14:1171384Marco G L. Item characteristic curve solutions to three intractable testing problems. Journal of educational measur

20、ement, 1977,14:1391605Woods E M, Wiley D E. An application of item characteristic curve equating to single form tests. Paper presented at the Annual Meeting of the Psychometric Society, Chapel Hill, NC, 1977American educational research association, Toronto, Canada, 19786Marco G L, Petersen N S, Stewart E E. A test of

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論