版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、目錄前言-1第一章 試題反應理論的概念與發(fā)展-2第一節(jié) 試題反應理論的基本概念-2第二節(jié) 試題反應理論與古典測驗理論的比較-2第三節(jié) 常見的irt模式-6第四節(jié) irt的基本假設-13第五節(jié) 當代irt的發(fā)展-14第六節(jié) irt的應用-15第二章 irt在測驗編制上的應用-19第一節(jié) 測驗(量表)設計原理-19第二節(jié) 選擇模式-21第三節(jié) 估計受試者程度值-22第四節(jié) 試題分析-25第五節(jié) 測驗訊息量與測量標準誤-28第六節(jié) 檢視資料的符合性-29第七節(jié) 以irt編制測驗的實例-32前言試題反應理論(irt)是測驗領域中較新的技術,它已經被應用在教育、心理、醫(yī)療等相關領域中,如國中基本學力測驗
2、、托福、gre、gmat考試,以及國外的一些人格量表與醫(yī)學相關量表的編制。當代著名的計算機化適性測驗(cat)也必須仰賴irt的理論與技術才能運作。本次工作坊的主要內容是以介紹irt的概念與實務應用為主,上午的課程是先對irt做基礎概念的介紹,接著以生活品質量表與國中基本學力測驗的發(fā)展為例,介紹irt的基礎應用,并有實際數據讓學員上機操作,對于有量表發(fā)展需求者而言相當實用。下午是irt的進階課程,介紹irt在多向度測驗及計算機化適性測驗上的應用,對于有興趣發(fā)展人格量表、多元性向測驗等多向度測驗,或是想發(fā)展計算機化適性測驗的人而言是很適合的課程。第一章、試題反應理論的概念與發(fā)展第一節(jié) 試題反應理
3、論的基本概念試題反應理論(item response theory; irt)主要是用來描述試題特性(難度、鑒別度、猜測度)與受測者的能力(潛在特質)如何影響其答題反應的一種數學模式。最簡單的irt模式如下列公式(1)所示(rasch, 1960):, (1)其中qj為考生j的能力,bi是試題i的難度,而pij是受測者答對某個題目標機率。在irt的模式中,受試者在某個題目上的答對機率是同時受到受試者能力與試題難易度所影響;而受試者在測驗上的整體表現就是各題目答對機率的聯(lián)合機率。藉由這個數學模式與聯(lián)合機率的概念,我們就能根據受試者在各個題目上的答題反應來估計受試者的能力以及題目的難易度,并且讓接
4、受不同題目的受試者其能力可以互相比較。irt其實是許多試題反應模式的總稱,當代已經有許多irt模式分別適用在許多不同的測驗情境中。常見的 irt模式可以根據其所包含的試題參數數目來分,分為單參數的rasch模式、二參數模式與三參數模式(birnbaum, 1968)。也可以依據計分型態(tài)來分,分成二元計分(dicotomous)與多元計分(polytomous)模式;或是依據適用的作答方式來分,分成評定量尺(rating scale)模式、部分計分(partial credit)模式、名義量尺(nominal scale)模式等。第二節(jié) 試題反應理論與古典測驗理論的比較試題反應理論與傳統(tǒng)測驗理論
5、(classical test theory; ctt)的比較見表1-1所示(embretson & reise, 2000; hambleton & swaminathan, 1986)。大致可以從模式特性、試題參數特性、能力與分數量尺特性、測量精準度與應用等幾個層面來看。1.模式特性:irt的模式是針對單一試題的作答反應所提出的數學模式,在其模式中同時考量了受試者能力與試題特性對答對機率的影響,所以它是一種直接描述作答行為的模式。此外,irt其實是許多試題反應模式的總稱,這些irt模式是分別依據各種不同計分方式與不同作答方式的測驗情境所發(fā)展出來的。表1-1 試題反應理論與傳
6、統(tǒng)測驗理論的比較試題反應理論傳統(tǒng)測驗理論模式特性1.針對單一試題的作答反應所提出的數學模式。2.現有各種不同的irt模式,適用于不同計分方式與作答方式的測驗中。1.針對測驗總分所提出的數學模式。2.各種不同計分方式與作答方式的測驗都使用同一套模式。試題參數特性題目特性(參數)的估計不會受到試者能力所影響。題目特性(參數)的估計會受到試者能力所影響。能力與分數量尺特性1.對受試者的能力估計不會受到題目特性所影響。2.根據irt模式與概似函數估計受試者最有可能的程度值,有比較強的數學理論基礎。3.可以直接參照題目的特性來解釋分數,也可發(fā)展出一套參照標準(常模參照或標準參照)來解釋分數。4.用某些i
7、rt模式可算出等距量尺。1.對受試者的能力估計會受到題目特性所影響。2.根據各題目的配分直接加總所得的分數,間接推測出受試者的程度值,較缺乏數學理論基礎。3.通常需要額外發(fā)展出一套參照標準(常模參照或標準參照),才能解釋測驗分數的意義。4.當群體的分數完全符合常態(tài)分布時,才能轉換出等距量尺。測量精準度(信度)測量精確度的評估是以題目為單位來計算再加總起來,因此受試者的測量精確度(訊息量)是隨著受試者的能力以及所接受的題目特性而有所不同。測量精確度的評估是以測驗為單位,因此接受同一測驗的所有受試者其測量精確度(信度)都相同。應用編制測驗(量表)、分數等化,編制題庫、計算機化適性測驗、組合測驗編制
8、測驗(量表)整體評估優(yōu)點:具有能力估計不變性、具有題目參數估計不變性、測量精準度的概念較合理、應用層面較廣。缺點:模式不易理解、能力估計與試題參數估計較麻煩,須仰賴計算機軟件來分析。優(yōu)點:模式簡單易理解,能力與試題參數容易計算。缺點:不合理地假設不同人的測量精準度相同、應用層面較狹隘,受試者程度值會受題目特性所影響、題目參數值會被受試者特性所影響。傳統(tǒng)測驗理論則是一種針對測驗總分所提出的數學模式。在傳統(tǒng)測驗理論中假設測驗所得的分數是包含了真實分數與誤差兩個部份。如公式(2)所示:x(測得分數)=t(真實分數)+e(誤差), (2)不過這個模式并未說明測驗總分是如何得到的(一般都是直接對各試題的
9、得分加總),也不知道受試者答題反應與題目難易度或受試者能力關系。在傳統(tǒng)測驗理論中,不論是使用何種題型、何種計分方式或作答方式,都是使用公式(2)來描述測得分數的特性,所以是一種與作答行為無關的數學模式。2.試題參數特性試題參數是指試題的難易度、鑒別度、猜對率等用來描述試題特性的指標。在irt中,題目參數的估計不會受到試者能力所影響。這主要是因為在irt中已經將試題參數與受試者能力同時納進其模式里,因此在估計其試題參數時已經考量了受試者能力的影響,因此所估計出來的試題參數不會受到受試者能力所影響。所以在irt中估計試題參數時,受試者是否具有代表性并不是很重要,只要受試者的人數夠多(單參數模式至少
10、200人,三參數模式至少1000人),程度值不會過度集中,就能夠估計出穩(wěn)定的試題參數。在傳統(tǒng)測驗理論中,試題參數幾乎是完全決定于受試群體的能力。以難易度為例,如果受試群體的能力較高,則計算出來的試題難易度值(答對率)就變高,亦即題目變簡單;如果受試群體的能力較低,則計算出來的試題難易度值(答對率)就變低,亦即題目變難。所以試題是難還是簡單,完全取決于抽樣時所選到的受試群體能力高低,因此樣本的代表性對試題參數的估計有很重要的影響力。同樣地,試題鑒別度也會明顯地受到受試群體的能力分散程度所影響。3.能力與分數量尺特性在irt中,對受試者的能力估計值也不會受到試題特性所影響,這也是因為irt模式已經
11、將試題參數與受試者能力同時納進其模式里,因此在估計受試者能力時已經考量了試題參數的影響,因此所估計出來的試題參數不會受到受試者能力所影響。此外,irt的程度值是根據irt模式與概似函數(likelihood)所估計出來的,有比較強的數學理論基礎。而irt的程度值與試題難易度值是共享同一個量尺,也就是說一個人的能力高低可以直接參照題目的難易度以及題目的描述句來解釋,因此不需要參照群體就能詳細地解釋受試者的能力特性。最特別的是,如果使用irt中的rasch模式(單參數模式),則所估計出來的受試者能力值具有等距量尺的特性,亦即其能力量尺的單位距離是相同的,這可以由rasch模式的推估證明出來(王文中
12、,民86)。在傳統(tǒng)測驗理論中,受試者的能力值是直接加總測驗中各題目的得分所得。當測驗的題目較難,則受試者的得分通常會比較低;當測驗的題目較簡單,則受試者的得分通常會比較高,意即受試者的能力高低完全決定于他所接受到的題目難易度。而這種直接將各題目的得分加總形成能力值的做法也缺乏數學理論依據,因為人的能力并不是如此單純的根據題目的答對情形來加總,否則只要重復地讓一個人作同樣的題目10次,能力豈不變成10倍。此外,傳統(tǒng)測驗理論所得到的分數無法直接依題目特性來解釋,需要另外建立一套參照標準(常模參照或標準參照)才有辦法解釋測驗分數的意義。而且傳統(tǒng)測驗理論所得的分數也不具備等距量尺的特性,因此其分數嚴格
13、說來并不適合進行四則運算,也不適合直接拿來做t檢定或因素分析等統(tǒng)計運算。4.測量精準度irt的測量精準度是以訊息量(information)的概念來表示。訊息量是指某種難度的題目對某種能力的受試者的測量誤差平方根的倒數。如公式(3)所示:, (3)其中i為訊息量,為測量誤差。測量誤差愈低,對此人的測量就愈精準,因此該題所提供的訊息量就愈高。相同題目對不同能力者而言其訊息量并不相同,因此即使是接受相同的測驗,對不同能力者而言,他們的訊息量或測量誤差應該是不相同的。這種測量精準度的特性較符合實際的測驗情況,因為測驗題目的難易度很難同時適用于各種不同能力的受試者,對高能力者而言,題目可能過于簡單而測
14、不出其能力;對低能力者而言,題目可能過難而也測不出其能力;只有對中等能力者而言,題目的難易度較適當,較能精確地測出其能力。irt的訊息量概念恰可以反映出測驗對不同能力者有不同測量精準度的現象。反觀傳統(tǒng)測驗理論,其測量精確度的評估是以測驗為單位所計算出來的,也就是測量標準誤(standard error of measurement; sem)。我們可以經由x=t+e的概念算出測驗的信度(reliability),再經由下列公式轉換得來:其中為群體分數標準差,為r測驗信度。由于在傳統(tǒng)測驗理論中,接受相同測驗的受試者其信度都相同,因此測量標準誤也被視為相同。而這樣的假設顯然與實際的測驗情況是不符合
15、的,因為測驗中的題目不見得對各種不同能力的受試者而言都適用。5.應用irt是促進現代測驗進步的重要關鍵,尤其是計算機化適性測驗?;趇rt的單向度假定與受試者能力估計的不變性,接受不同題目的受試者其能力就可以比較,因此就能讓受試者都接受適合于自己能力的題目,達到適性測驗的目的。除此之外,irt的試題參數較不受樣本所影響,因此很適合用來發(fā)展題庫;而irt的能力也較不受試題參數所影響,所以也很適合用來進行能力分數的等化。另外,irt也明確地建構出試題與測驗之間的關系,因此可以直接根據測驗的目的(例如希望對不同能力者的測量誤差要低于多少)來選擇測驗題目,組成各種形式的測驗。而傳統(tǒng)測驗理論的應用就比較
16、局限在測驗編制或量表編制上,很難應用在上述各層面中。整體而言,irt是屬于理論架構較嚴謹、應用層面較廣的測驗理論,irt所提來的諸多測量特性都較符合實際的測驗情況;但是由于其模式較復雜不易讓人理解,計算過程也較繁瑣,因此尚未廣泛地被大眾所接受。不過隨著計算機科技的進步,進行irt分析時所需要的計算已經都可以用計算機來執(zhí)行,因此也已經漸漸被應用在一些著名的大型測驗中,例如國外的toefl、gre測驗,以及國內的國中基本學力測驗等。而傳統(tǒng)測驗理論由于已經被使用許久,而且其理論概念較簡單,目前現有的測驗也大多以它為基礎所發(fā)展出來的,因此短期內還不太容易被irt所取代;然而它在測量特性上的一些問題以及
17、應用層面的局限性,已經讓某些領域的測驗(量表)編制者漸漸轉向以irt為理論基礎來發(fā)展測驗。相信未來irt在測驗評量領域的普及率應該會愈來愈廣。第三節(jié) 常見的irt模式由于irt是許多試題反應模式的總稱,直到現在irt模式還在發(fā)展中。以下僅以計分的方式來分,分別介紹常見的幾種irt模式。(一)二元計分模式二元計分模式是指受試者在題目上的答題反應只有答對或答錯兩種。這類模式又可以根據模式中所考慮到的試題參數個數來分,分為單參數的rasch模式(rasch, 1986)、二參數模式與三參數模式(birnbaum ,1968; lord , 1952)。1. rasch模式rasch模式如公式(1)所
18、示,先前已經介紹過了。在rasch模式中認為,影響受試者答對機率的試題特性主要是難易度,因此只要了解人的能力與題目的難易度,就能知道該人在某題目上的答對機率是多少。而在rasch模式中,所有試題都被要求要具有高鑒別度(都是1.0),而受試者猜對題目標機率已經被納入受試者能力中,而不是試題特性,因此猜對率為0。該模式最大的特色是它對試題的特性與受試者的作答反應有較嚴格的要求,如果都能符合這些要求,則所估計出來的能力值就能反映出受試者的真實能力,而且是等距量尺。根據rasch模式,我們可以畫出各試題的特征曲線(item characteristic curve; icc),如圖1-1所示。對同一試
19、題而言,一個人的能力愈高其答對該題的機率應該也愈高,因此這個曲線是單調遞增(monotonically increasing)曲線。由于每個試題都被要求需要有相同的高鑒別度,因此每條曲線在中段的部分看起來都很接近平行,整份測驗的試題特征曲線放在一起就好像是一把尺上面有許多刻度一般。其中以答對率為0.5向右劃一條橫線,與各試題特征曲線的交叉點,對應到能力軸上的值,被定義為該題的難易度。由此也可以看出在irt中,能力與試題難易度被視為是被放在同一個量尺上的相對概念,因為模式中兩者的數值是可以直接相減的。圖1-1 rasch模式中不同試題的特征曲線圖2.二參數模式二參數模式最早是由lord (195
20、2)所提出,當時所提出來的是常態(tài)肩型模式,之后再經birnbaum (1968)修改成較間單的對數模式,如公式(4)所示。, (4)其中是試題i的鑒別度,其它的符號意義與公式(1)相同。在二參數模式中,與rasch最大的不同點是題目可以被允許有不同的鑒別度,而這些不同的鑒別度會對受試者答對題目標機率有不同程度的調節(jié)性影響。這種模式與實際數據的分析結果較為接近,因為命題者所設計出來的試題很難都具有相同的高鑒別度,有些題目的鑒別度總是不符合預期,但是依然能發(fā)揮部份的測量功能。二參數模式所畫出來的試題反應曲線如圖1-2所示。在圖1-2中,有的曲線的中段是比較陡峭的(例如a1),有的則是比較平緩的(例
21、如a2),這些題目雖然具有相同的難易度,但是隨著受試者能力的提升,他們答對這兩題的機率變化情形卻不相同。在a1中段的區(qū)域,能力只要有些微的改變其答對率就有顯著的提升;而在a2中,同樣的能力改變量,其答對率的提升情形明顯不如a1。圖1-2 二參數模式中不同試題的特征曲線圖3.三參數模式三參數模式的概念也是源自于lord (1952)與birnbaum (1968)。這種模式主要是針對那些可以經由猜測來答對試題的測驗情況,例如選擇題、是非題等。如公式(6)所示。,(5)其中是試題i的猜對率,這里要特別注意的是此猜對率是指能力極低者猜對該題的機率,隨著能力的提高,答對該題的機率仍然會提升,但可以提升
22、的機率范圍僅有。由于在模式中,每個題目除了有難易度與鑒別度的特征外,還有可以被猜對的可能性,因此這種模式比二參數模式更能符合實際的數據。三參數模式的試題特征曲線如圖1-3所示,從圖1-3可以看出試題特征曲線更具有多樣性。在圖形左方,各試題特征曲線與縱軸的交叉點即為該題的猜對率,也就是能力很低者答對該題的機率。在以選擇題為主的測驗情境中,我們經??梢园l(fā)現有些試題因為誘答選項設計不佳,或是題目中有些暗示答案的線索,造成即使能力很低者也容易猜對該題(例如c1),此時就需要這類模式來找出那些題目。而三參數模式在估計受試者能力時也已經考慮了不同題目的猜對率對受試者答對機率的影響,因此所得到的能力值應該會
23、比較符合其實際能力水準。圖1-4 三參數模式中不同試題的特征曲線圖(二)多元計分模式多元計分是指受試者在題目上的答題結果不只有一種,而是有很多種可能性,例如:在成就測驗中,經常有計算題、簡答題或申論題等開放式反應的題型,根據受試者回答題目的完整性,分別給予不同的分數或等級?;蚴窃趹B(tài)度量表中常見的likert量表,將受試者在量表題目上的答題反應分成非常同意、大致同意、沒意見、不太同意、非常不同意等,并分別給予15分。關于這些多元計分題的irt模式相當多,在此僅介紹兩種較常見的模式。1.部份給分模式部份計分模式(partial credit model, pcm) 是由masters(1982)所
24、提出來的,由于這是他歸納各種適用于次序反應數據的模式所得,因此pcm的適用層面較廣。只要是題目的評分點有次序的概念,得到低分比較簡單,得到高分比較難時,就能適用于這種模式。pcm的概念如公式(6)所示:, (6)其中,是第i題的最高得分,而是第i題的第j個得分的難度階(step difficult)。因此可以解釋成在第i題所有可能的得分類別中,得到x分的機率有多高。例如,某個計算題的計分方式是03(即)分,受試者得到1分的機率是: 而、就是分別從0分要變成1分、從1分要變成2分,或是從2分要變成3分所需跨越的難度階(或是能力點)。這可以用圖1-4來說明較清楚。在圖1-4中,依各種能力者得到不同
25、分數類別的機率所畫出來的曲線稱為類別反應曲線(category response curve)。其中,曲線0與曲線1的交叉點即為,此即為從0分要變成1所需跨越的難度階,或是當受試者的能力值高于時,則他得到0分的機率將會高于他得到1分的機率。藉由這種多元計分模式,我們可以知道受試者要在某個題目上得到某個分數時(例如:得到1分),其能力的可能范圍所在(例如:圖中的之間),因此就能夠對受試者的能力作更精確的測量。但是要達到這個目標,需要有客觀的評分結果。從另一個觀點來看,也可以看成是評分者把受試者評為某種分數點的嚴苛程度,愈高,表示評分者對于該題要得到某個分數點的要求愈高,意即愈嚴苛。圖1-4 多元
26、計分模式中,在某試題得m分的類別反應曲線圖2.評定量尺模式評定量表模式(rating scale model, rsm)是由andrich (1978)所提出來的,主要是適用在量表中所有的題目都有相同的計分方式時。例如:在自陳式人格或態(tài)度量表中常使用五點式或四點式的likert量表來讓受試者回答,每個題目都使用相同的評分點數,其基本假設是受試者在各評分點上的差異,對所有題目而言都是相同的。如公式(7)所示:, (7)其中為第i題的平均難度,是量表中各評分點的難度階與平均難度之差距,而。由于rcm假定所有題目的都相同,因此不需像在pcm中樣要估計出每個題目的難度階,而是整份量表只需要估計出m個難
27、度階即可。rsm所畫出來的類別反應曲線與pcm很像,在此不再重復,讀者可自行參考圖1-4。唯一不同的是,在pcm中,不同題目的類別反應曲線中,各類別的相對位置都不太相同,如圖1-5所示;但是在rsm中,不同題目的類別反應曲線中,各類別的相對位置都一樣,只是平均難度不同,所以看起來只是整個圖形向左或向右平移而已,如圖1-6所示。 圖1-5 在多元計分模式,不同試題的類別反應曲線圖圖1-6 在評定量尺模式,不同試題的類別反應曲線圖第四節(jié) irt的基本假設irt有兩項重要的基本假設,數據必須符合這些假設才能具備第二節(jié)所述的各項特性,否則就不適合用irt模式來進行分析,當然也無法具備其良好的測量特性。
28、此兩項重要的假設是單向度(unidimensionality)與局部獨立性(local independency)。1.單向度單向度是指同一份測驗中的所有題目主要都是測量相同的某一項能力,或是受試者在測驗題目上的答題反應主要是受到單一項能力所影響。其實這是大部分測驗的必備條件,只有當測驗中所有題目都測到相同的能力,我們才適合將受試者在這些題目上的得分經由某種組合得到一個分數,用此分數來表示受試者在這項能力上的程度。例如,我們必須檢驗數學科測驗中的所有題目是否都是在測量數學能力,而不是測到了其它能力,這樣受試者的測驗分數才能代表他的數學程度。如果其中有些題目因為語匯表達太艱深或題意不清,使語文能
29、力較差的受試者看不懂題目而答錯,此時就表示這份數學測驗不只測量到數學能力,還測量到語文能力,因此就不是單向度測驗,不適合用irt來進行分析。有些智力測驗或綜合能力測驗(自然科、社會科)經常將許多測量不同能力的分測驗放在一起,就整份測驗而言即是違反單向度假定,因此不適合進行irt分析,也不適合形成單一分數來解釋受試者的能力。不過如果測驗結果是將這些分測驗分開來呈現,就能夠用irt模式來針對每個分測驗進行分析。另外,當題目本身就是設計用來同時測量兩種能力,受試者必須同時具備這兩種能力才能答對時,也是違反單向度假定。幸好目前已經發(fā)展出多向度試題反應模式(multidimensional item r
30、esponse theory; mirt)可以用來處里這些測驗(adams, wilson & wang, 1997; hattie, 1981; mckinley & reckase, 1983)。2.局部獨立性局部獨立性則是指相同能力水準的受試者,在各個題目上的答對機率是互相獨立的。也就是說,受試者的潛在特質(能力)是影響答題反應的唯一因素,當排除這個因素的影響后,不同題目間的答題反應不會有任何關系。此假設其實是奠基于單向度假設上,當測驗題目為單向度時,此假設才有可能成立;如果不是單向度,則不同試題的答對機率可能受到其它能力的共同影響,因此就無法符合局部獨立性的假設。在成就
31、測驗中,常有一些試題會使用同一組閱讀材料或圖片,稱為題組(testlet)。例如:英語或國文能力測驗中的閱讀測驗。受試者必須讀完這些測驗后再回答若干試題。如果這篇閱讀材料是某些受試者事前閱讀過或是特別熟悉的,則他們就比較容易答對這幾題;而那些具有相同能力卻對這類題材比較不熟悉的人就比較容易答錯這幾題,因此這些題目間的答題反應就會有相關,而違反局部獨立性假定。像這類測驗就不適合用irt模式來進行分析,所幸現在已經發(fā)展出題組反應模式(testlet response theory; trt)來解決這種問題(wainer, bradlow & du, 2000)。第五節(jié) 當代irt
32、的發(fā)展當代的irt模式已經有數十種之多,分別應用在許多不同的測驗情境里。表1-2分別依據向度數量、計分方式、參數數量來分類,列舉幾種比較常見的irt模式,以及幾種常見的irt軟件。這些軟件的價格并不高,且有些軟件有免費的試用版本可供下載。在由評量系統(tǒng)公司中販售有許多關于類irt模式的書籍以及軟件,也有些試用版本供下載,詳情請洽。在眾多模式與軟件中,如果研究者沒有特殊的考量,作者比較建議采用包容性較廣的模式與軟件。例如:相較于二元計分模式而言,多元計分模式顯然比二元計分模式好,因為二元計分模式僅是多元計分模式的其中個特例,因此多元計分模式當然也可以用來分析二元計分的數據。同樣地,采用多向度模式也
33、比單向度模式好,因為單向度模式也是多向度模式中的特例。至于參數個數,雖然rasch模式也是三參數模式的特例,但由于rasch模式是比較符合測量觀點的模式,而且可以得到等距量尺,因此如果對測量特性的要求較高者可以考慮采用rasch模式;不過如果測驗題目的品質或實際數據不容易符合rasch模式,則三參數模式也是不錯的選擇。表1-2 常見的irt模式與相關軟件向度數量計分方式參數個數模式提出者適用軟件單向度二元計分單參數模式(rasch模式)rasch(1960)bigstep,bilog,bilog-mg二參數模式lord(1952)三參數模式birnbaum(1968)多元計分類別反應模式(no
34、minal response model)bock(1972)multilog, conquest等級反應模式(grade response model)samejima(1969)部份給分模式 (partial credit model)wright & masters(1982)評定量尺模式(rating scale model)andrich (1978)多向度二元計分多向度二參數模式mckinley & reckase(1983)noharm,conquest多向度三參數模式hattie(1981)多元計分多元計分模式adams, wilson & wang,
35、(1997)第六節(jié) irt的應用先前曾提到當代irt可以應用在許多層面,包括編制測驗(量表)、分數等化,編制題庫、計算機化適性測驗、組合測驗等,以下分別對這些應用做簡單說明。1.編制測驗(量表) 編制測驗(量表)是irt最基本的功能,許多irt模式就是分別為了要因應各種不同的測驗或量表類型所提出來的。測驗編制者可以根據所發(fā)展出來的測驗類型與評分方式,選擇合適的irt模式。如果成就測驗中都是采用是非題、選擇題等客觀測驗題型,就很適合用二元計分的irt模式;如果包含計算題、簡答題、申論題等開放式題型時,就可采用部份給分模式;也有專為語文類科的閱讀測驗或克漏字測驗等相依題所設計的題組反應模式。如果是
36、態(tài)度量表中采用likert式的多點計分量表,就可以采用等級反應模式或評定量尺模式。如果希望借著不同向度間的相關性來提高多元性向測驗、人格測驗或綜合能力測驗的測量精準度,還可以采用多向度irt模式。irt在測驗(量表)分析上的功能主要有下列幾項:(1)了解試題特征:估計試題的難易度、鑒別度、猜對率、計分點的難度階等。(2)估計受試者潛在特質(能力):估計出不受試題難易度所影響的受試者程度值。(3)篩選試題與修改試題:根據的模式符合程度來篩選題目;或根據題目特征選擇難易度適當的高鑒別度試題,或修改猜對率較高的試題。(4)了解測驗對不同程度特質(能力)者的誤差:計算測驗在不同能力點的訊息量以及測量誤
37、差。(5)發(fā)展測驗的量尺:建立等距量尺;或在考量測量誤差后將受試者能力值轉成所需的量尺分數。有關這些步驟的做法,將留待以后的章節(jié)中再作詳細介紹。2.測驗等化(equating)測驗等化是指將受試者程度值(或題目參數)轉換成相同量尺,以方便進行比較。由于irt所估計出來的受試者程度值具有不受題目難易度影響的特性。因此,只要受試者能力符合irt的模式與基本假設,即使受試者接受不同難度的試題,其所估計出來的能力值不需經過等化就可以放在同一個量尺上互相比較。不過其先備條件是題目參數必須先估計出來。irt所估計出來的題目參數也具有不受受試者影響的特性,只要受試者的程度值不要過度集中,人數不要太少,作答行
38、為符合irt基本假設,就能得到穩(wěn)定的題目參數值。不過估計題目參數所采取的預試樣本通常是在不同群體、在不同時間點作答不同組試題所得(因為讓受試者同時作答太多試題容易因疲勞而干擾作答),因此最好對這些試題進行試題參數等化(又稱試題連結)。試題等化的過程需要從安排預試題目開始,例如要安插共同題到各題本中,并依同時估計法、平均數標準差法或特征曲線法來調整試題參數值。有關等化的問題需要有較多說明,將留待以后再述。3.建立題庫題庫是指將題目以及其相關的試題特性與試題參數建立在同一個數據庫中,以便未來能夠方便地從此數據庫中依據測驗目的抽選出所適當的試題來進行測驗。題庫中必須包含許多試題特征(命題者、字數、附
39、圖表等),以及事先估計與等化過的試題參數,否則未來在選取試題來組合測驗時就不知要如何進行了。為了達到這個目的,建立題庫通常需要花費相當龐大的人力、物力與時間。因此,只有在需要經常性施測(例如每隔一段時間就要施測一次),或需要根據不同對象來組合測驗,或需要進行計算機化適性測驗時才值得建立題庫。建立題庫的大致步驟如下陳柏熹,;wainer et al., 1990:(1)確定題庫的目標(測驗目標)(2)建立題庫的雙向細目表(3)甄選與訓練大量的命題者與修(審)題者(4)根據命題原則設計試題(5)將試題內容與試題參數輸入計算機數據庫(6)修(審)試題 (7)預試與試題分析(8)分級、整理與補充試題有
40、關題庫編制的實際作法,將留待以后再作詳細討論。4.組合測驗由于irt的能力估計不受試題參數影響;試題參數的估計也不受受試者能力所影響。因此我們可以根據不同程度者來發(fā)展出適合他們的測驗,而且還能讓接受不同測驗的受試者能力可以放在相同的量尺上進行比較。組合測驗通常是根據測驗的目標或受試者的程度值來決定。最常見的受測驗目標是希望達到的測量精準度有多高,就是測驗信度水準。當然測驗中各項內容的題數比例也需要符合測驗的目標,此即為內容效度。只要該測驗事先建立出完整的題庫,就能根據一些測驗組合策略,從題庫中選取符合條件的題目來組成所需的測驗。常見的組合測驗的策略有程序選題法、0-1線性規(guī)劃法,類神經網絡法等
41、。應用心理測量期刊(applied psychological measurement)第22卷第3期中特別針對這項議題有詳細介紹,有興趣的讀者可以自行參閱。5.發(fā)展計算機化適性測驗irt最吸引人的應用價值莫過于計算機化適性測驗了。計算機化適性測驗主要是利用計算機的快速運算速度,根據受試者的答題反應實時估算出其程度值,并立刻選出符合受試者程度值的題目讓受試者作答。由于所選出來的題目都很適合受試者的程度,因此只需要少數題目(約傳統(tǒng)非適性測驗的1/21/3)就能達到與傳統(tǒng)非適性測驗相當的測量精準度。除了測量精準度之外,計算機制式的接口還可以幫助達到測驗情境標準化,而其多媒體特性也能讓測驗試題更逼真
42、,以彩色、動畫、語音或互動操作的方式來進行測驗,提升測驗的效度。有關計算機化適性測驗的發(fā)展程序將留待后續(xù)章節(jié)再作詳細介紹。第二章、irt在測驗編制上的應用第節(jié) 測驗(量表)設計原理有關irt的測驗設計原理,讀者可以參考wright與stone(1979)所出版的經典讀物優(yōu)良測驗設計(best test design)。在該書中介紹了幾項與irt有關的測驗設計原理,以下提出幾點供參考。1.測量模式的概念測驗所使用的模式必須符合測量的原理,此即為測量模式。些原理包括:a.要具有可以測量的潛在特質 可以直接觀察到或用客觀物理工具直接測量的特質是不太適合用測驗來測量的;例如高矮胖瘦。而特質本身若只有性
43、質上的不同而無程度上的差異也不適合用測驗來測量,例如問題解決流程、做事風格。只有那些觀察不到的潛在特質,而且不同人在該特質上會有程度上的高低差異時,才是適合用測驗來測量的特質。例如:數學能力、情緒穩(wěn)定性、焦慮程度等。b.欲測量的特質必須是單向度 當要測量的特質是單向度時,我們就能夠劃出一條線來描述該項特質,并且設計出一些能夠測量不同特質的題目,用受試者在這些題目上的作答反應來估計受試者在該特質上的程度值,如圖2-1所示。如果不是單向度,我們就無法畫出一條線來描述這個特質的高低程度,即使設計出一些題目讓受試者去作答,我們也不知道要如何將這些作答結果來描繪出受試者的程度值。也就是說,測量國文的題目
44、與測量數學的題目不應該被放在一起或相加成為一項分數,因為其不具意義。c.要根據測驗目的設計出能測量到不同程度特質的題目 測量的目的就是要了解受試者在某種特質上的程度。如果許多題目所測量到的程度值都很接近,則受試者在該特質上的程度高低就無法被測量開來(如圖2-2上);此外,若題目所測到的程度值安排不恰當,也無法有效的測出受試者在該特質上的差異(如圖2-2中)。當題目所測到的程度值能符合測驗的目的均等地分散時,才能較真實地呈現出受試者的程度高低與差異(如圖2-2下)。每天都有用不完的能量常做激烈運動還能活力十足身體功能正常,不影響日常生活從事簡單的活動(散步)後不會累沒有臥病在床休息與睡眠功能正常
45、有辦法從事簡單的運動,如慢跑甲受試者乙受試者圖2-1 單向度的測量概念甲受試者乙受試者甲受試者乙受試者甲受試者乙受試者低程度題目高程度題目高程度題目高程度題目低程度題目低程度題目0分8分4分5分2分5分圖2-2 不同程度題目的安排對測驗結果的影響d.受測者的答題反應必須是合理的 測量品質的好壞不只與測驗題目的品質有關,也與受試者有關。如果受試者的作答反應很不合理,表示測量的過程有瑕疵,則測驗結果將無法反映出受試者的程度高低。例如:在圖2-1中,當甲受試者對于從事簡單的活動(散步)后不會累右方的題目都覺得他做不到,而對于身體功能正常,不影響日常生活左方的題目都覺得蠻符合他的身體感受,此時我們就能
46、說他對自己身體功能的感受是介于這兩個題目之間。 在圖2-1中,如果受試者對右半部的題目都覺得描述的非常像他對自己的身體感受,而在左半部的題目都認為很不像他,這就是不合理的反應。則我們將很難判斷出受試者對自己身體感受的評估是高還是低。因為一個做完激烈運動還能活力十足的人,怎么可能無法做到從事簡單的活動(散步)而不覺得累呢?e.分數量尺應該要符合等距的特性等距量尺是分數的重要特性,在數學上,數字應該要具有單位大小相同的特性的,此即為等距。意即3分與2分之間的差異,應該要等于2分與1分之間的差異。符合等距特性的分數才能夠進行四則運算。但是在社會科學的領域里,我們卻經常使用不具有等距特性的分數來進行四
47、則運算,例如,相加形成總分、相減來比較差異大小等。這些運算其實都不符合數學上的要求,當然也無法符合統(tǒng)計運算的基本要求。如果測驗所得的分數不僅是描述受試者的程度值,還要進行后續(xù)的比較、分析時,就應該將測驗分數轉成等距量尺。rasch模式所建立出來的量尺恰能符合等距的要求,這也是為何在眾多irt模式發(fā)展出來后,仍然有許多學者一直獨鐘于rasch模式的主要原因。第二節(jié) 選擇模式使用irt來發(fā)展測驗時,第一個會面臨到的問題就是應該要選擇何種模式來進行分析,其中又以要選擇單參數模式、二參數模式還是三參數模式來分析的問題最具爭議性。根據embretson與reise(2000)的建議與作者的經驗,選擇ir
48、t模式時應考量幾項因素:1.計分或估計能力時,是否要對題目進行加權?如果認為各題目對于能力估計都同等重要時,就表示不需要加權,此時可以選單參數模式;如果不是,就要選二參數或三參數模式。2.對量尺特性的要求。如果研究者希望分數量尺要符合等距的特性,就要使用單參數模式;如果分數量尺不一定要完全符合等距特性,則使用二參數或三參數模式即可。3.希望獲得的試題參數類型。如果編制者想要得到較多的試題參數,以便能得到較完整的試題信息,則可以使用二參數或三參數模式;如果只需要知道題目所測量到的程度值,則使用單參數模式即可。4.根據量尺特性或測驗分析的目的來決定。如果量尺是屬于多元計分,且允許每個題目有不同的計
49、分方法,則可以使用部分給分模式;如果計分方式都相同(例如:都是五點計分),則可以采用評定量尺模式。此外,有些特殊的irt模式可以滿足測驗分析的目的。例如:linacre(1989)的多面向模式(many-facet model)可以幫助了解評分者嚴苛程度,并在估計能力時將之因素考量進去;fischer(1973)的邏輯斯地潛在特質模式(logistic latent trait model; lltm)可以幫助我們了解試題特征(例如:字數、圖形、數字)與試題參數的關系。5.數據與模式的符合度的比較。當無法決定要使用何種irt模式時,可以試著使用幾種不同的模式分別進行分析,算出不同模式的符合度指
50、針(多數軟件會提供 -2 log likelihood值作為模式符合度指針),然后再使用概率比法(likelihood ratio comparison)來比較何種模式較好。有關數據與模式符合度的比較,將在本章稍后做介紹。第三節(jié) 估計受試者程度值估計受試者在某項特質上的程度高低是所有測驗(或量表)的主要目的,對irt而言當然也不例外。先前曾提到irt所估計出來的受試者程度值不會受到題目參數所影響,其主要的作法是不直接用受試者的答題反應來計算程度值,而是先根據答題反應以及irt的模式建立反應概似函數(likelihood function),再找出最有可能產生此種概似函數的受試者程度值。藉由ir
51、t的模式與局部獨立性的假設,可以計算出受測者在整份測驗上的反應概似函數,并藉此估計出每個受試者在接受測驗試題后的能力值。其概似函數如公式(8)所示, (8)其中ui表示受測者答對(u=1)或答錯(u=0)某個題目;pi如公式(1)所示 ,這要依所選取的irt模式而定。而。舉例來說,如果有一位受試者分別做了5個題目,這5個題目的難度分別是(-1.0, 0, 0.5, 1.0, 2.0),而受試者的作答結果是1,1,0,1,0;其中1代表答對,而0代表答錯。若選擇rasch模式,則受試者的反應概似函數為:此時,我們就可以設法找出最有可能產生這種反應概似函數的程度值。我們可以試著以-3.0
52、、-2.5、-2.02.5、3.0等不同的程度值代入此概似函數,看看何種程度值代入后會使此概似函數值最大,則該值就是該受試者最有可能的程度值。從表2-1可以看出,受試者最有可能的程度值應該是1.0。 實際上irt軟題在進行能力估計時,是以所有受試者在所有題目上的答題反應矩陣所形成的概似函數來進行估計,也就是同時估計所有受試者的程度。由于此反應概似函數是個相當大的矩陣所建立出來的,通常沒有封閉解,只能求出近似解或最佳解。受測者的能力估計值就是此能使此概似函數得到最佳解的能力值。最常見的尋找最佳能力解的方法有三種:最大概似法(maximum likelihood; ml)、貝氏最大后驗法(maxi
53、mum a posteriori, map)與貝氏期望后驗法(expected a posteriori, eap)。表2-1 受試者能力的最大概似估計第1題第2題第3題第4題第5題難度-1.000.51.02.0答題反應答對答對答錯答對答錯機率pp1-p11-p概似函數值程度值-3.00.120.050.970.020.990.000程度值-2.50.180.080.950.030.990.000程度值-2.00.270.120.920.050.980.001程度值-1.50.380.180.880.080.970.004程度值-1.00.500.270.820.120.950.012程度值
54、-0.50.620.380.730.180.920.029程度值0.00.730.500.620.270.880.054程度值0.50.820.620.500.380.820.079程度值1.00.880.730.380.500.730.089程度值1.50.920.820.270.620.620.079程度值2.00.950.880.180.730.500.056程度值2.50.970.920.120.820.380.033程度值3.00.980.950.080.880.270.0171.最大概似估計法 最大概似估計法是直接找出能使受試者的反應概似函數最佳化的能力值。就像是表2-1的作法。為
55、了加速找到能使概似函數為最大值的程度值,通常是先對反應概似函數取對數,再以牛頓-約佛森(newton-raphson)法來進行迭代。迭代方式是: , (9)其中,q(j)為受試者在第j次迭代的能力估計值,的計算方式為:, (10)與分別是反應概似函數之對數值的一階微分與二階微分。使用牛頓-約佛森法來進行迭代的優(yōu)點是可以很快地找的受試者的程度值,而且較為精確。如果都使用表2-1的作法會很麻煩,且比較不精準。2.最大后驗估計法第二種是以受試者的事前能力分布作為加權值,形成事后機率密度函數,并找出能使此事后機率密度函數最大化的程度值,稱為貝氏最大后驗法(maximum a posteriori, m
56、ap)。事后機率密度函數計算方式如公式(11)所示:, (11)map法也可以比照ml法,先求出反應概似函數的對數,再以牛頓-約佛森法來進行迭代。map法的概念就好像是當我們已經知道受試者是來自于資賦優(yōu)異的群體時,我們在估計他的程度值時就可以參考他所屬的群體的能力分布情形,如此我們在估計他的程度值時會有比較準確的估計。3.期望后驗估計法第三種與第二種方法類似,只是所尋找的能力值是事后機率密度函數的期望值(相當于平均數),而不是最大值(相當于眾數),此稱為期望后驗法(expected a posteriori, eap)。如公式(12)所示:, (12)其中q是計算能力的期望值時所切割成的量化點,q點愈多,計算得愈精確。不過這種估計方法無法使用牛頓-約佛森法來進行迭代,而且隨著所選取的量化點數愈多,所需的計算量較龐大,計算時間也比較久。在各種能力估計方法的比較上洪碧霞,吳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店員工勞動合同管理規(guī)定制度
- 2024年云南客運上崗證考試題多少道題
- 2024年南昌客運資格證培訓資料
- 廣東省新高考高三考試數學試卷分類匯編立體幾何(原卷版)
- 2023屆新高考化學選考一輪總復習訓練-專題突破1 化學計算中的常用方法
- 2023屆新高考化學選考一輪總復習訓練-第3講 離子共存、檢驗與推斷
- 2024年度版權授權合同:網絡小說改編電影
- 2024年建筑廢料處理與清運合同
- 期中測試卷01-2023-2024學年八年級地理上學期期中期末必殺題集訓(人教版)
- 廣東木偶戲的傳承與創(chuàng)新
- 河北省廊坊市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細
- 農業(yè)合作社盈余及盈余分配表
- 學校班級圖書箱管理制度
- 寫給老婆最催淚挽回感情的信范文(5篇)
- 煤化工企業(yè)設備設施風險分級管控清單參考模板范本
- 廣東省中小學生學籍管理的實施細則
- IATF16949 年度內審審核方案
- 計算機應用基礎(中等職業(yè)學校校本教材)
- 2022年廣州中考物理真題及答案
- 教育評價學全套ppt課件完整版教學教程
- GB∕T 10238-2015 油井水泥-行業(yè)標準
評論
0/150
提交評論