建立學(xué)科評量量尺課件_第1頁
建立學(xué)科評量量尺課件_第2頁
建立學(xué)科評量量尺課件_第3頁
建立學(xué)科評量量尺課件_第4頁
建立學(xué)科評量量尺課件_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、建立學(xué)科評量量尺之理論基礎(chǔ)第二組OMS096125 康金雲(yún)OMS096102 羅文虹OMS096111 歐瑞蘭大綱一、序論二、IRT為基礎(chǔ)的試卷等化原理三、學(xué)科評量量尺之建立四、如何應(yīng)用與執(zhí)行等化設(shè)計(jì)於國內(nèi)大型 測驗(yàn)計(jì)畫五、學(xué)生成就量尺之應(yīng)用六、結(jié)論序論一、問題背景 1.傳統(tǒng)聯(lián)招一試定終生 一年多試的機(jī)會 2.記分方式以原始分?jǐn)?shù)(或加權(quán)分?jǐn)?shù))加總極具 爭議性。 等化各科量尺 數(shù)學(xué)超難,大部分分?jǐn)?shù)集中在1030分;國文簡單,大部分分?jǐn)?shù)集中在6090分。對於數(shù)學(xué)好但是國文差的學(xué)生不利各學(xué)科原始分?jǐn)?shù)所參照量尺的刻不同。 二、建立評量量尺之重要性:美國教育測驗(yàn)社(ETS)之模式以美國SAT(schol

2、astic aptitude test)為例:SAT:美國各大學(xué)申請入學(xué)的重要參考條件之一 A生數(shù)學(xué)能力中等,語文中上 B生數(shù)學(xué)能力中上,語文中等B生數(shù)學(xué)比A生好 數(shù)語文A夏500580 B秋600500A生語文比B生好SAT量尺的潛在意義 1.由不同時(shí)段所獲得的分?jǐn)?shù)高低,其評量量尺之意 義大抵上是一致的。(隔一段時(shí)間後,兩生重測得分不會有太大變化,除非是“非常” 賣力地準(zhǔn)備與複習(xí)。) 2.評量量尺之分?jǐn)?shù)高低是具意義的。 3.各學(xué)科評量量尺之刻度大抵上是一致的。 4.分?jǐn)?shù)相當(dāng)可靠。 試卷等化程序SAT量尺的潛在意義1995年SAT評量量尺定為平均數(shù)500,標(biāo)準(zhǔn)差110(以1990年考生為參照群

3、體)。以後每年的數(shù)學(xué)和語文以此為設(shè)定標(biāo)準(zhǔn)。年與年間考生得分高低的比較需謹(jǐn)慎行之,假如年代差距太遠(yuǎn),比較考生在該次樣本中的百分等級高低可能較有意義。ETS不鼓勵(lì)把SAT的數(shù)學(xué)和語文分?jǐn)?shù)加總,表面上評量單位相同,但實(shí)際上卻不一樣 IRT為基礎(chǔ)的試卷等化原理常用的幾種試題反應(yīng)理論模式簡介測驗(yàn)資料之搜集與設(shè)計(jì)重新調(diào)節(jié)IRT統(tǒng)計(jì)參數(shù)之單位非等化係數(shù)的等化方法應(yīng)用IRT等化兩試卷之原始分?jǐn)?shù)常用的幾種試題反應(yīng)理論模式簡介單一參數(shù)模式(one-parameter logistic model)二參數(shù)模式(two-parameter logistic model)三參數(shù)模式(three-parameter lo

4、gistic model)多分計(jì)分法模式(partial credit model,PCM)一般性多分計(jì)分法模式(generalized partial credit model,GPCM)多分計(jì)分法模式(partial credit model,PCM) (Masters,1982)為Rasch模式的延伸。假設(shè)試題 i 的計(jì)分由0分到m分之間,當(dāng)受試者 j 之潛在能力為,回答試題 i 而被評k分的機(jī)率以公式一表示:(公式一)(公式二)是考生在題目 i 得k分而非得k-1分的難度值, 被界定為0,是題目 i 的難度值,代表考生在題目 i 分別得k分的相對難度值。一般性多分計(jì)分法模式(Murak

5、i,1992)(generalized partial credit model,GPCM)針對Master之模式修改而成。允許每題的鑑別度值不一樣。可用於問答題。測驗(yàn)資料之搜集與設(shè)計(jì)單一平衡樣本(Single Group with Counterbalancing)隨機(jī)等組設(shè)計(jì)(Random Equivalent Groups)共同試題-不等組樣本(Common Items-Nonequivalent Groups)試卷內(nèi)編輯涵蓋經(jīng)被刻度過之試題(Precalibrating Items) 單一平衡樣本(Single Group with Counterbalancing)只選擇一組樣本,這

6、組樣本必須施測A和B兩份試卷。缺點(diǎn):考生同時(shí)接受兩份試卷,厭倦的因素將影響表現(xiàn),並可能左右等化的結(jié)果??墒褂渺兜然瘍煞莶皇呛荛L的試卷,很少用於大型測驗(yàn)計(jì)畫。隨機(jī)等組設(shè)計(jì)(Random Equivalent Groups)基本假設(shè):從母群體裡隨機(jī)抽取數(shù)組樣本,這些樣 本能力的分布狀態(tài)應(yīng)是相似的。必要條件:採行大的樣本(如3000位考生的樣本大小)應(yīng)用: 在這些施測版本中,通常一版本已在前一次施測中被使用過,而此 版本將作為建立新版本分?jǐn)?shù)量尺之橋樑。考生在新版本中的得分必 須轉(zhuǎn)化為舊版本之分?jǐn)?shù)量尺。生1、生2、生3、生4、生5、生6 卷A 卷B 卷C 卷D共同試題-不等組樣本(Common Ite

7、ms-Nonequivalent Groups)同時(shí)編輯數(shù)份不同版本之試卷,每一份試卷裡須編輯部份(大約四分之一以上)共同試題。編製共同試題的原則:1.應(yīng)是整份試卷的縮影。2.在試卷裡的位置必須一樣或非常相似。3.計(jì)算分?jǐn)?shù)時(shí),通常不併入計(jì)分。在這些施測版本中,通常一(或二)版本中有部分題目已在前一次施測中被使用過,而這些題目將作為建立新版本分?jǐn)?shù)量尺之橋樑??忌谛掳姹局械牡梅直仨氜D(zhuǎn)化為舊版本之分?jǐn)?shù)量尺。試卷內(nèi)編輯涵蓋經(jīng)被刻度過之試題(Precalibrating Items)在每一份被等化的試卷裡,編輯部份(大約四分之一以上)已被刻度過之試題,再以這些被刻度過之試題為橋樑,將每一不同能力的樣本

8、在每一試卷所產(chǎn)生的分?jǐn)?shù),轉(zhuǎn)化到這些已被刻度過的試題之量度上。測驗(yàn)資料之搜集與設(shè)計(jì)原則試卷間有相同試題(或部分題目已被刻度過)施測之樣本相同(或施測樣本能力大抵相同)重複考生在兩份不同試卷的反應(yīng)是否可為試卷等化之資料收集方法之一?作者認(rèn)為:重複考生在第二次(後來)試卷的反應(yīng)表現(xiàn)深受能力、成長、試卷難度、評量誤差等因素所左右,而其中成長與試卷難度因素對試卷反應(yīng)所產(chǎn)生之影響無法被明確分離,將造成等化試卷的困擾。重新調(diào)節(jié)IRT統(tǒng)計(jì)參數(shù)之單位-1即使在對任何一測驗(yàn)資料作試題刻度時(shí),每一受試樣本之能力評量單位通常都被標(biāo)準(zhǔn)化為平均數(shù)等於零和標(biāo)準(zhǔn)差等於一,然而原來每一組樣本之能力評量單位亦可能不同。所以當(dāng)同一

9、組題目被施測在能力不同的兩組考生並分別作試題刻度時(shí),所得之兩組試題統(tǒng)計(jì)參數(shù)估計(jì)值並不同,此乃歸因其對應(yīng)到不同的量尺。解決方法:強(qiáng)制每組試題參數(shù)估計(jì)值對應(yīng)於共同的能力單位上。在兩組樣本之條件下,此共同能力之單位乃依據(jù)以下的線性轉(zhuǎn)換步驟而成A為等化係數(shù)之斜率 B為等化係數(shù)之截距R代表基礎(chǔ)的樣本 E代表被等化的樣本*代表從等化樣本之量尺轉(zhuǎn)換成基礎(chǔ)樣本之量尺重新調(diào)節(jié)IRT統(tǒng)計(jì)參數(shù)之單位-2IRT三參數(shù)模式的線性轉(zhuǎn)換:一般性之多分計(jì)分模式:經(jīng)過以上之轉(zhuǎn)換其等化組的能力單位已反映至基礎(chǔ)組的能力單位上??芍狪RT參數(shù)估計(jì)值之單位可再被重新調(diào)節(jié),其基本條件為 採用之IRT模式能適切地解釋測驗(yàn)資料。非等化係數(shù)的

10、等化方法同時(shí)校準(zhǔn)法連接業(yè)經(jīng)刻度之試題參數(shù)設(shè)定各隨機(jī)樣本之能力單位相同同時(shí)校準(zhǔn)法定義:藉由測驗(yàn)資料的收集設(shè)計(jì)與IRT電腦軟體所提供之功能之結(jié)合,將所收集之?dāng)?shù)筆測驗(yàn)資料同時(shí)執(zhí)行試題校準(zhǔn)。校準(zhǔn)後,從任何一份試卷之題目參數(shù)估計(jì)值皆能被刻度在相同的評量單位上。優(yōu)點(diǎn):與其他等化方法相比,使用最多的試題參數(shù)訊息,以及共同試題參數(shù)估計(jì)值之變異數(shù)共變數(shù)矩陣,因此可能產(chǎn)生較小的誤差。缺點(diǎn):若施測樣本間之能力分布狀態(tài)差異太大,則可能 1.無法得到收斂。 2.有些試題,無法找到合適的參數(shù)估計(jì)值。 3.得到的參數(shù)估計(jì)值其標(biāo)準(zhǔn)誤可能偏高。共同試題-不等組樣本使用Bilog等化樣本試 題 題 號兩份試卷的共同試題A試卷B試

11、卷12345678910678910甲樣本1000甲樣本對共同試題的反應(yīng)甲樣本對A試卷中非共同試題的反應(yīng)假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本1000乙樣本對共同試題的反應(yīng)假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本對B試卷中非共同試題的反應(yīng)連接業(yè)經(jīng)刻度之試題參數(shù)前提:在一份試卷中某些題目已有參數(shù)值 而部份則無的情況。目的:設(shè)定此無參數(shù)題目與有參數(shù)題目之 評量單位相同。方法:執(zhí)行IRT電腦程式的過程中將有參數(shù) 題目之參數(shù)值固定不變且不再被重 新估計(jì)。設(shè)定各隨機(jī)樣本之能力單位相同隨機(jī)等組設(shè)計(jì):兩份不同的試卷被施測於兩組隨機(jī)之樣本上,在”分別“估計(jì)兩份試卷之試題參數(shù)時(shí),只要將

12、能力的單位共同訂為一樣,經(jīng)刻度後,兩份試卷所得到的試題參數(shù)值之單位是相同的。且兩組樣本的能力估計(jì)值之單位也是相同的。單一樣本設(shè)計(jì):兩份不同的試卷被施測於單一樣本之情境,可視同兩份不同的試卷被施測於兩組隨機(jī)之樣本上。應(yīng)用IRT等化兩試卷之原始分?jǐn)?shù)介紹IRT-真實(shí)分?jǐn)?shù)等化法的原因: 1.與IRT-原始分?jǐn)?shù)法比較,計(jì)算過程較簡易。2.無須依賴考生能力之分布狀態(tài)。3.已被測驗(yàn)公司(如ETS)所採用。IRT-真實(shí)分?jǐn)?shù)等化法的兩個(gè)主要步驟:1.將兩試卷試題參數(shù)值對應(yīng)在相同之量尺上。2.使用IRT分?jǐn)?shù)為橋樑,試圖製造兩份試卷間真實(shí)分?jǐn)?shù)之對應(yīng)表。學(xué)科評量量尺之建立一、測驗(yàn)資料之收集與等化技術(shù)之結(jié)合 1. 隨機(jī)

13、等組樣本與等化技術(shù)之結(jié)合 (1)連接不同之舊版本 (2)連接相同之舊版本 (3)同時(shí)連接兩份舊版本 2.共同試題不等組樣本與等化技術(shù)之結(jié)合 計(jì)畫一、二、三、四二、設(shè)計(jì)連接計(jì)畫之參考準(zhǔn)則隨機(jī)等組樣本與等化技術(shù)之結(jié)合定義:一版本已在前一次施測中被使用過,而此一版本將做為建立與新版本之橋樑。新版本之原始總分需轉(zhuǎn)化為舊版本之原始總分。大樣本下,此法可同時(shí)等化數(shù)種不同版本試卷。方法有: 連接不同之舊版本 連接相同之舊版本 同時(shí)連接兩份舊版本連接不同之舊版本每一次施測試卷皆連接至不同的舊版本。優(yōu)點(diǎn):每次選用的舊版本不同,題目的保密性周全。缺點(diǎn):四次等化誤差。I卷等化到A卷需經(jīng)過四次程序。等化程序施測次數(shù)試

14、卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到C3CDEF, G 等化到E4EFGH, I 等化到G5GHI 為何同時(shí)等化試卷之版本,總是為二,可以增加嗎 ?連接相同之舊版本每一次施測的試卷接連接到相同的舊版本優(yōu)點(diǎn):只產(chǎn)生一次等化誤差。缺點(diǎn):欠缺保密性,因?yàn)橥瑯拥呐f版本重複被使用。等化程序施測次數(shù)試卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到A3ADEF, G 等化到A4AFGH, I 等化到A5AHI同時(shí)連接兩份舊版本起始連接階段時(shí)僅連接單一舊版本,經(jīng)過數(shù)次後則轉(zhuǎn)換為同時(shí)連接兩份舊版本??尚拚B接不同之舊版本方法所帶來的等化誤差。若實(shí)務(wù)上之考量可行的狀況下,此為

15、較佳的選擇。等化程序施測次數(shù)試卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到C3CDEF, G 等化到B&E4B&EFGH, I 等化到D&G5D&GHI兩次等化結(jié)果可能不太相同,若僅有微些差異,則取兩者之平均;差異甚大時(shí),須深入探討可能影響之因素(許多考生已練習(xí)過版本B)筆者之意見以上三種連接方法,皆不適合目前國內(nèi)的施測環(huán)境。(補(bǔ)教業(yè)盛行,凡考過必留下痕跡)實(shí)務(wù)上,為了使考生的平均數(shù)、標(biāo)準(zhǔn)差,甚至分布狀態(tài)也相同,所以相同百分等級等化法,常被用來再次等化。當(dāng)資料為單一樣本設(shè)計(jì)的等化法同隨機(jī)等組樣本等化技術(shù),然而,同時(shí)等化試卷之版本數(shù)量有限,通常為二。共同試題不等組樣本與等化技術(shù)之

16、結(jié)合ETS採用IRT-真實(shí)分?jǐn)?shù)等化法,將IRT分?jǐn)?shù)之單位轉(zhuǎn)化為類似原始分?jǐn)?shù)之單位。其優(yōu)點(diǎn): 製造試卷間原始分?jǐn)?shù)轉(zhuǎn)化表(A卷10分B卷12分) 從題庫裡選了試題樣本後,即可開始製造試卷 間之分?jǐn)?shù)轉(zhuǎn)化表,無須等待取得考生對試卷的 作答反應(yīng)矩陣。注意:雖共同試題不等組設(shè)計(jì)不要求樣本能力分布狀態(tài)需相同,但能力分布差太大,可能使等化結(jié)果不可靠。 第一連接計(jì)畫同樣季節(jié)之試卷版本應(yīng)等化至同樣季節(jié)之版本其中只有一次例外,如第一年秋季版等化至第一年春季版優(yōu)點(diǎn):考慮到春秋兩季考生能力分布狀態(tài)的不同缺點(diǎn):同年代不同季節(jié)版本的測驗(yàn)分?jǐn)?shù)難於做比較年連接計(jì)畫(一)春季秋季1AB2CD3EF第二連接計(jì)畫將新版本等化至前一次

17、之舊版本優(yōu)點(diǎn):考慮到盡量減少鄰近版本間之連接次數(shù),使鄰近版本之分?jǐn)?shù)易於比較缺點(diǎn):忽略兩季考生能力分布狀態(tài)可能不同而影響等化結(jié)果年連接計(jì)畫(二)春季秋季1AB2CD3EF第三連接計(jì)畫每一施測版本皆等化至第一年第一次版本。強(qiáng)調(diào)未來的新版本中所使用之量尺與與原來第一次第一版本所建立之量尺單位相同。年連接計(jì)畫(三)春季秋季1AB2CD3EF第四連接計(jì)畫混合第一和第二連接計(jì)畫考慮到兩季考生能力分布狀態(tài)之不同可能造成的等化偏誤。有時(shí)則著重於減少鄰近版本間之連接數(shù),使鄰近版本之分?jǐn)?shù)易於比較。年連接計(jì)畫(四)春季秋季1AB2CD3EF二、設(shè)計(jì)連接計(jì)畫之參考準(zhǔn)則盡量減少鄰近版本間之連接數(shù),使得鄰近版本之分?jǐn)?shù)易於

18、比較。(計(jì)畫一違反)以季節(jié)相同之試卷版本等化至季節(jié)相同之版本。(計(jì)畫一符合,計(jì)畫四部份符合)盡量減少連接至“用以建立量尺之版本” 次數(shù)【盡量減少等化誤差】 (連接相同之舊版本,計(jì)畫三符合)避免重複連接相同之舊版本【增加保密性】 (連接相同之舊版本,計(jì)畫三違反)魚與熊掌難以兼得任何連接計(jì)畫皆難以完全符合此四項(xiàng)準(zhǔn)則。主要以測驗(yàn)?zāi)康膩砑右院饬颗c抉擇。若測驗(yàn)?zāi)繕?biāo)在於了解學(xué)生學(xué)習(xí)成就之高低趨勢,那準(zhǔn)則三即為適當(dāng)且重要的考量。如何應(yīng)用與執(zhí)行等化設(shè)計(jì)於國內(nèi)之大型測驗(yàn)計(jì)畫不作等化試卷的潛在問題難度考生成長分?jǐn)?shù)考生進(jìn)步分?jǐn)?shù)試卷一試卷二考生一504758考生二505352考生三50532-1當(dāng)考生在第二次施測之平

19、均分?jǐn)?shù)低於低第一次施測情況下,才考慮作試卷等化,會較遲緩而無法事先做全盤統(tǒng)整之規(guī)劃。一年多試的考試計(jì)畫必須藉助試卷等化技術(shù)。國內(nèi)之大型測驗(yàn)計(jì)畫草案試卷等化設(shè)計(jì): 1.隨機(jī)分配考生受測於某一試卷版本 2.編輯部份共同試題於每份試卷佳試題連接與分?jǐn)?shù)等化程序設(shè)計(jì)一份主試卷及三份次試卷。三份次試卷為主試卷之縮影,長度為主試卷的四分之一。三份次試卷編入主試卷中,形成三份不同試卷。施測計(jì)分後,主試卷計(jì)分且公佈,次試卷不被計(jì)分並保密。國內(nèi)之大型測驗(yàn)計(jì)畫草案S1F :S(計(jì)分score) 1(第一年) F(月份)L11F:L(連接試題link) 1(第一年) 1(第一份次試卷) F(月份)年次月份第一份試卷第

20、二份試卷第三份試卷1二(F)S1F(計(jì)分)L11FS1F(計(jì)分)L12FS1F(計(jì)分)L13F七(J)S1J(計(jì)分)L11JS1J(計(jì)分)L12JS1J(計(jì)分)L13J2二(F)S2F(計(jì)分)L21FS2F(計(jì)分)L22FS2F(計(jì)分)L23F七(J)S2J(計(jì)分)L21JS2J(計(jì)分)L22JS2J(計(jì)分)L23J*如何執(zhí)行國內(nèi)之大型測驗(yàn)計(jì)畫建議由教育評量專家來掌管參與考試事務(wù)執(zhí)行試卷等化工作: (一)統(tǒng)計(jì)技術(shù) (二)設(shè)定考試法令與規(guī)則 執(zhí)行試卷等化工作統(tǒng)計(jì)技術(shù)選擇等化係數(shù)之考生樣本(約3000位) 1.去除重複考生2.去除主、次試卷得分相關(guān)低,且在次試卷 百分等級相對高的考生刪除不適用的題目 1.估算連接試題在兩次理想考生樣本的難度, 並計(jì)算其相關(guān)係數(shù) 2.若相關(guān)值極低且它在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論