建立學科評量量尺課件_第1頁
建立學科評量量尺課件_第2頁
建立學科評量量尺課件_第3頁
建立學科評量量尺課件_第4頁
建立學科評量量尺課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、建立學科評量量尺之理論基礎第二組OMS096125 康金雲(yún)OMS096102 羅文虹OMS096111 歐瑞蘭大綱一、序論二、IRT為基礎的試卷等化原理三、學科評量量尺之建立四、如何應用與執(zhí)行等化設計於國內大型 測驗計畫五、學生成就量尺之應用六、結論序論一、問題背景 1.傳統(tǒng)聯(lián)招一試定終生 一年多試的機會 2.記分方式以原始分數(shù)(或加權分數(shù))加總極具 爭議性。 等化各科量尺 數(shù)學超難,大部分分數(shù)集中在1030分;國文簡單,大部分分數(shù)集中在6090分。對於數(shù)學好但是國文差的學生不利各學科原始分數(shù)所參照量尺的刻不同。 二、建立評量量尺之重要性:美國教育測驗社(ETS)之模式以美國SAT(schol

2、astic aptitude test)為例:SAT:美國各大學申請入學的重要參考條件之一 A生數(shù)學能力中等,語文中上 B生數(shù)學能力中上,語文中等B生數(shù)學比A生好 數(shù)語文A夏500580 B秋600500A生語文比B生好SAT量尺的潛在意義 1.由不同時段所獲得的分數(shù)高低,其評量量尺之意 義大抵上是一致的。(隔一段時間後,兩生重測得分不會有太大變化,除非是“非?!?賣力地準備與複習。) 2.評量量尺之分數(shù)高低是具意義的。 3.各學科評量量尺之刻度大抵上是一致的。 4.分數(shù)相當可靠。 試卷等化程序SAT量尺的潛在意義1995年SAT評量量尺定為平均數(shù)500,標準差110(以1990年考生為參照群

3、體)。以後每年的數(shù)學和語文以此為設定標準。年與年間考生得分高低的比較需謹慎行之,假如年代差距太遠,比較考生在該次樣本中的百分等級高低可能較有意義。ETS不鼓勵把SAT的數(shù)學和語文分數(shù)加總,表面上評量單位相同,但實際上卻不一樣 IRT為基礎的試卷等化原理常用的幾種試題反應理論模式簡介測驗資料之搜集與設計重新調節(jié)IRT統(tǒng)計參數(shù)之單位非等化係數(shù)的等化方法應用IRT等化兩試卷之原始分數(shù)常用的幾種試題反應理論模式簡介單一參數(shù)模式(one-parameter logistic model)二參數(shù)模式(two-parameter logistic model)三參數(shù)模式(three-parameter lo

4、gistic model)多分計分法模式(partial credit model,PCM)一般性多分計分法模式(generalized partial credit model,GPCM)多分計分法模式(partial credit model,PCM) (Masters,1982)為Rasch模式的延伸。假設試題 i 的計分由0分到m分之間,當受試者 j 之潛在能力為,回答試題 i 而被評k分的機率以公式一表示:(公式一)(公式二)是考生在題目 i 得k分而非得k-1分的難度值, 被界定為0,是題目 i 的難度值,代表考生在題目 i 分別得k分的相對難度值。一般性多分計分法模式(Murak

5、i,1992)(generalized partial credit model,GPCM)針對Master之模式修改而成。允許每題的鑑別度值不一樣??捎渺秵柎痤}。測驗資料之搜集與設計單一平衡樣本(Single Group with Counterbalancing)隨機等組設計(Random Equivalent Groups)共同試題-不等組樣本(Common Items-Nonequivalent Groups)試卷內編輯涵蓋經(jīng)被刻度過之試題(Precalibrating Items) 單一平衡樣本(Single Group with Counterbalancing)只選擇一組樣本,這

6、組樣本必須施測A和B兩份試卷。缺點:考生同時接受兩份試卷,厭倦的因素將影響表現(xiàn),並可能左右等化的結果??墒褂渺兜然瘍煞莶皇呛荛L的試卷,很少用於大型測驗計畫。隨機等組設計(Random Equivalent Groups)基本假設:從母群體裡隨機抽取數(shù)組樣本,這些樣 本能力的分布狀態(tài)應是相似的。必要條件:採行大的樣本(如3000位考生的樣本大小)應用: 在這些施測版本中,通常一版本已在前一次施測中被使用過,而此 版本將作為建立新版本分數(shù)量尺之橋樑。考生在新版本中的得分必 須轉化為舊版本之分數(shù)量尺。生1、生2、生3、生4、生5、生6 卷A 卷B 卷C 卷D共同試題-不等組樣本(Common Ite

7、ms-Nonequivalent Groups)同時編輯數(shù)份不同版本之試卷,每一份試卷裡須編輯部份(大約四分之一以上)共同試題。編製共同試題的原則:1.應是整份試卷的縮影。2.在試卷裡的位置必須一樣或非常相似。3.計算分數(shù)時,通常不併入計分。在這些施測版本中,通常一(或二)版本中有部分題目已在前一次施測中被使用過,而這些題目將作為建立新版本分數(shù)量尺之橋樑。考生在新版本中的得分必須轉化為舊版本之分數(shù)量尺。試卷內編輯涵蓋經(jīng)被刻度過之試題(Precalibrating Items)在每一份被等化的試卷裡,編輯部份(大約四分之一以上)已被刻度過之試題,再以這些被刻度過之試題為橋樑,將每一不同能力的樣本

8、在每一試卷所產(chǎn)生的分數(shù),轉化到這些已被刻度過的試題之量度上。測驗資料之搜集與設計原則試卷間有相同試題(或部分題目已被刻度過)施測之樣本相同(或施測樣本能力大抵相同)重複考生在兩份不同試卷的反應是否可為試卷等化之資料收集方法之一?作者認為:重複考生在第二次(後來)試卷的反應表現(xiàn)深受能力、成長、試卷難度、評量誤差等因素所左右,而其中成長與試卷難度因素對試卷反應所產(chǎn)生之影響無法被明確分離,將造成等化試卷的困擾。重新調節(jié)IRT統(tǒng)計參數(shù)之單位-1即使在對任何一測驗資料作試題刻度時,每一受試樣本之能力評量單位通常都被標準化為平均數(shù)等於零和標準差等於一,然而原來每一組樣本之能力評量單位亦可能不同。所以當同一

9、組題目被施測在能力不同的兩組考生並分別作試題刻度時,所得之兩組試題統(tǒng)計參數(shù)估計值並不同,此乃歸因其對應到不同的量尺。解決方法:強制每組試題參數(shù)估計值對應於共同的能力單位上。在兩組樣本之條件下,此共同能力之單位乃依據(jù)以下的線性轉換步驟而成A為等化係數(shù)之斜率 B為等化係數(shù)之截距R代表基礎的樣本 E代表被等化的樣本*代表從等化樣本之量尺轉換成基礎樣本之量尺重新調節(jié)IRT統(tǒng)計參數(shù)之單位-2IRT三參數(shù)模式的線性轉換:一般性之多分計分模式:經(jīng)過以上之轉換其等化組的能力單位已反映至基礎組的能力單位上。可知IRT參數(shù)估計值之單位可再被重新調節(jié),其基本條件為 採用之IRT模式能適切地解釋測驗資料。非等化係數(shù)的

10、等化方法同時校準法連接業(yè)經(jīng)刻度之試題參數(shù)設定各隨機樣本之能力單位相同同時校準法定義:藉由測驗資料的收集設計與IRT電腦軟體所提供之功能之結合,將所收集之數(shù)筆測驗資料同時執(zhí)行試題校準。校準後,從任何一份試卷之題目參數(shù)估計值皆能被刻度在相同的評量單位上。優(yōu)點:與其他等化方法相比,使用最多的試題參數(shù)訊息,以及共同試題參數(shù)估計值之變異數(shù)共變數(shù)矩陣,因此可能產(chǎn)生較小的誤差。缺點:若施測樣本間之能力分布狀態(tài)差異太大,則可能 1.無法得到收斂。 2.有些試題,無法找到合適的參數(shù)估計值。 3.得到的參數(shù)估計值其標準誤可能偏高。共同試題-不等組樣本使用Bilog等化樣本試 題 題 號兩份試卷的共同試題A試卷B試

11、卷12345678910678910甲樣本1000甲樣本對共同試題的反應甲樣本對A試卷中非共同試題的反應假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本1000乙樣本對共同試題的反應假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本對B試卷中非共同試題的反應連接業(yè)經(jīng)刻度之試題參數(shù)前提:在一份試卷中某些題目已有參數(shù)值 而部份則無的情況。目的:設定此無參數(shù)題目與有參數(shù)題目之 評量單位相同。方法:執(zhí)行IRT電腦程式的過程中將有參數(shù) 題目之參數(shù)值固定不變且不再被重 新估計。設定各隨機樣本之能力單位相同隨機等組設計:兩份不同的試卷被施測於兩組隨機之樣本上,在”分別“估計兩份試卷之試題參數(shù)時,只要將

12、能力的單位共同訂為一樣,經(jīng)刻度後,兩份試卷所得到的試題參數(shù)值之單位是相同的。且兩組樣本的能力估計值之單位也是相同的。單一樣本設計:兩份不同的試卷被施測於單一樣本之情境,可視同兩份不同的試卷被施測於兩組隨機之樣本上。應用IRT等化兩試卷之原始分數(shù)介紹IRT-真實分數(shù)等化法的原因: 1.與IRT-原始分數(shù)法比較,計算過程較簡易。2.無須依賴考生能力之分布狀態(tài)。3.已被測驗公司(如ETS)所採用。IRT-真實分數(shù)等化法的兩個主要步驟:1.將兩試卷試題參數(shù)值對應在相同之量尺上。2.使用IRT分數(shù)為橋樑,試圖製造兩份試卷間真實分數(shù)之對應表。學科評量量尺之建立一、測驗資料之收集與等化技術之結合 1. 隨機

13、等組樣本與等化技術之結合 (1)連接不同之舊版本 (2)連接相同之舊版本 (3)同時連接兩份舊版本 2.共同試題不等組樣本與等化技術之結合 計畫一、二、三、四二、設計連接計畫之參考準則隨機等組樣本與等化技術之結合定義:一版本已在前一次施測中被使用過,而此一版本將做為建立與新版本之橋樑。新版本之原始總分需轉化為舊版本之原始總分。大樣本下,此法可同時等化數(shù)種不同版本試卷。方法有: 連接不同之舊版本 連接相同之舊版本 同時連接兩份舊版本連接不同之舊版本每一次施測試卷皆連接至不同的舊版本。優(yōu)點:每次選用的舊版本不同,題目的保密性周全。缺點:四次等化誤差。I卷等化到A卷需經(jīng)過四次程序。等化程序施測次數(shù)試

14、卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到C3CDEF, G 等化到E4EFGH, I 等化到G5GHI 為何同時等化試卷之版本,總是為二,可以增加嗎 ?連接相同之舊版本每一次施測的試卷接連接到相同的舊版本優(yōu)點:只產(chǎn)生一次等化誤差。缺點:欠缺保密性,因為同樣的舊版本重複被使用。等化程序施測次數(shù)試卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到A3ADEF, G 等化到A4AFGH, I 等化到A5AHI同時連接兩份舊版本起始連接階段時僅連接單一舊版本,經(jīng)過數(shù)次後則轉換為同時連接兩份舊版本??尚拚B接不同之舊版本方法所帶來的等化誤差。若實務上之考量可行的狀況下,此為

15、較佳的選擇。等化程序施測次數(shù)試卷樣本建立量尺1AB, C 等化到A2ABCD, E 等化到C3CDEF, G 等化到B&E4B&EFGH, I 等化到D&G5D&GHI兩次等化結果可能不太相同,若僅有微些差異,則取兩者之平均;差異甚大時,須深入探討可能影響之因素(許多考生已練習過版本B)筆者之意見以上三種連接方法,皆不適合目前國內的施測環(huán)境。(補教業(yè)盛行,凡考過必留下痕跡)實務上,為了使考生的平均數(shù)、標準差,甚至分布狀態(tài)也相同,所以相同百分等級等化法,常被用來再次等化。當資料為單一樣本設計的等化法同隨機等組樣本等化技術,然而,同時等化試卷之版本數(shù)量有限,通常為二。共同試題不等組樣本與等化技術之

16、結合ETS採用IRT-真實分數(shù)等化法,將IRT分數(shù)之單位轉化為類似原始分數(shù)之單位。其優(yōu)點: 製造試卷間原始分數(shù)轉化表(A卷10分B卷12分) 從題庫裡選了試題樣本後,即可開始製造試卷 間之分數(shù)轉化表,無須等待取得考生對試卷的 作答反應矩陣。注意:雖共同試題不等組設計不要求樣本能力分布狀態(tài)需相同,但能力分布差太大,可能使等化結果不可靠。 第一連接計畫同樣季節(jié)之試卷版本應等化至同樣季節(jié)之版本其中只有一次例外,如第一年秋季版等化至第一年春季版優(yōu)點:考慮到春秋兩季考生能力分布狀態(tài)的不同缺點:同年代不同季節(jié)版本的測驗分數(shù)難於做比較年連接計畫(一)春季秋季1AB2CD3EF第二連接計畫將新版本等化至前一次

17、之舊版本優(yōu)點:考慮到盡量減少鄰近版本間之連接次數(shù),使鄰近版本之分數(shù)易於比較缺點:忽略兩季考生能力分布狀態(tài)可能不同而影響等化結果年連接計畫(二)春季秋季1AB2CD3EF第三連接計畫每一施測版本皆等化至第一年第一次版本。強調未來的新版本中所使用之量尺與與原來第一次第一版本所建立之量尺單位相同。年連接計畫(三)春季秋季1AB2CD3EF第四連接計畫混合第一和第二連接計畫考慮到兩季考生能力分布狀態(tài)之不同可能造成的等化偏誤。有時則著重於減少鄰近版本間之連接數(shù),使鄰近版本之分數(shù)易於比較。年連接計畫(四)春季秋季1AB2CD3EF二、設計連接計畫之參考準則盡量減少鄰近版本間之連接數(shù),使得鄰近版本之分數(shù)易於

18、比較。(計畫一違反)以季節(jié)相同之試卷版本等化至季節(jié)相同之版本。(計畫一符合,計畫四部份符合)盡量減少連接至“用以建立量尺之版本” 次數(shù)【盡量減少等化誤差】 (連接相同之舊版本,計畫三符合)避免重複連接相同之舊版本【增加保密性】 (連接相同之舊版本,計畫三違反)魚與熊掌難以兼得任何連接計畫皆難以完全符合此四項準則。主要以測驗目的來加以衡量與抉擇。若測驗目標在於了解學生學習成就之高低趨勢,那準則三即為適當且重要的考量。如何應用與執(zhí)行等化設計於國內之大型測驗計畫不作等化試卷的潛在問題難度考生成長分數(shù)考生進步分數(shù)試卷一試卷二考生一504758考生二505352考生三50532-1當考生在第二次施測之平

19、均分數(shù)低於低第一次施測情況下,才考慮作試卷等化,會較遲緩而無法事先做全盤統(tǒng)整之規(guī)劃。一年多試的考試計畫必須藉助試卷等化技術。國內之大型測驗計畫草案試卷等化設計: 1.隨機分配考生受測於某一試卷版本 2.編輯部份共同試題於每份試卷佳試題連接與分數(shù)等化程序設計一份主試卷及三份次試卷。三份次試卷為主試卷之縮影,長度為主試卷的四分之一。三份次試卷編入主試卷中,形成三份不同試卷。施測計分後,主試卷計分且公佈,次試卷不被計分並保密。國內之大型測驗計畫草案S1F :S(計分score) 1(第一年) F(月份)L11F:L(連接試題link) 1(第一年) 1(第一份次試卷) F(月份)年次月份第一份試卷第

20、二份試卷第三份試卷1二(F)S1F(計分)L11FS1F(計分)L12FS1F(計分)L13F七(J)S1J(計分)L11JS1J(計分)L12JS1J(計分)L13J2二(F)S2F(計分)L21FS2F(計分)L22FS2F(計分)L23F七(J)S2J(計分)L21JS2J(計分)L22JS2J(計分)L23J*如何執(zhí)行國內之大型測驗計畫建議由教育評量專家來掌管參與考試事務執(zhí)行試卷等化工作: (一)統(tǒng)計技術 (二)設定考試法令與規(guī)則 執(zhí)行試卷等化工作統(tǒng)計技術選擇等化係數(shù)之考生樣本(約3000位) 1.去除重複考生2.去除主、次試卷得分相關低,且在次試卷 百分等級相對高的考生刪除不適用的題目 1.估算連接試題在兩次理想考生樣本的難度, 並計算其相關係數(shù) 2.若相關值極低且它在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論