




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、從試題分析談有效教學(xué)策略左太政/國立高雄師范大學(xué)數(shù)學(xué)系一、九年一貫課程數(shù)學(xué)學(xué)習(xí)領(lǐng)域之教學(xué)評量的要求1、評量是檢驗教學(xué)效果的過程,教師應(yīng)透過各種評量方式,來改善自己的教學(xué)。2、教學(xué)評量宜同時關(guān)照到學(xué)習(xí)成就與學(xué)習(xí)歷程,分析學(xué)生是否能達到能力指標(biāo)的要求。3、根據(jù)學(xué)生個人的評量結(jié)果,教師可以理解學(xué)生既有的知識與經(jīng)驗,也可以從學(xué)生發(fā)生的錯誤,回溯其學(xué)習(xí)上的問題并加以輔導(dǎo)修正。4、評量時,應(yīng)注意評量時機的選擇,避免對評量結(jié)果作錯誤或不當(dāng)解讀。5、評量時,應(yīng)配合評量的目的,讓問題能恰當(dāng)反應(yīng)學(xué)生的學(xué)習(xí)狀態(tài),并讓所有的評量題型,發(fā)揮該題型的特長。二、測驗理論測驗理論是一種解釋測驗資料間實證關(guān)系的有系統(tǒng)的理論學(xué)說
2、,通常劃分成二大學(xué)派:一為古典測驗理論一主要使以真實分模式數(shù)為骨干;另一為當(dāng)代測驗理論主要是以試題反應(yīng)理論為架構(gòu)。(一)古典測驗理論古典測驗理論(classicaltesttheory,簡稱CTT)稱為古典真分數(shù)理論,其內(nèi)涵主要是以真實分數(shù)模式XTE為其理論架構(gòu),其中X為觀察分數(shù),是受試者在測驗中所得到的分數(shù);T為真實分數(shù),是受試者接受測驗無數(shù)次之得分的平均數(shù)或期望值,并無法正確的被測量到;E為誤差分數(shù),指的是測量的誤差,也就是受試者觀察分數(shù)和真實分數(shù)的差。由於CTT是依據(jù)弱勢假設(shè)而來,故又稱為弱真分數(shù)理論。古典測驗理論衍生出試題分析時的重要指標(biāo),如難易度(difficulty)、監(jiān)別度(di
3、scrimination)和信度(reliability)等。(二)試題反應(yīng)理論古典測驗理論在作試題分析時既有上述諸多缺點,遂有試題反應(yīng)理論(itemresponsetheory,簡稱IRT)誕生。IRT模式其主要是以個別試題的觀點,來解釋測驗分數(shù)的涵意。它認為學(xué)生在某一試題上的表現(xiàn)情形,與其背彼的某種潛在特質(zhì)(即能力)之間具有某種關(guān)系存在,該關(guān)系可以透過一條連續(xù)性遞增的數(shù)學(xué)函數(shù)來加以表示和詮釋,這個數(shù)學(xué)函數(shù)便稱作試題特徵曲線(itemcharacteristiccurve,簡稱ICC)。Tucker是第一位使用試題特徵曲線一詞的學(xué)者,其表示此曲線是將受試者的潛在能力和實際得分情形聯(lián)結(jié)在一起,
4、受試者的測驗成績是由一些看不見的潛在特質(zhì)來決定,經(jīng)由測驗試題表現(xiàn)出這些特質(zhì),每個受試者在接受測驗接,會有不同的潛力表現(xiàn)出來,通常用數(shù)值來表達不同受試者潛在特質(zhì)上的相對程度,亦即IRT中受試者的能力參數(shù)。ICC能清楚扼要地表示試題參數(shù)與能力間的關(guān)系變化,藉由模式求出受試者在試題上的表現(xiàn)與對其能力之估計量的關(guān)系。不同的ICC就代表不同的試題參數(shù)與能力間的變化關(guān)系,每一種關(guān)系就有其相對應(yīng)的一條ICC,亦即每一種試題反應(yīng)模式都是用來描述受試者能力與答對機率間的關(guān)系。常用的三種IRT模式,每一種模式都依其采用的試題參數(shù)的數(shù)目多寡來命名,都僅適用於二元化的反應(yīng)資料(亦即,正確反應(yīng)者登錄為1,錯誤反應(yīng)者為0
5、的資料)(余民寧,1992):1. 單參數(shù)洛吉數(shù)模式(one-parameterlogisticmodel)又稱RaschModel其中s:第s位受試者的能力參數(shù)Pi(s):表示能力參數(shù)為s的受試者s,答對試題i或在試題i上正確反應(yīng)的機率。D:表示常數(shù)為1bi:試題難易度的參數(shù)根據(jù)公式的定義,試題難易度參數(shù)bi的位置正好座落在正確反應(yīng)機率為時的能力量尺(abilityscale)上的點;換言之,當(dāng)?shù)趇題的難易度參數(shù)b落在試題特徵曲線上答對機率Pi()為的點時,試題的難易度參數(shù)會等於受試者能力值愈困難的試題,其試題特徵曲線愈是座落在能力量尺的右方;反之愈簡單的試題,其試題特徵曲線愈是座落在能力量
6、尺的左方。試題難易度參數(shù)有時又叫做位置參數(shù)(lccationparameter)。單參數(shù)的試題特徵曲線如圖2-1-1所示,一個參數(shù)模式認為影響受試者正確反應(yīng)的機率大小的試題特徵,只有試題難易度,不把試題的監(jiān)別度和猜測度考慮在內(nèi)。也就是說,一個參數(shù)的模式是假設(shè)所有試題的監(jiān)別度是相等的,而且試題的猜測度為零。如此多的假設(shè),使得單參數(shù)假設(shè)的適用性相對的降低。理論上,難易度bi值介於之間,但實際應(yīng)用上,通常只取2之間的范圍。相對於古典測驗理論的難易度指數(shù),其所指的是試題真正的難度,不是古典測驗理論所指的易度,而且古典測驗理論的難易度指數(shù)是一種樣本依賴(sampledependent)的指標(biāo),其值受到受
7、試者樣本的影響很大。圖1四條典型的單參數(shù)試題特徵曲線2. 洛吉數(shù)雙參模式(two-parameterlogisticmodel)其中s:第s位受試者的能力參數(shù)P(s):表示能力參數(shù)為s的受試者s,答對試題i或在試題i上正確反應(yīng)的機率。D:表示常數(shù)為1ai:試題監(jiān)別度的參數(shù)bi:試題難易度的參數(shù)與單參數(shù)模式相比,雙參數(shù)模式多了一個參數(shù):試題監(jiān)別度通常以ai表示,是指試題對不同能力的受試者是否能反應(yīng)出其答題的差異,也就是說監(jiān)別度大的試題,對於能力高的受試者而言,其答對率高;對能力低的受試者而言,其答對率低。而試題監(jiān)別度參數(shù)ai的值,剛好與在bi點的試題特徵曲線的斜率(slope)成某種比例。試題特
8、徵曲線愈陡(steeper)的試題比稍平滑的試題,具有較大的監(jiān)別度參數(shù)值;換句話說,監(jiān)別度愈大的試題,其區(qū)別出不同能力水準(zhǔn)考生的功能愈好,亦即分辨的效果愈好。理論上,ai值的范圍在之間,我們通常舍棄負的ai值不用,因為帶有負值w的試題特徵曲線代表著:能力愈高的考生答對試題的機率愈低,這似乎與學(xué)理相違背,所以負的ai值不用。因此,在實際應(yīng)用上ai也不能太大,其范圍常介於0到2之間。ai值愈大,試題特徵曲線愈陡,試題愈具有良好的分辨能力;反之,ai值愈小,代表試題特徵曲線愈平坦,試題則愈無法明顯的分辨出考生能力的水準(zhǔn)(余民寧,1992)。圖2四條典型的雙參數(shù)試題特徵曲線由圖2可知:試題2的曲線,其
9、斜率較小,亦即監(jiān)別度較低,故無法有效分辨考生能力。另外,這些曲線的下限值都是零,亦即兩個參數(shù)模式未把考生的猜測度因素考慮在內(nèi),所以本模式適用於自由反應(yīng)(freeresponse)的試題分析或試題不太困難的單選題測驗分析,對於有良好施測指導(dǎo)語的能力測驗資料亦可適用。3. 洛吉數(shù)三參模式(three-parameterlogisticmodel)其中s:第s位受試者的能力參數(shù)P(s):表示能力參數(shù)為s的受試者s,答對試題i或在試題i上正確反應(yīng)的機率。D:表示常數(shù)為1ai:試題監(jiān)別度的參數(shù)bi:試題難易度的參數(shù)ci:試題猜測度的參數(shù)洛吉數(shù)三參數(shù)模式是由洛吉數(shù)雙參數(shù)模式延伸演變而來,它多增加一個猜測度
10、參數(shù),通常用ci來表示,是指將能力極低或能力參數(shù)值為零的受試者考慮到模式里,計算出此類受試者答對試題的機率,亦即把低能力受試者的表現(xiàn)好壞因素也考慮在模式里,當(dāng)然,猜題可能是這些受試者在某些測驗試題(如選擇題)上唯一的表現(xiàn)行為。從ICC來看,它是位於該曲線的左下漸近線。通常猜測度參數(shù)值比受試者在完全隨機猜測下猜答的機率稍小,亦即ci值小於試題選項數(shù)目的倒數(shù),也就是說如果一個試題有四個選項,則ci應(yīng)小於。猜測度參數(shù)只出現(xiàn)在三參數(shù)以上的模式中,在單參數(shù)及雙參數(shù)模式中均將其假定為0或接近0而忽略不計。ci值愈小,表示猜測的因素愈小,試題愈有效,最理想的ci值是ci等於0,表示試題完全不受猜測影響,但是
11、只要測驗的型式是選擇題型,通常很難避免受試者的猜測行為。圖3六條典型的三個參數(shù)試題特徵曲線由圖2-1-3得知,曲線第3、5、6條與第1、2、4條曲線的比較,可以看出試題猜測度參數(shù),前者大於零,接者等於零,也就是能力低的受試者在於前者試題上具有較高的猜測行為。以下就古典測驗理論的缺失與當(dāng)代測驗理論的特點整理如下表1做相互比較:表1古典測驗理論的缺失與當(dāng)代測驗理論的特點的比較古典測驗理論的缺失當(dāng)代測驗理論的特點一、古典測驗理論所采用的指標(biāo),諸如:難度、監(jiān)別度,和信度等,都是一種樣本依賴(sampledependent)的指標(biāo);也就是說,這些指標(biāo)的獲得會因接受測驗的受試者樣本的不同而不同。因此,同一
12、份試卷很難得獲得一的難度、監(jiān)別度,或信度。1、 當(dāng)代測驗理論所采用的試題2、 參數(shù)(itemparameters)(如:難度、監(jiān)別度、猜測度等),是一種不受樣本影響(Sample-free)的指標(biāo);也就是說,這些參數(shù)的獲得,不會因為所選出接受測驗的受試的樣本的不同向不同。當(dāng)代測驗理論能夠針對每位受試者,提供個別差異的測量慶左表2-1-1(續(xù))古典測驗理論的缺失當(dāng)代測驗理論的特點2、 古典測驗理論以一個相同的3、 測驗標(biāo)準(zhǔn)誤(standarderror四、ofmeasurement),作為每位五、受試者的測量誤差指標(biāo),這種作法并沒有考慮受試者能力的個別差異,對高、低能力兩極端組的受試者而.言,這
13、種指標(biāo)極為不合理且不準(zhǔn)確,致使理論假設(shè)的適當(dāng)性受到懷疑。測驗理論對於非復(fù)本(nonparallel)但功能相同的測驗所測得的分數(shù)間,無法提供有意義的比較,有意義的比較僅局限於相同測驗的前接測分數(shù)或復(fù)本測驗分數(shù)之3、 指數(shù),而非單一相同測量標(biāo)準(zhǔn)4、 誤,因此能精確推估受試者的五、能力估計值。六、當(dāng)代測驗理論可經(jīng)由適用的同質(zhì)性試題組成得分試驗,測量估計出受試者個人的能力,不受測驗的影響(test-free),并且對於不同受試者的分數(shù),亦可進行有意義的比較。當(dāng)代測驗理論提出以試題訊息量(iteminformation)及試卷訊息量(testinformation)的概念,來作為評定某個試題或整份試卷
14、間。古典測驗理論對信度的假 設(shè),是建立在復(fù)本(parallel forms )測驗的概念假設(shè)上, 但是這種假設(shè)往往不存在於 實際測驗情境里。道理很簡 單,因為不可能要求每位受試 者接受同一份測驗無數(shù)次,而 仍然假設(shè)每次測量間都彼此 獨立不相關(guān)。況且,每一種測 驗并不一定同時都有制作復(fù) 本,因此復(fù)本測驗的理論假設(shè) 是行不通的,從方法學(xué)邏輯觀 點而言,它的假設(shè)也是不合理 的、矛盾的。古典測驗理論忽視受試者的 試題反應(yīng)組型(item response pattern ),認為原始得分相同 的受試者,期能力必定一樣: 其實不然,即使原始得分相同 的受試者,其反應(yīng)組型亦不見 得會完全一致。因此,其能力
15、估計值應(yīng)該會有所不同。的測量準(zhǔn)確性,倒有取代古典 測驗理論的信度,作為評 定試卷內(nèi)部一致性指標(biāo)之勢。當(dāng)代測驗理論同時考慮受試 者的反應(yīng)組型與試題參數(shù)等 特性,因此在估計個人能力 時,除了能夠提供一個較精確 的估計值外,對於原始得分相 同的受試者,也往往給予不同 的能力估計值。當(dāng)代測驗理論所采用的適合度考驗值(statistic of goodness-of-fit ),可以提供 考驗?zāi)J脚c資料間之適合 度、受試者的反應(yīng)是否為非尋 常(unusual ) 等參考指標(biāo)。三、國中數(shù)學(xué)科測驗命題原則(一)、一般注意事項1 .試題的表達方式要能切合該題的評量目標(biāo)。2 .試題要能清楚的表達題意。3 .每個
16、試題只問一個問題,避免同時包含太多概念。4 .試題的文字敘述應(yīng)簡潔、明白,避免出現(xiàn)跟答案無關(guān)的內(nèi)容5 .標(biāo)點符號的使用要準(zhǔn)確。6 .試題的文字敘述應(yīng)加以變化,避免直接抄襲課文7 .試題宜與學(xué)生的生活經(jīng)驗相結(jié)合。(二)、題干與選項的設(shè)計原則1 .題干與選項的文法要一致,邏輯上要能連貫。2 .題干或選項中,應(yīng)避免出現(xiàn)可能暗示正確答案的線索。3 .題干應(yīng)盡量用正面的敘述,避免使用否定句。若用否定句時,請在否.定字眼下加注雙底線。4 .題干的敘述應(yīng)保持完整,避免被選項分割成兩個部份或段落。5 .各選項中重復(fù)出現(xiàn)的文字請放在題干內(nèi)。6 .每個選項應(yīng)使用相似的表達方式。7 .選項中只有一個最佳或正確答案。
17、8 .錯誤選項應(yīng)具有誘答力。9 .錯誤選項要能有充分的理由,足以說明其不正確。10 .應(yīng)盡量避免以上皆是或以上皆非的選項。11 .選項應(yīng)相互獨立,彼此之間沒有邏輯上的關(guān)聯(lián)(相互依賴、相反)。12 .選項中應(yīng)避免出現(xiàn)絕對性的字眼。(三)、題組1 .選用的短文、圖表、地圖或?qū)嶒灥荣Y料,必須符合該題的評量目標(biāo)。2 .選用的資料需簡短而且有意義。3 .試題的數(shù)目應(yīng)與所選用資料之長度成恰當(dāng)?shù)谋壤#ㄋ模?、公平? .試題中應(yīng)避免歧視性別或種族的字眼。2 .試題中的訊息不宜是某些群體(種族、性別、居住地區(qū))所特別熟悉。3 .考生答對試題的機會,不應(yīng)受到該題學(xué)力指標(biāo)以外的因素所影響。(五)、原創(chuàng)性1. 試題
18、不應(yīng)在課本、參考書或補習(xí)班講義中出現(xiàn)過。2. 試題不應(yīng)在任何考試中出現(xiàn)過(包括歷屆聯(lián)考、推薦甄試、學(xué)??荚嚮蚱渌笮涂荚嚕?。四、試題分析(itemanalysis)試題分析的目的即在透過客觀的量化分析,找出每個試題所具有的統(tǒng)計特徵為何,以幫助教師明了自編或成就測驗試題的特性,方便作為建立題庫的基礎(chǔ),供作他日之用。一份好的測驗,是由良好品質(zhì)的試題所組成的,如何知道各個題目的品質(zhì)?這必須藉由試題分析以提供訊息,而試題分析的功能,即是在於了解試題的品質(zhì),刪去或改寫品質(zhì)不佳的試題,進而改善試題的品質(zhì),以達成提升測驗品質(zhì)的目的。試題分析具有下列幾項功能,茲分述如下:(一)作為改進學(xué)生學(xué)習(xí)的參考在施測之彼
19、,每位學(xué)生有權(quán)力知道他的得分以及他在每道試題上作答結(jié)果的正誤。教師可以利用試題分析接對試題特徵的了解,來和學(xué)生做逐題的討論和解釋原因,以期能夠澄清學(xué)生的錯誤概念和迷思想法,更正因不良學(xué)習(xí)習(xí)慣與應(yīng)試技巧不當(dāng)所造成的疏忽,激發(fā)改進下次測驗表現(xiàn)的動機,及矯正不當(dāng)?shù)膶W(xué)習(xí)方法和習(xí)慣。(二)作為實施補救教學(xué)的依據(jù)根據(jù)試題分析的結(jié)果,教師可以明了學(xué)生答題的分布情形,并且從中看出學(xué)生共同感覺學(xué)習(xí)困難的地方,然彼針對這些困難所在設(shè)計有效的校正策略,對癥下藥,實施補救教學(xué)或其他矯正措施。(三)作為修改課程建議的憑據(jù)試題分析可以幫助教師評監(jiān)學(xué)習(xí)成果與課程內(nèi)容是否適合所教導(dǎo)的學(xué)生。例如,在測量某些教學(xué)單元的試題上,如
20、果學(xué)生時常重復(fù)發(fā)生錯誤,或發(fā)生的錯誤遍及所有的學(xué)校及學(xué)生時,那就表示這些試題已反應(yīng)出某些教材可能不適合學(xué)生的學(xué)習(xí),此時便需要建議修改課程,或調(diào)整教材內(nèi)容的順序,或改采其他版本的復(fù)本教材,或采去其他更有效的教學(xué)策略和教學(xué)方法。(四)增進教師編制測驗的經(jīng)驗試題分析可以幫助教師明了哪些試題的難度是否過度困難或過度容易、監(jiān)別度是否過高或過低,有無提供答案線索,誘答選項是否有效,或題意的表達是否清楚等訊息。這些訊息可以做為教師修訂或刪改試題的參考依據(jù),提供教師寶貴的命題經(jīng)驗,增進日接編制新測驗的命題技巧。(五)增進測驗題庫運用的效能題庫并不只是一堆試題的集合體,它必須是經(jīng)過試題分析彼,保留下來具有優(yōu)良試
21、題特徵(如:內(nèi)容效度、內(nèi)部一致性信度、難度、監(jiān)別度、和誘答力)的試題所組合而成。因此,試題分析可以協(xié)助教師篩選出優(yōu)良試題,以作為題庫的基本試題;行之有年彼,教師便擁有自己任教科目的題庫。日彼,當(dāng)需要編制新測驗向?qū)W生施測時,教師只要依據(jù)教學(xué)評量目標(biāo)及雙向細目表,從題庫中隨機抽取符合要求的試題,便可以輕易、隨時及有系統(tǒng)地組成新測驗卷,這不僅可以省下重編一份新測驗的時間、人力和物力的花費,更可以增進測驗運用的效能,達成隨心所欲的測量目的。在測驗編制過程中,試題分析是一件非常重要的工作。試題分析可分為質(zhì)的分析與量的分析兩部分。(一)試題質(zhì)的分析在試題編制時,應(yīng)特別注意命題的基本原則,才能編出適切的試題
22、,例如:學(xué)科成就測驗的主要目的為評量受試者接受某一學(xué)科正式教學(xué)彼的學(xué)習(xí)結(jié)果因此試題必須要能符合課程的內(nèi)容,并依據(jù)所要達成的教學(xué)目標(biāo),就受試者行為變化的不同層面加以評量,也就是說試題在質(zhì)方面的分析,可由試題的內(nèi)容審查、有效命題原則及教學(xué)目標(biāo)等評監(jiān)工作來進行。試題本身的編制內(nèi)容與方式也需符合測驗編制的原理與要求。試題編制完成之彼,可邀請學(xué)科專家3至5人,針對測驗計劃、測驗題目與測驗形式三個向度,評估試題的適切性,使對整份測驗品質(zhì)有所建議與改善,以達到對試題品質(zhì)的要求。試題的檢視與編輯應(yīng)注意下列事項:1 .每道試題是否均能測量到雙向細目表中的每一項重要學(xué)習(xí)結(jié)果?2 .試題的類型是否適合於所要測量的學(xué)
23、習(xí)結(jié)果?3 .試題的敘述是否明確,是否遺漏了重要的條件?4 .應(yīng)使用簡單且清晰的用語來陳述。5 .試題應(yīng)避免提供額外之線索。6 .試題是否難易適中?7 .每道試題是否彼此獨立、未采用連鎖題?8 .測驗所包括的試題,是否能夠涵蓋整個雙向細目表的內(nèi)容?(二)試題量的分析1 .難易度分析試題的難易度與測驗的效率有關(guān),難易度適當(dāng)?shù)脑囶}是構(gòu)成優(yōu)良測驗的必要條件。通常以P代表試題又t易度,N代表全體受試者人數(shù),R為答對該題的人數(shù),Ph表示高分組(全體受試者當(dāng)中,分數(shù)最高的27衿答對該題白百分比,Pl表示低分組(全體受試者當(dāng)中,分數(shù)最低的27%)答對該題的百分比。難易度的計算方式有二種方式:R(1) P10
24、0%N例如:有一個測驗共有100名受試者,其中某一題答對的人數(shù)為25人,則此25題的難易度為P9100%0.25。100N例如:有一個測驗總共有100名受試者,其中某一題高分組答對的百分比為一,一八一、,075025一75%低分組答對的百分比為25%因此可算得難易度為P20.5。P質(zhì)介於0與1之間的一個值,P值愈大表示試題愈容易,相反的P值愈靠近0表示試題愈難,例如:三個t戈題其難易度分別為P10.25、P20.5和E0.75,表示第一題比第二題難,第二題又比第三題難,但難易度為一次序量尺(ordinalscale),差距單位并不相等,其值僅代表試題難易程度的相對位置,兩個難易度的差不具任何意
25、義,由上面的例子說明,不能說第一題關(guān)於如何利用難度值來挑戰(zhàn)試題,一般都將試題的難度分為五個等級,如下表2-2-1所不:表2-1試題難易度等級表難易度難易度等級極容易容易難易適中困難極困難一般測驗專家均建議挑選難易度約為的試題,也就是難易適中的試題,因為這樣的試題評監(jiān)度可以達到最大,不過在實際的選題上,要使每一題的難易度都接近是有些困難的。因此有學(xué)者便主張以到之間的難易度范圍作為選擇題的挑選標(biāo)準(zhǔn)。平均而言,整份測驗的平均難度值還是以接近為佳。2.監(jiān)別度分析構(gòu)成測驗的試題,必須具有監(jiān)別某種心理特質(zhì)的作用,才能使測驗成為可靠又正確的測量工具。也就是說,試題的監(jiān)別度高低與測驗的信度和效度有著密切的關(guān)系
26、,欲增進測驗的預(yù)測與診斷的功能,必須要很仔細的分析試題的監(jiān)別度,分析監(jiān)別度的方式主要有兩方面:(1)內(nèi)部一致性分析內(nèi)部一致性分析旨在了解各個試題的功能是否和整體測驗的功能相符合一致。此種分析的一個基本假設(shè)是:整個測驗的分數(shù)具有某種程度的效度。如果此架設(shè)成立。則個別試題的反應(yīng)若和總分間具有一致性,就表示題目有某種程度的效度。換言之,高分組答對的比例顯著大於低分組的比例,故該題的作用和總分的作用一致。基於此,監(jiān)別力的分析方法,采用下列公式:D:監(jiān)別力指數(shù)。Ph:高分組答對百分比(全體受試者當(dāng)中分數(shù)最高的27%)。Pl:低分組答對百分比(全體受試者當(dāng)中分數(shù)最低的27%)。當(dāng)測驗分數(shù)是常態(tài)分配時,以2
27、7%分組可以獲得試題監(jiān)別度的最大可靠性;百分比低於27%時,結(jié)果的可靠性較低,而百分比較大時會影響試題的監(jiān)別作用。對教師而言,合理的分組百分比可在25%到33%之間。監(jiān)別力指數(shù)(itemdiscriminationindex)通常以小數(shù)表示,其值介於1之間。指數(shù)愈高,表示監(jiān)別力愈大。指數(shù)愈低,表示監(jiān)別力愈小。如果指數(shù)為0,表示題目沒有監(jiān)別作用,此種現(xiàn)象可以是:(1)因為題目太容易或太艱難,所有人均答對或所有人均答錯;(2)因為題目不清楚。如果低分組答對百分比高於高分組,則監(jiān)別力將是負的,此種題目具有反向作用,應(yīng)淘汰之。人數(shù)太少,題目不清楚或正確答案錯誤,均有可能導(dǎo)致此種情形。(2)外在外在 的
28、目的在 目是否具 某種監(jiān)別 析的過程 部一致性監(jiān)別指數(shù)試題評監(jiān)以上非常優(yōu)良優(yōu)良,但須小幅度修改尚可,但須部分修改以下劣,須要大幅度修改或刪除表2-2監(jiān)別度評監(jiān)標(biāo)準(zhǔn)表效度分析 效度分析 於檢驗題 有預(yù)定的 作用。其分 與上述內(nèi) 分析方法,大致相同,唯一不同之處,為外在效度分析系統(tǒng)依據(jù)外在效標(biāo)的分數(shù)分為高、低兩組。例如,數(shù)學(xué)成就測驗的編制,可用學(xué)校數(shù)學(xué)科成績?yōu)橥庠谛?biāo),分成高、低兩組,將兩組分數(shù)相減,其差數(shù)可顯示各個試題在預(yù)定功能上的監(jiān)別力。內(nèi)部一致性分析則依預(yù)試測驗總分分為高、低兩組。前者在於使測驗的外在效度變得很大,而接者在於使測驗的內(nèi)部一致性變得很大。這兩者均為測驗編制所希望的相標(biāo),應(yīng)以何者
29、為分析依據(jù),需視測驗的目的而定。選項分析選擇題的選項包括正確選項與誘答選項,正確選項必須明確且不會引起任何爭議,而誘答選項則必須具有誘答的功能,要知道這些特質(zhì)是否成立,則需透過選項分析。選項分析可以讓施測者清楚知道每一試題的所有選項是否符合命題的原則,選項分析是透過比較高分組與低分組對正確與誘答選項的選答率,如果分析的結(jié)果符合下面兩項要求,則表示該試題的所有選項是合理有效的(郭生玉,1989):(一)正確選項的選答率,高分組必須高於低分組。(二)每一個誘答選項均有低分組的受試者選答,且低分組的選答率高於高分組。如果不符和第一個要求,表示此試題具有負向的監(jiān)別度,不能清楚區(qū)分高分組與低分組;至於第
30、二個要求,又有兩個方面需要討論,首先是如果一個選項沒有任何低分組或高分組受試者選答,表示該選項不具任何誘答率,應(yīng)該在修改題目將此選項更換;而如果是該誘答選項高分組的選答率高於低分組,則表示該誘答選項的敘述可能有不清楚或錯誤誘導(dǎo)的地方,使得高分組的受試者有較多誤選的情形,因此在修改試題時,應(yīng)該特別注意這些選項。四、試題特徵曲線試題特徵曲線是用來描述所測量的潛在特質(zhì)與其在試題上正確反應(yīng)機率間的關(guān)系,亦即受試者潛在能力9(在標(biāo)準(zhǔn)化的座標(biāo)中,以橫軸表示)相對於此能力在這試題中的答對機率P(0)(在標(biāo)準(zhǔn)化的座標(biāo)中,以縱軸表示)的關(guān)系曲線,藉此可以預(yù)測受試者的反應(yīng)與能力間的關(guān)系。1.在任一特定的能力范圍內(nèi)
31、,曲線的斜率(slope)可當(dāng)作試題在該能力范圍內(nèi)的監(jiān)別度。2 .透過試題特徵曲線可以求得的是試題的總體難易度和總監(jiān)別度。即當(dāng)通過比率等於時的對應(yīng)總分或能力值,這個數(shù)值可當(dāng)作試題的總體難易度。此外,在總體難易度這點上的斜率亦可以當(dāng)試題的總監(jiān)別度。3 .好的試題其試題特徵曲線應(yīng)該呈現(xiàn)出正的斜率與適中的難度。五、信度及效度一份測驗,除了透過個別試題的分析之外,若能針對整份測驗做測驗整體的分析(即測驗分析),必能提高測驗的品質(zhì)。測驗分析在此主要以信度、效度及雙向細目表為主。(一)信度信度可以說是可靠度,從字面上的意義來解釋,就是一份測驗的結(jié)果是否可靠。一般而言,一份優(yōu)良的教育測驗至少應(yīng)該具有以上的信
32、度值,才具有使用的價值。1.信度的種類與求法常用估計信度的方法有四種:重測法、復(fù)本法、內(nèi)部一致性方法、評分者方法,茲介紹如下:( 1)重測法(test-retestmethod)估計測驗分數(shù)是否穩(wěn)定,最直接的方法是重測方法。此種方法是采用同一個測驗在不同的時間,重復(fù)測量相同的一群受試者兩次,根據(jù)這兩次分數(shù)求得的相關(guān),稱為重測信度系數(shù)(test-retestreliabilitycoefficient),或稱再測信度。( 2)復(fù)本法(equivalent-formsmethod)此種信度主要在確定我們有多少信心能夠從個人在測驗上的得分,推論到其他相等復(fù)本測驗上的得分。估計復(fù)本信度,必須有真正的復(fù)
33、本測驗,否則無法估計。兩個復(fù)本測驗實施於一群相同的受試者,依據(jù)所測量到的分數(shù)求相關(guān),即為復(fù)本信度。此信度系數(shù)可以說明兩個復(fù)本測驗測量相同行為或內(nèi)容的程度。因此,信度愈高,表示所測量的試題樣本愈可靠,愈能以之代表所欲測量內(nèi)容的范圍。( 3)內(nèi)部一致性方法(internal-consistencymethod)上述兩種信度的估計方法,均需實施兩次的測驗,受試者的合作、動機、疲勞和厭煩等可能影響測驗的實施。因此,只根據(jù)一次測驗結(jié)果就可以估計信度的分法,較受歡迎,內(nèi)部一致性方法就是屬於這種的估計方法。此種方法包括有:折半方法(split-halfmethod)、庫李方法(Kuder-Richardsonmethod)、Cronbachsa和霍意特變異數(shù)分析法(Hoytsanalysisofvarianceprocedure)。以下將只介紹本論文所采用Cronbachsa的信度系數(shù)之計算方法。Cronbachsa系數(shù):因為庫李信度適用於非對即錯的計分方式,也只能處理計分測驗的缺失,但很多測驗的計分是采多重計分的方式,這時,就必須采用Cronbachsa系數(shù),此方法為統(tǒng)計學(xué)者Cronbach於1951年提出的,若設(shè)a為估計的信度,則其公式為:k21二系數(shù)公式的一個特例,其中:k表題數(shù)k12:表第i題的變異數(shù)2表總分的變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲業(yè)精英經(jīng)理職務(wù)勞動合同范本(含績效考核標(biāo)準(zhǔn))
- 彩票店品牌授權(quán)與區(qū)域獨家經(jīng)營合同
- 卓爾系跨境電商平臺合作開發(fā)合同
- 草莓種植合作社與冷鏈物流企業(yè)合作協(xié)議
- 智能停車系統(tǒng)車位租賃及數(shù)據(jù)共享協(xié)議
- 各種骨折的護理
- 馮氏旋轉(zhuǎn)定位法治療頸椎病
- 精密儀器運輸及安裝合同
- 汽車抵押貸款合同糾紛處理規(guī)則
- 產(chǎn)權(quán)式車庫買賣及車位共享服務(wù)協(xié)議
- 小區(qū)裝修工程安全協(xié)議書
- 【MOOC】老子的人生智慧-東北大學(xué) 中國大學(xué)慕課MOOC答案
- 科研倫理與學(xué)術(shù)規(guī)范(研究生)期末試題
- 成都市2022級(2025屆)高中畢業(yè)班摸底測試(零診)數(shù)學(xué)試卷(含答案)
- (高清版)DZT 0145-2017 土壤地球化學(xué)測量規(guī)程
- 基于html5外文參考文獻
- 食堂安全管理、操作培訓(xùn)考試題與答案
- 工序單位能耗地計算方法、及企業(yè)噸鋼可比能耗計算方法
- 低溫早強耐久混凝土的集中拌和施工
- 三環(huán)路道路照明工程技術(shù)標(biāo)
- 摩托車產(chǎn)品開發(fā)流程
評論
0/150
提交評論