認知元反應理論_第1頁
認知元反應理論_第2頁
認知元反應理論_第3頁
認知元反應理論_第4頁
認知元反應理論_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、認知元反應理論         IRT直接應用于多值記分題繆源  李紹珠南京大學高等教育研究所【內容提要】01記分測驗的項目反應理論已經得到廣泛的研究和應用。但是,許多測驗都含有多值記分題,所以需要將IRT推廣到此類情況。從認知理論的觀點看,每個01記分題(項目)和多值記分題的每個測試點都可同樣地看成一個由若干知識點構成的集合,稱之為認知元;根據(jù)認知元之間存在的關系可以確定各受測者對各試題作出特定答案的概率,從而不需要引用任何其它假設就可將IRT的方法直接應用于含多值記分題的測驗。本文應用這一理論分析了某

2、些測驗樣本,結果表明是可行的?!娟P鍵詞】認知元/認知元反應理論/IRT/多值記分題/極大似然估計【正文】1引言項目反應理論(ItemResponseTheory,IRT)1是一個相當成熟的測驗理論,已經得到廣泛的實際應用。IRT在理論上簡單明了,在實踐中便于實施,具有很大的優(yōu)越性。但是01記分測驗有很大的局限性,普遍認為多值記分題對考查受測者能力的作用不可能完全用01記分題代替。我國的許多大規(guī)??荚嚾鐣?、高考、自考等都含有一定數(shù)量的多值記分題,這些試題不能用IRT處理。為克服這一困難,IRT研究者曾提出不少多值記分題的IRT模型,如部分記分模型(PartialCreditModel)、廣義部

3、分記分模型(GeneralizedPartialCreditModel)、等級反應模型(GradedResponseModel)等2。這些模型一般都需要提出若干附加假設以便使IRT的基本思想和方法能夠應用于多值記分題。我們發(fā)現(xiàn)從認知理論的觀點來考察,多值記分題(除少數(shù)只能依靠主觀印象評分的多值記分題外),的諸測試點之間實際上存在著一定的邏輯關系,依據(jù)這些關系能客觀地得到各測試點的聯(lián)合概率以及整個測試樣本的聯(lián)合概率,并可應用極大似然估計法估計參量。由此,在不需要任何附加假設的情況下,IRT就可直接應用于含有多值記分題的測驗。2認知元反應理論2.1IRT的基本思想與方法在IRT中,一份01記分測驗

4、的試卷和一組受測者構成一個統(tǒng)計系統(tǒng),每一個受測者對各試題作出答案是一個隨機事件,因種種不確定因素的影響,受測者可能答對也可能答錯,答對的概率取決于他的能力和試題的難度、迷惑程度等因素。受測者的能力愈強,試題愈容易,答對的概率就愈高;反之,答對的概率就低。用一份試卷對一組受測者進行測試,在諸試題相互獨立的情況下,這一統(tǒng)計系統(tǒng)出現(xiàn)某一特定結果的概率P乃是各受測者對各個試題作出特定答案(隨機事件)的諸概率P,ij之積(聯(lián)合概率),即nmPP,ij(1)j=ii=1式中,n是受測者數(shù),m是題數(shù)。P,ij是第j受測者對第i題作出特定答案(答對或答錯)的概率P,ijp,ij(答對概率)P,ijq,ij1p

5、,ij(答錯概率)(2)研究表明,答對概率p,ij可以用2參量或3參量Logistic模型來表示1c,ip,ijc,i(3)1exp(-,i(,jb,i)式中的參量,i和b,i分別為項目i的區(qū)分度和難度,c,i為項目的猜測度(當c,i為0時,式(3)為2參量的Logistic模型),,j為受測者的能力參量。根據(jù)概率論,如果受測者人數(shù)很多,試題數(shù)也不少,則統(tǒng)計系統(tǒng)出現(xiàn)這一特定測驗結果可近似地認為是最大概率事件,據(jù)此即可估計各受測者的能力參量和各試題的參量(難度、區(qū)分度等),稱作IRT的極大似然估計。2.2認知元01記分題是考察受測者一些知識點的掌握和運用,從認知理論的觀點來看,不妨將這些知識點的

6、集合稱作一個“認知元”(CognitionElement,CE)。在IRT中,每個認知元就是一個考察“項目試題”,它們應是相互獨立的。與01記分題不同,多值記分題含有多個測試點,每個測試點都是一個獨立的、非對即錯的認知元。這些認知元之間一般存在一定的邏輯關系(純主觀題除外),這從我國大規(guī)??荚嚨脑u分標準中可以清楚地看出。例如某試題的評分標準規(guī)定:答對某測試點例如寫出某公式(認知元A)給3分(分值),若在此基礎上再答對某一測試點計算出某量(認知元B)再給4分(分值);若又答對另一測試點(認知元C)給4分(分值);若求出最后結果(認知元D)再給2分(分值)。從上述評分標準可清楚地看出,該題是由4個

7、獨立的認知元A、B、C和D構成,其邏輯關系如圖1所示(注意,受測者在答對A的基礎上才能解答B(yǎng),A和B呈“串聯(lián)”關系;C和A不存在解答的依賴關系,兩者呈“并聯(lián)”關系)。若解答A和C都依賴受測者對試題條件的正確分析與理解(認知元M),則需要將共同的部分M分解出來:AA'M,CC'M,以保證認知元A'和C'的獨立性。于是該題的邏輯關系如圖2所示。附圖圖附圖圖從圖1和圖2可見,根據(jù)多值記分題本身的結構和特點,在準確的評分標準的基礎上,就能夠將多值記分題的認知元復合體加以適當?shù)胤纸狻H裟骋徽J知元不是非對即錯,則應繼續(xù)分解,直至認知元獨立化,其記分唯一化。于是,每一個認知元

8、實際上便成為一個01記分題。一個多值記分題若由k個獨立認知元構成,則可形成k個01記分題。這樣就能將應用于01記分題的IRT的基本思想和方法直接應用于多值記分題,既能保持多值記分題的優(yōu)越性,又能使參量估計更為精確并具有良好的統(tǒng)計特征。2.3由認知元確定多值記分題的聯(lián)合概率既然能夠確定多值記分題中各認知元之間的關系,就不難寫出各受測者對各試題作出特定答案的聯(lián)合概率P,ij。就圖1而言,若受測者j在測驗中取得部分分值(答對A,B,C,答錯D),則他取得這一特定答案的概率P,ij(A,B,C)應當是他答對A,B,C的概率P,ij(A),P,ij(B),P,ij(C)以及答錯D的概率q,ij(D)的聯(lián)

9、合概率P,ij(A,B,C)P,ij(A)·P,ij(B)·P,ij(C)·q,ij(D)余類推。一個受測者對這一多值記分題的應答結果可能有7種不同的情況,其分值及其聯(lián)合概率如下(為簡化計,下面一律略去下標ij):分值聯(lián)合概率滿分分值(全答對)P(A,B,C,D)p(A)p(B)p(C)p(D)部分分值(答對A,B,C,答錯D)P(A,B,C)p(A)p(B)p(C)q(D)部分分值(答對A,B,答錯C)P(A,B)p(A)p(B)q(C)部分分值(答對A,C,答錯B)P(A,C)p(A)q(B)p(C)部分分值(僅答對A,答錯B,C)P(A)p(A)q(B)q(

10、C)部分分值(僅答對C,答錯A)P(C)q(A)p(C)全部答錯分值0(A,C都答錯)P(0)q(A)q(C)在部分分值的聯(lián)合概率公式P(A,B)及P(A,C)中不出現(xiàn)答對或答錯認知元D的概率P(D)或q(D),這是因為受測者未能全部答對A,B,C,就不可能進一步去解答試題,從而也就沒有受到認知元D的檢驗,因此與認知元D無關。不論受測者是否有能力答對認知元D,他都只能得到分值或。同樣,部分值和全部答錯兩種情況下受測者都已答錯了A,因而也不可能進一步去接觸認知元B,當然它們的聯(lián)合概率公式就和認知元B無關,更不會與認知元D有關。上述多值記分題的7種不同分值,受測者必須取其一,因此它們的概率之和為1

11、。由于q1p,故不難檢驗上述諸式之和能夠滿足這一要求。就圖2而言,一個受測者對這一多值記分題的應答結果及其聯(lián)合概率則變成(注意,只要答對A和B中兩者之一,則必已答對M):分值聯(lián)合概率滿分分值(全答對)P(A,B,C,D)p(M)p(A')p(C')p(D)部分分值(答對A,B,C,答錯D)P(A,B,C)p(M)p(A')p(C')p(D)部分分值(答對A,B,答錯C)P(A,B)p(M)p(A')p(B)q(C')部分分值(答對A,C,答錯B)P(A,C)p(M)q(A')q(B)p(C')部分分值(僅答對A,答錯B,C)P(A

12、)p(M)p(A')q(B)q(C')部分分值(僅答對C,答錯A)P(C)p(M)q(A')p(C')全部答錯分值0(A,C都答錯)P(0)q(M)p(M)q(A')q(C')全部答錯可能由于以下兩種情況:一是答錯了共同認知元M;二是M是正確的,而A'和C'卻錯了。不難證明,上述7種聯(lián)合概率之和仍等于1。由于多值記分題不存在猜測因素,故應采用2參量Logistic模型??梢?,即便是多值記分題,根據(jù)認知元分析也不難確定式(1)中各試題的概率P,ij,按式(1)式(3)應用聯(lián)合極大似然估計法,估計受測者的能力參量和項目參量(難度、區(qū)分

13、度)。因此,IRT直接應用于多值記分題的關鍵在于用“認知元”來理解“項目試題(Item)”一詞。為強調認知元概念的重要性,將IRT稱為認知元反應理論(CognitionElementResponseTheory,CERT)可更明確地反映其實質。3認知元反應理論的應用和討論3.1認知元反應理論是IRT嚴格、自然的推廣,除認知元這一基本概念外,并沒有、也不需要引用任何其他假設和模型。它可以作為含多值記分題的測驗和題庫的理論基礎,應該進行廣泛的研究和檢驗。3.2與每個受測者對01記分題都有應答結果不同,在多值記分題中,某些受測者對某些認知元并沒有應答結果,作者曾擔心這種情況會使極大似然估計發(fā)生困難,

14、不能得到估計結果。然而,實際上并未出現(xiàn)這種情況。本研究曾就一份含復雜的多值記分題的試卷用認知元反應理論進行了模擬研究,沒有遇到什么困難。模擬試卷含有30個單選題(具有猜測度),10個各具有3個填空的試題(共30個無猜測度的填空認知元),2個各有5個認知元的多值記分題,2個各有7個認知元的復雜多值記分題以及2個各有11個認知元的更為復雜的多值記分題,因此該試卷有46個試題,106個認知元,即形成106個01記分題,設2000個受測者的能力服從正態(tài)分布(以及對正態(tài)分布稍有偏離的另外兩種情況)。用隨機的方法,按Logistic模型和多值記分題各認知元的邏輯關系,生成2000個受測者對模擬試卷的一組應

15、答數(shù)據(jù)。應用認知元反應理論處理了這一組模擬數(shù)據(jù),估計該試卷的項目參量和受測者的能力參量,并對模擬試卷的各項目的擬合優(yōu)度(goodnessoffit)進行了2檢驗。在106個項目中,只有8項的經驗項目特征曲線與理論項目特征曲線之間的差異顯著,大多數(shù)項目的擬合優(yōu)度較好。3.3本研究也曾將認知元反應理論用于實際考試樣本:1994年全國高考“物理”試卷、江蘇省1995年自學考試“中國古代文學作品”試卷和1997年全國MBA聯(lián)考“數(shù)學”試卷等,列出了所有多值記分題的聯(lián)合概率,據(jù)此編制了估計受測者能力參量和各項目的難度、區(qū)分度等參量的計算機程序,并對上述考試的各項目的擬合優(yōu)度進行了2檢驗。除少數(shù)項目的經驗

16、項目特征曲線與理論項目特征曲線之間的差異顯著外,大多數(shù)項目的擬合優(yōu)度較好。例如,“中國古代文學作品”試卷有49道試題,分解出104個項目(認知元),其中只有6項擬合較差(因篇幅所限數(shù)據(jù)從略)。3.4IRT要求各試題(項目)具有獨立性,就01記分測驗而言,總是假設各個試題是不相關的。但是,有些試題實際上是相關的,這可以用統(tǒng)計檢測來發(fā)現(xiàn)。從認知元的觀點來分析,這些試題是由于具有共同的認知元。對于這類情況,認知元反應理論可以給予合理的處理,即將兩個相關的01記分題視為一個由3個認知元構成的多值記分題。由此可見,在本理論中,考察受測者能力的基本反應項目是相互獨立的認知元,而不是一道試題本身。3.5即使評分主觀性較強的“寫作”這一類試題,如果考查的重點不在于檢測受測者的寫作的“才華”,而在于寫作的基本技能,則認知元反應理論也是適用的。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論