基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計

上傳人：文*** IP屬地：湖北上傳時間：2023-02-04 格式：DOCX 頁數(shù)：6 大?。?1.65KB 積分：12 舉報 版權申訴

基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計_第2頁

基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計_第3頁

免費預覽已結束，剩余1頁可下載查看

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計

4.4減少項目參數(shù)的測試誤差的實驗

從表2的數(shù)據(jù)可以看出，上述方法對于θ的估計已經(jīng)達到了較好的精度，但對于a、b和c的估計誤差仍然比較大。于是再用增加訓練模式的方法來試圖減少測試誤差。上述在訓練第二組神經(jīng)網(wǎng)絡時，是用“第一矩陣”中的每一列作為模式的輸入，該矩陣共有45列，相應于第一組的45個項目?，F(xiàn)在將這組項目擴大，即增加到60個，75個，90個和105個，這些項目的參數(shù)都是用蒙特卡羅方法產(chǎn)生的。然后，拿第一組25個被試的θ值和它們起反應，用產(chǎn)生的反應矩陣和相應的項目參數(shù)作為訓練模式，對30個神經(jīng)網(wǎng)絡進行訓練，并重復上述步驟4和步驟5，得到在各種不同數(shù)量的訓練模式條件下的a、b和c的單個模式測試誤差的平均數(shù)M和標準差SD，如表3所示。從表中數(shù)據(jù)可以看出，隨著訓練項目數(shù)的增加，對項目參數(shù)a、b和c的測試誤差都有明顯降低，當項目數(shù)達到105時，基本上已經(jīng)可以接受參數(shù)估計的結果了。

附圖

從上面的討論可以看出，在該計算機模擬實驗中，共有兩組被試，第一組被試是用于能力測試模式的，第二組被試是用于能力訓練模式的；該實驗中有三組項目，其中的第二組項目是第一組的一部分，第一組項目用于項目參數(shù)訓練和能力測試模式的，第三組項目是用于項目參數(shù)測試模式的，第二組項目是用于能力訓練模式的；該實驗中有三個反應矩陣，其中的第一矩陣又被分為左、右兩個部分，左部分是由被抽取出來的第二組項目產(chǎn)生的，右部分是由其余項目產(chǎn)生的，第二矩陣的“行”作為能力訓練模式，第一矩陣的“行”作為能力測試模式，第一矩陣的“列”作為項目參數(shù)訓練模式，第三矩陣的“列”作為項目參數(shù)測試模式。4.5實際測驗中的被試能力和項目參數(shù)估計步驟小結

上述的實驗是在計算機模擬的情況下了產(chǎn)生的各組被試能力和項目參數(shù)，在實際的測驗情況中，可以按照以下步驟來進行測驗編制以及被試能力和項目參數(shù)估計：

(1)在已知項目參數(shù)的題庫中取出若干個項目（類似于上述模擬實驗中的第二組項目，這些項目可以是二值記分的，它可以事先通過BILOG等估計得到），再加上自行編制的、未知參數(shù)的若干項目（類似于上述模擬實驗中第三組項目），混合后組成實際的測驗試卷。

(2)用這一試卷對一組真實的被試（類似于上述模擬實驗中的第一組被試）進行測試，得到一組實際的結果。

(3)用蒙特卡羅方法產(chǎn)生一組被試的能力值（類似于上述模擬實驗中的第二組被試），令它和真實試卷中的已知項目參數(shù)的那部分項目（類似于上述模擬實驗中的第二組項目）起反應，得到反應矩陣（類似于上述模擬實驗中的第二矩陣）。

(4)用這一矩陣和這組蒙特卡羅方法產(chǎn)生的被試能力值組成能力訓練模式，對一組神經(jīng)網(wǎng)絡進行訓練。

(5)用真實的測驗結果矩陣的每一行作為一個模式的輸入部分，輸入上述經(jīng)過訓練的神經(jīng)網(wǎng)絡，其輸出就是真實被試的能力估計值。

(6)運用蒙特卡羅方法產(chǎn)生一組項目參數(shù)，根據(jù)上述的模擬實驗，大約要有100個項目的參數(shù)，令真實被試的能力估計值和它們起反應，得到一個反應矩陣（類似于上述模擬實驗中的第一矩陣右部分）。用這個矩陣中的每一列和相應的蒙特卡羅方法產(chǎn)生的項目參數(shù)組成訓練模式，對另一組神經(jīng)網(wǎng)絡進行訓練，使之具有估計項目參數(shù)的功能。

(7)將這一經(jīng)過訓練的神經(jīng)網(wǎng)絡對真實測驗中未知參數(shù)的那部分項目（類似于上述模擬實驗中的第三組項目）進行參數(shù)估計，從而得到這些項目的參數(shù)估計值。

至此，就把實際的被試能力和項目參數(shù)估計出來了。對照上述模擬實驗的圖1，其中的第一矩陣左部分和第三矩陣是由真實測驗的數(shù)據(jù)產(chǎn)生的，第一矩陣的右部分和第二矩陣是用蒙特卡羅方法產(chǎn)生的。5討論5.1該方法的優(yōu)點

(1)提出了一種全新的IRT項目參數(shù)和被試能力的估計方法，以往的方法都是建立在統(tǒng)計基礎上的，而該方法則是建立在聯(lián)結主義理論（人工神經(jīng)網(wǎng)絡）基礎上的。

(2)以往的方法多數(shù)只能對二值記分的IRT模型進行參數(shù)估計，本研究中的方法則可以對連續(xù)記分的IRT模型進行參數(shù)估計。由于人工神經(jīng)網(wǎng)絡有很強的學習功能，因此從理論上講，它也可以用于等級記分和二值記分的IRT模型，當然，這有待于進一步的實驗研究。

(3)本研究中用于估計被試能力的樣本只有25人，用于估計項目參數(shù)的樣本只有15個項目，都屬于比較小的樣本，這說明該方法可以用于小樣本的情況，這是以往方法所不能解決的。雖然在對神經(jīng)網(wǎng)絡訓練時可能要用到較多的訓練模式，但這些模式是可以用蒙特卡羅方法產(chǎn)生的，并不要擴大實際的測驗樣本。

(4)在使用一般的統(tǒng)計方法處理小樣本的數(shù)據(jù)時，確實存在著參數(shù)估計的可靠性問題，但是本實驗的研究表明，在運用與統(tǒng)計方法完全不同的聯(lián)結主義（人工神經(jīng)網(wǎng)絡）方法處理數(shù)據(jù)時，就有可能克服這一困難。這是什么原因呢？在對人工神經(jīng)網(wǎng)絡理論進行深入探討以后[15～17]，可以發(fā)現(xiàn)神經(jīng)網(wǎng)絡在對IRT參數(shù)進行估計時，并不是一開始就直接根據(jù)原始數(shù)據(jù)來估計參數(shù)，而是先對一組神經(jīng)網(wǎng)絡進行訓練，使它們首先具備了這方面的知識，然后再用訓練過的神經(jīng)網(wǎng)絡對IRT參數(shù)進行估計，這種參數(shù)估計的可靠性如何，并不取決于被估計的樣本的大小，而是取決于對這些神經(jīng)網(wǎng)絡進行訓練的樣本的數(shù)量、質(zhì)量以及神經(jīng)網(wǎng)絡的拓撲結構和算法。在這其中，訓練模式是研究者運用蒙特卡羅方法產(chǎn)生的，它本身并不是一個小樣本，而是一個比較大的樣本；產(chǎn)生這些數(shù)據(jù)的模型就是IRT模型本身，因此數(shù)據(jù)本身的質(zhì)量是有保證的。關于神經(jīng)網(wǎng)絡的拓撲結構，在大多數(shù)情況下是要通過預測和調(diào)整學習率等參數(shù)來確定隱含層的數(shù)量和其中每一層的神經(jīng)元的數(shù)量，但由于本研究采用的是級聯(lián)相關模型，它可以根據(jù)反傳誤差的大小自動地調(diào)整網(wǎng)絡的拓撲結構和聯(lián)結權重，因此可以自動地建立優(yōu)化的網(wǎng)絡結構，不再需要考慮學習率等問題；另外在人工神經(jīng)網(wǎng)絡的訓練過程中，本研究的程序設計也使得只有誤差達到預定的很小的數(shù)值時，訓練過程才停止，這就保證了被訓練過的神經(jīng)網(wǎng)絡是較高質(zhì)量的。由此可見，聯(lián)結主義（人工神經(jīng)網(wǎng)絡）模型是采用了和一般統(tǒng)計技術完全不同的思路和方法，它對IRT參數(shù)估計的可靠性主要不是取決于被估計樣本的大小，而是依賴于經(jīng)過訓練的神經(jīng)網(wǎng)絡的質(zhì)量，因此我們只要采取一定的措施將神經(jīng)網(wǎng)絡訓練好，就有可能對小樣本的IRT數(shù)據(jù)進行可靠的參數(shù)估計。5.2需要進一步研究的問題

(1)首先是在編制測驗時，需要一部分已知項目參數(shù)的二值記分題目，這對于已經(jīng)建立題庫的學科來說是可以做到的，但對于尚未建立題庫的學科，就無法運用這一方法。雖然可以用BILOG等軟件對有關的二值記分項目進行參數(shù)估計，但如果沒有BILOG等軟件又該怎么辦呢？要解決這個問題，需要構造更加復雜的神經(jīng)網(wǎng)絡模型，筆者目前正在構造“基于知識的級連相關模型”，并試圖用它解決這一困難，實驗結果將另文闡述。

(2)該方法要求實際的測驗中有一部分作為錨題的項目是已知參數(shù)的，那么這一部分錨題至少應該是多少項目呢？它們占整個測驗的比例至少要達到多少呢？本實驗表明若錨題數(shù)量為15，它們在整個測驗中所占比例為三分之一，就可獲得良好結果，那么少于15個項目行不行？低于三分之一的比例行不行？筆者也正在作進一步的實驗。

(3)本研究中用蒙特卡羅方法產(chǎn)生虛擬的被試能力和項目參數(shù)，那么它們的分布應該是什么形式為最好？人工神經(jīng)網(wǎng)絡的理論認為是均勻分布為最好，因此在本研究中采用了均勻分布。但是在對實際數(shù)

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計

文檔簡介

溫馨提示

最新文檔

評論

基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計

文檔簡介

溫馨提示

最新文檔

評論

相關文檔