版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十章、人才測評的信度與效度人才測評的核心價值在于預測的有效性預測好預測不好實際好實際不好 在進行測量時,誤差是難免的,這就使得真實值和測量值之間是不可能完全一致。我們可以這樣來表示真實值和測量值之間的關系。 X=T+B+E T表示真實值,B表示偏差即系統(tǒng)誤差,E表示測量誤差即隨機誤差。 一、信度 測試信度(test reliability)也叫測試的可靠性,指測驗結果的一致性、穩(wěn)定性及可靠性,一般多以內部一致性來加以表示該測驗信度的高低。 信度系數愈高即表示該測驗的結果愈一致、穩(wěn)定與可靠。 系統(tǒng)誤差對信度沒什么影響,因為系統(tǒng)誤差總是以相同的方式影響測量值的,因此不會造成不一致性。反之,隨機誤
2、差可能導致不致性,從而降低信度。 信度可以定義為隨機誤差R影響測量值的程度。如果R=0,就認為測量是完全可信的,信度最高。 信度評估的方法 (一)重測信度重測信度,又稱為穩(wěn)定性系數,它的計量方法是采用重測法:用同一測驗,在不同時間對同一群體施測兩次,這兩次測量分數的相關系數即為重測系數。 重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在評估重測信度時,必須注意重測間隔的時間。對于人格測驗,重測間隔在兩周到6個月之間比較合適。 在進行重測信度的評估時,還應注意以下兩個重要問題:重測信度一般只反映由隨機因素導致的變化,而不反映被試行為的長久變化。不同的行為受隨機誤差影響不同。 (二)復本信
3、度復本信度,是以兩個測驗復本來測量同一群體,然后求得應試者在這兩個測驗上得分的相關系數。復本信度的高低反映了這兩個測驗復本在內容上的等值性程度。兩個等值的測驗互為復本。 計算復本信度的主要目的在于考察兩個測驗復本的題目取樣或內容取樣是否等值。復本信度也考慮兩個復本實施的時間間隔。 復本信度的主要優(yōu)點在于:能夠避免重測信度的一些問題,如記憶效果、練習效應等;適用于進行長期追蹤研究或調查某些干涉變量對測驗成績影響;減少了輔導或作弊的可能性。 復本信度的局限性在于:如果測量的行為易受練習的影響,則復本信度只能減少而不能消除這種影響;有些測驗的性質會由于重復而發(fā)生改變;有些測驗很難找到合適的復本。 (
4、三)內部一致性信度內部一致性信度,主要反映的是測驗內部題目之間的關系,考察測驗的各個題目是否測量了相同的內容或特質。內部一致性信度又分為分半信度和同質性信度。 分半信度系數是通過將測驗分成兩半,計算這兩半測驗之間的相關性而獲得的信度系數。測驗愈長,信度系數愈高。 同質性信度是指測驗內部的各題目在多大程度上考察了同一內容。同質性信度低時,即使各個測試題看起來似乎是測量同一特質,但測驗實際上是異質的,即測驗測量了不止一種特質。同質性分析與項目分析中的內部一致性分析相類似。 (四)評分者信度評分者信度,是指不同評分者對同樣對象進行評定時的一致性。最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評
5、分者打分,再求每份答卷兩個評判分數的相關系數。這種相關系數的計算可以用積差相關方法,也可以采用斯皮爾曼等級相關方法。 提高測驗信度的方法 影響測驗信度的誤差歸納起來主要有 :(1) 抽樣誤差 : 簡單說 , 這是在抽樣過程中由于被試間的差異所造成的誤差。被試間的差異可以用全距和方差大小來表示。全距是指某一心理量最大值與最小值之差。全距大說明被試間差異大 , 全距小說明被試間差異小。被試間在某一心理量上參差不齊 , 差別懸殊 , 則該心理量的方差大 ; 反之 , 方差小。對于方差小的樣本 , 被試間在某一心理特征上相差較小 , 則前后兩次測驗結果的一致性較低 , 即降低了信度。 因為被試之間的差
6、別越小其同質性越高 , 被試的分數只要發(fā)生小的變化 , 其名次就可能改變 , 從而降低信度。(2) 隨機誤差 : 由于各種偶然因素的影響而產生的誤差 , 表現為用同一方法多次測量同一對象時結果上不一致。隨機誤差是由許多因素造成的 , 如量標的質量 , 測量的程序 , 被試的身心狀態(tài) , 測量的環(huán)境等。 根據影響測驗信度的因素 , 可從以下幾方面來提高測驗的信度 : 一是從測驗本身考慮 , 如測驗的長度、難度、區(qū)分度、速度、程序、環(huán)境條件與計分方法等 ; 一是從被試自身考慮 , 如被試在被測心理特征上的差異大小 , 參加測驗的動機水平 , 對測驗的態(tài)度和積極性等。在此主要介紹如下幾種提高測驗信度
7、的方法 :( 1 )適當延長測驗的長度 : 測驗的長度主要指量表所包含的題目多少。對一個測驗來說 , 測驗的題目越少 , 得分越容易受偶然因素的影響 , 故測驗的信度越低。反之如果測驗題目較多 , 即測驗長度延長 , 擴大了被試得分范圍 , 可在一定程度上排除偶然因素的影響 , 從而提高測驗信度。但是測驗信度的增加并不是等比例提高信度系數。當信度系數較小時 , 延長測驗長度信度系數增加較大 ; 當信度系數已經較大時 , 延長測驗長度對信度系數的影響就較小了。而且 , 在延長測驗長度時 , 還需考慮其他因素的影響 , 如被試在回答問題時是否疲倦或產生厭煩情緒 , 是否節(jié)省時間、物力和財力 , 測
8、題是否附合測驗目的等。 ( 2 )測驗的難度要適中 : 難度即測驗的難易程度 , 當測驗難度太大時 , 被試得分普遍太低 , 呈負偏態(tài)分布 ; 當測驗難度太小時 , 被試得分普遍較高 , 呈正偏態(tài)分布。太難太易的測驗都使被試得分差異減小 , 使實得分數方差減小 , 從而降低測驗信度。 ( 3 )測驗的內容盡量同質 : 性質相同的測驗內容 , 對被試也要求相同的能力、知識和技能 ; 而內容不同質的測驗 , 則要求被試不同的能力、 知識和技能。因而為了提高測驗信度 , 測驗內容應盡量同質。( 4 )測驗的時間要充分 : 對某一測驗而言 , 應保證絕大多數被試在規(guī)定時間內完成測驗 ; 否則 , 如果
9、被試不能從容回答所有問題 , 就不能反映被試的真實水平。 ( 5 )測驗的程序要統(tǒng)一 : 包括測驗的題目統(tǒng)一 , 指導語、回答問題的方式、分收試卷的方法、測驗時間等都要統(tǒng)一。( 6 )評分要客觀 : 評分是否客觀對測驗信度有直接的影響。對于客觀性題目 , 評分標準明確 , 評分容易做到客觀 ; 但對于主觀性題目 , 受評分者影響較大 , 不易做到客觀。為了盡可能客觀評分 , 應制定明確而易掌握的評分標準 , 盡量做到一卷多評 , 或一人只評一題等。二、效度 效度(Validity)即有效性,它是指測量工具或手段能夠準確測出所需測量的事物的程度。效度是指所測量到的結果反映所想要考察內容的程度,測
10、量結果與要考察的內容越吻合,則效度越高;反之,則效度越低。效度分為三種類型:內容效度、準則效度和結構效度。 從內容效度到準則效度再到構念效度可視為一種累進即構念效度需要比準則效度更多的信息準則效度需要比內容效度更多的信息。 效度比信度有更高的要求信度是效度的必要條件沒有信度的測量工具就談不上具有效度但信度高的測量工具未必具有高的效度。 測試維度測試維度 1)表面效度(face validity)。指測試應達到的卷面標準,即一套測試題從表面看來是否是合適的。例如,若一次閱讀理解力的測試包括許多受試者沒有學過的方言詞匯,則可認為這次測試缺乏表面效度。表面效度是測試出受試者正常水平的一種保證因素。
11、2)內容效度(content validity)。指一套測試題是否測試了應該測試的內容或者說所測試的內容是否反映了測試的要求,即測試的代表性和覆蓋面的程度。例如,如果某一套發(fā)音技能測試題僅僅考查發(fā)音所必須具備的某些技能,如只考單一音素的發(fā)音,而不考查重讀、語調或音素在詞語中的發(fā)音,那么,該測試的內容效度就很低。 3)編制效度(construct validity)。指一套測試題的諸項目對編制該測試所依據的理論的各個基本方面的反映程度。例如,以結構主義語言理論為基礎,認為系統(tǒng)的語言習慣是通過句型而獲得的,那么,強調詞匯和語法環(huán)境的測試題目就失去了編制效度。 4)經驗效度(empirical va
12、lidity)。經驗效度是一種衡量測試有效性的量度,通過把一次測試與一個或多個標準尺度相對照而得出。經驗效度可分為兩種:一是共時效度(concurrent validity),即將一次測試的結果同另一次時間相近的有效測試的結果相比較,或同教師的鑒定相比較而得出的系數;二是預測效度(predictive validity),即將一次測試的結果同后來的語言能力相比較,或是同教師后來對學生的鑒定相比較而得出的系數。 提高測驗效度的方法 ( 1)控制系統(tǒng)誤差 : 系統(tǒng)誤差是影響測驗效度的主要因素。它主要包括儀器不準 , 題目和指導語有暗示性 , 答案按排不當 ( 被試可以猜測 ) 等 , 控制這些因素
13、可以降低系統(tǒng)誤差 , 提高效度。 (2) 精心編制測題和測驗量表 : 首先測題內容要適合測驗目的 , 如知識性測題就不能全面反映被試的智力水平 , 它主要測量其知識水平。其次 , 測題要清楚明了 , 用語要讓被試理解 , 排列由易到難。第三 , 測題的難度和區(qū)分度要合適。 (3) 嚴格按照測驗程序進行測量 , 防止測量誤差 : 要嚴格按照測驗手冊進行測量 , 不能作過多的解釋 , 按標準評分 , 兩次測驗間隔要適當。 (4) 樣本容量要適當 : 當樣本容量增大時 , 樣本對總體的代表性提高 , 樣本大 , 被試的內部差異增大 , 擴大了真分數的方差 , 使效度提高。樣本容量一般不應低于 30
14、。另外 , 抽樣方法也很重要 , 一般用隨機抽樣 , 當群體很大時 , 可分層抽樣 , 樣本容量擴大時 , 其代表性才隨之增大。 (5) 正確處理好信度與效度的關系 : 信度是效度的必要條件 , 但信度高的測驗 , 效度不一定高 ; 而效度高的測驗 , 信度卻比較高。但是 , 既要有高效度 , 又要有高信度是不容易做到的?!白畲罂煽慷龋ㄐ哦龋┮鬁y驗項目之間有高度的組間相關;最大預測有效度卻要求低度的組間相關。最大可靠度(信度)要求項目等同的難度;最大預測有效度卻要求項目的難度有所區(qū)別。中等程度的組間相關( 0.10 0.60), 通??僧a生良好的效度 (0.30 0.80), 并且產生滿意的
15、信度 (0.90) ?!?(6) 適當增加測驗的長度 : 增加測驗的長度可提高測驗的信度 , 也可以提高效度 , 但增加測驗的長度對信度的影響大于對效度的影響。三、測評手段有效度切忌以點代面,比如:韓復榘的選任方法過分依賴一個情景也會降低面試效度比如:某商場老總招聘員工的方法員員 工工 未未 來來 工工 作作 績績 效效 預預 測測 方方 法法 的的 有有 效效 性性 系系 數數招 聘 新 雇 員 并 進 行 培 訓 時 的 預 測 方 法根 據 當 前 績 效 預 測 未 來 績 效 時 的 方 法智 力 測 驗 0.53工 作 試 用 0.44個 人 簡 歷 0.37背 景 調 查 0.26實 際 工 作 0.18面 試 0.14培 訓 和 實 際 工 作 成 績 0.13學 術 成 果 0.11教 育 背 景 0.10興 趣 0.10年 齡 0.01工 作 實 例 測 試 0.54智 力 測 驗 0.53同 事 評 價 0.49以 往 工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度二手車評估、收購與銷售合作協(xié)議3篇
- 二零二五年度土地儲備項目委托管理合同3篇
- 2025年度旅游景區(qū)物業(yè)管理承包合同(含文化體驗)3篇
- 二零二五年度古典家具定制合同樣本6篇
- 創(chuàng)新中國(上海大學)學習通測試及答案
- 2025年度生豬養(yǎng)殖與飼料原料供應商購銷合同3篇
- 二零二五年度XX公司軟件服務續(xù)費與功能擴展協(xié)議5篇
- 二零二五年度建筑工程材料租賃合作協(xié)議書3篇
- 2025年度水庫水資源調配與節(jié)水工程承包協(xié)議3篇
- 2025年度建筑工程施工合同簽訂要點及風險防控5篇
- 縣級綜治中心等級評定細則、申報表、負面清單、流程圖
- 行政強制法講座-PPT課件
- 2022年新媒體編輯實戰(zhàn)教程測試題及答案(題庫)
- 崗位現場應急處置方案卡全套(全套20頁)
- 清華大學寶玉石鑒賞標準答案
- 涼席竹片銑槽機(課程設計)
- 高壓線防護搭設方案
- 中西醫(yī)結合科工作制度、規(guī)章制度、崗位制度與說明書
- 綜合機械化固體充填采煤技術要求-編制說明
- 十人聯(lián)名推薦表
- 七、分蛋糕博弈
評論
0/150
提交評論