版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
教育測量與評價學(xué)習(xí)內(nèi)容第一章教育測評概述第二章教育測評的質(zhì)量指標(biāo)第三章
教育測驗的編制與實施第四章教育評價方案的編制與實施第五章
教育評價的方法第六章
教育測量結(jié)果的整理、轉(zhuǎn)換與組合第七章
教育評價的心理調(diào)控第十章標(biāo)準(zhǔn)化考試第十一章智力測驗第十二章學(xué)生評價第十三章學(xué)生品德測評第十四章教師評價第十五章
教學(xué)工作評價第十六章課程評價第十八章中小學(xué)學(xué)校評價第一章教育測評概述第一節(jié)教育測量概述一、什么是測量(一)測量的定義測量是根據(jù)法則給事物分派數(shù)字。(史蒂文斯)測量這一定義包含了三個要素:1、法則——給事物的屬性分派數(shù)字的依據(jù)和準(zhǔn)則2、事物屬性——測量的對象或目標(biāo)3、數(shù)字——描述事物屬性的符號,是測量結(jié)果的表現(xiàn)形式比如:重量——杠桿原理;溫度——熱脹冷縮原理?!胺▌t”不同,測量結(jié)果不一樣,因此法則有好壞之分。根據(jù)能否直接測量,可以將事物屬性分為兩類:一是可以直接測量的事物屬性,如長度、體積、重量等;二是只能間接測量的事物屬性,如溫度、心理等數(shù)字具有如下特征:1、數(shù)字具有區(qū)分性:數(shù)字不同,事物的屬性也不同。2、數(shù)字具有順序性,如1﹤2﹤3······3、數(shù)字具有等距性,如2-1=13-2=1······4、數(shù)字有0,使事物的測量具有參照點但是,在不同的測量中,測量結(jié)果所使用的數(shù)字可能具有不同的屬性。(二)測量的三個要素
——單位、參照點、量表1、單位。是計量事物的標(biāo)準(zhǔn)量的名稱。理想的測量單位應(yīng)具備兩個條件:(1)要有確定的意義。即對同一單位,所有人的理解都是相同的,不應(yīng)有異義和多義。(2)單位的距離要等值,即相鄰兩個單位點之間的差別總是相等的。但是,在教育測量中運用的單位大多是不等值的。2、參照點是指在測量工作中,計算的起點。參照點有兩種:(1)絕對零點?!?”表示沒有,如重量為“0”表示“恰恰沒有一點重量”。(2)相對零點(人定參照點)?!?”并不表示沒有,溫度(成績)為“0”并不表示沒有溫度(一無所知),如以海洋面為測量陸地和山的高度的起點,稱為海拔**米,以冰點(00C)作為測量溫度的起點等。教育測量中使用的參照點都是相對零點。3、量表即測量的工具,是“具有確定單位和測量參照點的連續(xù)體”。如尺子、天平、試卷、問卷、圖形、符號等。“將欲測量的事物特征與這個連續(xù)體相比較,確定它的位置,看它距參照點的遠(yuǎn)近,就會得到該事物特征的一個測量值。”四種測量量表1、稱名量表——(類別量表)最低水平的一種量表它只是用數(shù)字表明事物的類別或性質(zhì)不同而已,沒有任何數(shù)量大小的意義,不能作數(shù)量化分析,也不能將之進行加減乘除運算。有人認(rèn)為運用類別量表進行的測量不能算是真正意義上的測量。它主要用于次數(shù)的統(tǒng)計、求百分比、列聯(lián)相關(guān)、X2檢驗等。四種測量量表2、等級量表——(順序量表)用來描述各個類別的數(shù)字,不僅具有區(qū)分性,而且還具有等級性(或順序性),因此,量表上的數(shù)字之間能表示事物大小的位次關(guān)系,但不具有等距性和可加性,也不能進行加減乘除運算。它主要用于求中位數(shù)、百分?jǐn)?shù)、等級相關(guān)系數(shù)、肯德爾和諧系數(shù)等。四種測量量表3、等距量表——較高水平的量表量表上的數(shù)值不僅具有區(qū)分性、等級性,還有等距性,等距量表的數(shù)字是一個真正的數(shù)字,因此可以進行加減運算,但等距量表沒有絕對零點,所以不能作乘除運算。主要用于計算平均數(shù)、標(biāo)準(zhǔn)差、積差相關(guān)系數(shù)、T檢驗、F檢驗等。四種測量量表4、比率量表——最高水平的量表有相等單位和絕對零點,量表數(shù)值可以進行加減乘除運算。大多數(shù)物理測量量表是比率量表,但教育測量基本沒有比率量表。二、什么是教育測量(一)教育測量的涵義教育測量是根據(jù)測量學(xué)的原理和方法對教育現(xiàn)象及其屬性進行數(shù)量化研究的過程。教育測量主要是對學(xué)生內(nèi)在精神屬性的測量,如學(xué)習(xí)成績、智力水平、品德狀況、心理健康狀況等。所以教育測量主要是一種間接測量。(二)教育測量的特點1、測量結(jié)果的間接性:教育測量是通過被試對測驗項目的行為反應(yīng)來測量他的內(nèi)在的心理特征。2、度量單位的相對性:單位是測量的基本要求,理想的單位應(yīng)有確定的意義和相等的價值。但測量人的行為時并不具備這樣理想的兩個條件,所以要對教育測量的分?jǐn)?shù)進行轉(zhuǎn)換,如T分?jǐn)?shù),百分等級分?jǐn)?shù)等。(二)教育測量的特點3、測量對象的復(fù)雜性:教育測量主要是對學(xué)生內(nèi)在精神屬性的測量。內(nèi)在性——不能直接測量;多變性——前后測量結(jié)果不一致其他因素——如疲勞、情緒、心理掩飾也會影響測量結(jié)果4、測量目的的針對性測量總有一定的目的,教育測量必須為實現(xiàn)教育目的服務(wù)。三、教育測量的誤差問題凡測量必有誤差,但為了盡可能準(zhǔn)確測量,必須盡量控制誤差,使其最小。誤差主要來源于三方面:1、測量的工具(物理測量——儀器和設(shè)備;教育與心理測量——量表)(1)項目取樣(代表性)(2)項目題型(猜測率)(3)項目措詞和要求(模棱兩可,表述不清)如:春天的水怎么樣?三、教育測量的誤差問題2、所測量的事物的一致性程度。測量在短期內(nèi)不受測驗經(jīng)驗、練習(xí)效應(yīng)的影響。3、測量者的因素主測者:熟練掌握測量技術(shù)。比如,指導(dǎo)語另外,如何計時、記分,對被試的各種提問如何回答,以及在測驗中途發(fā)生意外情況(如停電,有人遲到,生?。蛔鞅椎葢?yīng)該如何處理)。受測者:應(yīng)試動機、測驗焦慮。指導(dǎo)語會直接影響受測者的作答態(tài)度與方法。有人以不同的指導(dǎo)語對幾組被試實施同一個能力測驗,結(jié)果表明,將該測驗說成“智力測驗”的一組,成績最高;將之說成“日常測驗”的一組,成績最低。動機不同會影響其作答態(tài)度、注意力、持久性、反應(yīng)速度等,從而影響測驗成績四、教育測量的作用1、有利于提高教育、教學(xué)水平形成性測驗、終結(jié)性測驗2、有利于提高教育管理水平克服主觀經(jīng)驗管理3、有利于發(fā)展教育研究方法用數(shù)據(jù)說話第二節(jié)教育評價概述思考:當(dāng)你看到這個問題時,或者說,當(dāng)你聽到教育評價這個詞時,你最先想到的是什么?實驗結(jié)果:依人數(shù)的多少排列:師范生:A、測驗B、等級C、成績D、不公平E、判斷任課教師:A、測驗B、測量C、等級D、成績責(zé)任制E、對個人秘密的侵犯一、什么是評價顧名思義,評價就是評判價值。書本定義:評價是指根據(jù)某種價值觀對事物及其屬性進行判斷、衡量,亦即對人或物做出好與壞、真與假、善與惡、美與丑、優(yōu)與劣等等的判斷。評價意味著對某一事物的價值給予一般的衡量。價值是指客體滿足主體需要的程度。實際上,一種事物的價值是客觀存在的,但是各人的需要不同,所以各人的價值觀不一樣,作出的價值判斷(評價)也不同,可見,評價是主觀需要與客觀價值的統(tǒng)一。比如集郵。二、什么是教育評價教育評價是一門新興的學(xué)科,迄今尚未形成統(tǒng)一的為大家所公認(rèn)的科學(xué)定義。下面是幾種具有代表性的界說:(一)早期解釋泰勒在40年代初將教育評價解釋為:“確定教育目標(biāo)在實際上被理解到何種程度的過程?!薄繕?biāo)評價模式后來日本學(xué)者進一步把它界定為:“教育評價就是系統(tǒng)地、有步驟地從數(shù)量上測量或從性質(zhì)上描述兒童的學(xué)習(xí)過程和結(jié)果,據(jù)此判定是否達到了所期望的教育目標(biāo)的一種手段?!薄⒅乜偨Y(jié)性評價,忽視形成性評價有貫徹之意目標(biāo)評價實施二、什么是教育評價(二)60年代的界說克龍巴赫的定義:“評價是為決策提供信息的過程。”后來有人對這一界說做了具體的描述:“教育評價是一種有系統(tǒng)地去尋找并搜集信息資料,以便協(xié)助決策者在諸種可行的途徑(方案)中擇一而行的歷程?!睂逃u價的闡釋突破了行為目標(biāo)模式的觀點,強調(diào)了評價的信息作用(為教師教學(xué)、管理者決策等),擴大拓寬了評價的功能、范圍。二、什么是教育評價(三)較深層的定義斯克里文和豪斯的定義:“評價是一種對優(yōu)缺點和價值的評估,是一種既有描述又有判斷的活動。”日本心理學(xué)家大橋正夫認(rèn)為:“教育評價就是對照教育目標(biāo),對教育行為產(chǎn)生的變化進行價值上的判斷?!边@種觀點強調(diào)評價者必須進行價值判斷,而非只測量事物或決定目標(biāo)是否達成。評價活動從反映管理者、決策者的意圖轉(zhuǎn)變?yōu)榉从尘滞馊说囊庠富騼r值。至此,價值問題由“價值中立”的假設(shè),或者說剝離價值的評價設(shè)想,重新得到了反思和審視,價值因素開始“登堂入室”。二、什么是教育評價(四)我國對教育評價的初步界定和理解(20世紀(jì)80年代以后)“教育評價是對教育的社會價值做出判斷的過程?!薄敖逃u價是按照一定的價值標(biāo)準(zhǔn),對受教育者的發(fā)展變化及構(gòu)成其變化的諸種因素進行價值判斷的過程。”本教材的觀點:“教育評價是根據(jù)一定的教育價值觀或教育目標(biāo),運用可行的科學(xué)手段,通過系統(tǒng)地搜集信息、分析解釋,對教育現(xiàn)象進行價值判斷,從而為不斷優(yōu)化教育和教育決策提供依據(jù)的過程。”共同特:(1)評價是一個過程;(2)價值判斷是評價的本質(zhì)特征;(3)以一定的教育價值觀為依據(jù);(4)采用一切可行的科學(xué)手段。
二、什么是教育評價要理解評價的本質(zhì),必須明確幾點:1.教育評價的對象、范圍——評什么教育評價從早期以學(xué)生學(xué)習(xí)結(jié)果為對象,逐漸擴大了應(yīng)用的范圍,現(xiàn)代教育評價則以教育的全領(lǐng)域為對象。從宏觀到中觀、微觀,各種教育現(xiàn)象都可以作為評價對象,而且不僅評價教育結(jié)果,教育計劃、教育活動和教育過程是教育評價的對象。二、什么是教育評價
2.教育評價的目的和作用——為什么評這里涉及評價的指導(dǎo)思想和教育觀等基本理論問題。教育評價是為了鑒定、考核,還是為了推動、改進;是為了選拔、淘汰,還是為了教育、發(fā)展,這是兩種不同的教育觀和評價觀。傳統(tǒng)的教育評價目的是為了“選拔適合教育的兒童”。而現(xiàn)代教育評價的目的是為了“創(chuàng)造適合兒童的教育”,即評價是為了診斷評價對象的現(xiàn)狀,以便發(fā)現(xiàn)問題,使教育、教學(xué)工作不斷改進、不斷完善,不斷適合教育對象的需要,為促進兒童個性全面發(fā)展和提高教育質(zhì)量服務(wù)的——“為了學(xué)生的發(fā)展”。二、什么是教育評價3.教育評價的依據(jù)——根據(jù)什么來評價值判斷是教育評價的本質(zhì)特征。根據(jù)什么進行價值判斷?這就是評價的實質(zhì)和關(guān)鍵。因此必需有一個衡量和判斷的客觀依據(jù)和標(biāo)準(zhǔn),即教育的價值目標(biāo)和標(biāo)準(zhǔn)問題。這里又涉及什么是價值、教育價值、教育價值觀的問題。我們應(yīng)當(dāng)根據(jù)馬克思主義價值觀和社會主義現(xiàn)代化建設(shè)的需要,根據(jù)人才成長發(fā)展的規(guī)律,確立我們的教育價值觀和價值取向,確定教育評價的價值目標(biāo)和標(biāo)準(zhǔn)。從這個意義上說,教育方針、政策和教育目標(biāo)就是我們的教育價值觀的集中體現(xiàn),我們應(yīng)當(dāng)以教育方針和教育目標(biāo)為依據(jù)確定評價的目標(biāo)和標(biāo)準(zhǔn)。二、什么是教育評價4.教育評價的手段——怎樣評教育評價是運用科學(xué)的方法和手段,對教育現(xiàn)象及其效果作出價值判斷的活動。教育評價的科學(xué)性在很大程度上取決于方法和手段的科學(xué)性。沒有科學(xué)的方法和手段,就沒有評價的科學(xué)性。(五)教育評價與教育測量的關(guān)系1、聯(lián)系:教育測量是教育評價的基礎(chǔ),教育測量是對教育進行量的測定,所獲得的結(jié)果是教育評價所需信息的主要的、可靠的來源,是對教育的狀態(tài)和價值進行客觀判斷的前提。教育評價=事實判斷+價值判斷教育測量所獲得的數(shù)據(jù)只有通過評價判斷這個環(huán)節(jié)才能獲得實際意義,否則便成了一堆抽象而枯燥的數(shù)字。二、什么是教育評價二、什么是教育評價2、區(qū)別:兩者著眼點不同:教育測量是為了取得數(shù)據(jù);教育評價是要分析解釋,對教育價值作出判斷。兩者特點不同:教育測量是一種純客觀的過程,具有客觀性特點;教育評價具有客觀性與主體性相結(jié)合特點。兩者復(fù)雜程度不同:教育測量是對教育數(shù)量化的描述,關(guān)心量的獲得,活動較為單一;教育評價著眼于事物質(zhì)的判定,含定性與定量分析,活動是多重的。三、教育評價系統(tǒng)的結(jié)構(gòu)和功能(一)教育評價系統(tǒng)的結(jié)構(gòu)系統(tǒng)論認(rèn)為,所謂系統(tǒng),是由若干相互聯(lián)系、相互作用的要素所構(gòu)成的、具有特定結(jié)構(gòu)和功能的有機整體。比如教學(xué)系統(tǒng)——由教師、學(xué)生、教學(xué)組織形式、教學(xué)方法、教學(xué)手段、教材等要素構(gòu)成。任何一個系統(tǒng)都是較高一級系統(tǒng)的一個要素,任何一個要素,通常又是較低一級的系統(tǒng)。凡系統(tǒng)都有一定的結(jié)構(gòu)和功能。構(gòu)成系統(tǒng)的各要素在系統(tǒng)內(nèi)組成的方式就是系統(tǒng)的結(jié)構(gòu),這種結(jié)構(gòu)在運動狀態(tài)下所發(fā)揮的效能就是功能。因此,系統(tǒng)結(jié)構(gòu)與系統(tǒng)功能是相互制約、相互影響的。(一)教育評價系統(tǒng)的結(jié)構(gòu)從教育評價系統(tǒng)結(jié)構(gòu)上分析,教育評價一般由以下幾個要素構(gòu)成:1、價值目標(biāo)和標(biāo)準(zhǔn)2、組織機構(gòu)和人員
3、評價方法和技術(shù)4、評價對象與評價人員的心理調(diào)控教育評價必須以目標(biāo)為導(dǎo)向,以標(biāo)準(zhǔn)為依據(jù),因此必須根據(jù)教育目標(biāo)、培養(yǎng)目標(biāo)和課程標(biāo)準(zhǔn),設(shè)計好評價目標(biāo)、指標(biāo)、標(biāo)準(zhǔn)等。具體說就是實施教育評價所依據(jù)的評價標(biāo)準(zhǔn)體系。是指實施評價的組織機構(gòu)、領(lǐng)導(dǎo)人員和評價者。一定的評價任務(wù)要求設(shè)置與之相適應(yīng)的組織機構(gòu)和人員,或領(lǐng)導(dǎo)小組和負(fù)責(zé)評價的人員。目前我國普通教育評價的實施,還沒有專門組織機構(gòu)和負(fù)責(zé)評價的專業(yè)人員,與國外相比顯得非常落后。
是指實施教育評價的技術(shù)和方法,基本技能和能力。其中包括各種搜集評價信息的方法和技術(shù)、統(tǒng)計處理評價信息的方法技術(shù)和進行綜合分析判斷的方法和技術(shù)等。是指參與教育評價的主體(評價者)與客體(被評者)雙方在評價過程中所表現(xiàn)的動機、需要和人際關(guān)系等心理狀態(tài),它直接影響評價過程、評價程序的順利進行,影響評價任務(wù)的完成,因此對評價主體與客體的心理調(diào)控就具有重大的意義和作用。必須通過各種調(diào)控的途徑,取得及時的有針對性的有效控制,才能保證評價的效果,達到評價的目的。
(二)教育評價的功能1、教育評價的意義(1)教育評價是教育管理的重要組成部分教育管理的各個環(huán)節(jié)(計劃、實施、檢查和總結(jié))都需要評價。評價能及時反饋信息,及時發(fā)現(xiàn)問題,解決問題,是一種科學(xué)的管理。(2)教育評價是深化教育改革的重要措施要進行一項教育改革,首先要進行改革方案的可行性評價;在改革進程中,必須加強形成性評價;在某一改革告一段落時必須進行終結(jié)性評價。1、教育評價的意義(3)教育評價是全面提高教育質(zhì)量的重要手段通過教育評價,可以加強學(xué)校各項教育教學(xué)工作的有效性。(4)教育評價是教育科學(xué)研究的重要內(nèi)容現(xiàn)代教育科學(xué)研究被劃分為三大領(lǐng)域:教育基礎(chǔ)理論研究、教育發(fā)展研究和教育評價研究??梢姡逃u價是教育科學(xué)研究的重要內(nèi)容。2.教育評價的功能(1)導(dǎo)向功能教育評價是根據(jù)教育目標(biāo)進行的,通過評價目標(biāo)、指標(biāo)體系的引導(dǎo),可以為學(xué)校指明辦學(xué)方向,為教師與學(xué)生指明教與學(xué)的奮斗目標(biāo)。(2)監(jiān)督檢查功能社會各界要了解、考察教育的發(fā)展?fàn)顩r,教育行政領(lǐng)導(dǎo)部門要對學(xué)校工作進行指導(dǎo)與管理;學(xué)校要對師生的教學(xué)活動進行調(diào)節(jié)和控制;教師要對學(xué)生的學(xué)習(xí)進行監(jiān)督和幫助,都需要通過一個具有檢查監(jiān)督功能的形式和手段,即教育評價。(3)激勵功能教育評價能起到激勵先進,鞭策后進的作用。正(負(fù))評價要社會承認(rèn)的需要得到滿足(受到挫折)要得到成功的需要得到滿足(受到挫折)自尊感提高(低落)情緒穩(wěn)定(不穩(wěn)定)喚起新的要社會承認(rèn)的需要(擴大或放棄喚起新的要得到成功的需要(擴大和放棄)2.教育評價的功能2.教育評價的功能(4)篩選擇優(yōu)功能在教育的實際工作中,經(jīng)常要對評價對象進行篩選擇優(yōu)。這就需要將眾多的對象根據(jù)一個標(biāo)準(zhǔn)來衡量和判斷,也就是要對他們進行科學(xué)的教育評價。(5)診斷改進功能通過教育評價,可以發(fā)現(xiàn)教育、教學(xué)過程中存在的問題和不足,然后提出改進的措施,這就是教育評價的診斷與改進功能。四、教育評價的種類(一)根據(jù)評價的對象和范圍1.宏觀教育評價以教育的全領(lǐng)域及宏觀決策方面的教育現(xiàn)象、措施為對象的教育評價,或?qū)σ粋€具有相當(dāng)規(guī)模的地區(qū)的教育進行的評價。這類評價屬于總體的、全局性的、高層次的評價。2.中觀教育評價以學(xué)校為對象,對學(xué)校內(nèi)部各方面的工作進行的評價。如學(xué)校辦學(xué)質(zhì)量評價、學(xué)校教學(xué)工作評價、學(xué)校德育工作評價、學(xué)校后勤工作評價等等。3.微觀教育評價以學(xué)生為對象的教育評價。如對學(xué)生的學(xué)業(yè)成績、思想品德、智能發(fā)展等的評價。四、教育評價的種類(二)根據(jù)評價的時間和作用1.診斷性評價是指在教育、教學(xué)活動開始之前,為使計劃更有效地實施而進行的預(yù)測性、摸底性評價。其目的是為了摸清評價對象的基礎(chǔ)和情況,分析存在的問題,為解決問題搜集必要的資料,以找到解決問題的辦法。2.形成性評價是指在教育、教學(xué)活動計劃實施的過程中,對計劃、方案執(zhí)行的情況進行的評價。其目的是為了了解動態(tài)過程的效果,及時反饋信息,及時調(diào)節(jié),使計劃、方案不斷完善,以便順利達到預(yù)期的目的。3.總結(jié)性評價是指某一教育、教學(xué)活動項目告一段落或完成以后進行的評價。其目的是為了了解這項活動達到預(yù)期目標(biāo)的情況以及它的最終效果或效益。診斷性評價形成性評價總結(jié)性評價作用確定評價對象(主要是學(xué)生)的常見錯誤,以便進行補償性教育對評價對象階段性的進步進行評價,并及時反饋,以便改進和輔導(dǎo)給評價對象作出鑒定或分等,了解教育目標(biāo)到達程度和教育效果實施時間在教育工作開始或教育工作進行中在教育工作進行中在一個教育工作過程完成后四、教育評價的種類(三)根據(jù)評價的基準(zhǔn)不同1.相對評價是指在評價對象團體中確定一個基準(zhǔn),或以某一團體的評價狀況為基準(zhǔn),對團體中的個體成員在這個團體中所處的相對位置進行評價。相對評價的特點:一是評價基準(zhǔn)是在評價對象團體內(nèi)部確定的;二是參照的標(biāo)準(zhǔn)是對團體進行測量以后確定的;三是它關(guān)心的是團體成員在該團體中所處的相對位置。
A1A2A3M0…An四、教育評價的種類2.絕對評價是指以預(yù)先制訂的目標(biāo)為評價基準(zhǔn),評價每個對象達到目標(biāo)或基準(zhǔn)的程度。也稱目標(biāo)參照評價。絕對評價的特點:一是評價基準(zhǔn)是在評價對象團體以外確定的;二是參照標(biāo)準(zhǔn)是在對團體進行測量以前確定的;三是它關(guān)心的是評價對象達標(biāo)的程度。
A1A2A3M0…An四、教育評價的種類(四)根據(jù)評價的性質(zhì)1.需要性評價是指根據(jù)某種需要,對新提出的教育目標(biāo)、計劃方案的必要性作出價值判斷。其目的是要判斷新提出的教育目標(biāo)、計劃方案或活動是否有必要進行或開展。需要性評價一般是在某種教育改革項目開始前或?qū)逃顒诱麄€過程進行總體反思時進行的。2.可行性評價是指對教育目標(biāo)、計劃、方案實現(xiàn)的條件、可行程度的評價。其目的是了解實施教育目標(biāo)、計劃、方案的物質(zhì)條件、技術(shù)條件和經(jīng)濟效益。3.配置性評價是指對教育目標(biāo)、計劃、方案,所需要的資源條件,人員與業(yè)務(wù)技術(shù)條件的配置進行價值判斷。其目的是合理安排和利用人力、物力和財力。四、教育評價的種類(五)根據(jù)評價的主客體不同
1.自我評價是指被評者按照一定的評價目的與要求,對自身的工作、學(xué)習(xí)、品德等方面的表現(xiàn)進行價值判斷。自我評價能充分發(fā)揮評價對象在評價中的積極性,激發(fā)被評價者的自尊心、自信心,使之自覺地、主動地接受評價。
2.他人評價是指被評者以外的人進行的評價,又叫外部評價。他人評價,一般較嚴(yán)格、慎重,也比較客觀,可信度較高,具有一定的權(quán)威性,自評只有經(jīng)過他評才能得到有關(guān)方面的認(rèn)可。作業(yè):如何評價中國的科舉考試?第三節(jié)教育測評的發(fā)展階段先測后評一、教育測量的發(fā)展階段一般可將教育測評的發(fā)展分為以下三個階段:(一)教育測評的萌芽階段(1864年以前)1、我國古代教育測量思想早在2500多年前,我國古代教育家孔子就曾根據(jù)自己的觀察評定學(xué)生的個別差異,將人的智力分成三個等級:“中上之人”,“中人”,“中下之人”。并指出:“中人以上可以語上也,中人以下不可以語上也。”1、我國古代教育測量思想孔子之后約150年,大思想家孟子指出了“萬物皆可測量”的思想:“權(quán),然后知輕重;度,然后知短長。物皆然,心為甚?!睋?jù)可考證的史料分析,世界上最早的心理與教育測量出現(xiàn)于中國西周奴隸制時期(公元前1100——771年)。(1)《禮記·學(xué)記》記載,在西周的“國學(xué)”中已經(jīng)建立具有相當(dāng)系統(tǒng)性的教育測量制度:“比年入學(xué),中年考校。一年視離經(jīng)辨志,三年視敬業(yè)樂群,五年視博習(xí)親師,七年視論學(xué)取友,謂之小成。九年知類通達,強立而不反,謂之大成?!保?)現(xiàn)代許多教育測量學(xué)家認(rèn)為,教育測量起源于中國的科舉考試(606~1905年,1300年)??婆e考試始于隋,興盛完備于唐,廢于清末,是我國實行時間最長的一種選士制度,對我國乃至于對世界的考試制度有重要的影響。法國大革命時期,資產(chǎn)階級啟蒙思想家伏爾泰曾贊嘆地說:“人類精神,肯定想象不出比這樣的政府更好的政府。在這個政府里,重要的衙門彼此統(tǒng)屬,任何事情都在那里決定,而其成員,都是經(jīng)過幾場嚴(yán)格的考試的?!笨婆e制是通過分科考試來選取人才,采用口試、貼經(jīng)、墨義、策問、詩賦等方法測試考生。討論:中國科舉考試的優(yōu)缺點2、西方早期教育測量思想中國的科舉考試自16世紀(jì)由利瑪竇傳入歐洲。1702年,英國的劍橋大學(xué)首先以筆試替代口試,開西方學(xué)??荚嚬P試之先河(比中國的科舉制晚了近1100年)。1845年,美國初等學(xué)校普及,學(xué)生數(shù)激增,對畢業(yè)生一一口試已不可能,于是,波士頓市教育委員會率先在美國相繼以筆試取代口試,考察該市所屬學(xué)校的畢業(yè)生(比中國的科舉制晚了近1240年)。(二)教育測量的蓬勃興起階段(1864—1940年)該階段以費舍1864年的《量表集》為標(biāo)志;1897萊斯的拼字測驗引起人們對測驗問題的極大關(guān)注;1879年,馮特在德國萊比錫建立了第一個心理學(xué)實驗室,其方法論的變革促進了教育測量運動的興起;1882年,英國高爾頓(Galton)受達爾文影響,在倫敦建立了人類學(xué)測驗實驗室和德國馮特的心理學(xué)實驗室相對峙。高爾頓在他的實驗室里發(fā)明了許多測量儀器,如用來測量長度視覺辨別的“高爾頓棒”、用于測量聽力的“高爾頓笛”,并以這些感覺敏銳度為指標(biāo)來判斷人的智力。他通過測量發(fā)現(xiàn)白癡對熱、冷、痛等感覺的鑒別能力較低。他還是應(yīng)用等級評定量表、問卷法以及自由聯(lián)想法的先驅(qū),他創(chuàng)造了粗略計算相關(guān)系數(shù)的方法,他的學(xué)生皮爾遜就是積差相關(guān)系數(shù)的發(fā)明者。(二)教育測量的蓬勃興起階段(1864—1940年)1904年,法國教育部委派許多教育家、醫(yī)學(xué)家組成一個委員會,研究公立學(xué)校內(nèi)低能兒童班級的管理問題,心理學(xué)家比奈是其中的成員之一,他主張用一種測驗的方法去辨別心理缺陷兒童。經(jīng)過他與助手西蒙的精心研究,于1905年在《心理學(xué)年報》上發(fā)表了題為《診斷異常兒童智力的新方法》的論文。該文介紹的新方法就是世界上第一個智力量表——比納—西蒙智力量表。(二)教育測量的蓬勃興起階段(1864—1940年)20世紀(jì)20年代,美國的教育測驗運動蓬勃發(fā)展起來。美國的教育測驗運動的發(fā)展可分為三個時期。(1)開拓期(1904—1915年)。這是方法的探索與初步的發(fā)展時期。在美國心理學(xué)家卡特爾研究的基礎(chǔ)上,1904年桑代克發(fā)表了在測驗學(xué)史上的劃時代巨著——《精神與社會測驗學(xué)導(dǎo)論》,標(biāo)志著教育測驗運動的開始。桑代克在書中提出了“凡是存在的東西都有數(shù)量,凡有數(shù)量的東西都可測量”的著名信條。美國心理學(xué)家卡特爾(J.M.Cattell)曾留學(xué)德國,師從馮特,在英國劍橋大學(xué)任教期間與高爾頓交往甚密。回師從美后,他編制了幾十個測驗,包括測量肌肉力量、運動速度、痛感受性、視聽敏度、重量辨別力、反應(yīng)時、記憶力以及類似的一些項目。美國學(xué)者波林指出:“在測驗領(lǐng)域中,19世紀(jì)80年代是高爾頓的10年,90年代是卡特爾的10年,20世紀(jì)頭10年則是比奈的10年”。(二)教育測量的蓬勃興起階段(1864—1940年)2、興盛期(1915—1930年)。這一時期對桑代克提出的信條,不但在技術(shù)方面努力求得正確應(yīng)用,而且不斷提高到理論上加以證實。這一時期已發(fā)展了三種不同性質(zhì)的測驗,即學(xué)力測驗、智力測驗和人格測驗。據(jù)統(tǒng)計,到1928年止,便有3000多種測驗問世。(二)教育測量的蓬勃興起階段(1864—1940年)3、教育測驗的批判期(1930—1940年)。隨著教育測驗運動的不斷發(fā)展,人們逐漸認(rèn)識到,教育測驗盡管能使考試客觀化、標(biāo)準(zhǔn)化,并能把人的能力換算成數(shù)字,甚至個別差異的程度也可以量化,但測驗畢竟不能測得人的全部,如社會態(tài)度、實際技術(shù)、創(chuàng)造力、興趣、鑒賞力等等,因難以數(shù)量化,教育測驗便不能充分把握,往往被教育者所冷落。然而,這些又都是教育的重要方面。1931年,塞蒙茲(Symonbs,P.M)發(fā)表了《人格與行動的診斷》一書,主張人格測量應(yīng)用評定法、問卷法、交談法、軼事記錄法等,從而從思想上否定了單純的人格測量法。從此,教育測量運動逐步過渡到教育評價的時期。(三)教育測量的深入發(fā)展階段(1940至今)30年代,美國進步主義的一些學(xué)者針對教育測量過分追求客觀化、標(biāo)準(zhǔn)化、數(shù)量化的缺陷,提出了改革措施。教育測量有了新的進展,表現(xiàn)在:第一,開始重視學(xué)生智力和思想品德的測量,不能單測量學(xué)生的知識。第二,教育測量量表的編制突破了過去單一答案的求同式思維題,發(fā)展為包括多種答案的求異式思維題和論文式試題。(二)教育測量的蓬勃興起階段(1864—1940年)第三,教育測量的范圍由過去偏重于學(xué)生學(xué)習(xí)成績的測量,發(fā)展到涉及課程設(shè)置、教材、教育改革方案等教育工作的各個方面的測量。第四,現(xiàn)代的教育測量由過去單一的常模參照性測驗?zāi)J桨l(fā)展到常模參照性測驗與目標(biāo)參照性測驗相結(jié)合的模式。第五,教育測量本身的理論研究與技術(shù)開發(fā)更加深入與完善。如關(guān)于測驗等值、項目反應(yīng)理論(IRT)、測驗信度、評分誤差控制的研究等都有了較大的發(fā)展。現(xiàn)代化的測量工具(如電腦、光學(xué)掃描器等)也在教育測量中得到廣泛的使用。二、教育評價的發(fā)展階段教育評價作為科學(xué)概念,是20世紀(jì)30年代,在美國進步主義教育聯(lián)盟的新教育課程的改革實驗“八年研究”中正式誕生的。具體地說,教育評價思想源于中國古代教育的考試,孕育于西方教育測量的批判,形成于“八年研究”的改革實踐。(一)教育評價產(chǎn)生的社會背景20世紀(jì)20年代末,30年代初,美國爆發(fā)了一場空前的經(jīng)濟危機。二、教育評價的發(fā)展階段教育評價自產(chǎn)生至今大致經(jīng)歷了三個發(fā)展階段,在這三個階段中教育評價方法論各有其不同的特點:
1.教育評價的開創(chuàng)時期(1930—1958年)泰勒在“八年研究”(1933-1940)的報告《史密斯——泰勒報告》里,系統(tǒng)地總結(jié)了教育評價思想體系,第一次提出了教育評價的科學(xué)概念——“評價過程在本質(zhì)上是確定課程和教學(xué)大綱在實際上實現(xiàn)教育目標(biāo)的程度的過程?!倍⒔逃u價的發(fā)展階段泰勒的“目標(biāo)中心模式”深深打上了行為主義心理學(xué)的烙印,其方法論的實證化特點非常明顯。首先,泰勒認(rèn)為開展評價的依據(jù)是把所要評價的內(nèi)容分成具體可見的、可操作的學(xué)生行為目標(biāo),以便在評價中能夠圍繞這些行為目標(biāo)進行觀察和測定,以此來控制教育活動,評價教育成敗。如果制定的目標(biāo)越明確、具體,可操作性越強,則實用性也就越大。他說:“除非對目標(biāo)所指的那種行為有比較清楚的概念,否則就無法知道期待學(xué)生產(chǎn)生哪種行為,以了解這些目標(biāo)實現(xiàn)程度?!倍⒔逃u價的發(fā)展階段其次,泰勒在他的評價模式中非常強調(diào)對學(xué)習(xí)和教育結(jié)果進行客觀地測量、統(tǒng)計。他曾提出過三種評價手段:(1)由評價專家組織測驗,通過這些測驗測得學(xué)生的行為變化情況;(2)把學(xué)生置于特定情境之中,對學(xué)生的特定行為進行有目的的觀察;(3)用提問的形式使學(xué)生表達觀點,借以引起學(xué)生作出能體現(xiàn)其知識和能力的回答。泰勒在運用這些手段時,提出過三個重要準(zhǔn)則:客觀性、信度和效度。如果任何一種手段違背了這三條準(zhǔn)則,都將是無效的手段。二、教育評價的發(fā)展階段泰勒的目標(biāo)中心模式,教育目標(biāo)至關(guān)重要。為了幫助教育者更清楚地表達教育目標(biāo),美國布盧姆于1948年開始致力于教育目標(biāo)的分類研究,1956年布盧姆等研究完成了認(rèn)知領(lǐng)域的目標(biāo)分類,1964年克拉斯弗完成了情感領(lǐng)域的目標(biāo)分類,1965年和1972年辛普森和哈羅分別完成了動作技能領(lǐng)域的目標(biāo)分類。使評價手段的可操作性向前邁了一步,加強了評價的實證化傾向。此外,泰勒模式還催生了標(biāo)準(zhǔn)化測驗,使評價手段的客觀化程度進一步加強。
二、教育評價的發(fā)展階段2.大發(fā)展時期(1958—1972年)背景:1957年蘇聯(lián)的人造衛(wèi)星上天,美國朝野轟動。1958年美國《國防教育法》頒布,一方面給教育投入大量經(jīng)費,另一方面又要求對教育工作實行科學(xué)的評價。1963年美國政府正式提出要對教育的效能和質(zhì)量進行評價,并撥出大量??钣糜诮逃u價理論與技術(shù)、方法的研究和培養(yǎng)專門的教育評價工作人員。二、教育評價的發(fā)展階段1963年,克龍巴赫發(fā)表了《通過評價改進教程》一文,尖銳地批評了以往的評價工作,他批評以往的評價概念缺乏實用性和合理性,用實驗組和控制組的測驗分?jǐn)?shù)進行比較,這是偏重于事后評價。他認(rèn)為,應(yīng)把評價作為一個收集和報告對課程設(shè)計有指導(dǎo)意義的信息過程,只報告測驗的平均分?jǐn)?shù)沒有報告測驗項目及其分析是沒有用的。他指出:(1)評價人不僅應(yīng)關(guān)心教育的目標(biāo),檢驗教育目標(biāo)達到的程度,更應(yīng)關(guān)心教育的決策;(2)評價的重點應(yīng)放在教育過程之中,而不是在教育過程結(jié)束之后;(3)評價不是決定優(yōu)劣的過程,而是作為一個收集和反饋信息的過程。二、教育評價的發(fā)展階段1963年,格拉澤發(fā)表文章,在指出相對評價的不足時,提出在今后學(xué)校教育中應(yīng)著重進行絕對評價。1966年,斯塔夫賓提出了把背景評價(Context)、輸入評價(Input)、過程評價(Process)和結(jié)果評價(Product)結(jié)合起來而形成的CIPP模式。首次提出了過程評價的思想,他認(rèn)為,評價不應(yīng)局限于評判決策者所確定的教育目標(biāo)預(yù)期效果的達到程度,而應(yīng)該收集有關(guān)教育方案實施全過程及其成果的資料,評價是為決策提供信息的過程——“評價的最主要目的不是為了證明(prove),而是為了改進(Improve)”
。二、教育評價的發(fā)展階段1、預(yù)期結(jié)果的決策,為這類決策提供信息的是背景評價。這種評價實際上是根據(jù)社會需要對教育目標(biāo)本身作出價值判斷,以圖發(fā)現(xiàn)教育計劃的目標(biāo)同計劃的實際影響的差異。所以,其實質(zhì)是診斷性的。2、預(yù)期方法的決策,為這類決策提供信息的是輸入評價,它是在闡明了決策目標(biāo)后,對達到目標(biāo)所需要的條件進行評價,實質(zhì)上是對教育方案、計劃可行性的評價。二、教育評價的發(fā)展階段3、實際方法的決策,為這類決策提供信息的是過程評價,它為計劃方案的制定者提供反饋信息,用于發(fā)現(xiàn)其實施過程中的潛在問題。4、實際結(jié)果的決策,為這類決策提供信息的是結(jié)果評價,它的重點也在于目標(biāo)到達度。該模式的主要特點:突破了泰勒的框架,在許多地方有了新的發(fā)展,其中最主要的是目標(biāo)的合理性和可行性受到了充分的重視,泰勒模式的缺陷在這里得到了克服。二、教育評價的發(fā)展階段1967年,斯克里文發(fā)表了《評價方法論》,提出了以下幾種概念的區(qū)別:(1)形成性評價和終結(jié)性評價;(2)專業(yè)性評價和業(yè)余性評價;(3)比較性評價和非比較性評價;(4)目標(biāo)達成度的評價和目標(biāo)是否值得達成的評價。同時,斯克里文還提出了目標(biāo)游離模式(GoalFree),認(rèn)為教育活動除了收到預(yù)期的效應(yīng)外,還會產(chǎn)生各種“非預(yù)期效應(yīng)”。這些非預(yù)期效應(yīng)可能是積極的,也可能是消極的,但它對教育活動的社會價值總要產(chǎn)生或多或少的影響,因此,為了降低評價活動中方案、計劃制定者主觀意圖的影響,不能把評價目的告訴評價者,以利于評價者收集教育的全部成果和信息,這種不受預(yù)定活動目標(biāo)影響的評價模式被稱之為“目標(biāo)游離模式”或“無目標(biāo)模式”。二、教育評價的發(fā)展階段1969年,艾斯納對泰勒的目標(biāo)評價理論進行了抨擊。他認(rèn)為,對教育本質(zhì)的不同理解,可以造成對目標(biāo)的不同表述,泰勒的評價方法不一定適用于教育實際。因為它既沒有提供評價目標(biāo)本身的方法,也沒有提出判斷評價目標(biāo)與結(jié)果之間差異的標(biāo)準(zhǔn)。在這個階段,出現(xiàn)了40多種評價模式。其發(fā)展演變情況是:從專家學(xué)者的研究領(lǐng)域變成政府工作范圍;評價的內(nèi)容和范疇從學(xué)生學(xué)習(xí),課程與教學(xué)效果發(fā)展到教育決策和教育規(guī)劃;評價的理論與方法技術(shù)有了迅速發(fā)展。教育評價方法論的主要特點是實證化傾向仍占主要地位,人文化傾向已開始萌芽。二、教育評價的發(fā)展階段
3.專業(yè)時期(1973年至今)背景:第二次世界大戰(zhàn)后,隨著美國經(jīng)濟的增長,公民權(quán)運動開始高漲,特別是60年代的社會動亂和社會變革時期,迫使人們在研究教育問題時,開始考慮人的需要和人與人之間交互作用對教育的影響,在方法論上逐漸向人文主義哲學(xué)靠攏。二、教育評價的發(fā)展階段人文主義哲學(xué)思潮:德國的赫爾德認(rèn)為人類生命與自然世界中的背景相聯(lián)系,他從人的自然與精神的統(tǒng)一和雙重特征出發(fā),認(rèn)為人性不是一個給定的數(shù)據(jù)而是一個問題,不是到處都一致的某種東西,它的基本特征可以一勞永逸地被人發(fā)現(xiàn),而是可變的東西,它的特征要求在特殊的事例中進行單獨的調(diào)查研究。二、教育評價的發(fā)展階段狄而泰認(rèn)為:精神科學(xué)與自然科學(xué)完全不同,自然科學(xué)研究的是外在于人的客觀或物質(zhì)現(xiàn)象,而精神科學(xué)研究的則是人的精神生活,精神生活的中心或基本內(nèi)容是價值和意義的體驗、表達和理解。叔本華和尼采的意志哲學(xué),新康德主義者溫德爾班德和李凱爾特的文化科學(xué)方法論,狄爾泰學(xué)派的生命哲學(xué)和解釋學(xué),以及胡塞爾的現(xiàn)象學(xué)和海德格爾、加達默爾的存在主義和哲學(xué)解釋學(xué)。這些哲學(xué)思潮和運動,成為現(xiàn)代人文主義思潮的主要來源。二、教育評價的發(fā)展階段為了順應(yīng)人文主義哲學(xué)潮流,教育評價出現(xiàn)了一系列新的模式。這些評價模式的共同特點就是在評價中不過分追求客觀性,而是試圖摒棄數(shù)量特征,不只是單純從評價者的需要出發(fā),而是考慮到所有參與人的需要,強調(diào)個體的經(jīng)驗、活動和主觀認(rèn)識的作用,強調(diào)必須把人類行為置于特定情境中加以理解,重視在調(diào)查研究中,在隨機觀察中,在與參與者的會談和討論中,獲得定性的、而非定量的資料,主張以問題中心,把價值和意識問題作為研究的起點,提倡所謂的人文的方法,如個案法、談話法、臨床法、歷史法等。二、教育評價的發(fā)展階段1975年,斯塔克創(chuàng)立了一種重視所有評價參與人的觀點和看法的評價模式——“應(yīng)答評價模式”。斯塔克認(rèn)為“如果教育評價更直接地指向方案的活動而非方案的內(nèi)容,如果它能滿足評價聽取人對信息的需求,或者在反映方案得失長短的評價報告中更能反映人們不同的價值觀念,那么,這種評價即可稱為‘應(yīng)答評價’?!痹撃J街荚谕怀鋈说男枰谠u價過程中的作用。二、教育評價的發(fā)展階段在具體的評價過程中,應(yīng)答性評價不是象預(yù)定式評價那樣強調(diào)目標(biāo)的表述和客觀的測驗,“該方法以犧牲某些測量上的準(zhǔn)確性換取評價結(jié)果對方案有關(guān)人員來說更多的有用性,”它要求評價人要與被評價活動有關(guān)的各種人員接觸,了解他們的愿望、看法并作實地觀察,根據(jù)由此獲得的信息確定評價范圍,設(shè)計評價方案、選擇收集信息的方法,然后對收集的信息進行分析判斷并按需要對回答的問題進行分類,再將分類評價結(jié)果寫成正式報告分發(fā)各有關(guān)人員,最后,在分類評價的基礎(chǔ)上對教育方案作出全面評價。這是一個廣泛征詢意見,了解評價需要的過程。二、教育評價的發(fā)展階段1973年毆文斯提出了對手式評價模式。對手式評價模式是為揭示教育方案和教育活動正反兩個方面的長短得失所采用的準(zhǔn)法律過程評委會審議形式的評價模式。它十分重視聽取教育方案和教育活動的爭議意見,尤其是反對的意見,所以又稱“反對者”、“反向”或“抗衡”評價模式。對手式評價抓住了決策范圍的兩端,采用了“斗爭”理論,靠相互對立的評價者通過出示更好的、也是更有說服力的證據(jù),或者用能導(dǎo)致優(yōu)勢的法律或辯論技術(shù)(或其它技術(shù))去努力獲勝。對手通過爭論,使各方面的意見得到充分反映,以便決策者全面掌握情況,作出正確的結(jié)論。二、教育評價的發(fā)展階段20世紀(jì)80年代,美國出現(xiàn)了自稱“第四代教育評價”的理論,由古巴(E.Cuba)和林肯(Y.S.Lincoln)合作創(chuàng)立。古巴和林肯認(rèn)為:從評價本質(zhì)上看,評價描述的并不是事物真正的、客觀的狀態(tài),而是參與評價的人或團體關(guān)于評價對象的一種主觀性認(rèn)識,是一種通過“協(xié)商”而形成的“心理建構(gòu)”。是參與評價及與評價有關(guān)的人和團體基于對對象的認(rèn)識而整合成的一種共同的、公認(rèn)的主觀看法。從某種意義上說,評價結(jié)果由于受人們的物質(zhì)心理、社會、文化條件限制,不是絕對意義上的“真理”,連“近似真理”也算不上,常常為人們主觀偏好與誤差所制約。因此,評價中應(yīng)充分聽取不同方面的意見,協(xié)調(diào)各種價值標(biāo)準(zhǔn)間的分歧,縮短不同意見間的距離,最后形成公認(rèn)的一致的看法。二、教育評價的發(fā)展階段古巴和林肯認(rèn)為,評估過程可以包括以下環(huán)節(jié):其一,確定所有與評估有關(guān)的人員,包括決策者、執(zhí)行者、評估者、調(diào)適對象和局外人員;其二,征詢各有關(guān)人員的評估構(gòu)想與要求;其三,對不同的構(gòu)想和要求加以評判說明;其四,針對未達成共識的觀點擬定協(xié)商議程,收集提供協(xié)商所需的信息;其五,各種觀點的代表進行協(xié)商論辯,通過論辯、協(xié)商以求達成共識;其六,通過不斷的論辯、協(xié)商,解決不斷出現(xiàn)的新問題。中國發(fā)展性評價網(wǎng)http:///第二章教育測量的質(zhì)量指標(biāo)分析一個測驗的質(zhì)量,一般要從兩個方面來進行:一是考察整個測驗的質(zhì)量指標(biāo),即考察測驗的信度和效度;二是考察每個題目(項目)的質(zhì)量指標(biāo),即考察測驗項目的難度和區(qū)分度。信度主要對整個測量而言。效度難度主要對測量的項目而言。區(qū)分度第一節(jié)信度一、什么是信度信度是指測量結(jié)果的穩(wěn)定性或可靠性程度。換句話說,一個信度高的測驗,對同一個人或同一組被試先后施測兩次,結(jié)果應(yīng)保持一致,否則,就是信度不高的測驗。一般地說,一個好的測量必須具有較高的信度,也就是說,一個好的測量工具,只要遵守操作規(guī)則,其結(jié)果就不應(yīng)隨工具的使用者或使用時間等方面的變化而發(fā)生較大的變化。例如:用標(biāo)準(zhǔn)的鋼尺和一種具有較大彈性的皮尺去測量一張桌子的長度,皮尺的測量信度不高。一、什么是信度可以從以下三個方面去理解測量的信度:1、信度指實測值和真值相差的程度;凡測量必有誤差。實際測得的分?jǐn)?shù)往往難以和這個人的真正水平值完全一致,它總會略高于或略低于其真實水平值,有時甚至?xí)?yán)重偏離其真正水平值。例如:我們平常說“××考生基本上考出了其應(yīng)有水平”,“××考生失手了”,或“××這次測驗超水平發(fā)揮”等,就是對測量現(xiàn)象的一種描述。一、什么是信度我們可以用一個公式表示實測值(X)和真值(T)相差的程度:X=T+E式中,X表示實測值,T表示真值,E表示誤差。但測量的真值是未知的(如果已知就沒有必要進行測量了),因此,誤差也是無法求出來的。當(dāng)然,可以把很多次測量的實測值的平均值作為真值的近似值,但這在實踐上不具有可操作性。所以,根據(jù)這種理解,無法求出信度的大小。一、什么是信度(二)信度指統(tǒng)計量與參數(shù)之間的接近程度統(tǒng)計量是指樣本上的各種數(shù)字特征(如樣本的平均數(shù)、標(biāo)準(zhǔn)差等),參數(shù)是總體上的各種數(shù)字特征(如總體的平均數(shù)、標(biāo)準(zhǔn)差等)。統(tǒng)計量越接近參數(shù),這個統(tǒng)計量的可靠性便越高,因此,信度就越高。要知道統(tǒng)計量與參數(shù)的接近程度,可以對參數(shù)進行區(qū)間估計。這種方法對估計真分?jǐn)?shù)也是有用的。但這種理解也無法計算出信度。一、什么是信度(三)信度指兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度如果對同一對象進行兩次重復(fù)測量或者等值測量后,計算兩次測量的相關(guān)系數(shù),相關(guān)系數(shù)越高,說明測量的信度就越高;反之,就越低。對于信度的這種理解,有利于信度的計算。但重復(fù)測量會受到被測對象的經(jīng)驗、知識的增長等因素的影響,等值測量又較難編制,因此,采用這種方法計算信度時,也是有誤差的。X=T+E根據(jù)方差的可加性,有:Sx2=St2+Se2Sx2為測驗總方差(實得分?jǐn)?shù)方差),St2為真分?jǐn)?shù)方差,Se2為測驗誤差的方差。當(dāng)Sx2不變時,St2越大,Se2越小,反之亦然二、信度的理論公式在測量理論中,信度被定義為:一組測驗分?jǐn)?shù)的真方差(真變異數(shù))與總方差(實得變異數(shù))的比值,即:
由于Sx2=St2+Se2,公式變?yōu)椋嚎梢?,隨機誤差分?jǐn)?shù)的方差越小,測量的信度就越高。信度的取值范圍為[0,1],如果測量誤差的方差為0,那么,測量的信度等于1,如果測量誤差的方差等于觀察分?jǐn)?shù)的方差,則測量的信度為0。二、信度的理論公式但在實際測量中,St2和Se2都是不能直接求得的,因此信度是一個理論值三、信度的類型和估計方法(一)重測信度(穩(wěn)定性系數(shù))——估計測驗跨時間一致性的指標(biāo)1、概念:是指用同一測驗,對同一組被試先后施測兩次,然后根據(jù)被試兩次測驗分?jǐn)?shù)計算其相關(guān)系數(shù)。重測信度是假定所測量的特性處于相對穩(wěn)定的狀態(tài),如果用同一測驗對相同被試先后施測兩次,其結(jié)果應(yīng)相同或相近,我們就說測驗結(jié)果具有穩(wěn)定性,信度高,如果兩次測驗結(jié)果不同或相差很大,則表明測驗結(jié)果缺乏穩(wěn)定性,即信度低。2、重測信度的估計方法——重測法即用同一測驗以一定的時間間隔,對相同的被試先后施測兩次,然后計算兩次實得分?jǐn)?shù)的相關(guān)系數(shù)。其模式是:測驗A1
適當(dāng)時間測驗A2兩次測驗均以A表示,即兩次測驗完全相同,A的下標(biāo)1、2表示同一測驗施測兩次,時距可短至幾分鐘,長可達數(shù)年。計算公式——積差相關(guān)系數(shù)例:用學(xué)習(xí)動機測驗對15名被試先后施測兩次(間隔時間為2周),得分如下表,求該測驗的信度。被試123456789101112131415前測(1)后測(2)20182321171820171613141312882022192218151417151614121076你認(rèn)為重測法存在什么問題?1、兩次測驗之間的時間間隔要適宜。重測信度的大小常常受兩次測驗的時間間隔長短的影響,間隔時間過短,第一次測驗記憶猶新,容易回憶出上次的答案,因而夸大了穩(wěn)定性,間隔時間過長,被試可能由于經(jīng)驗積累、練習(xí)、成熟的影響,成績就可能與第一次大有差別,因而降低穩(wěn)定性。間距應(yīng)多長,應(yīng)視測驗類型和準(zhǔn)備如何利用測驗結(jié)果而定。在報告重測信度時,一般要說明時間間隔及被試在此期間的有關(guān)活動。2、重測法適用于速度測驗而不適用于難度測驗。因為速度測驗題目較多,測驗有足夠長度,時間較緊,被試無暇慢慢地回憶,所以第一次測驗的記憶影響較少。3、應(yīng)注意提高被試的積極性,由于重測法是把原測驗再重測一次,所以被試容易興趣索然,采取不積極合作的態(tài)度,使第二次測驗質(zhì)量降低,所以,調(diào)動被試的積極性很重要。4、要實施兩次測驗,耗費人力、物力和時間較多。你認(rèn)為重測法存在什么問題?(二)復(fù)本信度(等值性系數(shù))——估計測驗跨形式的一致性指標(biāo)1、概念:是指用兩個等值(題型、題數(shù)、難度、區(qū)分度相等),但具體內(nèi)容不同的測驗,在最短時間內(nèi),對相同被試先后施測兩次,然后根據(jù)兩次測驗分?jǐn)?shù)計算其相關(guān)系數(shù)。復(fù)本信度是衡量兩個不同版本的測驗的等值程度的指標(biāo),被試如果具備某一心理特質(zhì),那么,用性質(zhì)相同而題目不同的兩個等值測驗來施測,結(jié)果應(yīng)該具有一致性,否則的話,說明測驗信度低。2、復(fù)本信度的估計方法——復(fù)本法編制兩份等值的測驗(復(fù)本),先用第一種測驗對被試進行測驗,接著再用第二種測驗進行施測,然后求兩次測驗的積差相關(guān)系數(shù)(公式同上)。其模式是:測驗A最短時距測驗B3、使用復(fù)本信度應(yīng)注意的問題(1)復(fù)本法的關(guān)鍵是兩個測驗必須等值(2)兩次測驗時距盡可能短,以便避免知識積累、練習(xí)效應(yīng)等因素的影響(3)如果兩次測驗緊接進行,應(yīng)該注意避免被試易厭倦。(三)同質(zhì)信度(內(nèi)部一致性系數(shù))
——估計測驗內(nèi)部跨測題的一致性指標(biāo)1、概念:是指將一個測驗分成兩部分(例如分成奇數(shù)題和偶數(shù)題,或前半部分和后半部分),然后計算兩部分測題得分的相關(guān)系數(shù)。前述的兩種方法,都必須對被試施測兩次,然后計算兩次得分的相關(guān)系數(shù)。同質(zhì)信度只需施測一次。2、同質(zhì)信度的估計方法——分半信度法、庫德—理查遜公式法和α系數(shù)法(1)分半信度法。分半信度法是將測驗中的測題平均分成兩組,然后分別計算每一組的得分,并求兩者的相關(guān)系數(shù)。求得的相關(guān)系數(shù)還不是同質(zhì)信度,因為把試題分成兩組后,試卷的長度減少了一半,這會降低測驗的信度,一般來說,測驗越長,信度越高,因此求出相關(guān)系數(shù)后還需用斯皮爾曼—布朗公式加以校正,公式為:rtt為分半信度,rxy為測驗兩部分得分的相關(guān)系數(shù)表115名被試在6個項目組成的測驗上的得分被試123456789101112131415項目12345643552434322221134355123123312167876676544533288877555765442410810998107878674391081069797865532若將上述測驗奇、偶分半形成兩個半測驗,可得下表:被試123456789101112131415奇數(shù)題偶數(shù)題20182321171820171613141312882022192218151417151614121076表215名被試在奇偶分半測驗上的得分(2)庫德—查理遜公式法由于測驗分半的方法多種多樣,不同的分法將影響到分半信度,而要把一個測驗分拆成真正平行等值的兩半,是不容易的。能否不作拆分而直接利用單一形式作一次施測所獲資料來估計測驗信度呢?庫德和查理遜提出了幾個計算公式,其中常用的有rKR20
和rKR21。①rKR20的用法:這個公式以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)計算(每題只有通過或未通過兩種分?jǐn)?shù))。k為項目數(shù),S2為各人總分的方差,P為正確通過率。②rKR21的用法:這個公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計算,無需各題難度的信息。公式如下:式中,是各人總分的平均數(shù),S2是各人總分的方差,K是題目數(shù)。對8名被試實施某測驗,數(shù)據(jù)如下表,求該測驗的信度被試ABCDEFGHpqpq滿分題號3512423112345678910000000001000000010100000110010000101001011101010111111001111110011110101111111110.0000.1250.2500.3750.3750.6250.7500.7500.7501.0001.0000.8750.7500.6250.6250.3750.2500.2500.2500.0000.0000.1090.1860.2340.2340.2340.1860.1860.1860.000∑87655432=5S2=3.5
1.555
rKR21所得的信度要低于rKR20rKR21公式適用于各試題難度相近的情況,如果各試題難度相差太大,就會出現(xiàn)低估現(xiàn)象,因此rKR20要比rKR21精確些。注意:只適用于客觀性試題練習(xí):
對10名被試實施某測驗,數(shù)據(jù)如下表,求該測驗的信度
被試題號滿分ABCDEFGHIJ123456351242330330300305500555000100110102022202200404004402200222220合計175324424542計算內(nèi)部一致性系數(shù),需注意下列問題:①若用分半法時,以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個測驗分為前后兩半,一方面前半部試題與后半部試題未必等值,另方面被試者在完成后半部試題時,可能因疲勞、厭倦等原因而影響回答質(zhì)量,以致前后反應(yīng)不一致,影響信度。②若速率是測驗的重要因素,則不宜用分半法。因為速度測驗中試題的難度低,被試者得分的多少,在很大程度上是因為答題的多少,分半法易使得分相同,從而會夸大分半法的信度估計。③如果答案多種多樣,得分也多種多樣時(如論文式考試),則不能用上列公式計算一致性系數(shù)。(3)論文式測驗的信度系數(shù)
——克龍巴赫的α系數(shù)法分半信度適用于(01)和(0K)記分的測題。庫德—查理遜公式只適用于(01)記分的測題。α系數(shù)法適用于(0K)記分的測題。Si2為每一題得分的方差,St2為被試總分的方差。例:有一個包含6個論文式題目的測驗,對5個被試施測,試求該測驗的信度被試12345Si2題號123456
71181111697896106898116837118111171181111
3.041.362.566.963.043.04∑416343575420St2=68.96(四)評分者信度
1、概念:估計不同評分者對同一測驗評分標(biāo)準(zhǔn)一致性程度的指標(biāo)。(針對主觀題)
2、估計方法:分兩種情況:第一種:評分者為兩人時,先將兩人的評分轉(zhuǎn)化為等級,求等級相關(guān)系數(shù)D為兩人評分的等級之差例:甲、乙兩位教師評閱10份試卷,結(jié)果如下,問兩位教師的評分是否一致?試卷得分名次DD2甲教師乙教師甲教師乙教師123456789109490868672706866646193929270827665766860123.53.5567891012.52.5745.595.58100-0.51-3.510.5-22.51000.25112.2510.2546.2510∑26第二種:有多名評分者,將評分轉(zhuǎn)化為等級,用肯德爾和諧系數(shù)估計。W為和諧系數(shù),Ri為第i份試卷被評等級的總和,K為評分者人數(shù),N為被評試卷數(shù)。一般而言,W大于0.9時,可認(rèn)為評分者信度較好.例:6位教師評閱5篇作文,下表是評分等級,問6位教師的評分是否一致(可信)?n=5作文評分者k=6123456RiRi2123453333354555211224544411221118291025832484110062564∑901954四、提高信度的方法(一)信度系數(shù)以多大為宜學(xué)科測驗:r﹥0.9智力測驗:r﹥0.8教師自編測驗和品德測驗:r﹥0.6(二)測量誤差的來源(前面已講)測量誤差的來源基本可分為三類:1.測驗本身所引起的誤差2.測驗的實施所引起的誤差3.被試所引起的誤差
(三)提高測驗信度的方法1、適當(dāng)增加測驗題目的數(shù)量:測驗越長,信度越高。2、測驗的難度要適中3.測驗的內(nèi)容應(yīng)盡量同質(zhì)4.測驗的程序應(yīng)統(tǒng)一5.測驗的時間要充分6.評分要盡量做到客觀化、減少評分誤差練習(xí)與作業(yè)1、15人參加詞匯理解測驗,第一次測驗與第二次測驗間隔兩周進行,求該測驗的信度被試123456789101112131415前測后測1821161425231526132827221924162023171226251827152629212022182、15人參加一次測驗后在奇數(shù)題和偶數(shù)題上的得分如下,求測驗信度被試123456789101112131415奇數(shù)題偶數(shù)題3240422830304128323426343625403139453029293930323230403626403、一位教師評閱10份試卷,評完一次并列出等級后,為慎重起見,重評一次,結(jié)果如下,問兩次評分是否一致被試12345678910初評再評
1681024795326891471054、4位教師評閱5篇作文,結(jié)果如下,問教師所評等級是否一致閱卷者劉張王李作文編號12345121223313143452454555、某態(tài)度量表有6道題,被試在各題上的得分的方差分別是0.80、0.81、0.79、0.78、0.80、0.82,測驗總分的方差為16.00,求α值第二節(jié)效度
對于任何一種測量來說,信度是必要條件,但并非充要條件。不可信的測驗肯定沒有效,但可信的測驗未必有效,而有效測驗必定可信,因此,對教育測量而言,效度顯得更為重要。
一、效度的概念
效度是指測量結(jié)果的準(zhǔn)確性和有效性的程度,即一個測驗對它所要測量的目標(biāo)準(zhǔn)確測量的程度。通俗地說,測驗?zāi)芊駵y量到我們所要測量的東西的程度就是效度。我們可以從以下幾方面來理解效度:1、測量的效度始終是對一定的測量目的而言的。2、測量的效度也是對測量的結(jié)果而言的。3、一種測量的效度只是高或低的問題。4、在教育測量中,效度問題比在其他領(lǐng)域的測量更為重要。二、效度的理論公式任何測量都有誤差,誤差分為隨機誤差和系統(tǒng)誤差,所謂隨機誤差是指那種由與測量目的無關(guān)的、偶然因素引起的,而又不易控制的誤差,它使多次測量產(chǎn)生力量不一致的結(jié)果,其方向和大小的變化完全是隨機的。系統(tǒng)誤差是指那種由與測量目的無關(guān)的變因引起的一種恒定的而有規(guī)律的效應(yīng)。這種誤差穩(wěn)定地存在于每一次測量之中,此時盡管多次測量的結(jié)果非常一致,但實測結(jié)果仍與真實數(shù)值有所差異,是不正確的。在實際測量中,測量的效度除受隨機誤差影響外,還受系統(tǒng)誤差影響。所以必須從統(tǒng)計學(xué)的角度對效度作進一步的分析。在前面的信度中說過,實得分?jǐn)?shù)(X)的方差(SX2)等于真分?jǐn)?shù)(T)方差(ST2)加測量誤差(E)的方差(SE2),SX2=ST2+SE2(這里沒有考慮系統(tǒng)誤差問題)。因而信度(rxx)被定義為真分?jǐn)?shù)方差與實得分?jǐn)?shù)方差之比,即:在討論效度時,還必須把真分?jǐn)?shù)方差(ST2
)分解為兩部分,一部分是與測量目標(biāo)吻合、反映所欲測量的特性的真實差異的真分?jǐn)?shù)方差,也稱有效方差(Sv2
);另一部分是與測量目標(biāo)無關(guān),但穩(wěn)定地與真分?jǐn)?shù)方差結(jié)合在一起的誤差分?jǐn)?shù)方差,它是由系統(tǒng)誤差引起的變異,所以也稱為系統(tǒng)誤差方差(SI2),它與由隨機誤差引起的變異不同(SE2)。于是有:ST2=Sv2+SI2因而,SX2=Sv2+SI2+SE2在這個公式中,假設(shè)隨機誤差方差足夠小而且不變,則系統(tǒng)誤差分?jǐn)?shù)方差越小,有效方差就越大,有效方差在實得分?jǐn)?shù)方差中所占的比重越大,那么達到測驗?zāi)康牡某潭纫簿驮酱?,或者說效度也就越高。因此,在測量學(xué)中,效度被定義為與測量目的有關(guān)的變異(有效變異)與實測值變異之比。即:三、效度的類型和估計1974年美國心理學(xué)會發(fā)行的《教育和心理測驗的標(biāo)準(zhǔn)》一書將效度分為三大類:內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和結(jié)構(gòu)效度。(一)內(nèi)容效度1、什么是內(nèi)容效度是指測驗?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達到的程度。也就是測量內(nèi)容的代表性程度。以考查學(xué)習(xí)成績?yōu)槟康牡臏y驗來說,課程標(biāo)準(zhǔn)所規(guī)定的全部教材內(nèi)容是學(xué)生必須掌握的。但一份試卷不可能考全部內(nèi)容,這就有試題內(nèi)容是否有代表性的問題。在編制測驗時,內(nèi)容效度是一個相當(dāng)復(fù)雜和不易解決的問題。以智力測驗為例,由于智力結(jié)構(gòu)十分復(fù)雜,內(nèi)容異常豐富,若用若干測題代表全部智力,必須進行深入細(xì)致的研究。著名的斯坦福—比納智力測驗,就是在經(jīng)過五年的潛心研究和大規(guī)模測試后才編制出來的。此外,還由于智力和知識有密切的關(guān)系,所以有的智力測驗題目不能代表智力內(nèi)容,實際上成了測量知識的題目,以致降低
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年合伙市場拓展協(xié)議
- 2025年仲裁裁決合同范本
- 2025年劍術(shù)表演協(xié)議
- 2025年度高端商業(yè)街區(qū)門面店鋪轉(zhuǎn)讓及租賃合作協(xié)議書3篇
- 二零二五版首付款分期購房借款合同樣本3篇
- 2025年度木地板翻新與保養(yǎng)服務(wù)合同4篇
- 2025年新型節(jié)能廚房電器研發(fā)與銷售合作協(xié)議4篇
- 2025年度個人分紅協(xié)議書包含金融科技分紅條款4篇
- 二零二五年度新型木托盤租賃及信息化管理服務(wù)合同4篇
- 2025年度上市公司合規(guī)管理法律顧問合同
- 湖北省石首楚源“源網(wǎng)荷儲”一體化項目可研報告
- 醫(yī)療健康大數(shù)據(jù)平臺使用手冊
- 碳排放管理員 (碳排放核查員) 理論知識考核要素細(xì)目表四級
- 撂荒地整改協(xié)議書范本
- 診所負(fù)責(zé)人免責(zé)合同范本
- 2024患者十大安全目標(biāo)
- 會陰切開傷口裂開的護理查房
- 實驗報告·測定雞蛋殼中碳酸鈣的質(zhì)量分?jǐn)?shù)
- 部編版小學(xué)語文五年級下冊集體備課教材分析主講
- 電氣設(shè)備建筑安裝施工圖集
- 《工程結(jié)構(gòu)抗震設(shè)計》課件 第10章-地下建筑抗震設(shè)計
評論
0/150
提交評論