教育測量與評價(jià)教案_第1頁
教育測量與評價(jià)教案_第2頁
教育測量與評價(jià)教案_第3頁
教育測量與評價(jià)教案_第4頁
教育測量與評價(jià)教案_第5頁
已閱讀5頁,還剩140頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、教育測量與評價(jià)教案第一篇 教育評價(jià)的基本原理與方法第一章 教育測評概述第一節(jié) 教育測量概述一、測量的定義一般認(rèn)為,測量系根據(jù)法則給事物分派數(shù)字。這里包含了測量三個方面的特性:法則,指測量的標(biāo)準(zhǔn),也就是測量的依據(jù)和準(zhǔn)則,即我們根據(jù)什么原理來進(jìn)行測量。法則也有好壞之分,使用好的法則可以得到比較理想的測量結(jié)果,而較差的法則只能導(dǎo)致不準(zhǔn)確的測量結(jié)果。要尋找和建立較好的測量法則是一件極為困難的事情。但不管什么法則的建立都是一個漸進(jìn)的過程。事物,指測量的對象,也就是對什么進(jìn)行測量,更明確地說,就是引起我們興趣的事物的屬性或特征。不同的事物具有不同的屬性或特征,所測量的事物是否具有一致性,這是影響測量結(jié)果是

2、否精確的一個重要原因。數(shù)字,這是測量結(jié)果的表現(xiàn)形式,是區(qū)別測量與定性評價(jià)的一個標(biāo)志。數(shù)字大多時(shí)候具有量的意義,這樣它是代表一定的數(shù)值。這些數(shù)值具有自然數(shù)的特點(diǎn),如區(qū)分性、序列性或等級性、等距性和可加性。這些性質(zhì)是我們進(jìn)行運(yùn)算的基礎(chǔ)。必須指出,在測量中,我們是根據(jù)事物的屬性和屬性的大小來分派數(shù)字的,因此,必須考慮數(shù)字是否具有如上性質(zhì),同時(shí)還要考慮事物的性質(zhì)和指派數(shù)字的原則。二、測量的三要素1、單位。是我們用于計(jì)算的標(biāo)準(zhǔn)。理想的單位必須具備兩個條件:一是要有確切的意義,即對同一單位,所有人的理解意義要相同,不能出現(xiàn)不同的解釋;二是要有相等的價(jià)值,即等值性,也就是相鄰兩個單位點(diǎn)之間的差別是相等的。2

3、、參照點(diǎn)。是計(jì)算的起點(diǎn)。一般分為絕對零點(diǎn)和相對零點(diǎn)。絕對零點(diǎn)指客觀地存在著“0”這個數(shù)字,即完全沒有;相對零點(diǎn)則是人們?yōu)榱藚^(qū)分或分出等級人為地指定出一個零點(diǎn),即即使在“0”這個位置,也不說明事物的屬性是不存在的。3、量表。這是測量的工具,是具有一定單位和參照點(diǎn)的連續(xù)體。由于制訂量表的單位和參照點(diǎn)不同,量表的種類也不同,一般從低到高,分為四種水平:類別量表水平(稱名量表)、順序量表水平(等級量表)、等距量表水平(等距量表)、比率量表水平(比率量表)。類別量表是最低水平的一種測量量表,它只是用數(shù)字代表事物和事物的歸類,沒有任何數(shù)量的意義,如對性別、民族等可分類事物進(jìn)行分類。其產(chǎn)生的數(shù)值不能用于數(shù)量

4、化分析,不能進(jìn)行數(shù)學(xué)運(yùn)算,最多只能進(jìn)行百分比分類。順序量表比類別量表要精確一些,其中數(shù)字不僅指明了事物類別,同時(shí)指明不同類別的大小等級或具有某種屬性的程度。等距量表不僅有大小關(guān)系,而且有相等的單位和相對的零點(diǎn)。這時(shí)數(shù)值可以進(jìn)行加減運(yùn)算,但由于只是相對零點(diǎn),所以不能進(jìn)行乘除運(yùn)算。比率量表是最高級和體現(xiàn)最精確的測量水平的一種測量量表。它既有等距的單位,又有絕對零點(diǎn),因此可以加減乘除。大多數(shù)物理測量量表是比率量表,而教育測量中的量表很難達(dá)到這一水平。三、什么是教育測量教育測量是根據(jù)測量學(xué)的原理和方法對教育現(xiàn)象及其屬性進(jìn)行數(shù)量化研究的過程。主要包括對學(xué)生內(nèi)在的精神屬性的測量,如測量學(xué)生的學(xué)習(xí)成績、智力

5、水平、品德狀況、人格特征等。這里,要注意的是第一,教育測量是一個數(shù)量化研究過程。所以,在進(jìn)行教育測量時(shí),要解決的第一個問題是如何將我們所要測量到的人的各種屬性量化表示的問題。在教育問題中,有許多往往很難加以量化,有時(shí)即使加以量化,但量化水平只能停留在類別變量或順序變量的層次,難以實(shí)現(xiàn)數(shù)量化分析,意義。這也是我們現(xiàn)在教育測量和教育評價(jià)在社會上討論非常激烈,人們十分關(guān)注,但又成效不大的原因所在。第二,教育測量主要測學(xué)生內(nèi)在的精神屬性,因而具有間接性。這就導(dǎo)致了誤差甚至錯誤的存在。(一)、教育測量的特點(diǎn)1、測量結(jié)果的間接性。我們無法直接測量學(xué)生的內(nèi)在心理特征,而只能通過其外顯行為,來間接測量其心理活

6、動的特點(diǎn)與水平。也就是說,我們只能通過學(xué)生對測驗(yàn)韙的反應(yīng)和一些行為表現(xiàn),運(yùn)用推理、判斷的方法,來間接地測量出他們的知識水平、智力高低和品德好壞。2、度量單位的相對性。教育測量的另一個特點(diǎn)是它的度量單位一般是相對的,即是相對零點(diǎn),必須經(jīng)過轉(zhuǎn)換后才能進(jìn)行相應(yīng)的數(shù)學(xué)分析。3、測量對象的復(fù)雜性。首先,學(xué)生的精神屬性是內(nèi)在的,不能直接測量;其次,它是多變的,因?yàn)閷W(xué)生是發(fā)展的;第三,有些主、客觀因素也會影響測量的結(jié)果,如精神狀態(tài)、注意力、天氣因素、緊張等。4、測量目的的針對性。四、教育測量的誤差問題測量中,誤差是不可避免的。產(chǎn)生誤差的原因主要有:(一)測量的儀器和設(shè)備。測量工具的精度會影響測量的精確程度。

7、(二)所測量的事物的一致性程度。(三)測量者的因素。五、教育測量學(xué)的作用(一)有利于提高教育教學(xué)水平(二)有利于提高教育管理水平(三)有利于發(fā)展教育研究方法第二節(jié) 教育評價(jià)概述一、什么是評價(jià)“評價(jià)”一詞早在900多年前我國北宋時(shí)期就已出現(xiàn)。評價(jià)就是根據(jù)某種價(jià)值觀對事物及其屬性進(jìn)行判斷、衡量,也就是對人或物做出好與壞、真與假、善與惡、美與丑、優(yōu)與劣等判斷。這里,價(jià)值觀在評價(jià)中起著十分重要的作用。價(jià)值觀不同,對同一事物會有不同的評價(jià)。價(jià)值是客觀的,但評價(jià)帶有主觀性。在哲學(xué)史上有幾種不同的價(jià)值觀:一種是客觀主義的價(jià)值觀,認(rèn)為價(jià)值是客觀對象所固有的本性,是純客觀的東西;一種是主觀主義的價(jià)值觀,認(rèn)為價(jià)值

8、是用來表達(dá)個人對事物的好惡情感的,是純主觀的東西;另一種是辯證唯物主義的價(jià)值觀,認(rèn)為價(jià)值是一種表明客體對主體的特殊效用性,是主觀性與客觀性的統(tǒng)一。客觀事物的效用性與主觀的需要和愿望相結(jié)合,就具有了一定的價(jià)值,符合的程度大,價(jià)值就越大。二、教育評價(jià)的定義(一)早期的界說泰勒在20世紀(jì)40年代初將教育評價(jià)解釋為:“確定教育目標(biāo)在實(shí)際上被理解到何種程序的過程。”后來日本學(xué)者進(jìn)一步把它界定為:“教育評價(jià)就是系統(tǒng)地、有步驟地從數(shù)量上測量或從性質(zhì)上描述兒童的學(xué)習(xí)過程和結(jié)果,據(jù)此判定是否達(dá)到了所期望的教育目標(biāo)的一種手段?!边@種解釋和界說,認(rèn)為以教育目標(biāo)為依據(jù),評量學(xué)習(xí)結(jié)果達(dá)到目標(biāo)的程度,就是教育評價(jià)。(二)

9、60年代的界說克龍巴赫對教育評價(jià)的闡釋是基于突破行為目標(biāo)模式的觀點(diǎn),提出“評價(jià)是為決策提供信息的過程”,后來有人對這一界說做了具體的描述:“教育評價(jià)是一種有系統(tǒng)地去尋找并搜集信息資料,以便協(xié)助決策者在諸種可行的途徑(方案)中擇一而行的歷程?!边@種觀點(diǎn)強(qiáng)調(diào)了評價(jià)的信息作用,擴(kuò)大和拓寬了評價(jià)的功能、范圍,從廣義上、宏觀上對評價(jià)進(jìn)行了創(chuàng)造性的解釋。(三)較深層的定義斯克里文和豪斯的定義:“評價(jià)是一種對優(yōu)缺點(diǎn)和價(jià)值的評估,是一種既有描述又有判斷的活動。”日本心理學(xué)家大橋正夫認(rèn)為:“教育評價(jià)就是對照教育目標(biāo),對教育行為產(chǎn)生的變化進(jìn)行價(jià)值上的判斷。”這種評價(jià)觀點(diǎn)認(rèn)為教育評價(jià)的著眼點(diǎn)在于教育現(xiàn)象的價(jià)值,也就

10、是評價(jià)應(yīng)當(dāng)著重判斷教育的效果,看其是否具有價(jià)值。這里的關(guān)鍵主要是價(jià)值判斷。盡管各國評價(jià)學(xué)者對教育評價(jià)有不同的界說,但在這一點(diǎn)已相當(dāng)一致。(四)對教育評價(jià)的初步界定和理解20世紀(jì)80年代以來,我國教育界也對教育評價(jià)理論進(jìn)行了初步探討,對教育評價(jià)的概念也進(jìn)行了專門研究,在系統(tǒng)地學(xué)習(xí)、借鑒國外評價(jià)理論的同時(shí),力圖從我國實(shí)際出發(fā),對教育評價(jià)的含義作了一些描繪和闡釋。在這些觀點(diǎn)中,有些共同的認(rèn)識:(1)承認(rèn)評價(jià)是一個過程;(2)價(jià)值判斷是評價(jià)的本質(zhì)特征;(3)以一定的教育價(jià)值觀為依據(jù);(4)采用一切可行的科學(xué)手段。根據(jù)上述觀點(diǎn),我們把教育評價(jià)界定為“教育評價(jià)是根據(jù)一定的價(jià)值觀或教育目標(biāo),運(yùn)用可行的科學(xué)手

11、段,通過系統(tǒng)地搜集信息、分析解釋,對教育現(xiàn)象進(jìn)行價(jià)值判斷,從而為不斷優(yōu)化教育和教育決策提供依據(jù)的過程?!边@一概念,包含以下幾個方面:1、教育評價(jià)的對象、范圍和地位其對象不僅包括學(xué)生學(xué)習(xí)結(jié)果,而指以教育的全部領(lǐng)域?yàn)閷ο螅ú粌H包括現(xiàn)象,還包括結(jié)果、計(jì)劃、活動、過程等)。2、教育評價(jià)的目的和作用它涉及評價(jià)的指導(dǎo)思想和教育觀等基本理論問題。教育評價(jià)是為鑒定、考核,還是為了推動、改進(jìn);是為了選拔、淘汰,還是為了教育、發(fā)展,這是兩種不同的教育觀和評價(jià)觀。過去的教育評價(jià)偏重于鑒定、篩選的功能,其目的是為了“選拔適合教育的兒童”,是為“應(yīng)試教育”服務(wù)的。而現(xiàn)代教育評價(jià)則強(qiáng)調(diào)評價(jià)的反饋、矯正功能即調(diào)控功能,其目

12、的是為了“創(chuàng)造適合兒童的教育”,即評價(jià)是為了診斷評價(jià)對象的現(xiàn)狀,以便發(fā)現(xiàn)問題,使教育教學(xué)工作不斷改進(jìn)、不斷完善,不斷適合教育對象的需要,為促進(jìn)兒童個性全面發(fā)展和提高教育質(zhì)量服務(wù)。教育評價(jià)的目的是為教育決策提供信息和依據(jù),為改進(jìn)教育服務(wù),也是為不斷完善和改進(jìn)教育過程、為提高教育質(zhì)量服務(wù)。3、教育評價(jià)的依據(jù)價(jià)值判斷是教育評價(jià)的本質(zhì)特征,是教育評價(jià)的核心。根據(jù)什么進(jìn)行價(jià)值判斷?如何進(jìn)行判斷?這就是價(jià)值判斷的實(shí)質(zhì)和關(guān)鍵。也就是必須一個衡量和判斷的客觀依據(jù)和標(biāo)準(zhǔn),是教育價(jià)值目標(biāo)和標(biāo)準(zhǔn)問題。它涉及什么是價(jià)值、教育價(jià)值、教育價(jià)值觀的問題。我們應(yīng)當(dāng)根據(jù)馬克思主義價(jià)值觀和社會主義現(xiàn)代化建設(shè)的需要,根據(jù)人才成長發(fā)

13、展規(guī)律,確立我們的教育價(jià)值觀和價(jià)值取向,確定教育評價(jià)的價(jià)值目標(biāo)和標(biāo)準(zhǔn)。從這個意義上說,教育方針、政策和教育目標(biāo)就是我們的教育價(jià)值觀的集中體現(xiàn),我們應(yīng)當(dāng)以教育方針和教育目標(biāo)為依據(jù)確定評價(jià)的目標(biāo)和標(biāo)準(zhǔn)。4、教育評價(jià)的手段(五)教育評價(jià)與教育測量的關(guān)系測量是工具,評價(jià)是目標(biāo)。三、教育評價(jià)的功能和意義(一)教育評價(jià)的系統(tǒng)結(jié)構(gòu)1、價(jià)值目標(biāo)和標(biāo)準(zhǔn)2、組織機(jī)構(gòu)和人員3、評價(jià)方法和技術(shù)4、評價(jià)對象與評價(jià)人員的心理調(diào)控(二)教育評價(jià)的功能根據(jù)系統(tǒng)論的觀點(diǎn),評價(jià)功能是教育評價(jià)系統(tǒng)結(jié)構(gòu)的內(nèi)在機(jī)制,是構(gòu)成評價(jià)系統(tǒng)的各個要素的組成形式在運(yùn)動狀態(tài)下所發(fā)揮的功效,是評價(jià)系統(tǒng)內(nèi)部所固有的一種潛在能量。這種潛能只有在評價(jià)實(shí)踐中

14、才能表現(xiàn)或釋放出來,這種功能的外在表現(xiàn)即是作用。1、教育評價(jià)的意義(1)教育評價(jià)是教育管理的重要組成部分。教育管理的各個環(huán)節(jié)都需要評價(jià)。沒有評價(jià)的管理是一個開放式的管理系統(tǒng),無反饋機(jī)制,這是一種不科學(xué)、不健全的管理。(2)教育評價(jià)是深化教育改革的重要措施。要進(jìn)行一項(xiàng)教育改革,首先要進(jìn)行改革方案的可行性評估;在改革進(jìn)程中,必須加強(qiáng)形成性評價(jià);在某一改革告一段落時(shí)必須進(jìn)行終結(jié)性評價(jià)。只有這樣才能避免盲目性,確保教育改革沿著健康的軌道發(fā)展。(3)教育評價(jià)是全面提高教育質(zhì)量的重要手段。(4)教育評價(jià)是教育科學(xué)研究的重要內(nèi)容。2、教育評價(jià)的功能(1)導(dǎo)向功能。(2)監(jiān)督檢查功能。(3)激勵功能。(4)篩

15、選擇優(yōu)功能。(5)診斷改進(jìn)功能。四、教育評價(jià)的種類(一)根據(jù)評價(jià)對象和范圍不同,可分為宏觀教育評價(jià)、中觀教育評價(jià)和微觀教育評價(jià)。宏觀教育評價(jià)是以教育的全領(lǐng)域及宏觀決策方面的教育現(xiàn)象、措施為對象的教育評價(jià),或?qū)σ粋€具有相當(dāng)規(guī)模的地區(qū)的教育進(jìn)行的評價(jià),屬于總體的、全局性的、高層次的評價(jià)。中觀教育評價(jià)是以學(xué)校為對象,對學(xué)校內(nèi)部各方面的工作進(jìn)行的評價(jià)。微觀教育評價(jià)是以學(xué)生為對象的教育評價(jià)。(二)根據(jù)評價(jià)的時(shí)間和作用不同,可分為診斷性評價(jià)、形成性評價(jià)和總結(jié)性評價(jià)(三)根據(jù)評價(jià)的基準(zhǔn)不同,可分為相對評價(jià)和絕對評價(jià)相對評價(jià)指在評價(jià)對象團(tuán)體中確定一個基準(zhǔn),或以某一團(tuán)體的評價(jià)狀況為基準(zhǔn),對團(tuán)體中的個體成員在這個

16、團(tuán)體中所處的相對位置進(jìn)行評價(jià)。其特點(diǎn)是:評價(jià)基準(zhǔn)是在評價(jià)對象團(tuán)體內(nèi)部確定的;參照的標(biāo)準(zhǔn)是對團(tuán)體進(jìn)行測量以后確定的;它關(guān)心的是團(tuán)體成員在該團(tuán)體中所處的相對位置。絕對評價(jià)指以預(yù)先制訂的目標(biāo)為評價(jià)基準(zhǔn),評價(jià)每個對象達(dá)到目標(biāo)或基準(zhǔn)的程度,也稱目標(biāo)參照評價(jià)。其特點(diǎn)是:評價(jià)基準(zhǔn)是在評價(jià)對象團(tuán)體以外確定的;參照標(biāo)準(zhǔn)是在對團(tuán)體進(jìn)行測量以前確定的;它關(guān)心的是評價(jià)對象達(dá)標(biāo)的程度。(四)根據(jù)評價(jià)的性質(zhì)不同,可分為需要性評價(jià)、可行性評價(jià)和配置性評價(jià)需要性評價(jià)是指根據(jù)某種需要,對新提出的教育目標(biāo)、計(jì)劃方案的必要性作出價(jià)值判斷。其目的是要判斷新提出的教育目標(biāo)、計(jì)劃方案或活動是否有必須進(jìn)行或開展。一般是在某種教育改革項(xiàng)目開

17、始前或?qū)逃顒诱麄€過程進(jìn)行總體反思時(shí)進(jìn)行。可行性評價(jià)是指對教育目標(biāo)、計(jì)劃、方案實(shí)現(xiàn)的條件、可行性程度的評價(jià)。目標(biāo)是了解實(shí)施教育目標(biāo)、計(jì)劃、方案的物質(zhì)條件、技術(shù)條件和經(jīng)濟(jì)效益。配置性評價(jià)是指對教育目標(biāo)、計(jì)劃、方案所需要的資源條件、人員與技術(shù)條件的配置進(jìn)行價(jià)值判斷。目的是合理安排和利用人力、物力和財(cái)力。(五)根據(jù)評價(jià)的主客體不同,可分為自我評價(jià)和他人評價(jià)自我評價(jià)指被評者按照一定的評價(jià)目的與要求,對自身的工作、學(xué)習(xí)和品德等方面的表現(xiàn)進(jìn)行價(jià)值判斷。他人評價(jià)指被評者以外的人進(jìn)行的評價(jià),也叫外部評價(jià)。第三節(jié) 教育測評的發(fā)展階段一、 教育測量的發(fā)展階段(一)教育測量的萌芽階段(1864年以前)根據(jù)學(xué)記記載

18、,我國早在西周時(shí)期,就實(shí)行了教育考評。自隋煬帝大業(yè)三年(公元606年)始置進(jìn)士科開始的科舉制度,到清末光緒三十一年(1905年)廢止,正好1300年,對我國進(jìn)一步完善高等學(xué)校招生制度乃至整個干部選拔制度,都有重要的借鑒意義??婆e制度的特點(diǎn):第一,要經(jīng)過嚴(yán)格的政治條件方面審查;第二,要進(jìn)行嚴(yán)格的文化考查;第三,歷代對考生都有健康方面的標(biāo)準(zhǔn)??婆e制度可取之處:第一,政治理論考試是最主要的考試項(xiàng)目;第二,文化素養(yǎng)特別是寫作能力是必考項(xiàng)目;第三,注意考查分析問題和解決問題的能力。錄取原則:第一,對已被錄取者一律要進(jìn)行復(fù)試;第二,對落選者要給予其他出路;第三,錄取時(shí)要參考平時(shí)成績。注意的問題:第一,考生

19、入場挾帶文書,是歷代都極為注意的;第二,考場秩序也是歷代都極為重視的問題;第三,試卷是評定成績高低,錄取與否的唯一依據(jù),它屢經(jīng)考生和各類考試工作人員之手,如不嚴(yán)格管理,很容易使舞弊者有機(jī)可乘??婆e制度實(shí)際上就是一個關(guān)于學(xué)生學(xué)力檢測、評價(jià)制度,但是它缺乏對人全面的、科學(xué)的考察,并且存在著許多弊端。在18世紀(jì)以前的西方各國,由于學(xué)校尚未普及,學(xué)??荚囍饕强谠?。1702年,英國劍橋大學(xué)首先以筆試代替口試,開西方學(xué)校考試先河。1845年,美國初等學(xué)校普及,學(xué)生數(shù)激增,對畢業(yè)生一一口試已不可能,于是,波士頓市教育委員會率先在美國相繼以筆試代替口試。由于筆試客觀性、可靠性比口試高,并且節(jié)約時(shí)間,測試結(jié)果

20、大大優(yōu)于口試,但因?yàn)樵u分易受主觀偏見影響,況且題目太少,不足以反映學(xué)生所獲知識與能力的全貌,因此,為矯正弊端,力求考試客觀化,于是測驗(yàn)方法隨之出現(xiàn)。(二)教育測量的蓬勃興起階段(18641940年)1864年英國格林威治醫(yī)院附屬學(xué)校一位名叫費(fèi)舍的教師收集了許多學(xué)生成績樣本,匯集了一本量表集,作為度量學(xué)生各科成績的標(biāo)準(zhǔn)。可以說是客觀標(biāo)準(zhǔn)化測量的萌芽。1897年萊斯發(fā)表了他對20所學(xué)校3000余名學(xué)生所作的拼字測驗(yàn)研究結(jié)果,測驗(yàn)表明:8年中每天花45分鐘時(shí)間進(jìn)行拼字練習(xí)同每天花15分鐘進(jìn)行練習(xí)的成績并沒有多大差別。這一結(jié)論盡管遭到了不少人反對,但它引起了人們對測驗(yàn)問題的普遍關(guān)心,推動了教育測驗(yàn)問題

21、的研究。中世紀(jì)以后,西方自然科學(xué)由于在方法論上引入了測定、觀察和實(shí)驗(yàn),一些傳統(tǒng)科學(xué)取得了長足發(fā)展。1879年馮特在德國萊比錫建立了第一個心理學(xué)實(shí)驗(yàn)室,為進(jìn)一步揭示人的心理本質(zhì)而設(shè)計(jì)了種種周密的實(shí)驗(yàn)方案與實(shí)現(xiàn)方案的各種嚴(yán)密的測量方法。所有這些方法論的變革促進(jìn)了教育測量運(yùn)動的興起。1882年英國高爾頓受達(dá)爾文影響,在倫敦建立了人類學(xué)測驗(yàn)實(shí)驗(yàn)室,與德國馮特的心理學(xué)實(shí)驗(yàn)室相對峙。德國實(shí)驗(yàn)心理學(xué)派通過專門研究人類的一般行為規(guī)律來進(jìn)一步揭示人的心理本質(zhì),而英國人類學(xué)派則對人類個別差異寄予了關(guān)心。高爾頓在統(tǒng)計(jì)學(xué)家皮爾遜的幫助下,設(shè)計(jì)了許多統(tǒng)計(jì)方法。這些統(tǒng)計(jì)方法不僅對美國的人事工程思想甚有幫助,而且一些教育家

22、借鑒這些方法,在教育上把不同學(xué)生的學(xué)習(xí)能力與學(xué)習(xí)效果量化,并加以客觀比較,促進(jìn)了教育測量運(yùn)動的發(fā)展。19世紀(jì)末,法國在“自由”“平等”“博愛”等進(jìn)步思想的影響下,提出社會不僅要對身體有缺陷的兒童加以關(guān)懷,還要結(jié)心理、精神智能有缺陷的兒童給予關(guān)懷。恰好當(dāng)時(shí)巴黎一帶的學(xué)校有許多學(xué)習(xí)效果低劣的孩子很成問題,比納想鑒別這些孩子是因?yàn)閼卸?,還是因?yàn)橹悄艿拖露荒苓m應(yīng),并且想在教育上嘗試如何加以輔救。因此,1895年,比納等設(shè)計(jì)了一套智力測驗(yàn)的方法,1905年在西蒙的協(xié)助下,制成了著名的比納西蒙智力量表。20世紀(jì)20年代,美國的教育測驗(yàn)運(yùn)動蓬勃發(fā)展起來。可分為三個時(shí)期:開拓期(1904-1915),這一段

23、時(shí)間是方法的探索與初步的發(fā)展時(shí)期。在美國心理學(xué)家卡特爾研究的基礎(chǔ)上,1904年桑代克發(fā)表了精神與社會測驗(yàn)學(xué)導(dǎo)論,這是一本在測驗(yàn)學(xué)史上劃時(shí)代巨著,標(biāo)志教育測驗(yàn)運(yùn)動的開始。桑代克在書中宣稱:“凡是存在的東西都有數(shù)量;凡是有數(shù)量的東西都可測量?!迸d盛期(1915-1930),這一時(shí)期對桑代克提出的信條不但在技術(shù)方面努力求得正確應(yīng)用,而且不斷提高到理論上加以證實(shí)。這一時(shí)期已發(fā)展了三種不同性質(zhì)的測驗(yàn),即學(xué)力測驗(yàn)、智力測驗(yàn)和人格測驗(yàn)。批判期(1930-1940),隨著教育測驗(yàn)運(yùn)動的不斷發(fā)展,人們逐漸認(rèn)識到,教育測驗(yàn)盡管能使考試客觀化、標(biāo)準(zhǔn)化,并能把人的能力換算成數(shù)字,甚至個別差異的程度也可以量化,但它畢竟

24、不能測出人的全部,即使是研究最多最富成果的學(xué)力測驗(yàn)也不能測得學(xué)力的全部領(lǐng)域。在人格測驗(yàn)方面,單純的測驗(yàn)是無法把握的,如社會態(tài)度、興趣、情緒、鑒賞力等。1931年,塞蒙茲發(fā)表了人格與行動的診斷一書,主張人格測量應(yīng)用評定法、問卷法、軼事記錄法等,從而從思想上否定了單純的人格測量法。從此,教育測量運(yùn)動逐步過渡到教育評價(jià)時(shí)期。(三)教育測量的深入發(fā)展階段(1940至今)在經(jīng)過以上批判期以后,現(xiàn)代教育測量在以下方面有了新的發(fā)展:第一,開始重視學(xué)生智力和思想品德的測量。第二,現(xiàn)代教育測量量表的編制突破了過去單一答案的求同式思維題,發(fā)展為包括多種答案的求異式思維題和論文式試題。第三,教育測量的范圍由過去偏重

25、于學(xué)生學(xué)習(xí)成績的測量,發(fā)展到涉及到課程設(shè)置、教材、教育改革方案等效益方面的測量。第四,現(xiàn)代的教育測量由過去單一的常模參照性測驗(yàn)?zāi)J桨l(fā)展到常模參照性測驗(yàn)與目標(biāo)參照性測驗(yàn)相結(jié)合的模式。第五,教育測量本身的理論研究與技術(shù)開發(fā)更加深入與完善。如關(guān)于測驗(yàn)等值、項(xiàng)目反應(yīng)理論(IRT)、測驗(yàn)信度、評分誤差控制的研究等都有了較大的發(fā)展。二、教育評價(jià)的發(fā)展階段教育評價(jià)作為科學(xué)概念,是20世紀(jì)30年代在美國進(jìn)步主義教育聰明的新教育課程的改革實(shí)驗(yàn)“八年研究”中正式誕生的。(一)教育評價(jià)產(chǎn)生的歷史淵源與社會背景1、我國古代教育考試制度自人類社會形成,人類祖先為了生存、延續(xù),自發(fā)地產(chǎn)生了原始生產(chǎn)經(jīng)驗(yàn)和生活規(guī)范的傳遞,這

26、種傳遞就是教育的萌芽。隨著社會經(jīng)濟(jì)、政治和文化的發(fā)展,特別是由于古文字的出現(xiàn),產(chǎn)生了學(xué)校。各種教育機(jī)構(gòu)都有了相應(yīng)的教育內(nèi)容,從而產(chǎn)生了衡量教育結(jié)果的手段和規(guī)定。從我國教育史上看,早在西周時(shí)代,已經(jīng)形成了較為完備的考試制度,如學(xué)記中記載的“比年入學(xué),中年考?!本褪堑湫屠?。更多的科舉制度更是歷時(shí)1300年。2、西方教育測量運(yùn)動的興起古代西方教育盛行以口頭提問和實(shí)際操作來評定學(xué)生的學(xué)業(yè)。從中世紀(jì)到19世紀(jì)的學(xué)校基本以口試作為考查學(xué)生成績的方法。進(jìn)入資本主義發(fā)展時(shí)期以后,由于社會需要大量掌握讀寫算的人力,學(xué)校和學(xué)生激增,口試被筆試取代。但筆試也有很多弊端。為追求測驗(yàn)、考試的客觀性,受實(shí)驗(yàn)心理學(xué)、個別

27、差異研究和智力測驗(yàn)的影響,20世紀(jì)初,在美國,教育測量取代了傳統(tǒng)的考試,并形成了一種趨勢和運(yùn)動;20年代末,由于新教育思潮的出現(xiàn),教育測量已不能完全適應(yīng)教育發(fā)展的需要,因而出現(xiàn)了對教育測量的批判。3、社會背景20世紀(jì)20年代末30年代初,美國爆發(fā)了空前的經(jīng)濟(jì)危機(jī),許多工廠倒閉,工人失業(yè),大批青年為了加強(qiáng)勞動力市場的競爭能力,重新涌入中學(xué)學(xué)習(xí),謀求新職業(yè)。但當(dāng)時(shí)美國的中學(xué)所開設(shè)的課程是為了升大學(xué)服務(wù)的,不適應(yīng)整個社會與失業(yè)青年的需要,這就使學(xué)生與學(xué)校課程之間發(fā)生了尖銳矛盾。在這種情況下,美國一些受杜威教育思想影響的教育家,組織了進(jìn)步主義教育同盟(PEA),他們提出教育的目的在于生活,在于兒童,反

28、對舊的傳統(tǒng)的死記硬背的考試測驗(yàn)。他們以新教育理論為依據(jù),以全面發(fā)展人的才能為主要目標(biāo),設(shè)計(jì)了一套新的課程,并在7所大學(xué)30所中學(xué)進(jìn)行教育實(shí)驗(yàn)。為達(dá)到實(shí)驗(yàn)?zāi)繕?biāo),需要研究一套新的考查教育成就的方法,經(jīng)推薦,組成了以泰勒為首的評價(jià)委員會,時(shí)間從1933年到1940年,歷時(shí)8年,史稱“八年研究”。1940年,泰勒教授提出了第一個報(bào)告,第一次提出了“教育評價(jià)”這個概念,認(rèn)為實(shí)施教育評價(jià)首先必須分析教育應(yīng)達(dá)到的目標(biāo),再用這個目標(biāo)來評價(jià)教育的效果,運(yùn)用評價(jià)來促進(jìn)教育活動向理想的目標(biāo)逼近。被人們稱為“劃時(shí)代的教育評價(jià)宣言”。(二)現(xiàn)代教育評價(jià)的發(fā)展階段1、教育評價(jià)的開創(chuàng)時(shí)期(1930-1958)“八年研究”后

29、,現(xiàn)代教育評價(jià)正式誕生,終于取代了教育測量成為考查教育效果,促進(jìn)教育改革的重要理論和手段。在這一階段中,教育評價(jià)方法論的實(shí)證化特點(diǎn)非常明顯。主要表現(xiàn)在目標(biāo)導(dǎo)向評價(jià)模式之中。首先,泰勒認(rèn)為開展評價(jià)的論據(jù)是把所要評價(jià)的內(nèi)容分成具體可見的、可操作的學(xué)生行為目標(biāo),以便在評價(jià)中能夠圍繞這些行為目標(biāo)進(jìn)行觀察和測定。其次,泰勒在他的評價(jià)模式中非常強(qiáng)調(diào)對學(xué)習(xí)和教育結(jié)果進(jìn)行客觀的測量、統(tǒng)計(jì)。他提出三種評價(jià)手段:專家測驗(yàn)、情境考察、提問作答。并提出運(yùn)用時(shí)三個重要準(zhǔn)則:客觀性、信度和效度。2、大發(fā)展時(shí)期(1958-1972)1957年前蘇聯(lián)的人造衛(wèi)生上天后,美國朝野一片震驚,并對教育進(jìn)行了深刻的反思。在加大教育投資

30、力度的同時(shí),教育評價(jià)很快從過去僅是學(xué)術(shù)機(jī)構(gòu)和民間的研究轉(zhuǎn)而被納入各級政府和各地方教育當(dāng)局的議事日程。1963年美國政府正式提出要對教育的效能和質(zhì)量進(jìn)行評價(jià),并撥出大量??钣糜诮逃u價(jià)理論與技術(shù)、方法的研究和培養(yǎng)專門的教育評價(jià)工作人員。1963年,克龍巴赫發(fā)表通過評價(jià)改革課程,提出評價(jià)的內(nèi)容不應(yīng)僅僅是課程或教學(xué)目標(biāo)及其被達(dá)到的程度,而應(yīng)更關(guān)心對教育決策及其所依據(jù)的準(zhǔn)則的評價(jià)。為決策提供信息更應(yīng)是評價(jià)的中心。1963年格拉澤發(fā)表文章,在指出相對評價(jià)的不足時(shí),提出在學(xué)校教育中應(yīng)著重絕對評價(jià)。1967年斯克里芬發(fā)表評價(jià)史上具有深遠(yuǎn)影響的評價(jià)方法論,指出過去的評價(jià)不僅在理論上而且在實(shí)踐中都很不全面。他第

31、一次對形成性評價(jià)與終結(jié)性評價(jià)、專業(yè)性評價(jià)與業(yè)余性評價(jià)、對目標(biāo)到達(dá)程度的評價(jià)與對目標(biāo)本身價(jià)值及比較性評價(jià)與非比較性評價(jià)等作了明確的闡述和區(qū)分。1969年,艾斯納對泰勒的目標(biāo)評價(jià)理論進(jìn)行了抨擊,認(rèn)為對教育本質(zhì)的不同理解,可以造成對目標(biāo)的不同表述,泰勒的評價(jià)方法不一定適用于教育實(shí)際,因?yàn)樗葲]有提供評價(jià)目標(biāo)本身的方法,也沒有提出判斷評價(jià)目標(biāo)與結(jié)果之間差異的標(biāo)準(zhǔn)。從此,以目標(biāo)為中心的評價(jià)模式不再是唯一的了。其它評價(jià)模式相繼出現(xiàn),目標(biāo)的價(jià)值結(jié)構(gòu)受到了挑戰(zhàn)。在這一段時(shí)間里,出現(xiàn)了40多種評價(jià)模式,各適用于不同的范圍,采取不同的方式方法。3、專業(yè)時(shí)期(1973至今)在這一階段中,教育評價(jià)方法論的人文化特點(diǎn)得

32、到迅速發(fā)展并有超過實(shí)證化傾向的勢頭。這些評價(jià)模式的共同特點(diǎn)就是在評價(jià)中不只是單純從評價(jià)者的需要出發(fā),而是考慮到所有參與人的需要,強(qiáng)調(diào)個體的經(jīng)驗(yàn)、活動和主觀認(rèn)識的作用,不過分追求客觀化,并試圖摒棄數(shù)量特征,而是從人的角度出發(fā),重視人文社會科學(xué)方法在評價(jià)中的運(yùn)用。如應(yīng)答評價(jià)模式的應(yīng)答,就是讓評價(jià)對象和其他與評價(jià)有關(guān)人員提出他們關(guān)心的問題,并表達(dá)他們各自的意見,在評價(jià)過程中,評價(jià)者的職責(zé)就是把收集到這些資料與眾人討論,并以磋商的形式,逐漸消除分歧,最近達(dá)成共同的、公認(rèn)的、統(tǒng)一的觀點(diǎn)。第二章 教育測量的基本問題(添加內(nèi)容)一、測驗(yàn)必須注意的問題我們前面已經(jīng)說過,教育測量實(shí)際上是基于心理結(jié)構(gòu)的分析而進(jìn)行

33、的間接測查,這一特點(diǎn)給相應(yīng)的測量工具的設(shè)計(jì)帶來了幾個難題,如人事部門的一位心理學(xué)家想編制用于測試某工廠求職人員機(jī)械能力的測驗(yàn),一位學(xué)校心理學(xué)家想編制教師對身體殘疾學(xué)生的態(tài)度量表,一位教師想編制一套五年級學(xué)生解答多位數(shù)除法技能的單元測驗(yàn)這里,每個人要測的東西結(jié)構(gòu)上完全不同,那么應(yīng)該怎么來設(shè)計(jì)呢?其實(shí),對于所有的心理測評,測驗(yàn)編制者至少要考慮五個問題:首先,對任何結(jié)構(gòu)的測量不存在普遍認(rèn)同的一種方法,因?yàn)閷δ撤N心理結(jié)構(gòu)的測量總是建立在被認(rèn)為與該結(jié)構(gòu)相關(guān)的行為研究的基礎(chǔ)上間接進(jìn)行的,當(dāng)人們談到同一結(jié)構(gòu)時(shí)卻往往選擇不同類型的行為給該結(jié)構(gòu)下操作性定義,也可能要求學(xué)生解答一系列問題,也可能要求學(xué)生寫出每一步

34、的結(jié)果,也可能要求他們找出答錯的題目中的錯誤,也可能要求學(xué)生用多種方法解答,因而不同的操作性定義會得出不同的測量程序,這又很可能導(dǎo)致對學(xué)生知識水平的不同評價(jià)。其次,心理測量通常是基于有限的行為樣組的。我們不可能考核所有我們要考查的行為,只能從其中抽樣,這就涉及測量題目的數(shù)量和內(nèi)容廣度,這是產(chǎn)生一個良好測量的最主要的步驟。第三,測量的結(jié)果總?cè)耸艿秸`差的影響。第四,測量量表缺乏定義清晰的單位。受測者未能回答出多位數(shù)除法測驗(yàn)的任一測題是否意味著他們沒有這種技能?如果一位同學(xué)答對了5個題,另一同學(xué)答對了10個題,第三位同學(xué)答對了15道題,是否能認(rèn)為前兩位同學(xué)之間的差異與第二、三位同學(xué)之間的差異一樣呢?

35、三個學(xué)生在測驗(yàn)所測驗(yàn)的能力連續(xù)體上的差距是否相等?第五,心理結(jié)構(gòu)不能僅以操作定義來界定,還必須說明它與其他結(jié)構(gòu)或可觀察現(xiàn)象間的關(guān)系。雖然心理測量建立在可觀察到的反應(yīng)基礎(chǔ)之上,但只有它能夠按照所依賴的理論結(jié)構(gòu)進(jìn)行合理解釋時(shí),它才具有意義。因此(1)必須根據(jù)可觀察行為來界定結(jié)構(gòu),這類定義具體說明了如何進(jìn)行測量;(2)必須在理論系統(tǒng)內(nèi)根據(jù)它與別的結(jié)構(gòu)間的邏輯或數(shù)學(xué)關(guān)系來界定結(jié)構(gòu),這類定義為的獲得的測量結(jié)果的解釋提供了基礎(chǔ)。測驗(yàn)理論在研究和評估中的作用為了闡明測驗(yàn)理論在廣義的研究和評估方法學(xué)中的作用,把教育和社會科學(xué)研究看作是由幾個明確界定的步驟所組成的調(diào)查過程,將有助于問題的說明。這個過程可以分為以

36、下幾個步驟:1簡潔明白地陳述研究的問題或假設(shè); 2通過決定在研究中如何控制和測量變量,對假設(shè)中的每個變量下操作定義;(即選擇模型)3編制或選擇獲取和量化每一變量觀察值的工具及程序;(確定測驗(yàn)分?jǐn)?shù)的使用目的確定代表該結(jié)構(gòu)的行為(包括內(nèi)容分析、研究回顧、關(guān)鍵事件、直接觀察、專家判斷、教學(xué)目標(biāo)等方法)領(lǐng)域取樣(包括隨機(jī)抽樣、系統(tǒng)抽樣、多階段抽樣、分層抽樣、整群抽樣、分層整群抽樣、重復(fù)抽樣、配額抽樣、判斷抽樣等多種方法)準(zhǔn)備測驗(yàn)說明書項(xiàng)目編制(包括最佳行為測驗(yàn)法(包括是非、多選、配對)、調(diào)查問卷項(xiàng)目形式(包括二分法、五級連續(xù)法、兩極形容詞列表法)4檢查所使用的工具和程序的準(zhǔn)確性及敏感性;(注意精確性、

37、與測驗(yàn)說明相符或相關(guān)程度、項(xiàng)目編制的技術(shù)性缺點(diǎn)、語法、攻擊性語言或“偏見”的出現(xiàn)、可讀性水平等問題,然后進(jìn)行試測檢查,進(jìn)行項(xiàng)目分析,得出項(xiàng)目的相關(guān)指標(biāo),即信度、效度、難度、區(qū)分度等)5收集實(shí)驗(yàn)設(shè)計(jì)框架內(nèi)的實(shí)驗(yàn)資料,以回答最初提出的問題;6用數(shù)學(xué)方法處理數(shù)據(jù)資料,適當(dāng)?shù)乩媒y(tǒng)計(jì)檢驗(yàn)去判斷觀察結(jié)果歸因于機(jī)遇的可能性。在這個過程中,測驗(yàn)理論的內(nèi)容與步驟2、步驟3和步驟4有很大關(guān)系。有必要指出,在進(jìn)行大范圍的實(shí)驗(yàn)研究(步驟5和6)之前,步驟4通常要求收集預(yù)試樣組試測結(jié)果的數(shù)據(jù)并進(jìn)行統(tǒng)計(jì)分析,以確保工具的有效性。編制和預(yù)試研究工具失敗的部分原因是與教育和社會科學(xué)研究經(jīng)常具有矛盾和模糊的結(jié)果的特點(diǎn)有關(guān)。在

38、物理和生物科學(xué)中,測量程序在實(shí)驗(yàn)使用之前全都要經(jīng)過檢驗(yàn)。一位生物化學(xué)家在沒花大量時(shí)間校準(zhǔn)分光儀,以保證它能夠提供精確的波長讀數(shù)時(shí),是絕不會試圖去分析實(shí)驗(yàn)室中未知的化合物的。然而,相比之下社會科學(xué)家們更經(jīng)常地嘗試通過實(shí)際上從未試用過的測驗(yàn)去評估實(shí)驗(yàn)程序如何影響了一個復(fù)雜的變量,如心理病人的焦慮水平或?qū)W前兒童的語言發(fā)展。從提出研究問題和定義變量直接跳到收集實(shí)驗(yàn)資料的研究者很可能會一無所獲。假如研究者沒有觀察到各種處理之間的差異,那么他們也就不可能知道是各種處理無效,還是測量不那么精確以致處理的真實(shí)效果未被覺察到。在實(shí)施最后的正式實(shí)驗(yàn)前,嚴(yán)格地遵照優(yōu)秀測驗(yàn)編制程序和在實(shí)踐中試測的原則將對提高教育學(xué)和

39、心理學(xué)研究的總體質(zhì)量大有裨益。三、測驗(yàn)理論中的統(tǒng)計(jì)概念(主要是復(fù)習(xí))(一)頻數(shù)表和分布圖(二)集中量數(shù)(眾數(shù)、中位數(shù)、平均數(shù))(三)差異量數(shù)(全距、離差、方差、標(biāo)準(zhǔn)差)(四)Z分?jǐn)?shù)(后面還會再講)(五)正態(tài)分布(六)用于描述兩個變量間關(guān)系的量(散點(diǎn)圖、相關(guān)系數(shù),包括皮爾遜積差相關(guān)、斯皮爾曼等級相關(guān)、點(diǎn)二列相關(guān)、列聯(lián)相關(guān)等)(七)用于預(yù)測個體表現(xiàn)的量(回歸分析、估計(jì)的標(biāo)準(zhǔn)誤等)第二章 教育測量的質(zhì)量指標(biāo)第一節(jié) 信度一、 信度的概念信度指測量結(jié)果的穩(wěn)定性或可靠性程度,亦即測量的結(jié)果是否真實(shí)、客觀反映了老先生的實(shí)際水平??蓮娜齻€方面來考慮:第一,信度指實(shí)測值和真值相差的程度測量的目的之一,就是希望通

40、過測量得到的實(shí)測值能夠接近事物的真值。但由于各種原因,實(shí)測值與真值之間必然存在誤差。但誤差越小,說明信度越高。x(實(shí)測值) = T(真值) + E(誤差)由于真值是未知的,因此誤差值是大是小也是未可知的。一般為求得最接近的實(shí)測值都是通過多次實(shí)測取其平均值來作為真值的近似值。但這一方法缺乏實(shí)際可操作性,也無法求得信度的大小。第二,信度是指統(tǒng)計(jì)量與參數(shù)之間的接近程度統(tǒng)計(jì)量和參數(shù)是統(tǒng)計(jì)學(xué)中的兩個基本概念。統(tǒng)計(jì)量是指樣本上的各種數(shù)字特征(如樣本的平均數(shù)、標(biāo)準(zhǔn)差等),參數(shù)是總體上的各種數(shù)字特征(如總體的平均數(shù)、標(biāo)準(zhǔn)差等)。統(tǒng)計(jì)量越接近參數(shù),這個統(tǒng)計(jì)量的可靠性程度就越高,因此信度越高。而要知道統(tǒng)計(jì)量與參數(shù)

41、的接近程度高,可以對參數(shù)進(jìn)行區(qū)間估計(jì),這種方法對估計(jì)真分?jǐn)?shù)有用,但仍然無法計(jì)算出信度。第三,信度指兩次重復(fù)測量或等值測量之間的關(guān)聯(lián)程度。如果對同一對象進(jìn)行兩次重復(fù)測量或者等值測量后,計(jì)算兩次測量的相關(guān)系數(shù),相關(guān)系數(shù)越高,說明測量的信度越高;反之,信度越低。但應(yīng)注意的是,重復(fù)測量會受到被試的經(jīng)驗(yàn)、知識的增長等因素的影響,等值測量又較難編制,因此,采用這種方法計(jì)算信度時(shí),也是有誤差的。信度是任何一個測量的必要條件,對于教育測量來說,它具有更為重要的意義。因?yàn)榻逃郎y量的對象主要是精神現(xiàn)象,所測量的特性不易把握,為了能真實(shí)地反映測量對象的某種特點(diǎn),更加需要注意測量的信度。二、信度的理論公式見P32。這

42、里需要注意的是,對實(shí)得分?jǐn)?shù)進(jìn)行分解后,可以分解成真分?jǐn)?shù)的方差、隨機(jī)誤差的方差兩部分。很明顯,隨機(jī)誤差的方差越小,測量的信度就越高。信度取值范圍為0,1。三、信度的類型用上面的理論公式計(jì)算不了信度,因?yàn)檎娣謹(jǐn)?shù)根本不知道,如果知道就不用算了。實(shí)際中常用以下幾種方法(也就是幾種不同的信度):(一)穩(wěn)定性系數(shù)(重測信度)指用同一測驗(yàn)試卷,在先后兩個不同時(shí)間內(nèi)對同一組被試進(jìn)行測驗(yàn),兩次測驗(yàn)實(shí)得分?jǐn)?shù)的相關(guān)系數(shù)。這是最簡單的估量信度的方法。要注意的是:(1)重測法只適用于速度測驗(yàn)而不適用于難度測驗(yàn);(2)所測的信度大小,常常受到兩次測驗(yàn)時(shí)間間隔長短影響;(3)第二次測驗(yàn)沒有吸引力,不易引起被試的興趣;(4)

43、要實(shí)施兩次測驗(yàn),耗費(fèi)人力、物力和時(shí)間較多。(二)等值性系數(shù)當(dāng)同一測驗(yàn)的一種型式不能或不適合實(shí)施兩次時(shí),就需要采用該測驗(yàn)的另一個平等測驗(yàn)或者復(fù)份(復(fù)本)。復(fù)份要求在測驗(yàn)的內(nèi)容、題數(shù)、格式、難度、平均數(shù)、標(biāo)準(zhǔn)差等方面應(yīng)與原測驗(yàn)一樣,否則,估計(jì)的等值系數(shù)就會出現(xiàn)較大誤差。決定等值系數(shù)的方法是,先實(shí)施第一次測驗(yàn),然后在最短時(shí)間內(nèi)實(shí)施第二份等值的測驗(yàn),再求它們的相關(guān)系數(shù),這個相關(guān)系數(shù)就是信度的等值性系數(shù)。采用復(fù)份法估計(jì)信度系數(shù)要注意:(1)兩次測驗(yàn)試卷要等值,即在內(nèi)容范圍、題型、題數(shù)、難度、區(qū)分度等方面要基本相同;(2)兩次測驗(yàn)要盡可能在較短的時(shí)距內(nèi)進(jìn)行;(3)確定兩次測驗(yàn)是否等值,還要考察兩次測驗(yàn)結(jié)果

44、的平均數(shù)與標(biāo)準(zhǔn)差。但在實(shí)際操作中,要編制兩份等值的測驗(yàn)是非常困難的。(三)內(nèi)部一致性系數(shù)前面兩種估計(jì)信度系數(shù)的方法都是要測驗(yàn)兩次的,但在實(shí)際的測驗(yàn)之中,一方面教師很難編制兩份等值的試卷,學(xué)生也沒有那么多時(shí)間和精力重復(fù)參加測驗(yàn)。因此需要根據(jù)一次測驗(yàn)來估計(jì)測驗(yàn)的信度系數(shù)。這就是內(nèi)部一致性系數(shù),即把一次測驗(yàn)人為地分成兩個部分,比較兩個部分的一致程度,從而估計(jì)信度系數(shù)。按照分成兩個部分的不同,內(nèi)部一致性系數(shù)的估計(jì)方法有兩種:1、分半信度這種方法是將一次測驗(yàn)分成兩個假定相等而獨(dú)立的部分來記分,通常是以題目的奇數(shù)為一組,偶數(shù)為一組,計(jì)算兩組的相關(guān)系數(shù),最后用斯皮爾曼布朗公式校正,求得整個測驗(yàn)的信度系數(shù)。(

45、公式見教材)2、庫德爾理查森公式法用這種方法只需要測驗(yàn)一次,然后以各個問題的正確反應(yīng)數(shù)為基礎(chǔ)(此可視為各題難度的信息),或根據(jù)各人部分的平均數(shù)和標(biāo)準(zhǔn)差,計(jì)算信度系數(shù)。庫德爾理查森公式有好幾個,最常用的是rKR20和rKR21。rKR20的用法:以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分?jǐn)?shù)為基礎(chǔ)計(jì)算(每題只有通過或未通過兩種分?jǐn)?shù))。具體公式見教材。rKR21的用法:這個公式以各反應(yīng)者總分的平均數(shù)和方差為基礎(chǔ)計(jì)算,無需各題難度的信息。公式見教材。計(jì)算內(nèi)部一致性系數(shù),需要注意下列問題:A、若用分半法時(shí),以按奇數(shù)題和偶數(shù)題分為兩半為宜。若把整個測驗(yàn)分為前后兩半,一方面前半部試題與后半部試題未必等值,另一方面

46、被試者在完成后半部試題時(shí),可能因疲勞、厭倦等原因而影響回答質(zhì)量,以致前后反應(yīng)不一致,影響信度。B、若速率是測驗(yàn)的重要因素,則不宜用分半法,因?yàn)樗俣葴y驗(yàn)中試題的難度低,被試者得分多少,在很大程度上是因?yàn)榇痤}的多少,分半法易使得分相同,從而夸大分半法的信度估計(jì)。C、如果答案多種多樣,得分也多種多樣時(shí)(如論文式考試),則不能用上列公式計(jì)算一致性系數(shù)。(四)論文式測驗(yàn)的信度系數(shù)論文式測驗(yàn)的評分,沒有嚴(yán)格的評分標(biāo)準(zhǔn),以致同樣一個題目,不同的應(yīng)試者的回答和得分都不一樣,所以無法用前面的公式,而要用克龍巴赫所創(chuàng)的系數(shù)公式(見教材)。(五)評分者信度一般論文式考試,只能提供列出答案要點(diǎn)的參考答案而無固定的標(biāo)準(zhǔn)

47、答案,因而不同的評分者對同一份試卷往往給分不同,甚至有很大懸殊。在作文測驗(yàn)、投射測驗(yàn)、品德測驗(yàn)、創(chuàng)造力測驗(yàn)等的評分中,都存在這個問題。計(jì)算這種信度需要區(qū)分評分者的人次數(shù)。若為2人評N份試卷,可用斯皮爾曼等級相關(guān)計(jì)算;若為三人以上評N份試卷,則用肯德爾和諧系數(shù)計(jì)算。四、提高信度的方法(一)信度以多大為宜:對于學(xué)科測驗(yàn),要求達(dá)到0.9以上;智力測驗(yàn)要求達(dá)到0.8以上;品德測驗(yàn)?zāi)苓_(dá)到0.6以上就不錯了。(二)測量誤差的來源1、測驗(yàn)本身所引起的誤差:測驗(yàn)本身的有些因素會直接產(chǎn)生誤差:如題目格式中的判斷題猜測的可能性會很大;規(guī)定的時(shí)限;用詞不準(zhǔn)確引起的誤解;題目的多少等。測驗(yàn)所包括的測題樣本也會引起測量

48、誤差。2、測驗(yàn)的實(shí)施所引起的誤差:如指導(dǎo)語錯誤,對答案紙的錯劃、時(shí)間記錄的錯誤、主試本身的主觀影響、記分誤差等。3、被試引起的誤差:這是最難控制的誤差,具體表現(xiàn)為動機(jī)的作用;學(xué)習(xí)、發(fā)展和教育的影響;對于測驗(yàn)的經(jīng)驗(yàn);測驗(yàn)的焦慮;生理因素等。(三)提高測驗(yàn)信度的方法1、適當(dāng)增加測驗(yàn)題目的數(shù)量,即可提高信度也可提高效度;2、測驗(yàn)的難度要適中,這樣信度能達(dá)到最大,也能使測驗(yàn)區(qū)分度達(dá)到最大;3、測驗(yàn)的內(nèi)容應(yīng)盡量同質(zhì);4、測驗(yàn)的程序應(yīng)統(tǒng)一,包括試卷統(tǒng)一、測驗(yàn)開始時(shí)的指導(dǎo)語、回答問題的方式、分發(fā)及收回試卷的辦法、測驗(yàn)時(shí)間的掌握等,特別應(yīng)該提到的是,考試的組織問題、監(jiān)考問題等,這是關(guān)系到測驗(yàn)信度的重要因素;5

49、、測驗(yàn)的時(shí)間要充分;6、評分要盡量做到客觀化、減少評分誤差。第二節(jié) 效度一、 概念指測量結(jié)果的準(zhǔn)確性和有效性的程度,亦即測量是否達(dá)到了預(yù)期目的。首先,測量的效度始終是對一定的測量目的而言的。一般而言,任何測量都有某種特定的目的和功能,判斷效度高低,就是判斷測驗(yàn)達(dá)到目的的程度。其次,測量的效度也是對測量的結(jié)果而言的。一種測量工具只能經(jīng)過實(shí)際測量,才能根據(jù)出來的結(jié)果判斷它的效度。所以也可以把效度理解為測量的結(jié)果正確反映所欲測量的特性或功能的程度。對于任何一種測量來說,只有當(dāng)它的測量結(jié)果真實(shí)、正確地反映所欲測量的功能和特性時(shí),才能認(rèn)為這種測量是較為有效地或效度較高的。第三,一種測量的效度只是高或低的

50、問題。因?yàn)椋环N測量在編制時(shí),總是針對一定目的而編制的。不存在無效度的測量,只是高或低的問題而已。第四,在教育測量中,效度問題比在其他領(lǐng)域的測量更為重要。因?yàn)椋紫?,教育測量的對象大多是精神現(xiàn)象,只能通過對其具有可測性的外部表現(xiàn)(如言語或動作等)的測量,以間接認(rèn)識其心理活動、心理特征或知識水平等。其次,學(xué)生的心理活動、心理特征與其外部表現(xiàn)之間,一般僅具有相關(guān)關(guān)系而無函數(shù)關(guān)系,外部行為并不能準(zhǔn)確無誤地反映某種心理狀態(tài)。此外,教育測量的對象不是物而是具有主觀能動性的人,人能有意識地調(diào)節(jié)自己的外部行為,掩蓋自己的內(nèi)心活動,這就增加了認(rèn)識其精神現(xiàn)象的難度。二、效度的理論公式實(shí)得分?jǐn)?shù)可分解為潛在真分?jǐn)?shù),

51、系統(tǒng)誤差,隨機(jī)誤差三部分。具體關(guān)系見教材P43。三、效度的分類及估計(jì)(一)、內(nèi)容效度指測驗(yàn)?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度,也就是測量內(nèi)容的代表性程度。在編制測驗(yàn)時(shí),內(nèi)容效度是一個相當(dāng)復(fù)雜和不易解決的問題。以成績測驗(yàn)來說,固然要求測驗(yàn)題目能代表所學(xué)習(xí)過的全部內(nèi)容,但僅僅在形式上做到這一點(diǎn)還不能保證足夠的內(nèi)容效度,因?yàn)閷W(xué)習(xí)成績的高低要從學(xué)習(xí)內(nèi)容的鞏固程度、理解程度和應(yīng)用能力幾種行為反應(yīng)去考察。如果測驗(yàn)題目大多是只需要牢記教材就可以回答的問題,那么,對全面測驗(yàn)學(xué)生的成績這一目的來說,內(nèi)容效度仍然不高。估計(jì)內(nèi)容效度的方法:1、邏輯分析的方法。這是根據(jù)教育學(xué)和心理學(xué)的理論,根據(jù)教學(xué)大綱

52、要求,勾畫出學(xué)生掌握知識內(nèi)容的范圍和深度,提出應(yīng)形成的技能名稱,然后以邏輯分析的方法估計(jì)測驗(yàn)在多大程度上代表了這些內(nèi)容,在多大程度上能夠測量出所要測量的特性和功能。2、用測驗(yàn)題目與教材內(nèi)容比較的方法。這需要先制兩個表:一個是測驗(yàn)的雙向細(xì)目表(見第三章),分別列出所要測驗(yàn)的各單元教材內(nèi)容在考題中應(yīng)占的百分比和所要求的各種行為的反應(yīng)在全部反應(yīng)中的百分比。另一個表是測驗(yàn)試題分類表,根據(jù)各單元教材內(nèi)容列出試題,并注明該題所要求的行為反應(yīng)及其應(yīng)占的百分比。然后對照這兩個表,根據(jù)各個部分相符合的程度判斷內(nèi)容效度的高低。(二)效標(biāo)關(guān)聯(lián)效度又稱經(jīng)驗(yàn)效度或統(tǒng)計(jì)效度,是以測驗(yàn)分?jǐn)?shù)和效標(biāo)之間的相關(guān)系數(shù)來表示測驗(yàn)的效

53、度高低的。效標(biāo)就是足以顯示測驗(yàn)所欲測量的特性的變量或足以顯示測驗(yàn)所欲測量的特性的變量,作為檢定效度的參照尺度。效標(biāo)關(guān)聯(lián)效度又可分為同時(shí)效度和預(yù)測效度。同時(shí)效度指測驗(yàn)與當(dāng)前效標(biāo)之間的關(guān)系程度;預(yù)測效度指測驗(yàn)與將來的效標(biāo)之間的關(guān)聯(lián)程度。如用全國高考的成績作為效標(biāo)來檢驗(yàn)高中畢業(yè)會考的成績,計(jì)算兩者的相關(guān)系數(shù)就是會考的同時(shí)效度;而用大學(xué)一年級的成績作為效標(biāo)來檢驗(yàn)高考的成績,兩者的相關(guān)系數(shù)就是高考的預(yù)測效度。效標(biāo)是用來衡量測驗(yàn)效度的尺度。具體而言,效標(biāo)是辨別真?zhèn)蔚某叨龋?dāng)事物滿足該原則要求時(shí),才能存在。效標(biāo)是不能違反的。當(dāng)然,標(biāo)準(zhǔn)可以提高,也可以降低。效標(biāo)不僅隨著測驗(yàn)的種類不同而不同,也可能隨時(shí)間而改變

54、。選擇效標(biāo)是件困難而重要的事情。通常教育測驗(yàn)所依循的效標(biāo),可采用各學(xué)科成績和教師的評定結(jié)果;智力測驗(yàn)的效標(biāo),可采用學(xué)科成績、教師評判的結(jié)果、學(xué)生總成績、受教育年限、年齡以及其他相關(guān)事物;能力傾向性測驗(yàn)的效標(biāo),可采用特殊課程或特殊訓(xùn)練的成績等;職業(yè)興趣測驗(yàn)的效標(biāo),可采用從業(yè)人員實(shí)際服務(wù)成績或記錄;人格測驗(yàn)的效標(biāo),很難找到,只能按編制者的主觀標(biāo)準(zhǔn)判斷,或以被試以后的行為或臨床資料作為效標(biāo)。效標(biāo)關(guān)聯(lián)效度的計(jì)算主要通過計(jì)算相關(guān)系數(shù)求得,可用積差相關(guān)、二列相關(guān)或點(diǎn)二列相關(guān)、四格相關(guān)和多元相關(guān)系數(shù)等。(參見有關(guān)教育統(tǒng)計(jì)學(xué)教材)。(三)結(jié)構(gòu)效度指一個測量能實(shí)際測量出理論上的概念或心理特性的程度。它的目的在于

55、用心理學(xué)的概念來說明分析測驗(yàn)分?jǐn)?shù)的意義,也就是說從心理學(xué)的理論觀點(diǎn)就測驗(yàn)的結(jié)果加以解釋和探討。結(jié)構(gòu)效度的研究是較困難和有爭議的,至今從概念上和數(shù)學(xué)上作了部分解釋。確定一個測量的結(jié)構(gòu)效度之所以困難,是因?yàn)樾?biāo)、構(gòu)想不是直接可測的,因而不能計(jì)算測量與效標(biāo)的相關(guān)。結(jié)構(gòu)效度確定的方法如下:首先從某一結(jié)構(gòu)理論出發(fā),導(dǎo)出各項(xiàng)關(guān)于心理功能或行為的基本假設(shè);據(jù)此編制測驗(yàn);然后由果溯因,以相關(guān)、實(shí)驗(yàn)和因素分析的方法,檢驗(yàn)測驗(yàn)結(jié)果是否符合心理學(xué)上的理論見解。例如,從現(xiàn)代智力理論,可以推斷四項(xiàng)主要功能上的假設(shè):()智力隨年齡增長;()智商是相對穩(wěn)定的;()智力受遺傳影響;()智力與學(xué)業(yè)成就有密切關(guān)系。因此,在根據(jù)上

56、述的假設(shè)編制智力測驗(yàn)后,就要從上述四個方面進(jìn)行檢驗(yàn)。由此可見,結(jié)構(gòu)效度是由累積的證據(jù)來評價(jià),不可能有單一的結(jié)構(gòu)效度指標(biāo)。確定一個測量的結(jié)構(gòu)效度需要兩個重要步驟。首先,必須指出,這個測量和所用理論上認(rèn)為應(yīng)與之有關(guān)的其它測量,有顯著的相關(guān)。其次,必須指出,必須指出這個測量與所有理論上認(rèn)為不應(yīng)與之有關(guān)的其它測量,沒有明顯相關(guān)。四、提高效度的辦法(一)各種效度的要求不同測驗(yàn)對效度系數(shù)有不同要求。例如,智力測驗(yàn)分?jǐn)?shù)與教師對學(xué)生的等級評定之間的效度系數(shù)一般在0.30.5的范圍內(nèi);相同科目的標(biāo)準(zhǔn)測驗(yàn)成績與教師對學(xué)生名次排列之間的相關(guān)系數(shù)一般應(yīng)達(dá)到0.600.70之間;兩種不同的智力測驗(yàn)或標(biāo)準(zhǔn)測驗(yàn)之間的相關(guān)系

57、數(shù)應(yīng)達(dá)到0.600.80,才能符合要求。對效度系數(shù)大小的要求,也受原始與獲得效標(biāo)的測驗(yàn)之間的相似性制約。若二者不相似,則效度系數(shù)偏低;若相似,則效度系數(shù)會高些。(二)影響效度的因素1、測驗(yàn)組成方面:測題的性能是影響測驗(yàn)效度的因素之一,如測驗(yàn)的取材、長度、辨別力、難度及其編排方式等都和效度有關(guān)。2、測驗(yàn)實(shí)施方面:一個測驗(yàn)的效度要保證,主試應(yīng)適當(dāng)控制測驗(yàn)情境,遵照測驗(yàn)守則的各項(xiàng)規(guī)定實(shí)施。3、被試主觀狀態(tài)方面:被試的動機(jī)、興趣、情緒、態(tài)度和身體健康及是否充分合作與盡力而為等都能影響結(jié)果的可靠性和正確性。4、估計(jì)效度所依循的效標(biāo):選擇適當(dāng)?shù)男?biāo)是統(tǒng)計(jì)效度的先決條件。如因所選效標(biāo)不當(dāng),以致測驗(yàn)的效度不能顯出,則測驗(yàn)的價(jià)值可能被淹沒。一個測驗(yàn)因其所采用的效標(biāo)不同,其效度可能大相徑庭。從統(tǒng)計(jì)觀點(diǎn)來看,一個效標(biāo)關(guān)聯(lián)效度受下列三個因素影響:(1)測驗(yàn)信度;(2)效標(biāo)變量測量的信度;(3)測驗(yàn)變量和效標(biāo)變量之間真正的相關(guān)程度。5、樣本方面:效度確認(rèn)所依據(jù)的樣本,必須能代表某一測驗(yàn)所擬應(yīng)用的全體對象。一個測驗(yàn)應(yīng)用于不同的對象,由于他們在性別上、年齡上、教育程度上以及經(jīng)驗(yàn)背景上的差別,其測驗(yàn)功能不一致,效度也隨之而異。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論