Over beoordelen schreef mijn mentor Wim Hofstee een principieel boek Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. tinyurl.com/mtdrmhx9 Beoordelen in onderwijs is daar maar een onderdeel van, maar welk een enorme impact heeft het op onze levens! Dat beoordelen staat ook voortdurend ter discussie in diverse media en in de politiek. Wat zou het geweldig zijn een paar ankers te hebben waar die discussies een rustpunt kunnen vinden.

Serieuze verschillen, merkwaardige overeenkomsten

Het toetsen heeft geen eigen methodologie anders dan wat de traditie dicteert: het is ‘vijven en zessen’ geblazen, een taaie traditie van cijfergeven die toch pas dateert van halverwege de 19e eeuw. Hoe ingrijpend de wereld daarna ook veranderde, de cijfergewoonten zijn rotsvast (wet van Posthumus).

Het testen heeft wel een eigen methodologie, de psychometrie, die nogal ideologisch is bepaald. Er is niets objectiefs aan tests, behalve dat zij vaak automatisch zijn te scoren, wat op zich een verdienste van niets is. Deze testpsychologie kreeg een eeuw geleden een enorme oppepper door een Franse test, ontwikkeld door Alfred Binet die hij een intelligentietest noemde. Wat had hij daar spijt van. Er is een woord voor, en zelfs een test, dus intelligentie bestaat en kinderen verschillen erin. Zou het echt?

In de VS zagen testpsychologen al vroeg een markt voor hun IQ-tests (er moest in 1917 rap een leger op de been gebracht) en vervolgens ook voor tests in het onderwijs. Het toetsen werd leraren in de VS uit handen genomen en vervangen door talloze testjes, vaak in keuzevorm. Deze testpandemie sloeg in de zestiger jaren over naar Nederland: A.D. de Groot nam het virus mee vanuit de VS. Leraren werd verteld dat de enige goede toetsen vierkeuzetoetsen zijn. En zo raakte een traditie-gedreven toetspraktijk van leraren besmet met pseudo-wetenschappelijk jargon, gedachteloos ontleend aan een totaal andere discipline, de testpsychologie/psychometrie.

Want testpsychologie veronderstelt dat men voor tests niet specifiek is voorbereid. Terwijl voor toetsen juist de kern van de zaak is dat leerlingen er wel specifiek op zijn voorbereid: dat is immers de core business van onderwijs. Werelden van verschil. Ze verwarren is gekmakend.

Een belangrijke merkwaardige overeenkomst tussen onderwijs en testpsychologie is dat beide verzot zijn op rangordenen.

Het West-Europese onderwijs rangordent al sinds de middeleeuwen, met prijzen of aantrekkelijke banen als beloning voor de best presterenden. Dat alles om studenten te motiveren, ook al zag men wel in dat dit rangordenen voor de meeste studenten juist niet motiverend was.

De testpsychologie ontwerpt tests die een zo groot mogelijke spreiding in de doelgroep opleveren, een sterke rangorde dus, om zo beter te kunnen klassificeren of voorspellen. De IQ-test is daar het bekendste voorbeeld van.

Dubbel-blind onderzoek, moet dat dan?

Ik gebruik nu de methodologie/standaarden van de testpsychologie om helder te krijgen waar we in het onderwijs mee bezig zijn met onze permanente selectie. Niet om die selectie ‘beter’ te doen, maar om misstanden gericht te kunnen bestrijden.

Een voorbeeld. De testpsychologie schrijft voor dat het gebruik van de Eindtoets Basisonderwijs valide moet zijn, en anders stoppen ermee (‘Standards’ 2014 tinyurl.com/237skenc). Die validiteit moet in beginsel via dubbelblind experimenteel onderzoek worden bepaald. Het probleem is nu dat zo’n experiment om ethische en praktische redenen niet mogelijk is. Het is dus nooit gedaan! Op zo’n manier medicijnen in de markt zetten noemen we misdadig. Deze Eindtoets Basisonderwijs blaast kansen op eerlijk onderwijs het raam uit.

Maar die Eindtoetsen voorspellen toch redelijk waar leerlingen zich drie jaar later bevinden? Zeker, maar iedereen is op de hoogte van de voorspelling hè! Verwachtingen, verwachtingen. Placebo-effecten. Daarom is nu juist dubbelblind onderzoek nodig.

Dat rangordenen en cijfergeven zit eerlijk onderwijs in de weg, elders meestal gelijke kansen genoemd.

Cijfergeven = rangordenen, wist u dat?

Waar de testpsychologie sinds Binet’s intelligentietest van het rangordenen een wetenschap maakte, evolueerde het rangordenen in het onderwijs eerder al tot pseudo-gestandaardiseerd cijfergeven, waar het onderwijs in is blijven hangen: een lock-in. Bij de Franse Agrégation ontstond in een paar evolutiestappen halverwege de 19e eeuw uit het traditionele rangordenen het pseudo-gestandaardiseerde cijfergeven. De beste zijn van een kleine of juist een grote jaarklas is zo’n verschil dat met cijfergeven is op te vangen. Dit is een belangrijk historisch inzicht hoor! A.D. de Groot had bij zijn Vijven en zessen niet naar de historische wortels van cijfergeven gezocht. Die zijn ook lastig te vinden, ik kwam er zelf achter via een toevalsvondst bij André Chervel (zijn boek over de Agrégation).

De testpsychologie pakt het rangordenen rationeel aan door onderzoekmatig normtabellen op te stellen voor zijn doelgroepen. Zodoende bleek bijvoorbeeld dat de tabellen voor IQ-tests na enige tijd moesten worden bijgesteld omdat leerlingen doorheen de vorige eeuw steeds intelligenter bleken: het Flynn-effect.

Daartegenover zien we dat in het onderwijs iedereen zijn eigen ding doet met cijfergeven, slechts vaag geleid door noties als ‘een 5 is juist onvoldoende’. Die cijfers geven informatie over waar leerlingen in de onderlinge pikorde staan, maar dus weinig of geen inhoudelijke feedback op prestaties zelf.

Cijfergeven zit instructie en leren in de weg

Dat rangordenen en cijfergeven zit eerlijk onderwijs in de weg, elders meestal gelijke kansen genoemd. Dat geldt ook voor het rangordenen met leerlingvolgsystemen en andere intelligentietests. In de testpsychologie is het evident dat ruwe scores omgezet moeten worden naar testscores met behulp van de al genoemde normtabellen. Zo komen we aan een normaalverdeling voor intelligentie; maar dat is louter kunstmatig! In het onderwijs doen we dat anders: de basis is dat we antwoorden vakmatig beoordelen op hun juistheid. Daar is niets mis mee. En het is een goed uitgangspunt voor feedback naar leerlingen, of voor de leraar zelf uiteraard. Formatief toetsen. Maar vervolgens doen we iets merkwaardigs: we geven een waardering aan die antwoorden, een cijfer. Waar is dat voor nodig? Het heeft weinig of niets met onderwijs zelf te maken.

Onvoldoende/voldoende

Tot de pseudo-standaardisering van het cijfergeven hoort bovendien het stellen van een grens tussen ‘onvoldoende’ en ‘voldoende’ prestaties, in Nederland door wetgeving dàt er zo’n grens moet zijn. Niet hoe die is te bepalen, want dat is alweer zo’n onopgelost probleem, hoewel er veel schijnoplossingen zijn. Ik weet niet wat daar de historische wortels van zijn. Het is een cultureel fenomeen dat leraren, en zij niet alleen, behoefte hebben om verschillen tussen leerlingen op zo’n manier te benoemen. De ‘wetmatigheid van Posthumus’ laat dat zien: het zittenblijven/afstromen in de HBS, van 1870 tot 1940, was jaarlijks ca. 23%, wat er ook in de wereld veranderd mocht zijn. Dit zittenblijven heeft geen rationele basis.

Posthumus heeft laten zien dat leraren kennelijk niet anders kunnen dan telkens een vast percentage onvoldoende te geven en te laten zitten. Maar dat moet betekenen dat leerlingen als collectief evenmin bij machte zijn om dat traditionele patroon te doorbreken. Wat is er aan de hand met deze toetserij? Want laten we wel wezen, dit fenomeen is compleet in strijd met hoe langs rationele weg selectieprocedures worden ontworpen. Hier is iedere ratio ver te zoeken, behalve de ratio ‘we gaan het niet anders doen dan onze voorouders deden’.

Systemische krachten

Maar is het louter traditie? Of zijn er ook ‘systemische’ krachten aan het werk die we door die traditie heen niet goed in de peiling hebben? Vijven en zessen gaf al iets aan van onderlinge concurrentie van leraren. Zouden leraren misschien ook met leerlingen in concurrentie zijn? Wat denkt u? Socioloog James Coleman presenteerde een model voor zeg maar een ‘stilzwijgende onderhandeling’ tussen leraren en leerlingen. Dat gaat als volgt:

De leraren zetten hun cijfers in, in ruil voor tijdbesteding van hun leerlingen. Tegelijk zetten leerlingen hun tijdbesteding in om goede cijfers van hun leraren te krijgen. Een dynamisch systeem, waarin leraren en leerlingen elkaar in een houdgreep hebben, en geen van beide partijen in staat lijkt de beoordelingstradities te veranderen. Zou dat kunnen? Maar dit is in het onderwijs geen gezonde situatie hè! Dat cijfergeven, daar moeten we echt van af.

Toetsen integreren met instructie en leren

Cijfergeven gaat samen met moeilijke vragen stellen. Het is dus niet zo, helaas, dat weghalen van het cijfergeven (stop ermee, zegt Dylan Wiliam) voldoende is om een zuiver vakmatige beoordeling over te houden.

Opgaven wiskunde die leerlingen gemiddeld 40% fout maken mogen wiskundig gezien oké zijn, maar in het onderwijs is het niet professioneel om in toetsen vragen op te nemen die gemiddeld zo moeilijk zijn. Zij belemmeren leerlingen zich doeltreffend voor te bereiden: per definitie kunnen ze het dan collectief niet winnen van hun leraar. A.D. de Groot protesteerde tegen dit permanente selecteren. Moeilijke vragen zijn bovendien voor de meeste leerlingen demotiverend, zijn op zich geen goed leermoment, en zijn ook niet optimaal voor het consolideren van kennis.

Kwalitatief hoogwaardig onderwijs vraagt om veel toetsen als integraal onderdeel van instructie en leren. Die toetsen mogen juist niet moeilijk zijn. Dat is een totaal andere benadering dan die van de psychometrie die verschillen tussen leerlingen wil vastleggen. Dan zijn we niet meer met onderwijs bezig, maar met selectie. Maar dat is geen taak van onderwijs hè!

Recht – ethiek

Ik heb in het voorgaande niet benoemd dat het beoordelen van leerlingen, of dat nu door hun leraar, of technocratisch door een test of centraal examen gebeurt, onderworpen is aan grenzen die recht en ethiek stellen. Het recht: fair play en andere beginselen zoals die leven in het algemene rechtsbewustzijn van burgers. Ethiek: respecteer leerlingen, respecteer het recht, doe het goede.

DOSSIER

over beoordelen

W. K. B. Hofstee (1999). Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. Swets & Zeitlinger [bespeking: https://pedagogischestudien.nl/search?text=Principes+van+beoordeling.+Methodiek+en+ethiek+van+selectie%2C+examinering%2C+en+evaluatie ]

Ben Wilbrink (1986). Toetsen en testen in het onderwijs.In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. https://benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 1997, 23, 31-48. https://benwilbrink.nl/publicaties/97AssessmentStEE.htm

psychologische tests

Ben Wilbrink (2020). ‘Intelligentie’ in historisch perspectief. Van Twaalf tot Achttien, maart 2020. vrij toegankelijk https://van12tot18.nl/artikele...

NIP (2018). Algemene standaard testgebruik NIP 2017. Nederlands Instituut van Psychologen. [Cotan / vastgeteld sdoor het NIP] <a href=”https://psynip.nl/cotan/algemene-standaard-testgebruik-ast-nip-2017/

AERA, APA & NCME (2014). The Standards for Educational and Psychological Testing. https://www.testingstandards.net/open-access-files.html 2014 edition open access

gestandaardiseerde toetsen / eindtoets basisonderwijs / centrale eindexamens

Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University https://files.eric.ed.gov/fulltext/ED508483.pdf

Menno Bos (2007). De omstreden introductie van de Citotoets. Historisch Nieuwsblad. https://www.historischnieuwsblad.nl/de-omstreden-introductie-van-de-citotoets/

Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs. Proefschrift Tilburg. open access https://karenheij.bijzonderboeken.nl ;

(9 maart 2023). Rapportage Onderzoek LVS en eindtoets. DUO Onderwijsonderzoek en Advies. https://www.duo-onderwijsonderzoek.nl/wp-content/uploads/2023/03/Rapportage-Pointer-onderzoek-toetsen-maart-2023.pdf

toetsen / proefwerken / tentamens

Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton. [een beschouwing https://benwilbrink.nl/projecten/studietoetsen_40_jaar.htm

Ben Wilbrink (1983). Toetsvragen schrijven. Het Spectrum, Aula 809. http://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf, in bewerking: http://www.benwilbrink.nl/projecten/toetsvragen.1.htm

criteria voor kwaliteit

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie https://benwilbrink.nl/publicaties/70degroot.htm

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. http://goo.gl/W7Cz60

cijfergeven

A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. J. B. Wolters. online lenen bij archive.org: https://archive.org/details/vijvenenzessenci0000groo

Benjamin S. Bloom (May 1968). Learning for Mastery. Instruction and Curiculum. Reprint from Evaluation Comment, (2), 1-12 https://files.eric.ed.gov/fulltext/ED053419.pdf Zie specifiek de sectie ‘The normal curve’.

Paul van der Molen & Jos Keuning (2023). Steeds meer zesjes. Cito. https://www.cito.nl/-/media/files/voortgezet-onderwijs/centrale-examens/examenvernieuwing/cte_artikel_e-examens_steeds_meer_zesjes.pdf?la=nl-nl

cesuur(bepaling) / selectie

K. Posthumus (1940). Middelbaar onderwijs en schifting. De Gids. https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php

Ben Wilbrink (1980a). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. https://benwilbrink.nl/publicaties/80aGrensscoresTOR.htm

Ben Wilbrink (1980b). Enkele radicale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 5, 112-125. https://benwilbrink.nl/publicaties/80bGrensscoresTOR.htm

Ben Wilbrink (1997). Terugblik op toegankelijkheid: meritocratie in perspectief. In Marian Van Dyck, Toegankelijkheid van het Nederlandse onderwijs. Studies (p. 341-384). Den Haag: Onderwijsraad. https://benwilbrink.nl/publicaties/97MeritocratieORaad.htm

wat vinden leraren zelf?

Ben Wilbrink (2004 ongepubliceerd). Toetsopvattingen van docenten. https://benwilbrink.nl/publicaties/04Toets_opvattingen.htm

Theo Thijssen (1929). De examenidioot of De kinderexamens van 1928. Overdruk uit De Bode. orgaan van de Bond van Ned. Onderwijzers. Bondsdrukkerij “De Volharding”. http://www.benwilbrink.nl/Thijssen_De_Examenidioot_1929.pdf (scan 24 Mb) Theo Thijssen, zelf onderwijzer, kraakt hier de toelatingstoetsen tot het vhmo af. En gelijk had hij!

integer toetsen: in onderwijs geïntegreerd

David Didau (2023). When retrieval practice goes wrong (and how to get it right). Blog. [Over wenselijke moeilijkheid van toetsvragen] https://learningspy.co.uk/english-gcse/when-retrieval-practice-goes-wrong-and-how-to-get-it-right/

Ben Wilbrink (september 2018). Benjamin S. Bloom, human characteristics, and school learning. Blog: https://benwilbrink.wordpress.com/2018/09/28/benjamin-s-bloom-human-characteristics-and-school-learning/

dynamiek tussen leerlingen en hun docenten

James H. Coleman (1990). Foundations of social theory. Harvard University Press. https://www.hup.harvard.edu/catalog.php?isbn=9780674312265

Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data. ECER, Twente. https://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm

Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 701-704.). Enschede: University of Twente. Paper: auteur. https://benwilbrink.nl/publicaties/92ColemanModelingECER.htm

onderwijs geven versus verschillen benadrukken

Wim van den Broeck (maart 2023) Onderwijs is een waarde op zich. Didactief. https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich [position paper Tweede Kamer]

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899. http://www.benwilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf

de grenzen van het recht

Henk van Berkel (2019). Juridisch correct examineren. Een studie naar uitspraken van beroepscolleges in het hoger onderwijs. Proefschrift. (Embargo ends: 27/11/24) (presentatie 2017: https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf)

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift. http://www.benwilbrink.nl/projecten/toetsvragen.8.htm#Cohen_1981

C. W. Noorlander (2005). Recht doen aan leerlingen en ouders. De rechtspositie van leerlingen en ouders in het primair en het voortgezet onderwijs. Proefschrift Vrije Universiteit – handelseditie: Wolf Legal Publishers. [Hoofdstuk 14: Beoordeling van onderwijsprestaties. 517-587]

ethische grenzen

Ben Wilbrink (2017). Op weg naar eerlijk onderwijs. Van Twaalf tot Achttien, september 2017. vrij toegankelijk

American Psychological Association (2004). Code of fair testing practices in education. http://www.apa.org/science/programs/testing/fair-testing.pdf

cognitieve psychologie

Tim Surma, Kristel van Hoywegehen, Dominique Sluijsmans, Gino Camp, Daniel Muijs, Paul A. Kirschner (). Wijze lessen. Twaalf bouwstenen voor effectieve didactiek. Ten Brink. https://www.ou.nl/documents/846784/0/Wijze_Lessen_digitaal_160919.pdf

Stellan Ohlsson (2011). Deep Learning. How the Mind Overrides Experience Cambridge University Press. https://benwilbrink.nl/literature/ohlsson.htm

David Grissmer en anderen, onder wie Daniel Willingham (2023). A Kindergarten Lottery Evaluation of Core Knowledge Charter Schools: Should Building General Knowledge Have a Central Role in Educational and Social Science Research and Policy?. (EdWorkingPaper: 23-755). Retrieved from Annenberg Institute at Brown University: https://doi.org/10.26300/nsbq-hb21