Het McKinsey rapport brengt cijfers bijeen uit een aantal bekende bronnen, zoals PISA, examenresultaten vwo en instaptoetsen van universiteiten. Het rapport combineert deze vervolgens met de bevindingen van de auteurs zelf bij het bekijken van vwo-examens tussen 1990 en 2020.

Het rapport probeert een onderbouwing te geven voor de veel geuite mening dat het niveau van het onderwijs in het algemeen en dat van wiskunde en natuurkunde op het vwo in het bijzonder de laatste 30 jaar gedaald is.

In het rapport worden voor het verlaagde niveau aan het eind van vwo de volgende indicatoren aangedragen:

  • Het PISA-onderzoek (onderzoek onder de brede populatie 15-jarigen ) op het gebied van mathematical literacy en scientific literacy laat dalende scores zien.
  • De cijfers voor wiskunde en natuurkunde op het centraal examen vwo zijn hoger geworden.
  • De resultaten op de instaptoetsen van drie universiteiten laten een dalend niveau van de instroom zien.

Daarnaast is eigen onderzoek uitgevoerd door een van de auteurs naar de examens van 1990 tot 2020. Daaruit worden nog een aantal indicatoren benoemd:

  • Er worden veel onderwerpen uit 1990 niet meer getoetst in 2020.
  • Opgaven vergen naar het oordeel van de auteurs tegenwoordig minder denkstappen en er zijn deelopgaven die ‘voorgekauwd’ worden.
  • Een aantal vwo-leerlingen van nu scoren lager op opgaven van 30 jaar geleden dan de gepubliceerde scores van toen.
  • Op vergelijkbare opgaven waren de scores 30 jaar geleden hoger dan nu.

Bespreking van gebruikte bronnen

Resultaten van onderwijs in een domeinspecifiek gebied, zoals wiskunde en natuurwetenschappen, worden beïnvloed door een groot aantal factoren. Sommige factoren zijn gelegen binnen het betreffende domein, zoals inhoud van curriculum, toetsing, kenmerken deelpopulatie, kwaliteit vakdocenten, niveau van de inhoud en studielast (aantal lesuren per week). Andere factoren betreffen het onderwijs in algemene zin, zoals status van beroep, werkdruk docenten, veranderende leerlingenstromen en veranderende interesses van leerlingen. En dan zijn er ook nog vele factoren buiten het onderwijs gelegen, zoals demografische factoren, onderwijsbegroting, politiek klimaat en tendensen in industrie en wetenschap, die invloed hebben op onderwijsresultaten en de perceptie van die resultaten.

Wetenschappelijke onderzoekers dienen expliciet aan te geven wat zij in hun onderzoek nu precies verstaan onder resultaten van onderwijs en dienen zich er rekenschap van te geven dat de keuze van geselecteerde factoren gevoed wordt door de eigen opvattingen over onderwijs, over leren en over niveau en door persoonlijke, commerciële of politieke belangen. Een vergelijking maken over een periode van 30 jaar vergt nog grotere zorgvuldigheid, omdat het daarbij zeer lastig is om data te verzamelen over onderling vergelijkbare deelpopulaties.

Gedachtenexperimentje

Het percentage leerlingen op het vwo is in 30 jaar gestegen van 16% naar 24% van de gehele onderwijspopulatie. Vanuit het perspectief van een docent die alleen vwo-leerlingen ziet of van een afnemende universiteit zal de onvermijdelijke conclusie zijn dat het gemiddelde niveau gedaald is, want de toegang tot het vwo is minder selectief en minder exclusief geworden. Vanuit het perspectief van de beleidsmaker die gaat over de gehele leerlingenpopulatie kun je echter concluderen dat het gemiddelde onderwijsniveau in het land gestegen is; meer leerlingen wordt een kans geboden de vwo-stof te bestuderen en door te stromen naar de universiteit. Dit laatste perspectief is de basis van de zogenaamde Lissabon-akkoorden (2010) over hoger onderwijs. Wat niveau is, is dus ook gewoon een politieke keuze voor een perspectief van inclusie of voor een perspectief van selectie en exclusie.


Laten we de diverse gepresenteerde onderdelen in het rapport wat nader bekijken.

PISA - onderzoek

PISA is nooit bedoeld en niet valide als peilingsonderzoek naar de staat van onderwijs in een specifiek land. Daarvoor heb je onderzoek nodig dat het gehele vastgestelde curriculum overdekt. Voor wiskunde meet PISA slechts een specifiek aspect van wiskundeonderwijs, namelijk mathematical literacy (lees: gecijferdheid of burgerschapswiskunde). PISA maakt een vergelijking tussen landen in een gegeven jaar met betrekking tot dit aspect bij alle 15-jarigen. Er wordt in PISA gewerkt met ankeropgaven van de ene cyclus naar de volgende cyclus als normhandhaving tussen de cycli. Wil je beter tevoorschijn komen uit het PISA-onderzoek dan moet je dus meer burgerschapswiskunde (lees: wiskunde A) opnemen in het curriculum. Als je beter toegeruste 'gecijferde' professionals wilt krijgen die kritisch kunnen functioneren in onze gemathematiseerde maatschappij, dan moet je meer PISA-achtige vragen opnemen in de eindexamens. Het ligt daarbij niet voor de hand om terug te keren naar examenopgaven uit de jaren 1990.

Examenresultaten

Over het vergelijken van eindcijfers op examens en scores op losse examenopgaven over een periode van 30 jaar zegt het CvTE (CvTE, 2023) in een reactie op het rapport dat het examenprogramma met de tijd meegaat en in dertig jaar door politieke en beleidsmatige besluiten aangepast is naar de tijd van nu. Nu veel routineprocedures door apparaten worden uitgevoerd, verschuift bijvoorbeeld het accent in het wiskundeonderwijs van lagere orde procedures naar hogere orde vaardigheden zoals wiskundig denken, modelleren en probleem­oplossen. Hierdoor zijn leerlingen van nu anders voorbereid en maken een ander examen dan leerlingen uit 1990. De prestaties van deze twee groepen zijn daardoor niet vergelijkbaar. Verder geeft CvTE aan dat er van examenjaar op examenjaar een procedure van normhandhaving gebruikt wordt. Maar ook dat de vergelijkingen in het McKinsey-rapport veel weg heeft van het vergelijken van appels met peren, door het grote aantal veranderingen in keuzepercentages voor dan wel wiskunde A dan wel B, in relatieve studielast, in examenprogramma’s, en in algemene leerlingenstromen (zoals percentage instroom in vwo).

Instaptoetsen

Van drie universiteiten worden resultaten op instaptoetsen getoond waaruit zou blijken dat het niveau gedaald is. Die instaptoetsen van universiteiten hebben één ding gemeen: ze toetsen over het algemeen slechts een heel klein deel van het examenprogramma. Meestal gaat het voornamelijk om de vaardigheid om met pen-en-papier contextloze algebra-sommetjes op te lossen. Die hebben in de geschiedenis van het wiskundeonderwijs al heel vaak vooral als selectie-instrument gediend. Het is een vaardigheid die nodig is om de eerstejaars wiskundevakken door te komen, maar het is ook een vaardigheid die verderop in de studie steeds minder van belang is en waarvan de relevantie ook in de latere beroepspraktijk van de afgestudeerden steeds verder afneemt. Als je wilt dat leerlingen beter scoren bij deze instaptoetsen dan moet je leerlingen heel veel kale algebrasommetjes met de hand laten oefenen in plaats van de hogere orde vaardigheden die ze nu ontwikkelen.

Wat niet meegenomen lijkt te zijn is dat gemeten instroom in specifieke studierichtingen van specifieke universiteiten over jaren heen natuurlijk niet gaat over dezelfde deelpopulatie. Misschien gaan hele goede leerlingen tegenwoordig wel medicijnen of econometrie studeren. Technische universiteiten kunnen dan concluderen dat het niveau van de instroom daalt. In zo’n geval zouden deze universiteiten de oplossing bij hun eigen studierichtingen moeten zoeken. Zonder dat mee te nemen, zoals in dit rapport, worden appels met bananen vergeleken.

Onderzoek naar examenopgaven en scores daarop

De methode van met name de vergelijking van examenopgaven is in het rapport niet toereikend beschreven, zodat niet beoordeeld kan worden of er sprake is van verantwoord sociaalwetenschappelijk onderzoek en of er valide conclusies te trekken zijn uit de uitgevoerde analyses van opgaven of uit de onderzoekjes die zijn uitgevoerd met leerlingen. Wat er wel over de gevolgde methode staat voldoet daar in ieder geval niet aan. De meeste vergelijkingen hebben betrekking op totaal verschillende, niet corresponderende, deelpopulaties. Bij de onderzoekjes met leerlingen zijn vooral eigen leerlingen gebruikt. Dit zijn zogenaamde convenience samples die weinig representativiteit hebben en ongeschikt zijn om op basis daarvan te generaliseren.

Voor de inhoudelijke analyse van de opgaven lijken geen achterliggende niveautheorieën gebruikt te zijn, maar louter de indrukken van de onderzoekers. De gemaakte vergelijking is onderzoekstechnisch niet goed mogelijk door het grote aantal andere factoren die ook van invloed zijn op die opgaven en die gedurende die periode niet hetzelfde zijn gebleven. Ook worden allerlei conclusies over bijvoorbeeld de schoolexamens getrokken die allang door vooraanstaande statistici ontkracht zijn. Zie bijvoorbeeld Van Brederode (2023) en Van Brederode & Meeter (2020). Maar wat de conclusies vooral ondoorzichtig maakt is het op een hoop gooien van ‘onderwijsresultaten’ en ‘kenmerken van examenopgaven’.

'Hoge verwachtingen hebben' gaat uitdrukkelijk niet over het opschroeven van de externe eisen. Dat leidt alleen maar tot strenger selecteren, meer uitval en exclusiever onderwijs.

Opmerkelijke zaken

Er staat ook een aantal opmerkelijke zaken in het rapport. Zo is een namenlijst van bijna twee bladzijden opgenomen van veelal hoogleraren exacte vakken die volgens het rapport hebben verklaard dat dit sociaal-wetenschappelijk onderzoek valide is uitgevoerd. Echter bij vrijwel bij geen enkele naam kon ik ook maar één wetenschappelijke publicatie vinden die getuigt van expertise op het gebied van het valide meten van onderwijsresultaten. Wat het motief is van deze wetenschappers om hun prestige te verbinden aan dit rapport blijft gissen.

Verder wordt in het rapport een vrij fatale vergissing gemaakt wat betreft de term ‘hoge verwachtingen’. Dat is in oorsprong een pedagogisch begrip dat aangeeft dat je probeert kinderen te stimuleren zo veel als mogelijk uit zichzelf te halen. Daartoe zijn allerlei didactische mogelijkheden in de klas. Dat helpt ook bij het inclusiever maken van onderwijs en het bestrijden van kansenongelijkheid. Leerlingen die het nodig hebben krijgen zo een extra steuntje in de rug bij het overwinnen van hobbels in het leerproces of als zij net andere wegen bewandelen in het beheersen van de stof. A sustainable and transferable process that ensures struggling students get the support they need to achieve, noemt onderwijsonderzoeker Dufour dit. 'Hoge verwachtingen hebben' gaat in de theorie en praktijk uitdrukkelijk niet over het opschroeven van de externe eisen. Dat leidt alleen maar tot strenger selecteren, meer uitval en exclusiever onderwijs. Leerlingen die moeite hebben met zwemmen help je niet door het zwembad te verlengen. Dit is al decennia bekend uit onderzoek naar educational change. Er is zelfs uitvoerig beschreven dat beleidsmakers steeds maar weer dit pad van hogere eisen kiezen omdat strengere selectie vrij makkelijk uitvoerbaar is en op korte termijn stijgende resultaten bij de strenger geselecteerde populatie lijken te geven.

Ook opmerkelijk is dat in het colofon van het rapport staat: ‘Dit rapport is onafhankelijk, en reflecteert de inzichten van de auteurs, en is niet geschreven in opdracht van enig bedrijf, de overheid of ander instituut.’ Het is goed om te weten dat het gaat om de inzichten van de auteurs. De vraag blijft wel waarom zij de aandrang hebben gevoeld zich op dit thema te storten en het te publiceren als McKinsey-rapport. McKinsey is tenslotte gewoon een commercieel consultancybedrijf. Kennelijk is het onderwijs een aantrekkelijke groeimarkt.

Conclusie

Het rapport zal dan ongetwijfeld veel geciteerd en besproken gaan worden in de (social) media en in de Onderwijscommissie van de Tweede Kamer. Verhalen over dalend onderwijsniveau doen het al decennialang goed in de media en de politiek en zijn een vruchtbaar thema om jezelf of je bedrijf te profileren. Universiteiten vinden het vaak prima als de “schuld” van vermeende niveaudaling bij het toeleverend onderwijs wordt gelegd.

Als je ook vindt dat het niveau van onderwijs in Nederland alleen maar daalt, dan leest het rapport prettig weg. Als je het rapport beoordeelt op methodologische aspecten, geponeerde causaliteiten, vergelijken van onvergelijkbare onderzoekspopulaties, specifieke keuze voor kwaliteitsindicatoren (‘de stof') en mate van helderheid en representativiteit van de onderzoekspopulatie, dan is de enige conclusie dat het een sterk gekleurd rapport is, waarbij de toon en de presentatie sterk doet vermoeden dat de titel van het rapport eerst is opgeschreven en dat toen de data zijn gezocht en ondersteunend aan de conclusie zijn gepresenteerd.

Kees Hoogland is lector Wiskundig en Analytisch Vermogen van Professionals aan de Hogeschool Utrecht en lid van de OECD Numeracy Expert Group

Bronnen en verder lezen:

CvTE (2023). Kun je examens vergelijken? https://www.cvte.nl/actueel/nieuws/2023/02/27/kun-je-examens-vergelijken

Brederode, M. van (2023). Een vergelijking van Pisa scores en CE cijfers wiskunde B en natuurkunde. Aan aandacht geen gebrek. https://www.linkedin.com/pulse/een-vergelijking-van-pisa-scores-en-ce-cijfers-b-aan-van-brederode/

Brederode, M. van & Meeter, M. (2020). Hoe statistiek het schoolexamen verdacht maakte en waarom schoolexamens dat niet verdienen. https://www.scienceguide.nl/2020/05/hoe-statistiek-het-schoolexamen-verdacht-maakte/

Dufour, R. (2009). Raising the Bar and Closing the Gap: Whatever It Takes. Solution Tree. https://www.solutiontree.com/raising-the-bar-and-closing-the-gap.html

Europese Unie (2010). Lisbon Strategy for Growth and Jobs. https://ec.europa.eu/archives/growthandjobs_2009/

OECD (2021). PISA 2022 Assessment and Analytical Framework. https://www.oecd.org/pisa/publications/pisa-2021-assessment-and-analytical-framework.htm