06 dec Validiteit
Goed evalueren of toetsen begint bij validiteit, zo leer je als docent. Tegelijk weten we vaak niet zo goed of een examen of toets valide is. Hoe meet je zoiets eigenlijk? We maken misschien een toetsmatrijs om ervoor te zorgen dat we evalueren wat we hebben gedoceerd, maar validiteit gaat over meer dan alleen het representeren van de lesstof in een examen of toets. Zijn er nog andere manieren waarop je validiteit kan bevorderen, en hoe doe je dat dan? We leggen uit wat validiteit precies is en hoe je zo valide mogelijk kan beoordelen.
Waar betrouwbaarheid gaat over de precisie waarmee je beoordeelt, gaat validiteit over het juiste beoordelen. Beoordeel je wel daadwerkelijk de vaardigheid of de kennis die je in kaart wil brengen, of beoordeel je toch iets anders? Beeld je bijvoorbeeld in dat je wil weten of een student in de lerarenopleiding goed is in klasmanagement. Je kan een meerkeuze examen voorleggen, maar zegt het ook iets over hoe goed de student in opleiding tot leraar daadwerkelijk een klas kan managen? Evalueer je valide, dan kan je het examen of de toets daadwerkelijk gebruiken voor het doel dat je ermee hebt.
Verschillende typen validiteit
Struin je het internet af met de zoekterm ‘validiteit’, dan vind je vaak een onderscheid in verschillende soorten validiteit¹. Denk aan constructvaliditeit, criteriumvaliditeit of inhoudsvaliditeit. Hoewel het nuttig kan zijn om na te denken over verschillende typen validiteit, leiden ze eigenlijk altijd tot argumenten voor of tegen één soort validiteit: constructvaliditeit². Michael Kane heeft veel geschreven over validiteit. Hij stelde voor om validiteit niet meer als een begrip te zien waar elke docent en onderzoeker weer op een eigen manier bewijs voor zoekt. In plaats daarvan stelde hij dat validiteit beargumenteerd kan worden.
Het volgende voorbeeld geeft weer hoe zo’n argumentatie werkt³: een advocaat probeert een rechter te overtuigen van de onschuld van een verdachte. De keuze die de rechter maakt hangt af van de kwaliteit en relevantie van de argumenten die de advocaat aanvoert, maar ook van de overtuigingskracht van de advocaat. Alles samen maakt het oordeel, en het is afhankelijk van de aard van de overtreding hoe veel bewijs er nodig is. Zo geldt hetzelfde voor het bepalen van validiteit. Hoe groter de consequenties van een examen of toets voor studenten, hoe belangrijker het is dat er genoeg bewijs verzameld wordt voor de validiteit van dat examen. Zo kunnen we het bouwen van een validiteitsargument ook zien. We gaan aan het werk als advocaat.
Stap 1: gebruik en claims
In de eerste stap maak je een opsomming van de claims die je verwacht te kunnen maken met je examen of toets. Om in de context van de advocaat te blijven gaat het bijvoorbeeld om de claim dat de verdachte onschuldig is. Een voorbeeld van een claim gericht op evalueren is ‘een goede score op het examen betekent dat studenten hun werkzaamheden goed kunnen uitvoeren’. De claims gaan in eerste instantie over de observatie die je doet tijdens je examen en gaan door tot de beslissing die je uiteindelijk maakt over de student op basis van dat examen. Zie de afbeelding hieronder voor een concreet idee bij wat dit betekent.
Je zal merken dat je misschien claims maakt die voor je gevoel heel logisch lijken. Toch is het goed om de claims die je wil maken echt expliciet te benoemen. Als je een hele belangrijke beslissing wil nemen met het examen of de toets (zoals het zakken of slagen van een student), is het belangrijk dat je genoeg argumentatie verzamelt waarmee je kan aantonen dat je zo’n beslissing ook daadwerkelijk kan maken op basis van je examen. De gevolgen zijn groot voor studenten als er iets mis blijkt te zijn. Dat is bij een formatief moment anders. Claims zijn dus in elke context waarin je het examen toepast anders. Uiteindelijk bepaal je dan ook niet de validiteit van een examen, maar de validiteit van een examen in een bepaalde context.
Stap 2: bewijs en argumenten
De tweede stap bestaat uit het verzamelen van het nodige bewijs om je claims daadwerkelijk te kunnen maken. Je zorgt er als het ware voor dat je claims ook geloofwaardig zijn. De hoeveelheid bewijs hangt af van de specifieke context van je examen: is het een high stakes moment of niet? Daarnaast kan je nadenken over het type bewijs, wat vaak afhangt van de toetsvorm die je kiest. Een kleine opsomming van mogelijk bewijs dat je per claim kan verzamelen of genereren (Zie het artikel van Cook et al.³ voor een uitgebreider overzicht):
1. Scoring
- Procedures voor het scoren van het examen (bijv. rubrics, comparatief beoordelen)
- Argumentatie voor de keuze van het vraagtype (bijv. open of gesloten vraag?)
- Uitleg over de selectie en training van beoordelaars
2. Generalisatie
- Toetsmatrijs met een overzicht van het aantal vragen per leerdoel
- Verslag van het overleg met docententeam over welke vragen worden gesteld
- Uitleg over hoe keuzes voor opdrachten/vragen tot stand zijn gekomen
3. Extrapolatie
- Behoefteanalyse van de werkcontext over wat er volgens professionals geleerd moet worden
- Informatie over de mate van overeenstemming tussen vakexperts over de waarde van het examen in de praktijk
- Informatie over de samenhang tussen de score op dit examen en een examen waarmee je ongeveer hetzelfde hoopt te evalueren
4. Implicatie
- Een beargumenteerde keuze voor de cesuur
- Oog voor mogelijke aanpassingen aan het examen achteraf als nodig (vragen schrappen, cesuur aanpassen)
- Een evaluatie bij studenten over de impact van het examen
En nu?
Op basis van de claims en het bewijs kan je vervolgens een argumentatie maken over de validiteit van je examen of toets. Je hoeft zeker niet elke mogelijke vorm van bewijs verzameld te hebben, zolang je argumentatie overtuigend is voor de claims die je wil maken. Kies dus het bewijs dat veel bijdraagt voor je argumentatie. Meerdere soorten bewijs die elkaar aanvullen (bijvoorbeeld zowel kwalitatieve informatie als ‘harde’ data) kan ook een goede manier zijn om je argumentatie te versterken.
Vaak zul je in de praktijk merken dat het proces van claims maken en bewijs verzamelen al zorgt voor een grote verbetering in de validiteit van je examen. Als je in je examen iets tegenkomt wat verbetering behoeft, dan los je dit zo veel mogelijk op. Hiermee maak je je argumentatie voor de validiteit steeds sterker. Bewust nadenken is dus de belangrijkste stap die je kan maken.
Comparatief beoordelen is valide beoordelen
Examens die complexe vaardigheden meten, zorgen soms voor wat extra vragen over de validiteit. Er is minder vaak een goed of fout oordeel om te beoordelen, en het oordeel hangt vaker af van het oordeel van meerdere docenten. Docenten verschillen in hun focus als ze een vaardigheid beoordelen⁴. Je kan je afvragen hoe je dan tot een valide beoordeling komt. Comparatief beoordelen kan daarbij helpen.
Comparatief beoordelen zorgt voor een betrouwbare scoring van je examen door uit te gaan van het intuïtieve proces van het vergelijken van werken. Door holistisch te beoordelen is er meer generalisatie over taken mogelijk. Daarnaast hoeven beoordelaars zich niet meer aan te passen aan rubrics en wordt hun expertise juist ingezet als kracht om valide te beoordelen. Sterker nog: om een goede representatie van een complexe vaardigheid te meten zijn meerdere beoordelaars juist nodig⁴. Al deze voordelen vertalen zich in sterke argumenten voor het maken van je validiteitsclaim. Benieuwd hoe comparatief beoordelen werkt? Lees hier verder!
Literatuur
¹American Psychological Association (2023). APA dictionary of psychology. Verkregen via https://dictionary.apa.org/criterion-validity
²Kane, M. (2004). Certification testing as an illustration of argument-based validation. Measurement: Interdisciplinary Research and Perspectives, 2(3), 135-170. https://doi.org/10.1207/s15366359mea0203_1
³Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to Kane’s framework. Medical Education, 49, 560-575. https://doi.org/10.1111/medu.12678
⁴Lesterhuis, M., Bouwer, R., van Daal, T., Donche, V., & De Maeyer, S. (2022). Validity of comparative judgement scores: how assessors evaluate aspects of text quality when comparing argumentative texts. Frontiers in Education, 7. https://doi.org/10.3389/feduc.2022.823895