03 feb Relatief vs absoluut beoordelen en normeren
‘Comparatief beoordelen? Daar ga ik niet aan beginnen. Wij werken met een absolute normering. Ik wil niet dat studenten ten opzichte van elkaar worden beoordeeld, dat is niet eerlijk.’ Als we presentaties of workshops geven over comparatief beoordelen, horen we vaak bovenstaand misverstand onder de aanwezigen. Comparatief beoordelen betekent niet per definitie dat je relatief normeert. Hoe zit dit? En wat betekenen die verschillende vormen van beoordelen en normeren dan eigenlijk precies? We leggen het je uit.
Beoordelen en normeren
Allereerst gaan we in op het verschil tussen beoordelen en normeren. Ondanks het feit dat beide concepten veel met elkaar te maken hebben, is er een belangrijk verschil. Beoordelen gaat over het proces van een oordeel toekennen aan de kwaliteit van een bepaald product. Normeren gaat over de beslissing die je met je beoordeling maakt. Bijvoorbeeld: zakt of slaagt iemand? Of krijgt iemand een 8 of een 9? Met een normering zet je je beoordeling om in een beslissing over het niveau.
Ben je bezig met beoordelen? Dan ben je nog niet per definitie bezig met normeren. Sterker nog: bij comparatief beoordelen worden deze twee processen expliciet los van elkaar getrokken. Comparatief beoordelen gaat uit van vergelijken om te beoordelen. Vergelijken is een heel natuurlijk proces dat zorgt voor een betrouwbare en valide beoordeling bij complexe taken¹,². Je vergelijkt werken van studenten met meerdere beoordelaars tegelijk om tot een gezamenlijke rangorde te komen. In de rangorde zijn de werken geordend van het minst goede werk tot het beste werk.
De rangorde zegt alleen nog niets over cijfers of voldoendes. Met andere woorden: je vergelijkt om tot een beoordeling te komen, maar bent nog niet aan het normeren. Je weet dat het ene werk beter is dan het andere, maar je weet nog niet hoe goed zo’n werk dan is ten opzichte van een standaard. De rangorde kan lopen van een 6 tot een 7 op een schaal van 1 tot 10, maar ook van een 1 tot een 10. Comparatief beoordelen is dus een relatief proces, maar vervolgens kan je nog steeds een keuze maken of je absoluut of relatief normeert.
Relatief normeren
Zowel absoluut als relatief normeren gaan over de manier waarop je tot het summatieve oordeel van studenten op een examen of toets komt (bijv. van 1 t/m 10, of van A t/m F). Relatief normeren houdt in dat je de resultaten laat afhangen van de prestaties van de groep³. Stel, op een kennistoets scoort de beste student 35 van de 40 punten. Bij een relatieve normering krijgt deze student bijvoorbeeld een 10. Alle andere studenten krijgen een cijfer op basis van dit resultaat. Deze manier van werken wordt ook wel grading to the curve genoemd.
Er is veel kritiek op relatief normeren⁴. Zo kan het zijn dat een student in een goed presterende klas in het nadeel is ten opzichte van een slecht presterende klas: haalt de student een score van 25 op het examen, dan krijgt deze een lager cijfer in een goed presterende klas dan in een slecht presterende klas. Het kan ook zijn dat een groot deel van de klas eigenlijk zo slecht scoort, dat ze het examen niet zouden moeten halen op basis van de leerdoelen. Bij een relatieve normering is er in principe altijd een bepaald percentage van de studenten dat slaagt³. Studenten die eigenlijk te weinig geleerd hebben zullen misschien toch een voldoende krijgen, of studenten die eigenlijk heel goed geleerd hebben krijgen geen voldoende omdat er (te) veel studenten zijn die het nog beter doen.
Absoluut normeren
Als je weet dat er zo veel nadelen zitten aan een relatieve normering, lijkt het logisch om een absolute normering te hanteren. Bij een absolute normering is de normering onafhankelijk van de prestaties van anderen. Je stelt vooraf een duidelijke lijst met standaarden op waaraan voldaan moet worden om een bepaald cijfer te halen³. Deze manier van normeren is gangbaar bij de meeste examens in Vlaanderen en Nederland.
Toch kleven er ook nadelen aan absoluut normeren. Ten eerste wil je een beredeneerde standaard hanteren: wat is bijvoorbeeld het minimale niveau dat studenten moeten halen en waarom dat niveau? En hoe vertaalt zich dit dan in concrete punten op een examen? Veelal kiezen we een score van 55% of 60% goed voor een voldoende, maar waarom eigenlijk? Het blijkt veelal lastig deze specifieke keuze te beargumenteren.
Daarnaast houdt een absolute normering geen rekening met de moeilijkheid van het examen zelf en de omstandigheden⁵. Als voorbeeld kunnen we de coronaperiode nemen. Misschien waren de resultaten van de studenten in je vak ineens lager dan andere jaren. Is het dan passend dat je dezelfde norm aanhoudt voor deze studenten? Een lager resultaat ligt niet alleen aan de competentie van de student maar ook aan het onderwijs dat is aangeboden en de moeilijkheid van het examen of de toets. Misschien was de score van de beste student in de groep de hoogst haalbare score die dit jaar mogelijk was. De Cohen-Schotanus methode is een compromis tussen een absolute en relatieve normering en houdt rekening met de moeilijkheid van het examen⁵. De score van de groep best presterende studenten is dan de hoogst haalbare score.
Over het algemeen zitten er voor- en nadelen aan beide manieren van normeren en is het zaak een beredeneerde keuze te maken over welke methode je inzet. Heb je bijvoorbeeld als doel de 10% beste studenten toe te laten tot een opleiding? Dan wil je misschien relatief normeren. Wil je bijvoorbeeld zeker weten dat iedere student een bepaalde standaard haalt omdat de gevolgen van een lage beheersingsgraad kunnen leiden tot crashes of doden? Dan ligt absoluut normeren meer voor de hand.
Rubric of comparatief?
Er is iets voor te zeggen om het beoordelen en normeren explicieter uit elkaar te halen. Als je gebruik maakt van een criterialijst of een rubric worden vaak punten toegekend per onderdeel van de beoordeling. Denk bijvoorbeeld aan 0, 1, of 2 punten per categorie van de rubric. Deze score is meestal makkelijk te vertalen tot een beslissing zoals een voldoende of een cijfer. Als beoordelaar is het dus niet gek dat je beoordelen en beslissen als één en dezelfde bezigheid ziet, want je bent tijdens het beoordelen al bezig met de uiteindelijke score die een student gaat krijgen.
Het nadeel van deze werkwijze is dat er verschillende beoordelaarseffecten optreden. Een belangrijk effect in deze context is central tendency: beoordelaars hebben de neiging een score te geven die uitkomt in het midden van een schaal en geven liever geen extreme score⁶. Het gebruik van een rubric kan ervoor zorgen dat er te lage of te hoge cijfers worden gegeven omdat beoordelaars liever niet de volle punten scoren op een criterium, zelfs als de beschrijving bij dat criterium wel past bij de prestatie. Bij comparatief beoordelen gaat het nog niet over scores en beslissingen, waarmee onder andere het effect van central tendency wordt geminimaliseerd.
Van comparatief beoordelen naar normeren
In Comproved kom je na het beoordelen uit op een rangorde. Deze rangorde kan je zowel absoluut als relatief van een normering voorzien. Je kan bijvoorbeeld absoluut normeren door twee werken op de rangorde te kiezen en die in een gezamenlijk overleg te scoren. Je kan de cijfers ook bepalen door vooraf twee werken (benchmarks) toe te voegen aan de vergelijkingen die al eens eerder zijn gescoord. De tool berekent de cijfers van alle werken op basis van de twee werken die je zelf scoort. Door deze werkwijze is het zeker mogelijk dat geen enkele student een voldoende haalt, of ze dat juist allemaal wel doen. Wil je meer weten over hoe normeren in Comproved praktisch werkt, lees dan hier verder.
Conclusie
Comparatief beoordelen is niet hetzelfde als relatief normeren. Je gebruikt een vergelijkende aanpak om tot een betrouwbare en valide rangorde te komen, waarna je op verschillende manieren tot een normering kan komen. Het grootste voordeel is dat je met comparatief beoordelen het eindoordeel uiteindelijk gezamenlijk hebt bepaald met zo min mogelijk beoordelaarseffecten, of dat het oordeel nu ‘geslaagd’ is of een specifiek cijfer. Wil je meer weten over comparatief beoordelen? Lees hier verder!
Literatuur
¹Lesterhuis, M., Bouwer, R., van Daal, T., Donche, V., & De Maeyer, S. (2022). Validity of comparative judgement scores: how assessors evaluate aspects of text quality when comparing argumentative texts. Frontiers in Education, 7. https://doi.org/10.3389/feduc.2022.823895
²Verhavert, S., De Maeyer, S., Donche, V., & Coertjens, L. (2017). Scale separation reliability: what does it mean in the context of comparative judgement? Applied Psychological Measurement, 9, 1-18. https://doi.org/10.1177/0146621617748321
³Lok, B., McNaught, C., & Young, K. (2016). Criterion-referenced and norm-referenced assessments: compatibility and complementarity. Assessment & Evaluation in Higher Education, 41(3), 450-465. https://doi.org/10.1080/02602938.2015.1022136
⁴Kjærgaard, A., Buhl-Wiggers, J., & Mikkelsen, E. N. (2023). Does gradeless learning affect students’ academic performance? A study of effects over time. Studies in Higher Education. https://doi.org/10.1080/03075079.2023.2233007
⁵Cohen-Schotanus, J., & Van der Vleuten, C. P. M. (2010). A standard setting method with the best performing students as point of reference: Practical and affordable. Medical Teacher, 32, 154-160. https://doi.org/10.3109/01421590903196979
⁶Leckie, G., & Baird, J. (2011). Rater effects on essay scoring: A multilevel analysis of severity drift, central tendency, and rater experience. Journal of Educational Measurement, 48(4), 399-418. https://doi.org/10.1111/j.1745-3984.2011.00152.x