Betrouwbaarheid van toetsen

Betrouwbaarheid van toetsen

Zeg je toetsen, dan zeg je betrouwbaarheid. Het is naast de validiteit misschien wel een van de belangrijkste begrippen die te maken hebben met toetsen. Tegelijk is het bepalen van de betrouwbaarheid nog niet altijd zo makkelijk. Als de examencommissie je vraagt om de betrouwbaarheid van je toets weer te geven, hoe kom je dan aan die informatie? Bij een meerkeuzetoets weet je misschien wel waar je moet zijn, maar wat als je toets een authentieke opdracht is met een meer holistische beoordeling? We helpen je verder!

Wat is betrouwbaarheid?

Toetsen kunnen over van alles gaan, afhankelijk van het doel dat je hebt. Studenten kunnen een kennistoets maken waarin hen gevraagd wordt feitenkennis te reproduceren. Gaat het om het verwerven van vaardigheden, dan wordt bijvoorbeeld een opdracht of assessment afgenomen. 

In alle gevallen gaat de betrouwbaarheid van toetsen over de precisie waarmee je meet. Als je een hoge betrouwbaarheid hebt weet je dat je consistent (herhaalbaar) beoordeelt. Stel, je neemt een toets af en kijkt deze na. Vervolgens neem je het volgende jaar dezelfde toets af onder ongeveer dezelfde omstandigheden. De studentengroepen zijn vergelijkbaar en ze hebben hetzelfde onderwijs gehad. Is je toets betrouwbaar, dan verwacht je gelijkwaardige resultaten van de studenten in de beide studiejaren. Let op: Wát je dan beoordeelt, daar gaat betrouwbaarheid in principe niet over. Dat is de validiteit van een toets. Een hoge betrouwbaarheid is wel nodig om de validiteit te kunnen borgen.

Betrouwbaarheid berekenen

Betrouwbaarheid wordt vaak numeriek berekend. Er bestaan verschillende maten van betrouwbaarheid. Een paar voorbeelden:

  • Interne consistentie: Als je dezelfde competentie of vaardigheid probeert te meten met meerdere vragen of opdrachten in dezelfde toets, verwacht je dat een student ongeveer hetzelfde scoort op al deze vragen of opdrachten. De toets is dan intern consistent. Vaak aangeduid met Cronbach’s Alfa.
  • Interbeoordelaarsbetrouwbaarheid: De mate waarin verschillende beoordelaars afzonderlijk van elkaar tot dezelfde beoordeling komen. Cohen’s Kappa is hiervoor een veel gebruikte maat, deze corrigeert voor de kans dat beoordelaars toevallig tot dezelfde beoordeling zijn gekomen. Als je hier niet voor corrigeert kan ook de correlatie worden berekend (bijv. Pearson’s r).
  • Intrabeoordelaarsbetrouwbaarheid: De mate waarin een beoordelaar die twee keer hetzelfde werk nakijkt tot dezelfde beoordeling komt. Ook te berekenen door een correlatie uit te rekenen.
  • Test-hertest betrouwbaarheid: De mate waarin je consistent dezelfde resultaten onder studenten krijgt als je dezelfde toets nog eens afneemt. Meestal is het praktisch niet haalbaar om twee keer dezelfde toets bij dezelfde studenten af te nemen onder exact dezelfde omstandigheden.

In de dagelijkse praktijk wordt niet vaak de exacte betrouwbaarheid uitgerekend, vooral niet als het gaat over complexere opdrachten. Maten voor de interbeoordelaarsbetrouwbaarheid, zoals Cohen’s Kappa, zijn bruikbaar onder bepaalde omstandigheden. Beoordeel je bijvoorbeeld met meer dan twee beoordelaars, dan is Cohen’s Kappa niet meer geschikt. Als je als docent wel zelf de betrouwbaarheid van een toets wil berekenen is dat dus niet altijd gemakkelijk, tenzij je thuis bent in statistiek. Soms heb je geen mogelijkheden om geschikte data te verzamelen, bijvoorbeeld omdat het veel te veel tijd zou kosten om al het werk door alle beoordelaars te laten nakijken. 

Betrouwbaarheid verhogen

Er zijn verschillende manieren waarop je de betrouwbaarheid van de beoordeling kunt verhogen. Voor het beoordelen van vaardigheden of competenties maak je gebruik van antwoordmodellen, criterialijsten of observatieformulieren om kwaliteit in te schatten. Het streven is dan om zo duidelijk mogelijk te formuleren welke prestatie er nodig is of welke elementen van een antwoord juist zijn. Dit kan bijvoorbeeld in de vorm van een rubric, waarin je per prestatieniveau beschrijft hoe dit niveau eruit ziet. Je verhoogt dan de betrouwbaarheid doordat alle beoordelaars hetzelfde instrument gebruiken.

Een instrument als een rubric is alleen niet genoeg. Eerder schreven we al over de beoordelaarseffecten die er kunnen zijn. Deze hebben een invloed op de inter- en intrabeoordelaarsbetrouwbaarheid en wil je zo veel mogelijk vermijden. Zijn er meerdere beoordelaars betrokken bij de toetsing, dan is het ook belangrijk dat deze beoordelaars de beoordelingsinstrumenten op dezelfde manier gebruiken. Je kan een kalibratiesessie organiseren waarin je samen een werk beoordeelt en afspraken maakt over het gebruik van je beoordelingsinstrument. Daarnaast kan je proberen beoordelaars op hetzelfde moment van de dag te laten beoordelen, in dezelfde omstandigheden. 

Objectief?

De gemene deler in al deze maatregelen is dat je uitgaat van objectiviteit om de betrouwbaarheid te borgen. Je kan je afvragen of dit haalbaar is in elke situatie. Voor het beoordelen van kennis die behoorlijk vaststaat is objectief zijn iets gemakkelijker omdat een beoordeling weinig ruimte laat voor interpretatie. Voor het beoordelen van complexe vaardigheden komt er meer bij kijken. Criteria in rubrics kunnen in zo’n geval bijna niet helder en expliciet genoeg gemaakt worden om echt objectief te beoordelen hoe goed een student iets kan¹. Dit zorgt voor verschillen in de beoordeling waardoor de betrouwbaarheid alsnog omlaag gaat.

Er is een manier om recht te doen aan verschillen in de interpretaties van docenten en die juist mee te nemen om tot een betrouwbare beoordeling te komen, vooral bij open en complexe taken. Dit kan door comparatief beoordelen. Comparatief beoordelen is gebaseerd op het principe dat mensen betrouwbaarder beoordelen als ze het werk van studenten vergelijken dan wanneer ze elk werk afzonderlijk een score geven²,³. De interbeoordelaarsbetrouwbaarheid is hierdoor hoger dan bij het gebruik van rubrics of beoordelingsformulieren. 

Zou je comparatief beoordelen willen inzetten in jouw onderwijs? Comproved is hiervoor erg geschikt. In Comproved zie je de betrouwbaarheid van je beoordeling altijd in de resultaten van je assessment verschijnen. Is de betrouwbaarheid te laag, dan kan je deze op ieder moment verder verhogen door meer vergelijkingen te maken. Contacteer ons, we helpen je graag verder!

Literatuur

¹Coertjens, L., Lesterhuis, M., Verhavert, S., Van Gasse, R., & De Maeyer, S. (2017). Teksten beoordelen met criterialijsten of via paarsgewijze vergelijking: een afweging van betrouwbaarheid en tijdsinvestering. Pedagogische Studiën, 94(4), 283–303. Link: https://repository.uantwerpen.be/docman/irua/e71ea9/147930.pdf 

²Verhavert, S., Bouwer, R., Donche, V., & De Maeyer, S. (2019). A meta-analysis on the reliability of comparative judgement. Assessment in Education: Principles, policy & practice, 26(5), 541-562. Link: https://www.tandfonline.com/doi/pdf/10.1080/0969594X.2019.1602027?casa_token=jkUUf2kviAQAAAAA:IpNFEQH1vcDjIQc3dz6Yl-dlOS4AqRZJ4fHnksy2-llneI5VnPYVFOoQh8yIt9_N92tHz2oPBEp17Q 

³Lesterhuis, M., Donche, V., De Maeyer, S., Van Daal, T., Van Gasse, R., Coertjens, L., Verhavert, S., Mortier, A., Coenen T., Vlerick Peter, …. (2015) Competenties kwaliteitsvol beoordelen : brengt een comparatieve aanpak soelaas? Tijdschrift voor hoger onderwijs – ISSN 0168-1095 – 33(2), p. 55-67 http://hdl.handle.net/10067/1283920151162165141 

Share this