10 okt Programmatisch toetsen
Leeruitkomsten, competenties, flexibel onderwijs… er zijn allemaal goede nieuwe ideeën bedacht, maar dan komt voor jou als docent de schone taak de vertaalslag te maken naar je dagelijkse praktijk. We willen zoveel mogelijk aansluiten bij de toekomstige werkpraktijk van de student, en toch vooral niet te veel focussen op evalueren/toetsen maar juist op leren. Hoe ziet dat er dan concreet uit in het onderwijs? Hoe evalueren we bijvoorbeeld brede leeruitkomsten waar veel onderliggende vaardigheden voor vereist zijn? Geen enkel individueel examen of toets gaat die hele leeruitkomst ‘vangen’. En ohja, het moest vooral over leren gaan. Programmatisch toetsen kan een antwoord bieden op deze vragen.
Want wat als we ons niet focussen op het optimaliseren van één examen of toets, maar verschillende meetmomenten met elkaar combineren om een holistisch oordeel te vormen van de competentie van een student? Dat is waar programmatisch toetsen om draait. In dit artikel leggen we het concept verder uit.
Een betrouwbaar en valide beeld vormen van competentie
Programmatisch toetsen is een manier van werken die zich niet makkelijk laat uitleggen in één zin. Daarom de volgende metafoor: Stel je voor dat je een foto maakt met je telefoon. De foto bestaat uit pixels. De pixels zijn allemaal datapunten, punten die je informatie geven over het uiteindelijke beeld dat je ziet. Heb je weinig pixels, dan is het beeld vaag. Je weet misschien nog niet zo goed wat je ziet. Heb je veel pixels, dan wordt het beeld veel duidelijker. Zelfs als er een keer een pixel op de verkeerde plek staat weten we wel wat we zien.
De pixels in de metafoor representeren de evaluaties of toetsen in een opleiding. We spreken bij programmatisch toetsen niet meer van evaluaties of toetsen, maar van datapunten. In onze traditionele aanpak van evalueren bestaat een datapunt uit soms maar één examen, waarmee we een (soms verregaande) claim maken over de competentie van een student. Je kan je afvragen of je dan wel een goed beeld hebt van die competentie. Het is vrijwel onmogelijk om de hele competentie in dat examen te krijgen. Daarnaast zijn er allerlei omstandigheden die mee kunnen spelen: had de student bijvoorbeeld een slechte dag, dan is je oordeel misschien onjuist. Er waren waarschijnlijk ongewenste beoordelaarseffecten aan het werk. Er bestaat geen enkel examen met perfecte betrouwbaarheid, validiteit, en impact op leren¹.
Programmatisch toetsen is werken met datapunten
Programmatisch toetsen is een manier van evalueren waarbij je minder afhankelijk wordt van de resultaten van één examen of toets om een beslissing te maken. Als je programmatisch toetsen inzet zorg je voor een groot aantal datapunten op basis waarvan je een beslissing maakt over de competentie van de student.
Datapunten kunnen van alles zijn: een gemaakte opdracht, feedback op een uitwerking in de les, resultaten van een stage, etc. Alle op zichzelf staande datapunten hebben zwaktes in o.a. validiteit en betrouwbaarheid, maar gebruik je genoeg datapunten dan middelen die zwaktes zich uit en kom je tot een goed onderbouwde beslissing.
Het verschil tussen feedback en een beslismoment
Datapunten dienen twee functies: zowel een feedbackfunctie als een beslisfunctie. Door op deze manier te werken is evalueren of toetsen niet meer een losstaand onderdeel van het leerproces, maar verweven met het onderwijs. Het verschil tussen evalueren en leren is als het ware vervaagd, je wil zorgen voor optimale constructive alignment².
In eerste instantie worden de datapunten vooral gebruikt voor het formatief handelen: waar staan studenten in hun leren? Zijn ze op de goede weg? Wat is er nog nodig? Hier speelt feedback een belangrijke rol. Er wordt uitgegaan van een actieve rol van studenten in het leerproces, wat ook betekent dat studenten de informatie over hun leren steeds meer zelf verzamelen en gebruiken.
Het daadwerkelijke beslissen over de competentie wordt pas gedaan als er genoeg datapunten zijn verzameld. Er wordt dus wél feedback gegenereerd op basis van één datapunt, maar er wordt nooit een beslissing gemaakt op basis van één datapunt. Uiteindelijk is het idee dat studenten door de vele feedback onderweg al weten welke beslissing er gaat komen.
De zwaarte van de beslissing bepaalt hoeveel datapunten er nodig zijn. Bepaal je of iemand een diploma behaald heeft, dan is het aantal datapunten vanzelfsprekend groot. Zo’n beslissing wordt idealiter gemaakt door een apart aangestelde commissie die met een onafhankelijke blik naar de datapunten kijkt.
Wil je nog meer weten over de praktische werking van beslismomenten en datapunten, lees dan hier verder. Als je programmatisch toetsen wil inzetten is het in ieder geval sterk aan te raden je vooraf goed in te lezen.
Fundamenteel anders denken
Programmatisch toetsen vraagt om een echt andere manier van kijken naar evaluatie. Dat is wellicht moeilijk concreet voor te stellen, dus een voorbeeld: in een opleiding wordt de omslag gemaakt naar programmatisch toetsen. Tegelijk wordt er nog een kennistest afgenomen waar grote consequenties aan hangen. Haal je het examen niet, dan ga je niet door naar het volgende jaar. Zelfs niet als je verder een goed oordeel hebt over je competenties tijdens het beslismoment aan het einde van het jaar. Docenten zijn huiverig om het examen als ‘maar’ een datapunt in te zetten. Vanuit docentoogpunt is deze gedachtegang heel logisch: als studenten bijvoorbeeld een beroep gaan uitoefenen waarbij (gebrek aan) kennis kan zorgen voor grote consequenties, wil je niet dat dit fout gaat. Vanuit de traditionele kijk op evaluatie ben je dan natuurlijk geneigd vast te houden aan dit examen.
Voordat je het examen toch weer inzet, kan je jezelf een aantal vragen stellen, denkend vanuit het programmatisch toetsen paradigma. Bijvoorbeeld: is dit ene examen valide en betrouwbaar genoeg om daadwerkelijk als enige datapunt tot een beslissing te leiden over de kennis en kunde van de student? Daarnaast zal een student in het werkende leven waarschijnlijk niet worden gevraagd een hele lijst met feitenkennis op te dreunen. De kennis wordt gebruikt in het handelen. Denkend vanuit constructive alignment zou je dus ook vooral de toepassing van die kennis willen evalueren in plaats van het herhalen ervan. Als je programmatisch toetsen implementeert gaat het erom dat je een beeld vormt van het gebruik van die kennis door middel van meerdere datapunten. Een kennistest kan eventueel als een datapunt dienen dat iets zegt over het leerproces van de student, maar voor een volledig beeld dat tot een beslissing kan leiden is in deze situatie eigenlijk meer informatie nodig.
Tegelijk bestaan er praktische kanttekeningen bij bovenstaande aanpak. Soms is het (bijvoorbeeld vanuit bestaande wetgeving) niet mogelijk zomaar wijzigingen aan te brengen aan bestaande evaluatiemethoden. In zo’n geval wordt er weleens voor gekozen bepaalde competenties wel programmatisch te toetsen, maar bijvoorbeeld de kennis alsnog apart te evalueren op de ‘traditionele’ manier. De overgang naar programmatisch toetsen is dan gedeeltelijk.
Programmatisch toetsen inzetten
Programmatisch toetsen is een mooie manier om je meer te richten op het leren van studenten en minder op het summatieve evalueren. Tegelijk wordt duidelijk dat onze ‘oude’ kijk op evaluatie het juist toepassen van programmatisch toetsen nog wel eens in de weg kan zitten³. Dat is niet gek, maar vraagt wel constante aandacht en actief werk. Zoals met meerdere onderwijsinnovaties zitten ook aan deze manier van werken de nodige haken en ogen. Wil je meer weten over mogelijke valkuilen van deze aanpak, lees dan hier verder.
Daarnaast is het belangrijk om je te realiseren dat programmatisch toetsen inzetten geen doel op zich moet zijn. Als je zoekt naar een vorm van evalueren die meer gaat over het leren dan over het beoordelen, kan programmatisch toetsen een heel waardevolle verandering zijn. Bekijk alleen wel kritisch of deze manier van werken daadwerkelijk geschikt is om dit doel te bereiken binnen je eigen context.
Comparatief beoordelen en programmatisch toetsen?
Als je programmatisch toetsen inzet, kan je comparatief beoordelen onder andere gebruiken als hulpmiddel in het formatieve proces. Comparatief beoordelen betekent werken met elkaar vergelijken. Dit is een intuïtief proces waaruit studenten veel kunnen leren⁴. Je kan bijvoorbeeld eens studenten elkaars werk comparatief laten beoordelen. Misschien leveren studenten hele andere producten (datapunten) aan, maar kunnen deze alsnog vergeleken worden omdat de producten over dezelfde leeruitkomst gaan. Studenten kunnen elkaar (anoniem) feedback geven over de leeruitkomst op basis van alle mogelijke voorbeelden die ze zien. Misschien zien ze daarbij ook dat er veel verschillende manieren zijn om te werken aan een leeruitkomst. Vervolgens kunnen ze in Comproved op basis van de feedback een actieplan maken om verder te werken aan hun leeruitkomst. Comparatief beoordelen kan makkelijk ingezet worden met onze comparing-tool. Wil je meer weten over het formatief inzetten van comparatief beoordelen? Download hier onze gids.
Voor het uiteindelijke summatieve beslismoment kan comparatief beoordelen ook interessant zijn. Onderzoek laat zien dat assessoren in een besliscommissie behoorlijk verschillend naar de datapunten kunnen kijken om tot hun beslissing te komen⁵. Comparatief beoordelen kan als een goed hulpmiddel dienen om met meerdere assessoren tot een betrouwbare beoordeling te komen. Meer weten? Stuur ons een bericht!
Literatuur
¹Van der Vleuten, C. P. M., Heeneman, S., & Schuwirth, L. W. T. (2021). Programmatic assessment. In J. Dent, R. M. Harden, & Hunt,D. (Eds.) A practical guide for medical teachers. (pp. 323- 327). Elsevier.
²Torre, D. M., Schuwirth L. W. T., & Van der Vleuten, C. P. M. (2020). Theoretical considerations on programmatic assessment, Medical Teacher, 42(2), 213-220. https://doi.org/10.1080/0142159X.2019.1672863
³Govearts, M., Van der Vleuten, C. P. M., & Schut, S. (2022). Implementation of programmatic assessment: challenges and lessons learned. Education Sciences, 12(10), 717. https://doi.org/10.3390/educsci12100717
⁴Nicol, D. (2021). The power of internal feedback: exploiting natural comparison processes. Assessment & Evaluation in Higher Education, 46(5), 756-778. https://doi.org/10.1080/02602938.2020.1823314
⁵Oudkerk Pool, A., Govaerts, M.J.B., Jaarsma, D.A.D.C. & Driessen, E.W. (2018). From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio. Adv in Health Sci Educ 23, 275–287. https://doi.org/10.1007/s10459-017-9793-y