Achtergrond

Als team hebben we een grote expertise in comparatief beoordelen opgebouwd. We hebben de inzichten uit onderzoek en de praktijkverhalen verzameld om de achtergrond van comparatief beoordelen en Comproved duidelijk te maken.

Wie graag verder de wetenschappelijke artikelen in duikt vindt hier ook alle publicaties die de afgelopen jaren zijn verschenen. 

Veel gestelde vragen

Wat is comparatief beoordelen?

Comparatief beoordelen = vergelijkingen maken. En dat doe je bijna zonder erbij na te denken. Zo is het onbegonnen werk om in te schatten op welke hoogte een overvliegend vliegtuig vliegt. Maar als er twee vliegtuigen overvliegen, zie je snel welke van de twee het hoogst in de lucht hangt. Het principe van comparatief beoordelen is dus: je beoordeelt werkstukken niet als losse producten maar in relatie tot elkaar. Uit twee taken kies je telkens de beste. Door alle producten op deze manier paarsgewijs te vergelijken, kom je tot een rangorde van ‘minst goed’ naar ‘topper’.

Comparatief beoordelen weerspiegelt de consensus tussen beoordelaars. En dat zonder ellenlange discussies, maar gewoon door het statistisch model achterliggend aan de methode (Bradley-Terry-Luce). Dat berekent een kwaliteitsschaal van mindere naar betere kwaliteit. Het is ook snel duidelijk welke beoordelaars afwijken van de consensus, dus wie vaak anders kiest, én over welke producten de meningen sterk verdeeld zijn. Dat levert nuttige informatie op die verder uitgediept kan worden.

Comparatief beoordelen kiest voor een holistische aanpak: de taak wordt in zijn geheel beoordeeld. Dit in tegenstelling tot analytische methodes die meestal werken met criterialijsten: een werkstuk wordt tot in detail geanalyseerd door deelaspecten en deelcompetenties te bekijken.

Wat zijn de belangrijkste voordelen van comparatief beoordelen?

Betrouwbare resultaten

Onderzoek heeft aangetoond dat comparatief beoordelen tot heel betrouwbare resultaten leidt. Dat komt omdat vergelijken cognitief gezien een eenvoudigere taak is dan bijvoorbeeld beoordelen aan de hand van een criterialijst. Wanneer je als docent taken in paren vergelijkt, zal je – dankzij je expertise – moeiteloos kunnen antwoorden op de vraag welk werkstuk het beste van de twee is.

Omdat vergelijken gemakkelijker is, neem je ook consistentere beslissingen. Hetzelfde werkstuk zal in een vergelijking er dan ook telkens bovenuit steken, ongeacht het moment van de dag of welke taken je ervoor al hebt gezien. Als beoordelaar mag je dus vrij zeker zijn van je oordeel.

Hoge validiteit

Validiteit heeft te maken met dat je daadwerkelijk de competentie beoordeelt die beoordeeld moet worden. Het probleem met complexe competenties is echter dat ze meestal niet te vatten zijn in een te strak kader. Onderzoek stelt vast dat er bij analytische beoordelingsmethoden veel overlap is tussen de aspecten die moeten worden onderscheiden. Bovendien duw je het grotere geheel buiten beeld door in te zoomen op de onderdelen. Dat alles maakt het beoordelen moeilijk én inefficiënt.

Door op een meer holistische manier te beoordelen, wat het geval is bij comparatief beoordelen, nemen beoordelaars automatisch meer criteria in acht. Ook de criteria die niet expliciet gemaakt worden in criterialijsten of rubrieken, maar die wel relevant zijn. Door bovendien met enkele collega’s samen te beoordelen en verschillende blikken te combineren, worden de verschillende (kleine) aspecten van een competentie beter onder de loep genomen. Je beoordeelt de competentie dus in zijn volledigheid.

Efficiënt

Nog een van de voordelen van comparatief beoordelen is dat het je een zekere tijdswinst oplevert. Versta me niet verkeerd, beoordelen is sowieso een tijdrovende klus, op welke manier je het ook aanpakt. Maar, als je denkt dat comparatief beoordelen je dubbel werk levert omdat je in paren beoordeelt, heb je het ook niet helemaal bij het rechte eind. Bij paren met een duidelijk kwaliteitsverschil is het snel duidelijk welk product het beste is. Zijn de producten van gelijkaardige kwaliteit, dan gaat het logischerwijze trager. Maar de totale beoordelingstijd zal meestal niet langer zijn dan bij een beoordeling met een criterialijst.

De grootste tijdswinst in comparatief beoordelen? Er moeten geen criterialijsten ontwikkeld, gevalideerd en gekalibreerd worden. Comparatief beoordelen vertrouwt op de expertise van beoordelaars, wat heel betrouwbaar is gebleken. Bovendien werkt het intuïtief. Beoordelaars moeten niet getraind worden om naar (dezelfde) aspecten te leren kijken.

Extra leerkansen voor studenten

Hoe je de methode ook inzet, ze levert sowieso mooie leerkansen op voor studenten. Nadat alle producten vergeleken zijn, zou je bijvoorbeeld de studenten de rangorde van de werken kunnen laten inkijken. Zo kunnen ze beter inschatten waar ze zelf staan. Ze krijgen immers de kans om betere en minder goede voorbeelden van de taak te bekijken en ontdekken ze op die manier waarom die van hun eigen werk verschillen in competentieniveau.

Wanneer je de methode formatief gebruikt voor een peerassessment, komen er nog leerkansen bij. Zo is het (anoniem) beoordelen van werkstukken van medestudenten een leerkans op zich. Door de werken in een vergelijking met elkaar af te wegen, leren studenten immers bottom-up om de belangrijkste aspecten in kwaliteitsvolle taken te herkennen. Door deze expliciet te benoemen in de feedback die ze hun medestudenten geven, activeren ze deze kennis ook bij zichzelf, wat (hopelijk) hun vervolgwerken ten goede komt.

Kan je comparatief beoordelen ook formatief inzetten?

Ook formatief is comparatief beoordelen goed in te zetten.

Beoordeel je met collega-docenten? Dan produceer je in de eerste plaats leerkansen door de rijke feedback. Omdat de studenten de rangorde van de werken kunnen inkijken, kunnen ze bovendien beter inschatten waar ze zelf staan. Ze krijgen de kans om betere en minder goede voorbeelden van de taak te bekijken en ontdekken op die manier waarom die van hun eigen werk verschillen in competentieniveau. Dat zijn twee duidelijke leerkansen.

Gebruik je de methode voor peerassessment? Dan komen er nog leerkansen bij. Zo is het (anoniem) beoordelen van werkstukken van medestudenten een leerkans op zich. Door de werken in een vergelijking met elkaar af te wegen, leren studenten immers bottom-up om de belangrijkste aspecten in kwaliteitsvolle taken te herkennen. Door deze expliciet te benoemen in de feedback die ze hun medestudenten geven, activeren ze deze kennis ook bij zichzelf, wat (hopelijk) hun vervolgwerken ten goede komt.

Wat is Comproved en hoe werkt het?

Comproved is een spin-off, gegroeid uit een project van onderzoekers van de Universiteit Antwerpen, Universiteit Gent en imec. De centrale vraag van dat onderzoeksproject was: wat is de meerwaarde van comparatief beoordelen voor de evaluatie van complexe vaardigheden? Uit dit project is Comproved gegroeid.

Comproved wil docenten en assessors helpen om eerlijk en kwaliteitsvol te beoordelen door hen kennis én tooling aan te reiken. Zo ontwikkelde Comproved een digitale tool die comparatief beoordelen ondersteunt. Als je pakweg 50 of 100 taken moet rangschikken van ‘minst goed’ naar ‘topper’, is het praktisch niet haalbaar om zelf paren willekeurig te gaan samenstellen. De comparing-tool automatiseert dit proces en maakt het mogelijk om in een online omgeving snel en betrouwbaar producten paarsgewijs te vergelijken.

Hoe werkt Comproved?

  • De studenten uploaden hun werk in de digitale tool, volledig anoniem.
  • De beoordelaar krijgt vervolgens een reeks paren te zien die willekeurig zijn samengesteld en kiest telkens het beste werkstuk van de twee. Elk product wordt even vaak vergeleken: het algoritme selecteert voor een nieuw paar altijd het product dat het minst vergeleken werd.
  • Voor nog meer zekerheid over welk werkstuk het beste is, maakt de tool gebruik van meerdere beoordelaars. Elke beoordelaar krijgt dezelfde producten te zien, maar in verschillende combinaties.
  • Uiteindelijk brengt de tool al deze input samen. Het resultaat: een kwaliteitsschaal die de producten in een rangorde plaatst.
Wat zijn de belangrijkste voordelen van Comproved?
  • De tool is gebruiksvriendelijk. De studenten uploaden hun eigen werk, waarna de tool vergelijkingen construeert en uitstuurt naar de beoordelaars. De tool berekent de rangorde en levert de feedback
    aan de studenten.
  • Als docent kun je met Comproved snel en eenvoudig assessments opzetten en beheren. Bovendien zijn er tal van opties om het assessment naar je hand te zetten: hoeveel vergelijkingen wil je per beoordelaar laten maken en welke feedback vraag je (met of zonder criteria)?
  • De tool geeft docenten meer houvast door de scores te baseren op meerdere beoordelingen en de expertise van beoordelaars te combineren.
  • Houvast is er ook in de vorm van een team van experts. De Comproved-Academy deelt zijn kennis, inzichten en knowhow via publicaties, presentaties en adviezen op maat. Docenten en onderwijsteams die met de tool aan de slag willen, kunnen rekenen op inhoudelijke opleiding en begeleiding. De Comproved Academy geeft webinars en workshops, zowel kennis- als praktijkgericht.
  • Handig: de comparing-tool is ‘stand alone’ beschikbaar in de cloud-omgeving, maar kan ook perfect geïntegreerd worden in Learning Management Systems (LMS), zoals Blackboard, Canvas of Brightspace.
Voor welk soort beoordelingen kan Comproved worden ingezet?
  • Bij formatief handelen ligt de nadruk op het leerproces en op de sterke punten en de verbeterpunten. Ontwikkelingsgerichte feedback is hierbij extra belangrijk. De comparing-tool heeft een functie die uitgebreide feedback mogelijk maakt. Studenten leren ook veel van het geven van feedback op elkaars werk. De tool is daarom bijzonder geschikt voor peerassessments (opgezet in een handomdraai!), waarbij leerlingen elkaars producten beoordelen en van feedback voorzien.
  • Bij een summatieve beoordeling, waarbij je bepaalt of een student het verwachte prestatieniveau behaalt, helpt de tool om eerlijk, objectief en kwalitatief te oordelen. De resultaten zijn valide en meer betrouwbaar dan gangbare methoden, want meerdere beoordelaars zorgen voor meerdere perspectieven en elk product wordt meerdere keren met andere producten vergeleken. De studenten kunnen achteraf hun eigen werk, de feedback en de andere werken bekijken.
  • Live jureren doe je bijvoorbeeld met fysieke producten die niet digitaliseerbaar zijn, zoals een installatie of een maquette. Elk werkstuk krijgt een code toegewezen. De jury wordt aan de hand van Comproved ‘in het echt’ door de producten geleid en moet telkens twee producten vergelijken, de beste aanduiden en feedback geven. De resultaten weerspiegelen de consensus van de juryleden.
  • Met de comparing-tool is het niet nodig dat de beoordelaars fysiek bij elkaar zijn of op hetzelfde moment evalueren. Ze kunnen perfect op afstand beoordelen: waar en wanneer het voor elk van hen past, helemaal onafhankelijk van tijd en ruimte. Er hoeft op die manier geen rekening te worden gehouden met afstanden of al dan niet matchende
    agenda’s.
  • De tool kan ingezet worden in elke context waarin complexe beoordelingen moeten gebeuren en een selectie moet worden gemaakt. Denk bijvoorbeeld aan het evalueren van subsidie- en projectvoorstellen. Bij personeelsrekrutering kan de tool dan weer helpen om uit een heleboel cv’s snel en efficiënt de beste kandidaten te weerhouden. Zelfs bij het nadenken over de visie of missie van een bedrijf of afdeling kan het een handig hulpmiddel zijn: welke thema’s vinden wij als groep het belangrijkst?
achtergrond comproved

Blijft het allemaal wat abstract? Lees de verhalen van onze gebruikers!

Meer weten?

Wanneer is comparatief beoordelen zinvol?
Hoeveel beoordelaars heb je nodig?
Neemt comparatief beoordelen meer tijd in beslag?
Kan je ook groepswerken comparatief beoordelen?

Lees alle vragen en antwoorden

Wetenschappelijke publicaties

Comproved is een evidence-based tool gebaseerd op bijna 10 jaar wetenschappelijk onderzoek naar comparatief beoordelen. We hebben alle wetenschappelijke publicaties verzameld en de meest recente artikelen uitgelicht.

Comparative approaches to the assessment of writing: Reliability and validity of benchmark rating and comparative judgement

Renske Bouwer, Marije Lesterhuis, Fien De Smedt, Hilde Van Keer & Sven De Maeyer (2023)

Er zijn op dit moment twee manieren om schrijfopdrachten comparatief te beoordelen: met het gebruik van zogenoemde ‘benchmarks’ (ankerteksten) of door comparative judgement. In de eerste methode vergelijk je elke opdracht met de ankerteksten die exemplarisch zijn voor een bepaald niveau. De ankertekst heeft ook een beschrijving dat aangeeft waarom de tekst beter of minder goed is dan de volgende ankertekst. Comparative judgement houdt in dat je de teksten alleen met elkaar vergelijkt en geen ankerteksten gebruikt.

Beide manieren van werken zorgden volgens dit onderzoek voor een consistente beoordeling, maar het lijkt alsof het gebruik van ankerteksten ervoor zorgt dat beoordelaars vaker kiezen voor de beoordeling in het midden van de schaal en minder voor hele goede of hele slechte beoordelingen. De suggestie wordt gegeven om misschien een combinatie te maken van beide comparatieve beoordelingsmethoden.

Lees het hele artikel hier

Peer overmarking and insufficient diagnosticity: the impact of the rating method for peer assessment

Florence van Meenen, Liesje Coertjens, Marie-Claire Van Nes & Franck Verschuren (2022)

In dit onderzoek beoordelen peers elkaars werk zowel op de analytische manier (met een criterialijst of rubric) als door comparatief beoordelen. Als de beoordelingen van de studenten met die van de docenten worden vergeleken, blijkt er bij de analytische beoordelingsmethode maar een kleine overeenkomst te zitten tussen hun beoordelingen. De studenten herkennen de essays van ondermaatse kwaliteit niet. Als comparatief wordt beoordeeld, is de overeenkomst tussen de student- en docentbeoordelingen wel acceptabel. Studenten herkennen nu wel de essays van ondermaatse kwaliteit. De resultaten laten zien dat comparatief beoordelen in dit geval voor betere beoordelingen zorgde.

Lees het hele artikel hier

Alle publicaties

Boeken

  • Bouwer, R., Goossens, M., Mortier, A. V., Lesterhuis, M., & De Maeyer, S. (2018). Een comparatieve aanpak voor peer assessment: Leren door te vergelijken. In D. Sluijsmans & M. Segers (Eds.), Toetsrevolutie: Naar een feedbackcultuur in het hoger onderwijs (p. 92-106). Culemborg, NL: Phronese.
  • Deneire, A., De Groof, J., Coertjens, L., Donche, V., Vanhoof, J., & Van Petegem, P., & De Maeyer, S. (2022). De kwaliteit van grootschalige ‘performance assessments’ gewikt en gewogen. Antwerpen: Edubron. Link
  • Settembri P., Van Gasse R., Coertjens L., De Maeyer S. (2018) Oranges and Apples? Using Comparative Judgement for Reliable Briefing Paper Assessment in Simulation Games. In: Bursens P., Donche V., Gijbels D., Spooren P. (eds), Simulations of Decision-Making as Active Learning Tools. Professional and Practice-based Learning, vol 22. Springer, Cham. Link

Wetenschappelijke artikelen

  • Bouwer, R., Lesterhuis, M., Bonne, P., & De Maeyer, S. (2018, October). Applying criteria to examples or learning by comparison: Effects on students’ evaluative judgment and performance in writing. In Frontiers in Education(Vol. 3, p. 86). Link
  • Bouwer, R., Lesterhuis, M., De Smedt, F., Van Keer, H., & De Maeyer, S. (2023). Comparative approaches to the assessment of writing: Reliability and validity of benchmark rating and comparative judgement. Journal of Writing Research. Link
  • Coenen, T., Coertjens, L., Vlerick, P., Lesterhuis, M, Mortier, A. V., Donche, V., Ballon, P., & De Maeyer, S. (2018). An information system design theory for the comparative judgement of competences. European Journal of Information Systems, 27(2), 248-261. Link 
  • Coertjens, L., Lesterhuis, M., Verhavert, S., Van Gasse, R., & De Maeyer, S. (2017). Teksten beoordelen met criterialijsten of via paarsgewijze vergelijking: een afweging van betrouwbaarheid en tijdsinvestering. Pedagogische Studiën, 94(4), 283–303. Link
  • Coertjens, L., Lesterhuis, M., De Winter, B. Y., Goossens, M., De Maeyer, S., & Michels, N. R. (2021). Improving Self-Reflection Assessment Practices: Comparative Judgment as an Alternative to Rubrics. Teaching and Learning in Medicine33(5), 525-535. Link
  • Goossens, M., & De Maeyer, S. (2018). How to obtain efficient high reliabilities in assessing texts: rubrics vs comparative judgement. Proceedings of Communications in Computer and Information Science. Berlin: Springer-Verlag. Link
  • Lesterhuis, M. (2018). When teachers compare argumentative texts: Decisions informed by multiple complex aspects of text quality. Educational Studies in Language and Literature18(1). Link
  • Lesterhuis, M., Verhavert, S., Coertjens, L., Donche, V., & De Maeyer, S. (2017). Comparative judgement as a promising alternative to score competences. In Innovative practices for higher education assessment and measurement(pp. 119-138). IGI Global. Link
  • Lesterhuis, M., Donche, V., De Maeyer, S., Van Daal, T., Van Gasse, R., Coertjens, L., … & Van Petegem, P. (2015). Competenties kwaliteitsvol beoordelen: brengt een comparatieve aanpak soelaas? Tijdschrift voor hoger onderwijs ISSN 0168-1095 – 33:2(2015), p. 55-67. Link
  • Mortier, A., Brouwer, R., Coertjens, L., Volckaert, E., Vrijdags, A., Van Gasse, R., … & De Maeyer, S. (2019). De comparatieve beoordelingsmethode voor een betrouwbare en valide cv-screening: een vergelijking tussen experts en studenten. Gedrag & Organisatie32(2). Link
  • Mortier, A. V., Lesterhuis, M., Vlerick, P., & De Maeyer, S. (2015). Comparative judgement within online assessment: Exploring students feedback reactions. Proceedings of Communications in Computer and Information Science 571, 69-79Link
  • Van Daal, T., Lesterhuis, M., Coertjens, L., van de Kamp, M.-T., Donche, V., & De Maeyer, S. (2017). The Complexity of Assessing Student Work Using Comparative judgement: The Moderating Role of Decision Accuracy. Frontiers in Education, 2, 1–14. Link
  • van Daal, T., Lesterhuis, M., Coertjens, L., Donche, V., & De Maeyer, S. (2019). Validity of comparative judgement to assess academic writing: Examining implications of its holistic character and building on a shared consensus. Assessment in Education: Principles, Policy & Practice26(1), 59-74. Link
  • Van Meenen, F., Coertjens, L., Van Nes, MC., & Verschuren, F. (2022). Peer overmarking and insufficient diagnosticity: the impact of the rating method for peer assessment. Advances in Health Science Education 27, 1049–1066. Link
  • Gasse, R. V., Mortier, A., Goossens, M., Vanhoof, J., Petegem, P. V., Vlerick, P., & Maeyer, S. D. (2016, October). Feedback opportunities of comparative judgement: An overview of possible features and acceptance at different user levels. In International Computer Assisted Assessment Conference(pp. 23-38). Springer, Cham. Link
  • Van Gasse, R., Bouwer, R., Goossens, M., & De Maeyer, S. (2017). Competenties kwaliteitsvol beoordelen met D-PAC. Examens: Tijdschrift voor de Toetspraktijk, 1(1), 11-17.
  • Van Gasse, R., Lesterhuis, M., Verhavert, S., Bouwer, R., Vanhoof, J., Van Petegem, P., & De Maeyer, S. (2019). Encouraging professional learning communities to increase the shared consensus in writing assessments: The added value of comparative judgement. Journal of Professional Capital and Community. Link
  • Verhavert, S., Bouwer, R., Donche, V., & De Maeyer, S. (2019). A meta-analysis on the reliability of comparative judgement. Assessment in Education: Principles, policy & practice26(5), 541-562. Link
  • Verhavert, S., De Maeyer, S., Donche, V., & Coertjens, L. (2017). Scale separation reliability: what does it mean in the context of comparative judgement? Applied Psychological Measurement, 9, 1-18. Link
  • Verhavert, S., Furlong, A., & Bouwer, R. (2022). The accuracy and efficiency of a reference-based adaptive selection algorithm for comparative judgement. In Frontiers in Education(p. 553). Link

Presentaties, dissertaties

  • Coertjens, L., Lesterhuis, M., De Winter, B., De Maeyer, S., & Michels, N. (2017). Assessing self-reflections in medical education using Comparative Judgement. In European Association for Research in Learning and Instruction (EARLI).
  • De Smedt, F., Lesterhuis, M., Bouwer, R., De Maeyer, S., & Van Keer, H. (2017). Het beoordelen van teksten: de beoordelingsschaal aan de hand van ankerteksten en de paarsgewijze vergelijking. In Onderwijs Research Dagen 2017.
  • Lesterhuis, M., Mortier, A., Donche, V., Coertjens, L., Vlerick, P., & De Maeyer, S. (2016). Feedback op schrijven: wat heeft de comparatieve methode te bieden?. In Onderwijs Research Dagen.
  • Mortier, A., Lesterhuis, M., Vlerick, P., & De Maeyer, S. (2015). Comparative judgment within online assessment. In (Digitaal) toetsen en leren integreren. Presented at the (Digitaal) toetsen en leren integreren, Utrecht, The Netherlands
  • Verhavert, S. (2018). Beyond a mere rank order: The method, the reliability and the efficiency of comparative judgment (Doctoral dissertation, University of Antwerp).

Mastertheses

  • De Kinder, T. (2016). Generaliseerbaarheid van performance assessment met behulp van paarsgewijze vergelijking (Master’s thesis). University of Antwerp, Belgium.
  • Maquet, T. (2018). Beoordelingsprocessen van experten en novieten bij comparatief beoordelen van schrijfopdrachten (Master’s thesis). University of Antwerp, Belgium.