31 jan Onderzoeksbijeenkomst: wetenschappers stellen hun werk rond comparatief beoordelen voor
Op vrijdag 2 december organiseerde Comproved een onderzoeksbijeenkomst rond comparatief beoordelen. De bedoeling van die bijeenkomst was om onderzoekers uit het veld samen te brengen om elkaar en elkaars werk beter te leren kennen, om overlap en hiaten te detecteren, en om de impact van het onderzoek op het onderwijs en de comparing-tool te bespreken.
Het werd een gezellige en vooral leerrijke namiddag met boeiende presentaties, interessante discussies, luchtige intermezzo’s en zo nu en dan een aha-erlebenis. We vatten hier enkele presentaties voor je samen.
Lezen tijdens het beoordelen
Eerste onderzoeker aan het woord was Sven de Maeyer, hoogleraar aan het departement Opleidings- en onderwijswetenschappen van de UAntwerpen en als promotor al van in het begin betrokken bij het onderzoeksproject dat later Comproved zou worden. Op de onderzoeksbijeenkomst presenteerde De Maeyer zijn bevindingen uit zijn onderzoek naar ‘rater cognition’, oftewel de mentale processen die zich bij beoordelaars afspelen tijdens het beoordelen.
Bestaande studies rond dit onderwerp maken meestal gebruik van zelfrapportage en think-aloud methodes. Daarbij focust men voornamelijk op de interpretatie van de beoordelingscriteria en niet zozeer op het lezen van de tekst zelf. De Maeyer wou achterhalen wat en hoe beoordelaars precies lezen wanneer ze een tekst beoordelen. Daarom besloot hij ditmaal gebruik te maken van de eye-trackingtechniek. Zijn er verschillen in leesgedrag te detecteren? En als dat het geval is, hebben factoren als de tekst, de persoon van de beoordelaar, of de beoordelingstaak dan invloed op die verschillen? Dat zijn vragen die De Maeyer hoopte te beantwoorden.
23 beoordelaars, ervaren in het beoordelen van argumentatieve teksten, namen deel aan het onderzoek. Elke beoordelaar beoordeelde teksten met twee verschillende methodes, namelijk analytisch beoordelen met een criterialijst en comparatief beoordelen met paarsgewijs vergelijken. Met een eye-tracker werden de zogenaamde ‘dwelling times’, de tijd die de lezer in de tekst doorbrengt, gemeten.
Die metingen onthulden wel degelijk twee verschillende manieren van lezen: de ‘short visits’ oftewel het scannen van de tekst en de ‘long visits’ oftewel het diep lezen van de tekst. De overgang van het ene gedrag naar het andere is een vloeiend proces van eerst diep lezen naar dan scannen. Daarnaast verschilden beoordelaars onderling in duur van scannen en duur van diep lezen en in de waarschijnlijkheid dat ze aan diep lezen zouden doen. Dus, sommige beoordelaars deden meer aan diep lezen dan andere.
Opvallend was dat de beoordelingsmethode ook invloed had op het lezen. Tijdens het comparatief beoordelen was het diep lezen korter dan bij het analytisch beoordelen, maar het gebeurde vaker. De duur en de frequentie van het scannen was ongeveer hetzelfde in beide condities. Verder onderzoek is nodig om de resultaten te verklaren en te achterhalen of leesgedrag de kwaliteit van de beoordeling beïnvloedt.
Tekstmining voor comparatief beoordelen
Next up was Michiel De Vrindt, doctoraatsonderzoeker in de statistische modellering aan de KULeuven en Comproveds nieuwste aanwinst. Tijdens de onderzoeksbijeenkomst besprak hij enkele uitdagingen waar het comparatief beoordelen mee te maken heeft en hoe hij die met behulp van tekstmining-technieken zal proberen te verhelpen.
Een van die problemen heeft te maken met de efficiëntie van het beoordelingsproces. Momenteel gebruikt de comparing-tool voor het samenstellen van paren een willekeurig selectiealgoritme. Hierdoor heb je echter een hoog aantal vergelijkingen nodig om tot een hoge betrouwbaarheid te komen.
Om het samenstellen van een betrouwbare rangorde te versnellen, stelt de literatuur een adaptief selectiealgoritme voor. Dit algoritme selecteert op basis van de reeds beschikbare kwaliteitsschattingen steeds het meest informatieve paar voor de volgende vergelijking. Het adaptief selectiealgoritme botst echter op het zogenaamde ‘cold-start’ probleem. Aan het begin van een beoordelingsproces kan je immers nog geen paren adaptief samenstellen omdat de kwaliteitsschattingen pas beschikbaar zijn na een aantal vergelijkingen. Kortom, momenteel is er dus geen optimaal selectiealgoritme.
Om dit probleem op te lossen, zal De Vrindt onderzoeken wat de mogelijkheden zijn met tekstmining-technieken. In een eerste studie maakte hij reeds gebruik van de tekstuele informatie om paren samen te stellen. Meer bepaald, de teksten met de grootste semantische gelijkenis stelde hij voor om als eerste te vergelijken. Doordat deze techniek uitgevoerd kan worden voorafgaand aan de eerste vergelijking, kunnen teksten vervolgens vanaf de start met het adaptieve selectiealgoritme vergeleken worden. Hiermee is het cold-start probleem dus opgelost.
Verder waren de resultaten ook veelbelovend omdat er minder vergelijkingen nodig waren om een betrouwbare rangorde te bekomen. Bovendien lag de betrouwbaarheid 2-3% hoger dan bij de methode met het willekeurig selectiealgoritme.
Een oplossing voor de ongelijke verdeling van feedback
Vervolgens was Bram Vaessen aan het woord. Vaessen is computerprogrammeur en onderwijswetenschapper. Als freelance programmeur voor Comproved constateerde hij dat producten tijdens een assessment met de comparing-tool een ongelijk aantal keren feedback ontvingen.
De oorzaak van die ongelijke distributie van feedback lag in het feit dat het selectiealgoritme voor het samenstellen van paren zich enkel baseert op het aantal vergelijkingen per product. Het algoritme verdeelt de producten namelijk zo dat ze allemaal even vaak vergeleken worden. Het systeem hield echter geen rekening met hoe vaak er al feedback werd gegeven.
Stel dat je als beoordelaar in totaal 10 vergelijkingen moest maken en op 4 van die 10 feedback moest geven, dan vroeg het systeem je in de laatste 4 vergelijkingen om feedback. Het probleem is dat bij de laatste vergelijkingen vaak hetzelfde product, namelijk het product dat nog niet voldoende vergeleken is, verschijnt. In dat geval kan het dat je een product ziet waarop je al eens feedback hebt gegeven. Je gaat geen tweede keer op hetzelfde product feedback geven, dus je geeft in totaal minder feedback. Zo komt het dat niet alle producten even veel feedback ontvingen. Soms zelfs in die mate dat het ene product 11 maal feedback ontving en het andere slechts 2 maal.
Vaessen ging dus op zoek naar een oplossing. De uitdaging daarbij was om het selectiealgoritme onveranderd te laten want het is belangrijk dat elk product even vaak vergeleken wordt. Hij behield dus het algoritme, maar maakte het slimmer.
Voor elk paar berekent het systeem nu een feedbackscore. Producten die al feedback ontvingen, krijgen een lagere score dan producten die nog geen feedback ontvingen. Als een paar verschijnt met een hoge feedbackscore, zal het systeem de beoordelaar om feedback vragen. In de mate van het mogelijke gebeurt dat zo veel mogelijk aan het einde van het assessment. Met dit nieuwe systeem is het verschil tussen het aantal keren feedback per product nu veel kleiner. Een hele verbetering dus!
Het motto van Comproved is ‘beoordeel beter, leer meer’ en dat is de perfecte samenvatting van deze onderzoeksbijeenkomst. We zagen een reeks boeiende onderzoeken, zowel heel technisch met betrekking op de systemen achter comparatief beoordelen en de comparing-tool, als meer praktisch en toepasbaar met betrekking op het leren bij studenten en docenten. Het belang van onderzoek en samenwerken werd nog maar eens benadrukt. Het is heel waardevol wanneer onderzoekers gebruikmaken van en verderbouwen op elkaars inzichten.
Verder concludeerden de onderzoekers dat het een meerwaarde zou zijn als er meer interactie kwam tussen de wetenschap en de praktijk. Onderzoekers zouden zo makkelijker aan onderzoeksdata komen en gebruikers kunnen op hun beurt profiteren van een evidence-based tool. Wij brainstormen alvast over een gebruikersconferentie. Stay tuned!
Wil je meer te weten komen over comparatief beoordelen en de comparing-tool? Download ons e-book!