Bemærk
Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.
Folketinget vedtog i 2015, at de skriftlige prøver fremover kun skulle bedømmes af én statsligt beskikket censor og ikke som tidligere af klassens lærer plus en ekstern censor. Formålet var dels at spare lærertid, dels at sikre eleverne en objektiv bedømmelse. Modellen vakte stor bekymring hos lærerne - både for elevernes retssikkerhed, når der kun er én bedømmer, og for lærernes mulighed for at se resultatet af deres arbejde. En følgegruppe af forskere har fulgt den nye prøveform, og gruppens rapport offentliggøres i dag.
Er bedømmelserne korrekte og retfærdige med kun én censor?
"Ja, det er jo 100.000 kroners-spørgsmålet", siger professor emeritus Jens Dolin fra den følgegruppe, som står bag rapporten. "Men sagen er, at sådan en bedømmelse aldrig kan blive 100 procent korrekt, og det er en af de ting, vi tillader os at sige i den her rapport. Derfor skal man også passe på med at bruge sådan en bedømmelse til at bestemme elevernes fremtid".
Men følgegruppen synes overordnet, at modellen er bæredygtig, hvis vel at mærke, der tilføjes en form for tilbagemelding fra censor til læreren. Det er det alvorligste problem ved den nye model, mener følgegruppen - at læreren går glip af den viden, som en ekstern bedømmelse af klassens præstationer ved afslutningen af 10 års undervisning rummer.
Anonymisering fungerer ikke
"69 procent af censorerne siger selv i vores spørgeskema, at deres bedømmelse har højere pålidelighed end tidligere. Det skyldes sparregrupper for censorerne, og at retningslinjerne for bedømmelse er blevet mere præcise, så de føler sig mere sikre og trygge i deres bedømmelse", siger Jens Dolin og understreger, at censorkorpset kan blive endnu mere professionaliseret, end det allerede er sket.
Følgegruppen sendte efter prøverne i 2016 et spørgeskema til 428 censorer, der havde bedømt engelsk-, dansk- og matematik-prøver i 9. klasse. 357 af dem svarede på et spørgsmål om, hvad de syntes som den nye ordning, og af dem syntes halvdelen, at den fungerede 'godt' eller 'særdeles godt' og 30 procent, at den fungerede 'nogenlunde'. Og flertallet af dem mener, at deres bedømmelse er blevet mere sikker end før.
Men ideen om, at eleverne nu bliver bedømt helt objektivt, fungerer kun delvist. Censor kender ikke eleverne personligt og kan derfor ikke lade sig påvirke af, hvordan eleverne for eksempel opfører sig i timerne. Men helt anonyme er eleverne ikke, for et flertal af censorerne svarer i spørgeskemaet, at de kan se elevens køn og/eller etnicitet hos mere end hver fjerde elev. Opgaverne er nemlig mærket med elevens Uni-login, der består af de første fire bogstaver i elevens fornavn plus fire anonyme tal. Så hedder man fx Lærke eller Mohammed, er både køn og etnicitet åbenlyse for censor.
Følgegruppen har fået genbedømt 150 opgaver fra sommeren 2016, denne gang 100 procent anonymiseret, og fået statistikprofessor Helle Sørensen, København Universitet, til at regne på resultaterne. Der viser sig en svag tendens til, at indvandrerelever har en minimal fordel ved ikke-anonyme bedømmelser, mens drenge har en lille fordel ved anonyme bedømmelse i dansk, og piger en lille fordel i matematik. Men ingen af delene er statistisk signifikante.
"Så det viser, at censorerne ikke er biased", fremhæver professor Jens Dolin.
Gruppen mener derfor, det går an med Uni-login ind til videre. Men helt principielt, og fordi der altså var nogle bittesmå forskelle i genbedømmelserne, anbefaler gruppen, at man på længere sigt udvikler et mere anonymt prøvenummersystem.
Skriftlige prøver bliver alligevel ikke helt anonyme
Større præcision i matematik end dansk
En stor bekymring i forhold til, at elevernes egne lærere ikke længere er involveret har været, at de jo meget nemmere opdager, hvis der er sket en banal, men alvorlig fejl, hvor censor for eksempel har fået byttet om på to elevers karakterer. Derfor har et hovedemne for følgegruppen været at se på, om eleverne får en pålidelig bedømmelse, når der nu kun er én persons øjne på opgaven. 150 elevers afgangsprøver i dansk og matematik blev genbedømt af samme censor igen plus en kontrolretter og en ekspertretter (udpeget af læringskonsulenterne). Og resultatet er, at den enkelte censor er lige så uenig med sig selv som med som med en anden censor!
Samlet set er sandsynligheden for, at to karakterer givet af to forskellige censorer er ens 0,40 i dansk og 0,72 i matematik.
"Om ikke andet viser tallene med stor tydelighed, hvor forsigtig man skal være med at lægge prøvekarakterer til grund for elevselektion", påpeger følgegruppen og understreger, at den lave rettepålidelighed i dansk dels skyldes vanskelighederne ved at opstille stringente rettekriterier for dansk stil uden at påvirke undervisningen i negativ retning, dels at bedømmelse af essaylignende opgaver vil afspejle "bedømmernes helt legitime forskellige fagopfattelser".
Forskere: Mere overfladisk læring i eksamensskole
De tre forskere, professor emeritus Jens Dolin, lektor emeritus Keld Nielsen og ph.d., seniorforsker Beatrice Schindler Rangvid, har skelet til England, hvor variationen er den del lavere, også for de opgaver, der kan sammenlignes med 'dansk stil':
"Der har de styr på det, og deres retteretningslinjer er mere præcise. For at finde ud af, om retningslinjerne kan præciseres, må man jo alliere sig med nogle danskdidaktikere, men det er jo et spørgsmål om, hvor præcise retningslinjer, man ønsker. Min personlige holdning er, at det er vigtigere, at eleven får noget ud af danskundervisningen, danner sig og former sig, end at vi får en helt præcis bedømmelse", siger Jens Dolin.
To bedømmer mere pålideligt end én
Følgegruppen har ikke haft mulighed for at sammenligne med den gamle lærer/censor-model. Men genretningen af de 150 opgaver viser, at pålideligheden bliver større med to censorer end kun én. Sandsynligheden for, at to censorpar giver en dansk stil samme karakter er 10 procent større end for, at to enkeltcensorer gør det. For matematiks vedkommende er pålideligheden 7 procent bedre, når to har bedømt opgaven. Derfor understreger følgegruppen vigtigheden af, at censorerne faktisk bruger de nedsatte censorgrupper til at sparre med hinanden om opgaver og karakterer:
"Vi anbefaler, at der er mødepligt til censormødet, hvad der ikke er i dag, og at censorgruppen i det hele taget professionaliseres, også ved at man bevarer en kontinuitet ved at have de samme censorer i en række år", fremhæver Jens Dolin. Følgegruppen foreslår virtuelle censormøder, hvor censorgruppen umiddelbart efter gennemgår tre af årets besvarelser og på den måde lægger et fælles niveau samt lægger nogle regler, som skal sikre, at ingen er tilbageholdende med at kontakte en censorkollega og sparre om en opgave.
Feedback til læreren
Følgegruppen opfordrer også ministeriet til at præcisere reglerne i forhold til behandling af prøvebesvarelser og elevklager for at minimere risikoen for fejl. Men den allervigtigste konklusion på følgegruppens arbejde er altså, at Undervisningsministeriet fremover skal sikre, at al den viden, som censor samler op om en klasse og dermed indirekte om lærerens undervisning kommunikeres tilbage til læreren, som den gjorde dengang de to havde en telefonsamtale om karaktererne.
"Censorerne ser jo en række klassers besvarelser, og hvis de for eksempel ser en bestemt fejl gå igen i en klasse, er det jo helt oplagt, at læreren bør have feedback om det", siger Jens Dolin og vurderer, at det for eksempel kan indføres i form af et skema, som censor udfylder for hver klasse.
Karakterfald i skriftlige prøver med ekstern censor fortsætter
Der har været et svagt fald i 9.-klassernes afgangskarakterer på landsplan i de skriftlige fag i de to år, hvor lærerne ikke selv har været med til at bedømme prøverne.
Er det en konsekvens af en mere objektiv bedømmelse?
"En af stærkeste effekter på karaktererne er opgavetyperne - forskellen på opgaverne fra år giver større udsving end forskellen i bedømmelsen. Vi ser, at opgaverne nogle år er 'for svære', og så snyder man lidt på vægten og ændrer bedømmelseskriterierne. Og der er tale om meget små udsving, så det kan man ikke udlede", understreger Jens Dolin.