Afgangsprøver 

Eksperter sår tvivl om ministeriets sammenligning af karakterer fra år til år 

Elevernes karakterer er blevet lavere i dansk og matematik, men det er ikke nødvendigvis lig med, at eleverne er blevet dårligere, lyder det fra to eksperter. For ministeriet gør ikke nok for at sikre, at karaktererne faktisk er sammenlignelige over tid, mener eksperterne.

”Danske elever er gået markant tilbage i matematik og dansk”.

Sådan skrev vi her på Folkeskolen i september, da karaktererne fra årets afgangsprøver blev offentliggjort af Børne- og Undervisningsministeriet, som også sammenholdt denne sommers karaktergennemsnit med tidligere år.

Men nu sår to eksperter alvorlig tvivl ved, hvor meget udviklingen i fra år til år faktisk siger om udviklingen i afgangselevernes faglige formåen.

”Jeg har endnu ikke set stærke argumenter fra ministeriet, der gør, at jeg mener, at vi med tilstrækkelig sikkerhed ved, at udviklingen i karaktergennemsnittene faktisk siger, om eleverne er blevet så meget dygtigere eller dårligere”, siger forsker på DPU Christian Christrup Kjeldsen, der er ansvarlig for den danske del af den internationale Timss-undersøgelse, som hvert fjerde år måler 4.-klasser i matematik og naturfag.

Han bakkes op af Rasmus Ulsøe Kær, der er matematikkonsulent i Horsens Kommune og inden da var ansat som læringskonsulent i Børne- og Undervisningsministeriet.

”Man skal være meget forsigtig med at sammenligne karakterer direkte over tid uden yderligere kontekst”, siger han.

Markant fald i to dansk- og matematikprøver

Ved årets afgangsprøver scorede eleverne en smule lavere i dansk og matematik sammenlignet med sidste års prøver. Men den store nyhed var, at årets resultat var markant dårligere end prøverne i 2019, som ud over 2023 er det seneste år, hvor der ikke var lavet om på reglerne omkring prøverne på grund af corona.

I matematik med hjælpemidler scorede eleverne 0,6 karakterpoint lavere og i prøven uden hjælpemidler 0,7 point dårligere end i sommeren 2019.

Om forcensur

Formålet med forcensur er at forsøge at kortlægge sværhedsgraden af årets prøver, så det hverken er blevet sværere eller lettere at opnå en given karakter. Metoden har været anvendt på prøverne siden 2015. Konkret går en række elever til forcensur-prøve i april, hvor de testes i en prøve fra et tidligere år, og herefter aflægger de årets prøver i maj ligesom alle andre elever. Det er en sammenligning af elevernes besvarelser af forcensur-prøven og årets prøve, der bestemmer, hvor mange point der i årets prøve skal til for at opnå en given karakter.

I perioden 2016/1017 – 2020/2021 var det Epinion, der varetog forcensuren (i 2019/2020 blev forcensuren ikke gennemført grundet corona) .

Børne- og Undervisningsministeriet hjemtog herefter opgaven, og Stil har f.o.m. 2021/2022 udført forcensuren.

Kilde: Børne- og Undervisningsministeriet

Et tilsvarende fald er sket i to af danskprøverne. Her var også et fald på 0,6 og 0,7 karakterpoint i henholdsvis læseprøven og prøven i retstavning i forhold til 2019.

Er det altid lige svært at opnå et 10-tal?

Hvorfor er det så, at de to eksperter mener, at man skal være meget varsom med at tage karakterudviklingen for gode varer?

Det handler om måden, ministeriet forsøger at sikre, at karaktererne rent faktisk kan sammenlignes. Da eleverne ikke går op i de præcist samme prøvesæt år efter år, forsøger ministeriet at sikre, at der ikke er forskel på, hvor svært det er at opnå et bestemt resultat.

Med andre ord at det fx gerne skulle have været lige så svært at få 10 i årets læseprøve, som det har været de tidligere år.

Den opgave forsøger ministeriet at løse via noget, der kaldes for forcensur. Det er en metode, der har været anvendt siden 2015, og som foretages ved alle af de såkaldt selvrettende prøver samt prøven i matematik med hjælpemidler. Med andre ord alle prøver, hvor elevens karakter bestemmes på baggrund af, hvor mange point eleven har scoret i prøven.

Da det er vanskeligt at lave helt lige svære prøver år efter år, bruges forcensuren til bestemme, hvor mange point der skal til for at opnå et 10-tal og de andre af skalaens karakterer.

Konkret sker det ved, at en række klasser landet over udgør en form for kontrolgruppe. Kort inden årets afgangsprøver afvikler klasserne forcensurprøver, hvor de som ved terminsprøver testes i et prøvesæt fra et tidligere år.

Det er så efter en sammenholdning af disse klassers resultater i det gamle og nye prøvesæt, at der bliver fastlagt en omsætningstabel for årets prøve over, hvor mange point der skal til i prøven for at score en given karakter.

Til Folkeskolen understreger Styrelsen for Undervisning og Kvalitet (Stuk) og Styrelsen for It og Læring (Stil) i et samlet svar, at forcensuren sikrer, at ”at et 7-tal i fx matematik uden hjælpemidler ved afgangsprøven i maj 2024 afspejler det samme faglige niveau i matematik uden hjælpemidler, som et 7-tal gjorde i denne delprøve tilbage i maj 2015, maj 2016 og så fremdeles”.

Men det er de to eksperter ikke enige i.

”Det er efter min bedste overbevisning meget usikkert, om afgangsprøven i maj 2024 afspejler det samme faglige niveau i matematik uden hjælpemidler, som et 7-tal gjorde i 2015. Det kan slet ikke konkluderes alene på baggrund af, at der er foretaget forcensur”, lyder det blandt andet fra Rasmus Ulsøe Kær.

Prøverne ændrer sig for meget

Men hvad er årsagen til det, at metoden ikke gør karaktererne så sammenlignelige, som de ellers år efter år bliver præsenteret af ministeriet?

Det skyldes ifølge de to eksperter, at metoden er for simpel til at indfange, at prøverne løbende ændrer sig over årene – og nogle år ret markant endda.

Det gælder både, hvad der måles, og hvordan det måles, forklarer Rasmus Ulsøe Kær.

”Det medfører, at den bagvedliggende dygtighed, der evalueres med prøven, vil variere fra år til år. Det betyder, at selvom der er en lavet en statistisk forcensur, så siger det ikke noget om, hvilken forståelse af faglig dygtighed, prøverne rent faktisk måler”, siger han.

Han fortæller, at han af flere gange har analyseret opgaverne i afgangsprøverne, og at han her har kunnet konstatere, at ”der er markant forskel på færdighedsprøven i 2015 og matematik uden hjælpemidler i 2024”.

Han mener, at det er positivt, at prøverne løbende ændres og forbedres. I de to skriftlige matematikprøver betyder, at det er blevet et stadigt større fokus på at teste ”forståelse fremfor færdighed”, fortæller han.

”Men hvis målet var at sammenligne elevgrupper over tid, skulle prøverne være meget mere ens. Det er ministeriet muligvis ikke klar over, fordi det er opgavekommissionerne, som laver prøverne. Det må siges at være problematisk, hvis det politiske niveau i ministeriet forventer, at prøverne faktisk kan bruges til at sammenligne over tid”, siger han og tilføjer, at  ændringerne i prøverne blandt andet skyldes, at der over tid er blevet ændret i Fælles Mål.

Ekspert: Gør ligesom med Pisa

Ifølge Christian Christrup Kjeldsen er der brug for en helt anden metode til at sikre, at karakterer faktisk bliver sammenlignelige. En metode, der faktisk findes, og som bruges i de store internationale skoleundersøgelser som Pisa, Pirls og Timss.

”Her analyserer man sig eksempelvis frem til, at der er nogle spørgsmål, der er særligt egnede sig til at forankre pointskalaen ud fra”, forklarer han.

Når Christian Christrup Kjeldsen analyserer resultaterne fra Timss, skal han også beregne et estimat på størrelsen på fejlmargen, når de nyeste resultater skal sammenlignes med resultater fra tidligere Timss-test.

”Det er helt afgørende. Tingene forskyder sig for hver gang, man sammenligner med et nyt år. Men når man ikke ved, hvor sammenlignelige resultaterne er og har været over årene, bliver usikkerheden gradvist større og større”, siger han.

Karakterskalaen skaber også problemer

Og så er der faktisk også en anden og noget mere håndgribelig udfordring, når elevernes karaktergennemsnit skal sammenlignes år for år, påpeger Christian Christrup Kjeldsen.

Det handler nemlig om selve karakterskalaen. For der er fx ikke lige langt mellem 2 og 4 som mellem 7 og 10.

”Derfor ændrer gennemsnittet sig mere, hvis forskydningerne i elevernes karakterer især sker blandt midterkaraktererne, hvor der er tre karakterpoint mellem karaktererne”.

Der vil derfor være tale om langt flere elever, der er faldet i niveau, hvis årets fald især skyldes et fald fra 12 til 10 eller fx fra 4 til 2, end hvis faldet i højere grad skyldes, at et fald fra 10 til 7, påpeger han.

”Men jeg har aldrig set ministeriet gøre opmærksom på, hvor forskydningerne er sket, når karaktergennemsnittene ændrer sig, selvom det ikke kræver en avanceret analyse”, siger han.

Udover at sådan analyse vil vise noget om antallet af elever, som klarer sig dårligere end tidligere generationer, siger det også noget om, hvorvidt det særligt er i toppen, midten eller i bunden, at der er sket forskydning.

Noget, der særligt er relevant for, hvilke indsatser der er behov for, siger Christian Christrup Kjeldsen. Som eksempel peger han på, at undervisningsminister Mattias Tesfaye (S) som reaktion på årets faldende karaktersnit i dansk og matematik fremhævede, at regeringen allerede har sat ind ved at tilføre en pulje målrettet de fagligst svageste i netop dansk og matematik.

”Spørgsmålet er så, om det fald, der er sket, rent faktisk er drevet af, at de dårligste er blevet dårligere? Det kan vi ikke vide bare ud fra gennemsnittet alene”, siger Christian Christrup Kjeldsen.

Ministeriet: Pisa-metoden ”er ikke gangbar” ved afgangsprøverne

I et skriftligt svar fra ministeriet afviser Styrelsen for Undervisning og Kvalitet (Stuk) og Styrelsen for It og Læring (Stil) i et fælles svar, at forcensuren ikke skulle være god nok til at sikre, at man kan sammenligne karaktererne år efter år.

De to styrelser skriver, at der ”anvendes en moderne metode til forcensuren som supplement til den klassiske metode”.

Men ifølge styrelserne er det ikke muligt at benytte samme metode, der anvendes i de internationale undersøgelser.

”Metoden, der specifikt anvendes i internationale undersøgelser som Pisa m.fl., er ikke gangbar ved folkeskolens prøver. Denne metode forudsætter et design, hvor tidligere anvendte opgaver indgår i de nye prøver. Dette er ikke en mulighed ved folkeskolens prøver, bl.a. fordi folkeskolens prøver er fortrolige indtil prøvens start”, skriver de og fortsætter:

”Fortroligheden er en forudsætning for at kunne sikre, at eleven ikke får kendskab til prøvesættets indhold forud for besvarelsen, hvilket er særligt vigtigt, da prøvekaraktererne har betydning for elevens muligheder for adgang til ungdomsuddannelser”.