Bemærk
Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.
De nationale test måler både forkert og usikkert, også når man måler på større grupper af elever, lød det i foråret fra de to professorer Svend Kreiner og Jeppe Bundsgaard.
Den officielle evaluering kom i sidste uge og sagde ligeledes både, at der er problemer med de konkrete opgavers sværhedsgrader, og at testene måler usikkert på elevniveau.
Men mange politikere blev beroliget af, at Det nationale forsknings- og analysecenter for Velfærd (Vive) dels sagde, at alle skoletest vil rumme måleusikkerheder på elevniveau, dels at målingerne er mere sikre på et aggregeret niveau, altså på et mere overordnet niveau.
I sin præsentation af evalueringen understregede chefanalytiker i forsknings- og analysecentret Vive Lasse Hønge Flarup, at der ikke er noget, der tyder på, at "de nationale test er mere eller mindre usikre end andre tilsvarende test".
Ny undersøgelse: Nationale test måler både forkert og usikkert
Men der findes faktisk adskillige skoletest, som har en højere målesikkerhed end de nationale test, har flere rådgivningsgruppe-medlemmer påpeget både før og efter offentliggørelsen af evalueringen.
Professor Jeppe Bundsgaard har fx peget på både Pisa, den nye talblindhedstest og Gyldendals Matematikprofilen, der alle måler mere sikkert end de nationale test.
"Pointen er, at der ikke er noget, der tyder på, at nationale test måler væsentlig mere eller mindre sikkert end de test, vi i evalueringen vurderer som sammenlignelige. Og man generelt skal passe på med sammenligninger", siger Lasse Hønge Flarup til folkeskolen.dk.
"Evalueringen viser tydeligt, at de måler usikkert på elevniveau. Alle er enige i, at jo mere præcis en test er, jo bedre. Og naturligvis findes der test, der måler mere præcist end de nationale test. Ligesom der er test, der måler mindre præcist".
Har ikke beregnet usikkerheden på klasse- eller skoleniveau
Mange har læst evalueringen som, at usikkerheden på de nationale testresultater ikke gør sig gældende på større grupper af elever.
Men målesikkerheden på aggregeret niveau er slet ikke blevet undersøgt i evalueringen - hverken af Styrelsen for It og Læring (Stil) eller Vive - har Jeppe Bundsgaard påpeget over for folkeskolen.dk.
Jeppe Bundsgaard: Nej, evalueringen viser ikke, at nationale test måler ok
Lasse Hønge Flarup bekræfter over for folkeskolen.dk, at hverken Stil eller Vive har beregnet den statistiske måleusikkerhed på klasse- eller skoleniveau.
Men han mener alligevel, at man kan konkludere, at man kan anvende de nationale test på aggregeret niveau til at sige noget om elevernes faglige niveau.
Det skyldes, at Vive har sammenholdt elevernes resultater i testene med deres karakterer og afgangsprøveresultater og fundet en væsentlig og statistisk signifikant sammenhæng. Der har også tidligere har været undersøgelser, der målte op mod de danske Pisa-scorer.
Begge gange er der fundet en væsentlig sammenhæng, som ifølge Vive tyder på, at testene kan bruges som "et generelt udtryk for elevernes faglige niveau".
Sammenligning med karakterer lavet på kæmpe-population
Men kurverne, hvor man kan se sammenhængen mellem testscorer og karakterer, er beregnet på den størst mulige gruppe af elever. Nemlig samtlige danske folkeskoleelever, der har taget testene henholdsvis før og efter en ændring i 2014, og som efterfølgende har været til afgangsprøve.
Evalueringen har altså ikke set på, om der er sammenhæng mellem test og karakterer, når man måler på eleverne i en klasse, på en årgang, en skole eller en kommune, selvom det præcis var det, professorerne Svend Kreiner og Jeppe Bundsgaard med deres undersøgelse i foråret satte spørgsmålstegn ved.
Hvor stor skal en population være, før du mener, at de nationale test tegner et fornuftigt billede af fagligt niveau og udvikling?
"Generelt gælder, at jo større population, jo større statistisk sikkerhed", siger Lasse Hønge Flarup.
Lærere kender ikke usikkerheden
Kan man efter din vurdering fx bruge testresultaterne på klasseniveau fx til at sammenligne én klasses resultater med en andens?
"Hvis man kender analysens muligheder og begrænsninger, eksempelvis den statistiske usikkerhed, og man supplerer med anden data, vil jeg mene, at testene kan give viden, der har informationsværdi".
Men kan man som lærer beregne den statistiske usikkerhed på klasseniveau?
"Nej, det vil jeg ikke mene, man som skolelærer kan gøre", siger Lasse Hønge Flarup.
Evalueringen har altså ikke beregnet måleusikkerheden på klasse- eller skoleniveau. Det er heller ikke en beregning, der følger med, når lærere og skoleledere får adgang til resultaterne, og de kan heller ikke selv beregne den.
Problemerne med opgave-sværhedsgraderne
Men problemerne med de nationale test handler ikke kun om statistik og målesikkerhed.
Hele kernen i de adaptive test er de sværhedsgrader, som opgaverne i den kæmpestore opgavebank er forsynet med. Når en opgave er udformet af en gruppe faglige eksperter, afprøves den på 700 elever, og så indplaceres den i opgavebanken med en sværhedsgrad, som bygger på disse elevers besvarelser af den opgave sammenholdt med de samme elevers besvarelser af andre opgaver.
Da Undervisningsministeriet i 2013 blev opmærksom på problemer med målesikkerheden, blev sværhedsgraden genberegnet, og en femtedel af opgaverne blev kasseret med forskellige begrundelser. Siden har ministeriet udtaget stikprøver og hver gang konstateret problemer med sværhedsgraden på en del af opgaverne.
Svend Kreiner og Jeppe Bundsgaard vurderede i deres rapport fra foråret, at det netop var problemerne med sværhedsgraderne, der var årsag til, at de kunne konstatere, at testene målte både forkert og usikkert.
Den nye evaluering har ikke givet endeligt svar på, om sværhedsgraderne forandrer sig væsentligt over tid - her efterspørges yderligere analyser, forklarer Lasse Hønge Flarup.
En af de eksperter, som Vive har bedt om at læse Stils analyser med kritiske øjne, påpeger derimod, at der er stor forskel på sværhedsgraden, afhængig af, om eleverne får opgaverne efter hinanden som en klassisk gammeldags test, eller de trækkes fra opgavebanken efter det adaptive princip, som det sker i de nationale test.
Det store problem er, at når der bliver lavet opgaver til testene, så fastlægges sværhedsgraden ved afprøvning på 700 elever, som får dem i en gammeldags, såkaldt lineær, test i en fast rækkefølge. Men når opgaverne bagefter bruges i de nationale test, udtrækkes de adaptivt.
Konsekvensen er, at hvor ideen med de adaptive test er, at systemet udtrækker opgaver, der passer til elevens faglige niveau, vil fejlagtige sværhedsgrader betyde, at eleven får opgaver, der er for lette eller for svære.
Og når maskinen skal bedømme elevens faglige niveau, sker det med udgangspunkt i forkerte sværhedsgrader.
Kommunerne er glade for testene
Kan man på nogen måde argumentere for, at fejlagtige sværhedsgrader ikke er et problem på store populationer?
"Jeg vil gerne uddybe, hvad evalueringen viser, men jeg har ikke mulighed for at komme med argumenter for eller imod den påstand, da omfanget af fejlagtige sværhedsgrader ikke er fuldt kortlagt. Vores analyse viser, at der er væsentlig og statistisk sammenhæng mellem de nationale test og andre faglige mål, hvilket tyder på, at med det nuværende niveau af fejlagtige sværhedsgrader, så er korrelationen alligevel høj".
Kan man forsvare at bruge de eksisterende testresultater til at vise billeder af noget som helst og i givet fald hvad?
"Ja, for vi ser en væsentlig sammenhæng til karakterer og afgangsprøveresultater, som indikerer, at testene viser noget om elevernes faglige niveau på større populationer", siger Lasse Flarup og tilføjer:
"Og jo højere op i systemet, man kommer, på kommuneniveau og højere, jo mere positivt stiller man sig til testene, hvilket giver god mening, givet at det netop er på disse niveauer, testene giver mest mening".
De nationale test duer ikke. Men hvad betyder det, og hvad kan der sættes i stedet?
Læs mere
Evalueringsrapport nationale test - tværgåenderapport (Vive)