Evaluering af nationale test
Det er Børne- ogUndervisningsministeriet, der har bedt Styrelsen for It ogLæring (Stil) og Vive - Det Nationale Forsknings- og Analysecenterfor Velfærd om at udarbejde undersøgelserne. Evalueringen afde nationale test består af seks rapporter og en bilagsrapport: éntværgående evalueringsrapport og fem delrapporter, der omhandlerhvert sit emne, samt en bilagsrapport til delrapport 5. Enrådgivningsgruppe har forholdt sig til evalueringen.
Bemærk
Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.
De danske nationale test er relativt enestående i verden ved at være såkaldt adaptive, så de tilpasser sig den enkelte elevs faglige niveau undervejs i testen. Hver eneste elev får dermed sin helt egen test - netop det giver faktisk en forventning om, at en enkelt test kan give god og sikker information om enkeltelever, hvilket en ny stor evaluering lige præcis konkluderer, at de nationale test ikke kan.
13/2: Det er slet ikke undersøgt, om testene måler sikkert på skole- eller klasseniveau
En enig rådgivningsgruppe anbefaler undervisningsministeren at droppe det adaptive princip og skifte til klassiske lineære test, hvor alle elever får de samme opgaver. Det gør det også meget lettere for læreren og andre at overskue, hvad der er lykkedes og ikke lykkedes i undervisningen af en given klasse.
Velegnede til styring
På den store klinge - nationalt og på store grupper af elever måler de nationale test fint. Resultaterne kan derfor fint anvendes til generalisering og styring, konstaterer forskningsinstituttet Vive, der har stået for den overordnede evaluering af de nationale test. Og som Vive skriver, er der ikke er noget, der tyder på, at de nationale test er mindre eller mere pålidelige end andre sammenlignelige test.
"Alle tests resultater er forbundet med en grad af usikkerhed. Og denne usikkerhed er forbundet med testens evne til at måle præcist og til at måle det, den er designet til at måle. De nationale tests resultater er også forbundet med usikkerhed".
Men på andre måder er de nationale test helt atypiske:
"De nationale test har nogle karakteristika, der gør dem specielle i sammenligning med andre test. Både i Danmark, og når man sammenligner med andre landes erfaringer. De nationale test har et dobbelt formål, der er rettet mod både pædagogisk brug og brug som styringsredskab. Det gør testen speciel sammenlignet med flertallet af andre test i ind- og udland".
Nyt navn
Navnet Nationale test vil rådgivningsgruppen også kassere. I stedet kunne kommende test fx hedde Fælles Test. På den måde tydeliggør man, at det er nogle helt nye test og forebygger, at skepsissen over for de gamle test følger med.
Rådgivningsgruppen fraråder ikke, at der fortsat skal være obligatoriske test - men hvis man politisk beslutter at droppe de obligatoriske test, foreslår gruppen, at man i stedet indfører en form for stikprøvetest.
Og så lægger hele gruppen også vægt på, at der stilles tydelige krav til de fagmiljøer, der skal udvikle de nye test, og at de følger moderne internationale standarder for nationale test.
Teaching to the test
Et hovedkritikpunkt ved selve eksistensen af nationale test er risikoen for, at lærerne - for at opnå gode resultater i testene - træner specifikke emner og opgavetyper med eleverne på bekostning af andre vigtige faglige og dannelsesmæssige aspekter af fag og undervisning.
"Vives evaluering viser, at der er en udbredt teaching-to-the-test-kultur på danske skoler. Det betyder i realiteten, at de nationale test ikke måler elevernes dygtighed, men i hvilket omfang de er blevet forberedt på testene", hedder det i rådgivningsgruppens papir.
Gruppen, der består af eksperter fra forskellige forskningsmiljøer og repræsentanter for skolens aktører, er dog nået til enighed om at anbefale, at de kommende test skal kunne modvirke tendenser til teaching to the test, og at skoleejere og ledere skal tage ansvar for at undgå, at eleverne træner opgaver alene med det formål at klare sig bedre i testene, og at testene tages først på skoleåret frem for som i dag om foråret. Et flertal i gruppen ville gå videre og fraråde, at man knytter politiske mål op på testresultater, som det er sket med resultatmålene for folkeskolereformen.
Fejl i sværhedsgrader
De to professorer Svend Kreiner og Jeppe Bundsgaard har påpeget, at de sværhedsgrader, som er kernen i det adaptive princip, har forskudt sig over tid. Det har både betydning for, hvilke opgaver, en elev trækker fra opgavebanken og får bedømmelsen af elevens score, om sværhedsgraden er korrekt.
Styrelsen for It og Læring har da også kigget på sværhedsgraderne og konstaterer ligeledes, at der er problemer med sværhedsgraderne. Styrelsen afprøver jævnligt nye og gamle opgaver på en stikprøve af elever, og ved den seneste afprøvning, i januar 2019, havde hele 16 procent af opgaverne skiftet sværhedsgrad i forhold til den sværhedsgrad, de er lagt i opgavebanken med.
"Af den grund er beregningerne af dygtigheden behæftet med systematiske fejl", hedder det i anbefalingsgruppens papir. "Testresultater er ganske vist altid behæftet med en vis grad af usystematiske fejl, men systematiske fejl må ikke forekomme. Af den grund skal de nationale tests sværhedsgrader erstattes af korrekte sværhedsgrader", hedder det.
"Anvendelse af forkerte sværhedsgrader betyder, at de nationale test kan risikere at vælge opgaver der enten er alt for lette eller alt for vanskelige for eleverne. Det betyder, at usikkerheden kan ende med at være større end nødvendigt, samt at især de svageste elever kan risikere at have negative oplevelser ved at blive bedt om at løse opgaver, de ikke har nogen muligheder for at besvare korrekt".
Jeppe Bundsgaard: Nej, evalueringen viser ikke, at nationale test måler okDLF: Vi skal finde et bedre redskab end de nationale test Minister bekymret over måleusikkerheden i de nationale test