Foto: Pernille Aisinger

Jeppe Bundsgaard: Nej, evalueringen viser ikke, at nationale test måler ok

Ifølge professor Jeppe Bundsgaard er der deciderede fejl i forskningsinstituttet Vives sammenfatning af de mange evalueringsrapporter om de nationale test. Evalueringerne giver ikke belæg for påstanden om, at testene ikke måler dårligere end andre test.

Karen Ravn

Offentliggjort 06.02.2020 - 17:35 Sidst opdateret 06.02.2020 - 17:35

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Folkeskolen.dk citerede tidligere i dag Vives sammenfatning for, at der ikke er noget, der tyder på, at de nationale test er mindre eller mere pålidelige end andre sammenlignelige test. Men hvor de nationale tests statistiske pålidelighed, den såkaldte Standard Error of Measurement (SEM) ligger på 0,55, påpeger Jeppe Bundsgaard, at den nye talblindhedstest ligger omkring 0,3 og Gyldendals materiale Matematikprofilen 0,25 (rettet 6/2 kl. 21.39, red.) - altså bedre end de nationale test. Og Pisa ligger på 0,4 og konkluderer aldrig på individniveau. Oprindeligt lovede Cowi da også en SEM på 0,3, men det lykkedes aldrig at opnå så sikker en måling.

Lyt efter anbefalingerne i stedet

"Jeg er så ked af den sammenfatning, som tyder på, at Vive-folkene ikke har forstand på det her", siger Jeppe Bundsgaard, der er medlem af rådgivningsgruppen, der har givet anbefalinger på baggrund af evaluering.

Læs også

Han håber derfor, at den politiske opfølgning på evalueringen vil tage udgangspunkt i rådgivningsgruppens anbefalinger frem for Vives sammenfatning.

Ministeriets egen Styrelsen for It og Læring har gennemført den del af evalueringen, der handler om testenes måleegenskaber. Og Vive har så efterfølgende bedt fire eksperter om at bedømme Stils rapport. Eksperterne har konkluderet, at Stil har undersøgt, om testene programmeringsmæssigt fungerer, som de skal, og at det gør de. Men:

"Notatet påviser udelukkende dette ene faktum, og altså ikke om sværhedsgraderne er korrekte, om usikkerheden på målingerne er tilstrækkeligt små, eller om elevernes resultater bliver korrekte", hedder det i eksperternes rapport.

De påpeger, at der er behov for argumentation for Stils brug af statistiske metoder i evalueringen samt de nationale tests anvendte skalaer til præsentation af elevernes resultater.

Reviewene anerkender, at der er sammenhæng mellem, hvordan eleverne klarer sig i nationale test og andre prøver, og at det indikerer, at de er såkaldt 'kriterievalide', men at det ikke betyder, at testene generelt er valide.

"Der er korrelationer mellem de nationale og andre målinger, men de er ikke høje. Der er faktisk bedst sammenhæng mellem de nationale test i læsning og så elevernes resultater ved afgangsprøven i retskrivning", påpeger Jeppe Bundsgaard og mener ikke, man på den baggrund kan konkludere, at testene måler rigtigt.

Han understreger, at måleusikkerheden slet ikke er beregnet på aggregerede niveauer, så der er efter hans opfattelse ikke belæg for en påstand om, at testene måler korrekt på store populationer.