Kronik

Hvornår er godt godt nok, og bør de nationale test stoppes nu?

Sæt de nationale test i bero, mens deres afløser udvikles – det synes at være et helt igennem rimeligt krav fra elever, forældre, lærere og ikke mindst en række beslutningstagere. Samtidig er det kronikørens klare konklusion.

Offentliggjort Sidst opdateret

Nationale test: Da 'ikke statistisk signifikant' blev til 'markant' fremgang 

For den udenforstående kan det trods mange års kritik og undersøgelser af de nationale test virke, som om forskere er uenige om, hvorvidt de nationale test har måleusikkerhed eller ej. Det er forskerne helt enige om, at de har. Spørgsmålet, der deler vandene, handler om, hvornår målesikkerheden er god nok - eller sagt anderledes: Hvornår er godt godt nok?

Længe før professor Jeppe Bundsgaard og kollega Svend Kreiner i foråret konkluderede, at der var målefejl ved de nationale test i 8. klasse dansk, vidste alle forskere således, at de nationale test målte usikkert. Antagelsen var dog, at der var tale om tilfældig usikkerhed. På konferencen »De nationale test - tænkt forfra« afholdt af formandskabet for Rådet for Børns Læring leverede professor Simon Calmar Andersen i høj grad en reprise af den kronik, »Drop kritikken af de nationale test«, som han og en gruppe forskere skrev efter Bundsgaard og Kreiners rapport. De 32 forskere fremhævede i kronikken, at »Det er en ofte fremført kritik af de nationale test, at en elev kan tage den samme test to gange uden at få det samme resultat. Dette gælder imidlertid enhver pædagogisk test«. Hvem er uenig i det? Ingen! Det er ikke det substantielle i kritikken af testens måleegenskaber.

Professor: De andre forskere lægger os ord i munden, vi aldrig har sagt 

Vi kender det alle sammen. Måleusikkerhed har badevægten også, og jeg skal da ikke sige mig for god; jeg har også stillet mig op på vægten flere gange, indtil jeg var nogenlunde tilfreds med resultatet. Men hvis min badevægt fra gang til gang svingede mellem 60 og 130 kilo, ville jeg - trods muligheden for at stille mig på den hver morgen - sende den til reparation. I argumentet for at de nationale test måler sikkert nok, fremhævede Simon Calmar Andersen med henvisning til en normalfordeling, at resultatet på de nationale test er det mest sandsynlige resultat, og at det kun er få tilfælde, der ville falde langt fra det resultat. Hvis jeg stillede mig på vægten mange gange i løbet af en dag, og måleusikkerheden vel at mærke var tilfældig, så ville gennemsnittet og resultaterne sandt nok fordele sig omkring min reelle vægt - men sagen er, at vi - heldigvis - ikke tester den enkelte elev så mange gange for at få et gennemsnit, der er nogenlunde.

Lærerne, eleverne og forældrene får alene det ene testresultat og kan derfor ikke på baggrund af den ene måling slutte, at resultatet afspejler elevens mest sandsynlige »sande færdighed«. Hvis usikkerheden derimod er skævt fordelt, således at jeg fik flere lave resultater end høje af testen eller badevægten, ville det ligeledes ikke være tilfældet, og gennemsnittet ville ikke være det bedste bud på min faktiske vægt. Eleven, læreren og forældrene kan ikke på baggrund af det enkelte testresultat være sikre og blot antage, at »jo længere væk fra testresultatet man kommer, jo mindre sandsynligt er det, at elevens faktiske niveau befinder sig der«, sådan som det blev gentaget på konferencen.

En måling på badevægten

Det resultat, den enkelte elev, lærer eller forælder får i hånden, er »modellens« »mest sandsynlige« bud, men alene byggende på det faktiske testforløb og den grundlæggende model. Den enkelte elev, forældrene og læreren har alene et testresultat at forholde sig til (de stiller sig ikke et utal gange på badevægten og finder et gennemsnit) og har derfor ingen empirisk mulighed for at vurdere, om netop denne elev hører til de elever, der er over- eller underestimeret - så at det i gennemsnit for alle de testede passer nogenlunde, er en ringe trøst for den enkelte.

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Perspektivet er derfor vigtigt. Er målesikkerheden god nok i beregningen af et gennemsnit for en stor gruppe elever, eller skal det også være godt nok for den enkelte elev, læreren, skolelederen og ikke mindst forældrene? Andelen af elever, der måles forkert, afhænger af størrelsen på målesikkerheden, så lad os se på, hvor stor en andel det drejer sig om.

Den australske ekspert i teststatistik Margaret Wu har blandt andet medvirket til udvikling af de værktøjer, vi bruger i dag til estimering af modellerne i internationale undersøgelser, for eksempel Pisa. Hun giver et relevant eksempel på sammenhængen mellem målefejl og den dygtighed, den enkelte elev bliver målt til. Hvis hendes regneeksempel anvendes i forhold til de nationale tests målesikkerhed, ender vi med følgende situation: Hvis en gennemsnitlig 8. klasse tager den obligatoriske nationale test i dansk, og hvis alle elever rent faktisk flytter sig fagligt, som vi ville forvente på et år, vil 29 procent af eleverne på profil­område 1 alligevel få en dårligere score året efter i 9. klasse, sammenlignet med da de tog den samme test i 8. klasse. Ikke fordi de er blevet dårligere, heller ikke fordi læreren har svigtet, men alene fordi måleusikkerheden er så stor i de nationale test. Flertallet af elever vil sandt nok opnå et resultat, der peger på en faglig fremgang, men det er alt andet lige en sølle trøst for de 29 procent, som bliver givet et dårligere resultat i hånden året efter, selv om de har lagt sig i selen og forbedret sig.

Dette flugter fint med resultaterne fra Undervisningsministeriet, der har prøvet at genteste elever i 8. klasse. Forskellen på første og andet forsøg i elevdygtigheden målt på femtrinsskalaen, som er den »grove« inddeling, er følgende: 22 procent af eleverne i profilområde 1 og 3 vil få et resultat, der er én eller flere spring lavere anden testgang. Ministeriet har endog gennemført en tilsvarende analyse, der ser på sammenhængen mellem de nationale test og afgangsprøverne, og som Simon Calmar Andersen viste i form af grove gennemsnit på konferencen. Ifølge forskernes kronik skulle der være en »stærk sammenhæng mellem, hvordan folkeskoleelever klarer sig i læsetesten i 8. klasse, og hvordan de klarer sig til eksamen året efter«. Det er rigeligt dristigt at påstå en stærk sammenhæng, når korrelationskoefficienterne på de tre profilområder i ministeriets undersøgelse er 0,44, 0,53 og 0,62. Går man væk fra middelbetragtninger, som de præsenteres i kronikken og konferencen, så dækker dette blandt andet over, at 31 procent af eleverne, der på den kriteriebaserede tilbagemelding for »sprogforståelse« fik det højest mulige resultat (»fremragende«), fik karakterer på 4 eller derunder ved eksamen. Det er en sådan spredning, der gemmer sig bag de ellers overbevisende søjlediagrammer om sammenhæng mellem de nationale test og afgangsprøver.

Mon ikke det er her, vi rammer den grundlæggende uenighed? Skal de nationale test fortsætte ufortrødent med afsæt i en grundlæggende utilitaristisk filosofi, hvor testresultaterne er »udmærket« for den største gruppe og i grove gennemsnit rammer nogenlunde inden for skiven, men rammer helt ved siden af for et betragteligt stort mindretal af elever? Eller skulle vi køre testen på autoriseret værksted for en tid?

Så for at vende tilbage til spørgsmålet om målesikkerhed - hvornår er godt godt nok? Set fra et normativt perspektiv, hvor alle er enige om, at en lille usikkerhed er at foretrække, finder jeg det rimeligt, at vi i et samfund som det danske ikke stiller os tilfreds med den faktiske størrelse på usikkerheden, der gentagne gange er dokumenteret. I stedet skal vi som et absolut minimum fordre og forvente en målesikkerhed i samme størrelsesorden, som andre landes nationale test præsterer. I det lys er der langt igen for de nationale test.

Leder: Når badevægten vejer helt forkert