Danske skoleelever skal tage ti obligatoriske test i løbet af deres skoletid. Men man kan også tage testene indimellem som frivillige test, og da Ørum Skole gjorde det, opdagede man, at de samme elevers resultater svingede op og ned. Årsagen ligger formentlig dels i selve skalaen bag de nationale test, dels i, at 45 minutter er alt for kort tid til at beregne elevens faglige niveau, vurderer professor Svend Kreiner.

Eksperter dumper de nationale test

De nationale test, som skal bruges til at måle, om folkeskolereformen gør eleverne dygtigere år for år, måler de samme elever vidt forskelligt med kort tids mellemrum.

Offentliggjort
45 minutter skal eleverne sidde stille og besvare opgaver på pc. Men det er ikke nok til at give et præcist billede af deres niveau i faget, vurderer professor Svend Kreiner.

ADAPTIVE TEST

De danske nationale test er såkaldte adaptive test. Når elevernei Norddjurs Kommune tager »den samme« test frivilligt med kort tidsmellemrum, er det ikke de samme spørgsmål, de skal besvare igen ogigen. Eleverne i 6. klasse logger sig for eksempel ind på6.-klasselæsetesten, og så henter systemet en opgave fra enkæmpemæssig opgavebank. Når eleven har taget tre opgaver inden forhvert af de tre områder i læsetesten - afkodning, sprogforståelseog tekstforståelse - tilpasser testen sig ved hjælp af en adaptivalgoritme til elevens niveau og trækker derefter kun opgaver indenfor en vis sværhedsgrad. Efterhånden bør opgavernes sværhedsgradmatche elevens faglige niveau så godt, at eleven svarer rigtigt påhalvdelen og forkert på halvdelen af opgaverne.

Den elev, der sidder ved siden af, får altså nogle andreopgaver, og tager eleverne den samme test ugen efter, vil de kunved et tilfælde kunne ramme ind i de samme opgaver som sidst.

RESULTATMÅL

Som led i folkeskolereformen er der fastlagt tre nationaleresultatmål, der tager udgangspunkt i de nationale test:

➊ Mindst 80 procent af eleverne skal være gode til at læse ogregne i de nationale test.

➋ Andelen af de allerdygtigste elever i dansk og matematik skalstige år for år.

➌ Andelen af elever med dårlige resultater i de nationale testfor læsning og matematik skal reduceres år for år - uanset socialbaggrund.

TI OBLIGATORISKE TEST

Danske skoleelever skal tage ti nationale test i løbet af deresskoletid. Derudover kan lærere/skoler/kommuner beslutte, ateleverne skal gennemføre testene i de perioder, hvor de har statusaf »frivillige« test.

Partierne bag folkeskoleforliget besluttede sidste år påinitiativ fra Venstre to ekstra nationale test - ekstra engelsktest(i 4. klasse) og en ekstra matematiktest, så skoleeleverne testes imatematik i 3., 5. og 7. klasse. Det sker på bekostning af testenei geografi og biologi, som bliver frivillige.

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Skoleleder: Tetsresultater svinger, som vinden blæser

At Norddjurs Kommune oplever, at de nationale test måler, som vinden blæser, er næppe et enestående fænomen. Danmarks to eksperter i pædagogiske test, Peter Allerup og Svend Kreiner, vurderer, at problemet formentlig er generelt.

»Hvor er det trist, at Norddjurs ved et tilfælde skal opdage, at kejseren ikke har noget tøj på. Det er virkelig en torn i øjet, at man opdager, at når man måler de samme børn flere gange, kan man ikke forklare variationerne med reelle forandringer hos eleverne. Hvis man ikke griber ind, så taber man et projekt til 160 millioner kroner på gulvet«.

Det siger professor i pædagogisk statistik Peter Allerup om de nationale test, som i Norddjurs Kommune har vist sig at give vidt forskellige resultater, når den samme elev tager den samme test med kort tids mellemrum.

Gennem ti års arbejde med de nationale test har man forsømt at teste deres målesikkerhed - altså om man får det samme resultat, hvis man måler det samme flere gange i træk. Man kunne have opdaget problemet, hvis man havde afprøvet testene på de samme elever flere gange, dengang de blev udviklet. Man kunne også have opdaget det, mener Peter Allerup, hvis man havde set på målesikkerheden, da testene første gang blev evalueret i 2007, men det gjorde man ikke, og man forsømte det også, da den store Rambøll-evaluering af testene blev gennemført i 2013. Dengang var Peter Allerup hyret til at kigge på testenes virkemåde, men han blev nægtet adgang til de mange millioner testresultater, der på det tidspunkt var opsamlet fra både frivillige og obligatoriske test, og måtte nøjes med at gennemføre sin evaluering ud fra litteraturstudier. Og nu kan Folkeskolen så afsløre, at tager de samme elever de samme test med kort tids mellemrum, så svinger deres testscorer, som vinden blæser.

Test-evaluering giver ingen svar på, om testene duer

Flovt

»Det er flovt. For man kan sige, at ministeriet har haft tid nu til at sunde sig oven på kritikken af opgaverne, og så kunne man jo have igangsat nogle initiativer til at undersøge det her - det er ikke ret dyrt«, siger Peter Allerup. Han ser store muligheder i selve konstruktionen bag de nationale test som en mulighed for at sammenligne resultater over tid. Så han ærgrer sig på systemets vegne over, at man i sin »iver for at holde ting hemmelige« ikke har lagt tingene ud til åben afprøvning.

»Der er kun én vej ud - at se at få undersøgt, om det, de oplever i Norddjurs, er et generelt fænomen. Men det tror jeg, det er«, siger han.

Danmark har to store eksperter i psykometri, det vil blandt andet sige pædagogisk statistik. Den anden er professor emeritus Svend Kreiner, der i sin tid rådgav Undervisningsministeriet om kravene til den særlige testform, man har valgt til de nationale test, nemlig adaptive test, der løbende tilpasser sig elevens niveau undervejs i testen. De mener ikke, at lærerne kan sidde med forældre og elever og formidle nogle testresultater, hvor de samme elever svinger mellem top og bund og middel. Spørgsmålet er også, om testresultater, der siger så lidt om hver enkelt elevs niveau, kan bruges til at måle, hvordan det går med et helt skolevæsen i en kommune, endsige hvordan det går med skolereformen i hele Danmark.

De to professorer har ikke haft adgang til testresultaterne, som er fortrolige, så de kan kun gisne om årsagerne til, at testene altså giver forskellige resultater for de samme elever.

Grundfejl i skalaen

Svend Kreiner ser to mulige årsager. Den ene er, at man forsøger at måle tre forskellige profilområder i løbet af de 45 minutter. Der kan derfor kun stilles et relativt begrænset antal opgaver per profilområde, og det medfører en »ikke ubetydelig« usikkerhed på de enkelte målinger selv i et adaptivt testdesign. Den anden er, »at spredningen af det store flertal af eleverne formodentlig er relativt begrænset, således at der er risiko for, at den svageste af to tilfældigt udvalgte elever får det bedste testresultat af rent tilfældige årsager«.

»Hvis denne mistanke er korrekt«, forklarer Kreiner, »kan det betyde dramatiske variationer i percentilværdier (tallene mellem 0 og 100, der angiver, hvordan den enkelte elev er placeret i forhold til de elever, der blev testet, da percentilskalaen blev fastlagt), hvis man sammenligner resultaterne af gentagne forsøg på at måle, hvor eleverne er placeret«, forklarer han og understreger, at percentilværdier derfor altid bør ledsages af oplysninger om usikkerheden i værdierne, når de lægges frem for forældre eller andre interesserede uden indsigt i pædagogiske test.

Svend Kreiner understreger, at han ikke kan vurdere, om det er hele årsagen til udsvingene i Norddjurs, men det er helt klart en mulighed.

Hverken han eller Peter Allerup vurderer, at det, man har oplevet på Ørum Skole, kan skyldes de dårlige opgaver, som ministeriet nu har udskiftet.

Sidste år blev det klart, at der var problemer med den statistiske sikkerhed, men det er ikke det, som er i spil her, mener Peter Allerup (læs artiklen om udskiftning af opgaver side 12, redaktionen). Når den samme elevs test svinger kraftigt med kort tids mellemrum, handler det om testens evne til at måle den samme ting ens hver gang, den såkaldte reliabilitet. Og det er reliabiliteten, som man efter hans vurdering fuldstændig har forsømt at undersøge for de nationale tests vedkommende. Først da Norddjurs benytter sig af de maksimale muligheder for at tage frivillige test, nemlig to frivillige plus den obligatoriske, bliver det tydeligt, at måleresultaterne svinger.

»Det er ikke nogen trøst, at det jævner sig ud på skoleniveau«, understreger han.