Christian Christrup Kjeldsen, pædagogisk sociolog, dr.phil.Foto: Bo Tornvig
Forsker: Udvikl en ny test, eller gå over til stikprøver
De nationale test så ud til at være testenes Rolls-Royce, men det forspring har vi sat over styr, siger dr.phil. Christian Christrup Kjeldsen. Han mener, vi skal droppe skyttegravskrigen og lære af egne og internationale erfaringer.
Pædagogisk sociolog Christian ChristrupKjeldsen har i en lang årrække forsket i emnerrelateret til skolen. Han har en dr.phil. fra »Education andCapabilities« ved Bielefeld Universitet. Han er viceinstitutlederfor forskning ved DPU, Aarhus Universitet, og leder af NationaltCenter for Skoleforskning. Oprindelig uddannet folkeskolelærer medlinjefag i musik og fysik/kemi.
Han har gennem årene gennemført en del international komparativforskning i større EU-projekter. Han er meget involveret i IEA(International Association for the Evaluation of EducationalAchievement), der arbejder på at forske og forbedre læring igrundskolen i hele verden. Her er han dansk repræsentant i denbesluttende generalforsamling og er valgt ind i IEA's »StandingCommittee«. Han er overordnet ansvarlig for gennemførelsen af dedanske internationale studier Timss, Pirls, ICCS og ICILS ognational forskningskoordinator for Timss i Danmark.
FORSKERENS BUD PÅ TEST I DANMARK
Christian Christrup Kjeldsen er grundlæggende for test i skolen,men ikke som de nationale test er i dag. Han ser to muligheder: 1)Udvikl nye landsdækkende test for alle elever uden det fuldtadaptive princip og med mere interessante og interaktive opgaver,som gennemføres i alle fag med meget større mellemrum og iskiftende rækkefølge og med tilbagemeldinger i forhold til elevensog klassens forudsætninger. Eller 2) Gå over til at følge med pånationalt niveau ved stikprøvebaserede test på cirka hver tiendeelev, som så kan være mere omfattende, i alle fag, men med størreintervaller og på skift, og derudover lade forskere og praktikereudvikle og blåstemple en buket af diagnostiske, faglige test, somlærerne kan bruge i dagligdagen.
International udvikling af test
Internationalt er der flere fora, hvor der bliver samarbejdet omog udviklet på test og evaluering:
Flip-samarbejdet begyndte i 2017 som etnonprofitsamarbejde mellem forskere i Frankrig, Luxembourg, Italienog Portugal for at finde løsninger på udfordringer med digitalbedømmelse. Siden er mange andre lande kommet med, deriblandt ogsåDanmark.
Timss og Pirls bliver gennemført af IEA(International Association for the Evaluation of EducationalAchievement), som har testet i læsning og matematik siden 1959. Idag deltager mere end 60 lande i IEA's store studier Timss ogPirls. IEA udvikler løbende på sine test på forskningscentre påuniversitetet i Boston og et forskningscenter i Hamborg og afholderårlige møder, hvor forskere kan udvikle og lære af hinandenserfaringer.
Pisa bliver udviklet og gennemført af OECD, somhar gennemført test i læsning, naturfag og matematik siden 2000,senest 79 lande. Også her forskes der og arbejdes på tværs aflandene med at udvikle test og evaluering, og med hvordan man kanbruge resultaterne.
Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.
I Danmark kan man enten være for eller imod de nationale test, og det er en indædt kamp. Hvorfor kan man ikke være for test, men mene, at vi kan gøre det langt bedre end med de nationale test? spørger viceinstitutleder på Danmarks Institut for Pædagogik og Uddannelse (DPU), Aarhus Universitet, Christian Christrup Kjeldsen. Han savner den midterposition, der er naturlig i de mange internationale fora om test, han deltager i.
Annonce:
»Når jeg sidder sammen med forskere fra Østrig, Frankrig og USA i et telt i Agadir til konference om en international test, er der en fælles interesse i udviklingsarbejde. En åbenhed og nysgerrighed i forhold til, hvordan vi kan gøre det bedre. Det savner jeg virkelig i diskussionen herhjemme. Her er man for eller imod. Udviklingen af testene foregår samtidig under stort hemmelighedskræmmeri, og selv forskning i testene bliver vanskelig af den grund«.
Som viceinstitutleder for forskning på DPU har dr.phil. Christian Christrup Kjeldsen gennem en årrække deltaget aktivt i forskning og diskussion af test, både nationalt og i internationale møder omkring de store internationale undersøgelser som Timss og Pirls og i Flip-samarbejdet, som er en europæisk organisation af lande, der samarbejder om udvikling af test.
Han fortæller, at de danske nationale test oprindeligt blev set som et forbillede for fremtidige nationale test.
Annonce:
»At udvikle onlinetest med en adaptiv struktur til et helt skolesystem, det var, da de blev skabt, ideen om en Rolls-Royce. Men jeg er ikke sikker på, at vi fik en Rolls-Royce. Man satsede stort og fik det op at køre, men man har ikke været åben over for at rette fejl og at videreudvikle dem i samarbejde med andre lande. Og så er vi blevet overhalet indenom«, siger Christian Christrup Kjeldsen.
Årsagen til lukketheden mener Christian Christrup Kjeldsen udspringer af to ting. Dels betyder det adaptive princip i testene, at man bliver nødt til at holde opgavebanken hemmelig.
»Det kan afstedkomme en lukkethedskultur, hvor ikke engang forskningen kan komme ind og bidrage og følge med. Det er helt anderledes åbent i alle de store internationale undersøgelser. Få dage efter Pisa-præsentationen kan alle interesserede hente de anonymiserede data ned - også svarmønstre på de enkelte opgaver. Herhjemme kan vi ikke engang som forskere få adgang til data for svarmønstre bag de nationale test. Så er det svært at udvikle og i øvrigt bruge de korrekte statistiske metoder til at tage højde for usikkerhed på målingen«, siger forskeren.
Dertil kommer, at der ikke politisk er blevet reageret, da man opdagede de store problemer med måleusikkerheden.
Annonce:
»Det er jo velkendt stof, at der er store problemer, men det har ikke ført til gennemgribende forandringer. Man har negligeret udfordringerne i stedet for at tage tyren ved hornene. Det er lidt nedtrykkende, at man i en international sammenhæng oplever åbenhed over for de udfordringer, der er med at udvikle gode prøver og test, og at man så i egen hjemlige andedam blandt både forskere og politikere støder ind i lukkethed og to fløje, hvor det handler om enten at skrotte dem totalt eller fortsætte uforandret«, siger Christian Christrup Kjeldsen.
I 2009 gennemførte EU en undersøgelse af, hvordan man bruger test og bedømmelser i de forskellige lande. Der var stor mangfoldighed. Men siden er man begyndt at arbejde tæt sammen på tværs af lande. Systemerne bliver derfor mere og mere ens. Også lande som De Forenede Arabiske Emirater er nu i gang med at udvikle digitale test, og FN's organisation for uddannelse, Unesco, har udgivet anbefalinger til nationale faglige test for udviklingslandene.
Annonce:
Men dele af de nationale test, som man fortsat diskuterer i Danmark, er man for længst gået bort fra andre steder. For eksempel det fuldt adaptive princip.
»Ideen var god nok på det tidspunkt, men det viste sig, at de psykometriske forudsætninger ikke holdt i praksis, så man måtte acceptere en større standardfejl. Man troede på, at præcisionen kunne gøres meget bedre på kortere tid ved et adaptivt system. Men det har vist sig i praksis, at det ikke virker som forventet. Det har man forstået internationalt, så der arbejder man for eksempel i Pisa, Timss og Pirls i højere grad med en såkaldt 'routed adaption', hvor man rammer et nogenlunde niveau fra starten og derefter kører lineært«.
Fordelene ved den form er, dels at man har brug for at udvikle langt færre opgaver, dels at lærerne nemmere kan se, hvilke opgaver eleverne har fået, og dermed forstå, hvor eleverne har udfordringer.
Et andet område er tilbagemeldingerne til eleverne. Her var de nationale test også langt fremme, og man bevæger sig internationalt i den retning, hvor alle elever skal have en tilbagemelding. Men det skal være en tilbagemelding, som elever og lærere kan bruge til noget, og hvor usikkerheden ikke er så høj, at tilbagemeldingen ikke holder. Østrigerne arbejder for eksempel med differentierede tilbagemeldinger, hvor der tages højde for elevernes forudsætninger. »I Østrig får alle elever tilbagemeldinger på deres test, men det gives i en form, så man kan se, hvor man ligger i forhold til en sammenlignelig gruppe - for eksempel socioøkonomisk baggrund eller tosprogethed - ikke i forhold til hele kongeriget. Det giver langt bedre mening i forhold til at udvikle sig. Det samme får underviseren, så man kan forstå referencen med de usikkerheder, der er«, siger Christian Christrup Kjeldsen. Netop det med usikkerheden er noget, der bliver diskuteret åbent internationalt. »Du finder ikke nogen internationalt, der siger, at deres testresultater er klippesikre ned på decimalen. Alle testresultater er usikre, og skal det gøres fair, så bør den usikkerhed altid fremgå af tilbagemeldingen«. Her refererer Christian Christrup Kjeldsen til den danske diskussion af, hvor meget man kan tro på testresultaterne for den enkelte elev. »Jeg læste forleden en artikel helt tilbage fra 1992 om det amerikanske system, hvor det klokkeklart fremgik, at de var opmærksomme på, at man ikke kan give tilbagemeldinger på underdimensioner svarende til de danske profilområder, hvis man ikke har virkelig mange opgaver i hver. Hvis man bygger vurderingen på et mindre antal spørgsmål, så stiger usikkerheden jo. Ikke overraskende«. Udfordringen her er ikke, at de fleste forskere ikke er klar over dette. Udfordringen er, at politikerne ofte ønsker mere detaljerede resultater, end det er rimeligt at give, mener han. »Ved den seneste konference, jeg var til, sad jeg ved siden af den ansvarlige for det østrigske system, som virkelig er spændende. Og så fortæller hun mig, at man også der fra politisk hånd nu ønsker individuel tilbagemelding på profilområder. Politikerne vil have det, selv om forskerne har sagt, at det er for usikkert, hvis ikke testen skal blive alt for lang«.
Opgaver, man faktisk lærer af
Et andet område, hvor Christian Christrup Kjeldsen mener, at vi kunne lære af, hvad der foregår internationalt, er typerne af opgaver. Hvis man dropper det fuldt adaptive princip, skal man udvikle langt færre opgaver og kan gøre dem langt mere spændende.
»De nationale test er baseret på rimeligt rigide opgavetyper. Hvis vi skal være med her, skal vi se på, hvordan man udvikler opgavetyper, som involverer eleverne på en anden måde, og som reflekterer og afspejler den undervisning, de har i dagligdagen. I Flip-samarbejdet arbejder man med interaktive opgaver. Ligesom i Timss, hvor eleverne har problem solving items, hvor de får en storyline og eksempelvis skal gennemføre et interaktivt eksperiment«.
Opgaverne i Timss og Pirls kunne man sagtens bruge som eksempler på, hvordan det kan gøres. Man kan ikke overtage dem direkte, men hvis man involverer lærere og forskere i at udvikle dem til dansk kontekst, kunne det blive virkelig godt, mener han.
Her kunne vi lære noget af Norge.
»I Norge har de erkendt, at det med at måle færdigheder i uddannelse, det er ikke bare noget, man lige får et konsulentfirma til at gøre. De har oprettet et center, hvor de har rekrutteret dygtige internationale forskere, og så samarbejder de med professionerne om at udvikle. Det kunne vi også gøre i dansk sammenhæng. Men det kræver en imødekommenhed over for, at det er det, man skal«, siger Christian Christrup Kjeldsen.
Stikprøver eller nye landsdækkende test
Så hvad mener Christian Christrup Kjeldsen, at Danmark bør gøre i forhold til test? Først og fremmest mener han, at vi bør stoppe op og lære af det, vi har gjort. Være klar til at gøre det på en ny måde uden at skylle alle erfaringer ud med badevandet.
Han ser to veje at gå: Enten kan man lære af de nationale test og lade forskere og praktikere udvikle en ny landsdækkende test. Eller man kan gå over til stikprøvebaseret testning og så bruge krudtet på at udvikle bedre diagnostiske test til individniveau, som lærerne kan bruge i undervisningen.
Vælger man den første vej, er der en del ting at tage højde for: »Det kan lade sig gøre at udvikle gode test. Og det er helt legitimt som forælder, at man gerne vil have en tilbagemelding på, hvordan det står til. Men det skal være ordentligt, og det kræver, at man erkender, at det, vi har i dag, ikke fungerer«.
Internationalt arbejder man på, at testene skal have værdi for eleverne, så den megen tid, man bruger på dem, bliver brugt bedre.
»Som jeg ser det, er der tre ting, der kan gøre test relevante og interessante for eleverne at gennemføre: Det skal være muligt for lærere at vurdere og fortolke den enkelte elevs resultat og testforløb. Testene skal afspejle praksis i faget, hvilket kræver, at man løbende involverer praktikere og forskere på området, og at de er dynamiske over tid - også for at sikre, at det ikke bliver 'learning to the test'. Og så skal man lave et forløb, der tester færre gange, men ordentligt. Det er bedre at få en relativt god sikkerhed færre gange end en masse gange, hvor man ikke ved, om det holder«, siger han.
I en ny landsdækkende test bør man efter Christian Christrup Kjeldsens mening gå væk fra det fuldt adaptive, men læne sig op ad lærerens vurdering af startniveauet og dermed kunne lave opgaver med større variation i type og indhold. Han tror ikke på test i alle fag hvert år, men en rullende form, hvor alle fag bliver testet over tid, nogle måske oftere end andre. Og så bør tilbagemeldingen til lærerne og eleverne være i stil med de østrigske, hvor resultaterne måles op mod sammenlignelige elever og klasser, så lærerne ikke bliver hængt op på et unfair grundlag.
Diagnostiske test til lærernes dagligdag
Alternativet er at nøjes med at teste cirka hver tiende elev.
»Hvis man gør det som stikprøver, kan man bruge længere tid på testen og spørge til baggrundsforhold relateret til undervisningen, som man gerne vil være klogere på. Der vil også være usikkerhed på en stikprøve, men hvis forskellene ikke er større, end at man ikke kan få øje på dem i en stikprøve, så vil jeg påstå, at de heller ikke er værd at beskæftige sig med«, siger viceinstitutlederen.
Det vil selvfølgelig betyde, at man ikke længere kan udarbejde ranglister over skolerne, men det er ikke det store tab, mener han, for man ville sagtens kunne se forskelle på skoletyper. Også her ser han for sig, at man laver en rotation mellem fag og årgange.
Til lærerne kunne man så begynde at udvikle de diagnostiske test, for eksempel kunne man bruge det system, de bruger i Flip-samarbejdet, til at udvikle onlinetest, som kunne udvikles videre i de enkelte team. Her er der nemlig udviklet opgaver, som er mere komplekse og kontekstuelle.
»Skolen har brugt faglige, diagnostiske test i årevis. Men dels har vi brug for at udvikle det, man kalder 'test literacy', blandt lærerne og ledere. Dels mener jeg, at vi skal hjælpe med at udvikle en buket af relevante evalueringer og test, som lærerne kan tage ned fra hylden i det daglige arbejde. Som det er nu, er det jo relativt uoverskueligt for lærerne. Så det kunne være godt at give dem en blåstempling i forhold til deres psykometriske egenskaber, for eksempel måleusikkerhed«.
Om man vil gå den ene eller anden vej er i høj grad et politisk spørgsmål.
»Udfordringerne med at udvikle det ene eller det andet er lige store. Og man skal passe på, at det ikke bliver tilfældige lykkeriddere på markedet, der lover, at alt kan lade sig gøre. Fordelen ved de centrale landsdækkende test er også, at alle forældre til børn i folkeskolen får en ensartet tilbagemelding, uanset hvor børnene går i skole, ulempen er, at det ikke i dag dækker de private skoler også«.