Debat

Er de nationale test adaptive?

En kort (hm) opsummering af min kommunikation med UVM omkring de nationale test, med tilhørende egne konklusioner.

Offentliggjort Sidst opdateret

Bemærk

Denne artikel er flyttet fra en tidligere version af folkeskolen.dk, og det kan medføre nogle mangler i bl.a. layout, billeder og billedbeskæring, ligesom det desværre ikke har været teknisk muligt at overføre eventuelle kommentarer under artiklen.

Er de nationale test adaptive?Svaret på spørgsmålet er faktisk ret enkelt - det er de ikke.Man kunne begrunde svaret med, at de nationale test slet ikke er en test, men bare en samling opgaver, der er besvaret af en årgang elever. Hvis man vil gå den vej, så bør man læse i fx Evaluering i skolen - baggrund, praksis og teori fra Dafolo. Det bliver en besværlig vej, fordi opgaverne er fortrolige.Et andet svar kunne bygge på den forudsætning, at en adaptiv test skal opfylde en bestemt statistisk model - Rasch-modellen. Forudsætningen stammer fra to kilder:

Om Rasch modeller og adaptive test af Svend KreinerComputer-Adaptive Testing: A Methodology Whose Time Has Come. By John Michael Linacre, Ph.D. MESA Psychometric Laboratory University of Chicago.

Rasch-modellen kan formuleres på mange ensbetydende måder, her er en af dem.

Vær med i samtalen

Klik her for at indsende dit indlæg til folkeskolen.dk - medsend gerne et portrætfoto, som kan bringes sammen med indlægget

#Fil 1

I modellen er:

e grundtallet for den naturlige logaritme.d elevens dygtighed - det der måles ved testens opgavens sværhed - som er bestemt ved afprøvning

Hvis d=s altså d-s=0, så er eleven ligeså dygtig som opgaven er svær og sandsynligheden for rigtigt svar er 50%Modellen kan også formuleres sådan her - P(R) = exp(d-s)/(1+exp(d-s)). Denne formulering bruges fremover, fordi det er lettere at skrive.

I “normale” test løser alle elever de samme opgaver. Hvis Rasch-modellen gælder så skal man kunne dokumentere, at man kan sammenligne eleverne ved alene at se på antal rigtige og man kan sammenligne opgaverne ved alene at se på rigtighedsprocenterne.I de nationale test løser eleverne ikke de samme opgaver. Målet med testen er derfor at finde elevens dygtighed (d). Det gøres ved at se på antallet af rigtige og forkerte svar og på den baggrund beregne den største elevdygtighed, der passer med antallet af R og F og de konkrete opgavers sværhed. Jeg har set en formel:Dygtighed = gennemsnit af opgavesværheder + naturlig log. til (R/F).

UVM omregner dygtigheden på følgende måde - kilde UVM:Resultat på 1-100 skalaen = 100*exp(e*(x-f))/(1+exp(e*(x-f))).

e et tal der er bestemt ud fra testresultaterne i de første driftsuger i 2010.x er elevens dygtighed - det der måles ved testen, altså x=df er sværheden af den opgave, som 50 % af eleverne besvarer rigtigt altså en slags middelsværhed.

Resultatet udtrykker altså elevens sandsynlighed i procent for at løse den middelsvære opgave rigtigt.

Man kan også sige atResultat på 1-100 skalaen = 100*exp(e*(x-f))/(1+exp(e*(x-f)))er det matematiske udtryk, der beskriver den middelsvære opgave. Da alle opgaver i et profilområde skal have samme type matematiske udtryk og da e er en konstant for profilområdet, så kan alle opgaver skrives på følgende form:

P(R) = exp(e*(d-s))/(1+exp(e*(d-s)))

Rasch-modellen siger det her

P(R) = exp(d-s)/(1+exp(d-s))

Forskellen mellem de to udtryk er værdien af e.I Rasch-modellen er e=1. I ministeriets model er e forskellig fra 1. I en oversigten - Sigmoiddata 2010 - kan man se de nøjagtige værdier af e for de enkelte profilområder. Den mindste værdi er ca. 0,9 og den største værdi er ca. 5.

Så konklusionen er at ingen af opgavefunktionerne opfylder Rasch-modellen og testen er ikke adaptiv.

Figuren viser et konkret eksempel på hvad tallet e betyder. Begge kurver har sværhed 0,5. Blå kurve: e= 1,9.  Rød kurve: e= 1.

#Fil 2

Hvis vi fx siger, at Christines besvarelse af et udvalg af testopgaverne giver en x-værdi på 0, så kan man på den blå kurve aflæse resultatet til ca. 22 - et 2-tal på 1-5 skalaen. Hvis man havde brugt den røde kurve, så ville Christine få resultatet ca. 38 - et 3-tal på 1-5 skalaen.Tabellen i skemaet viser resultatet for tre elever set i forhold til hvilken kurve der bruges:

#Fil 3

Som man kan se, så er det ikke ligegyldigt hvilken model der bruges ved omregningen. Den røde kurve giver de tre elever samme karakter, mens den blå kurve giver eleverne forskellige karakterer.Generelt kan man sige, at den samme personparameter giver vidt forskellige karakterer. Elevernes resultat i testen rapporteres altså i forhold til hvordan andre elever har klaret testen, ikke i forhold til hvordan eleven har klaret sig i forhold til det opgaverne måler.

Ministeriet er helt givet af den opfattelse, at de opgaver der benyttes i testen opfylder Rasch-modellen. Men den måde de omregner til 1-100 skalaen viser, at det ikke er tilfældet. Testresultaterne opfylder ikke Rasch-modellen.PISA skriver i en kommentar til Svend Kreiners kritik af PISA - side 3: “The sample sizes in PISA are such that the fit of any scaling model, particularly a simple model like the Rasch model, will be rejected. ..”. Så alene størrelsen af testen “sikrer” vel, at Rasch-modellen ikke passer med de faktiske testresultater.

www.oecd.org/pisa/47681954.pdf

I min optik trænger testen til et ordentligt eftersyn af de tekniske egenskaber. Det vil sikkert også være på sin plads at vurdere opgavernes relevans i forhold til undervisningen og det man forventer eleverne skal kunne. Målingens pålidelighed kunne man nok også ønske sig belyst. Hvis man fx forestiller sig, at Emil og Karen om onsdagen fik resultatet 45 og 55 ville de så også næste onsdag, hvor de måske var kommet til bytte identitet, så også få 55 og 45? Det kunne være interessant at kende svaret.Jeg ved ikke om den kommende evaluering af testen kommer til at handle om andet end brugeroplevelser. Den burde efter min opfattelse belyse mindst de samme forhold som evalueringen i 2007 og sikkert også nogle flere - jeg har lavet en liste over ting, der burde afklares:

Betydning af:

Tidspunkterne for afprøvningen af opgaverne og testtidspunkterne. De passer ikke sammen og da testen kun måler en lille del af det eleverne forventes at kunne, så kan eleverne måske noget andet på afprøvningstidspunktet end på testtidspunktet og omvendt.

Opgavernes rækkefølge ved afprøvningen og ved testen. Rækkefølgen kan have indflydelse, fordi eleverne oplever de sidste opgaver vanskeligere, bare fordi de kommer sidst.

Antallet af elever der løser den enkelte opgave i testen i forhold til afprøvningen. Hvert profilområde indeholder nogle hundrede opgaver, der er mere end 60000 elever i en årgang, så en stor del af opgaverne bliver nok løst mange flere gange i testen end ved afprøvningen. Det må give bøvl med sværhederne. Noget i stil med, at kaster man 100 gange med en terning, så får man ikke det samme udfald, som hvis man kaster1000 gange med den samme terning.

Kriterierne for tildeling af opgaverne. De 5 første opgaver tildeles ret tilfældigt og der beregnes en foreløbig værdi af elevparameteren. Denne værdi danner så udgangspunkt for tildelingen af de næste opgaver, idet værdien hele tiden nyberegnes afhængigt af elevens svar.Da al statistikken vel forudsætter, at tildelingen af opgaverne er tilfældig, så kunne al regneriet vel virke mod hensigten, at det er "tilfældigt" hvilke opgaver eleven får tildelt. Så måske er elevresultatet forudbestemt efter de 5 første opgaver.

The attenuation paradox: Up to a point, reliability and validity increase together, but then any further increase in reliability decreases validity. This is the attenuation paradox (RMT 6(4) p. 257, RMT 7(2) 294). The attenuation paradox appears most clearly in the context of item selection and test construction. In practice, the problem is how to select those items that will simultaneously increase both the reliability and validity of the total test scores. From the perspective of Rasch measurement, there is a simple solution to the attenuation paradox. Useful invariant measurement require items to have similar discrimination and stochasticity, but different difficulties. The elimination of both low and high discriminating items (Andrich, 1988) maximizes validity, while optimizing reliability.http://www.rasch.org/rmt/rmt83h.htm

Bemærkninger:

PISA skriver i en kommentar til Svend Kreiners kritik af PISA - side 3: “The sample sizes in PISA are such that the fit of any scaling model, particularly a simple model like the Rasch model, will be rejected. ..”. www.oecd.org/pisa/47681954.pdf

Så alene størrelsen af testen “sikrer” vel, at Rasch-modellen ikke passer med de faktiske testresultater. Men flere opgaver vil vel gøre testen “mindre”, fordi opgaverne bliver brugt mindre end ved afprøvningen. Måske vil man så ikke se ændringer i sværhederne fra afprøvning til test - 10 kast med en terning i modsætning til 1000 kast.

Hvis man ser på Sigmoiddata 2010 og siger, at e-værdierne repræsenterer opgavernes diskrimination – evne til at skelne mellem dygtige og mindre dygtige elever – så virker det umiddelbar som om, der burde være masser af paradoksale testresultaterne. Hvis det ikke er tilfældet, så skal man lægge mærke til, at store e-værdier er bedre at skille fårene fra bukkene end mindre e-værdier.

Måske er det, det eneste testen kan - altså skille fårene fra bukkene.