Testbruk og misbruk – kvalitetskrav til testene og de som benytter dem

Hvordan bruke tester på best mulig måte i karriereveiledning? Eva Langvik gir en innføring i de grunnleggende begrepene som er nødvendig for god og hensiktsmessig bruk av tester.

Publisert 25. februar 2016 , sist oppdatert: 13. september 2020

Eva Langvik

Ph.D. og førsteamanuensis ved Psykologisk institutt ved NTNU

Gode tester er utviklet på bakgrunn av teori og statistikk. De har vært gjenstand for en grundig vurdering og er ofte revidert, slik at de skal være optimale.

Når tester benyttes i ansettelsesprosesser eller veiledningssammenheng, vil det være to hovedaspekter som avgjør hvor vellykket bruken av test er. Testens egenskaper er selvfølgelig veldig viktige, men jeg vil hevde at egenskapene til de som benytter testene er minst like kritisk for utbyttet.

En god test benyttet av en ukyndig veileder er verre enn en dårlig test benyttet av en veileder med god kjennskap til testens egenskaper og ikke minst teststatistikk generelt. Om testbrukerne ikke har kompetanse til å gi en kvalifisert tolkning av testresultatene, vil det i beste fall være bortkastet tid for begge parter.

Den internasjonale testkommisjonens (ITC) retningslinjer om testbruk fokuserer både på testens egenskaper og brukerne av testene. Den viktigste egenskapen til veiledere som benytter tester i arbeidet sitt er evnen til å kunne vurdere kvaliteten på testen som benyttes.

Det er også viktig vite hvordan man skal tolke resultatet, og hva man kan bruke resultatet til. Resultatene fra testene må være både gyldige og nyttige. Her er begrepene reliabilitet og validitet sentrale, men først litt om hvordan man kommer fram til testskårer.

Standardiserte tester og operasjonalisering av psykologiske begrep

I motsetning til fysiske egenskaper er psykologiske egenskaper som yrkespersonlighet eller personlighetstrekk mer krevende å måle. Psykologiske tester inkluderer både intelligenstester, personlighetstester, motivasjonstester, og interesser for å nevne noen. Litt forenklet kan man si at de fleste tester som er relevante i veiledningssammenheng er psykologiske tester.

En psykologisk test er en standardisert fremgangsmåte for å registrere utvalgt atferd på en meningsfylt måte og beregne skårer (tall) som reflekterer karakteristika ved et individ. Det at testen er standardisert, innebærer klare retningslinjer for hvordan den skal benyttes.

Det er en fast rekkefølge på spørsmålene, de har en bestemt svarskala, og ofte en bestemt skåringsnøkkel. En skåringsnøkkel viser til hvilke tall som skal legges sammen for å komme fram til selve testskåren.

Gode tester er utviklet på bakgrunn av teori og statistikk. De har vært gjenstand for en grundig vurdering og er ofte revidert, slik at de skal være optimale. Det vil eksempelvis være nødvendig å først definere begrepet som skal undersøkes.

Og selv etter mange år med forskning og en nærmest utømmelig mengde litteratur, er det fortsatt ikke slik at alle er enige i hva for eksempel ekstroversjon er og hvordan dette personlighetstrekket bør måles.

Å operasjonalisere vil si å utarbeide spørsmål og svarskalaer som skal inngå i målet. Den enkleste, men absolutt ikke den beste, måten vil jo være å spørre personen: «Ser du på deg selv som en ekstrovert person?» med de tilhørende svaralternativene JA/NEI.

Dette er problematisk av flere grunner. I stedet vil man som regel se at psykologiske egenskaper er operasjonalisert ved hjelp av mange spørsmål som til sammen måler en og samme egenskap.

En av fordelene med å inkludere mange testledd (altså flere utsagn eller spørsmål for å måle et begrep), er at feilkildene spres på flere ledd. Dette gjør testen mer robust. Testskåren man benytter videre i arbeidet blir altså en sumskåre eller gjennomsnittskåre som baserer seg på flere spørsmål.

Et overordnet mål for de som utvikler tester vil selvfølgelig være å eliminere alle uklare testledd for å få minst mulig feilskåre, og ende opp med en mest mulig «sann skåre». Ifølge klassisk test-teori vil alle målinger bestå av en andel «sann skåre» og feilskåre. Å minimere feilskårer er knyttet til det man kaller reliabilitet.

Reliabilitet

Reliabilitet viser til hvor godt en test måler sanne skårer, det vil si hvor pålitelig og presis testen er. Det finnes mange måter å undersøke dette på. Den kanskje mest kjente måten å undersøke reliabilitet på er å undersøke stabilitetskoeffisienten.

Dette kalles ofte test-retest reliabilitet. Her regner man ut korrelasjonen mellom skårer på samme test tatt ved to tidspunkt. Om alle deltakerne i en gruppe svarer helt likt på alle spørsmålene begge gangene, vil det vi kaller stabilitetskoeffisienten bli 1.0, noe som innebærer at det er perfekt samsvar.

Her er det viktig å huske på at ikke alt som måles er stabile egenskaper. Tester som måler tilstander som følelser eller symptomer, vil man ikke forvente skal ha høy test-retest reliabilitet. Mens personlighet og yrkesinteresse bør ha en viss stabilitet for at de skal være nyttige verktøy.

Uavhengig av hva som måles bør alle tester som måler et begrep ved hjelp av flere spørsmål/ledd ha det vi kaller indre konsistens.

Denne typen reliabilitet kalles ofte Cronbachs alfa og symboliseres ved α. Denne verdien er et mål på hvor sterkt statistisk sammenheng det er mellom alle spørsmålene som måler samme begrep. En verdi på over .70 regnes som tilstrekkelig, men her kommer formålet til testen inn.

Mange testledd gir høyere indre konsistens målt ved Cronbachs alfa, derfor vil et mål som baserer seg på 20 spørsmål lettere få en høy alpha enn et som baserer seg på kun fire.

Et enklere mål på indre konsistens er det som kalles split-half reliabilitet. Her sjekker man hvordan en person svarer på den ene halvparten av spørsmålene sammenlignet med hvordan vedkommende svarer på den andre halvparten i samme mål.

Logikken bak mål på indre konsistens, er at når man bruker flere testledd for å måle et overordnet begrep, så må det også være et statistisk, så vel som teoretisk sammenheng mellom disse spørsmålene man bruker for å måle noe. Her kommer vi inn på det viktigste når det gjelder tester: De må være valide. De må måle eller kartlegge det vi ønsker å måle.

Validitet

Mens reliabilitet viser til selve instrumentet eller testen, altså målingen, handler validitet om gyldigheten til resultatet av testen. Et instrument kan være reliabelt uten å være valid, men validitet forutsetter reliabilitet. Mens reliabilitet er enkelt å vurdere ved hjelp av utregninger av koeffisienter og standardkriterier, er det vanskeligere å vurdere hvorvidt et mål er valid eller ikke.

Den enkleste formen for å vurdere validitet er det man kaller «face-validitet». Her er det førsteinntrykket som teller. Denne type validitet er også viktig for at de som tar testen skal ta den seriøst.

Er testen ment å måle personlighet, bør spørsmålene handle om hvordan man vanligvis tenker, føler og handler. Dette er nært knyttet til innholdsvaliditet, som undersøkes ved en faglig vurdering av alle spørsmål som inngår.

En test som er ment å kartlegge angst, skal ikke inneholde spørsmål som måler depresjon. Siden symptomer på angst og depresjon ofte opptrer samtidig, vil et slikt instrument kunne komme ut som reliabelt, uten at det ville være et valid mål på angst.

Det er viktig at testene som benyttes har god begrepsvaliditet. Begrepsvaliditet er den overordnede formen for validitet. Det finnes flere måter å undersøke begrepsvaliditeten på, man kan for eksempel benytte faktoranalyse for å finne ut om alle spørsmålene i en personlighetstest kan reduseres til fem dimensjoner slik teorien hevder.

Man kan også se om det er samsvar, eksempelvis mellom ulike mål på ekstroversjon (konvergerende validitet). God begrepsvaliditet er nødvendig men ikke tilstrekkelig for at en test kan benyttes til å avgjøre hva slags karriere en person bør sikte seg inn på.

For selv om resultatene er gyldige (valide), må de kunne brukes til noe utover det å beskrive en person. Det er her kriterievaliditet, også kalt beslutningsvaliditet, kommer inn.

Kriterievaliditet: «Hva så-validitet»

Kriterievaliditet handler om hva testskårene kan brukes til. I seleksjonssammenheng handler dette om å velge rett person til rett jobb. Men det kan også handle om å gi riktig type råd og veiledning i forbindelse med karrierevalg.

Samtidig validitet kan være at det er en sammenheng mellom hvordan noen skårer på en personlighetstest og hvordan de presterer i jobben.

Om det i tillegg er mulig å si noe om fremtiden basert på en test, altså at skårer på en test tatt flere år tidligere vil kunne si noe om hvordan en person vil trives i et fremtidig yrke har testen også prediktiv validitet. For å få best mulig nytte av testene som brukes, er brukerne av testene nødt til å ha kunnskap om mulighetene og begrensningene til testene.

Dette gjelder spesielt om beslutninger baseres på resultatet av testene. Her må man passe på å ikke overdrive nytteverdien til en test og gjøre bastante konklusjoner basert på en skåre.

Men det er også uheldig å ikke benytte potensialet som ligger i resultatene. Ulike personlighetstrekk er knyttet til ulikt behov for sosial kontakt, effektiv stressmestring, hvordan man fungerer sammen med andre, behov for nye utfordringer, fleksibilitet og grad av selvdisiplin.

Denne kunnskapen kan gi et godt grunnlag for å diskutere utfordringer, muligheter og viktige veivalg med dem som skal ut i arbeidslivet.

Betydningen av normgrunnlaget og transformasjon av skårer

Bruk av standardiserte tester vil ofte medføre at testen er normert. Det vil si at man vet hva en høy eller lav skåre innebærer. Bruker man tester for å kartlegge norske ungdommer, er det viktig at normgrunnlaget består av nettopp norske ungdommer og ikke eldre amerikanske. På noen tester eksisterer det også egne kjønnsnormer.

En råskåre på en test forteller oss egentlig ingenting. Vi må vite hva som er vanlig å skåre på denne testen (gjennomsnittet i et stort normutvalg) og vi må vite hvor mye det er vanlig å variere fra snittet (standardavvik).

De fleste variabler vil fordele seg slik at de fleste samles rundt den vanligste skåren (sentraltendensen), og at det er vanligere å ligge tett opp til denne enn veldig lang unna. Som vi ser av kurven nedenfor vil over 68 prosent av observasjonene befinne seg +/- et standardavvik fra gjennomsnittsverdien.

Om man benytter seg av Z-skårer, vil man ikke trenge informasjon om gjennomsnitt og standardavvik for å vite om en skåre på en test er høy og lav. Z-skårer er transformerte råskårer, og i en Z-fordeling er gjennomsnittet alltid 0 og standardavviket 1. Får man en skåre på -2.0, vet man automatisk at den ligger langt under snittet, og at kun noen få prosent vil ha en lavere skåre.

Kategorier versus dimensjoner

Ikke alle tester gir en skåre som kan sammenlignes opp mot andre sine skårer ved hjelp av gjennomsnitt og kategorier. Noen personlighetstester opererer med kategorier, at man er enten eller.

Med Myers-Briggs Type Indicator (MBTI) er dette tilfellet; man får ikke en skåre, men havner i en gruppe, og det blir vanskelig å sammenligne på tvers. Du vet bare at personen for eksempel er mer ekstrovert enn introvert. Det at de fleste vil befinne seg på midten av ulike personlighetstrekk gjør at denne kategoriseringen vil bli unøyaktig for de fleste.

En slik tilnærming kalles type-tilnærming mens de fleste andre personlighetsmodeller og mål baserer seg på en trekk-tilnærming (f.eks. Big Five modeller).

Hvorfor bruke tester?

Det er mye man må sette seg inn i når man skal drive med testing. Men er det vært bryet? Tidligere har forskningen vist at kriterievaliditeten til Hollands yrkesinteresse tester (RIASEC) i beste fall har hatt moderat evne til å kunne predikere prestasjon og trivsel.

Hollands begrep «interesse-kongruens» vektlegger at en match mellom yrkespreferanser og interesser og egenskaper ved jobben vil føre til bedre trivsel.

Resultatene fra tidligere forskning har vært uklare og gitt bare delvis støtte. Dette fordi det å trives i jobben avhenger av mye mer enn selve jobben du gjør. Du kan trives med arbeidet du gjør, men ikke med kollegaene dine eller sjefen.

Så er det noe å hente? Ja, absolutt. I seleksjonssammenhenger ser man at selv tester med lav kriterievaliditet fører til færre feilansettelser enn om man ikke bruker noen tester.

Betydningen av personlighet når det gjelder evner og ønsker om å jobbe sammen med andre, ønske om å konkurrere, være fleksibel, eller ha selvdisiplin er godt dokumentert.

Og mens personlighet er viktig å inkludere i karriereveiledning ettersom det har en generell betydning for prestasjon, kan Holland sin interessetest gi en viktig tilleggsinformasjon. Nyere forskning med mer sofistikerte statistiske metoder har vist at kongruens er viktigere enn tidligere antatt når det gjelder frafall og fornøydhet i starten av yrkesspesialisering.

Oppsummering

Skal tester benyttes til beslutninger, må de være valide. For at tester skal ha kriterievaliditet, må de ha begrepsvaliditet. Validitet forutsetter reliabilitet, mens en reliabel test ikke trenger å være valid.

Så hvor kan man finne ut om en test er valid? Vel, ikke på hjemmesiden til de som markedsfører testen i alle fall. Tester er god butikk, så der vil man i noen tilfeller finne skamløs reklame for testens fortreffelighet når det gjelder reliabilitet og validitet.

Kanskje vil det at du har pint deg gjennom denne ABC'en i teststatistikk gjøre at det blir litt lettere å avsløre bløffmakere.

Lykke til videre med fornuftig, etisk og ikke minst nyttig testbruk!

Les mer:

Langvik, E og Martinsen, Ø. (2015). En trekkteoretisk tilnærming til Personlighet. Kap 4 i boken: Personlighetspsykologi (Redaktører: Hagen & Kinnear). Oslo: Fagbokforlaget

Nordvik, H. og Langvik, E. (2011). Personlighet og yrke. I Arbeids- og organisasjonspsykologi. Aktuelle tema til inspirasjon for et bedre arbeidsliv (saksvik). Cappelen Akademiske

Internasjonale retningslinjer for testing: International Test Commision Guidlines on test use. https://www.intestcom.org/files/guideline_test_use.pdf

Volodina, A., Nagy, G., & Köller, O. (2015). Success in the first phase of the vocational career: The role of cognitive and scholastic abilities, personality factors, and vocational Interests. Journal of Vocational Behaviour, 91, 11-22.