Sidor

Saturday, September 24, 2011

Test utan dokumenterat värde, eller kejsarens nya kläder


När jag läste psykologutbildningen fick jag lära mig att test absolut måste ha dokumenterad validitet, att de skulle vara evidensbaserade som vi säger nuförtiden. Test  finns många, konstruerade av optimister och eller amatörer.  Med hjälp av skickliga marknadsförare kan testen framställas som "vetenskapliga" och "i det närmaste ofelbara".
Test säljs i Sverige i stor volym utan att ha validerats för svenska tillämpningar, oftast översatta versioner av brittiska eller amerikanska test. Kunderna tycks inte fråga efter validitet, eller också utgår de från att den finns och är väl dokumenterad. Där tar de alltså fel! Detta gäller tyvärr även de största  aktörerna i branschen. STP-prövningen var tänkt att motverka dessa missförhållanden, men vad har hänt? STP kan mycket väl skriva en mycket kritisk rapport om ett test, men rapporten är mycket dyr, svårläst och svår att få tag på. Ett starkt kretiskt yttrande läses därför av få, och i marknadsföringen kan man stolt säga att testet är "granskat av STP", utan större risk att någon blivande kund tar reda på vad STP egentligen har sagt.
Jag har föreslagit att STP ska göra rapporterna tillgängliga gratis på sin hemsida men förslaget har inte beaktats, inte ens besvarats. (STP besvarar sällan och i så fall med lång fördröjning frågor eller förslag).  STP ger inte heller kontaktuppgifter till testfirmorna på sin hemsida, vilket skulle vara en enkel service och inte är mycket att begära efter att man betalat ganska mycket pengar för att (efter ett par år) få en granskning (50 000).   Mycket mer är att säga om STP, men det ska jag återkomma till. Här nöjer jag mig med att påpeka att rapporterna bara ger knapphändiga uppgifter om vilka data de stödjer sina bedömningar på. Dessa data finns oftast endast i svår- eller otillgängliga källor. Testföretagen är i de flesta fall ovilliga att lämna ut dem.
Alltså: test använda i stor skala i Sverige har ingen - eller bara ytterst fragmentarisk -  dokumenterad validitet för svenska tillämpningar. Kunderna har rätt att få bättre test, och sådana finns faktiskt.

Wednesday, September 21, 2011

Prognos och förståelse

Personlighetstest kan, om de har rätt innehåll, ha hög validitet, omkring 0.5. Men för att nå den siffran måste man matcha testskalor mot kriteriet. Den fråga jag ställde mig helt nyligen var om ett screeningtest, som omfattar bara en mindre del av ett fullständigt personlighetstest, kan ha lika hög validitet. Till min förvåning fann jag att så var fallet, validiteten var bara obetydligt lägre med ett screeningstest som var baserat på de bästa skalorna i det fullständiga testet, bästa i betydelsen mest valida mot kriterier.

Det är ett viktigt resultat, eftersom det visar att screeningidén kan fungera bättre än man kunde vänta, men det betyder inte att ett mera fullständigt test är onödigt. Prognoser av arbetsresultat är inte det enda syftet med testning, men det är vad som krävs i en första fas, där just screeningtestet är tänkt att fungera. I ett senare skede berikas beslutsfattandet av en fördjupad kunskap om personen.

Sunday, September 11, 2011

Hur många gånger kan man upprepa samma test?

Personlighetstest som OPQ och HPI används ofta, och har funnits länge på marknaden. Som ett resultat av detta möter man ofta jobbkandidater som redan testats en eller många gånger med ett eller flera av de vanliga testen. Det är då naturligt att fråga sig om testens värde urholkas av omfattande erfarenhet med dem. Såvitt bekant förekommer inga försök att registrera antalet testningar en person gjort med ett test.(Utom för UPP 2.0, som lanseras snart. UPP är ett nytt test, medan det finns hundratusentals personer i Sverige som tagit test som OPQ, HPI, Master, 16 PF, Myers-Briggs och Thomas/PPA).

Frågan om effekter av omtestning med personlighetstest har inte undersökts noga tidigare.  Hausknecht (2010) finner emellertid i en studie med Gordon-testet (ett Big Fivetest), mycket stora effekter, i förskönande riktning, hos dem som inte anställts efter första testningen. (Hos dem som fick jobbet var det inga effekter). Detta var fallet trots att dessa personer inte fick ingående återkoppling, något som troligen skulle ha ökat effekterna ytterligare eftersom den kan ge ledtrådar till den testade om vad i testresultatet som var mindre lyckat.

Särskilt låga värden vid första testningen förbättrades starkt vid nästa testning. Sambandet mellan de två testningarna var svagt, mycket svagare än vad man normalt får med upprepade personlighetstestningar. Det tyder också på att de testade har andra svarsstrategier andra gången, och troligen innebar detta i sin tur att testets validitet sjönk betydligt.

Den som vill använda ett av de vanliga testen bör därför tänka sig för noga. Hur stor är risken att personen som ska testas redan har tagit testet? Har han eller hon fått återkoppling? Detta är ju regel i Sverige. Kan man få reda på om tidigare testning gjorts? Ja, det går ju an att fråga, men många vet inte vilka test de tar eller har tagit, och de har inte fått någon skriftlig rapport med sig från testningen. Vissa testföretag hemlighåller t o m vilka test de använder.

Kan test bli "utslitna" och tappa den validitet de eventuellt kan ha haft? Javisst, om man under decennier har kört tiotusentals testningar per år i Sverige. Det behövs nya test, och systematiska frågor till den testade om tidigare erfarenheter av testning, för att komma tillrätta med detta stora problem.

Referens

Hausknecht, J. P. (2010). Candidate persistence and personality test practice effects: Implications for staffing system management. [doi:10.1111/j.1744-6570.2010.01171.x]. Personnel Psychology, 63(2), 299-324. Klicka här

Sunday, September 4, 2011

Cronbach's alpha outdated?

Cronbach's alpha is industry standard for assessing reliability. It measures consistency of items forming a scale, which is useful but could be misleading. The problem is that the items could all measure a composite of several latent traits; hence the scale may not be very useful as an indicator of a construct in spite of a high value fo alpha. A more appropriate measure need to reflect true homogeneity of the items in a scale, simply speaking if they measure a common factor. This is probably going to replace alpha in test construction and assessment of tests, but the process is fairly slow, and the practical implications so far not well known. How many test scales need to be "purified" and will they then be more useful in practical applications?

Reference


Schweizer, K. (2011). On the changing role of Cronbach's alpha in the evaluation of the quality of a measure. European Journal of Psychological Assessment, 27, 143-144.

Free counter and web stats