Sidor

Sunday, May 15, 2011

Svårigheter att dokumentera testvaliditet inom STP:s system för testgranskning

STP (Stiftelsen för Tillämpad Psykologi) har tagit på sig uppgiften att kvalitetsgranska psykologiska test. Ett viktigt inslag i denna granskning är att bedöma värdet av testens validitet. Det finns, troligen delvis på grund av STP:s verksamhet, en ganska utbredd skepsis mot test, alldeles för stor enligt min mening. Företrädare för STP talar ofta i media om "dåliga" eller "tvivelaktiga" test. Det låter trovärdigt, tills man sätter sig in i de metoder de använder för att värdera test. Dessa är nämligen missvisande. Här är en lista på svagheter i deras bedömningsgrunder som gäller validering av test i förhållande till  externa kriterier:


1. Man har satt upp ett godtyckligt krav på minst 100 personer i stickprovet – kan sällan uppfyllas. Om n<100 är det enligt STP ”en inadekvat studie”. Det här kravet är direkt avskräckande för dem som vill validera sina test.
2. STP gör en starkt missvisande beräkning av testets validitet som median av korrelationer mellan testskalor och kriterier – men olika skalor fungerar ju för olika kriterier (innehållsmatchning). Värdet av testet är något helt annat än medianen av värdet av enskilda testskalor.  
3. Det är mycket oklart om STP anser att korrektion ska göras för mätfel i kriteriet och beskuren spridning i testet, och i så fall hur. Traditionell metodik för korrektion för beskuren spridning (Thorndikes Case II) bygger på ett antagande om explicit selektion, som är orealistiskt och ger för svag effekt. Numera kan man göra korrektionen med bättre metodik (Men STP har haft samma kriterier sedan 2002). Korrektion är helt nödvändig för att man ska få en rättvisande bild av testets validitet.
Begreppsvalidering görs ofta genom att beräkna samband mellan testvariabler och andra variabler som antas mäta samma begrep. Det är då nödvändigt att korrigera för mätfel i båda variablerna – detta godtar troligen inte ST. Exempel: UPP-testets 16 skalor hade en begreppsvaliditet på i genomsnitt 0.68, men före korrektion på 0.54. Förklarad varians var alltså ca 50 % högre efter korrektion för mätfel, en väsentligt bättre bild av testet!
 
Intrycket om ”dåliga test” har alltså troligen till stor del sin grund i orealistiska krav och användning av ineffektiv metodik för att uppskatta styrkan på samband mellan test och kriterier. Det handlar om en systematisk undervärdering av testen, och större öppenhet för kritiska synpunkter och aktuell utveckling inom psykosmetriken vore av stort värde.

Saturday, May 14, 2011

Validitet mot polisens lönekriterier

Daniel de Colli har i en D-uppsats vid Mälardalens högskola rapporterat en noggrann undersökning av UPP:s validitet mot polisens lönekriterier (n=100 anställda), se uppsatsen här. Resultaten är mycket positiva för testet. Validitet mot sammanslagna lönekriterier var r = 0.48, för produktivitet 0.50 och för social förmåga 0.38. Mot ett objektivt mått på arbetsresultat, antal hållna förhör under 1 år, var sambandet = 0.54. Resultaten bygger på ett index med "bästa variablerna", nämligen emotionell stabilitet, samarbetsvilja, positiv attityd, perfektionism och arbetsvilja. Dessa variabler hade visat sig vara de mest lovande i en tidigare studie, varför de Collis undersökning har korsvaliderat dessa resultat. Dessutom bekräftade de Collis undersökning värdet av proxyvalidering. UPP-testets validitet har alltså återigen visat sig ligga i närheten av begåvningstest. 

Referens

de Colli, D. (2011). Ett nytt svenskt arbetspsykologiskt test och arbetsprestation inom polisen – samtidig validitet: Mälardalens högskola, Akademin för hållbar samhälls- och teknikutveckling. Klicka här.

Saturday, May 7, 2011

UPP-testets validitet mot kundservice

I denna studie undersöktes UPP-testets validitet gentemot förmansbedömningar i en grupp anställda i Customer Service vid ett finansbolag. Testet visade sig ha god psykometriska egenskaper i nivå med tidigare erfarenheter. Data hade god kvalitet men det fanns en tendens till skönmålning. Gruppen visade i genomsnitt höga värden på resultatorientering och förändringsvilja, något lägre i arbetsintresse. De testade personerna bedömdes av cheferna med hjälp av att omfattande bedömningsformulär (40 variabler), som med komponentanalys kunde reduceras till tre kriterievariabler, som alla kunde mätas med mycket god precision. Validiteterna för de tre kriteriedimensionerna Värde för företaget, Effektivitet och Social funktion var 0.66, 0.52 och 0.40 efter korrektion för mätfel och beskuren spridning. Analys av proxykriterier (arbetsmotivation och liknande attitydskalor) gav liknande resultat (mediankorrelationer 0.29-0.59). Data tyder på att proxykriterierna kan ersätta förmansbedömningar vid testvalidering, eftersom de två serierna av validitetskoefficienter var starkt relaterade (r = 0.65). Korrektion för skönmålning medförde en viss sänkning av validiteten gentemot förmansbedömningen, men denna nackdel måste vägas mot de stora effekter på individnivå som korrektionen ger: de som ”bluffat” har inte längre en fördel av det.

Läs hela rapporten här.
Free counter and web stats