Jak zajistit, aby byly přijímačky fér? (III)
Online varianta přijímacích zkoušek na vysokou školu (NSZ) je srovnatelná s offline verzí. Otázky jsou navíc koncipované tak, aby byly v testu maximálně snížen rozdíly mezi různými skupinami – muži, ženami, běžnými uchazeči nebo studenty se speciálními potřebami. Zjistěte, jak ve Scio zajišťuje, aby byly testy pro všechny férové.
Jednotlivci i skupiny se společnými znaky
Každý rok Scio chystá pro Národní srovnávací zkoušky (NSZ) desítky testů pro desítky tisíc uchazečů o studium na vysoké škole. Každý ze 17 928 studentů, kteří loni absolvovali například test Obecných studijních předpokladů (OSP), je unikátní. Ze statistického pohledu však můžeme identifikovat různé skupiny uchazečů:
- muže a ženy,
- uchazeče, kteří test skládali online, a ty, co zvolili offline variantu,
- Čechy, Slováky a ostatní národnosti,
- ty, co zkoušku skládají poprvé, ty, co už s NSZ mají zkušenosti.
Při přípravě testu (nejen OSP) Scio rozlišuje různé skupiny uchazečů a dělá vše pro to, aby žádná ze skupin nebyla zvýhodněna. Nebylo by například fér:
- používat v zadání otázek tematiku, která je jednoznačně bližší některému z genderů,
- nedat lidem s poruchou čtení na vypracování testu víc času,
- nebo v testu z cizího jazyka ověřovat znalosti matematiky.
Klíčem ke správně postavenému testu jsou zkušení autoři úloh, detailní zadání a přesně definovaný proces včetně sbírání zpětné vazby – detailní popis přípravy testů pro Národní srovnávací zkoušky najdete v nedávném článku.
Zpětná analýza každé úlohy
Kontrola férovosti úloh je ve Scio přísná. Přesto se po dokončení testů odborníci vracejí ke všem otázkám, analyzují odpovědi a zpětně zjišťují, jestli úlohy fungovaly tak, jak měly. Pouhé percentilové výsledky pro posouzení celkové férovosti testu nestačí.
„Například na právnické obory se obvykle hlásí víc žen než mužů. Průměrný percentil bývá u mužů vyšší než u žen, což však neznamená, že jsou muži chytřejší nebo že jim otázky nadržují. Faktorů je víc, například už to, že sledované skupiny mužů a žen jsou různě velké, může indikovat, že z populace žen chodí k NSZ jiná podmnožina co do počtu a struktury uchazečů než z populace mužů. Je tedy možné, že se muži, kteří by v testu dosáhli špatných výsledků a snížili průměrný „mužský percentil“, na zkoušku vůbec nepřihlásí,“ popisuje úskalí hodnocení testů analytička Scio Lenka Fiřtová.
Stejně jako autoři high-stakes zkoušek v zahraničí tedy ve Scio používají analýzu odlišného fungování položek (Differential Item Functioning Analysis, DIF). Laicky řečeno se tímto přístupem ověřuje, jestli například:
- náhodně vybraná žena vyřeší úlohu stejně dobře jako náhodně vybraný muž, pokud mají oba stejné studijní předpoklady,
- náhodně vybraný uchazeč online varianty NSZ vyřeší úlohu stejně dobře jako náhodně vybraný uchazeč offline varianty se stejnými studijními předpoklady.
Při přípravě testu si stanovte, co chcete měřit, radí expertka Scio >>
Absolutní rovnost neexistuje, hledá se však balanc
DIF umožňuje vyhodnotit, jestli se v daném testu vyskytly otázky, které některá ze skupin vyřešila nadproporčně hůře či lépe. Jde tedy o odhalení systematických chyb.
Grafy pravděpodobnosti správného vyřešení dvou úloh (X10 a X20) verbálního oddílu testu OSP. Horizontální osy ukazují řešitele podle znalostí OSP (-4 jsou nejhorší, 0 průměrní – tedy okolo percentilu 50 – a 4 nejlepší), svislé osy udávají pravděpodobnost vyřešení dané úlohy. Plné křivky značí výsledky žen, přerušované výsledky mužů. U úlohy X20 se křivky překrývají, ale X10 vykazuje odlišné fungování – muži s percentilem 50 mají pravděpodobnost přibližně 0,55, že úlohu vyřeší správně. U žen s percentilem 50 je pravděpodobnost 0,6, úloha je pro ně tedy jednodušší.
V ideálním světě bychom zjistili, že takové úlohy v testech vůbec nejsou. „V reálném světě se tomu nejde úplně vyhnout. Když jsme například porovnávali NSZ v loňském roce, zjistili jsme, že verbální oddíl testu OSP obsahoval 9,8 % úloh těžších pro ženy a 8,1 % úloh těžších pro muže. U ZSV nám vyšlo 16 % úloh těžších pro ženy a 17 % těžších pro muže,“ uvádí příklady Fiřtová.
Z výsledků mimo jiné vyplývají tato zjištění ohledně rozdílů mezi muži a ženami:
- ženy řeší lépe úlohy typu zebra (úlohy se souborem podmínek),
- muži mají větší sklon k tipování odpovědí,
- při testech ZSV dosahují ženy lepších výsledků z psychologie,
- muži jsou lepší v úlohách z ekonomie a moderních dějin.
Když se ale vrátíme k procentům, jaký výsledek je pro férovost testu akceptovatelný? Vždy záleží na kontextu, interpretaci a další práci se zjištěními. „DIF odhalí určité zvýhodnění téměř vždy. Přikláním se však k názoru, aby to zvýhodnění nebylo disproporční. Pokud bude 5 % úloh jednodušších pro ženy a 5 % pro muže, je to pro autory testu přijatelný výsledek,“ hodnotí Fiřtová.
Díky analýze jsou budoucí testy ještě lepší
Výsledky analýz berou ve Scio vážně a promítají je do ještě detailnějších pokynů pro autory úloh. „V manuálech teď už stojí, aby se autoři úplně vyhýbali tématům jako fotbal nebo auta,“ popisuje Fiřtová a uvádí i další příklady opatření: „Upravujeme online prostředí pro NSZ tak, aby se co nejméně lišilo od řešení úloh na papíře, a bavíme se s fakultami, jaké znalosti nebo dovednosti jsou pro ně u uchazečů důležité.“
„Vždy záleží, jaké studenty fakulta chce. Pokud je pro fakulty důležité, aby studenti znali moderní dějiny, zůstanou tyto úlohy v testech i v budoucnu, ačkoliv DIF ukazuje, že na otázky lépe odpovídají muži,“ uzavírá Fiřtová. O to důležitější je pak dobře odvedené řemeslo při tvorbě úloh, aby bylo zvýhodnění co nejmenší.
Zjistěte, co je to reliabilita a validita testu, ať se při tvorbě otázek vyhnete častým chybám >>