Jak vznikají „sciotesty“? Za jejich vývojem stojí unikátní know-how (I)

Za profesionálně připraveným testem stojí teorie i metodika. Scio se vytvářením testů a realizací zkoušek zabývá už téměř 30 let. Díky tomu má výhodu i ScioLink, moderní nástroj od Scio pro online testování. K dispozici totiž má prověřené know-how těch nejlepších specialistů v Česku. Seznamte se s důležitými pojmy, které s měřením výsledků vzdělávání (tzv. Educational Assessment nebo také Educational Measurement) souvisejí.

Redakce9.5.2024

1 4 minut čtení

Online zkoušky s proctoringem nabízejí desítky dodavatelů z celého světa. Některá řešení připomínají spíše jednoduché studentské aplikace, jiná jsou opravdu kvalitní – v technologické i metodické rovině. Velká výhoda Scio je ve znalosti českého a slovenského vzdělávacího prostředí a know-how z odvětví Educational Assessment. Laicky řečeno: když ve Scio vytváří test, ví, jak to udělat. Protože to úspěšně dělají už od roku 1995.

V několika článcích vás postupně seznámíme s ingrediencemi, bez kterých se kvalitně připravený test neobejde. Začneme vybranými základními pojmy pro ověření kvality celého testu i jednotlivých otázek.

A hned na úvod doplníme důležitý disclaimer – tento článek nemá ambici promlouvat k odborníkům, ale chceme v něm složitou látku zpřístupnit širší veřejnosti.

Když člověk skládá stejný test desetkrát, měl by desetkrát dopadnout stejně

Začneme reliabilitou testu, nebo také spolehlivostí. Tento pojem značí míru konzistence výsledků. Test je považován za spolehlivý, pokud poskytne podobné výsledky i při opakování za stejných podmínek. Obvykle se reliabilita zjišťuje jedním z těchto principů:

split-half, kdy se připravený test např. o 40 otázkách náhodně rozdělí na 2 testy o 20 otázkách,
nebo analýzou vnitřní konzistence testu (tzv. Cronbachovo alfa).

Výsledkem analýzy je číslo v rozmezí 0–1. Čím vyšší je hodnota, tím spolehlivější je test. Obecně platí, že tzv. high-stakes zkoušky (např. přijímací zkoušky na vysoké školy) by neměly mít nižší spolehlivost než 0,8. Pokud má test spolehlivost 0,8, lze o něm říci, že 80 % výsledku je dáno skutečnými znalostmi studenta, zatímco 20 % výsledku tvoří tzv. chyba měření. V praxi je při hodnocení testu nezbytné počítat s několika proměnnými:

čím víc otázek v testu je, tím je výsledná reliabilita přesnější (zároveň však platí, že u delších testů klesá pozornost, takže není vhodné uchazeče testovat déle než 2 hodiny),
reliabilita bývá vyšší u testů jazykových znalostí a podobných „normovaných“ oborů. Naopak u předmětů jako Základy společenských věd, kde je široké spektrum témat, bývá výsledné číslo nižší.

Pokud reliabilita testu vyjde pod 0,8, není od věci test přepracovat. Případně by o rozhodnutí o přijetí/nepřijetí na vysokou školu měly rozhodnout i další podklady než jen výsledek testu.

Ať test skutečně měří to, co měřit má

Validita testu – zatímco reliabilita je čistě datový pohled na test, validita doplňuje hodnocení testů o jiný aspekt. Tento koncept pomáhá pochopit, jestli test skutečně měří to, co má. Pokud by např. test matematických dovedností obsahoval textově složitá zadání úloh, ve kterých se řešitel snadno ztratí, znamená to, že daný test není zcela validní k měření matematických znalostí. K dobrému výsledku totiž student potřebuje i dobré čtenářské dovednosti. Validita se obvykle ověřuje několika způsoby:

obsahová validita: Je test v souladu s tím, co opravdu autoři zamýšlí testovat? Tzn. jestli studenti odpovídají na otázky související s probíraným učivem nebo osnovami studijního programu.
kriteriální validita: Korelují výsledky testu s jiným relevantním měřítkem? Zjišťujeme, jestli studenti obstojí i u reálných úkolů, které testové otázky zjišťují. Laicky řečeno se touto metrikou například zpětně zkoumá, jestli lidé, kteří úspěšně složili přijímací zkoušky, dokážou studium daného oboru i dokončit (tzv. predikční validita).
konstruktová validita: Každý test vzniká s určitou představou, co by měl otestovat a kolik takových oddílů v testu je, např. obecné studijní předpoklady zahrnují verbální a kvantitativní schopnosti. To, že má test například právě dva oddíly, je odvozeno z vědecké teorie, nebo analýzy dat předchozích testů. Konstruktová validita tedy hodnotí, jestli vnitřní struktura testu opravdu odpovídá představě autorů, jak uchazeč rozumí jazyku nebo jestli umí používat logiku.

Při posuzování konkrétního testu nebývají všechny uvedené typy validity stejně důležité. Například u vědomostního testu je zásadní obsahová validita, zatímco u testu studijních předpokladů v přijímacím řízení zase kriteriální validita.

O kvalitě testu rozhodují i detaily

Díky položkové analýze zjistíte, jestli jednotlivé otázky skutečně přispívají ke splnění účelu testování – a odhalíte ty, které danému cíli brání. Běžně se setkáte s využitím matematických modelů nebo odhadů (např. teorie odpovědi na položku, kam patří třeba 2PL IRT model), nejsrozumitelnější je však z naší zkušenosti tzv. celková diskriminace (někdy také upper-lower index) – rozdíl průměru úspěšností pro skupiny 20–30 % nejlepších a nejhorších řešitelů.

Co to znamená prakticky? Všichni účastníci „sciotestů“ jsou rozděleni podle celkových výsledků do tzv. decilů a následně se ověřuje na skutečných datech, jestli u dané otázky mají opravdu nejlepší výsledky ti, kteří nejlépe zvládnou celý test.

Na grafu níže vidíte úlohu s výbornou diskriminací. Počet lidí, kteří ji vyřešili správně, totiž stoupá decil od decilu – dokládá to stoupající křivka. Rozdíl v průměrné úspěšnosti nejlepší a nejhorší třetiny řešitelů činí 72 procentních bodů.

S pomocí decilů rozdělíte řešitele na desetiny podle jejich celkového výsledku v daném testu. První decil zahrnuje 10 % řešitelů s nejhorším celkovým výsledkem, desátý decil analogicky tvoří 10 % nejlepších.

Níže je naopak úloha se špatnou diskriminací. Křivka nestoupá (ve 3., 5. a 9. decilu dokonce klesá), rozdíly mezi decily jsou minimální a rozdíl mezi průměrnou úspěšností nejlepší a nejhorší třetiny řešitelů je pouze 13,4 procentních bodů. Pokud se v případě Scio při pilotním testování stane, že konkrétní úloha dopadne takto, do výsledného testu se nedostane.

*Řešitelé v desátém decilu vyřešili danou úlohu nejlépe, řešitelé v prvním decilu nejhůře. Mezi nimi však křivka nestoupá pravidelně, což indikuje špatně připravenou otázku.*

Za každým testem i otázkou je odborník

Příprava funkčního testu vyžaduje vyšší desítky hodin odborné práce i pečlivé ověření výstupů se zástupci cílové skupiny (u přijímacích zkoušek to jsou středoškoláci). Ale o tom zase příště.

Autor

Redakce

Redakce9.5.2024

1 4 minut čtení

Jak vznikají „sciotesty“? Za jejich vývojem stojí unikátní know-how (I)