Jak jsme hodnotili bakalářské práce? Přijímací řízení do magisterského studia

Pandemie COVID-19 znemožnila na celé fakultě realizaci běžného přijímacího řízení formou písemnou testu. Na katedře psychologie jsme proto zvolili náhradní řešení v podobě hodnocení bakalářských prací. Výsledek nás potěšil; navržený způsob jejich hodnocení se na základě dat zdá být velmi reliabilní a validní. A protože jsme se to snažili provést co nejpečlivěji a nejférověji, v tomto článku se dočtete veškeré důležité informace. Jakým způsobem jsme práce hodnotili, jaká jsme používali kritéria? Jaký psychometrický model byl využitý pro vlastní bodování, jaká bylo shoda posuzovatelů a reliabilita přidělených bodů? Zveřejňujeme i veškeré skripty a anonymní data, abychom zajistili maximální transparentnost naší přijímací zkoušky.

20. 11. 2020 Hynek Cígler

Když se 11. března 2020 zavřely české vysoké školy, bylo zřejmé, že musíme připravit alternativní podobu přijímací zkoušky do navazujícího magisterského studia psychologie na Fakultě sociálních studií MU. Po mnoha stránkách nejvýhodnější se nám jevilo hodnocení bakalářských prací, ale chtěli jsme se do toho pustit opravdu kvalitně. Tento úkol jsme proto vzali jako výzvu a aplikovali na něj vše to, co učíme i naše studenty v metodologických, statistických a hlavně psychometrických kurzech (bakalářská i magisterská psychometrika má studijní materiály včetně záznamu většiny přednášek dostupné on-line). Bylo jasné, že potřebujeme zajistit:

  1. Kvalitní hodnotící kritéria a tedy vysokou míru obsahové validity1.
  2. Vysokou shodu posuzovatelů a minimální prostor pro neférové hodnocení.
  3. Dostatečnou reliabilitu2 ve smyslu vnitřní konzistence i shody posuzovatelů.
  4. Splnění poměrně komplikovaných formálních nároky fakulty a univerzity.
  5. Transparentnost a přezkoumatelnost všech rozhodnutí. 

Celou situaci komplikoval fakt, že se přijímací řízení konalo ve dvou termínech, a po každém z nich bylo nutné rozhodnout o přijetí a nepřijetí uchazečů. Naneštěstí v době vyhodnocování prvního termínu nebylo vůbec jisté, kolik lidí předloží své práce k hodnocení ve druhém termínu! Přitom jsme potřebovali na jednu stranu udržet stejnou "obtížnost" obou termínů, na stranu druhou jsme měli poměrně omezenou kapacitu oboru. Vzít příliš mnoho i příliš málo studentů by mělo velmi nepříjemné konsekvence.

To vše bylo nutné zvažovat s ohledem na poměrně striktní formální požadavky. Všichni uchazeči museli dostat body v rozmezí 0–60, přičemž kritériem pro přijetí muselo být 36 bodů. Bylo tedy nutné kombinovat kriteriální cut-skóre s normativním hodnocením založeném na cílovém počtu přijatých uchazečů. To vše s tím, že případné vyhodnocení v rámci teorie odpovědi na položku (IRT) muselo být přepočteno na bodovou, celočíselnou škálu s daným bodovým rozpětím.  

Pátý bod zmíněný výše, tedy zajištění transparentnosti, se nám zpočátku zdál být nejsnazší. Nakonec nám dal ale pořádně zabrat, a proto čtete tento text až teď. Jen samotná anonymizace dat nebyla úplně jednoduchá vzhledem k velkému množ, kromě toho nebylo možné jen tak zveřejnit skripty se spoustou interních poznámek, ale museli jsme je pečlivě vyčistit a okomentovat. Kromě toho jsme nemohli například hodnotící kritéria zveřejnit příliš brzo, zejména mezi prvním a druhým termínem. Studenti, kteří by své bakalářské práce odevzdali ve druhém termínu, by práce mohli přizpůsobit kritérií, a získat tak výhodu oproti uchazečům z termínu prvního. Nějakou dobu nám pak trvala příprava manuskriptu odborného článku, bez kterého jsme tento jednodušší text nechtěli vydávat. Ten je nyní v recenzním řízení, manuskript je veřejně přístupný platformě PsyArXiv.

Každopádně tedy: Jak jsme postupovali?​

Hodnotící kritéria

Bylo zjevné, že hodnotící kritéria musela být jednoznačná, aby se jednotliví hodnotitelé příliš nelišili. Muselo jich být též dostatečné množství, aby byla dosažena dostatečná vnitřní konzistence hodnocení, ale při příliš velkém množství by zase mohli hodnotitelé být nepozorní. Zároveň jsme chtěli ty nejméně kvalitní práce vyřadit hned, aby hodnotitelé neztráceli čas posuzování prací uchazečů, kteří nakonec stejně nebudou přijati. A konečně, tím nejdůležitějším bylo zajištění dostatečné obsahové validity. Neustále jsme si kladli otázku: Prokazuje splnění těchto kritérií právě ty kompetence, které si u našich studentů ceníme?

Výsledkem bylo 11 bodovaných kritérií hodnocených 0/1, případně 0/1/2 body; celkem bylo možné získat 16 bodů hrubého skóre (které bylo následně přepočítáno psychometrickým modelem, který popíšeme níže). Tato kritéria byla doplněna ještě o čtyři screeningová kritéria, hodnocené vždy jedním bodem. Při jejich nesplnění hodnotitel danou práci dále nehodnotil. Kritéria hodnocení odpovídají zkrácenému popisu, který měli uchazeči předem k dispozici.

Každou práci hodnotili právě dva hodnotitelé, abychom zvýšili reliabilitu celého procesu. Pokud se tito dva hodnotitelé neshodli na splnění screeningových kritérií, přiklonila se přijímací komise vždy k jednomu nebo druhému názoru. Výsledný počet bodů byl vždy předán hodnotící komisi, která na jejich základě rozhodla. V žádném z případů (kromě již zmíněné úpravy screeningových kritérií) však nedošlo ke změně uděleného počtu bodů.

Součástí přijímacího řízení bylo na pokyn vedení fakulty posouzení motivačního dopisu. S ohledem na jejich vysoké obsahové i formální odlišnosti však nebylo možné vyvinout standardizovaný způsob jeho hodnocení, který by některé uchazeče nezvýhodňoval a jiné naopak nepoškozoval, a který by netrpěl subjektivním posouzením hodnotitelů. Motivační dopisy proto byly použity jako určitý "vstupní filtr"; každý z nich posuzovala přijímací komise a neshledala důvod kterýkoliv dopis odmítnout. Nicméně v případě, že by k tomu došlo, nebyla by hodnocena ani diplomová práce a uchazeč by získal 0 bodů.

Hodnocení bakalářských prací vycházelo z obecně akceptovatelných obsahových požadavků na výzkumné zprávy v psychologii. Rovněž bylo zcela nezávislé na případné obhajobě a uděleném hodnocení či na formálních náležitostech související s pracovištěm, kde práce vznikala (např. délka či požadovaná šablona a struktura). Kritéria byla volena tak, aby nebyla ovlivněna designem, epistemologickými východisky, a byla vhodná pro kvalitativní i kvantitativní (či dokonce přehledové) práce. Součástí hodnocení samozřejmě nebylo ani podpoření či nepodpoření výzkumných předpokladů, otázek a hypotéz. 

Seznam hodnotících kritérií

proměnná (počet bodů) podrobné instrukce
Screeningová kritéria
Pokud v této sekci nejsou splněny první 3 podmínky, nebodovat dál.
Pokud jsou splněny, zkontrolovat literaturu („literatura“). Pokud není ve screeningu uděleno čtyřikrát ANO, pak práce není dále bodována.
VejceVejci Kontrola plagiátů prostřednictvím nástroje Masarykovy univerzity VejceVejci.
ANO = v pořádku.
NE = netriviální shoda (>5% shoda s jinou prací).
Psychologické téma NE volíme jen tehdy, když jde o zjevně a nepochybně nepsychologické téma.
Celá studie NE dáváme, když jde jen o projekt či nedokončené torzo. Pokud je na vině koronavirus a autor/ka omezení diskutuje, lze i přes to udělit ANO.
Literatura ANO = Alespoň jeden bod v kritériu „literatura“ NE = nula bodů v kritériu „literatura“.
Hodnotící kritéria
Nehodnotit, pokud ve screeningu nebylo zvoleno čtyřikrát „ano“.
Literatura
(0–2)
Hodnocení 2 body:
-  Referencí je dostatečný počet [>30]
-  V referencích převažují časopisecké empirické studie [>1/3]
-  V referencích převažují zahraniční zdroje [>1/2]
-  Reference mají jednotný formát [APA či jiný]
-  Namátková kontrola 3 odkazů v textu datovaných po r. 2000 nezjistila nesoulad mezi odkazovaným tvrzením a charakterem citovaného zdroje.
-  Minimum sekundárních citací [<10]
Hodnocení 1 bodem: Jako 2 body, avšak:
-  V seznamu jsou ovšem navíc učebnice, slovníky, encyklopedie [> 4], nebo…
-  … maximálně jeden z parametrů uvedených výše není splněn.
Hodnocení 0 body:
Nesplňuje podmínky pro 1 nebo 2.
Teoretický a konceptuální
rámec
(0–2)
Hodnocení 2 body:
-  Teoretický rámec má vzhledem k cílům práce jasnou, pochopitelnou strukturu
-  Je zřejmé, které pojmy jsou klíčové, a tyto jsou důsledně definovány
-  Výzkumná otázka je jasně stanovena v návaznosti na teoretický rámec.
-  Autorské prvky – citované teze jsou prezentovány kriticky, hodnoceny, uváděny do souvislostí
Hodnocení 1 bodem:
-  Jako 2, ale bez autorských prvků; nebo…
-  … kvalita některých požadavků na 2 je snížená, avšak akceptovatelná
Hodnocení 0 body:
-  Alespoň jeden z prvních 3 požadavků na 2bodové hodnocení je zcela nenaplněný.
Design A
Návrh výzkumného designu
(0/1)
Zvolený design v principu umožňuje získat odpověď na výzkumnou otázku. Pohybujeme se na úrovni observační, korelační, experimentální studie, IPA, GT analýza dat atp.
Design B1
Formulace výzkumných otázek či hypotéz.
(0/1)
Kvalitativní práce:  Je formulována smysluplná výzkumná otázka a výsledky analýzy (témata, kategorie, teorie, ...) na ni skutečně odpovídají.
Kvantitativní práce:  Jsou jasně stanoveny hypotézy, popř. jasně deklarovaný explorační charakter práce.
Design B2
Realizace výzkumného designu.
(0/1)
Kvalitativní práce: Metoda je podrobně a konkrétně popsána, včetně odkazů na primární metodologickou literaturu Kvantitativní práce -  Je zřejmé, z jaké populace a jakým postupem byl získán vzorek. Velikost vzorku je založena na úvaze o síle testu.
Design B3
Analýza dat.
(0/1)
Kvalitativní práce: Ve výsledcích je zřetelný prvek vlastní analýzy/syntézy (tj. není to jen pouhá deskripce dat bez autorova analytického přínosu)
Kvantitativní práce: Metody měření jsou představeny s věcně adekvátní zmínkou o validitě a reliabilitě.
Design B4
Analýza dat.
(0/1)
Kvalitativní práce: Zakotvenost výsledků v datech je doložena vhodně zvolenými citacemi/úryvky
Kvantitativní práce: Design je jasně popsán
Design B5
Analýza dat.
(0/1)
Kvalitativní práce: Vzorek je tvořen na základě věcně zdůvodněných kritérií (ne autoritou)
Kvantitativní práce: Analytické modely jsou vhodně zvolené, bez vyložených přešlapů v oblasti (ne)testování hypotéz. Přítomny deskriptivy, velikosti účinku.
Diskuse A
Formulace a diskuze zjištění, výsledků.
(0–2)
Hodnocení 2 body:
-  Netriviální sdělení zjištění s explicitní reflexí přínosu (nevadí, kdy se nepovede nic přinést)
-  Začlenění zjištění do teoretického rámce (s citacemi) s autorským pohledem.  
Hodnocení 1 bodem
-  Jedno chybí, nebo nemá úroveň.
Hodnocení 0 body -  Ani jedno nemá úroveň (formalismus, alibismus...)
Diskuse B
Diskuze limitů.
(0–2)
Hodnocení 2 body
-  Přítomnost reflexe interní validity (kredibility).
-  Přítomnost reflexe externí validity (zobecnitelnosti).
Hodnocení 1 bodem
-  Jedno chybí, nebo nemá úroveň (např. „nelze zobecňovat“)
Hodnocení 0 body
-  Oboje chybí nebo nemá úroveň.
Formality
(0–2)
Pravopisná, typografická a jazyková úprava.
Hodnocení 2 body: Pravopisná i grafická úprava je perfektní, jen s minimem nedostatků.
Hodnocení 1 bodem: Práce obsahuje jen málo pravopisných chyb a občasné typografické nedostatky, které nekomplikují čtení.
Hodnocení 0 body: Práce obsahuje značné množství pravopisných nebo typografických nedostatků, které  komplikují čtení.

Screeningová kritéria

Zdůvodnění screeningových kritérií je poměrně jednoduché. Všechna jsou velmi jednoznačná a jejich posouzení zabere jen chvíli času. Zároveň je evidentní, že kvalitní bakalářská práce nemůže být plagiátem a musí vycházet z kvalitní literatury. Chceme, aby uchazeč dovedl pracovat se zdroji a výzkumnými články. Kromě toho jsme chtěli, aby práce byla psychologická a dokončená; bakalářský diplom z psychologie je ostatně podmínkou pro přijetí do navazujícího magisterského studia. Důvodem je fakt, že magisterský diplom z psychologie opravňuje jeho držitele k výkonu vázané živnosti a vstupu do dalšího vzdělávání, které může směřovat k práci ve zdravotnictví.

V prvním i druhém termínu zhruba 30 % uchazečů nesplnilo screeningová kritéria. V případě, že se oba posuzovatelé neshodli, rozhodla společně čtyřčlenná přijímací komise a přiklonila s k jednomu či druhému stanovisku. 

Bodovaná kritéria

Bodovaná kritéria jsme navrhovali tak, aby nezáleželo na zvyklostech té dané katedry psychologie a tedy odlišnostem například ve struktuře práce, členění textu a podobně. Zároveň i zde jsme se zaměřovali na jednoznačná kritéria. S lítostí jsme museli vyřadit hodnocení některých kompetencí, které požadujeme za klíčové, ale jejichž posouzení je subjektivní a nebylo by možné dosáhnout vysoké reliability posuzovatelů. Zároveň jsme předpokládali, že vysoké hodnocení v jednoznačných kritériích by vedlo k vysokému hodnocení i v těch hypotetických, nejednoznačných kritériích.

Všechna kritéria jsou zaměřena na kvality textu, práce s informacemi a adekvátní metodologii. Neměly by zvýhodňovat ani kvalitativní, ani kvantitativní práce, a posuzují právě ty aspekty samostatné výzkumné činnosti, kterých si u nás ceníme. Relativně hodně bodů jsme proto věnovali designu metodologické a výsledkové části práce, které se posuzují jendoznačněji ve srovnání s kvalitou rozsáhlejšího textu. Menší množství bodů je nicméně věnované literatuře, teoretickému úvodu i diskuzi; i zde jsme se však zaměřovali spíše na jednoznačná a objektivní kritéria.

Reliabilita screeningových kritérií

Hodnotitelé se na splnění screeningových kritériích neshodli zhruba v 10–20 % případů, což odpovídá shodě posuzovatelů vyjádřené pomocí Cohenova koeficientu kappa κ = 0,5–0,7. to by svědčilo o nízké shodě, ale jen zdánlivě. Zpravidla alespoň jeden z hodnotitelů upozorňoval na určitou míru nejistoty či pochyby ve slovních komentářích, případně existovaly nějaké konkrétní důvody, proč např. práci nehodnotil (v jednom případě šlo třeba o zcela odlišný formát bakalářské práce, která byla předložena v rozsahu krátkého empirického článku, typického pro britské univerzity). Všechny sporné případy byly přezkoumány přijímací komisí.

Reliabilita bodovaných kritérií

Kromě IRT modelu, popsaného níže, jsme ověřovali reliabilitu prostého součtu bodů s využitím teorie zobecnitelnosti. V případě, kdy by bylo hrubé skóre vyvážené na přísnost hodnotitelů, by reliabilita (vyjádřená koeficientem dependability) byla ρ2 = 0,85. V případě, že bychom rozhodovali na základě prostého součtu bodů bez ohledu na to, který hodnotitelé práci posuzovali, reliabilita (koeficient zobecnitelnosti) by byla pochopitelně nižší, zhruba Φ = 0,82.

Způsob hodnocení

Aby byla zajištěna férovost a nemělo vliv, který hodnotitel bude tu kterou práci hodnotit, každou z předložených diplomek hodnotili právě dva hodnotitelé, kteří byli navíc náhodně losování (z losování byl vyřazen vždy vedoucí i oponent dané práce, kteří by mohli mít neobjektivní pohled). Zároveň bylo hodnocení "vyváženo" na jejich přísnost pomoc statistického modelu. Pro účely hodnocení jsme použili tzv. jednoparametrový LLTM IRT model, který adekvátním způsobem pracuje s kategorickými hodnotícími kritérii, a dovede snadno vyvážit rozdílnou přísnost hodnotitelů. Pro parametrizaci položek hodnocených více než jedním bodem jsme pak použili Tutzův sekvenční model.

Výsledný model fungoval velmi dobře. Kromě přesvědčivě jednodimenzionální struktury měl relativně dobrou shodu s daty. Hlavně byl ale velmi reliabilní; reliabilita odhadu kvality bakalářských prací, tedy úrovně latentního rysu uchazečů, se pohybovala kolem rxx' = 0,86, a byla tak srovnatelná s reliabilitou písemného testu v předchozích semestrech, či dokonce státní maturity.

Dobrou zprávou byla dokonce i stabilita odhadu parametrů modelu. Jak shovívavost hodnotitelů, tak ani obtížnost kritérií se napříč oběma termíny přijímací zkoušky statisticky významně nelišila. Rovněž i hodnocení uchazečů z prvního termínu bylo prakticky shodné, pokud bylo přepočítáno s využitím dat z obou termínů. To bylo velmi milé zjištění a důležitý doklad o validitě celého přijímacího procesu. 

Přepočet na výslednou bodovou škálu

Každé ze screeningových kritérií bylo hodnoceno čtyřmi body. Pokud uchazeč nesplnil všechna tato kritéria, za zbylá kritéria dostal nula bodů. K těmto čtyřem bodům byly přičteny body za ostatní kritéria.

Výstupem výše uvedeného LLTM modelu nicméně tzv. odhady faktorových skórů s průměrem nula a směrodatnou odchylkou 1,7, které jsme museli převést na bodovou škálu s rozpětím 0–60 bodů tak, aby hranice pro přijetí byla 36 bodu (resp. rozpětí –4–56 bodů s hranicí 32 bodů, pokud odečteme ona úvodní čtyři kritéria).

V prvním kole jsme se z kapacitních důvodů rozhodli navrhnout k přijetí 35 uchazečů. Zjistili jsme proto odhad úrovně latentního rysu 35. uchazeče (–0,248) a zjistili počet průměrně obtížných položek (Nc = 46), kolik by musel absolvovat, aby v nich dosáhl právě 32 bodů při hodnocení průměrně náročným hodnotitelem. S těmito údaji již nebylo snadné využít tzv. charakteristickou funkci testu a predikovat očekávané hrubé skóre na 46položkové škále. K těmto bodům pak bylo přičteno 0–4 bodů za screeningová kritéria.

Uvedený postup vedl v prvním termínu k přijetí požadovaných 35 uchazečů (43 %). Ve druhém kole jsme použili zcela shodné kritické hodnoty; nutno však podotknout, že případný nový odhad počtu hypotetických položek a kritického skóru by se prakticky nelišil. Každopádně, ve druhém termínu bylo k přijetí navrženo 19 uchazečů (40 %). Pravděpodobnost přijetí, průměrný počet bodů ani žádné další aspekty se napříč oběma termíny statisticky významně nelišily; v tomto ohledu bylo přijímací řízení férové. 

Tutzův sekvenční model

Každá z ordinálních položek hodnocených 0/1/2 body byla rozložena na sérii Raschových binárních položek tak, jak ukazuje obrázek. Celkem tak vzniklo 16 binárních položek, které nesly informaci shodnou s původními 11 hodnotícími kritérii.

Tutzův sekvenční model

Parametrizace LLTM modelu

Charakteristická funkce položky v LLTM modelu, který jsme použili pro parametrizaci hodnocení, měla podobu

kde levá strana rovnice je modelovaný logaritmus šance na správnou odpověď a tedy P_{ipr} je pravděpodobnost hodnocení uchazeče p (person) hodnotitelem r (rater) na kritérium i (item) jedním bodem.

Dále pak ​\theta_p je úroveň latentního rysu, tedy celková kvalita bakalářské práce, \beta_i je snadnost daného kritéria a konečně \rho_r je vstřícnost či benevolentnost konkréntího hodnotitele. Model byl odhadnut pomocí balíčku lme4 v prostředí R.


Výsledný počet bodů

Přepočet IRT odhadu faktorového skóre na výsledný počet bodů se řídil rovnicí

\mathbb{E}(\tau_p) = \sum_{i=1}^{4} (x_{ip}) + N_{c}\frac{\exp{(\theta_p)}}{1+\exp{(\theta_p)}}

kde E(τp) je očekávaný počet bodů při kvalitě bakalářské práce θp, sumační člen obsahuje počet souhlasně hodnocených screeningových kritérií a Nc = 46 je konstanta v podobě hypotetické délky testu (pokud uchazeč nezískal čtyři body ve screeningových kritériích, Nc = 0).

Rozložení výsledného hodnocení všech uchazečů na původní IRT škále včetně 95% intervalu spolehlivosti. Nejsou zde uvedeni uchazeči, kteří neuspěli ve screeningových kritériích. Hranice pro přijetí byla v uvedené metrice přibližně -0,25.

Shrnutí

Co jsme se vlastně dozvěděli a jak přijímací zkoušky dopadly? Zjistili jsme, že i něco zdánlivě tak subjektivního, jako je hodnocení bakalářských prací, lze realizovat takovým způsobem, že reliabilita (přesnost) výsledného měření je plně srovnatelná se standardizovanými testy. Rozdíly v přísnosti hodnotitelů byly malé a díky vyvážení prakticky nehrály roli. Rovněž i statistické parametry psychometrického modelu byly prakticky identické napříč oběma přijímacími termíny, což garantuje určitou stabilitu a replikovatelnost výsledků.

Tímto textem chceme dát najevo, že jsme k přijímací zkoušce přistupovali s maximální pečlivostí. Úspěšným uchazečům chceme vzkázat, že nebyli přijati, protože jsme si je oblíbili, ale že prošli náročným a pečlivě zkonstruovaným sítem. Neúspěšným uchazečům vzkazujeme, že si velmi ceníme jejich důvěry v naši katedru, stejně jako jejich motivace u nás studovat. Jejich nepřijetí nebylo svévolné, ale pečlivě rozvážené. Jednak má náš obor omezenou kapacitu, jednak si nechceme a nemůžeme dovolit přijmout každého, na to prostě nemáme personální kapacity. 

Závěrem chceme dát najevo, že se jako pracoviště snažíme o maximální transparentnost. Věříme, že jedině sdílením postupů, dat, a veškerých podrobností lze vyjádřit pochybnosti o férovosti a validitě přijímacích a jiných zkoušek, a pěstovat tak víru v instituce. Chtěli jsme rovněž poskytnout určitý návod a inspiraci jiným českým pracovištím, jakým způsobem lze realizovat s relativně malými náklady vysoce kvalitní přijímací řízení založené na kvalitativním hodnocení prací uchazečů. Toto hodnocení totiž vůbec nemusí být ve výsledku subjektivní. V neposlední řadě pak byla naší motivací pro zveřejnění celého postupu a publikaci odborného článku (který je nyní v recenzním řízení) též snaha o "revizi" celého našeho postupu v rámci peer-review. Je samozřejmě možné, že v našem postupu došlo k nějaké drobné chybě. Pevně věříme, že ji v takovém případě recenzent odhalí, a my ji budeme moci napravit. Myslíme si ale, že drobná chyba je lepší variantou, než subjektivní a svévolné hodnocení prací, které bylo alternativou k našemu postupu.

A konečně: děkujeme i naší alma mater, Fakultě sociálních studií Masarykovy univerzity, za podporu i při netradičních formátech přijímací zkoušky. 

Za komisi pro přijímací řízení

Mgr. Hynek Cígler, Ph.D.
doc. Mgr. Stanislav Ježek, Ph.D.
Mgr. Jan Širůček, Ph.D.
doc. Mgr. Lenka Lacinová, Ph.D. (předsedkyně komise)

Pozn.: Do hodnocení prací se zapojilo celkem 18 pedagogů a výzkumníků katedry psychologie.


Poznámky

1 Obsahová validita: V našem případě shoda posuzovaných kritérií s požadovanými kompetencemi uchazečů. Ověřují zvolená kritéria ty kvality bakalářské práce, které odrážejí právě ty kompetence a dovednosti, které požadujeme u našich studentů? Jsou kritéria dobře vybraná? Na tyto otázky odpovídá právě obsahové, někdy též výběrová validita.

2 Reliabilita: Standardy pro pedagogické a psychologické testování (AERA, APA, & NCME, 2014) definují reliabilitu jako konzistenci pozorovaných skórů napříč replikacemi testové procedury, a vyjadřuje tak vlastně náhodnou chybu měření. V našem případě lze reliabilitu chápat ve třech smyslech. Za prvé jde o odpověď na otázku, jak podobný počet bodů by uchazeč získal, když by práci hodnotili dva noví hodnotitelé; to označujeme jako tzv. shodu posuzovatelů. Ukázalo se, že jen kolem 10 % variability hodnocení je dáno touto nekonzistencí.
Za druhé, každá práce (nejen bakalářská) má své lepší a horší pasáže. V některých oblastech může práce vynikat, v jiných patřit mezi spíše průměrné či dokonce podprůměrné. K jak stejnému výsledku bychom došli, kdybychom se zaměřili jen na jednu oblast hodnocení? Jinými slovy, jak nekonzistentní jsou dílčí hodnocení napříč jednotlivými hodnotícími kritérii? Nakolik lze kvalitu tak komplexního textu, jakým je bakalářská práce, vyjádřit jediným číslem? Tento způsob uvažování se označuje vnitřní konzistence, a i zde chyba tvoří kolem jedné desetiny variability bodového hodnocení.
A do třetice jde o kombinaci výše uvedených zdrojů chyb. Protože nejsou ale nezávislé, nestačí procenta chyb prostě jen sečíst. Reálně všechny uvedené zdroje nepřesnosti hodnocení nepřesáhly zhruba 15 % variability skórů (podílu jejich rozptylu).

Více článků

Přehled všech článků