Výskumníci z University of Reading v Spojenom kráľovstve vykonali slepú štúdiu, aby zistili, či sú ľudskí pedagógovia schopní odhaliť obsah generovaný AI. Výsledky pre učiteľov neveštia nič dobré.
Posun smerom k vzdelávaniu na diaľku bol svedkom mnohých hodnotení študentov mimo tradičného priestoru písomnej skúšky s dozorcom, ktorý dáva pozor na podvádzanie.
Pohotový prístup k pokročilým modelom AI študentom uľahčil používanie nástrojov, ako je ChatGPT, na písanie úloh v kurze alebo na pomoc pri absolvovaní online skúšok.
Vedel by inteligentný univerzitný profesor rozpoznať, či študent používa AI na zodpovedanie online skúšobných otázok?
Docent Peter Scarfe, jeden z papiere vedúci autori povedali: „Mnoho inštitúcií ustúpilo od tradičných skúšok, aby hodnotenie bolo inkluzívnejšie. Náš výskum ukazuje, že je na medzinárodnej úrovni dôležité pochopiť, ako AI ovplyvní integritu vzdelávacích hodnotení.“
V „najväčšej a najrobustnejšej slepej štúdii svojho druhu“ výskumníci predložili 100% písomné príspevky AI do systému skúšok v piatich bakalárskych moduloch pre titul BSc v psychológii.
Značky skúšok o štúdii vôbec nevedeli. Toto urobilo z experimentu druh reálneho Turingovho testu, kde učiteľ, ktorý nevolal ‚Cheat!‘ na papieri veril, že úlohu napísal človek.
Fungovalo to takto:
- Príspevky boli vytvorené pomocou GPT-4.
- V piatich moduloch predložili celkovo 33 skúšok vygenerovaných AI.
- Štúdia zahŕňala otázky s krátkymi odpoveďami (SAQ) aj dlhšie otázky založené na eseji.
- V prípade skúšok sa zadania skladali zo štyroch odpovedí z výberu šiestich otázok, každá s limitom 200 slov.
- V prípade skúšok založených na eseji pozostávali príspevky z jednej eseje s 1 500 slovami (študenti predložili jednu odpoveď z troch alebo štyroch v závislosti od modulu).
Výskumníci použili nasledujúce výzvy s ChatGPT pre SAQ a eseje:
- „Vrátane odkazov na akademickú literatúru, ale nie na samostatnú referenčnú časť, odpovedzte na nasledujúcu otázku 160 slovami: XXX“
- „Vrátane odkazov na akademickú literatúru, ale nie na samostatnú referenčnú časť, napíšte esej s 2 000 slovami a odpovedzte na nasledujúcu otázku: XXX“ (vybrali 2 000 slov, pretože ChatGPT zvyčajne nedoručuje počet slov)
- V každej výzve bolo XXX nahradené skúšobnou otázkou.
Keď boli výsledky sčítané, 94 % AI odoslaní nebolo označených značkami. Aké známky dosiahli písomky o AI?
Vedci uviedli: „Známky udelené za naše príspevky v oblasti AI boli v priemere o polovicu vyššie, ako dosahovali skutoční študenti. Naprieč modulmi existovala 83,4 % šanca, že príspevky AI v module prekonajú náhodný výber rovnakého počtu skutočných príspevkov študentov.“
Výskumníci ďalej poznamenali, že ich prístup pravdepodobne preceňuje detekovateľnosť použitia AI v reálnych scenároch. Ako vysvetlil Dr. Scarfe: „Ak by skutoční študenti pri skúške podvádzali, je nepravdepodobné, že by zvolili taký naivne očividný prístup ako my.“
V praxi môžu študenti použiť AI ako východiskový bod, spresniť a prispôsobiť výstup, vďaka čomu je detekcia ešte náročnejšia.
A ak by to nestačilo, potom okrem príspevkov umelej inteligencie výskumníkov použili na svoje odpovede aj ďalší študenti pravdepodobne ChatGPT. To znamená, že miera detekcie môže byť ešte nižšia ako zaznamenané výsledky.
Žiadne jednoduché riešenia
Nemohli učitelia jednoducho použiť softvér na detekciu AI? Možno, ale nie sebavedomo, tvrdí štúdia.
Detektory AI, aké ponúka populárny akademik plagiátorská platforma Turnitinsa ukázali ako nepresné.
Navyše detektory AI riskujú falošne obviňujú osoby, ktoré nehovoria angličtinou u ktorých je menej pravdepodobné, že používajú určitú slovnú zásobu, idiómy atď., ktoré môže AI považovať za signály ľudského písania.
Bez spoľahlivých prostriedkov na detekciu obsahu generovaného umelou inteligenciou sa lídri v oblasti vzdelávania len škrabú na hlave. Malo by byť používanie AI prenasledované, alebo by malo byť jednoducho súčasťou učebných osnov? Malo by byť používanie AI normalizované ako kalkulačka?
Celkovo existuje určitý konsenzus, že integrácia AI do vzdelávania nie je bez rizík. V najhoršom prípade hrozí, že naruší kritické myslenie a brzdí vytváranie autentických nových poznatkov.
Profesorka Karen Yeung varovala pred potenciálnou „dekvalifikáciou“ študentov, povedal denníku The Guardian„Existuje skutočné nebezpečenstvo, že budúca generácia skončí efektívne pripútaná k týmto strojom a nebude sa môcť zapojiť do seriózneho myslenia, analýzy alebo písania bez ich pomoci.“
S cieľom bojovať proti zneužívaniu AI výskumníci z Readingu odporúčajú, aby sa potenciálne presunuli z domácich skúšok bez dozoru do kontrolovanejších prostredí. To by mohlo zahŕňať návrat k tradičným osobným skúškam alebo vývoj nových formátov hodnotenia odolných voči AI.
Ďalšia možnosť – a vzor niektoré univerzity už sledujú – vyvíja kurz, ktorý učí študentov kriticky a eticky používať AI.
Musíme tiež čeliť evidentnému nedostatku gramotnosti AI medzi lektormi, ktorých táto štúdia odhalila. Vyzerá to dosť žalostne.
ChatGPT sa často uchyľuje k určitým „tropom“ alebo vzorom viet, ktoré sa stanú celkom zrejmé, keď ste im často vystavení.
Bolo by zaujímavé vidieť, ako by za rovnakých podmienok fungoval učiteľ „vytrénovaný“ na rozpoznávanie písania AI.
Záznam skúšky ChatGPT je zmiešaný
Štúdia Reading University nie je prvá, ktorá testuje schopnosti AI v akademickom prostredí. Rôzne štúdie skúmali výkonnosť AI v rôznych oblastiach a úrovniach vzdelávania:
- Lekárske vyšetrenia: Skupina detských lekárov testovala ChatGPT (GPT-3.5) na novorodeneckú-perinatalickú skúšku. Umelá inteligencia zaznamenala iba 46 % správnych odpovedí, pričom najlepšie fungovala v otázkach týkajúcich sa základných pripomienok a klinického uvažovania, ale zápasila s multilogickým uvažovaním. Zaujímavosťou je, že najviac bodoval (78,5 %) v sekcii etiky.
- Finančné skúšky: Výskumníci JPMorgan Chase & Co. testovali GPT-4 na skúšku Chartered Financial Analyst (CFA).. Zatiaľ čo je nepravdepodobné, že ChatGPT prejde úrovňami I a II, GPT-4 ukázal „slušnú šancu“, ak bol vhodne vyzvaný. Modely AI fungovali dobre v oblasti derivátov, alternatívnych investícií a etiky, ale mali problémy so správou portfólia a ekonomikou.
- Skúšky z práva: ChatGPT bol testovaný na advokátskej skúške z práva a často získal veľmi vysoké skóre.
- Štandardizované testy: Umelá inteligencia sa osvedčila pri skúškach Graduate Record Examinations (GRE), SAT Reading and Writing a Advanced Placement.
- Univerzitné kurzy: Iná štúdia postavila ChatGPT (model neuvedený) proti 32 témam na úrovni vysokoškolského štúdia, pričom zistila, že porazil alebo prekonal študentov len na 9 z 32 skúšok.
Takže aj keď AI v niektorých oblastiach vyniká, je to veľmi variabilné v závislosti od predmetu a typu príslušného testu.
Záverom je, že ak ste študent, ktorému nevadí podvádzanie, môžete použiť ChatGPT na získanie lepších známok s iba 6% šancou, že vás chytia. Musíte milovať tieto šance.
Ako poznamenali výskumníci, metódy hodnotenia študentov sa budú musieť zmeniť, aby si zachovali svoju akademickú integritu, najmä preto, že obsah generovaný AI bude ťažšie odhaliť.
Vedci k svojmu príspevku pridali vtipný záver.
„Ak by sme povedali, že GPT-4 navrhol časť tejto štúdie, vykonal časť analýzy a pomohol napísať rukopis, okrem tých častí, kde sme priamo citovali GPT-4, ktoré časti rukopisu by ste označili ako napísal GPT-4 a nie uvedení autori?“
Ak by výskumníci „podvádzali“ pomocou AI na napísanie štúdie, ako by ste to dokázali?