Keď vám ChatGPT dá správnu odpoveď na vašu výzvu, zdôvodňuje to žiadosťou alebo si jednoducho pamätá odpoveď zo svojich tréningových údajov?
Výskumníci laboratória Computer Science and Artificial Intelligence Laboratory (CSAIL) z MIT navrhli sériu testov, aby zistili, či modely AI „myslia“ alebo majú len dobré spomienky.
Keď vyzvete model AI, aby vyriešil matematický problém ako „Koľko je 27+62?“ rýchlo sa vráti so správnou odpoveďou: 89. Ako by sme mohli povedať, či rozumie základnej aritmetike alebo jednoducho vidí problém vo svojich trénovacích údajoch?
In ich papiervýskumníci testovali GPT-4, GPT-3.5 Turbo, Claude 1.3 a PaLM2, aby zistili, či dokážu „zovšeobecniť nielen na neviditeľné prípady známych úloh, ale aj na nové úlohy“.
Navrhli sériu 11 úloh, ktoré sa mierne líšili od štandardných úloh, v ktorých LLM vo všeobecnosti fungujú dobre.
LLM by mali fungovať rovnako dobre ako „kontrafaktuálne úlohy“, ak využívajú všeobecné a prenosné postupy riešenia úloh.
Ak LLM „rozumie“ matematike, potom by mal poskytnúť správnu odpoveď na matematický problém napríklad so základom 10 a zriedkavo používaným základom 9.
Tu je pohľad na príklady úloh a výkon GPT-4.
Výkon GPT-4 v štandardných testoch (modrá čiara) je dobrý, ale jeho matematika, logické uvažovanie, priestorové uvažovanie a ďalšie schopnosti (oranžová čiara) sa výrazne zhoršujú, keď sa úloha mierne zmení.
Ostatné modely vykazovali podobnú degradáciu, pričom GPT-4 vyšiel navrch.
Napriek degradácii bol výkon pri kontrafaktuálnych úlohách stále lepší ako náhoda. Modely AI sa snažia tieto úlohy zdôvodniť, ale nie sú v tom veľmi dobré.
Výsledky ukazujú, že pôsobivý výkon modelov AI v úlohách, ako sú vysokoškolské skúšky, sa spolieha na vynikajúce zapamätanie tréningových údajov, nie na uvažovanie. To ďalej zdôrazňuje, že modely AI nemožno zovšeobecňovať na neviditeľné úlohy,
Zhaofeng Wu, doktorand MIT v odbore elektrotechnika a informatika, pobočka CSAIL a hlavný autor článku povedal: „Odhalili sme fascinujúci aspekt veľkých jazykových modelov: vynikajú v známych scenároch, takmer ako studňa. vychodenú cestu, ale bojujte, keď sa terén stane neznámym. Tento pohľad je kľúčový, pretože sa snažíme zlepšiť adaptabilitu týchto modelov a rozšíriť ich aplikačné horizonty.“
Podobnú demonštráciu tejto neschopnosti zovšeobecňovať sme videli, keď sme skúmali, aké zlé sú na tom modely AI riešenie zjednodušenej hádanky prechodu cez rieku.
Výskumníci dospeli k záveru, že keď vývojári analyzujú svoje modely, mali by „zvažovať abstraktnú schopnosť úlohy ako oddelenú od pozorovaného výkonu úlohy“.
Prístup „trénovať k testovaniu“ môže posunúť model vyššie v referenčných hodnotách, ale neponúka skutočnú mieru toho, ako sa modelu bude dariť, keď mu bude predložená nová úloha, ktorú treba zdôvodniť.
Výskumníci naznačujú, že súčasťou problému je, že tieto modely sú trénované iba na povrchovom texte.
Ak sú LLM vystavené viac kontextualizovaným údajom z reálneho sveta a sémantickej reprezentácii, mohli by byť schopné zovšeobecniť, keď sú prezentované s variáciami úloh.