Všetky generatívne modely AI halucinovaťod Google Gemini cez Anthropic’s Claude až po najnovšie stealth vydanie OpenAI GPT-4o. Modely sú nespoľahliví rozprávači inými slovami — niekedy do veselý efektinokedy tak problematicky.
Ale nie všetky modely tvoria veci rovnakým tempom. A druhy neprávd, ktoré chrlia, závisia od toho, ktorým zdrojom informácií boli vystavení.
A nedávna štúdia od výskumníkov v Cornell sa univerzity vo Washingtone a Waterloo a neziskový výskumný inštitút AI2 snažili porovnávať halucinácie pomocou modelov overovania faktov, ako je GPT-4o, oproti dôveryhodným zdrojom na témy od práva a zdravia po históriu a geografiu. Zistili, že žiadny model si neviedol výnimočne dobre vo všetkých témach a že modely, ktoré mali najmenej halucinácií, to robili čiastočne preto, že odmietali odpovedať na otázky, v ktorých by sa inak mýlili.
„Najdôležitejším poznatkom z našej práce je, že ešte nemôžeme plne dôverovať výstupom modelových generácií,“ povedal pre TechCrunch Wenting Zhao, doktorand na Cornell a spoluautor výskumu. „V súčasnosti aj tie najlepšie modelky dokážu generovať text bez halucinácií len v 35% prípadov.“
Existujú aj iné akademické pokusy skúmať „skutočnosť“ modelov, vrátane jeden samostatným tímom pridruženým k AI2. Zhao však poznamenáva, že tieto predchádzajúce testy kládli modelové otázky s odpoveďami, ktoré sa dajú ľahko nájsť na Wikipédii – nie je to práve najťažšia otázka, berúc do úvahy väčšina modelov je trénovaná na údajoch z Wikipédie.
Aby bolo ich porovnávanie náročnejšie – a aby presnejšie odrážali typy otázok, ktoré ľudia kladú modelom – výskumníci identifikovali na webe témy, ktoré nie mať odkaz na Wikipédiu. O niečo viac ako polovicu otázok v ich teste nemožno zodpovedať pomocou Wikipédie (pre dobrú mieru zahrnuli aj niektoré z Wikipédie) a dotýkajú sa tém vrátane kultúry, geografie, astronómie, popkultúry, financií, medicíny, informatiky a celebrít. .
Pre svoju štúdiu výskumníci vyhodnotili viac ako tucet rôznych populárnych modelov, z ktorých mnohé boli vydané v minulom roku. Okrem GPT-4o testovali “otvorené” modely ako napr Metaova láma 3 70B, Mistral’s Mixtral 8x22B a Cohere’s Command R+, ako aj modely Gated-behind-API Zmätenosť Sonar-Large (ktorý je založený na Llama), Google Gemini 1.5 Pro a antropické Claude 3 Opus.
Výsledky naznačujú, že modelky v súčasnosti nemajú halucinácie oveľa menej, napriek tvrdeniam o opaku OpenAI, Antropický a ďalších veľkých generatívnych hráčov AI.
GPT-4o a oveľa staršia vlajková loď OpenAI GPT-3.5 dosiahli približne rovnaké výsledky, pokiaľ ide o percento otázok, na ktoré v benchmarku odpovedali vecne správne. (GPT-4o bolo o niečo lepšie.) Modely OpenAI boli celkovo najmenej halucinačné, nasledovali Mixtral 8x22B, Command R a modely Sonar od Perplexity.
Otázky týkajúce sa celebrít a financií dali modelom najťažšie zabrať, ale na otázky o geografii a informatike sa modelom odpovedalo najjednoduchšie (možno preto, že ich tréningové údaje obsahovali viac odkazov na ne). V prípadoch, keď zdrojom odpovede nebola Wikipédia, každý model odpovedal v priemere menej fakticky (ale najmä GPT-3.5 a GPT-4o), čo naznačuje, že všetci sú výrazne informovaní obsahom Wikipédie.
Dokonca aj modely, ktoré dokážu vyhľadávať informácie na webe, ako napríklad modely Command R a Perplexity Sonar, zápasili s otázkami „inými ako Wiki“ v benchmarku. Na veľkosti modelu veľmi nezáležalo; menšie modely (napr. Claude 3 Haiku od Anthropic) halucinovali zhruba rovnako často ako väčšie, zdanlivo schopnejšie modely (napr. Claude 3 Opus).
Čo to všetko znamená – a kde sú vylepšenia, ktoré predajcovia sľubovali?
Nenechali by sme to cez predajcov zveličujú svoje tvrdenia. Ale charitatívnejšie je, že referenčné hodnoty, ktoré používajú, nie sú vhodné na tento účel. Ako sme už písali, veľa, ak nie väčšina, hodnotení AI je prechodné a bez dôležitých súvislostíodsúdený stať sa obeťou Goodhartov zákon.
Bez ohľadu na to Zhao hovorí, že očakáva, že problém halucinácií bude „pretrvávať dlho“.
„Empirické výsledky v našej práci naznačujú, že napriek prísľubom určitých metód na zníženie alebo odstránenie halucinácií je skutočné zlepšenie dosiahnuteľné týmito metódami obmedzené,“ povedala. „Naša analýza navyše odhaľuje, že dokonca aj poznatky nájdené na internete môžu byť často protichodné, čiastočne preto, že tréningové údaje, ktoré vytvorili ľudia, môžu obsahovať aj halucinácie.“
Dočasným riešením by mohlo byť jednoduché naprogramovanie modelov tak, aby odmietli odpovedať častejšie – čo je technický ekvivalent k tomu, aby ste povedali znalcovi, aby to prerušil.
V testovaní výskumníkov odpovedal Claude 3 Haiku len na približne 72 % otázok, ktoré mu boli položené, pričom sa rozhodol zdržať sa zvyšku. Keď sa zohľadnili neúčasti, Claude 3 Haiku bol v skutočnosti tým najskutočnejším modelom zo všetkých – aspoň v tom zmysle, že klamal najmenej často.
Ale budú ľudia používať model, ktorý neodpovedá na veľa otázok? Zhao si myslí, že nie, a tvrdí, že predajcovia by mali venovať viac času a úsilia výskumu znižovania halucinácií. Tvrdí, že úplné odstránenie halucinácií nemusí byť možné, ale možno ich zmierniť overovaním faktov a citovaním človeka počas vývoja modelu.
„Je potrebné vypracovať zásady a predpisy, aby sa zabezpečilo, že do procesu overovania a overovania informácií generovaných generatívnymi modelmi AI budú vždy zapojení odborníci,“ dodal Zhao. „Stále existuje množstvo príležitostí na dosiahnutie významných vplyvov v tejto oblasti, ako je vývoj pokročilých nástrojov na kontrolu faktov pre akýkoľvek voľný text, poskytovanie citácií pre vecný obsah a ponúkanie opráv pre halucinované texty.“