Nová štúdia publikovaná v Nature odhaľuje, že modely AI, vrátane veľkých jazykových modelov (LLM), rýchlo zhoršujú kvalitu, keď sú trénované na údajoch generovaných predchádzajúcimi modelmi AI.
Tento jav, nazývaný „kolaps modelu“, by mohol narušiť kvalitu budúcich modelov AI, najmä keď sa na internet uvoľní viac obsahu generovaného AI, a preto sa recykluje a opätovne používa v údajoch o tréningu modelov.
Výskumníci z University of Cambridge, University of Oxford a ďalších inštitúcií skúmali tento jav a uskutočnili experimenty, ktoré ukázali, že keď sú modely AI opakovane trénované na údajoch vytvorených staršími verziami samých seba, začnú generovať čoraz nezmyselnejšie výstupy.
Tento efekt bol pozorovaný naprieč rôznymi typmi modelov AI vrátane jazykových modelov, variačných autokódovačov a modelov Gaussovej zmesi.
Na demonštráciu dopadov kolapsu modelu výskumný tím vykonal sériu experimentov s použitím rôznych architektúr AI.
V jednom kľúčovom experimente s jazykovými modelmi doladili model OPT-125m na súbore údajov WikiText-2 a potom ho použili na generovanie nového textu. Tento text vygenerovaný AI sa potom použil na trénovanie ďalšej „generácie“ modelu a proces sa zopakoval.
Výsledky ukázali, že modely začali v priebehu nasledujúcich generácií produkovať čoraz viac nepravdepodobný a nezmyselný text.
V deviatej generácii tento model generoval úplné nezmysly, ako napríklad uvádzanie viacerých neexistujúcich typov „zajacov“, keď boli vyzvaní na anglické kostolné veže.
Boli identifikované tri hlavné zdroje chýb:
- Chyba štatistickej aproximácie: Vzniká v dôsledku konečného počtu vzoriek použitých pri tréningu.
- Chyba funkčnej expresivity: Vyskytuje sa v dôsledku obmedzení schopnosti modelu reprezentovať zložité funkcie.
- Chyba funkčnej aproximácie: Vyplýva z nedokonalostí v samotnom procese učenia.
Vedci tiež pozorovali, že modely začali strácať informácie o menej častých udalostiach vo svojich tréningových dátach ešte pred úplným kolapsom.
Je to alarmujúce, pretože zriedkavé udalosti sa často týkajú marginalizovaných skupín alebo odľahlých oblastí. Bez nich modely riskujú, že svoje odpovede sústredia do úzkeho spektra myšlienok a presvedčení, čím sa posilnia predsudky.
Zlúčením tohto efektu a štúdium Dr. Richard Fletcher, riaditeľ výskumu v Inštitúte Reuters pre štúdium žurnalistiky, nedávno zistil, že takmer polovica (48 %) najpopulárnejších spravodajských stránok na svete je teraz nedostupná pre prehľadávače OpenAI, pričom prehľadávače AI od Googlu sú blokované 24. % lokalít.
Preto majú modely AI prístup k menšiemu súboru vysokokvalitných najnovších údajov ako kedysi, čo potenciálne zvyšuje riziko školenia na neštandardných alebo zastaraných údajoch.
Spoločnosti s umelou inteligenciou si to uvedomujú, a preto uzatvárajú dohody so spravodajskými spoločnosťami a vydavateľmi, aby si zabezpečili stály prúd vysokokvalitných, ľuďmi písaných, aktuálne relevantných informácií.
„Posolstvom je, že musíme byť veľmi opatrní, čo skončí v našich tréningových údajoch,“ štúdium spoluautor Zakhar Shumaylov z University of Cambridge povedal Nature. „Inak sa veci vždy preukázateľne pokazia.“
Riešenia modelového kolapsu
Pokiaľ ide o riešenia, výskumníci dospeli k záveru, že zachovanie prístupu k pôvodným zdrojom údajov vytvorených ľuďmi bude životne dôležité pre dlhodobú životaschopnosť systémov AI.
Tiež naznačujú, že sledovanie a správa obsahu generovaného AI bude potrebné, aby sa zabránilo kontaminácii tréningových dátových súborov.
Potenciálne riešenia navrhované výskumníkmi zahŕňajú:
- Vodoznaky obsahu vytvoreného umelou inteligenciou na odlíšenie od údajov vytvorených ľuďmi
- Vytváranie stimulov pre ľudí, aby pokračovali vo výrobe vysokokvalitného obsahu
- Vývoj sofistikovanejších metód filtrovania a úpravy pre tréningové dáta
- Skúmanie spôsobov, ako zachovať a uprednostniť prístup k pôvodným informáciám, ktoré nie sú generované AI
Kolaps modelu je skutočný problém
Táto štúdia nie je ani zďaleka jedinou, ktorá skúma kolaps modelu.
Nie je to tak dávno, výskumníci zo Stanfordu porovnávali dva scenáre v ktorom môže nastať kolaps modelu: jeden, v ktorom trénovacie údaje každej novej iterácie úplne nahradili predchádzajúce údaje, a druhý, v ktorom boli do existujúceho súboru údajov pridané nové syntetické údaje.
Výsledky ukázali, že po výmene údajov sa výkon modelu rýchlo zhoršil vo všetkých testovaných architektúrach.
Keď sa však umožnilo „hromadeniu údajov“, kolapsu modelu sa do značnej miery predišlo. Systémy AI si zachovali svoj výkon a v niektorých prípadoch vykazovali zlepšenia.
Takže namiesto vyradenia pôvodných skutočných údajov a použitia iba syntetických údajov na trénovanie modelu výskumníci skombinovali oboje.
Ďalšia iterácia modelu AI je trénovaná na tomto rozšírenom súbore údajov, ktorý zahŕňa pôvodné reálne údaje aj novo vygenerované syntetické údaje atď.
Zrútenie modelu teda nie je samozrejmosťou – závisí od toho, koľko údajov generovaných AI je v súbore a pomeru syntetických a autentických údajov.
Ak a keď sa kolaps modelu začne prejavovať v hraničných modeloch, môžete si byť istí, že spoločnosti AI budú hľadať dlhodobé riešenie.