Minulý mesiac, Google Ukázal to model umelej inteligencie GameNGen zovšeobecnené techniky difúzie obrazu dá sa zvyknúť vytvoriť prijateľnú, hrateľnú verziu Doom. Teraz výskumníci používajú niektoré podobné techniky s modelom s názvom MarioVGG, aby zistili, či AI dokáže vytvoriť hodnoverné video z Super Mario Bros. v reakcii na vstupy používateľov.
Výsledky model MarioVGG— k dispozícii ako predtlačový papier zverejnila krypto-susediaca spoločnosť AI Virtuálny protokol—stále zobrazuje množstvo zjavných chýb a je príliš pomalé na to, aby sa niečo približovalo k hraniu v reálnom čase. Výsledky však ukazujú, ako aj obmedzený model dokáže odvodiť pôsobivú fyziku a dynamiku hry len zo štúdia videa a vstupných údajov.
Výskumníci dúfajú, že to predstavuje prvý krok smerom k „výrobe a demonštrácii spoľahlivého a ovládateľného generátora videohier“ alebo možno dokonca „nahradeniu vývoja hier a herných motorov úplne pomocou modelov generovania videa“ v budúcnosti.
Sledovanie 737 000 snímok Maria
Na trénovanie svojho modelu výskumníci MarioVGG (používatelia GitHub Erniechew a Brian Lim sú uvedení ako prispievatelia) začínajúce na a verejný súbor údajov z Super Mario Bros. hrateľnosť obsahujúca 280 „úrovní“ vstupných a obrazových údajov usporiadaných na účely strojového učenia (úroveň 1-1 bola odstránená z tréningových údajov, aby sa obrázky z nej mohli použiť pri hodnotení). Viac ako 737 000 jednotlivých snímok v tomto súbore údajov bolo „predspracovaných“ do 35-snímkových častí, aby sa model mohol začať učiť, ako vo všeobecnosti vyzerajú okamžité výsledky rôznych vstupov.
Na „zjednodušenie hernej situácie“ sa výskumníci rozhodli zamerať iba na dva potenciálne vstupy v súbore údajov: „bežať správne“ a „bežať správne a skákať“. Dokonca aj táto obmedzená súprava pohybu predstavovala určité ťažkosti pre systém strojového učenia, pretože preprocesor sa musel pred skokom pozrieť dozadu o niekoľko snímok, aby zistil, či a kedy sa „beh“ začal. Akékoľvek skoky, ktoré zahŕňali úpravy v strede vzduchu (tj tlačidlo „vľavo“), sa tiež museli vyhodiť, pretože „to by zaviedlo hluk do súboru údajov o tréningu,“ píšu výskumníci.
Po predspracovaní (a približne 48 hodinách tréningu na jednej grafickej karte RTX 4090) výskumníci použili štandard konvolúcia a odšumovanie proces na generovanie nových snímok videa zo statického úvodného obrazu hry a textového vstupu (v tomto obmedzenom prípade buď „beh“ alebo „skoč“). Zatiaľ čo tieto vygenerované sekvencie trvajú len niekoľko snímok, posledná snímka jednej sekvencie môže byť použitá ako prvá z novej sekvencie, čím je možné podľa vedcov vytvárať herné videá ľubovoľnej dĺžky, ktoré stále ukazujú „koherentnú a konzistentnú hru“.
Super Mario 0,5
Aj s týmto nastavením MarioVGG negeneruje presne hodvábne hladké video, ktoré je na nerozoznanie od skutočnej hry NES. Kvôli efektívnosti výskumníci zmenšili výstupné snímky z rozlíšenia NES 256 × 240 na oveľa bahnitejšie 64 × 48. Tiež kondenzujú 35 snímok za video čas do iba siedmich generovaných snímok, ktoré sú distribuované „v jednotných intervaloch“, čím vytvárajú „herné“ video, ktoré vyzerá oveľa drsnejšie ako skutočný herný výstup.
Napriek týmto obmedzeniam sa model MarioVGG v tomto bode stále snaží čo i len priblížiť generovaniu videa v reálnom čase. Jediný RTX 4090, ktorý výskumníci použili, trvalo šesť celých sekúnd, kým vygeneroval šesťsnímkovú videosekvenciu, ktorá predstavuje niečo vyše pol sekundy videa, a to aj pri extrémne obmedzenej snímkovej frekvencii. Výskumníci pripúšťajú, že to „nie je praktické a priateľské pre interaktívne videohry“, ale dúfajú, že budúce optimalizácie kvantovania hmotnosti (a možno aj použitie viacerých výpočtových zdrojov) by mohli túto rýchlosť zlepšiť.
So zreteľom na tieto limity však MarioVGG dokáže vytvoriť celkom vierohodné video, ako Mario beží a skáče zo statického štartovacieho obrázka, podobne ako Tvorca hier Genie od spoločnosti Google. Model bol dokonca schopný „naučiť sa fyziku hry čisto z video snímok v tréningových dátach bez akýchkoľvek explicitných pevne zakódovaných pravidiel,“ píšu vedci. To zahŕňa odvodenie správania, ako je Mario pád, keď uteká z okraja útesu (s vierohodnou gravitáciou) a (zvyčajne) zastavenie Mariovho pohybu vpred, keď je pri prekážke, píšu vedci.
Zatiaľ čo sa MarioVGG sústredilo na simuláciu Mariových pohybov, výskumníci zistili, že systém dokáže Mariovi účinne halucinovať nové prekážky, keď sa video posúva cez predstavenú úroveň. Tieto prekážky „sú v súlade s grafickým jazykom hry,“ píšu výskumníci, ale momentálne ich nemožno ovplyvniť pokynmi používateľov (napr. postavte pred Maria jamu a prinútiť ho preskočiť).
Stačí si to vymyslieť
Rovnako ako všetky pravdepodobnostné modely AI má MarioVGG frustrujúcu tendenciu niekedy poskytovať úplne neužitočné výsledky. Niekedy to znamená len ignorovanie výziev na vstup používateľa („pozorujeme, že text vstupnej akcie nie je po celý čas dodržaný,“ píšu výskumníci). Inokedy to znamená halucinácie zjavné vizuálne chyby: Mario niekedy pristane vo vnútri prekážok, prebehne cez prekážky a nepriateľov, bliká rôznymi farbami, zmenšuje sa/rastie od snímky k snímke alebo úplne zmizne na niekoľko snímok, kým sa znova objaví.
Jedno obzvlášť absurdné video zdieľané výskumníkmi ukazuje, ako Mario padá cez most, stáva sa Cheep-Cheep, potom letí späť hore cez mosty a opäť sa mení na Maria. To je niečo, čo by sme očakávali z zázračného kvetu, nejde o AI video originálu Super Mario Bros.
Výskumníci predpokladajú, že dlhší tréning na „rozmanitejších herných údajoch“ by mohol pomôcť s týmito významnými problémami a pomôcť ich modelu simulovať viac než len beh a skákanie neúprosne doprava. Napriek tomu je MarioVGG zábavným dôkazom konceptu, že aj obmedzené tréningové údaje a algoritmy môžu vytvoriť slušné počiatočné modely základných hier.
Tento príbeh sa pôvodne objavil na Ars Technica.