Pulkit Agrawal, odborný asistent na MIT, ktorý pracuje na AI a robotike, hovorí, že najnovšie ukážky Google a OpenAI sú pôsobivé a ukazujú, ako rýchlo napredovali multimodálne modely AI. OpenAI spustilo GPT-4V, systém schopný analyzovať obrázky v septembri 2023. Zaujalo ho, že Gemini dokáže porozumieť živému videu – napríklad správne interpretovať zmeny vykonané v diagrame na tabuli v reálnom čase. Zdá sa, že nová verzia ChatGPT od OpenAI dokáže to isté.
Agrawal hovorí, že asistenti demonštrovaní spoločnosťami Google a OpenAI by mohli spoločnostiam poskytnúť nové školiace údaje, keď používatelia interagujú s modelmi v reálnom svete. „Ale musia byť užitočné,“ dodáva. „Veľkou otázkou je, na čo ich budú ľudia používať – nie je to celkom jasné.“
Google hovorí, že Project Astra bude sprístupnený prostredníctvom nového rozhrania s názvom Gemini Live koncom tohto roka. Hassabis uviedol, že spoločnosť stále testuje niekoľko prototypov inteligentných okuliarov a musí sa ešte rozhodnúť, či niektoré z nich uvedie na trh.
Možnosti Astra môžu poskytnúť spoločnosti Google príležitosť reštartovať jej verziu nešťastný Glass inteligentných okuliarov, aj keď snahy o vytvorenie hardvéru vhodného pre generatívnu AI doteraz narazil. Napriek impozantným ukážkam OpenAI a Google, multimodálne modály nedokážu úplne pochopiť fyzický svet a objekty v ňom, čo obmedzuje to, čo budú môcť robiť.
„Schopnosť vybudovať si mentálny model fyzického sveta okolo vás je absolútne nevyhnutná na budovanie ľudskej inteligencie,“ hovorí Brendenské jazerodocent na New York University, ktorý využíva AI na skúmanie ľudskej inteligencie.
Lake poznamenáva, že dnešné najlepšie modely AI sú stále veľmi zamerané na jazyk, pretože väčšina ich učenia pochádza z textu z kníh a webu. To je zásadne odlišné od toho, ako sa jazyk učia ľudia, ktorí ho preberajú pri interakcii s fyzickým svetom. „Je to spätné v porovnaní s vývojom dieťaťa,“ hovorí o procese vytvárania multimodálnych modelov.
Hassabis verí, že prehĺbenie pochopenia fyzického sveta do modelov AI bude kľúčom k ďalšiemu pokroku v AI a k tomu, aby boli systémy ako Project Astra robustnejšie. Ďalšie hranice AI vrátane Google DeepMind’s práca na programoch AI na hranie hier môže pomôcť, hovorí. Hassabis a ďalší dúfajú, že takáto práca by mohla byť revolučná robotickéoblasť, do ktorej investuje aj Google.
„Asistent multimodálneho univerzálneho agenta je na ceste k umelej všeobecnej inteligencii,“ povedal Hassabis v súvislosti s nádejným, ale do značnej miery nedefinovaným budúcim bodom, kde stroje môžu robiť čokoľvek a všetko, čo ľudská myseľ dokáže. „Toto nie je AGI alebo niečo podobné, ale je to začiatok niečoho.“
Aktualizované 14.5.2024, 16:15 EDT: Tento článok bol aktualizovaný, aby objasnil celý názov projektu Google.