V preplnenej otvorenej kancelárii v Mountain View v Kalifornii sa vysoký a štíhly robot s kolesami hral na sprievodcu a neformálneho pomocníka v kancelárii – vďaka veľkej inovácii jazykového modelu Google DeepMind. dnes odhalené. Robot používa najnovšiu verziu Google Veľký jazykový model Gemini na oba príkazy analyzovať a nájsť cestu okolo.
Keď napríklad človek povie: „Nájdite ma niekam, aby som mohol písať“, robot sa poslušne odsunie a odvedie osobu k nedotknutej tabuli umiestnenej niekde v budove.
Schopnosť Gemini pracovať s videom a textom – okrem schopnosti prehltnúť veľké množstvo informácií vo forme predtým nahratých video prehliadok kancelárie – umožňuje robotovi „pomocníka Google“ porozumieť svojmu prostrediu a správne sa navigovať, keď mu zadajú príkazy. ktoré si vyžadujú zdravý rozum. Robot kombinuje Gemini s algoritmom, ktorý generuje konkrétne akcie, ktoré má robot vykonať, napríklad otáčanie, v reakcii na príkazy a na to, čo vidí pred sebou.
Keď bol v decembri predstavený Gemini, Demis Hassabis, generálny riaditeľ Google DeepMind, povedal WIRED že jeho multimodálne schopnosti by pravdepodobne odomkli nové schopnosti robotov. Dodal, že výskumníci spoločnosti usilovne testovali robotický potenciál modelu.
In nový papier Pri načrtnutí projektu výskumníci stojaci za prácou tvrdia, že ich robot dokázal byť až 90 percent spoľahlivý pri navigácii, aj keď dostal zložité príkazy, ako napríklad „Kde som nechal svoju dráhu?“ Systém DeepMind „výrazne zlepšil prirodzenosť interakcie medzi človekom a robotom a výrazne zvýšil použiteľnosť robota,“ píše tím.
Demo úhľadne ilustruje potenciál pre veľké jazykové modely dostať sa do fyzického sveta a robiť užitočnú prácu. Blíženci a iné chatboty väčšinou fungujú v rámci webového prehliadača alebo aplikácie, aj keď sú čoraz viac schopné zvládnuť vizuálny a sluchový vstup, napr aj Google a OpenAI má nedávno preukázané. V máji sa Hassabis predviedol inovovaná verzia Gemini schopný dať zmysel usporiadaniu kancelárie pri pohľade cez fotoaparát smartfónu.
Akademické a priemyselné výskumné laboratóriá sa pretekajú, aby zistili, ako možno použiť jazykové modely na zlepšenie schopností robotov. Máj program pre Medzinárodnú konferenciu o robotike a automatizácii, populárnom podujatí pre výskumníkov v oblasti robotiky, uvádza takmer dva tucty článkov, ktoré zahŕňajú používanie modelov jazyka videnia.
Investori sú nalievanie peňazí do startupov, ktorých cieľom je aplikovať pokroky v AI v robotike. Niekoľko výskumníkov zapojených do projektu Google odvtedy opustilo spoločnosť a založili startup s názvom Fyzická inteligencia, ktorá získala počiatočné financovanie vo výške 70 miliónov dolárov; pracuje na kombinovaní veľkých jazykových modelov s tréningom v reálnom svete, aby roboti získali všeobecné schopnosti riešiť problémy. Samostatná AI, ktorú založili robotici z Carnegie Mellon University, má podobný cieľ. Tento mesiac oznámila financovanie vo výške 300 miliónov dolárov.
Ešte pred niekoľkými rokmi potreboval robot na úspešnú navigáciu mapu svojho prostredia a starostlivo zvolené príkazy. Veľké jazykové modely obsahujú užitočné informácie o fyzickom svete a novšie verzie, ktoré sú trénované na obrázkoch a videu, ako aj texte, známe ako modely jazyka videnia, môžu odpovedať na otázky, ktoré vyžadujú vnímanie. Gemini umožňuje robotovi Google analyzovať vizuálne aj hovorené pokyny podľa náčrtu na tabuli, ktorý ukazuje trasu do nového cieľa.
Vo svojom dokumente výskumníci uviedli, že plánujú testovať systém na rôznych druhoch robotov. Dodávajú, že Blíženci by mali byť schopní pochopiť zložitejšie otázky, ako napríklad „Majú dnes môj obľúbený nápoj?“ od používateľa s množstvom prázdnych plechoviek od koly na stole.