Udalosť Google I/O 2024 sa začala v utorok oznámením viacerých nových vylepšení produktov AI.
OpenAI možno sa pokúsili vylepšiť Google pomocou vydanie GPT-4o v pondelok, ale kľúčová reč Google I/O 2024 bola plná vzrušujúcich oznámení.
Tu je pohľad na výnimočné vylepšenia AI, nové nástroje a prototypy, s ktorými Google experimentuje.
Opýtajte sa fotografií
Fotky Google, služba na ukladanie a zdieľanie fotografií od spoločnosti Google, bude možné vyhľadávať pomocou dopytov v prirodzenom jazyku pomocou aplikácie Ask Photos. Používatelia už môžu na svojich fotografiách vyhľadávať konkrétne položky alebo ľudí, ale Ask Photos to posúva na ďalšiu úroveň.
Generálny riaditeľ spoločnosti Google Sundar Pichai ukázal, ako môžete pomocou aplikácie Ask Photos pripomenúť poznávaciu značku vášho auta alebo poskytnúť spätnú väzbu o tom, ako pokročili plavecké schopnosti dieťaťa.
Poháňaný BlíženciAsk Photos rozumie kontextu medzi obrázkami a dokáže extrahovať text, vytvárať kompilácie zvýraznení alebo odpovedať na otázky týkajúce sa uložených obrázkov.
S viac ako 6 miliardami obrázkov nahraných do Fotiek Google denne bude aplikácia Ask Photos potrebovať veľké kontextové okno, aby bola užitočná.
Čo keby vaše fotografie odpovedali na vaše otázky? 🤔 O #GoogleIO dnes sme oznámili Ask Photos, novú funkciu Fotiek Google, ktorá to robí. Ask Photos je nový spôsob vyhľadávania fotografií pomocou Blíženci. #AskPhotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
— Fotky Google (@googlephotos) 14. mája 2024
Blíženci 1.5 Pro
Pichai to oznámil Blíženci 1.5 Pro s kontextovým oknom 1M tokenu bude k dispozícii Blíženci Pokročilí používatelia. To sa rovná približne 1 500 stranám textu, hodinám zvuku a celej hodine videa.
Vývojári sa môžu zapísať do poradovníka a vyskúšať Blíženci 1.5 Pro s pôsobivým kontextovým oknom 2M, ktoré bude čoskoro všeobecne dostupné. Pichai hovorí, že toto je ďalší krok na ceste spoločnosti Google ku konečnému cieľu nekonečného kontextu.
Blíženci 1.5 Pro tiež zvýšil výkon v preklade, uvažovaní a kódovaní a bude skutočne multimodálny so schopnosťou analyzovať nahrané video a zvuk.
„Vyšlo to.“
„Toto všetko mení.“
„Je to ohromujúci zážitok.“
„Cítil som, že mám superschopnosť.“
„Toto bude úžasné.“Vypočujte si od vývojárov, ktorí to skúšali Blíženci 1.5 Pro s kontextovým oknom s 1 miliónom tokenov. #GoogleIO pic.twitter.com/odOfI4lvOL
— Google (@Google) 14. mája 2024
Google Workspace
Rozšírený kontext a multimodálne možnosti umožňujú Blíženci byť mimoriadne užitočná pri integrácii so službou Google Workspace.
Používatelia sa môžu pýtať pomocou dopytov v prirodzenom jazyku Blíženci otázky týkajúce sa ich e-mailov. Ukážka uviedla príklad rodiča, ktorý požiadal o súhrn nedávnych e-mailov zo školy svojho dieťaťa.
Blíženci bude tiež môcť extrahovať najdôležitejšie momenty zo stretnutí Google Meet v trvaní až hodiny a odpovedať na otázky o nich.
NotebookLM – Prehľad zvuku
Google vydal NotebookLM minulý rok. Umožňuje používateľom nahrávať svoje vlastné poznámky a dokumenty, na ktoré sa NotebookLM stáva expertom.
Je to mimoriadne užitočné ako sprievodca výskumom alebo učiteľ a spoločnosť Google demonštrovala experimentálnu inováciu s názvom Prehľad zvuku.
Prehľad zvuku používa vstupné zdrojové dokumenty a generuje zvukovú diskusiu na základe obsahu. Používatelia sa môžu pripojiť ku konverzácii a použiť reč na dopytovanie NotebookLM a riadiť diskusiu.
NotebookLM! Tento projekt sa vám veľmi páči, projekt Arcades poháňaný AI. S multimodalitou Blíženci Pro 1.5 dokáže automaticky vytvárať zvukové diskusie o zdrojovom materiáli, ktorý ste pridali do svojich zdrojov. pic.twitter.com/IhhSfj8AqR
— Dieter Bohn (@backlon) 14. mája 2024
Nie je ani slovo o tom, kedy bude predstavený prehľad zvuku, ale môže to byť obrovská pomoc pre každého, kto potrebuje učiteľa alebo zvukovú dosku, aby vyriešil problém.
Google tiež oznámil LearnLM, novú rodinu modelov založených na Blíženci a vyladené na učenie a vzdelávanie. LearnLM bude podporovať NotebookLM, YouTube, vyhľadávanie a ďalšie vzdelávacie nástroje, aby boli interaktívnejšie.
Demo bolo veľmi pôsobivé, ale už teraz vyzerá ako niektoré z nich chyby, ktoré urobil Google s jeho originálom Blíženci vypustiť videá vkradnuté do tejto udalosti.
Ukážka notebooku nie je v reálnom čase. Prial by som si, aby toto očakávanie stanovili bez toho, aby ho zakopali do poznámky pod čiarou čo najmenším možným písmom. pic.twitter.com/tGN5i3fsVD
— Delip Rao e/σ (@deliprao) 14. mája 2024
Agenti AI a Projekt Astra
Pichai hovorí, že agenti AI poháňajú Blíženci čoskoro zvládne naše všedné každodenné úlohy. Google vytvára prototyp agentov, ktorí budú schopní pracovať naprieč platformami a prehliadačmi.
Príklad, ktorý dal Pichai, bol pokyn používateľa Blíženci vrátiť pár topánok a potom nechať agenta, aby vyhľadal príslušné podrobnosti prostredníctvom viacerých e-mailov, zaregistrujte vrátenie v internetovom obchode a zarezervujte si vyzdvihnutie kuriérom.
Demis Hassabis predstavil Project Astra, prototyp konverzačného asistenta AI od Googlu. Ukážka jeho multimodálnych schopností umožnila nahliadnuť do budúcnosti, kde AI odpovedá na otázky v reálnom čase na základe živého videa a pamätá si detaily z predchádzajúceho videa.
Hassabis povedal, že niektoré z týchto funkcií budú uvedené neskôr v tomto roku.
Už dlho pracujeme na univerzálnom agentovi AI, ktorý môže byť skutočne nápomocný v každodennom živote. Dnes o #GoogleIO predviedli sme náš najnovší pokrok smerom k tomuto: Projekt Astra. Tu je video nášho prototypu zachytené v reálnom čase. pic.twitter.com/TSGDJZVslg
— Demis Hassabis (@demishassabis) 14. mája 2024
Generatívna AI
Google nám umožnil nahliadnuť do nástrojov umelej inteligencie na generovanie obrázkov, hudby a videa, na ktorých pracuje.
Google predstavil Imagen 3, svoj najpokročilejší generátor obrázkov. Údajne presnejšie reaguje na detaily v jemných výzvach a poskytuje fotorealistickejšie obrázky.
Hassabis povedal, že Imagen 3 je „doteraz najlepším modelom Google na vykresľovanie textu, čo bolo výzvou pre modely generovania obrázkov“.
Dnes vám predstavujeme Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindzatiaľ najschopnejší model generovania obrázkov. Rozumie výzvam, ako ľudia píšu, vytvára fotorealistickejšie obrázky a je naším najlepším modelom na vykresľovanie textu. #GoogleIO pic.twitter.com/6bjidsz6pJ
— Google (@Google) 14. mája 2024
Music AI Sandbox je hudobný generátor AI navrhnutý tak, aby bol profesionálnym nástrojom na spoluprácu pri vytváraní hudby, a nie ako generátor úplných skladieb. Vyzerá to ako skvelý príklad toho, ako by sa AI dala použiť na tvorbu dobrej hudby s človekom, ktorý riadi kreatívny proces.
Veo je generátor videa od spoločnosti Google, ktorý premieňa textové, obrázkové alebo video výzvy na minútové klipy v rozlíšení 1080p. Umožňuje tiež textové výzvy na úpravu videa. Bude Veo také dobré ako Sora?
Google zavedie digitálny vodoznak SynthID na text, zvuk, obrázky a video.
Trillium
Všetky tieto nové multimodálne možnosti vyžadujú na trénovanie modelov veľa výpočtového výkonu. Pichai predstavil Trillium, 6. iteráciu svojich jednotiek TPU (Tensor Processing Units). Trillium poskytuje viac ako 4-násobok výpočtov v porovnaní s predchádzajúcou generáciou TPU.
Trillium bude k dispozícii zákazníkom cloud computingu Google neskôr v tomto roku a bude vyrábať NVIDIA GPU Blackwell k dispozícii začiatkom roka 2025.
AI vyhľadávanie
Google sa integruje Blíženci do svojej vyhľadávacej platformy, keď sa posúva smerom k používaniu generatívnej AI pri odpovedaní na otázky.
Vďaka prehľadu AI je výsledkom vyhľadávacieho dopytu komplexná odpoveď zozbieraná z viacerých online zdrojov. Vďaka tomu sa Vyhľadávanie Google stáva viac výskumným asistentom, než len hľadaním webovej stránky, ktorá môže obsahovať odpoveď.
Blíženci umožňuje Vyhľadávaniu Google používať viackrokové uvažovanie na rozdelenie zložitých otázok zložených z viacerých častí a vrátenie najrelevantnejších informácií z viacerých zdrojov.
BlíženciPorozumenie videa používateľom čoskoro umožní používateľom použiť video na vyhľadávanie Google.
Bude to skvelé pre používateľov Vyhľadávania Google, ale pravdepodobne to povedie k oveľa nižšej návštevnosti stránok, z ktorých Google získava informácie.
Toto je Vyhľadávanie v Blíženci éra. #GoogleIO pic.twitter.com/JxldNjbqyn
— Google (@Google) 14. mája 2024
A tiež budete môcť klásť otázky pomocou videa priamo vo Vyhľadávaní. Už čoskoro. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) 14. mája 2024
Blíženci 1.5 Flash
Google oznámil ľahký, lacnejší a rýchly model s názvom Blíženci 1.5 Flash. Google hovorí, že model je „optimalizovaný pre užšie alebo vysokofrekvenčné úlohy, kde najviac záleží na rýchlosti odozvy modelu“.
Blíženci 1.5 Flash bude stáť 0,35 USD za milión tokenov, čo je oveľa menej ako 7 USD, ktoré by ste museli zaplatiť za použitie Blíženci 1.5 Pro.
Každý z týchto vylepšení a nových produktov si zaslúži svoj vlastný príspevok. Aktualizácie uverejníme, keď budú k dispozícii ďalšie informácie alebo keď ich budeme môcť sami vyskúšať.