Stále čakáme, kým OpenAI vydá svojho hlasového asistenta GPT-4o, ale francúzske neziskové výskumné laboratórium AI to prekonalo s vydaním Moshi.
Moshi je hlasový asistent AI v reálnom čase poháňaný modelom Helium 7B, ktorý Kyutai vyvinul a vycvičil pomocou kombinácie syntetického textu a zvukových údajov. Moshi bol potom doladený na syntetické dialógy, aby ho naučil interakciu.
Moshi dokáže porozumieť a vyjadriť 70 rôznych emócií a hovoriť rôznymi štýlmi a prízvukmi. Ukážka jeho 200 milisekúnd end-to-end latencie je veľmi pôsobivá. Súčasným počúvaním, myslením a rozprávaním sú interakcie v reálnom čase plynulé bez nepríjemných prestávok.
Nemusí to znieť tak dusno ako Sky GPT-4o, o ktorom hovorí OpenAI nenapodobňuje Scarlett Johanssonale Moshi reaguje rýchlejšie a je verejne dostupný.
Moshi získal svoj hlas tak, že bol trénovaný na zvukových vzorkách produkovaných hlasovým hercom Kyutaiom, ktorý sa nazýva „Alice“, bez poskytnutia ďalších podrobností.
Spôsob, akým Moshi prerušuje a reaguje s nepostrehnuteľnými pauzami, spôsobuje, že interakcie s modelom AI sú veľmi prirodzené.
Tu je príklad toho, ako sa Moshi zapojil do nejakej sci-fi rolovej hry.
Moshi a Alex idú na vesmírne dobrodružstvo 🚀 pic.twitter.com/WRkPCScZ9F
— kyutai (@kyutai_labs) 3. júla 2024
Helium 7B je oveľa menšie ako GPT-4o, ale jeho malá veľkosť znamená, že ho môžete spustiť na spotrebiteľskom hardvéri alebo v cloude pomocou GPU s nízkou spotrebou.
Počas ukážky inžinier z Kyutai použil MacBook Pro, aby ukázal, ako môže Moshi bežať na zariadení.
Bolo to trochu závadné, ale je to sľubné znamenie, že čoskoro budeme mať na našich telefónoch alebo počítačoch spusteného hlasového asistenta AI s nízkou latenciou bez odosielania našich súkromných údajov do cloudu.
Kompresia zvuku je rozhodujúca, aby bol Moshi čo najmenší. Používa zvukový kodek s názvom Mimi, ktorý komprimuje zvuk 300-krát menší ako kodek MP3. Mimi zachytáva akustické informácie aj sémantické údaje vo zvuku.
Ak by ste chceli chatovať s Moshi, môžete to vyskúšať tu: https://kyutai.org/
Je dôležité si uvedomiť, že Moshi je experimentálny prototyp a že ho vytvoril tím 8 inžinierov len za 6 mesiacov.
Webová verzia je naozaj chybná, ale to je pravdepodobne preto, že ich servery sú napádané používateľmi, ktorí to chcú vyskúšať.
Kyutai hovorí, že čoskoro verejne zverejní model, kodek, kód a váhy. Dovtedy si možno budeme musieť počkať, aby sme dosiahli podobný výkon ako demo.
Aj keď je to trochu zabugované, demo bolo osviežujúco úprimné v porovnaní s ukážkami Big Tech funkcií, ktoré sa neuvoľňujú.
Moshi je skvelým príkladom toho, čo dokáže malý tím inžinierov AI, a núti vás zaujímať sa, prečo stále čakáme, kým sa s nami GPT-4o porozpráva.