OpenAI na svojom podujatí Dev Day nevydalo žiadne nové modely, ale nové funkcie API nadchnú vývojárov, ktorí chcú použiť svoje modely na vytváranie výkonných aplikácií.
OpenAI má za sebou niekoľko ťažkých týždňov so svojou CTO Mirou Murati a ďalšími hlavnými výskumníkmi, ktorí sa pripájajú k neustále rastúcemu zoznamu bývalých zamestnancov. Spoločnosť je pod rastúcim tlakom iných vlajkových modelov vrátane modelov s otvoreným zdrojovým kódom, ktoré ponúkajú vývojárom lacnejšie a vysoko výkonné možnosti.
Nové funkcie, ktoré OpenAI odhalila, boli Realtime API (v beta verzii), dolaďovanie vízie a nástroje na zvýšenie efektivity, ako je rýchle ukladanie do vyrovnávacej pamäte a destilácia modelu.
API v reálnom čase
Realtime API je najzaujímavejšia nová funkcia, aj keď v beta verzii. Umožňuje vývojárom vytvárať vo svojich aplikáciách funkcie prevodu reči na reč s nízkou latenciou bez použitia samostatných modelov na rozpoznávanie reči a prevod textu na reč.
Pomocou tohto rozhrania API môžu teraz vývojári vytvárať aplikácie, ktoré umožňujú konverzácie s AI v reálnom čase, ako sú hlasoví asistenti alebo nástroje na výučbu jazykov, a to všetko prostredníctvom jediného volania API. Nie je to úplne bezproblémový zážitok, ktorý ponúka pokročilý hlasový režim GPT-4o, ale je blízko.
Nie je to však lacné, približne 0,06 USD za minútu zvukového vstupu a 0,24 USD za minútu zvukového výstupu.
Nové rozhranie API v reálnom čase od OpenAI je neuveriteľné…
Sledujte, ako si objednáte 400 jahôd tak, že zavoláte do obchodu s twilliom. Všetko s hlasom. 🍓🎤 pic.twitter.com/J2BBoL9yFv
— Ty (@FieroTy) 1. októbra 2024
Jemné doladenie vízie
Jemné ladenie vízie v rámci API umožňuje vývojárom zlepšiť schopnosť ich modelov porozumieť obrázkom a interagovať s nimi. Doladením GPT-4o pomocou obrázkov môžu vývojári vytvárať aplikácie, ktoré vynikajú v úlohách, ako je vizuálne vyhľadávanie alebo detekcia objektov.
Túto funkciu už využívajú spoločnosti ako Grab, ktoré zlepšili presnosť svojej mapovacej služby doladením modelu tak, aby rozpoznával dopravné značky z obrázkov na úrovni ulíc.
OpenAI tiež uviedol príklad toho, ako môže GPT-4o generovať dodatočný obsah pre webovú stránku po doladení tak, aby štylisticky zodpovedal existujúcemu obsahu lokality.
Okamžité ukladanie do vyrovnávacej pamäte
Na zlepšenie nákladovej efektívnosti zaviedol OpenAI promptné ukladanie do vyrovnávacej pamäte, nástroj, ktorý znižuje náklady a latenciu často používaných volaní API. Opätovným použitím nedávno spracovaných vstupov môžu vývojári znížiť náklady o 50 % a skrátiť časy odozvy. Táto funkcia je užitočná najmä pre aplikácie vyžadujúce dlhé konverzácie alebo opakovaný kontext, ako sú chatboty a nástroje služieb zákazníkom.
Použitie vstupov z vyrovnávacej pamäte môže ušetriť až 50 % nákladov na vstupný token.
Modelová destilácia
Modelová destilácia umožňuje vývojárom doladiť menšie, nákladovo efektívnejšie modely s využitím výstupov väčších a schopnejších modelov. Toto je zmena hry, pretože predtým si destilácia vyžadovala viacero odpojených krokov a nástrojov, čo z nej robilo časovo náročný proces náchylný na chyby.
Pred integrovanou funkciou modelovej destilácie OpenAI museli vývojári manuálne organizovať rôzne časti procesu, ako je generovanie údajov z väčších modelov, príprava dolaďovacích súborov údajov a meranie výkonu pomocou rôznych nástrojov.
Vývojári môžu teraz automaticky ukladať výstupné páry z väčších modelov, ako je GPT-4o, a použiť tieto páry na doladenie menších modelov, ako je GPT-4o-mini. Celý proces vytvárania, dolaďovania a vyhodnocovania dátových množín možno vykonávať štruktúrovanejším, automatizovanejším a efektívnejším spôsobom.
Zjednodušený vývojový proces, nižšia latencia a nižšie náklady urobia z modelu OpenAI GPT-4o atraktívnu vyhliadku pre vývojárov, ktorí chcú rýchlo nasadiť výkonné aplikácie. Bude zaujímavé sledovať, ktoré aplikácie multimodálne funkcie umožňujú.