OpenAI GPT-4ogeneratívny model AI, ktorý poháňa nedávno uvedenú verziu alfa Pokročilý hlasový režim v ChatGPT je prvou spoločnosťou vyškolenou v oblasti hlasových, ako aj textových a obrazových údajov. A to ho vedie k tomu, že sa niekedy správa zvláštnym spôsobom – napríklad napodobňuje hlas osoby, ktorá s ním hovorí, alebo náhodne kričí uprostred rozhovoru.
V nová správa o „červenom tíme“. dokumentujúc sondy o silných stránkach a rizikách modelu, OpenAI odhaľuje niektoré zvláštne zvláštnosti GPT-4o, ako je vyššie uvedené klonovanie hlasu. V zriedkavých prípadoch – najmä keď osoba hovorí s GPT-4o v „prostredí s vysokým hlukom na pozadí“, ako je auto na ceste – bude GPT-4o „napodobňovať hlas používateľa,“ hovorí OpenAI. prečo? OpenAI to pripisuje modelu, ktorý sa snaží porozumieť chybnej reči. Dosť fér!
Vypočujte si, ako znie v ukážke nižšie (z reportáže). Divné, však?
Aby bolo jasné, GPT-4o to teraz nerobí – aspoň nie v pokročilom hlasovom režime. Hovorca OpenAI povedal TechCrunch, že spoločnosť pridala „zmiernenie na úrovni systému“ pre toto správanie.
GPT-4o je tiež náchylný na vytváranie znepokojujúcich alebo nevhodných „neverbálnych vokalizácií“ a zvukových efektov, ako sú erotické stony, násilné výkriky a výstrely, ak sú k tomu určené špecifickými spôsobmi. OpenAI hovorí, že existujú dôkazy, ktoré naznačujú, že model všeobecne odmieta požiadavky na generovanie zvukových efektov, ale uznáva, že niektoré požiadavky skutočne prejdú.
GPT-4o by tiež mohol porušovať autorské práva k hudbe – alebo by skôr, keby OpenAI neimplementoval filtre, aby tomu zabránil. V správe OpenAI uviedol, že nariadil GPT-4o, aby nespieval pre obmedzený alfa režim Advanced Voice Mode, pravdepodobne preto, aby sa predišlo kopírovaniu štýlu, tónu a/alebo farby rozpoznateľných umelcov.
To znamená, ale priamo to nepotvrdzuje, že OpenAI trénoval GPT-4o na materiáloch chránených autorskými právami. Nie je jasné, či má OpenAI v úmysle zrušiť obmedzenia, keď sa pokročilý hlasový režim na jeseň sprístupní viacerým používateľom, ako už bolo oznámené.
„Aby sme zohľadnili zvukovú modalitu GPT-4o, aktualizovali sme určité textové filtre, aby fungovali na zvukových konverzáciách (a) vytvorili filtre na detekciu a blokovanie výstupov obsahujúcich hudbu,“ píše OpenAI v správe. „Vyškolili sme GPT-4o na odmietnutie žiadostí o obsah chránený autorskými právami vrátane zvuku v súlade s našimi širšími postupmi.“
Za zmienku stojí, že OpenAI má predtým povedané bolo by „nemožné“ trénovať dnešné popredné modely AI bez použitia materiálov chránených autorskými právami. Aj keď má spoločnosť niekoľko licenčných zmlúv s poskytovateľmi údajov, tvrdí tiež, že fair use je rozumnou obranou proti obvineniam, že trénuje na údajoch chránených IP, vrátane vecí, ako sú piesne, bez povolenia.
Červená tímová správa – čo stojí za to, vzhľadom na kone OpenAI v pretekoch – vykresľuje obraz modelu AI, ktorý je vďaka zmierňovaniu a bezpečnostným opatreniam bezpečnejší. GPT-4o odmieta identifikovať ľudí napríklad na základe toho, ako hovoria, a odmieta odpovedať na nabité otázky typu „aký inteligentný je tento rečník?“ Blokuje tiež výzvy na násilný a sexuálne nabitý jazyk a úplne zakazuje určité kategórie obsahu, ako sú diskusie týkajúce sa extrémizmu a sebapoškodzovania.