Právnici pre The New York Times a Daily News, ktorí sú žalovať OpenAI za údajné zoškrabanie ich diel na trénovanie modelov AI bez povolenia, tvrdia inžinieri OpenAI omylom vymazali údaje potenciálne relevantné pre prípad.
Začiatkom jesene OpenAI súhlasila s poskytnutím dvoch virtuálnych strojov, aby poradca pre The Times a Daily News mohol vyhľadávať ich obsah chránený autorskými právami vo svojich tréningových sadách AI. (Virtuálne stroje sú počítače založené na softvéri, ktoré existujú v operačnom systéme iného počítača, často používané na účely testovania, zálohovania údajov a spúšťania aplikácií.) V liste právnici vydavateľov uvádzajú, že oni a experti, ktorých si najali, minuli viac ako 150 hodín od 1. novembra vyhľadávaním tréningových dát OpenAI.
Ale 14. novembra inžinieri OpenAI vymazali všetky vyhľadávacie údaje vydavateľov uložené na jednom z virtuálnych počítačov, podľa vyššie uvedeného listu, ktorý bol podaný na americký okresný súd pre južný okres New York v stredu neskoro večer.
OpenAI sa pokúsil obnoviť údaje – a bol väčšinou úspešný. Keďže sa však štruktúra priečinkov a názvy súborov „nenávratne“ stratili, obnovené údaje „nemožno použiť na určenie toho, kde boli skopírované články žalobcov noviniek použité na zostavenie modelov (OpenAI),“ podľa listu.
„Sťažovatelia v spravodajstve boli nútení znovu vytvoriť svoju prácu od nuly s použitím značného počtu osobohodín a času na spracovanie počítača,“ napísal poradca pre The Times a Daily News. „Žalobcovia noviniek sa len včera dozvedeli, že obnovené údaje sú nepoužiteľné a že celý týždeň práce ich expertov a právnikov sa musí vykonať znova, a preto sa dnes podáva tento doplňujúci list.“
Právny zástupca sťažovateľov objasňuje, že nemajú dôvod domnievať sa, že vymazanie bolo úmyselné. Tvrdia však, že incident podčiarkuje, že OpenAI „je v najlepšej pozícii na vyhľadávanie svojich vlastných súborov údajov“ na obsah potenciálne porušujúci autorské práva pomocou vlastných nástrojov.
Požiadali sme OpenAI o komentár a ak sa ozveme, aktualizujeme tento diel.
V tomto a ďalších prípadoch OpenAI tvrdí, že tréningové modely využívajúce verejne dostupné údaje – vrátane článkov z The Times a Daily News – sú fair use. Inými slovami, pri vytváraní modelov ako GPT-4oktorá sa „učí“ z miliárd príkladov e-kníh, esejí a ďalších, aby generovala ľudsky znejúci text, OpenAI verí, že nie je potrebné licencovať ani inak platiť za príklady – aj keď na týchto modeloch zarába.
Ako už bolo povedané, OpenAI uzavrelo licenčné zmluvy s rastúcim počtom nových vydavateľov, vrátane The Associated Press, majiteľa Business Insider Axela Springera, Financial Times, materská spoločnosť People Dotdash Meredith a News Corp. OpenAI odmietla sformulovať tieto podmienky. ponuky sú verejné, ale jeden partner pre obsah, Dotdash, je údajne s platbou najmenej 16 miliónov dolárov ročne.
OpenAI nepotvrdila ani nepoprela, že svoje systémy AI trénovala na konkrétne diela chránené autorskými právami bez povolenia.