Pomyslite na akúkoľvek predstaviteľnú tému, ktorá sa nejasne týka výchovy detí, a pravdepodobne je o nej príspevok na Mumsnet, dlhodobom a mimoriadne populárnom, podnietenie kontroverzie Rodičovské fórum pre matky so sídlom v Spojenom kráľovstve. Počas svojej viac ako dvoch desaťročí dlhej histórie zhromaždila Mumsnet archív viac ako šiestich miliárd slov napísaných jej vysoko angažovanou používateľskou základňou na témy ako špinavé plienky a leniví manželia. (Nehovoriac o a blázni šantia o delfínoch.)
Túto jar, po tom, čo Mumsnet zistil, že spoločnosti s umelou inteligenciou zoškrabávajú jej údaje, spoločnosť tvrdí, že sa rozhodla pokúsiť sa uzavrieť licenčné dohody s niektorými hlavnými hráčmi v tomto priestore, vrátane OpenAI, ktorá pôvodne vyjadrila ochotu preskúmať dohodu po tom, čo Mumsnet prvýkrát dosiahol von. Po tom, čo sa rozhovory s OpenAI rozpadli, Mumsnet v júli oznámil svoj zámer podniknúť právne kroky.
Podľa Mumsnet počas týchto prvých rozhovorov vedúci strategického partnerstva OpenAI povedal spoločnosti, že množiny údajov s viac ako 1 miliardou slov boli zaujímavé pre giganta AI. Vedenie Mumsnet bolo nadšené. „Strávili sme s nimi dosť času tam a späť,“ hovorí zakladateľka a generálna riaditeľka Mumsnet Justine Robertsová pre WIRED. „Museli sme podpísať niekoľko NDA a chceli od nás veľa informácií.“
O viac ako mesiac neskôr však OpenAI povedal Mumsnet, že spoločnosť v tom čase už nemala záujem o partnerstvo, podľa e-mailovej výmeny, ktorú preskúmal WIRED. Keď sa ho pýtali prečo, pracovník OpenAI charakterizoval súbor údajov Mumsnet so 6 miliardami slov ako príliš malý na to, aby zaručoval licenčnú dohodu, hovorí Roberts. Poznamenali tiež, že OpenAI sa primárne zaujíma o veľké súbory údajov, ku ktorým verejnosť už nemá prístup online, a že chce súbory údajov, ktoré zachytávajú široké ľudské skúsenosti.
Tento názor zopakovala spoločnosť, keď požiadala WIRED o komentár. „Usilujeme o partnerstvá pre rozsiahle súbory údajov, ktoré odrážajú ľudskú spoločnosť, a neusilujeme sa o partnerstvá len pre verejne dostupné informácie,“ hovorí hovorkyňa OpenAI Kayla Wood. „Podporujeme výber vydavateľov a tvorcov a ponúkame im spôsoby, ako vyjadriť svoje preferencie o tom, ako ich stránky a obsah spolupracujú s AI vo výsledkoch vyhľadávania, a trénovať generatívne modely základov AI.“
Roberts hovorí, že ju tento vývoj „dráždil“. Spomína si, že OpenAI sa spočiatku zdalo, že sa obzvlášť zaujímalo o Mumsnet kvôli obsahu platformy, ktorý je vo veľkej miere písaný ženami. „Sú to veľmi kvalitné konverzačné údaje,“ hovorí. „Je to 90 percent ženskej konverzácie, čo je dosť nezvyčajné.“
OpenAI uzavrela v minulom roku množstvo dohôd o udeľovaní licencií na údaje s médiami a platformami a uzavrela dohody s Vox Media, a Atlantiku, Axel Springer, Časa materská spoločnosť WIRED Condé Nastako aj platformy plné obsahu vytváraného používateľmi, ako je Reddit. (Automattic, vlastník WordPress.com a Tumblr, sa tiež hovorilo o licenčných rokovaniach začiatkom tohto roka.) Keďže podrobnosti o týchto obchodoch neboli odhalené, nie je jasné, aká je veľkosť ich príslušných korpusov.
Keď sa WIRED spýtal na veľkosť súborov údajov, ktoré bude zvažovať pre komerčné licencovanie, OpenAI odmietla zdieľať tieto informácie. Hovorkyňa Kayla Wood však zdôrazňuje, že partnerstvá spoločnosti s vydavateľmi sú „zamerané na zobrazovanie ich obsahu v našich produktoch a zvyšovanie návštevnosti“.