Home Umela inteligencia Spawning chce vytvoriť etickejšie súbory tréningových dát AI

Spawning chce vytvoriť etickejšie súbory tréningových dát AI

by
An illustration of stacks of filing cabinets

Založili Jordan Meyer a Mathew Dryhurst Vytváranie AI vytvárať nástroje, ktoré umelcom pomáhajú lepšie kontrolovať, ako sa ich diela používajú online. Ich najnovší projekt, tzv Zdroj.Plusje určená na výber médií „neporušujúcich autorské práva“ na školenie modelov AI.

Prvou iniciatívou projektu Source.Plus je súbor údajov s takmer 40 miliónmi voľných obrázkov a obrázkov pod Licencia Creative Commons CC0, ktorý umožňuje tvorcom vzdať sa takmer akéhokoľvek právneho záujmu o svoje diela. Meyer tvrdí, že napriek tomu, že je podstatne menší ako niektoré ďalšie súbory generatívnych tréningových dát AI Vonku je súbor údajov Source.Plus už dostatočne „vysoký“ na to, aby trénoval najmodernejší model na vytváranie obrázkov.

„So Source.Plus budujeme univerzálnu platformu s možnosťou voľby,“ povedal Meyer. „Naším cieľom je uľahčiť držiteľom práv ponúkať svoje médiá na použitie pri generatívnom školení AI – podľa ich vlastných podmienok – a bez problémov vývojárom začleniť tieto médiá do svojich tréningových pracovných postupov.“

Správa práv

Debata o etike tréningu generatívnych modelov AI, najmä modelov generujúcich umenie Stabilná difúzia a OpenAI OD-E 3pokračuje v nezmenšenej miere – a má obrovské dôsledky pre umelcov, avšak prach sa nakoniec usadí.

Generatívne modely AI sa „učia“ vytvárať svoje výstupy, napríklad fotorealistické umenie, trénovaním na obrovskom množstve relevantných údajov – v tomto prípade obrázkov. Niektorí vývojári týchto modelov tvrdia, že fair use ich oprávňuje na zoškrabovanie údajov z verejných zdrojov bez ohľadu na stav autorských práv k týmto údajom. Iní sa pokúšali pokročiť, kompenzovať alebo aspoň pripisovať vlastníkom obsahu zásluhy za ich príspevky k tréningovým súborom.

Meyer, generálny riaditeľ spoločnosti Spawning, je presvedčený, že zatiaľ sa nikto nerozhodol pre najlepší prístup.

„Tréning AI často predvolene používa najjednoduchšie dostupné údaje – ktoré neboli vždy najférovejšie alebo najzodpovednejšie získavané,“ povedal v rozhovore pre TechCrunch. „Umelci a držitelia práv mali malú kontrolu nad tým, ako sa ich údaje používajú na školenia AI, a vývojári nemali k dispozícii vysokokvalitné alternatívy, ktoré by uľahčovali rešpektovanie práv na údaje.“

Source.Plus, ktorý je k dispozícii v obmedzenej beta verzii, stavia na existujúcich nástrojoch spoločnosti Spawning pre pôvod umenia a správu práv na používanie.

V roku 2022 vytvoril Spawning HaveIbeen Trained, web, ktorý umožňuje tvorcom odhlásiť sa z tréningových dátových súborov používaných dodávateľmi, ktorí sú partnermi s Spawning, vrátane Hugging Face a Stability AI. Po získaní rizikového kapitálu vo výške 3 miliónov dolárov od investorov vrátane True Ventures a Seed Club Ventures spoločnosť Spawning spustila ai.text, spôsob, akým môžu webové stránky „nastaviť povolenia“ pre AI, a systém – Kudurru – na obranu proti robotom zoškrabávajúcim údaje.

Source.Plus je prvým pokusom spoločnosti Spawning vybudovať knižnicu médií – a túto knižnicu spravovať interne. Počiatočný súbor obrazových údajov, PD/CC0, možno použiť na komerčné alebo výskumné aplikácie, hovorí Meyer.

Knižnica Source.Plus.
Poďakovanie za obrázky: Neresenie

„Source.Plus nie je len úložisko pre tréningové dáta; je to platforma obohacovania s nástrojmi na podporu tréningového potrubia,“ pokračoval. „Naším cieľom je mať v priebehu roka k dispozícii vysokokvalitný súbor údajov CC0, ktorý neporušuje autorské práva, schopný podporovať výkonný základný model AI.“

Organizácie vrátane Getty Images, Adobe, Shutterstock a AI startup Bria tvrdia, že na tréning modelov používajú iba poctivo získané údaje. (Getty ide až tak ďaleko, že svoje generatívne produkty AI nazýva „komerčne bezpečné.“) Meyer však hovorí, že cieľom Spawningu je nastaviť „vyššiu latku“ pre to, čo znamená spravodlivé získavanie údajov.

Source.Plus filtruje obrázky na účely „opt-out“ a iných preferencií školenia umelcov a zobrazuje informácie o pôvode o tom, ako a odkiaľ boli obrázky získané. Nezahŕňa ani obrázky, ktoré nie sú licencované podľa CC0, vrátane obrázkov s a Licencia Creative Commons BY 1.0, ktoré vyžadujú uvedenie zdroja. A Spawning hovorí, že monitoruje problémy s autorskými právami zo zdrojov, kde je niekto iný ako tvorcovia zodpovedný za označenie stavu autorských práv k dielu, ako napríklad Wikimedia Commons.

„Dôkladne sme overili nahlásené licencie obrázkov, ktoré sme zhromaždili, a všetky pochybné licencie sme vylúčili – krok, ktorý mnohé „spravodlivé“ súbory údajov nerobia,“ povedal Meyer.

Historicky problematické obrázky – vrátane násilných a pornografických, citlivých osobných obrázkov – sužovali otvorené aj komerčné súbory tréningových údajov.

Správcovia súboru údajov LAION boli nútení stiahnuť jednu knižnicu do režimu offline po odhalení správ zdravotné záznamy a vyobrazenia sexuálneho zneužívania detí; práve tento týždeň, a štúdium z Human Rights Watch zistili, že jeden z úložísk LAION obsahoval tváre brazílskych detí bez súhlasu alebo vedomia týchto detí. Inde bola knižnica akciových médií Adobe, Adobe Stock, ktorú spoločnosť používa na trénovanie svojich generatívnych modelov AI vrátane modelu Firefly Image, ktorý vytvára umenie. zistilo sa, že obsahuje obrázky generované AI od súperov vrátane Midjourney.

Spawning Source.Plus
Umelecké dielo v galérii Source.Plus.
Poďakovanie za obrázky: Neresenie

Riešením Spawningu sú modely klasifikátorov trénované na detekciu nahoty, krviprelievania, osobne identifikovateľných informácií a iných nežiaducich častí v obrázkoch. Uznávajúc, že ​​žiadny klasifikátor nie je dokonalý, plánuje Spawning umožniť používateľom „flexibilne“ filtrovať súbor údajov Source.Plus úpravou prahov detekcie klasifikátorov, hovorí Meyer.

„Zamestnávame moderátorov na overenie vlastníctva údajov,“ dodal Meyer. „Máme zabudované aj funkcie nápravy, v ktorých môžu používatelia označiť diela, ktoré porušujú autorské práva alebo môžu porušovať autorské práva, a možno skontrolovať, ako boli tieto údaje spotrebované.“

Odškodnenie

Väčšina programov na kompenzáciu tvorcov za ich generatívne príspevky na tréning AI nešli výnimočne dobre. Niektoré programy sa pri výpočte výplat autorov spoliehajú na nepriehľadné metriky, zatiaľ čo iné vyplácajú sumy, ktoré umelci považujú za neprimerane nízke.

Vezmite si napríklad Shutterstock. Knižnica zásob médií, ktorá uzavrela dohody s dodávateľmi AI v desiatkach miliónov dolárov, platí do „fondu prispievateľov“ za umelecké diela, ktoré používa na školenie svojich generatívnych modelov AI alebo licencií pre vývojárov tretích strán. Shutterstock však nie je transparentný v tom, čo môžu umelci očakávať, že zarobia, ani neumožňuje umelcom stanoviť si vlastné ceny a podmienky; odhad jednej tretej strany odhaduje zárobok na 15 dolárov za 2 000 obrázkov, čo nie je práve ohromujúca suma.

Keď Source.Plus koncom tohto roka ukončí beta verziu a rozšíri sa na súbory údajov nad rámec PD/CC0, bude to mať iný prístup ako iné platformy, čo umožní umelcom a držiteľom práv nastaviť si vlastné ceny za stiahnutie. Spawning si bude účtovať poplatok, ale iba paušálnu sadzbu – „desatinu penny,“ hovorí Meyer.

Zákazníci sa tiež môžu rozhodnúť platiť Spawning 10 dolárov mesačne – plus typický poplatok za stiahnutie každého obrázka – za Source.Plus Curation, plán predplatného, ​​ktorý im umožňuje súkromne spravovať zbierky obrázkov, sťahovať dáta až 10 000-krát za mesiac a získať prístup k novým funkciám, ako sú „prémiové“ zbierky a obohacovanie údajov, čo najskôr.

Spawning Source.Plus
Poďakovanie za obrázky: Neresenie

„Poskytneme usmernenia a odporúčania založené na súčasných priemyselných štandardoch a interných metrikách, ale v konečnom dôsledku prispievatelia do súboru údajov určia, čo pre nich stojí za to,“ povedal Meyer. „Tento cenový model sme zvolili zámerne, aby sme umelcom poskytli leví podiel na príjmoch a umožnili im stanoviť si vlastné podmienky účasti. Veríme, že toto rozdelenie príjmov je pre umelcov výrazne priaznivejšie ako bežnejšie percentuálne rozdelenie príjmov a povedie k vyšším výplatám a väčšej transparentnosti.“

Ak by Source.Plus získal trakciu, v ktorú Spawning dúfa, že to urobí, Spawning má v úmysle rozšíriť ju mimo obrázkov aj na iné typy médií, vrátane zvuku a videa. Spawning je v diskusiách s nemenovanými firmami o sprístupnení ich údajov na Source.Plus. A Meyer hovorí, že Spawning môže vytvoriť svoje vlastné generatívne modely AI pomocou údajov zo súborov údajov Source.Plus.

„Dúfame, že držitelia práv, ktorí sa chcú podieľať na generatívnej ekonomike AI, budú mať príležitosť tak urobiť a dostanú spravodlivú kompenzáciu,“ povedal Meyer. „Dúfame tiež, že umelci a vývojári, ktorí sa cítili konfliktne ohľadom zapojenia sa do AI, budú mať príležitosť urobiť to spôsobom, ktorý bude rešpektovať ostatných kreatívcov.“

Iste, Spawning tu má miesto, kde sa dá nájsť. Source.Plus sa javí ako jeden zo sľubnejších pokusov zapojiť umelcov do procesu generatívneho vývoja AI – a nechať ich podieľať sa na zisku zo svojej práce.

Ako nedávno napísala moja kolegyňa Amanda, vznik aplikácií, ako je komunita hostenia umenia Cara, ktorá zaznamenala prudký nárast po tom, čo Meta oznámila, že by mohla trénovať svoju generatívnu AI na obsahu z Instagramu, vrátane obsahu pre umelcov, ukazuje, že kreatívna komunita dosiahla bod zlomu. Zúfalo hľadajú alternatívy k spoločnostiam a platformám, ktoré vnímajú ako zlodejov – a Source.Plus môže byť jednoducho životaschopná.

Ale ak Spawning vždy koná v najlepšom záujme umelcov (veľké, ak vezmeme do úvahy, že Spawning je biznis podporovaný VC), zaujímalo by ma, či sa Source.Plus dokáže zväčšiť tak úspešne, ako si Meyer predstavuje. Ak nás sociálne médiá niečo naučili, je to to, že moderovanie – najmä miliónov kusov obsahu vytvoreného používateľmi – je neriešiteľný problém.

Čoskoro to zistíme.

Source Link

Related Posts

Leave a Comment