LAION, nemecká výskumná organizácia, ktorá vytvorila údaje používané na školenie Stabilná difúziaokrem iných generatívnych modelov AI, má prepustený nový súbor údajov, o ktorom tvrdí, že bol „dôkladne vyčistený od známych odkazov na materiál podozrivý zo sexuálneho zneužívania detí (CSAM).
Nový súbor údajov, Re-LAION-5B, je v skutočnosti opätovným vydaním starého súboru údajov LAION-5B – ale s „opravami“ implementovanými s odporúčaniami neziskovej nadácie Internet Watch Foundation, Kanadského centra pre ochranu detí a dnes už neexistujúce Stanfordské internetové observatórium. Je k dispozícii na stiahnutie v dvoch verziách, Re-LAION-5B Research a Re-LAION-5B Research-Safe, pričom obe boli filtrované kvôli tisíckam odkazov na známy – a podozrivý – CSAM, hovorí LAION.
Dôležité je poznamenať, že súbory údajov LAION neobsahujú – a nikdy neobsahovali – obrázky. Sú to skôr indexy odkazov na obrázky a alternatívny text obrázka, ktorý zoškrabáva.
Vydanie Re-LAION-5B prichádza po vyšetrovaní Stanfordského internetového observatória v decembri 2023, ktoré zistilo, že LAION-5B – konkrétne podskupina s názvom LAION-5B 400M – obsahuje najmenej 1 679 nelegálnych obrázkov zoškrabaných z príspevkov na sociálnych sieťach a populárnych dospelých. webové stránky. Podľa správy obsahovalo 400M aj „širokú škálu nevhodného obsahu vrátane pornografických snímok, rasistických nadávok a škodlivých spoločenských stereotypov“.
Zatiaľ čo Stanfordskí spoluautori správy poznamenali, že by bolo ťažké odstrániť urážlivý obsah a že prítomnosť CSAM nemusí nevyhnutne ovplyvniť výstup modelov vyškolených na súbore údajov, LAION uviedol, že dočasne odstráni súbory údajov. online.
Stanfordská správa odporučila, aby modely trénované na LAION-5B „byli zastarané a distribúcia by sa mala zastaviť tam, kde je to možné“. Možno to súvisí s AI startupom Runway nedávno odstránené jeho model Stable Diffusion 1.5 z modelovej hostiteľskej platformy Hugging Face; kontaktovali sme spoločnosť pre ďalšie informácie. (Runway v roku 2023 spolupracovala so Stability AI, spoločnosťou stojacou za Stable Diffusion, aby pomohla trénovať pôvodný model Stable Diffusion.)
Z nového súboru údajov Re-LAION-5B, ktorý obsahuje približne 5,5 miliardy párov text-obrázok a je vydaný pod licenciou Apache, LAION hovorí, že metadáta môžu byť použité tretími stranami na vyčistenie existujúcich kópií LAION-5B odstránením priraďovanie nelegálneho obsahu.
„Celkovo bolo odstránených 2 236 odkazov (na podozrenie na sexuálne zneužívanie detí) po zhode so zoznamom hash odkazov a obrázkov poskytnutých našimi partnermi,“ napísal LAION v blogovom príspevku. „Tieto odkazy zahŕňajú aj 1 008 odkazov nájdených v správe Stanfordského internetového observatória v decembri 2023.“