Home Umela inteligencia Organizácia za súborom údajov používaných na školenie Stable Diffusion tvrdí, že odstránila CSAM

Organizácia za súborom údajov používaných na školenie Stable Diffusion tvrdí, že odstránila CSAM

by
The org behind the data set used to train Stable Diffusion claims it has removed CSAM

LAION, nemecká výskumná organizácia, ktorá vytvorila údaje používané na školenie Stabilná difúziaokrem iných generatívnych modelov AI, má prepustený nový súbor údajov, o ktorom tvrdí, že bol „dôkladne vyčistený od známych odkazov na materiál podozrivý zo sexuálneho zneužívania detí (CSAM).

Nový súbor údajov, Re-LAION-5B, je v skutočnosti opätovným vydaním starého súboru údajov LAION-5B – ale s „opravami“ implementovanými s odporúčaniami neziskovej nadácie Internet Watch Foundation, Kanadského centra pre ochranu detí a dnes už neexistujúce Stanfordské internetové observatórium. Je k dispozícii na stiahnutie v dvoch verziách, Re-LAION-5B Research a Re-LAION-5B Research-Safe, pričom obe boli filtrované kvôli tisíckam odkazov na známy – a podozrivý – CSAM, hovorí LAION.

Dôležité je poznamenať, že súbory údajov LAION neobsahujú – a nikdy neobsahovali – obrázky. Sú to skôr indexy odkazov na obrázky a alternatívny text obrázka, ktorý zoškrabáva.

Vydanie Re-LAION-5B prichádza po vyšetrovaní Stanfordského internetového observatória v decembri 2023, ktoré zistilo, že LAION-5B – konkrétne podskupina s názvom LAION-5B 400M – obsahuje najmenej 1 679 nelegálnych obrázkov zoškrabaných z príspevkov na sociálnych sieťach a populárnych dospelých. webové stránky. Podľa správy obsahovalo 400M aj „širokú škálu nevhodného obsahu vrátane pornografických snímok, rasistických nadávok a škodlivých spoločenských stereotypov“.

Zatiaľ čo Stanfordskí spoluautori správy poznamenali, že by bolo ťažké odstrániť urážlivý obsah a že prítomnosť CSAM nemusí nevyhnutne ovplyvniť výstup modelov vyškolených na súbore údajov, LAION uviedol, že dočasne odstráni súbory údajov. online.

Stanfordská správa odporučila, aby modely trénované na LAION-5B „byli zastarané a distribúcia by sa mala zastaviť tam, kde je to možné“. Možno to súvisí s AI startupom Runway nedávno odstránené jeho model Stable Diffusion 1.5 z modelovej hostiteľskej platformy Hugging Face; kontaktovali sme spoločnosť pre ďalšie informácie. (Runway v roku 2023 spolupracovala so Stability AI, spoločnosťou stojacou za Stable Diffusion, aby pomohla trénovať pôvodný model Stable Diffusion.)

Z nového súboru údajov Re-LAION-5B, ktorý obsahuje približne 5,5 miliardy párov text-obrázok a je vydaný pod licenciou Apache, LAION hovorí, že metadáta môžu byť použité tretími stranami na vyčistenie existujúcich kópií LAION-5B odstránením priraďovanie nelegálneho obsahu.

„Celkovo bolo odstránených 2 236 odkazov (na podozrenie na sexuálne zneužívanie detí) po zhode so zoznamom hash odkazov a obrázkov poskytnutých našimi partnermi,“ napísal LAION v blogovom príspevku. „Tieto odkazy zahŕňajú aj 1 008 odkazov nájdených v správe Stanfordského internetového observatória v decembri 2023.“

Source Link

Related Posts

Leave a Comment