Dánske médiá požadovali, aby neziskový webový archív Common Crawl odstránil kópie ich článkov z minulých súborov údajov a okamžite zastavil prehľadávanie ich webových stránok. Táto žiadosť bola vydaná v čase rastúceho rozhorčenia nad tým, ako spoločnosti s umelou inteligenciou, ako je OpenAI, používajú materiály chránené autorskými právami.
Common Crawl plánuje vyhovieť žiadosti, ktorá bola prvýkrát vydaná v pondelok. Výkonný riaditeľ Rich Skrenta hovorí, že organizácia „nie je vybavená“ na boj proti mediálnym spoločnostiam a vydavateľom na súde.
Na čele kampane stála Danish Rights Alliance (DRA), združenie zastupujúce držiteľov autorských práv v Dánsku. Žiadosť predložila v mene štyroch médií vrátane Berlingske Media a denníka Jyllands-Posten. The New York Times podal podobnú žiadosť z Common Crawl v minulom roku, pred podaním žaloby na OpenAI za používanie jeho diela bez povolenia. V jeho sťažnosťNew York Times zdôraznil, že údaje Common Crawl boli najviac „vysoko váženým súborom údajov“ v GPT-3.
Thomas Heldrup, vedúci ochrany a presadzovania obsahu DRA, hovorí, že toto nové úsilie bolo inšpirované denníkom Times. „Common Crawl je jedinečný v tom zmysle, že vidíme toľko veľkých spoločností s umelou inteligenciou, ktoré využívajú ich údaje,“ hovorí Heldrup. Jeho korpus považuje za hrozbu pre mediálne spoločnosti, ktoré sa pokúšajú vyjednávať s titánmi AI.
Hoci Common Crawl bolo nevyhnutné pre vývoj mnohých textových generatívnych nástrojov AI, nebolo navrhnuté s ohľadom na AI. Organizácia so sídlom v San Franciscu, založená v roku 2007, bola pred rozmachom AI najznámejšia pre svoju hodnotu ako výskumný nástroj. „Common Crawl je zachytený v konflikte o autorských právach a generatívnej AI,“ hovorí Stefan Baack, dátový analytik z Mozilla Foundation, ktorý nedávno zverejnil správa o úlohe Common Crawl vo výcviku AI. „Po mnoho rokov to bol malý špecializovaný projekt, o ktorom takmer nikto nevedel.“
Pred rokom 2023 spoločnosť Common Crawl nedostala ani jednu žiadosť o úpravu údajov. Teraz, okrem žiadostí od New York Times a tejto skupiny dánskych vydavateľov, prináša aj nárast žiadostí, ktoré neboli zverejnené.
Okrem tohto prudkého nárastu požiadaviek na úpravu údajov je webový prehľadávač CCBot spoločnosti Common Crawl čoraz viac zmarený od hromadenia nových údajov od vydavateľov. Tvrdí to startup na detekciu AI Originality AI, ktorý často sleduje používanie webových prehľadávačov, viac ako 44 percent popredných svetových spravodajských a mediálnych stránok blokuje CCBot. Okrem Buzzfeedu, ktorý ho začal blokovať v roku 2018, väčšina prominentných predajní, ktoré analyzovala – vrátane Reuters, The Washington Post a CBC – odmietla prehľadávač iba v minulom roku. „Sú blokovaní stále viac a viac,“ hovorí Baack.
Rýchly súlad Common Crawl s týmto druhom žiadosti je poháňaný skutočnosťou, že malá nezisková organizácia sa drží nad vodou. Dodržiavanie sa však nerovná ideologickej dohode. Skrenta vidí tento tlak na odstránenie archívnych materiálov z dátových úložísk, ako je Common Crawl, ako nič iné ako urážku internetu, ako ho poznáme. „Je to existenčná hrozba,“ hovorí. „Zabijú otvorenú sieť.“