Cloudflare, verejne obchodovateľný poskytovateľ cloudových služieb, spustil nový bezplatný nástroj, ktorý má zabrániť botom zoškrabovať webové stránky hosťované na jeho platforme pre údaje na trénovanie modelov AI.
Niektorí predajcovia umelej inteligencie, vrátane Google, OpenAI a Apple, umožňujú vlastníkom webových stránok blokovať robotov, ktoré používajú na zoškrabovanie údajov a trénovanie modelov, úpravou súboru robots.txt na svojom webe, čo je textový súbor, ktorý robotom oznamuje, ku ktorým stránkam na webe majú prístup. Ako však poukazuje Cloudflare v a príspevok oznamujúc svoj nástroj na boj proti botom, nie všetky AI škrabky to rešpektujú.
„Zákazníci nechcú, aby ich webové stránky navštevovali roboty AI, a najmä tie, ktoré to robia nečestne,“ píše spoločnosť na svojom oficiálnom blogu. „Obávame sa, že niektoré spoločnosti s umelou inteligenciou, ktoré majú v úmysle obchádzať pravidlá prístupu k obsahu, sa budú neustále prispôsobovať, aby sa vyhli detekcii botov.“
V snahe vyriešiť problém Cloudflare analyzoval návštevnosť robotov AI a prehľadávačov, aby doladil modely automatickej detekcie robotov. Modely okrem iných faktorov zvažujú, či sa robot AI môže pokúšať vyhnúť detekcii napodobňovaním vzhľadu a správania niekoho, kto používa webový prehliadač.
„Keď sa zlí herci pokúšajú prehľadávať webové stránky vo veľkom rozsahu, zvyčajne používajú nástroje a rámce, ktoré dokážeme zachytiť,“ píše Cloudflare. „Na základe týchto signálov naše modely (sú) schopné vhodne označiť návštevnosť vyhýbajúcich sa robotov AI ako robotov.“
Cloudflare vytvorila formulár pre hostiteľov na hlásenie podozrivých robotov AI a prehľadávačov a tvrdí, že časom bude aj naďalej manuálne dávať roboty AI na čiernu listinu.
Problém robotov AI sa výrazne uvoľnil, pretože generatívny boom AI podnecuje dopyt po modelových tréningových údajoch.
Mnohé stránky, ktoré sa obávajú, že predajcovia AI trénujú modely o svojom obsahu bez toho, aby ich upozornili alebo kompenzovali, sa rozhodli blokovať škrabky a prehľadávače AI. Približne 26 % z 1 000 najlepších stránok na webe zablokovalo robota OpenAI, podľa jedného štúdium; ďalší zistili, že viac ako 600 vydavateľov správ zablokovalo robota.
Blokovanie však nie je spoľahlivá ochrana. Ako už bolo spomenuté, zdá sa, že niektorí predajcovia ignorujú štandardné pravidlá vylúčenia robotov, aby získali konkurenčnú výhodu v pretekoch AI. Nedávno bol obvinený AI vyhľadávač Perplexity vydávania sa za legitímnych návštevníkov s cieľom zoškrabať obsah z webových stránok, pričom OpenAI a Anthropic to niekedy majú ignoroval pravidlá súboru robots.txt.
V list vydavateľom minulý mesiacstartup TollBit s licencovaním obsahu uviedol, že v skutočnosti vidí, že „veľa agentov AI“ ignoruje štandard robots.txt.
Pomôcť by mohli nástroje ako Cloudflare, ale iba ak sa ukážu ako presné pri odhaľovaní tajných robotov AI. A oni nebude vyriešiť zložitejší problém vlastníkov, ktorí riskujú obetovanie návštevnosti sprostredkovania z nástrojov AI, ako sú prehľady AI od Googlu, ktoré vylučujú stránky zo zahrnutia, ak blokujú konkrétne prehľadávače AI.