Údaje sú jadrom dnešných pokročilých systémov umelej inteligencie, no stoja stále viac a viac – čím sa stávajú nedostupnými pre všetky okrem najbohatších technologických spoločností.
Minulý rok James Betker, výskumník z OpenAI, napísal a uverejniť na svojom osobnom blogu o povahe generatívnych modelov AI a súboroch údajov, na ktorých sú trénované. Betker v ňom tvrdil, že tréningové dáta – nie dizajn modelu, architektúra alebo iná charakteristika – sú kľúčom k čoraz sofistikovanejším a schopnejším systémom AI.
„Trénovaný na rovnakom súbore údajov dostatočne dlho, takmer každý model konverguje k rovnakému bodu,“ napísal Betker.
Má Betker pravdu? Sú tréningové dáta tým najväčším determinantom toho, čo model dokáže, či už ide o zodpovedanie otázky, kreslenie ľudských rúk alebo vytváranie realistickej panorámy mesta?
Je to určite pravdepodobné.
Štatistické stroje
Generatívne systémy AI sú v podstate pravdepodobnostné modely – obrovská hromada štatistík. Na základe veľkého množstva príkladov odhadujú, ktoré údaje majú najväčší „zmysel“ umiestniť kam (napr. slovo „ísť“ pred „na trh“ vo vete „Idem na trh“). Zdá sa teda intuitívne, že čím viac príkladov má model pokračovať, tým lepší je výkon modelov trénovaných na týchto príkladoch.
„Zdá sa, že zvýšenie výkonu pochádza z údajov,“ povedal pre TechCrunch Kyle Lo, vedúci aplikovaný výskumný pracovník Allen Institute for AI (AI2), nezisková organizácia zaoberajúca sa výskumom AI, „aspoň keď budete mať stabilné nastavenie tréningu. .“
Lo uviedol príklad Meta’s Llama 3, model generujúci text vydaný začiatkom tohto roka, ktorý prekonáva vlastný model OLMo AI2 napriek tomu, že je architektonicky veľmi podobný. Lama 3 bola trénovaná na podstatne viac údajov ako OLMoo ktorom sa Lo domnieva, že vysvetľuje jeho prevahu v mnohých populárnych benchmarkoch AI.
(Tu poukážem na to, že benchmarky, ktoré sa dnes široko používajú v priemysle AI nie sú nevyhnutne najlepším meradlom výkonu modeluale mimo kvalitatívne testy, ako sú naše vlastnésú jedným z mála opatrení, ktoré musíme vykonať.)
To neznamená, že školenie na exponenciálne väčších súboroch údajov je spoľahlivá cesta k exponenciálne lepším modelom. Modely fungujú na základe paradigmy „odpadky dovnútra, odpadky“, Lo notes, a preto na úprave údajov a kvalite záleží veľa, možno viac ako na čistom kvantite.
„Je možné, že malý model so starostlivo navrhnutými údajmi prekoná veľký model,“ dodal. „Napríklad Falcon 180B, veľký model, je na 63. mieste v benchmarku LMSYS, zatiaľ čo Llama 2 13B, oveľa menší model, je na 56. mieste.“
V rozhovore pre TechCrunch v októbri minulého roka výskumník OpenAI Gabriel Goh povedal, že anotácie vyššej kvality výrazne prispeli k zlepšenej kvalite obrazu v OD-E 3model OpenAI pre prevod textu na obrázok, oproti svojmu predchodcovi OD-E 2. „Myslím si, že toto je hlavný zdroj zlepšení,“ povedal. „Textové anotácie sú oveľa lepšie ako boli (s DALL-E 2) – nie je to ani porovnateľné.“
Mnohé modely AI, vrátane DALL-E 3 a DALL-E 2, sú trénované tak, že ľudské anotátory označujú údaje, aby sa model mohol naučiť spájať tieto označenia s inými pozorovanými charakteristikami týchto údajov. Napríklad model, ktorý kŕmi množstvom obrázkov mačiek s anotáciami pre každé plemeno, sa nakoniec „naučí“ spájať pojmy ako bobtail a krátke vlasy s ich výraznými vizuálnymi črtami.
Zlé správanie
Odborníci ako Lo sa obávajú, že rastúci dôraz na veľké a vysokokvalitné tréningové dátové súbory centralizuje vývoj AI do niekoľkých hráčov s miliardovými rozpočtami, ktorí si môžu dovoliť získať tieto súbory. Hlavná inovácia v syntetické údaje alebo základná architektúra by mohla narušiť status quo, ale zdá sa, že ani jedna nie je na obzore.
„Celkovo sú subjekty, ktoré riadia obsah, ktorý je potenciálne užitočný pre vývoj AI, motivované k tomu, aby uzamkli svoje materiály,“ povedal Lo. „A keďže sa prístup k údajom zatvára, v podstate požehnávame niekoľko prvých krokov v získavaní údajov a posúvame sa po rebríčku, takže nikto iný nemôže získať prístup k údajom, aby to dohnal.“
V skutočnosti tam, kde preteky o nazbieranie ďalších tréningových údajov neviedli k neetickému (a možno dokonca nezákonnému) správaniu, ako je tajné zhromažďovanie obsahu chráneného autorskými právami, odmenili technologických gigantov hlbokými vreckami, ktoré môžu minúť na licencovanie údajov.
Generatívne modely AI, ako napríklad OpenAI, sú trénované väčšinou na obrázkoch, texte, zvuku, videách a iných údajoch – niektoré chránené autorskými právami – pochádzajúcich z verejných webových stránok (vrátane, problematicky, generované AI). Svetové OpenAI tvrdia, že fair use ich chráni pred právnou odvetou. Mnohí držitelia práv s tým nesúhlasia – ale aspoň zatiaľ nemôžu urobiť veľa, aby zabránili tejto praxi.
Existuje veľa, veľa príkladov generatívnych predajcov AI, ktorí získavajú masívne súbory údajov spornými prostriedkami, aby trénovali svoje modely. OpenAI údajne prepísala viac ako milión hodín videí YouTube bez požehnania služby YouTube – alebo požehnania tvorcov – aby naplnila svoj vlajkový model GPT-4. Spoločnosť Google nedávno čiastočne rozšírila svoje zmluvné podmienky, aby mohla využívať verejné dokumenty Google, recenzie reštaurácií v Mapách Google a ďalší online materiál pre svoje produkty AI. A Meta vraj zvažovala riskovať súdne spory trénovať svoje modely na obsah chránený IP.
Medzitým sa na to spoliehajú veľké aj malé spoločnosti pracovníci v krajinách tretieho sveta platili len niekoľko dolárov za hodinu vytvárať anotácie pre tréningové zostavy. Niektorí z týchto anotátorov — zamestnaných mamutie startupy ako Scale AI – pracujte doslova dni na konci, aby ste dokončili úlohy, ktoré ich vystavia grafickému zobrazeniu násilia a krviprelievania bez akýchkoľvek výhod alebo záruk budúcich koncertov.
Rastúce náklady
Inými slovami, ani nadštandardnejšie ponuky údajov nepodporujú otvorený a spravodlivý generatívny ekosystém AI.
OpenAI minula stovky miliónov dolárov na licencovanie obsahu od vydavateľov správ, knižníc médií a ďalších na trénovanie svojich modelov AI – rozpočet ďaleko presahujúci rozpočet väčšiny akademických výskumných skupín, neziskových organizácií a startupov. Meta zašla tak ďaleko, že zvážila získanie vydavateľstva Simon & Schuster za práva na úryvky z elektronických kníh (Simon & Schuster napokon v roku 2023 predal súkromnej investičnej spoločnosti KKR za 1,62 miliardy dolárov).
Očakáva sa, že trh s údajmi o výcviku AI rásť, pestovať zo súčasných zhruba 2,5 miliardy USD na takmer 30 miliárd USD za desaťročie, dátoví makléri a platformy sa ponáhľajú účtovať najvyššie doláre – v niektorých prípadoch kvôli námietkam ich užívateľských základní.
Knižnica akciových médií Shutterstock má napustené atramentom obchoduje s predajcami AI v rozmedzí od 25 miliónov do 50 miliónov dolárov, zatiaľ čo Reddit nároky zarobil stovky miliónov na licencovaní údajov organizáciám ako Google a OpenAI. Niekoľko platforiem s množstvom údajov sa v priebehu rokov organicky nahromadilo nie Zdá sa, že podpísali dohody s generatívnymi vývojármi AI – od Photobucketu po Tumblr až po Stránka otázok a odpovedí Stack Overflow.
Ide o údaje platforiem na predaj – aspoň v závislosti od toho, ktorým právnym argumentom veríte. Vo väčšine prípadov však používatelia nevidia ani cent zo zisku. A poškodzuje širšiu výskumnú komunitu AI.
„Menší hráči si nebudú môcť dovoliť tieto dátové licencie, a preto nebudú môcť vyvíjať ani študovať modely AI,“ povedal Lo. „Obávam sa, že by to mohlo viesť k nedostatočnej nezávislej kontrole postupov vývoja AI.“
Nezávislé úsilie
Ak cez šero presvitá slnečný lúč, je to niekoľko nezávislých, neziskových snáh o vytvorenie masívnych súborov údajov, ktoré môže ktokoľvek použiť na trénovanie generatívneho modelu AI.
EleutherAI, ľudová nezisková výskumná skupina, ktorá začala v roku 2020 ako voľne zviazaný kolektív Discord, spolupracuje s Torontskou univerzitou, AI2 a nezávislými výskumníkmi na vytvorení The Pile v2, súboru miliárd textových pasáží primárne pochádzajúcich z verejnej domény. .
V apríli vydal startup Hugging Face s umelou inteligenciou FineWeb, filtrovanú verziu Common Crawl – rovnomenného súboru údajov spravovaného neziskovou organizáciou Common Crawl, ktorý pozostáva z miliárd a miliárd webových stránok – o ktorom Hugging Face tvrdí, že zlepšuje výkon modelu v mnohých benchmarkoch.
Niekoľko snáh o uvoľnenie otvorených tréningových súborov údajov, ako sú súbory obrázkov skupiny LAION, narazilo na autorské práva, súkromie údajov a iné, rovnako závažné etické a právne výzvy. Niektorí špecializovanejší kurátori údajov sa však zaviazali, že to urobia lepšie. The Pile v2 napríklad odstraňuje problematický materiál chránený autorskými právami, ktorý sa nachádza v jeho progenitorovom súbore údajov The Pile.
Otázkou je, či niektoré z týchto otvorených snáh môže dúfať, že udrží krok s Big Tech. Pokiaľ zhromažďovanie údajov a ich spravovanie zostáva otázkou zdrojov, odpoveď je pravdepodobne nie – aspoň nie dovtedy, kým nejaký prelomový výskum nevyrovná podmienky.