Laboratóriá AI, ktoré cestujú k superinteligentným systémom, si uvedomujú, že možno budú musieť ísť obchádzkou.
„Zákony škálovania AI“, metódy a očakávania, ktoré laboratóriá používali na zvýšenie schopností svojich modelov za posledných päť rokov, teraz podľa niekoľkých investorov, zakladateľov a generálnych riaditeľov AI, ktorí hovorili s TechCrunch, vykazujú známky klesajúcich výnosov. Ich pocity sa ozývajú nedávne správy ktoré naznačujú, že modely v popredných laboratóriách AI sa zlepšujú pomalšie ako predtým.
Zdá sa, že teraz všetci pripúšťajú, že nemôžete použiť viac výpočtov a viac údajov pri predtrénovaní veľkých jazykových modelov a očakávať, že sa z nich zmenia na nejaký druh vševediaceho digitálneho boha. Možno to znie ako samozrejmosť, ale tieto zákony o škálovaní boli kľúčovým faktorom pri vývoji ChatGPT, ktorý ho vylepšoval a pravdepodobne ovplyvnil mnohých generálnych riaditeľov, aby odvážne predpovede o AGI, ktoré prídu už o pár rokov.
Spoluzakladateľ OpenAI a Safe Super Intelligence Ilya Sutskever minulý týždeň povedal agentúre Reuters, že „každý hľadá ďalšiu vec” na škálovanie ich modelov AI. Začiatkom tohto mesiaca spoluzakladateľ a16z Marc Andreessen v podcaste uviedol, že modely AI sa v súčasnosti zbližujú rovnaký strop schopností.
Ale teraz, takmer okamžite po tom, čo sa tieto súvisiace trendy začali objavovať, generálni riaditelia, výskumníci a investori AI už vyhlasujú, že sme v novej ére zákonov o škálovaní. „Test-time compute“, ktoré dáva modelom AI viac času a výpočtov na „premýšľanie“ pred zodpovedaním otázky, je obzvlášť sľubným kandidátom na to, aby sa stala ďalšou veľkou vecou.
„Sme svedkami vzniku nového zákona o škálovaní,“ povedal generálny riaditeľ Microsoftu Satya Nadella na pódiu v Microsoft Ignite v utorok, s odvolaním sa na skúšobný výpočtový výskum, ktorý je základom Model OpenAI o1.
Nie je jediný, kto teraz ukazuje na o1 ako na budúcnosť.
„Teraz sa nachádzame v druhej ére škálovacích zákonov, čo je škálovanie v skúšobnej dobe,“ povedala partnerka Andreessen Horowitz Anjney Midha, ktorá tiež sedí v predstavenstve spoločnosti Mistral a bola anjelským investorom v Anthropic, v nedávnom rozhovore pre TechCrunch. .
Ak nám nečakaný úspech – a teraz náhle spomalenie – predchádzajúcich zákonov o škálovaní AI niečo hovorí, je to, že je veľmi ťažké predpovedať, ako a kedy sa modely AI zlepšia.
Bez ohľadu na to sa zdá, že prebieha zmena paradigmy: spôsoby, akými sa laboratóriá AI pokúšajú posunúť svoje modely na ďalších päť rokov, sa pravdepodobne nebudú podobať na posledných päť.
Aké sú zákony škálovania AI?
Rýchle vylepšenia modelu AI, ktoré OpenAI, Google, Meta a Anthropic dosiahli od roku 2020, možno z veľkej časti pripísať jednému kľúčovému poznatku: používať viac výpočtov a viac údajov počas prípravnej fázy modelu AI.
Keď výskumníci poskytujú systémom strojového učenia bohaté zdroje počas tejto fázy – v ktorej AI identifikuje a ukladá vzory vo veľkých súboroch údajov – modely majú tendenciu dosahovať lepšie výsledky pri predpovedaní ďalšieho slova alebo frázy.
Táto prvá generácia zákonov na škálovanie AI posunula hranice toho, čo počítače dokážu, pretože inžinieri zvýšili počet použitých GPU a množstvo údajov, ktoré boli napájané. Aj keď táto konkrétna metóda prebehla, mapu už prekreslila. Každá veľká technologická spoločnosť sa v podstate naplno venovala AI, zatiaľ čo Nvidia, ktorá dodáva GPU všetkým týmto spoločnostiam, na ktorých trénujú svoje modely, je teraz najhodnotnejšia verejne obchodovaná spoločnosť na svete.
Tieto investície sa však uskutočnili aj s očakávaním, že škálovanie bude pokračovať podľa očakávania.
Je dôležité si uvedomiť, že zákony o mierke nie sú zákony prírody, fyziky, matematiky alebo vlády. Nič ani nikto im nezaručuje, že budú pokračovať rovnakým tempom. Dokonca aj Moorov zákon, ďalší slávny zákon o škálovaní, nakoniec zanikol – aj keď mal určite dlhší priebeh.
„Ak vložíte viac výpočtov, vložíte viac údajov, model zväčšíte – výnosy sa znižujú,“ povedal spoluzakladateľ a bývalý generálny riaditeľ Anyscale Robert Nishihara v rozhovore pre TechCrunch. „Aby sme udržali zákony o škálovaní v chode, aby sa tempo pokroku neustále zvyšovalo, potrebujeme aj nové nápady.“
Nishihara dobre pozná zákony škálovania AI. Spoločnosť Anyscale dosiahla miliardové zhodnotenie vývojom softvéru, ktorý pomáha OpenAI a ďalším vývojárom modelov AI prispôsobovať ich tréningovú záťaž AI na desiatky tisíc GPU. Spoločnosť Anyscale bola jedným z najväčších príjemcov predbežného školenia zákonov o škálovaní okolo výpočtovej techniky, ale aj jej spoluzakladateľ si uvedomuje, že sezóna sa mení.
„Keď ste si prečítali milión recenzií na Yelpe, možno vám ďalšie recenzie na Yelpe toľko nedajú,“ povedal Nishihara s odkazom na obmedzenia škálovania údajov. „Ale to je predtréning.“ Metodológia okolo post-tréningu, povedal by som, je dosť nezrelá a má ešte veľa priestoru na zlepšenie.“
Aby bolo jasné, vývojári modelov AI budú pravdepodobne pokračovať v prenasledovaní väčších výpočtových klastrov a väčších množín údajov na predbežné školenie a pravdepodobne je potrebné z týchto metód vyťažiť viac. Elon Musk nedávno dokončil stavbu a superpočítač so 100 000 GPU s názvom Colossus, trénovať ďalšie modely xAI. Pribudnú ďalšie a väčšie zoskupenia.
Trendy však naznačujú, že exponenciálny rast nie je možný jednoduchým použitím viacerých GPU s existujúcimi stratégiami, takže nové metódy zrazu získavajú viac pozornosti.
Testovací výpočet: ďalšia veľká stávka odvetvia AI
Keď OpenAI vydala ukážku svojho modelu o1, startup oznámil, že je súčasťou nová séria modelov oddelené od GPT.
OpenAI zlepšila svoje modely GPT do značnej miery prostredníctvom tradičných zákonov o škálovaní: viac údajov, viac energie počas predtrénovania. Ale teraz ich táto metóda údajne príliš nezískava. Rámec modelov o1 sa spolieha na nový koncept, test-time compute, ktorý sa nazýva preto, že výpočtové zdroje sa používajú po výzve, nie predtým. Táto technika ešte nebola príliš preskúmaná v kontexte neurónových sietí, ale už je sľubná.
Niektorí už poukazujú na test v čase testu ako na ďalšiu metódu škálovania systémov AI.
„Niekoľko experimentov ukazuje, že aj keď sa zákony škálovania pred tréningom môžu spomaľovať, zákony škálovania v testovacom čase – kde dáte modelu viac výpočtov na základe záverov – môžu zvýšiť výkon,“ povedal Midha z a16z.
„Nová séria „o“ od OpenAI posúva (reťazec myslenia) ďalej a vyžaduje si na to oveľa viac výpočtových zdrojov, a teda aj energie,“ povedal známy výskumník AI Yoshua Benjio. op-ed v utorok. „Takže vidíme, ako sa objavuje nová forma výpočtového škálovania. Nielen viac tréningových dát a väčšie modely, ale aj viac času stráveného „premýšľaním“ o odpovediach.“
V priebehu 10 až 30 sekúnd sa model OpenAI o1 niekoľkokrát znovu zobrazí, čím sa veľký problém rozloží na sériu menších. Napriek tomu, že ChatGPT hovorí, že je to „myslenie“, nerobí to, čo robia ľudia – hoci naše interné metódy riešenia problémov, ktoré ťažia z jasného preformulovania problému a postupných riešení, boli kľúčovou inšpiráciou pre túto metódu.
Asi desať rokov dozadu sa Noam Brown, ktorý teraz vedie prácu OpenAI na o1, pokúšal vybudovať systémy AI, ktoré by mohli poraziť ľudí v pokri. Počas a nedávna diskusiaBrown hovorí, že si v tom čase všimol, ako ľudskí hráči pokru venovali čas zvažovaniu rôznych scenárov predtým, ako zahrali hru. V roku 2017 zaviedol metódu nechať model „premýšľať“ 30 sekúnd pred hraním. V tom čase hrala AI rôzne podhry a zisťovala, ako sa budú hrať rôzne scenáre, aby určila najlepší ťah.
Nakoniec AI fungovala sedemkrát lepšie ako jeho predchádzajúce pokusy.
Je pravda, že Brownov výskum v roku 2017 nepoužíval neurónové siete, ktoré v tom čase neboli také populárne. Výskumníci z MIT však minulý týždeň vydali dokument, ktorý to ukazuje Test-time computing výrazne zlepšuje výkon modelu AI o úlohách zdôvodňovania.
Nie je okamžite jasné, ako by sa škáloval výpočet v testovacej dobe. Mohlo by to znamenať, že systémy umelej inteligencie potrebujú naozaj dlhý čas na premýšľanie nad zložitými otázkami; možno hodiny alebo dokonca dni. Ďalším prístupom by mohlo byť nechať model AI „premýšľať“ cez otázky na mnohých čipoch súčasne.
Ak sa testovacie výpočty presadia ako ďalšie miesto na škálovanie systémov AI, Midha hovorí, že dopyt po čipoch AI, ktoré sa špecializujú na vysokorýchlostné odvodzovanie, by mohol dramaticky vzrásť. To by mohla byť dobrá správa pre startupy ako Groq alebo Cerebras, ktoré sa špecializujú na rýchle inferenčné čipy AI. Ak je hľadanie odpovede rovnako náročné na výpočty ako trénovanie modelu, poskytovatelia umelej inteligencie opäť vyhrávajú.
Svet AI ešte nepodlieha panike
Zdá sa, že väčšina sveta AI nestráca chlad v súvislosti s týmito starými zákonmi o škálovaní, ktoré sa spomaľujú. Aj keď sa testovacie výpočty nepreukážu ako ďalšia vlna škálovania, niektorí sa domnievajú, že iba poškriabame povrch aplikácií pre súčasné modely AI.
Nové populárne produkty by mohli vývojárom modelov AI získať nejaký čas, aby prišli na nové spôsoby, ako vylepšiť základné modely.
„Som úplne presvedčený, že zaznamenáme aspoň 10- až 20-násobné zvýšenie výkonu modelu len vďaka čistej práci na úrovni aplikácie, pričom modelom umožníme zažiariť prostredníctvom inteligentného nabádania, rozhodnutí UX a odovzdávania kontextu v správnom čase. modelky,“ povedala Midha.
Napríklad pokročilý hlasový režim ChatGPT je jednou z najpôsobivejších aplikácií zo súčasných modelov AI. Bola to však do značnej miery inovácia používateľskej skúsenosti, nie nevyhnutne základná technológia. Môžete vidieť, ako by ďalšie inovácie UX, ako napríklad poskytnutie prístupu k tejto funkcii na web alebo do aplikácií vo vašom telefóne, urobili produkt oveľa lepším.
Kian Katanforoosh, generálny riaditeľ startupu Workera s umelou inteligenciou a vedľajší lektor na Stanforde v oblasti hlbokého učenia, pre TechCrunch hovorí, že spoločnosti vytvárajúce aplikácie AI, ako je ten jeho, nepotrebujú nevyhnutne exponenciálne inteligentnejšie modely na vytváranie lepších produktov. Tiež hovorí, že produkty okolo súčasných modelov majú veľký priestor na zlepšenie.
„Povedzme, že vytvárate aplikácie AI a vaša AI halucinuje pri konkrétnej úlohe,“ povedal Katanforoosh. „Existujú dva spôsoby, ako sa tomu môžete vyhnúť. Buď sa musí LLM zlepšiť a prestane mať halucinácie, alebo sa bude musieť zlepšiť vybavenie okolo neho a budete mať príležitosti na vyriešenie problému.“
Bez ohľadu na to, čo sa týka hranice výskumu AI, používatelia pravdepodobne ešte nejaký čas nepocítia účinky týchto posunov. To znamená, že laboratóriá AI urobia všetko, čo je potrebné, aby mohli pokračovať v dodávaní väčších, inteligentnejších a rýchlejších modelov rovnakým rýchlym tempom. To znamená, že niekoľko popredných technologických spoločností by teraz mohlo zmeniť spôsob, akým posúvajú hranice AI.