Home Umela inteligencia Meta vydáva svoj doteraz najväčší „otvorený“ model AI

Meta vydáva svoj doteraz najväčší „otvorený“ model AI

by
Meta vydáva svoj doteraz najväčší „otvorený“ model AI

Najnovší model umelej inteligencie s otvoreným zdrojom od spoločnosti Meta je zatiaľ najväčší.

Dnes Meta uviedla, že vydáva Llama 3.1 405B, model obsahujúci 405 miliárd parametrov. Parametre zhruba zodpovedajú schopnostiam modelu riešiť problémy a modely s viacerými parametrami vo všeobecnosti fungujú lepšie ako modely s menším počtom parametrov.

Pri 405 miliardách parametrov nie je Llama 3.1 405B absolútna najväčší open source model, ktorý existuje, ale je najväčší za posledné roky. Trénovaný pomocou 16 000 grafických procesorov Nvidia H100 využíva aj novšie tréningové a vývojové techniky, o ktorých Meta tvrdí, že sú konkurencieschopné s poprednými proprietárnymi modelmi, ako je OpenAI. GPT-4o a antropické Sonet Claude 3.5 (s niekoľkými výhradami).

Rovnako ako v prípade predchádzajúcich modelov Meta, Llama 3.1 405B je k dispozícii na stiahnutie alebo použitie na cloudových platformách, ako sú AWS, Azure a Google Cloud. Používa sa aj na WhatsApp a Meta.ai, kde je poháňanie skúseností s chatbotom pre používateľov so sídlom v USA.

Nové a vylepšené

Rovnako ako iné modely generatívnej umelej inteligencie s otvoreným a uzavretým zdrojom, aj Llama 3.1 405B dokáže vykonávať celý rad rôznych úloh, od kódovania a odpovedí na základné matematické otázky až po sumarizáciu dokumentov v ôsmich jazykoch (angličtina, nemčina, francúzština, taliančina, portugalčina, hindčina, španielčina a thajčina ). Je to len text, čo znamená, že nemôže napríklad odpovedať na otázky o obrázku, ale väčšina textových úloh – napríklad analyzovanie súborov, ako sú súbory PDF a tabuľky – patrí do jeho pôsobnosti.

Meta chce dať najavo, že experimentuje s multimodalitou. V článku zverejnenom dnes výskumníci spoločnosti píšu, že aktívne vyvíjajú modely Llama, ktoré dokážu rozpoznať obrázky a videá a porozumieť (a generovať) reči. Tieto modely však ešte nie sú pripravené na verejné vydanie.

Na trénovanie Llama 3.1 405B použila Meta súbor údajov 15 biliónov tokenov z roku 2024 (tokeny sú časti slov, ktoré modely dokážu ľahšie internalizovať ako celé slová, a 15 biliónov tokenov sa prekladá na ohromujúcich 750 miliárd slov). Nejde o novú školiacu súpravu ako takú, pretože Meta použila základnú súpravu na trénovanie starších modelov Llama, ale spoločnosť tvrdí, že vylepšila svoje kanály na spracovanie údajov a pri vývoji tohto modelu prijala „prísnejšie“ postupy zabezpečenia kvality a filtrovania údajov.

Spoločnosť tiež použila syntetické údaje (údaje generované iné Modely AI) na doladenie Llama 3.1 405B. Väčšina hlavných predajcov AI, vrátane OpenAI a Anthropic, skúma aplikácie syntetických údajov na rozšírenie svojho školenia AI, ale niektorí odborníci veriť že syntetické údaje by mali byť a posledná možnosť kvôli jeho potenciálu zhoršiť zaujatosť modelu.

Meta trvá na tom, že „starostlivo vyvažuje (d)“ tréningové údaje Llama 3.1 405B, ale odmietla prezradiť, odkiaľ presne tieto údaje pochádzajú (mimo webových stránok a verejných webových súborov). Mnohí predajcovia generatívnej AI vnímajú tréningové údaje ako konkurenčnú výhodu, a preto si ich spolu so všetkými informáciami, ktoré sa ich týkajú, uchovávajte v blízkosti. Podrobnosti o tréningových údajoch sú však tiež potenciálnym zdrojom súdnych sporov súvisiacich s IP, čo je ďalšia prekážka pre spoločnosti, aby mnohé odhalili.

Poďakovanie za obrázok: Meta

Vo vyššie uvedenom článku výskumníci Meta napísali, že v porovnaní s predchádzajúcimi modelmi Llama bola Llama 3.1 405B trénovaná na zvýšenom mixe neanglických údajov (na zlepšenie výkonu v neanglických jazykoch), viac „matematických údajov“ a kódu (na zlepšiť schopnosti modelu matematické uvažovanie) a najnovšie údaje z webu (na posilnenie jeho vedomostí o aktuálnych udalostiach).

Nedávna správa agentúry Reuters odhalil, že Meta v istom bode používala e-knihy chránené autorskými právami na školenia AI napriek varovaniam vlastných právnikov. Spoločnosť kontroverzne trénuje svoju AI na instagramových a facebookových príspevkoch, fotografiách a titulkoch a sťažuje používateľom deaktiváciu. A čo viac, Meta je spolu s OpenAI predmetom prebiehajúceho súdneho sporu autorov, vrátane komičky Sarah Silvermanovej, kvôli údajnému neoprávnenému použitiu údajov chránených autorskými právami na tréning modelov.

„Tréningové údaje sú v mnohých ohľadoch niečo ako tajný recept a omáčka, ktorá sa používa pri zostavovaní týchto modelov,“ povedal Ragavan Srinivasan, viceprezident riadenia programu AI v spoločnosti Meta, v rozhovore pre TechCrunch. „A tak z nášho pohľadu sme do toho veľa investovali. A bude to jedna z týchto vecí, kde ju budeme naďalej zdokonaľovať.“

Väčší kontext a nástroje

Llama 3.1 405B má väčšie kontextové okno ako predchádzajúce modely Llama: 128 000 tokenov, čo je približne dĺžka 50-stranovej knihy. Kontext modelu alebo kontextové okno odkazuje na vstupné údaje (napr. text), ktoré model zvažuje pred vygenerovaním výstupu (napr. dodatočný text).

Jednou z výhod modelov s väčším kontextom je, že dokážu zhrnúť dlhšie textové úryvky a súbory. Pri napájaní chatbotov je tiež menej pravdepodobné, že takéto modely zabudnú na témy, o ktorých sa nedávno diskutovalo.

Dva ďalšie nové, menšie modely Meta, ktoré dnes predstavila, Llama 3.1 8B a Llama 3.1 70B – aktualizované verzie modelov Llama 3 8B a Llama 3 70B spoločnosti vydaných v apríli – majú tiež kontextové okná so 128 000 tokenmi. Kontext predchádzajúcich modelov dosiahol 8 000 tokenov, čo robí tento upgrade dosť podstatným — za predpokladu, že nové modely Llama dokážu efektívne uvažovať v celom tomto kontexte.

Meta Flame 3.1
Poďakovanie za obrázok: Meta

Všetky modely Llama 3.1 môžu používať nástroje, aplikácie a API tretích strán na dokončenie úloh, ako sú konkurenčné modely od Anthropic a OpenAI. Po vybalení sú vyškolení, aby klepli na Brave Search, aby odpovedali na otázky o nedávnych udalostiach, na Wolfram Alpha API pre otázky súvisiace s matematikou a vedou a na tlmočníka Pythonu na overenie kódu. Okrem toho Meta tvrdí, že modely Llama 3.1 môžu do určitej miery používať určité nástroje, ktoré predtým nevideli.

Budovanie ekosystému

Ak sa má veriť referenčným hodnotám (nie že by benchmarky boli konečným cieľom v generatívnej AI), Llama 3.1 405B je skutočne veľmi schopný model. To by bola dobrá vec, vzhľadom na niektoré z nich bolestivo zrejmé obmedzenia modelov Llama predchádzajúcej generácie.

Llama 3 405B funguje na rovnakej úrovni ako OpenAI GPT-4 a dosahuje „zmiešané výsledky“ v porovnaní s GPT-4o a Claude 3.5 Sonnet, podľa ľudských hodnotiteľov, ktorých si Meta najala, poznamenáva papier. Zatiaľ čo Llama 3 405B je lepšia vo vykonávaní kódu a generovaní grafov ako GPT-4o, jej viacjazyčné schopnosti sú celkovo slabšie a Llama 3 405B stopuje Claude 3.5 Sonnet v programovaní a všeobecnom uvažovaní.

A kvôli svojej veľkosti potrebuje na spustenie silný hardvér. Meta odporúča aspoň serverový uzol.

To je možno dôvod, prečo Meta presadzuje svoje menšie nové modely, Llama 3.1 8B a Llama 3.1 70B, pre aplikácie na všeobecné účely, ako je napájanie chatbotov a generovanie kódu. Llama 3.1 405B, hovorí spoločnosť, je lepšie vyhradená pre modelovú destiláciu – proces prenosu znalostí z veľkého modelu do menšieho, efektívnejšieho modelu – a generovanie syntetických údajov na trénovanie (alebo dolaďovanie) alternatívnych modelov.

S cieľom podporiť prípad použitia syntetických údajov spoločnosť Meta uviedla, že aktualizovala licenciu spoločnosti Llama, aby umožnila vývojárom používať výstupy z rodiny modelov Llama 3.1 na vývoj generatívnych modelov AI tretích strán (či už je to rozumný nápad). na diskusiu). Dôležité je, že stále platí licencia obmedzuje ako môžu vývojári nasadiť modely Llama: Vývojári aplikácií s viac ako 700 miliónmi používateľov mesačne musia požiadať spoločnosť Meta o špeciálnu licenciu, ktorú spoločnosť udelí podľa vlastného uváženia.

Meta Flame 3.1
Poďakovanie za obrázok: Meta

Táto zmena v licencovaní okolo výstupov, ktorá zmierňuje a hlavná kritika z modelov Meta v rámci komunity AI je súčasťou agresívneho úsilia spoločnosti o zdieľanie mysle v generatívnej AI.

Popri rodine Llama 3.1 vydáva Meta to, čo nazýva „referenčný systém“ a nové bezpečnostné nástroje – niekoľko z týchto blokových výziev, ktoré môžu spôsobiť, že modely Llama sa budú správať nepredvídateľným alebo nežiaducim spôsobom – s cieľom povzbudiť vývojárov, aby používali Llamu na viacerých miestach. Spoločnosť tiež prezerá a hľadá komentáre k Llama Stack, pripravovanému API pre nástroje, ktoré možno použiť na doladenie modelov Llama, generovanie syntetických údajov s Llamou a vytváranie „agentických“ aplikácií – aplikácií poháňaných Llamou, ktoré dokážu zasiahnuť. v mene používateľa.

„(Čo) Od vývojárov sme opakovane počuli záujem dozvedieť sa, ako skutočne nasadiť (modely lám) vo výrobe,“ povedal Srinivasan. „Takže sa im snažíme začať poskytovať množstvo rôznych nástrojov a možností.“

Hrajte o podiel na trhu

Generálny riaditeľ spoločnosti Meta Mark Zuckerberg v otvorenom liste zverejnenom dnes ráno načrtáva víziu budúcnosti, v ktorej sa nástroje a modely AI dostanú k viacerým vývojárom na celom svete, čím sa zabezpečí, že ľudia budú mať prístup k „výhodám a príležitostiam“ AI.

Je to formulované veľmi filantropicky, ale v liste je implicitne zahrnuté želanie Zuckerberga, aby tieto nástroje a modely vyrobila spoločnosť Meta.

Meta sa snaží dobehnúť spoločnosti ako OpenAI a Anthropic a využíva osvedčenú stratégiu: rozdať nástroje zadarmo na podporu ekosystému a potom pomaly pridávať Produkty a služby, niektoré platené, navrch. Výdavky miliardy dolárov na modeloch, ktoré potom môže komoditizovať, má tiež vplyv na zníženie cien konkurentov Meta a široké rozšírenie firemnej verzie AI. Umožňuje tiež spoločnosti začleniť vylepšenia z komunity s otvoreným zdrojom do svojich budúcich modelov.

Llama má určite pozornosť vývojárov. Meta tvrdí, že modely lám boli stiahnuté viac ako 300 miliónov krát a doteraz bolo vytvorených viac ako 20 000 modelov odvodených od lám.

Nemýľte sa, Meta hrá o majstra. Je to míňanie miliónov o lobingových regulátoroch, aby dospeli k preferovanej podobe „otvorenej“ generatívnej AI. Žiadny z modelov Llama 3.1 nerieši neriešiteľné problémy s dnešnou generatívnou technológiou AI, ako je jej tendencia vymýšľať veci a opakovať problematické tréningové údaje. Ale posúvajú jeden z kľúčových cieľov Meta: stať sa synonymom generatívnej AI.

Sú s tým spojené náklady. Vo výskumnej práci spoluautori – v súlade so Zuckerbergovou Nedávne komentáre — Diskutujte o problémoch so spoľahlivosťou súvisiacou s energiou s tréningom neustále rastúcich generatívnych modelov AI spoločnosti Meta.

„Počas školenia môžu desiatky tisíc GPU súčasne zvýšiť alebo znížiť spotrebu energie, napríklad kvôli tomu, že všetky GPU čakajú na dokončenie kontrolného bodu alebo kolektívnej komunikácie alebo spustenia alebo vypnutia celej školiacej úlohy,“ píšu. . „Keď sa to stane, môže to mať za následok okamžité kolísanie spotreby energie v dátovom centre rádovo v desiatkach megawattov, čím sa predĺžia limity elektrickej siete. Toto je pre nás neustála výzva, keďže škálujeme školenia pre budúce, ešte väčšie modely lámy.

Človek dúfa, že trénovanie tých väčších modelov neprinúti viac utilít, aby si ich ponechali okolo starých uhoľných elektrární.

Source Link

Related Posts

Leave a Comment