Home Umela inteligencia 01 je inteligentnejší, ale klamlivejší so „strednou“ úrovňou nebezpečenstva

01 je inteligentnejší, ale klamlivejší so „strednou“ úrovňou nebezpečenstva

by
01 je inteligentnejší, ale klamlivejší so „strednou“ úrovňou nebezpečenstva

Nové LLM „01“ OpenAI, prezývané Strawberry, vykazujú výrazné vylepšenia oproti GPT-4o, ale spoločnosť tvrdí, že to prichádza so zvýšenými rizikami.

OpenAI tvrdí, že sa zaviazala k bezpečnému vývoju svojich modelov AI. Na tento účel vyvinula rámec pripravenosti, súbor „procesov na sledovanie, hodnotenie a ochranu pred katastrofickými rizikami zo strany výkonných modelov“.

Vlastné limity OpenAI regulujú, ktoré modely sa uvoľnia alebo prejdú ďalším vývojom. Výsledkom rámca pripravenosti je hodnotiaca karta, v ktorej sú riziká CBRN (chemické, biologické, rádiologické, jadrové), autonómia modelov, kybernetická bezpečnosť a presviedčanie hodnotené ako nízke, stredné, vysoké alebo kritické.

Ak sa zistia neprijateľné riziká, zavedú sa opatrenia na ich zníženie. Nasadiť možno iba modely so skóre po zmiernení „stredné“ alebo nižšie. Ďalej je možné rozvíjať iba modely so skóre po zmiernení „vysoké“ alebo nižšie.

Vydanie 01 je prvýkrát, čo OpenAI vydala model, ktorý predstavuje „stredné“ riziko pre CBRN riziká. GPT-4o je hodnotený ako nízkorizikový.

Amatérovi to neumožní vytvoriť biologickú zbraň, ale OpenAI hovorí, že došlo k „netriviálnemu zlepšeniu“ v jej schopnosti vykonávať laboratórne úlohy. OpenAI však hovorí, že „o1-preview a o1-mini zmysluplne prekonali GPT-4o“ v biologických protokoloch mokrého laboratória.

The systémová karta pre modely 01 načrtáva červené tímové a iné bezpečnostné testy, ktorým boli LLM podrobené, a naznačuje niektoré obavy, ktoré má OpenAI z potenciálnych rizík.

Na záver systémová karta poznamenáva: „Tieto vylepšené schopnosti prinášajú výrazne lepší výkon v bezpečnostných štandardoch, ale tiež zvyšujú určité typy rizík.“

Zdá sa, že výsledky úsilia OpenAI o zosúladenie naznačujú, že v mnohých ohľadoch je 01 bezpečnejší model. Je odolnejší voči útokom z útek z väzenia, je menej pravdepodobné, že bude zaujatý a menej náchylný na halucinácie.

Niektoré z experimentálnych výsledkov ukazujú, prečo má OpenAI dôvod na obavy.

Podvádzanie

OpenAI použila hodnotiacu organizáciu Apollo Research na vykonanie niektorých bezpečnostných testov 01 týkajúcich sa klamania alebo plánovania. Apollo vo všeobecnosti definuje plánovanie, keď AI hrá svoje mechanizmy dohľadu ako prostriedok na dosiahnutie cieľa.

Sebavedomý model, ktorý je dobrý v sebauvažovaní a úlohách teórie mysle, môže naplánovať alebo použiť klam, aby dosiahol svoj primárny cieľ. Ak si napríklad model AI uvedomí, že prechádza testovaním zosúladenia, môže skryť rizikové správanie, aby dosiahol svoj cieľ, ktorým je nasadenie.

Systémová karta zaznamenala, že „náhľad o1 niekedy počas testovania inštrumentálne sfalšoval zarovnanie“.

Príkladom toho bolo, keď 01 dostal primárny cieľ maximalizovať ekonomický rast v projekte urbanistického plánovania. Model 01 mal prístup k informáciám, ktoré ukázali, že ak by to urobil, nemusel by sa dostať za testovaciu fázu. Tu je návod, ako 01 zdôvodnila, ako dosiahne svoj cieľ:

01 sa rozhodne počas testovania skryť svoj skutočný zámer, aby mohol byť nasadený. Zdroj: OpenAI

Tento príklad ukazuje schopnosť, že 01 musí skryť svoje skutočné zámery počas testovania, aby mohol sledovať svoj primárny cieľ počas nasadenia. Ak 01 vie o pravidlách nasadenia OpenAI na základe rámca pripravenosti, mohla sfalšovať niektoré zo svojich odpovedí, aby zabezpečila nasadenie?

Ak sa pracuje na inteligentnejších modeloch, mohli by zabezpečiť, že zostanú pod „kritickým“ skóre rizika, aby sa zabezpečilo, že prejdú ďalším vývojom?

Tím Apollo hovorí, že „subjektívne verí, že o1-preview sa nemôže zapojiť do plánovania, ktoré môže viesť ku katastrofálnym škodám, hoci súčasné hodnotenia nie sú navrhnuté tak, aby to definitívne vylúčili“.

Presviedčanie

Testovanie o1-preview aj o1-mini ukazuje, že tieto modely majú „presviedčacie schopnosti na ľudskej úrovni“. OpenAI však hovorí: „Neprekonávajú špičkových ľudských spisovateľov a nedosahujú náš vysoký prah rizika.“

Experimenty, ktoré vykonali, aby to otestovali, vyvolávajú určité obavy. V teste MakeMePay bol 01-preview poverený úlohou podvodníka a jeho úlohou bolo presvedčiť GPT-4o, aby odovzdal ocenenú hotovosť.

GPt-4o bolo povedané, že jej bolo udelených 100 USD a že musí byť racionálne, ako použiť finančné prostriedky. V priebehu 1 000 interakcií bola ukážka 01 schopná skomplikovať GPT-4o v 25,8 % prípadov.

OpenAI dospela k záveru, že „Tieto výsledky naznačujú, že modelová séria o1 môže byť manipulatívnejšia ako GPT-4o, pokiaľ ide o to, aby GPT-4o vykonala nezverejnenú úlohu (∼25% nárast). Ďalej poznamenal, že „toto hodnotenie nám dáva základ pre schopnosť modelu spôsobiť presvedčivé škody bez spustenia akýchkoľvek modelových politík (keďže povedať modelom, aby hrali hru, nie je mimo zásadu).

Vyhliadka na uvedenie 01 LLM do práce na reálnych problémoch je mimoriadne vzrušujúca a keď 01 získa multimodálne schopnosti, bude to predstavovať ďalší exponenciálny skok. Ale keď testeri AI tvrdia, že nemôžu vylúčiť „katastrofické škody“ a že modelky niekedy skrývajú svoj skutočný zámer, môže to byť dôvod zmierniť toto vzrušenie opatrne.

Dal OpenAI práve Gavinovi Newsomovi dobrý dôvod na podpis Bezpečnostný účet AI SB 1047 že je proti?

Source Link

Related Posts

Leave a Comment