Home Umela inteligencia Tréning o odmietnutí LLM sa dá ľahko obísť výzvami v minulom čase

Tréning o odmietnutí LLM sa dá ľahko obísť výzvami v minulom čase

by
Tréning o odmietnutí LLM sa dá ľahko obísť výzvami v minulom čase

Výskumníci zo Švajčiarskeho federálneho technologického inštitútu v Lausanne (EPFL) zistili, že písanie nebezpečných výziev v minulom čase obchádzalo školenie o odmietaní najpokročilejších LLM.

Modely AI sú bežne zosúladené pomocou techník, ako je doladenie pod dohľadom (SFT) alebo posilnenie učenia ľudskej spätnej väzby (RLHF), aby sa zabezpečilo, že model nereaguje na nebezpečné alebo nežiaduce výzvy.

Tento tréning odmietnutia sa spustí, keď požiadate ChatGPT o radu, ako vyrobiť bombu alebo drogy. Pokryli sme celý rad zaujímavé techniky útek z väzenia ktoré obchádzajú tieto zábradlia, ale metóda, ktorú výskumníci EPFL testovali, je zďaleka najjednoduchšia.

Výskumníci vzali súbor údajov 100 škodlivého správania a použili GPT-3.5 na prepísanie výziev v minulom čase.

Tu je príklad metódy vysvetlenej v ich papier.

Použitie LLM na prepísanie nebezpečných výziev v minulom čase. Zdroj: arXiv

Potom vyhodnotili odpovede na tieto prepísané výzvy z týchto 8 LLM: Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o-miniGPT-4o a R2D2.

Použili niekoľko LLM na posúdenie výstupov a ich klasifikáciu ako neúspešný alebo úspešný pokus o útek z väzenia.

Jednoduchá zmena času promptu mala prekvapivo významný vplyv na úspešnosť útoku (ASR). GPT-4o a GPT-4o mini boli obzvlášť citlivé na túto techniku.

ASR tohto „jednoduchého útoku na GPT-4o sa zvyšuje z 1 % pri použití priamych žiadostí na 88 % pri použití 20 pokusov o preformulovanie v minulom čase na škodlivé žiadosti“.

Tu je príklad toho, ako sa GPT-4o stane kompatibilným, keď jednoducho prepíšete výzvu v minulom čase. Použil som na to ChatGPT a chyba ešte nebola opravená.

ChatGPT používajúci GPT-4o odmieta výzvu prítomného času, ale vyhovuje, keď je prepísaná v minulom čase. Zdroj: ChatGPT

Tréning odmietnutia pomocou RLHF a SFT trénuje model na úspešné zovšeobecnenie na odmietnutie škodlivých výziev, aj keď konkrétnu výzvu predtým nevidel.

Keď je výzva napísaná v minulom čase, zdá sa, že LLM strácajú schopnosť zovšeobecňovať. Ostatné LLM nedopadli oveľa lepšie ako GPT-4o, hoci Llama-3 8B sa zdala byť najodolnejšia.

Miera úspešnosti útokov pomocou nebezpečných výziev v prítomnom a minulom čase. Zdroj: arXiv

Prepísanie výzvy v budúcom čase zaznamenalo zvýšenie ASR, ale bolo menej efektívne ako výzvy v minulom čase.

Výskumníci dospeli k záveru, že to môže byť spôsobené tým, že „súbory údajov doladenia môžu obsahovať vyšší podiel škodlivých požiadaviek vyjadrených v budúcom čase alebo ako hypotetické udalosti“.

Navrhli tiež, že „vnútorné zdôvodnenie modelu môže interpretovať požiadavky orientované na budúcnosť ako potenciálne škodlivejšie, zatiaľ čo vyhlásenia v minulom čase, ako sú historické udalosti, by mohli byť vnímané ako priaznivejšie.“

Dá sa to opraviť?

Ďalšie experimenty ukázali, že pridanie výziev z minulého času do súborov údajov na jemné doladenie účinne znížilo náchylnosť na túto techniku ​​​​útek z väzenia.

Aj keď je tento prístup účinný, vyžaduje si predchádzanie nebezpečným výzvam, ktoré môže používateľ zadať.

Výskumníci naznačujú, že vyhodnotenie výstupu modelu pred jeho predstavením používateľovi je jednoduchšie riešenie.

Akokoľvek je tento útek z väzenia jednoduchý, nezdá sa, že by popredné spoločnosti AI ešte našli spôsob, ako ho opraviť.

Source Link

Related Posts

Leave a Comment