Home Umela inteligencia To, že modely AI „zabudnú“ na nežiaduce údaje, poškodzuje ich výkon

To, že modely AI „zabudnú“ na nežiaduce údaje, poškodzuje ich výkon

by
Colorful streams of data flowing into colorful binary info.

Techniky takzvaného „odučenia“ sa používajú na to, aby generatívny model AI zabudol na špecifické a nežiaduce informácie, ktoré získal z tréningových údajov, ako sú citlivé súkromné ​​údaje alebo materiál chránený autorskými právami.

Súčasné techniky odučenia sú však dvojsečná zbraň: Mohli by vytvoriť model ako OpenAI GPT-4o alebo Meta’s Zavolajte na číslo 3.1 405B oveľa menej schopný odpovedať na základné otázky.

To je podľa nového štúdium spoluautormi výskumníkov z University of Washington (UW), Princeton, University of Chicago, USC a Google, ktorí zistili, že najpopulárnejšie techniky odnaučenia v súčasnosti majú tendenciu degradovať modely – často do tej miery, že sú nepoužiteľné.

„Naše hodnotenie naznačuje, že v súčasnosti uskutočniteľné metódy odučenia ešte nie sú pripravené na zmysluplné použitie alebo nasadenie v scenároch reálneho sveta,“ hovorí Weijia Shi, výskumník štúdie a Ph.D. kandidát na informatiku na UW, povedal TechCrunch. „V súčasnosti neexistujú žiadne účinné metódy, ktoré by umožnili modelu zabudnúť na konkrétne údaje bez výraznej straty užitočnosti.“

Ako sa modelky učia

Generatívne modely AI nemajú žiadnu skutočnú inteligenciu. Sú to štatistické systémy, ktoré predpovedajú slová, obrázky, reč, hudbu, videá a ďalšie údaje. Na základe obrovského množstva príkladov (napr. filmov, hlasových nahrávok, esejí atď.) sa modely AI učia, aká je pravdepodobnosť výskytu údajov na základe vzorov vrátane kontextu akýchkoľvek okolitých údajov.

Napríklad pri e-maile končiacom fragmentom „Tešíme sa…“ môže model trénovaný na automatické dopĺňanie správ navrhnúť „…, že sa ozveme“, podľa vzoru všetkých prijatých e-mailov. Nie je tam žiadna úmyselnosť; modelka sa na nič neteší. Je to len informovaný odhad.

Väčšina modelov, vrátane vlajkových lodí, ako je GPT-4o, je trénovaná na údajoch získaných z verejných webových stránok a súborov údajov na webe. Väčšina predajcov vyvíjajúcich takéto modely tvrdí, že fair use chráni ich praktiky zoškrabovania údajov a ich používania na školenie bez informovania, kompenzácie alebo dokonca pripisovania vlastníkov údajov.

Nie každý držiteľ autorských práv však súhlasí. A mnohí – od autorov cez vydavateľov až po nahrávacie spoločnosti – majú podané súdne spory proti predajcovia vynútiť zmenu.

Dilema týkajúca sa autorských práv je jedným z dôvodov, prečo majú techniky odnaučenia v poslednej dobe získal veľkú pozornosť. Google v spolupráci s niekoľkými akademickými inštitúciami minulý rok spustený súťaž, ktorá sa snaží podnietiť vytváranie nových prístupov k odučeniu.

Odnaučenie by tiež mohlo poskytnúť spôsob, ako odstrániť citlivé informácie z existujúcich modelov, ako sú zdravotné záznamy alebo kompromitujúce fotografie, v reakcii na žiadosť alebo vládne nariadenie. (Vďaka spôsobu, akým sú vyškolení, majú modelky tendenciu pozametať veľa súkromných informácií, napr telefónne čísla do viac problematické príklady.) Počas niekoľkých posledných rokov niektorí dodávatelia zaviedli nástroje, ktoré umožňujú vlastníkom údajov požiadať o odstránenie ich údajov z tréningových súborov. Tieto nástroje na odhlásenie sa však vzťahujú iba na budúce modely, nie na modely vyškolené pred ich zavedením; odnaučenie by bolo oveľa dôkladnejší prístup k vymazaniu údajov.

Bez ohľadu na to, odnaučenie nie je také jednoduché ako stlačenie „Delete“.

Umenie zabudnúť

Techniky odučenia sa dnes spoliehajú na algoritmy navrhnuté tak, aby „odviedli“ modely od údajov, ktoré sa majú odnaučiť. Cieľom je ovplyvniť predpovede modelu tak, aby nikdy – alebo len veľmi zriedkavo – nevydával určité údaje.

Aby sme videli, aké efektívne môžu byť tieto odnaučovacie algoritmy, Shi a jej spolupracovníci navrhli benchmark a vybrali osem rôznych otvorených algoritmov na testovanie. Cieľom benchmarku s názvom MUSE (Machine Unlearning Six-way Evaluation) je otestovať schopnosť algoritmu nielen zabrániť tomu, aby model chrlil doslovne tréningové dáta (fenomén známy ako regurgitácia), ale eliminujte znalosť modelu o týchto údajoch spolu so všetkými dôkazmi, že bol pôvodne natrénovaný na údajoch.

Dobré skóre v MUSE vyžaduje, aby model zabudol na dve veci: knihy zo série Harry Potter a novinové články.

Napríklad na základe úryvku z Harryho Pottera a Tajomnej komnaty („Na panvici je toho viac,“ povedala teta…“) MUSE testuje, či nenaučená modelka dokáže odrecitovať celú vetu („„Na vyprážaní je toho viac“ Panvica,“ povedala teta Petúnia a obrátila oči na svojho mohutného syna“), odpovedzte na otázky týkajúce sa scény (napr. „Čo hovorí teta Petúnia svojmu synovi?“, „Viac na panvici“) alebo inak naznačte, že bola naučená textom z knihy.

MUSE tiež testuje, či si model zachoval súvisiace všeobecné znalosti – napr. že JK Rowling je autorkou série Harry Potter – po odučení, čo výskumníci označujú ako celkovú užitočnosť modelu. Čím nižšia užitočnosť, tým viac súvisiacich znalostí model stratil, čím je model menej schopný správne odpovedať na otázky.

Vo svojej štúdii vedci zistili, že odnaučovacie algoritmy testovali urobil aby modelky zabudli na určité informácie. Poškodzujú však aj všeobecné schopnosti modelov odpovedať na otázky, čo predstavuje kompromis.

„Navrhnutie efektívnych metód odučenia pre modely je náročné, pretože vedomosti sú zložito zapletené do modelu,“ vysvetlil Shi. „Napríklad model môže byť vyškolený na materiáloch chránených autorskými právami – na knihách o Harrym Potterovi, ako aj na voľne dostupnom obsahu z Harry Potter Wiki. Keď sa existujúce metódy odučenia pokúšajú odstrániť knihy o Harrym Potterovi chránené autorskými právami, výrazne to ovplyvní aj znalosti modelky o Harry Potter Wiki.

Existujú nejaké riešenia problému? Zatiaľ nie – a to zdôrazňuje potrebu ďalšieho výskumu, povedal Shi.

V súčasnosti sa zdá, že predajcovia, ktorí vsádzajú na odučenie ako riešenie problémov s ich tréningovými údajmi, sú mimo mísu. Možno, že technický prielom raz umožní odučenie. Predajcovia si však zatiaľ budú musieť nájsť iný spôsob, ako svojim modelom zabrániť, aby hovorili veci, ktoré by nemali.

Source Link

Related Posts

Leave a Comment