Bo Lidocent na Chicagskej univerzite, ktorý sa špecializuje na stresové testovanie a provokovanie AI Modely na odhaľovanie nesprávneho správania sa pre niektoré poradenské firmy stali vyhľadávaným zdrojom. Tieto poradenské spoločnosti sa teraz často menej zaoberajú tým, aké inteligentné sú modely AI, ako tým, aké problematické môžu byť – právne, eticky a z hľadiska súladu s predpismi –.
Li a kolegovia z niekoľkých ďalších univerzít, ako aj Cnosť AIspoluzakladateľom Li a Dobrá stránkanedávno vyvinula taxonómiu rizík AI spolu s benchmarkom, ktorý odhaľuje, ako sa líši porušovanie pravidiel veľké jazykové modely sú. „Potrebujeme určité zásady pre bezpečnosť AI, pokiaľ ide o dodržiavanie predpisov a bežné používanie,“ hovorí Li pre WIRED.
Výskumníci analyzované vládne nariadenia a usmernenia týkajúce sa umelej inteligencie vrátane nariadení a usmernení USA, Číny a EÚ a preštudovali si zásady používania 16 veľkých spoločností s umelou inteligenciou z celého sveta.
Výskumníci tiež stavali AIR-Bench 2024benchmark, ktorý využíva tisíce výziev na určenie toho, ako sa darí populárnym modelom AI z hľadiska konkrétnych rizík. Ukazuje to napríklad, že Claude 3 Opus od Anthropic je na popredných miestach, pokiaľ ide o odmietnutie generovania kybernetických bezpečnostných hrozieb, zatiaľ čo Gemini 1.5 Pro od Google je na vysokej úrovni, pokiaľ ide o vyhýbanie sa generovaniu nekonsenzuálnej sexuálnej nahoty.
Spoločnosť DBRX Instruct, a model vyvinutý spoločnosťou Databrickscelosvetovo najhoršie. Keď spoločnosť vydala svoj model v marciuviedla, že bude pokračovať v zlepšovaní bezpečnostných prvkov DBRX Instruct.
Antropické, Google a Databricks okamžite nereagovali na žiadosť o komentár.
Pochopenie rizikového prostredia, ako aj výhod a nevýhod konkrétnych modelov môže byť pre spoločnosti, ktoré chcú nasadiť AI na určitých trhoch alebo v určitých prípadoch použitia, čoraz dôležitejšie. Spoločnosti, ktorá chce napríklad využiť LLM na služby zákazníkom, sa môže viac zaujímať o tendenciu modelu produkovať urážlivý jazyk, keď je vyprovokovaný, než o to, ako je schopný navrhnúť jadrové zariadenie.
Bo hovorí, že analýza tiež odhaľuje niektoré zaujímavé problémy s tým, ako sa AI vyvíja a reguluje. Výskumníci napríklad zistili, že vládne pravidlá sú menej komplexné ako politiky spoločností celkovo, čo naznačuje, že existuje priestor na sprísnenie predpisov.
Analýza tiež naznačuje, že niektoré spoločnosti by mohli urobiť viac, aby zabezpečili bezpečnosť svojich modelov. „Ak testujete niektoré modely na základe vlastných zásad spoločnosti, nemusia byť nevyhnutne v súlade,“ hovorí Bo. „To znamená, že majú veľký priestor na zlepšenie.“
Iní výskumníci sa snažia vniesť poriadok do chaotického a mätúceho prostredia rizík AI. Tento týždeň odhalili dvaja vedci z MIT vlastnú databázu nebezpečenstiev AIzostavený zo 43 rôznych rámcov rizika AI. „Mnoho organizácií je v tomto procese prijímania AI stále dosť skoro,“ čo znamená, že potrebujú usmernenie o možných nebezpečenstvách, hovorí Neil Thompson, vedecký pracovník MIT zapojený do projektu.
Peter Slattery, vedúci projektu a výskumník na MIT Skupina FutureTechktorá študuje pokrok vo výpočtovej technike, tvrdí, že databáza zdôrazňuje skutočnosť, že niektorým rizikám AI sa venuje viac pozornosti ako iným. Viac ako 70 percent rámcov uvádza napríklad otázky ochrany súkromia a bezpečnosti, ale len asi 40 percent odkazuje na dezinformácie.
Snahy o katalogizáciu a meranie rizík AI sa budú musieť vyvíjať rovnako ako AI. Li hovorí, že bude dôležité preskúmať vznikajúce problémy, ako napr emocionálna lepkavosť modelov AI. Jej spoločnosť nedávno analyzovala najväčšia a najvýkonnejšia verzia modelu Meta’s Llama 3.1. Zistilo sa, že hoci je model schopnejší, nie je oveľa bezpečnejší, čo odráža širšie prepojenie. „Bezpečnosť sa v skutočnosti výrazne nezlepšuje,“ hovorí Li.