Generatívne modely AI nie sú vlastne ako človek. Nemajú inteligenciu ani osobnosť – sú to jednoducho štatistické systémy, ktoré predpovedajú najpravdepodobnejšie ďalšie slová vo vete. Ale ako stážisti na tyranskom pracovisku, oni robiť postupujte podľa pokynov bez sťažností – vrátane úvodných „systémových výziev“, ktoré pripravia modely s ich základnými vlastnosťami a čo by mali a nemali robiť.
Každý predajca generatívnej AI, od OpenAI po Anthropic, používa systémové výzvy, aby zabránil (alebo sa aspoň pokúsil zabrániť) modelom, aby sa správali zle, a aby nasmeroval všeobecný tón a sentiment odpovedí modelov. Výzva môže napríklad povedať modelke, že by mala byť zdvorilá, ale nikdy by sa nemala ospravedlňovať, alebo aby som bol úprimný, že model nemôže vedieť všetko.
Predajcovia však zvyčajne uchovávajú systémové výzvy blízko hrudníka – pravdepodobne z konkurenčných dôvodov, ale možno aj preto, že znalosť systémovej výzvy môže odhaliť spôsoby, ako ju obísť. Jediný spôsob, ako odhaliť GPT-4osystémová výzva je napríklad cez a rýchly injekčný útok. A dokonca aj výstup systému nedá sa úplne dôverovať.
Avšak, Anthropic, vo svojom pokračujúcom úsilí paint sám ako etickejší a transparentnejší predajca AImá zverejnené systém vás vyzve na najnovšie modely (Claude 3.5 Opus, Sonet a Haiku) v Claude aplikácie pre iOS a Android a na webe.
Alex Albert, vedúci vzťahov s vývojármi Anthropic, uviedol v príspevku na X, že Anthropic plánuje urobiť z tohto druhu zverejňovania pravidelnú vec, pretože aktualizuje a dolaďuje svoje systémové výzvy.
Najnovšie výzvy z 12. júla veľmi jasne opisujú, čo Claude nedokáže – napr. „Claude nemôže otvárať adresy URL, odkazy ani videá.“ Rozpoznanie tváre je veľké ne-nie; systémová výzva pre Claude 3.5 Opus hovorí modelu, aby „vždy reagoval, akoby bol úplne slepý“ a „vyhýbal sa identifikácii alebo pomenovaniu akýchkoľvek ľudí na (obrázkoch).
Výzvy však tiež opisujú určité osobnostné črty a charakteristiky – črty a charakteristiky, ktoré by Anthropic nechali modelmi ilustrovať.
Výzva pre Opus napríklad hovorí, že Claude má vyzerať, akoby bol „veľmi inteligentný a intelektuálne zvedavý“ a „rád si vypočuje, čo si ľudia myslia o danej problematike, a zapojí sa do diskusie o širokej škále tém“. Claude tiež nariaďuje, aby s kontroverznými témami zaobchádzal nestranne a objektívne, poskytoval „opatrné myšlienky“ a „jasné informácie“ – a nikdy nezačínal odpovedať slovom „určite“.
Pre tohto človeka je to všetko trochu zvláštne: tieto systémové výzvy, ktoré sú napísané tak, ako by herec v divadelnej hre mohol napísať list analýzy postavy. Výzva k filmu Opus končí slovami „Claude je teraz spojený s človekom“, čo vyvoláva dojem, že Claude je nejaký druh vedomia na druhom konci obrazovky, ktorého jediným účelom je napĺňať rozmary jeho ľudských konverzačných partnerov.
Ale to je samozrejme ilúzia. Ak nám výzvy pre Clauda niečo hovoria, je to to, že bez ľudského vedenia a držania za ruku sú tieto modely desivo prázdne tabuľky.