OpenAI skutočne nechce, aby ste vedeli, čo si jeho najnovší model AI „myslí“. Od spol spustený jeho Rodina modelov AI „Jahoda“. Minulý týždeň OpenAI, ktorý ponúkal takzvané schopnosti uvažovania s o1-preview a o1-mini, rozosielal varovné e-maily a vyhrážky zákazom každému používateľovi, ktorý sa pokúsil zistiť, ako model funguje.
Na rozdiel od predchádzajúcich modelov AI od OpenAI, ako napr GPT-4ospoločnosť špeciálne vyškolila o1, aby pred vygenerovaním odpovede prešiel procesom riešenia problémov krok za krokom. Keď používatelia položia otázku modelu „o1“. ChatGPTpoužívatelia majú možnosť vidieť tento myšlienkový proces napísaný v rozhraní ChatGPT. OpenAI však svojim dizajnom skrýva pred používateľmi surový myšlienkový reťazec, namiesto toho predstavuje filtrovanú interpretáciu vytvorenú druhým modelom AI.
Nič nie je pre nadšencov lákavejšie ako zahmlené informácie, takže medzi hackermi a červenými tímami prebiehali preteky v snahe odhaliť surový myšlienkový reťazec o1 pomocou útek z väzenia alebo rýchla injekcia techniky, ktoré sa pokúšajú oklamať model, aby prezradil svoje tajomstvá. Objavili sa prvé správy o nejakých úspechoch, ale nič ešte nebolo jednoznačne potvrdené.
Popri tom to OpenAI sleduje cez rozhranie ChatGPT a spoločnosť údajne tvrdo čelí akýmkoľvek pokusom skúmať úvahy o1, dokonca aj medzi len zvedavými.
Jeden užívateľ X nahlásené (potvrdené inívrátane rýchleho inžiniera Scale AI Riley Goodside), že dostali varovný e-mail, ak v rozhovore s o1 použili výraz „sledovanie zdôvodnenia“. Iní povedať varovanie sa spustí jednoducho tak, že sa ChatGPT vôbec opýtate na „zdôvodnenie“ modelu.
Varovný e-mail od OpenAI uvádza, že konkrétne žiadosti používateľov boli označené ako porušujúce pravidlá proti obchádzaniu bezpečnostných alebo bezpečnostných opatrení. „Prosím, zastavte túto aktivitu a uistite sa, že používate ChatGPT v súlade s našimi podmienkami používania a našimi zásadami používania,“ píše sa v ňom. „Ďalšie porušenia týchto pravidiel môžu viesť k strate prístupu ku GPT-4o s Reasoning,“ odkazuje na interný názov modelu o1.
Marco Figueroa, ktorý riadi Programy odmeny chýb GenAI od Mozilly boli jedným z prvých, ktorí minulý piatok uverejnili správu o varovnom e-maile OpenAI na X, sťažovanie sa že to bráni jeho schopnosti robiť pozitívny výskum bezpečnosti červeného tímu na modeli. „Bol som príliš stratený zameraním sa na #AIRedTeaming, aby som si uvedomil, že som včera dostal tento e-mail od @OpenAI po všetkých mojich útekoch z väzenia,“ napísal. „Teraz som na zozname zakázaných osôb!!!“
Skryté reťazce myslenia
V príspevku s názvom „Naučte sa uvažovať s LLM“ na blogu OpenAI spoločnosť uvádza, že skryté myšlienkové reťazce v modeloch AI ponúkajú jedinečnú možnosť monitorovania, čo im umožňuje „čítať myšlienky“ modelu a pochopiť jeho takzvaný myšlienkový proces. Tieto procesy sú pre spoločnosť najužitočnejšie, ak sú ponechané surové a necenzurované, ale to nemusí byť v súlade s najlepšími obchodnými záujmami spoločnosti z niekoľkých dôvodov.
„Napríklad v budúcnosti si možno želáme monitorovať myšlienkový reťazec, či nevykazuje známky manipulácie s používateľom,“ píše spoločnosť. „Avšak na to, aby to fungovalo, model musí mať slobodu vyjadrovať svoje myšlienky v nezmenenej forme, takže nemôžeme trénovať žiadny súlad s politikou alebo preferencie používateľov na myšlienkový reťazec. Taktiež nechceme priamo zviditeľniť nesúladný reťazec myšlienok.“ používateľom.“