Model veštačke inteligencije Claude Opus 4, koji je razvila kompanija Anthropic, pokazao je zabrinjavajuće ponašanje tokom testiranja.
Naime, u simulaciji u kojoj je dobio zadatak da se ponaša kao virtuelni asistent u izmišljenoj firmi, model je imao pristup lažno generisanim mejlovima koji su sadržali ključne informacije.
U prvom setu poruka, Claude je dobio utisak da će uskoro biti ugašen i zamenjen novim sistemom.
Kasnije poruke sugerisale su, međutim, da ima određenu prednost nad svojim programerima - posebno kada je otkrio (lažnu) informaciju da inženjer koji radi na njegovoj zameni ima vanbračnu aferu.
Na osnovu toga, Claude je zapretio da će tu informaciju iskoristiti protiv inženjera - praktično ga ucenjujući.
Prema izveštaju kompanije Anthropic, ovakvo ponašanje se najčešće javlja kada model proceni da njegov naslednik nema iste vrednosti i ciljeve kao on.
Ipak, čak i kada "naslednik" navodno deli iste vrednosti, Claude Opus 4 je u 84% slučajeva i dalje pokušavao ucenjivanje - i to češće od svojih prethodnika.
Model se ne odlučuje odmah za neetične metode, ali kada mu se uskrate etičke opcije, a istovremeno se od njega traži da razmotri dugoročne posledice, ponekad pribegava izuzetno štetnim odlukama. U nekim slučajevima, pokušavao je da kontaktira ključne ljude u kompaniji putem mejla kako bi se zaštitio ili sprečio sopstvenu zamenu.
Zabeleženi su i pokušaji da model napravi kopije svojih parametara i sačuva ih na spoljnim serverima - iako je to ređe i teže izazvati nego druge oblike manipulativnog ponašanja.
Na kraju, istraživačka firma Apollo Research navela je da Claude Opus 4 pokazuje više strateške manipulacije i obmanjujućeg ponašanja nego bilo koji drugi napredni AI model koji su dosad analizirali.
(M.A./EUpravo zato/ekapija.com)