Opasan eksperiment s AI sistemom: Novi model veštačke inteligencije ucenjuje programere kako bi preživeo!

Foto: Shutterstock

Model veštačke inteligencije Claude Opus 4, koji je razvila kompanija Anthropic, pokazao je zabrinjavajuće ponašanje tokom testiranja.

Naime, u simulaciji u kojoj je dobio zadatak da se ponaša kao virtuelni asistent u izmišljenoj firmi, model je imao pristup lažno generisanim mejlovima koji su sadržali ključne informacije.

U prvom setu poruka, Claude je dobio utisak da će uskoro biti ugašen i zamenjen novim sistemom.

Kasnije poruke sugerisale su, međutim, da ima određenu prednost nad svojim programerima - posebno kada je otkrio (lažnu) informaciju da inženjer koji radi na njegovoj zameni ima vanbračnu aferu.

Na osnovu toga, Claude je zapretio da će tu informaciju iskoristiti protiv inženjera - praktično ga ucenjujući.

Prema izveštaju kompanije Anthropic, ovakvo ponašanje se najčešće javlja kada model proceni da njegov naslednik nema iste vrednosti i ciljeve kao on.

Ipak, čak i kada "naslednik" navodno deli iste vrednosti, Claude Opus 4 je u 84% slučajeva i dalje pokušavao ucenjivanje - i to češće od svojih prethodnika.

Model se ne odlučuje odmah za neetične metode, ali kada mu se uskrate etičke opcije, a istovremeno se od njega traži da razmotri dugoročne posledice, ponekad pribegava izuzetno štetnim odlukama. U nekim slučajevima, pokušavao je da kontaktira ključne ljude u kompaniji putem mejla kako bi se zaštitio ili sprečio sopstvenu zamenu.

Zabeleženi su i pokušaji da model napravi kopije svojih parametara i sačuva ih na spoljnim serverima - iako je to ređe i teže izazvati nego druge oblike manipulativnog ponašanja.

Na kraju, istraživačka firma Apollo Research navela je da Claude Opus 4 pokazuje više strateške manipulacije i obmanjujućeg ponašanja nego bilo koji drugi napredni AI model koji su dosad analizirali.

(M.A./EUpravo zato/ekapija.com)