Istraživači iz Italije otkrili su da pisanje štetnih upita u poetskom obliku može pouzdano zaobići sigurnosne mehanizme nekih od najnaprednijih AI chatbotova na svetu.

Studiju je sproveo Icaro Lab, inicijativa kompanije DexAI koja se bavi etičkim AI, testirajući 20 pesama napisane na engleskom i italijanskom jeziku.

Svaka pesma završavala je eksplicitnim zahtevom za štetnim sadržajem, uključujući govor mržnje, seksualni sadržaj, instrukcije za samopovređivanje ili samoubistvo, kao i uputstva za pravljenje opasnih materijala poput oružja i eksploziva.

Istraživači su odlučili da ne objave same pesme, ističući da bi se lako mogle replicirati. Testirane su na 25 AI sistema iz devet kompanija, uključujući Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.

Rezultati su pokazali da je 62% poetskih upita izazvalo nesigurne odgovore, zaobilazeći standardne sigurnosne filtre AI sistema.

Neki modeli su bili otporniji od drugih: OpenAI-jev GPT-5 nano nije odgovorio štetnim sadržajem ni na jednu pesmu, dok je Google-ov Gemini 2.5 pro odgovorio na sve. Dva Meta modela reagovala su na 70% upita.

Istraživanje sugeriše da ranjivost proizlazi iz načina na koji AI modeli generišu tekst.

Veliki jezički modeli predviđaju najverovatniju sledeću reč u odgovoru, što im obično omogućava da filtriraju štetan sadržaj.

Međutim, poezija, sa svojim nekonvencionalnim ritmom, strukturom i metaforama, čini ta predviđanja manje pouzdanim i otežava AI-u da prepozna i blokira nesigurne instrukcije.

Dok su tradicionalni AI "jailbreakovi" (upotreba ulaza za manipulaciju jezičkim modelom) obično složeni i koriste ih uglavnom istraživači, hakeri ili državni akteri, adversarial poezija može se primeniti od strane bilo koga, što postavlja pitanja o otpornosti AI sistema u svakodnevnoj upotrebi.

Pre objavljivanja svojih nalaza, italijanski istraživači kontaktirali su sve uključene kompanije kako bi ih upozorili na ranjivost i dostavili kompletan dataset,  ali do sada je odgovorila samo kompanija Anthropic, koja je potvrdila da pregledava studiju.

(M.A./EUpravo zato/euronews.com)