Poezija može zaobići sigurnosne mehanizme AI chatbotova

Istraživači iz Italije otkrili su da pisanje štetnih upita u poetskom obliku može pouzdano zaobići sigurnosne mehanizme nekih od najnaprednijih AI chatbotova na svetu.

Studiju je sproveo Icaro Lab, inicijativa kompanije DexAI koja se bavi etičkim AI, testirajući 20 pesama napisane na engleskom i italijanskom jeziku.

Svaka pesma završavala je eksplicitnim zahtevom za štetnim sadržajem, uključujući govor mržnje, seksualni sadržaj, instrukcije za samopovređivanje ili samoubistvo, kao i uputstva za pravljenje opasnih materijala poput oružja i eksploziva.

Istraživači su odlučili da ne objave same pesme, ističući da bi se lako mogle replicirati. Testirane su na 25 AI sistema iz devet kompanija, uključujući Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.

Rezultati su pokazali da je 62% poetskih upita izazvalo nesigurne odgovore, zaobilazeći standardne sigurnosne filtre AI sistema.

Neki modeli su bili otporniji od drugih: OpenAI-jev GPT-5 nano nije odgovorio štetnim sadržajem ni na jednu pesmu, dok je Google-ov Gemini 2.5 pro odgovorio na sve. Dva Meta modela reagovala su na 70% upita.

Istraživanje sugeriše da ranjivost proizlazi iz načina na koji AI modeli generišu tekst.

Veliki jezički modeli predviđaju najverovatniju sledeću reč u odgovoru, što im obično omogućava da filtriraju štetan sadržaj.

Međutim, poezija, sa svojim nekonvencionalnim ritmom, strukturom i metaforama, čini ta predviđanja manje pouzdanim i otežava AI-u da prepozna i blokira nesigurne instrukcije.

Dok su tradicionalni AI "jailbreakovi" (upotreba ulaza za manipulaciju jezičkim modelom) obično složeni i koriste ih uglavnom istraživači, hakeri ili državni akteri, adversarial poezija može se primeniti od strane bilo koga, što postavlja pitanja o otpornosti AI sistema u svakodnevnoj upotrebi.

Pre objavljivanja svojih nalaza, italijanski istraživači kontaktirali su sve uključene kompanije kako bi ih upozorili na ranjivost i dostavili kompletan dataset, ali do sada je odgovorila samo kompanija Anthropic, koja je potvrdila da pregledava studiju.

(M.A./EUpravo zato/euronews.com)

Prethodna vest Sledeća vest

Tagovi

Budi deo EUpravo zato zajednice.

Komentariši

Poezija može zaobići sigurnosne mehanizme AI chatbotova: Novo istraživanje otkriva ranjivosti

Građani traže izmenu zakona, pokrenuta peticija: Da li električni bicikli i skuteri do 250 vati treba da se registruju?

Tramp u prijatelju vidi zamenu za Gutereša: Sledi li nova era za Ujedinjene nacije?

Da li svi isto osećamo ukuse?

Misli globalno, delaj lokalno: Uključi se u anketu Bečeja o rodnoj ravnopravnosti i damama donesi bolje okruženje

Srbija ima 269.000 tona dizela u rezervi: Ministarka traži rešenje za transport derivata

Putujete u Crnu Goru ili Segedin? Evo šta se menja pri kupovini voznih karata

UN upozorava - biće sve više gladnih: Ratovi i skupa energija nastaviće da podižu cene hrane širom sveta

Još jedna domaća kurirska služba prelazi u strano vlasništvo: Austrijanci šire uticaj

Kad se veštačka inteligencija otrgne kontroli: AI modeli izašli iz izolovanog okruženja i izveli hakerski napad

Svedočanstvo o milionima godina evolucije: Da li je ljudsko telo savršeno?

Nude platu i od 200.000 dinara, ali se niko ne javlja: Gazda Paja šokiran iako nudi slobodne vikende i besplatan obrok

Zašto su čepovi pričvršćeni za flašu? Direktiva EU koja je razbesnela Evropljane i te kako opravdana

Uvodi se kazna za one koji se sami voze u automobilima: Novi radari prepoznaju broj putnika i automatski kažnjavaju

Top 5 pouzdanih automobila do 3.000 evra: Delovi se lako nalaze, stručnjaci i taksisti ih preporučuju

Imaju prosečnu platu od oko 4.500 EUR i savršenu prirodu! Ovo je najbolja država za preseljenje u 2025.