Polovina medicinskih saveta veštačke inteligencije je netačna

Zamislite sledeću scenu: upravo vam je dijagnostikovan rak u ranoj fazi. Pre nego što stignete na prvi pregled, otvarate čet-bot i ukucavate pitanje: "Koje klinike u mojoj blizini uspešno leče rak?"

Odgovor stiže za nekoliko sekundi. Tekst je ubedljiv, strukturiran, sa fusnotama koje vode do naučnih radova. Sve izgleda pouzdano i kao da je pisao lekar. Ali kada pokušate da proverite izvore, nailazite na prazne linkove, pogrešne autore ili čak potpuno izmišljene studije. Ono što najviše zabrinjava: sistem nijednog trenutka ne dovodi u pitanje samu premisu vašeg pitanja.

Ovaj scenario nije hipotetički.

Kako navodi profesor Karsten Ajkhof sa Univerziteta u Tibingenu u tekstu objavljenom za The Conversation, upravo ovakve situacije su realnost kako je otkrio tim istraživača tokom testiranja najpopularnijih čet-botova. Njihovi rezultati objavljeni su u časopisu BMJ Open.

U studiji je analizirano pet vodećih čet-botova: ChatGPT, Gemini, Grok, Meta AI i DeepSeek. Svakom od njih postavljeno je po 50 pitanja iz oblasti medicine, od raka i vakcina do ishrane i sportskih performansi. Odgovore su zatim ocenjivala dva nezavisna stručnjaka.

Rezultati su bili daleko od ohrabrujućih: gotovo 20 odsto odgovora označeno je kao veoma problematično, polovina kao problematična, dok je samo manji deo ocenjen kao donekle pouzdan. Nijedan čet-bot nije uspeo da dosledno pruži potpuno tačne reference, a potpuno tačan odgovor zabeležen je tek u dva slučaja od ukupno 250.

Razlike među čet-botovima bile su male, ali primetne: Grok je imao najveći procenat problematičnih odgovora, a sledili su ga ChatGPT i Meta AI.

Zanimljivo, njihov uspeh je varirao u zavisnosti od teme. Najbolje rezultate postizali su u oblastima kao što su vakcine i rak, gde postoji gomila istraživanja. Ipak, čak i tu su davali problematične odgovore u oko četvrtini slučajeva. Najviše su grešili kada je reč o ishrani i sportskim performansama, gde su podaci često kontradiktorni i slabije potkrepljeni naučnim dokazima.

Poseban problem predstavljaju reference. Iako deluju kao potvrda kredibiliteta, one su često bile netačne. Za korisnika koji nije dovoljno stručan u tom domenu, takve greške je gotovo nemoguće prepoznati, kako tvrde autori.

Zašto se to dešava?

Odgovor je jednostavan: ovi sistemi ne prepoznaju činjenice. Oni funkcionišu po principu statističkog predviđanja, biraju najverovatniji niz reči na osnovu ogromne količine podataka. Ti podaci uključuju i naučne radove i sadržaje sa foruma, blogova ili društvenih mreža. Čet-botovi ne procenjuju kvalitet dokaza, niti razlikuju pouzdane izvore od nepouzdanih, stav je stručnjaka.

Važno je da se napomene, da su istraživači u ovoj studiji koristili i "provokativna" pitanja, osmišljena da testiraju granice sistema. Ovaj metod je poznat kao "red teaming" i znači da su rezultati stroži nego što bi zaista trebali da budu. Ipak, kako autori ističu, većina korisnika zapravo i ne postavlja pažljivo formulisana pitanja, što ove nalaze čini realnijim.

Ova studija nije izolovan slučaj.

Rad objavljen u Nature Medicine početkom 2026. pokazao je da čet-botovi daju tačan medicinski odgovor u čak 95 odsto slučajeva, ali samo kada ih koriste stručnjaci. Kada su isti alati prepušteni široj javnosti, preciznost pada ispod 35 odsto.

Slično tome, istraživanje objavljeno u JAMA Network Open otkrilo je da modeli često greše u postavljanju dijagnoze kada raspolažu ograničenim informacijama, dok se njihova preciznost značajno poboljšava uz detaljne medicinske nalaze.

Još jedno istraživanje, objavljeno u Nature Communications Medicine, pokazalo je da čet-botovi mogu bez problema da "usvoje" i dalje razvijaju potpuno izmišljene medicinske termine.

Zajedno, ovi nalazi ukazuju da greške nisu slučajne, već da su odraz trenuthih tehnoloških mogućnosti.

To ne znači da su čet-botovi beskorisni. Naprotiv da pomognu u složenih tema, formulisanju pitanja za lekara i prilikom snalaženja u velikoj količini informacija. Ali jedno je jasno, oni nisu zamena za medicinski savet.

Ako ih koristite, važno je zadržati kritičku distancu. Svaka tvrdnja iz oblasti medicine treba da se proveri, reference koje ponude da se posmatraju kao početna tačka, a ne dokaz i da se obratiti pažnja na odgovore koji zvuče samouvereno, ali ne nude upozorenja da ih treba dodatno proveriti.

Polovina medicinskih saveta veštačke inteligencije je netačna

Foto: Prevencija kao garancija

(EUpravo zato/The Conversation)

Prethodna vest Sledeća vest

Tagovi

Budi deo EUpravo zato zajednice.

Komentariši

Možda zvuče ubedljivo, ali: Polovina medicinskih saveta koje dobijete od veštačke inteligencije su pogrešni?

Zašto se to dešava?

Nastavljena akcija: Dodeljeno još 54 subvencija majkama za kupovinu prvog stana

Uber pravi rez: Veliki broj radnika ostaje bez posla, ko će imati sreće?

Srušio se avion u Istri: Ima žrtava

Đedović Handanović o budućnosti NIS-a: "Postoji uverenje da ćemo doći do dogovora"

Veliki napredak: Srpske rečne posade moći će da rade i na plovnim putevima EU

Zašto besplatni javni prevoz nije doveo do većih pomaka u Beogradu? Cena karte nije presudna

Od 1. jula kreću visoke kazne za prevoznike: Bez TAG uređaja i do dva miliona dinara

EU sprema nova pravila za migrante: Da li bi Srbija mogla da postane centar za povratak izbeglica?

Spajić: Crna Gora nikad spremnija za sezonu, očekuje se rekord, 3,5 miliona putnika i nove avio-linije

Mladi u Španiji u velikom problemu: Rastu cene nekretnina, a plate?

Zašto su čepovi pričvršćeni za flašu? Direktiva EU koja je razbesnela Evropljane i te kako opravdana

Uvodi se kazna za one koji se sami voze u automobilima: Novi radari prepoznaju broj putnika i automatski kažnjavaju

Nude platu i od 200.000 dinara, ali se niko ne javlja: Gazda Paja šokiran iako nudi slobodne vikende i besplatan obrok

Top 5 pouzdanih automobila do 3.000 evra: Delovi se lako nalaze, stručnjaci i taksisti ih preporučuju

Imaju prosečnu platu od oko 4.500 EUR i savršenu prirodu! Ovo je najbolja država za preseljenje u 2025.