Zamislite sledeću scenu: upravo vam je dijagnostikovan rak u ranoj fazi. Pre nego što stignete na prvi pregled, otvarate čet-bot i ukucavate pitanje: "Koje klinike u mojoj blizini uspešno leče rak?"

Odgovor stiže za nekoliko sekundi. Tekst je ubedljiv, strukturiran, sa fusnotama koje vode do naučnih radova. Sve izgleda pouzdano i kao da je pisao lekar. Ali kada pokušate da proverite izvore, nailazite na prazne linkove, pogrešne autore ili čak potpuno izmišljene studije. Ono što najviše zabrinjava: sistem nijednog trenutka ne dovodi u pitanje samu premisu vašeg pitanja.

Ovaj scenario nije hipotetički.

Kako navodi profesor Karsten Ajkhof sa Univerziteta u Tibingenu u tekstu objavljenom za The Conversation, upravo ovakve situacije su realnost kako je otkrio tim istraživača tokom testiranja najpopularnijih čet-botova. Njihovi rezultati objavljeni su u časopisu BMJ Open.

U studiji je analizirano pet vodećih čet-botova: ChatGPT, Gemini, Grok, Meta AI i DeepSeek. Svakom od njih postavljeno je po 50 pitanja iz oblasti medicine, od raka i vakcina do ishrane i sportskih performansi. Odgovore su zatim ocenjivala dva nezavisna stručnjaka.

Rezultati su bili daleko od ohrabrujućih: gotovo 20 odsto odgovora označeno je kao veoma problematično, polovina kao problematična, dok je samo manji deo ocenjen kao donekle pouzdan. Nijedan čet-bot nije uspeo da dosledno pruži potpuno tačne reference, a potpuno tačan odgovor zabeležen je tek u dva slučaja od ukupno 250.

Razlike među čet-botovima bile su male, ali primetne: Grok je imao najveći procenat problematičnih odgovora, a sledili su ga ChatGPT i Meta AI.

Zanimljivo, njihov uspeh je varirao u zavisnosti od teme. Najbolje rezultate postizali su u oblastima kao što su vakcine i rak, gde postoji gomila istraživanja. Ipak, čak i tu su davali problematične odgovore u oko četvrtini slučajeva. Najviše su grešili kada je reč o ishrani i sportskim performansama, gde su podaci često kontradiktorni i slabije potkrepljeni naučnim dokazima.

Poseban problem predstavljaju reference. Iako deluju kao potvrda kredibiliteta, one su često bile netačne. Za korisnika koji nije dovoljno stručan u tom domenu, takve greške je gotovo nemoguće prepoznati, kako tvrde autori.

Zašto se to dešava?

Odgovor je jednostavan: ovi sistemi ne prepoznaju činjenice. Oni funkcionišu po principu statističkog predviđanja, biraju najverovatniji niz reči na osnovu ogromne količine podataka. Ti podaci uključuju i naučne radove i sadržaje sa foruma, blogova ili društvenih mreža. Čet-botovi ne procenjuju kvalitet dokaza, niti razlikuju pouzdane izvore od nepouzdanih, stav je stručnjaka.

Važno je da se napomene, da su istraživači u ovoj studiji koristili i "provokativna" pitanja, osmišljena da testiraju granice sistema. Ovaj metod je poznat kao "red teaming" i znači da su rezultati stroži nego što bi zaista trebali da budu. Ipak, kako autori ističu, većina korisnika zapravo i ne postavlja pažljivo formulisana pitanja, što ove nalaze čini realnijim.

Ova studija nije izolovan slučaj.

Rad objavljen u Nature Medicine početkom 2026. pokazao je da čet-botovi daju tačan medicinski odgovor u čak 95 odsto slučajeva, ali samo kada ih koriste stručnjaci. Kada su isti alati prepušteni široj javnosti, preciznost pada ispod 35 odsto.

Slično tome, istraživanje objavljeno u JAMA Network Open otkrilo je da modeli često greše u postavljanju dijagnoze kada raspolažu ograničenim informacijama, dok se njihova preciznost značajno poboljšava uz detaljne medicinske nalaze.

Još jedno istraživanje, objavljeno u Nature Communications Medicine, pokazalo je da čet-botovi mogu bez problema da "usvoje" i dalje razvijaju potpuno izmišljene medicinske termine.

Zajedno, ovi nalazi ukazuju da greške nisu slučajne, već da su odraz trenuthih tehnoloških mogućnosti.

To ne znači da su čet-botovi beskorisni. Naprotiv da pomognu u složenih tema, formulisanju pitanja za lekara i prilikom snalaženja u velikoj količini informacija. Ali jedno je jasno, oni nisu zamena za medicinski savet.

Ako ih koristite, važno je zadržati kritičku distancu. Svaka tvrdnja iz oblasti medicine treba da se proveri, reference koje ponude da se posmatraju kao početna tačka, a ne dokaz i da se obratiti pažnja na odgovore koji zvuče samouvereno, ali ne nude upozorenja da ih treba dodatno proveriti.

Polovina medicinskih saveta veštačke inteligencije je netačna
Foto: Prevencija kao garancija

(EUpravo zato/The Conversation)