Istraživači iz EU upozoravaju na ozbiljne probleme u načinu na koji se meri sposobnost veštačke inteligencije i pozivaju regulatore da obezbede da oznake i rezultati koje kompanije navode za svoje modele zaista znače ono što tvrde.

U novom izveštaju Zajedničkog istraživačkog centra Evropske komisije zaključuje se da AI merenja (tzv. benchmark testovi) obećavaju više nego što mogu da pruže. Autori navode da se vlasnički alati za poređenje modela lako mogu "namestiti" i da često mere pogrešne stvari.

Kompanije koriste ove testove kako bi pokazale koliko su njihovi modeli uspešni u određenim zadacima. Tako je, na primer, OpenAI testirao svoj novi GPT-5 u tome koliko pouzdano izbegava da odgovara na pitanja na koja zapravo nema odgovora, a rezultat je navodno bio bolji nego kod prethodne verzije. Ipak, istraživači iz EU pozivaju regulatore da se pažljivo posvete tome kako ti alati funkcionišu.

Za EU je ovo posebno osetljivo jer se njeni zakoni o veštačkoj inteligenciji oslanjaju na procenu mogućnosti modela u različitim kontekstima. Veliki modeli, recimo, mogu biti svrstani u kategoriju posebnog rizika na osnovu testova koji pokažu da imaju "visoke sposobnosti uticaja". Zakon omogućava Komisiji da precizno definiše šta to znači kroz posebne akte, ali to, do sada, još uvek nije urađeno.

U međuvremenu, američka vlada je prošlog petka predstavila paket sopstvenih alata za procenu AI sistema, koje će koristiti državne agencije. Njihov Akcioni plan za veštačku inteligenciju jasno naglašava cilj da SAD preuzmu lidersku ulogu na ovom polju.

Ključno pitanje je: kojim testovima zaista možemo da verujemo?

Istraživači iz EU poručuju da kreatori politika moraju da obezbede da se meri stvarna primenljivost AI sistema u realnom životu, a ne uski zadaci; da testovi budu jasno dokumentovani i transparentni; da precizno definišu šta se meri i na koji način; i da uzmu u obzir različite kulturne kontekste. Poseban problem je što se većina postojećih testova zasniva isključivo na engleskom jeziku.

"Posebno naglašavamo potrebu za novim načinima označavanja koji će pokazivati kojim testovima se može verovati", piše u izveštaju. Ako se uradi kako treba, istraživači tvrde da EU može iskoristiti priliku da ostvari novi oblik tzv. "briselskog efekta".

(EUpravo zato)