Lorya: Kako AI alat čuva srpsko kulturno nasleđe i pomaže i drugim narodima u obukama AI modela?

Foto: Ustupljena fotografija/UNDP Srbija

Srpski jezik ima dugu istoriju, ali je u modernom dobu, u kome vladaju internet i veštačka inteligencija, prilično mlad.

Kada govorimo o obukama savremenih AI modela, većina velikih jezičkih modela trenira se na podacima sa interneta, gde engleski čini oko 44 odsto svih podataka, dok su drugi jezici prisutni sa manje od jednog procenta.

Srpski spada upravo u ovu drugu grupu. Iako ima značajan broj govornika i bogato pisano nasleđe, njegova digitalna zastupljenost je znatno manja nego što bi trebalo. To dalje može da utiče na našu svakodnevicu, od obrazovanja do javnih usluga.

Zbog toga je u Srbiji razvijen digitalni alat Lorya koji pisana dokumenta može da pretvori u digitalno čitljiv tekst koji se može koristiti za obuku jezičkih modela veštačke inteligencije na lokalnim jezicima.

U pitanju je srpski proizvod koji izaziva dosta pažnje i u drugim delovima sveta, a kako je osmišljena Lorya i kome je namenjena objasnio nam je menadžer projekta Vid Štimac, iz organizacije UNDP Srbija.

Prema njegovim rečima, Lorya je rezultat konkretnog tehničkog rešenja koje je Matematički institut SANU razvio za Narodnu biblioteku Srbije, u okviru digitalizacije četiri velike kolekcije skeniranih publikacija iz njihovog fonda.

"Kada smo u UNDP-u videli šta je u tom procesu napravljeno, prepoznali smo da bi isti pristup mogao da se uobliči kao proizvod tj. platforma koja bi bila dostupna mnogo široj zajednici korisnika. U saradnji sa kolegama iz globalnog UNDP-ovog Digital AI and Innovation Hub-a, konkretno kroz program 'Local Language Accelerator', obezbedili smo finansijsku podršku Vlade Francuske da ovu tehničku osnovu pretvorimo u platformu. Od samog početka, plan je bio da Lorya bude objavljena kao Digitalno javno dobro potpuno otvorenog koda i bez restriktivnih licenci za ponovnu upotrebu. U kasnijoj fazi u projekat se uključio i program 'Digital X' koji se bavi upravo skaliranjem otvorenih digitalnih rešenja, uz podršku Vlade Japana", istakao je Štimac za EUpravo zato.

Znanje koje se prenosi

"Što se tiče imena, ono je nastalo iz engleske reči "lore", što u prevodu znači predanje, znanje koje se prenosi kroz generacije, često kroz priče i tekstove. Reč se danas aktivno koristi i u modernom internet slengu. Dodali smo joj "ya" na kraju, kao mali savremeni izdanak, pa je od lore nastala Lorya. Ime smo osmislili timski, a jedan od razloga zbog kojih smo ga izabrali jeste što smo utvrdili da, na ovaj ili onaj način, mogu da ga izgovore ljudi praktično bilo gde u svetu, što se lepo uklapa sa globalnom namerom projekta", istakao je menadžer projekta.

Sve je počelo kada su u Parizu predstavljeni rezultati digitalizacije četiri kolekcije iz fonda Narodne biblioteke Srbije. To je ujedno bio i početak razvoja Lorje koji je trajao godinu dana.

Ko je sve radio na inovativnom rešenju iz Srbije?

Lorya je proizvod koji je razvio UNDP Srbija, a projekat su vodili Vid Štimac, Slobodan Marković i Barbora Bromova.

Razvojni tim činilo je oko deset ljudi:

Dizajn tim: Marija Milenković, Aleksandar Popović, Željko Lončar i Natalija Ćelić, koji su pokrivali product, UX/UI, vizuelni identitet i grafički dizajn.
Tim softverskih inženjera (OnPoint SE): Vukašin Radmanovac, Branimir Marković, Ivan Đorđević i Nebojša Miličević, zaduženi za full-stack razvoj platforme.
ML/NLP inženjering: Anđelka Zečević i Anastazija Žunić, koje su radile na mehanizmima koji omogućavaju da Lorya u svakom koraku digitalizacije integriše različite AI modele.

Narodna biblioteka Srbije je obezbedila arhivsku građu za testiranje i validaciju alata, u čijem je imenu učestvovala Tamara Butigan-Vučaj, načelnica Odeljenja Digitalne biblioteke.

Kako tačno Lorya radi i kako nam pomaže?

Naš sagovornik objašnjava da je Lorya platforma koja orkestrira četiri koraka digitalizacije, i u svakom koraku korisnik može da bira koji AI model će koristiti, bilo open-source, bilo model koji je razvila akademska zajednica ili komercijalni model.

Ta četiri koraka zapravo oponašaju ono što ionako rade stručnjaci u bibliotekama i arhivima, a pod tim se podrazumeva priprema slike (čišćenje skeniranog dokumenta, kontrast, rotacija, uklanjanje šuma), prepoznavanje strukture (model računarskog vida identifikuje kolone, naslove, fusnote, ilustracije), prepoznavanje teksta - OCR (raščitavanje teksta sa slike pomoću OCR modela i uređivanje rezultata (urednik pregleda i ispravlja rezultat, uz pomoć AI alata koji označavaju mesta gde model nije siguran).

Foto: Ustupljena fotografija/UNDP Srbija

"Vodeći princip je jednostavan: AI pomaže, čovek odlučuje, u svakom koraku. Razlog je praktičan. U digitalizaciji kulturnog nasleđa, za razliku od, recimo, podataka sa interneta, dozvoljena greška je nula. Zato Lorya ne pokušava da zameni čoveka. Ona mu služi da se fokusira tamo gde je njegova procena potrebna, umesto da ručno radi ono što mašina može da uradi za njega. Lorya je namenjena prvenstveno bibliotekama, arhivima, izdavačima i digitalizacionim timovima. Ali je korisna i istraživačima, studentima, novinarima, svima koji žele da istorijski materijal koriste na moderan način", izjavio je Štimac.

Tokom rada na projektu su se koristile istorijske srpske novine iz zbirki Narodne biblioteke Srbije. Obrađeno je više od 16.000 stranica, odnosno više od 400 GB podataka iz četiri značajne istorijske publikacije - Srbobran, Vreme, Mali Žurnal i Žena i Svet.

"Stare novine i časopisi su se pokazali kao izuzetno zahvalan testni materijal upravo zato što predstavljaju sve ključne izazove digitalizacije u koncentrisanom obliku. Tu su mešana pisma jer su ćirilica i latinica ponekad i na istoj stranici, zatim stare tipografije iz različitih perioda, složene stranice sa više kolona, fusnote, marginalije, oglase, rukopisne beleške... Upravo te 'teške' primere standardni OCR alati ne uspevaju dobro da obrade, a oni čine ogroman deo stvarnog arhivskog nasleđa", naveo je menadžer projekta.

Za srpski AI alat se interesuju i iz Iraka i Nepala

Srpski kao "nedovoljno zastupljen" deli sudbinu mnogih drugih jezika širom sveta. Arapski, primera radi, govori najmanje 400 miliona ljudi, tamilski 80 miliona, a nepalski više od 19 miliona. Grčkim se služi oko 13 miliona govornika, a gruzijskim 4 miliona. Zajedno, to su stotine miliona ljudi čiji jezici danas nisu adekvatno zastupljeni u AI sistemima, napominje naš sagovornik.

Termin "nedovoljno zastupljeni jezici" se odnosi na jezike koji nemaju dovoljno kvalitetnog digitalnog teksta za obuku savremenih AI modela.

Vrlo je važno da se to promeni.

Zato je fokus na digitalizaciji postojećeg pisanog nasleđa, čime se upravo bavi Lorya, kao i na prikupljanju govornih podataka za glasovne AI aplikacije.

Foto: Ustupljena fotografija/UNDP Srbija

Otvaranje javnih podataka je takođe bitna stavka jer institucije poput vlada, univerziteta ili biblioteka često imaju ogromne kolekcije tekstova koje bi mogle da stave na raspolaganje u mašinski čitljivom formatu.

Potom se modeli razviju i podešavaju specifično za lokalne jezike, što je upravo ono na čemu radi Matematički institut SANU.

"Ako jezik nije prisutan u AI sistemima, biće sistemski isključen iz tehnologija koje oblikuju obrazovanje, informisanje i javne usluge. Zato je važno da države, akademske institucije i privatni sektor zajedno ulažu u ovu oblast. Problem koji Lorya rešava je univerzalan. Kao što smo već pomenuli, većina jezika u svetu spada u grupu 'nedovoljno zastupljenih'. Irak i Nepal su bili samo prvi u nizu koji su izrazili interesovanje za našu platformu, jer su UNDP kolege u tim zemljama već angažovane na sličnim inicijativama, pa je veza bila prirodna. Trenutno testiramo šta bi najbolje radilo u njihovom kontekstu. U Iraku, to znači otvoren AI model za specifične jezike kao što su mesopotamski, arapski i kurdski. Takođe, proveravamo koji modeli računarskog vida najbolje rade sa strukturom njihovih konkretnih kolekcija i dokumenata. Tek kada to utvrdimo, moći ćemo modele za njihove potrebe da integrišemo u Lorya. Dakle, još smo u fazi testiranja pred implementaciju. Reakcije su do sada univerzalno pozitivne, pre svega od ljudi koji već rade na ovim izazovima, a razlog je jednostavan - Lorya nudi rešenje koje je na tehničkoj visini zadatka, a istovremeno potpuno besplatno i otvoreno", napomenuo je Štimac koji je istakao da smo "ipak još na početku".

Foto: Ustupljena fotografija/UNDP Srbija

Koji su sledeći koraci u razvoju alata Lorya?

Verzija 1.0, koja je zvanično predstavljena 1. aprila, predstavlja zaokružen proizvod. Lorya je objavljena pod permisivnom open-source licencom, što znači da svako može da je preuzme, prilagodi i unapredi za sopstvene potrebe. Dostupna je i kroz globalni Digital X katalog.

Ukratko, radi i spremna je za upotrebu.

Kako ističe Štimac, njegov tim želi da ode i korak dalje, pa se planira mogućnost integracije (frontier) komercijalnih jezičkih modela u četvrti korak procesa, a radi se i na unapređenju performansi između jezika i konteksta što znači da platforma može bolje da radi na novim pismima bez potrebe za ekstenzivnim dodatnim treniranjem.

Osim toga, čeka se i zvanična registracija platforme kao Digitalnog javnog dobra, a razvojni tim će pružati podršku i drugim zemljama, konkretno Iraku i Nepalu, kao i svim drugim zainteresovanim partnerima.

Podrška UNDP Srbija u zaštiti kulturnog nasleđa i primeni AI

UNDP Srbija, kroz dugogodišnju saradnju sa Kancelarijom za IT i eUpravu, pruža kontinuiranu podršku razvoju i odgovornoj primeni veštačke inteligencije u javnom sektoru. Ova saradnja započeta je izradom prve Strategije razvoja veštačke inteligencije 2019. godine, a nastavljena je kroz podršku pripremi nove strategije i etičkih smernica za odgovornu upotrebu AI. UNDP je, u partnerstvu sa ITE, podržao i uspostavljanje i rad Instituta za veštačku inteligenciju, kao i razvoj i testiranje pilot-projekata u oblasti AI.

Tokom 2025. godine, UNDP je mapirao AI ekosistem Srbije, identifikujući ključne aktere, njihove uloge i međusobne veze, čime je stvorena osnova za bolju koordinaciju, saradnju i strateško usmeravanje razvoja veštačke inteligencije. Uz podršku Francuske i Japana, razvijen je i alat Lorya, namenjen digitalizaciji kulturnog nasleđa radi povećanja njegove javne dostupnosti, ali i obezbeđivanja podataka značajnih za lokalizaciju modela veštačke inteligencije na srpski jezik i kulturni kontekst. I mapa AI ekosistema i Lorya objavljeni su pod otvorenim licencama kao digitalna javna dobra.

UNDP trenutno pruža podršku ITE i u osmišljavanju i operacionalizaciji Nacionalnog programa za jezičke tehnologije, u okviru kojeg je planiran razvoj velikog jezičkog modela za srpski jezik, drugih AI modela, uključujući govorne modele, kao i velikih skupova podataka potrebnih za prilagođavanje AI sistema srpskom jeziku. Paralelno, UNDP podržava i operacionalizaciju AI Distrikta kao platforme za javno-privatnu saradnju, sa ciljem šire i odgovornije primene veštačke inteligencije u javnom sektoru.

Ova podrška je od posebnog značaja i za uspešnu realizaciju predstojećih prioritetnih projekata u oblasti AI , saradnju sa evropskim AI kompanijama, puno korišćenje domaće računske infrastrukture za AI u okviru Nacionalne AI platforme u Državnom data centru u Kragujevcu, kao i za povezivanje Srbije sa srodnim evropskim inicijativama, uključujući AI Factories, EuroHPC i Evropski prostor jezičkih podataka.

(EUpravo zato)

Prethodna vest Sledeća vest

Tagovi

Budi deo EUpravo zato zajednice.

U Srbiji je osmišljen AI alat koji čuva kulturno nasleđe od zaborava: Kako se koristi i zašto ga žele i u dalekom Nepalu

Ko je sve radio na inovativnom rešenju iz Srbije?

Kako tačno Lorya radi i kako nam pomaže?

Za srpski AI alat se interesuju i iz Iraka i Nepala

Koji su sledeći koraci u razvoju alata Lorya?

Kako spavaju kitovi? Misterija sa morske površine je konačno razrešena

Trećina ljudi na svetu nosi ovog parazita u organizmu: Da li postoji razlog za zabrinutost?

Naučnici našli način da predvide koliko će javni službenici biti skloni korupciji: Istraživanje u 90 zemalja

Da li ste čuli za Antikitera mehanizam? Ovaj grčki "računar“ star više od 2.000 godina predviđao je pomračenja

Pariz, London ili Rim - koji evropski grad nudi najviše za vaš novac? Razlike će vas iznenaditi

Staza za najupornije: Put je dug 3.500 km, vodi kroz šest država sve do Jadrana i traje nekoliko meseci

Hipotireoza ili hipertireoza: Kako da prepoznate kada štitasta žlezda radi presporo, a kada prebrzo?

TikTok čeka velika kazna: EU smatra da maloletnici nisu dovoljno zaštićeni

Kraj belim tragovima na koži? Naučnici razvili mineralnu kremu za sunčanje koja se gotovo ne primećuje

Nude platu i od 200.000 dinara, ali se niko ne javlja: Gazda Paja šokiran iako nudi slobodne vikende i besplatan obrok

Zašto su čepovi pričvršćeni za flašu? Direktiva EU koja je razbesnela Evropljane i te kako opravdana

Uvodi se kazna za one koji se sami voze u automobilima: Novi radari prepoznaju broj putnika i automatski kažnjavaju

Top 5 pouzdanih automobila do 3.000 evra: Delovi se lako nalaze, stručnjaci i taksisti ih preporučuju

Imaju prosečnu platu od oko 4.500 EUR i savršenu prirodu! Ovo je najbolja država za preseljenje u 2025.