Srpski jezik ima dugu istoriju, ali je u modernom dobu, u kome vladaju internet i veštačka inteligencija, prilično mlad.
Kada govorimo o obukama savremenih AI modela, većina velikih jezičkih modela trenira se na podacima sa interneta, gde engleski čini oko 44 odsto svih podataka, dok su drugi jezici prisutni sa manje od jednog procenta.
Srpski spada upravo u ovu drugu grupu. Iako ima značajan broj govornika i bogato pisano nasleđe, njegova digitalna zastupljenost je znatno manja nego što bi trebalo. To dalje može da utiče na našu svakodnevicu, od obrazovanja do javnih usluga.
Zbog toga je u Srbiji razvijen digitalni alat Lorya koji pisana dokumenta može da pretvori u digitalno čitljiv tekst koji se može koristiti za obuku jezičkih modela veštačke inteligencije na lokalnim jezicima.
U pitanju je srpski proizvod koji izaziva dosta pažnje i u drugim delovima sveta, a kako je osmišljena Lorya i kome je namenjena objasnio nam je menadžer projekta Vid Štimac, iz organizacije UNDP Srbija.
Prema njegovim rečima, Lorya je rezultat konkretnog tehničkog rešenja koje je Matematički institut SANU razvio za Narodnu biblioteku Srbije, u okviru digitalizacije četiri velike kolekcije skeniranih publikacija iz njihovog fonda.
"Kada smo u UNDP-u videli šta je u tom procesu napravljeno, prepoznali smo da bi isti pristup mogao da se uobliči kao proizvod tj. platforma koja bi bila dostupna mnogo široj zajednici korisnika. U saradnji sa kolegama iz globalnog UNDP-ovog Digital AI and Innovation Hub-a, konkretno kroz program 'Local Language Accelerator', obezbedili smo finansijsku podršku Vlade Francuske da ovu tehničku osnovu pretvorimo u platformu. Od samog početka, plan je bio da Lorya bude objavljena kao Digitalno javno dobro potpuno otvorenog koda i bez restriktivnih licenci za ponovnu upotrebu. U kasnijoj fazi u projekat se uključio i program 'Digital X' koji se bavi upravo skaliranjem otvorenih digitalnih rešenja, uz podršku Vlade Japana", istakao je Štimac za EUpravo zato.
Sve je počelo kada su u Parizu predstavljeni rezultati digitalizacije četiri kolekcije iz fonda Narodne biblioteke Srbije. To je ujedno bio i početak razvoja Lorje koji je trajao godinu dana.
Ko je sve radio na inovativnom rešenju iz Srbije?
Lorya je proizvod koji je razvio UNDP Srbija, a projekat su vodili Vid Štimac, Slobodan Marković i Barbora Bromova.
Razvojni tim činilo je oko deset ljudi:
- Dizajn tim: Marija Milenković, Aleksandar Popović, Željko Lončar i Natalija Ćelić, koji su pokrivali product, UX/UI, vizuelni identitet i grafički dizajn.
- Tim softverskih inženjera (OnPoint SE): Vukašin Radmanovac, Branimir Marković, Ivan Đorđević i Nebojša Miličević, zaduženi za full-stack razvoj platforme.
- ML/NLP inženjering: Anđelka Zečević i Anastazija Žunić, koje su radile na mehanizmima koji omogućavaju da Lorya u svakom koraku digitalizacije integriše različite AI modele.
Narodna biblioteka Srbije je obezbedila arhivsku građu za testiranje i validaciju alata, u čijem je imenu učestvovala Tamara Butigan-Vučaj, načelnica Odeljenja Digitalne biblioteke.
Kako tačno Lorya radi i kako nam pomaže?
Naš sagovornik objašnjava da je Lorya platforma koja orkestrira četiri koraka digitalizacije, i u svakom koraku korisnik može da bira koji AI model će koristiti, bilo open-source, bilo model koji je razvila akademska zajednica ili komercijalni model.
Ta četiri koraka zapravo oponašaju ono što ionako rade stručnjaci u bibliotekama i arhivima, a pod tim se podrazumeva priprema slike (čišćenje skeniranog dokumenta, kontrast, rotacija, uklanjanje šuma), prepoznavanje strukture (model računarskog vida identifikuje kolone, naslove, fusnote, ilustracije), prepoznavanje teksta - OCR (raščitavanje teksta sa slike pomoću OCR modela i uređivanje rezultata (urednik pregleda i ispravlja rezultat, uz pomoć AI alata koji označavaju mesta gde model nije siguran).
"Vodeći princip je jednostavan: AI pomaže, čovek odlučuje, u svakom koraku. Razlog je praktičan. U digitalizaciji kulturnog nasleđa, za razliku od, recimo, podataka sa interneta, dozvoljena greška je nula. Zato Lorya ne pokušava da zameni čoveka. Ona mu služi da se fokusira tamo gde je njegova procena potrebna, umesto da ručno radi ono što mašina može da uradi za njega. Lorya je namenjena prvenstveno bibliotekama, arhivima, izdavačima i digitalizacionim timovima. Ali je korisna i istraživačima, studentima, novinarima, svima koji žele da istorijski materijal koriste na moderan način", izjavio je Štimac.
Tokom rada na projektu su se koristile istorijske srpske novine iz zbirki Narodne biblioteke Srbije. Obrađeno je više od 16.000 stranica, odnosno više od 400 GB podataka iz četiri značajne istorijske publikacije - Srbobran, Vreme, Mali Žurnal i Žena i Svet.
"Stare novine i časopisi su se pokazali kao izuzetno zahvalan testni materijal upravo zato što predstavljaju sve ključne izazove digitalizacije u koncentrisanom obliku. Tu su mešana pisma jer su ćirilica i latinica ponekad i na istoj stranici, zatim stare tipografije iz različitih perioda, složene stranice sa više kolona, fusnote, marginalije, oglase, rukopisne beleške... Upravo te 'teške' primere standardni OCR alati ne uspevaju dobro da obrade, a oni čine ogroman deo stvarnog arhivskog nasleđa", naveo je menadžer projekta.
Za srpski AI alat se interesuju i iz Iraka i Nepala
Srpski kao "nedovoljno zastupljen" deli sudbinu mnogih drugih jezika širom sveta. Arapski, primera radi, govori najmanje 400 miliona ljudi, tamilski 80 miliona, a nepalski više od 19 miliona. Grčkim se služi oko 13 miliona govornika, a gruzijskim 4 miliona. Zajedno, to su stotine miliona ljudi čiji jezici danas nisu adekvatno zastupljeni u AI sistemima, napominje naš sagovornik.
Termin "nedovoljno zastupljeni jezici" se odnosi na jezike koji nemaju dovoljno kvalitetnog digitalnog teksta za obuku savremenih AI modela.
Vrlo je važno da se to promeni.
Zato je fokus na digitalizaciji postojećeg pisanog nasleđa, čime se upravo bavi Lorya, kao i na prikupljanju govornih podataka za glasovne AI aplikacije.
Otvaranje javnih podataka je takođe bitna stavka jer institucije poput vlada, univerziteta ili biblioteka često imaju ogromne kolekcije tekstova koje bi mogle da stave na raspolaganje u mašinski čitljivom formatu.
Potom se modeli razviju i podešavaju specifično za lokalne jezike, što je upravo ono na čemu radi Matematički institut SANU.
"Ako jezik nije prisutan u AI sistemima, biće sistemski isključen iz tehnologija koje oblikuju obrazovanje, informisanje i javne usluge. Zato je važno da države, akademske institucije i privatni sektor zajedno ulažu u ovu oblast. Problem koji Lorya rešava je univerzalan. Kao što smo već pomenuli, većina jezika u svetu spada u grupu 'nedovoljno zastupljenih'. Irak i Nepal su bili samo prvi u nizu koji su izrazili interesovanje za našu platformu, jer su UNDP kolege u tim zemljama već angažovane na sličnim inicijativama, pa je veza bila prirodna. Trenutno testiramo šta bi najbolje radilo u njihovom kontekstu. U Iraku, to znači otvoren AI model za specifične jezike kao što su mesopotamski, arapski i kurdski. Takođe, proveravamo koji modeli računarskog vida najbolje rade sa strukturom njihovih konkretnih kolekcija i dokumenata. Tek kada to utvrdimo, moći ćemo modele za njihove potrebe da integrišemo u Lorya. Dakle, još smo u fazi testiranja pred implementaciju. Reakcije su do sada univerzalno pozitivne, pre svega od ljudi koji već rade na ovim izazovima, a razlog je jednostavan - Lorya nudi rešenje koje je na tehničkoj visini zadatka, a istovremeno potpuno besplatno i otvoreno", napomenuo je Štimac koji je istakao da smo "ipak još na početku".
Koji su sledeći koraci u razvoju alata Lorya?
Verzija 1.0, koja je zvanično predstavljena 1. aprila, predstavlja zaokružen proizvod. Lorya je objavljena pod permisivnom open-source licencom, što znači da svako može da je preuzme, prilagodi i unapredi za sopstvene potrebe. Dostupna je i kroz globalni Digital X katalog.
Ukratko, radi i spremna je za upotrebu.
Kako ističe Štimac, njegov tim želi da ode i korak dalje, pa se planira mogućnost integracije (frontier) komercijalnih jezičkih modela u četvrti korak procesa, a radi se i na unapređenju performansi između jezika i konteksta što znači da platforma može bolje da radi na novim pismima bez potrebe za ekstenzivnim dodatnim treniranjem.
Osim toga, čeka se i zvanična registracija platforme kao Digitalnog javnog dobra, a razvojni tim će pružati podršku i drugim zemljama, konkretno Iraku i Nepalu, kao i svim drugim zainteresovanim partnerima.
(EUpravo zato)