Autor sustava ispravi.me koji već 25 godina pronalazi pravopisne pogreške: Hrvatski jezik je ugrožen
Hašek, mnogima poznatiji po svojoj web adresi ispravi.me, već 25 godina traži, ali i ispravlja pravopisne pogreške u hrvatskom jeziku. S autorom sustava bez kojeg bi mnogi seminarski i diplomski radovi, pa i novinarski tekstovi, bili polupismeni razgovarali smo o nastanku Hašeka. Šandor Dembitz, umirovljeni profesor zagrebačkog FER-a, ispričao nam je kako ni jezik ne može bez matematike te ustvrdio da Republika Hrvatska nedovoljno brine o očuvanju našeg jezika te pojasnio koje mu opasnosti danas prijete.
Profesor Šandor Dembitz desetljećima je, prije odlaska u mirovinu, radio na zagrebačkom Fakultetu elektrotehnike i računarstva. Ipak, mnogo je poznatiji po onome što je ostavio iza sebe – Hašeku, sustavu koji već 25 godina ispravlja pravopisne pogreške. U velikom intervjuu za srednja.hr profesor Dembitz ispričao nam je kako je nastao Hašek, tko o njemu brine, no i naglasio da je to samo 10% onoga što su mogli napraviti da je država pokazala inicijativu.
Kako ste i kada došli na ideju izrade takvog sustava? Kako ste izabrali ime?
Projektu Ispravi.me ime je dao Gordan Gledec, moj dugogodišnji suradnik i aktualni dekan FER-a. On je čak i platio pravo korištenja toga imena u adresi https://ispravi.me/. S projektom Ispravi.me je njegova jezgrena komponenta, znana pod imenom Hašek, ušla u zrelu fazu svoga života, postavši strojni lektor za tekstove pisane hrvatskim jezikom. Takvim se pomagalom može podičiti mali broj jezika u svijetu. Među njima je hrvatski daleko najmanji po broju korisnika.
Na aktualnoj adresi Hašek je javnosti dostupan od konca 2016., premda je sâm puno stariji. Začetak interesa za obradu prirodnog jezika dogodio se dok sam još bio student, početkom 70-tih godina prošloga stoljeća. Tada sam se zanimao za konvolucijske (ovojničke) kodove, karakteristične po tome da se zaštitni bitovi kvazistohastički obmotavaju oko bitova-nositelja informacije, što kôd čini vrlo otpornim i na vrlo razorne smetnje.
U to vrijeme slučajno sam naletio na esej Andréa Martineta naslovljen jednostavno, Le Mot (Riječ), koji me je ošinuo kao grom. Tada se rodila zamisao da bi ovojnice koje obmataju prirodne jezike vrijedilo pokušati odmatati tehničkim sredstvima. Nakon toga je nastupilo sazrijevanje, potom i realizacija ideje koja je dovela do Hašeka (o čemu sam pisao u Kolu). Sâm sam kriv da se hašekomanija proširila svijetom, pri čemu je najviše „nastradala“ Hrvatska. O tome se više podataka može naći na stranicama FER-a).
Koliko je trajala realizacija projekta? Koliko je ljudi u nju bilo uključeno?
Realizacija projekta Ispravi.me trajala je nekoliko mjeseci, nakon što smo uspjeli sakupiti sredstava za nabavu poslužitelja na kojemu se implementirala zrela inačica Hašeka. U tome su, uz mene, još sudjelovali već spomenuti Gledec i njegov tadašnji asistent Ivan Srdić, koji je nažalost napustio Fakultet, jer je dobio ponudu za novi posao koja se nije mogla odbiti.
U pisanju Hašeka, koji je vrlo složeni programski sustav iz područja umjetne inteligencija sa svojstvima strojnoga učenja, kroz tridesetak godina su mi pomagali brojni suradnici s FER-a i izvan njega. Posebno sam zahvalan svojim bivšim studentima na pruženoj pomoći. Ako bih ih krenuo nabrajati, vjerojatno bih nekoga zaboravio, pa stoga neću. Ionako bi lista bila poprilično dugačka.
Novi se poslužitelj nakon 3 godine pokazao preslabim za narasle zahtjeve za usluživanjem pa smo koncem 2019. morali pristupiti značajnom upgradeu, koji će, nadam se, uskoro biti završen. Za taj posao posebnu zahvalnost dugujem Mladenu Seničiću.
Koliko sada ljudi radi na održavanju ispravi.me?
O održavanju web-sučelja brine se Gordan Gledec, onoliko koliko stigne uz svoje dekanske obveze. Dnevno održavanje jezgrene komponente počiva na mojim umirovljeničkim leđima. Pod time se podrazumijeva i gotovo svakodnevno dopisivanje Hašeka, jer složeno tehničko djelo iz područja umjetne inteligencije stalno treba „hraniti“ novim kodom i novim podatcima. Bez toga bi ono brzo umrlo.
Brine li RH dovoljno o jeziku, kad govorimo o njegovu očuvanju putem digitalnih resursa?
Otkako se hrvatski jezik riješio srpske ugroze mnogi ovdje misle da mu više nikakva ugroza ne prijeti. No, globalizirano digitalno doba s informacijsko-komunikacijskim tehnologijama donosi brojne nove i puno ozbiljnije ugroze po jezike malih zajednica, u koje ubrajam i hrvatski, kojega koristi manje od jednog promila svjetske populacije, od prošlih.
Već je danas izvjesno da tisuće jezika malih zajednica u svijetu neće preživjeti digitalno doba. Mi se trudimo, koliko je to u našoj moći, da takva sudbina ne zadesi i hrvatski jezik.
Koliko se RH o tome brine, dovoljno govori činjenica da skrb o ovdje opisanoj infrastrukturnoj jezičnotehnološkoj usluzi počiva na leđima male skupine ljudi, na čijem je čelu umirovljenik dobrano narušenog zdravlja.
Ta se skupina sama mora brinuti da namakne sredstva da bi opisana usluga, koju je do danas koristilo barem milijun osoba iz 187 vršnih internetskih domena s 99,9 % svjetskih javnih IP-adresa, uopće opstala i zadovoljavala stalno rastuće zahtjeve svojih korisnika.
Zaostajemo li u računalnoj obradi za drugim jezicima? Ako da, zašto?
Iz odgovora na prethodno pitanje jasno je da moramo zaostajati. Hrvatsko zaostajanje u odnosu na brojne europske jezike plauzibilno je prikazano na stranicama Multilingual Europe Technology Alliancea. Zašto? Za odgovoriti na ovo pitanje trebala bi mi cijela knjiga.
Kako toga prostora ovdje nemam, pozvat ću se na jedan uradak vezan uz navedenu poveznicu.META-NET-ovu bijelu knjigu „Hrvatski jezik u digitalnom dobu“ potpisuju osobe koje nemaju ni pikosekunde sustavne visokoškolske tehničke ili matematičke izobrazbe. Po tome su Hrvati jedinstveni u Europi, ako ne i u svijetu.
Tko bolje razumije računalnu obradu jezika: programeri ili lingvisti? Imamo li dovoljno stručnjaka?
Jednakovrijedni odgovori na ovako postavljeno pitanje mogli bi biti i „i-i“ i „ni-ni“, čak i neka treća varijanta. Pravo pitanje je, po meni, koja su temeljna znanja nužna za uspješno ovladavanje jezičnim tehnologijama? Na tako postavljeno pitanje moj je odgovor jednoznačan: matematika. Objašnjenje ću pokušati pojednostaviti koliko mogu.
Danas u svijetu paralelno postoji tisuće jezika i svi su međusobno prevodivi. Dakle, ti paralelni svjetovi se negdje presijecaju. Gdje i kako, zapravo ne znamo, tu i tamo tek ponešto naslućujemo, ali da se presijecaju znamo, jer su prevodivi. Iz ovoga slijedi da paralelizam ljudskih jezika nije euklidski paralelizam, već neeuklidski.
Samo strojno prevođenje započelo je sredinom 50-tih godina prošloga stoljeća vođeno algebarskom premisom, koja se pokazala pogrešnom. Danas aktualni Google Translate počiva na statističkoj premisi, što je svojevrsno približavanje geometriji, ali ni to nas u potpunosti ne zadovoljava. Iz ovoga slijedi da nam predstoje još duboka teorijska promišljanja kako odmotavati ovojnice koje prirodne jezike čine tako tehnički neprozirnima. Odgovor će vjerojatno dati autori buduće knjige „Matematička lingvistika je odmotala svjetske jezike“.
Prije desetak godina je napisana njezina prethodnica, naslovljena Mathematical Linguistics, koju toplo preporučujem svima zainteresiranima za aktualne teorijske osnove jezičnih tehnologija. Autor joj je András Kornai, rođen 1957., Mađar koji je prvo doktorirao matematiku u Budimpešti a potom lingvistiku na Stanfordu. On je bitno utjecao da su danas mađarske jezične tehnologije na samom europskom vrhu, premda je mađarski usamljeni otok u moru germanskih, romanskih i slavenskih jezika koji ga okružuju, dakle u puno nepovoljnijem položaju od hrvatskoga što se tiče preuzimanja tuđih iskustava. Usput, jedan od rodonačelnika neeuklidskih geometrija također je bio Mađar rođen na početku 19. stoljeća, János Bolyai.
Stoga ne bi bilo loše kada bismo se malo ugledali na svoje sjeverne susjede. Što prije, to po Hrvatsku i njezin jezik bolje. U današnje se vrijeme i mala kašnjenja skupo plaćaju.
Iz razloga navedenih u odgovorima na prethodno i ovo pitanje jasno je da je Hrvatska deficitarna što se tiče stručnjaka sposobnih da se uspješno nose s problemima jezičnih tehnologija. Posebno valja naglasiti da je njihova izobrazba vrlo dugotrajna i skupa.
Kako danas, nakon 25 godina gledate na sustav koji ste napravili?
Ono što sam napravio nije ni 10 % od onoga što se u nekim drugim uvjetima moglo napraviti. No, kao umirovljenik sam i s napravljenim zadovoljan. Hrvatskim poreznim obveznicima dao sam sustav koji im je uštedio na tisuće radnih godina konvencionalnog uređivanja tekstova. Dakle, nisu me uzalud cijeli radni vijek plaćali. Stoga u miru pred sobom i drugima mogu uživati svoju mirovinu.