Zagrebački FER izvozi znanje: Za pravopisnu aplikaciju oštro ‘zagrizli’ Francuzi
Mrežni pravopisni provjernik Hascheck već 20 godina je u javnoj uporabi, a interes za korištenjem te aplikacije uopće ne opada, štoviše uskoro će mu se proširiti broj konzumenata. Naime, djelo znanstvenika i studenata sa zagrebačkog Fakulteta elektrotehnike i računarstva zamijetile su dvije francuske znanstvene institucije te iskazale želju za suradnjom na novom projektu, gdje bi oni uložili svoju strojnoprevodilačku platformu te ju upotpunili Hascheckovom bogatom bazom podataka. Kakvu korist od toga imaju Francuzi, a kakvu vlasnici hrvatskog pravopisnog provjernika, otkriva nam profesor s FER-a i jedan od Hascheckovih tvoraca Šandor Dembitz.
Mrežni pravopisni provjernik Hascheck je aplikacija koja je već 20 godina u javnoj uporabi, a brojka od osam tisuća tekstova, koliko otprilike obradi dnevno, mogla bi rasti. Naime za ovaj projekt znanstvenika i studenata FER-a, zainteresirali su se GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement Automatisé des Langues et de la Parole) sa Sveučilišta Joseph Fourier u Grenobleu i INaLCO (Institut National des Langues et Civilisations Orientales) iz Pariza. Naime trenutno je provjernikom Hascheck, moguće ispravljati pravopisne pogreške iz hrvatskih i engleskih tekstova, a Francuzi bi htjeli tome dvojcu priključiti i svoj jezik. Ulažu svoju strojnoprevodilačku infrastrukturu, a trebaju bogatu i stalno dopunjavanu bazu hrvatskih riječi i sintagmi.
Princip funkcioniranja Haschecka i njegovo stalno unaprijeđivanje
Kakvu korist od udruživanja imaju Francuzi, a kakvu mi?
Naglasimo još jednom da je i nakon dva desetljeća javnog korištenja, vrijedna aplikacija Hascheck još uvijek besplatna. Profesor Dembitz nam pojašnjava da sitan iznos trebaju izdvojiti ljudi koji se njome koriste u profesionalne svrhe.
Stapanje znanja s dvjema uglednim francuskim institucijama, već je izvjesno te su trenutno u tijeku pripremne faze, a u punom pogonu zajednički projekt trebao bi započeti u siječnju naredne godine. No i nakon udruživanja aplikacija će isprva biti besplatna.
– GETALP (Groupe d’Etude pour la Traduction Automatique et le Traitement Automatisé des Langues et de la Parole) sa Sveučilišta Joseph Fourier u Grenobleu i INaLCO (Institut National des Langues et Civilisations Orientales) iz Pariza, prepoznali su vrijednost hrvatske n-gramske infrastrukture i predložili su da je iskoristimo za brzi razvoj visokokvalitetnog sustava za strojno prevođenje s francuskog na hrvatski i obrnuto.
Oni u projekt ulažu svoj višedecenijski know-how u području strojnoga prevođenja i to je ponuda koja se ne odbija. Zamišljeno je da projekt traje dvije godine, odnosno 2015. i 2016. čisto volonterski, da vidimo što se u tom roku dade napraviti. Francuzima je u interesu da promoviraju svoj jezik putem tehnologije, dok je nama u interesu da podignemo razinu strojne prevodivosti hrvatskog s jednim od svjetskih jezika u paru. U osnovi se radi o pilot-projektu, koji, ako se pokaže uspješnim, može voditi prema komercijalnim rješenjima, pojašnjava nam Šandor Dembitz.
Pravopisne pogreške koje najviše muče Hrvate
Profesor Dembitz nam govori i neke statističke podatke o funkcioniranju Haschecka. Naime, dnevno se oko osam tisuća tekstova obradi u aplikaciji, odnosno korpus od preko dva milijuna pojavnica.
Najčešći korisnici su novinari iz uredništava s kojima vlasnici imaju ugovore o suradnji.
Korisnike standardno muče -ije-/-je-, odnosno –č-/-ć- dvojbe. Pojedinačno gledano pak najčešće se griješi u pisanju pridjeva ‘sljedeći’, u koji se ubacuje dugi jat, odnosno u pisanju broja ‘četiri’, koji se često pojavljuje napisan onako kako se izgovara ‘četri’.
Naveli smo da su na ovoj korisnoj aplikaciji osim profesora, točnije Šandora Dembitza, Gorana Gledeca i Hrvoja Mihalića, radili i studenti. Neki su se svojim doprinosom ipak istaknuli od drugih.
– Brojni su studenti sudjelovali u razvoju Haschecka i svega što se oko njega događa kroz projekte, završne i diplomske radove. Ako već moram neke isticati, spomenut ću Renata Šoića kao ‘oca’ HascheckVoicea, sustava za strojnu tvorbu hrvatskoga govora, i Darija Baju kao ključnu osobu u razvoju sustava za strojno prepoznavanje hrvatskoga govora. Obojica su danas uspješni inženjeri u respektabilnim tvrtkama, zaključuje profesor Dembitz.