Hascheck pokazao: Akademci su puno šlampaviji u pisanju od novinara
Hrvatski akademski spellchecker, poznatiji kao Hascheck, odavno je prešao granice Hrvatske pa se istim koriste ljudi iz 132 zemlje svijeta. Odnedavno se ovaj servis s bazom riječi iz hrvatskog i engleskog jezika može naći i na Google Docsu. Stoga smo pokucali na vrata njegovu tvorcu profesoru FER-a Šandoru Dembitzu koji nas je proveo kroz povijest nastajanja Haschecka te otkrio neke zanimljive podatke o tome tko u Hrvatskoj sve koristi ovaj program, tko najviše griješi i jesu li nepismeniji novinari ili članovi akademske zajednice.
Prije skoro četiri dekade profesoru na FER-u Šandoru Dembitzu javila se ideja da napravi spellchecker kojeg danas koriste brojni učenici, studenti, akademici, ali i ostali građani Hrvatske, kao i svijeta – Hascheck. Kao asistent došao je na FER 1974., a već godinu-dvije nakon toga krenuo je s realiziranjem ideje o programu koji će ispravljati greške u tekstovima. Hascheck je javno dostupan već 21 godinu. Uz hrvatsku bazu sadrži i fond engleskih riječi, a odnedavno ga se može naći i na Google Docsu.
Posjetili smo profesora pred mirovinom, koji je na FER-u izgradio karijeru dugu 41 godinu te ga propitali o samom nastanku Haschecka, a otkrio nam je i tko je sve uključen u njegovo održavanje, kao i tko ga sve koristi.
Spellchecker s oko dva milijuna riječi
Kako je došlo do širenja na engleski jezik
– Kada se 1971. pojavio prvi engleski spellchecker na Sveučilištu Stanford, operirao je s 10 tisuća riječi. S obzirom da hrvatski jezik ima puno više oblika za istu riječ, moja procjena je bila da prvi operativni hrvatski spellchecker mora raspolagati s barem deset puta više riječi. Nakon dosta truda uspio sam doći do 100 tisuća riječi iz hrvatskog općejezičnog fonda, koje su bile inicijalna leksička baza sustava, otkrio nam je profesor Dembitz. On brine za jezgreni dio sustava dok je za sučelje zadužen Gordan Gledec, njegov kolega s FER-a.
Hascheck je 1993. zaživio kao lokalna usluga na FER-u, a javno dostupan postao je prije 21 godinu. Kako se Šandor Dembitz prisjeća, jedan od njegovih prvih korisnika bio je kolega s FER-a koji je ’93. pisao pisao knjigu o mrežnim aspektima Unixa.
– Bio je jako zadovoljan Hascheckom, ali je imao jednu primjedbu. Kako je u svom radu koristio dosta izvorne engleske terminologije, iako je bila ispravno napisana, program ju je prikazivao kao greške. Potom me je upitao bih li ga riješio muke prelistavanja i provjeravanja svih engleskih riječi tako što bih uvrstio u Hascheck i engleski rječnik. Na to sam bez ikakvih problema pristao, govori naš sugovornik.
Nastavio je kako je procesu stvaranja Haschecka prethodilo testiranje engleskih spellcheckera, pa je tim putem došao do baze od 70 tisuća engleskih riječi.
Hascheck Voice stopostotni je studentski rad
Na upit jesu li se studenti ikad uključivali u rad Haschecka, njegov tvorac odgovora da je mnogo njih ostavilo traga na ovom složenom ljudskom proizvodu.
Ako želite da vam program uspješno provjerava tekst, kako profesor Dembitz kaže, treba voditi računa o mnogo detalja, u čemu su pomagali i studenti FER-a. Primjerice Hascheck Voice, odnosno Hrvatski akademski sintetizator govora, u potpunosti je djelo bivšeg studenta Renata Šoića koji je program u današnjem obliku prezentirao na obrani diplomskog rada 2010.
– Ono što je svakako važno istaknuti kod Hascheck Voicea jest to da ga je student uspio naučiti govoriti hrvatski jezik na uzorku čije je trajanje svega 17 minuta govora. Renato je sam posudio glas za učenje sustava, a vrijednost je upravo u tom minimalnom uzorku, jer se inače takvi sustavi poučavaju s uzorcima od desetak sati govora, ističe profesor Šandor Dembitz.
Dodao je kako je nekoliko studenata prije dvije godine napravilo sustav koji pretvara kontinuirani hrvatski govor, neovisno o govorniku, u tekst. No nisu ga razradili do profesionalne razine, niti je javno dostupan jer, kako tvrdi naš sugovornik, nije uspio dobiti sredstva potrebna za jači poslužitelj, niti je mogao zadržati studente da nakon diplomiranja nastave s radom oko Haschecka, Hascheck Voicea ili zadnjeg navedenog sustava.
Hascheck se integrirao u Google Docs
Bez nasljednika jer nadležni ne žele poduprijeti Hascheck
– Pred mirovinu sam, ali nažalost nemam nasljednika koji će Hascheck dalje voditi na FER-u. Žalosno, ali takva je situacija. Primijetili ste da na stranici postoji oznaka da nas podupire Agrokor, i on je taj koji nas drži da smo nosom iznad vode, jer do financijskih sredstava iz, recimo, MZOS-a ili Sveučilišta ne možemo doći, iako se i oni koriste Hascheckom. Od 2013. sam prestao tražiti sredstva nakon što me je bivši rektor odbio uz obrazloženje da je iznos koji tražim za bolji poslužitelj prevelik, izjavio je Dembitz.
Na upit zašto ne komercijaliziraju uslugu, tvorac Haschecka nam je otkrio kako su im zbog CARNetovih pravila ruke vezane te da se, izuzev Agrokora, s kojim FER ima potpisan ugovor o dugogodišnjoj suradnji, ne mogu okrenuti oglašavanju.
– Kad me pitate, jedna od opcija je da, kad odem u mirovinu, sve to prebacim u privatnu domenu, koja će onda moći naplaćivati uslugu putem oglašavanja, ili putem korisničkih pretplata, odgovorio nam je Šandor Dembitz na upit kakva će biti sudbina Haschecka nakon njegova umirovljenja.
Amerikanci griješe manje od Hrvata
Usluge Haschecka tražene su u 132 zemlje svijeta, a najveći broj korisnika dolazi iz Hrvatske i BiH-a. Kako Dembitz objašnjava, korisnike broje putem IP adresa s kojih pristupaju usluzi, ali i putem cookieja.
Do jučer je Haschecku ukupno pristupljeno sa 722.999 adresa, a ukupni promet do početka siječnja bio je 2 milijarde i 400 milijuna pojavnica, odnosno preko 10 milijuna autorskih kartica teksta. Profesor nam je pokazao i postotak otkrivenih pogrešaka za tri zemlje koje najviše doprinose prometu. Prosječan postotak grešaka kod korisnika iz BiH iznosi 2,97, kod Hrvata je 1,52, a kod Amerikanaca 1,13.
– Ovi podaci otvaraju pitanje zašto Hrvati u Sjedinjenim Državama puno urednije pišu od Hrvata u domovini. Također, usporedbom CARNetove domene s domenom jedne medijske kuće, to jest akademske i novinarske domene s opsezima prometa od milijun, odnosno pola milijuna autorskih kartica teksta, vidimo da novinari značajno manje griješe od akademaca. Ljudi iz akademske zajednice (srednji postotak grešaka 1,75) znaju, često s pravom, javno kritizirati pismenost novina, ali podaci iz vrlo reprezentativnih uzoraka pokazuju da su oni u prosijeku puno šlampaviji u pisanju od novinara (srednji postotak grešaka 0,77). Da zaključim, ponekad valja prvo pomesti u vlastitoj kući, za kraj nam je rekao profesor Dembitz.