Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija (CROSBI ID 161403)
Prilog u časopisu | izvorni znanstveni rad
Podaci o odgovornosti
Stojanov, Tomislav ; Vučić, Zoran
hrvatski
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija
U radu će se opisati metodologija rada s novinskim potkorpusom Hrvatske jezične riznice Instituta za hrvatski jezik i jezikoslovlje i to na internetskim tekstovima Sportskih novosti od travnja 2008. do lipnja 2009. godine. Obrađeni sportski potkorpus obuhvaća 3, 6 milijuna pojavnica koje čine više od 207 tisuća raznopisnica. Pokazat će se računalni postupci dohvaćanja i pretvorbe teksta, n-gramska korpusna raščlamba u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć nove javaskriptne žične (wiring) biblioteke WireIt. Aplikacija koja se razvija radi s formatom TEI XML, a poslužit će i za obradu tekstova drugih potkorpusnih cjelina Hrvatskog jezičnog korpusa (http://riznica.ihjj.hr/). N-gramski izlazni podatci bit će spremljeni u prenosivu (portable), besposlužilačku (serverless) i besplatnu bazu podataka SQLite čije će pretraživanje biti moguće preko raznih samostalnih ili nesamostalnih besplatnih klijenata (SQLite Administrator, SQLite Manager dodatak za Firefox itd.), odnosno u bazu MySQL za mrežni prikaz. Također, statistički podatci poslužit će i za raščlambu razgodaka i kratica u funkciji rečeničnog odjeljivanja.
dohvaćanje podataka; n-grami; engram; bigram; trigram; pravopis; vizualizacija; JavaScript; SQLite; korpus
nije evidentirano
engleski
Corpus linguistic processing of "Sportske novosti" texts. Information retrieval of N-gram models and visualization
nije evidentirano
information retrieval; n-grams; engram; bigram; trigram; ortography; visualization; JavaScript; SQLite; corpus
nije evidentirano