Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija

Stojanov, Tomislav; Vučić, Zoran

izvor podataka: crosbi !

Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija (CROSBI ID 161403)

Prilog u časopisu | izvorni znanstveni rad

Stojanov, Tomislav ; Vučić, Zoran Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija // Filologija - Šiauliu universitetas, 59 (2012), 103-129

Podaci o odgovornosti

Autori

Stojanov, Tomislav ; Vučić, Zoran

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija

Sažetak

U radu će se opisati metodologija rada s novinskim potkorpusom Hrvatske jezične riznice Instituta za hrvatski jezik i jezikoslovlje i to na internetskim tekstovima Sportskih novosti od travnja 2008. do lipnja 2009. godine. Obrađeni sportski potkorpus obuhvaća 3, 6 milijuna pojavnica koje čine više od 207 tisuća raznopisnica. Pokazat će se računalni postupci dohvaćanja i pretvorbe teksta, n-gramska korpusna raščlamba u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć nove javaskriptne žične (wiring) biblioteke WireIt. Aplikacija koja se razvija radi s formatom TEI XML, a poslužit će i za obradu tekstova drugih potkorpusnih cjelina Hrvatskog jezičnog korpusa (http://riznica.ihjj.hr/). N-gramski izlazni podatci bit će spremljeni u prenosivu (portable), besposlužilačku (serverless) i besplatnu bazu podataka SQLite čije će pretraživanje biti moguće preko raznih samostalnih ili nesamostalnih besplatnih klijenata (SQLite Administrator, SQLite Manager dodatak za Firefox itd.), odnosno u bazu MySQL za mrežni prikaz. Također, statistički podatci poslužit će i za raščlambu razgodaka i kratica u funkciji rečeničnog odjeljivanja.

Ključne riječi

dohvaćanje podataka; n-grami; engram; bigram; trigram; pravopis; vizualizacija; JavaScript; SQLite; korpus

Napomena

nije evidentirano

Jezik

engleski

Naslov

Corpus linguistic processing of "Sportske novosti" texts. Information retrieval of N-gram models and visualization

Sažetak

nije evidentirano

Ključne riječi

information retrieval; n-grams; engram; bigram; trigram; ortography; visualization; JavaScript; SQLite; corpus

Napomena

nije evidentirano

Podaci o izdanju

Časopis

Filologija - Šiauliu universitetas

Volumen (broj)

Godina

2012.

Stranice rada

103-129

Status objave rada

objavljeno

ISSN

1392-561X

Povezanost rada

Povezane osobe

Tomislav Stojanov (autor/i)

Povezane ustanove

Fakultet kemijskog inženjerstva i tehnologije (125) (autorova ustanova)

Institut za hrvatski jezik, Zagreb (212) (autorova ustanova)

Povezani projekti

Hrvatsko nazivlje u analitičkoj kemiji (rezultat rada na projektu)

Semantičke mreže i računalna leksikologija (rezultat rada na projektu)

Područje

Kemija, Računarstvo, Filologija

Poveznice

hrcak.srce.hr