Strojno prepoznavanje naziva u suvremenim hrvatskim tekstovima (CROSBI ID 342547)
Ocjenski rad | doktorska disertacija
Podaci o odgovornosti
Bekavac, Božo
Tadić, Marko
hrvatski
Strojno prepoznavanje naziva u suvremenim hrvatskim tekstovima
U radu je opisan sustav za prepoznavanje i klasifikaciju naziva za hrvatski jezik nazvan OZANA. Sustav se sastoji od modula za segmentaciju na rečenice, općeg leksikona, specijaliziranih leksikona imena i transduktora za automatsko prepoznavanje brojeva i nekih oblika pridjeva. Nakon segmentiranja teksta na rečenice, obilježavaju se pojavnice teksta (leme i morfosintaktičke osobine općih riječi, te potencijalne kategorije naziva s pomoću specijaliziranih popisa naziva) bez razrješenja mogućih višeznačnosti. Srž sustava sačinjavaju regularne gramatike (pravila) za prepoznavanje i klasifikaciju naziva koje se izvode nad obilježenim tekstovima. Pravila se zasnivaju na opisanim strategijama (poput unutarnjih i vanjskih dokaza), a primjenjuju se kaskadno određenim redoslijedom. Rezultat su obrade obilježeni nazivi u tekstovima u XML obliku prema specifikaciji s konferencije MUC-7. Pravila sustava primijenjena su na novinske i prozne tekstove, te su uspoređene razlike i uzroci odstupanja. F-mjera sustava izmjerena na tekstovima novinskog korpusa iznosi 90 %.
prepoznavanje i klasifikacija naziva (PKN); računalna lingvistika; sustav zasnovan na pravilima; regularne gramatike; obilježavanje teksta; crpljenje obavijesti; hrvatski jezik
nije evidentirano
engleski
Named Entity Recognition and Classification in contemporary Croatian texts
nije evidentirano
Named Entity Recognition and Classification (NERC); computational linguistics; rule based system; regular grammars; text annotation; information extraction; Croatian language
nije evidentirano
Podaci o izdanju
172
28.06.2005.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Filozofski fakultet u Zagrebu
Zagreb