Postupak automatskog određivanja rečeničnih granica (CROSBI ID 360058)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Kegalj, Ante
Dalbelo Bašić, Bojana
Šnajder, Jan
hrvatski
Postupak automatskog određivanja rečeničnih granica
Određivanje rečeničnih granica jedan je od osnovnih problema pri strojnoj obradi prirodnoga jezika te preduvjet mnogim drugim zadacima kao što su označavanje vrste riječi, crpljenje imenovanih entiteta, sintaktička analiza itd. Problem pri automatskom određivanju rečeničnih granica predstavlja višeznačnost interpunkcijskih znakova, posebice znaka točke koja se, osim za označavanje kraja rečenice, upotrebljava i kod pisanja kratica. U ovome radu predstavljen je jezično neovisan, nenadziran pristup automatskom određivanju rečeničnih granica. Temelji se na razrješavanju kratica za koje se utvrdilo da stvaraju velike probleme u sličnim sustavima. Umjesto da se sustav oslanja na informacije o veličini slova, predloženi sustav u mogućnosti je prepoznati kratice s velikom točnošću koristeći tri kriterija koja su potpuno neovisna o kontekstu u kojemu se nalazi kratica : Kratica je jaka kolokacija skraćene riječi i točke, kratice uglavnom sadrže mali broj slova, i kratice katkada unutar riječi sadrže točke. Pokazane su i druge sekundarne metode kojima bi se pridonijelo točnosti sustava. U tu skupinu spadaju metode za detekciju inicijala i brojeva, kao i neke metode koje paze na veličinu slova u tekstu. U sklopu rada prikazani su rezultati evaluacije sustava na 11 stranih jezika te na hrvatskom jeziku.
višejezična detekcija rečeničnih granica; obrada prirodnog jezika; strojno učenje; nenadzirano učenje
nije evidentirano
engleski
Automated Sentence Boundary Detection
nije evidentirano
multilingual sentence boundary detection; natural language processing; machine learning; unsupervised learning
nije evidentirano
Podaci o izdanju
39
07.07.2010.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb