Usporedba jezičnih alata za njemački jezik (CROSBI ID 421905)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Beli, Dorian
Martinčić-Ipšić, Sanda
hrvatski
Usporedba jezičnih alata za njemački jezik
Kada govorimo o računalnoj analizi i razumijevanju teksta, alati poput lematizatora, korjenovatelja, obilježivača vrsta riječi te različiti korpusi jezika igraju veliku ulogu u području računalne lingvistike. Alati poput ovih promatraju sintaksu i lingvistiku nekog određenog jezika te što boljom primjenom pravila istih, uz pokoju implementaciju vjerojatnosnih algoritama, nastoje bolje obraditi zadani jezik. U ovom završnom radu obrađujemo 4 najpoznatija korjenovatelja, dva lematizatora te dva obilježivača vrsta riječi njemačkog jezika. Osim teorijske obrade navedenih alata, dotaknut ćemo se i praktične usporedbe navedenih u zasebnom poglavlju na vlastitim tekstovima. Korjenovatelji Snowball, CISTEM, Text::Geramn i UniNE, lematizatori GermaLemma i SMOR te obilježivači TIGER korpusa i Pro3GreDE imaju iskazanu točnost u postotcima. Među korjenovateljima najuspješniji se pokazao CISTEM korjenovatelj s 91.23% točnih korjenovanja, zatim Text::German sa 88, 55% kojeg slijedi Snowball sa 82, 44% te na kraju UniNE koji ima točnost u rasponu od 78, 63% do 80, 92%. Između dva obilježivača vrsta riječi točniji se pokazao hibridni Pro3GresDE sa 93, 55% te onaj uključen unutar TIGER korpusa sa 90, 32% točnosti. Kod lematizatora točnijim se pokazao SMOR sa 94, 27% točnosti te nakon njega GermaLemma sa 85, 5% točnosti.
korjenovatelj, lematizator, obilježivač vrsta riječi, njemački, korpus, računalna analiza njemačkog jezika
nije evidentirano
engleski
Comparative analysis of natural language processing tools for German language
nije evidentirano
stemmer, lemmatizer, part-of-speech tagger, German, corpus
nije evidentirano
Podaci o izdanju
78
21.09.2018.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Rijeka