Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par (CROSBI ID 368256)

Ocjenski rad | doktorska disertacija

Brkić, Marija Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par / Seljan, Sanja ; Matetić, Maja (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 2013

Podaci o odgovornosti

Brkić, Marija

Seljan, Sanja ; Matetić, Maja

hrvatski

Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par

Termin strojno prevođenje tradicionalni je naziv za računalne sustave koji generiraju prijevode iz jednog prirodnog jezika u drugi. Sustavi za statističko strojno prevođenje primjer su pristupa koji se temelji na podacima, a ideja je potekla iz IBM istraživačkih laboratorija kasnih 80-ih godina. Budući da su postojeći sustavi uglavnom razvijeni za široko rasprostranjene jezike za koje postoje adekvatni jezični resursi, u ovom istraživanju razvijaju se potrebni jezični resursi, a potom i modeli – temeljeni na frazama – za statističko strojno prevođenje s hrvatskog jezika na engleski i obrnuto u pravnoj domeni. Modeli za statističko strojno prevođenje temeljeni na frazama izrađuju se na temelju paralelnog korpusa, tj. teksta na izvornom jeziku i njegovog prijevoda, sravnjenih na rečeničnoj razini, i jednojezičnog korpusa. Termin fraza definira se kao nasumično odabran slijed riječi. Svi izrađeni modeli imaju po četrnaest podmodela, tj. značajki. Prije izrade jednog skupa modela parcijalno je pseudolematiziran hrvatski dio paralelnog korpusa kako bi se proučio utjecaj pseudolematizacije. Pseudolematizacija se definira kao jedna vrsta morfološke analize kojom se površinski oblik riječi pretvara u novi oblik. Izvršena je automatska i ljudska evaluacija prijevoda generiranih na temelju razvijenih modela. U automatskoj evaluaciji korištene su metrike TER, BLEU, NIST i Meteor, a ljudska evaluacija izvršena je prema kriteriju tečnosti i prema kriteriju adekvatnosti. Nadalje, razmotrene su tri suvremene metode koje se koriste u postupku podešavanja parametara sustava – MERT, PRO i MIRA. Parametre čine težine različitih značajki modela, poput težine jezičnog podmodela ili prijevodnog podmodela. Analizirana je vremenska zahtjevnost odabranih metoda, kao i utjecaj samog postupka podešavanja parametara na rezultate prevođenja. Potvrđeno je da su rezultati prevođenja u sustavu bez optimizacije lošiji od onih u optimiziranim sustavima, kao i da je optimizirani sustav bez pseudolematizacije lošiji od optimiziranog sustava sa pseudolematizacijom, a utvrđene su i metode podešavanja parametara kojima sustav postiže najbolje rezultate prevođenja prema odabranim automatskim metrikama. Pri donošenju zaključaka istaknuta je statistička značajnost razlika u rezultatima i u obzir su uzeti važni parametri koji ukazuju na problem lokalnih optimuma, generalizacije i odabira skupa za ispitivanje.

statističko strojno prevođenje; jezični model; prijevodni model; hrvatski jezik; pseudolematizacija; podešavanje parametara; optimizacija; evaluacija

nije evidentirano

engleski

Parameter Tuning and Statistical Machine Translation for Croatian-English

nije evidentirano

statistical machine translation; language model; translation model; Croatian language; pseudo-lemmatization; parameter tuning; optimization; evaluation

nije evidentirano

Podaci o izdanju

221

02.07.2013.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Filozofski fakultet u Zagrebu

Zagreb

Povezanost rada

Informacijske i komunikacijske znanosti