Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

An evaluation of automatic extraction of Slovenian-Croatian translation candidates from comparable corpora (CROSBI ID 611871)

Prilog sa skupa u zborniku | sažetak izlaganja sa skupa

Tušek, Jelena ; Ljubešić, Nikola An evaluation of automatic extraction of Slovenian-Croatian translation candidates from comparable corpora. 2012

Podaci o odgovornosti

Tušek, Jelena ; Ljubešić, Nikola

engleski

An evaluation of automatic extraction of Slovenian-Croatian translation candidates from comparable corpora

U radu su predstavljene mogućnosti izrade slovensko-hrvatskog dvojezičnog leksičkog resursa korištenjem metode automatskog prikupljanja slovensko-hrvatskih prijevodnih ekvivalenata iz usporedivog slovensko-hrvatskog korpusa. Prikupljanje prijevodnih kandidata temelji se na tzv. distribucijskoj pretpostavci po kojoj riječi sličnog značenja imaju i slične kontekste. Ta se pretpostavka može proširiti i na dva jezika pri čemu se za riječ iz ishodišnog jezika kao moguće prijevodne ekvivalente može smatrati one riječi u ciljnom jeziku koje imaju najsličniji kontekst riječi u ishodišnom jeziku. Pretpostavka primjenjivosti ove metode jest postojanje početnog dvojezičnog leksikona kojime se prevode konteksti ciljnog jezika nepoznatih leksema. Time se postiže preduvjet za mogućnost usporedbe konteksta ishodišnog i ciljnog jezika. Dodatno, kako se radi o hrvatskom i slovenskom koji su vrlo bliski jezici, u ovom se istraživanju kao “početni leksikon” koristi postojeće leksičko preklapanje između tih jezika. Popis slovenskih leksema korištenih u istraživanju je 6, 000 najčešćih imenica iz slovenskog internetskog korpusa slWaC. Svakoj od odabranih imenica pridruženo je 10 prijevodnih kandidata iz hrvatskog internetskog korpusa hrWaC s najsličnijim kontekstima. U prvoj su fazi evaluacije studenti diplomskog studija slovenskog jezika označavali točnost dobivenih 10 kontekstualno najsličnijih prijevodnih kandidata. Prijevodne su kandidate označavali bilo kao prijevodne ekvivalente, bilo kao riječi koje su semantički vrlo bliske slovenskom leksemu, bez konzultiranja s postojećim dvojezičnim slovensko-hrvatskim rječnicima. Pri početnom označavanju svaki je prijevodni kandidat označen od strane dvaju studenata što omogućuje mjerenje dogovora među označivačima te lakšu kontrolu rezultata. Dodatno su dio rezultata njihovog označavanja ručno provjerili studenti završnog semestra studija koristeći se raspoloživim rječnicima. Svim provedenim analizama dobiven je podatak o točnosti označavanja od strane studenata, te točnost metode za automatsko prikupljanje prijevodnih kandidata iz usporedivog korpusa. Rad će prikazati rezultate ručne evaluacije rezultata dobivenih metodom automatskog prikupljanja, postotak točnih prijevodnih ekvivalenata koji se pojavljuju na prvom mjestu popisa kandidata, broj prijevodnih ekvivalenata među ostalim kandidatima, te koliko njih se ne može smatrati prijevodnim ekvivalentima, već semantički povezanima s izvornom riječi. Time će se pokazati mogućnost izrade dvojezičnih leksičkih resursa metodom automatskog prikupljanja te testirati razlike u označavanju prijevodnih kandidata od strane označivača u svrhu analiziranja semantičkih podudarnosti i razlika među sličnopisnicama između bliskosrodnih jezika kakvi su slovenski i hrvatski.

automatic extraction; comparable corpora; lexical resources

nije evidentirano

nije evidentirano

nije evidentirano

nije evidentirano

nije evidentirano

nije evidentirano

Podaci o prilogu

2012.

objavljeno

Podaci o matičnoj publikaciji

Podaci o skupu

Jezik kao informacija

predavanje

11.05.2012-13.05.2012

Zagreb, Hrvatska

Povezanost rada

Matematika