Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova (CROSBI ID 360062)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Mikša, Mladen
Dalbelo Bašić, Bojana
Šnajder, Jan
hrvatski
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova
Problem ispravljanja pogrešaka OCR-a važan je i težak problem, a kao bitna komponenta problem ističe se pogreška stapanja riječi. Ovim radom predstavljen je automatski postupak rastavljanja riječi u tekstovima dobivenim OCR-om orijentiran na hrvatski jezik. Postupak se temelji na kombinatornom pretraživanju rastavljanja riječi uz korištenje jezičnog modela za pružanje kontekstne informacije. Provedena je eksperimentalna evaluacija postupka rastavljanja kojom je demonstrirana preciznost od 97.28% i odziv od 96.60% za 90.40% točan tekst. Evaluacija sustava pokazala je poboljšanje točnosti teksta od 0.81%, odnosno ostvarenje 30% stope smanjenja pogreške. Tim rezultatom ostvareno je oko 48% uspješnosti ručnog ispravljanja.
obrada prirodnog jezika; OCR; stapanje riječi; trie; jezični model; hrvatski jezik
nije evidentirano
engleski
Correction of Merged Words Errors in Texts Obtained by Optical Character Recognition
nije evidentirano
natural language processing; OCR; merged words; trie; language model; Croatian language
nije evidentirano
Podaci o izdanju
34
07.07.2010.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb