Ispravljanje pogrešaka u tekstovima nastalim postupkom optičkog raspoznavanja znakova (CROSBI ID 355210)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Lajšić, Ognjen
Dalbelo Bašić, Bojana
Šnajder, Jan
hrvatski
Ispravljanje pogrešaka u tekstovima nastalim postupkom optičkog raspoznavanja znakova
U tekstovima nastalim postupkom optičkog raspoznavanja znakova (engl. OCR) često su prisutne pogreške uzrokovane netočnim raspoznavanjem pojedinačnih znakova ili slijeda znakova. Pogreške su specifične te ih u pravilu nije moguće riješiti uobičajenim alatima za provjeru pravopisa, a onemogućavaju daljnju kvalitetnu strojnu obradu tekstova. U okviru rada napravljena je analiza i tipologija pogrešaka te su opisani postupci automatskog ispravljanja pogrešaka u takvim tekstovima. Na temelju opisanih postupaka razvijena je programska implementacija koja uključuje skup unaprijed definiranih supstitucijskih pravila, popis oblika riječi te vjerojatnosni jezični model.
optičko raspoznavanje znakova; OCR; ispravljanje pogrešaka; OCR postprocesiranje; znakovni n grami; supstitucijska pravila; jezični model
nije evidentirano
engleski
OCR Error Correction
nije evidentirano
optical character recognition; OCR; error correction; OCR postprocessing; letter n-grams; character confusions; language model
nije evidentirano
Podaci o izdanju
31
15.07.2009.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb