Generiranje strukture podatka analizom dokumenata (CROSBI ID 356420)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Kankaza, Danijela
Fertalj, Krešimir
hrvatski
Generiranje strukture podatka analizom dokumenata
S razvojem informatičkih tehnologija svakodnevno raste količina podataka pohranjenih u različitim elektroničkim formatima. Unatoč količini dostupnih podataka, često se dogodi da ciljane informacije ostaju nedostupne, zbog varijacija u njihovom zapisu i predstavljanju, te preostaje, za današnje vrijeme neprihvatljivo i dugotrajno, ručno prolaženje kroz pojedine dokumente. Rješenja za takve probleme se javljaju u obliku programskih modula koji uzorkovanjem dokumenata, te njihovom analizom generiraju strukturu podataka, čime se omogućava automatsko dohvaćanje i manipuliranje podacima. Takva rješenja prije same analize zahtijevaju obradu različitih elektroničkih formata. U ovom diplomskom radu obrađeni su DOC i PDF formati. Jedna od velikih poteškoća u izvlačenju podataka predstavlja obrada prirodnog jezika. Leksičke varijacije koje čovjek intuitivno raspoznaje običnim pretraživanjem često ostaju neprepoznate. Analiziranje leksičkih varijacija te utvrđivanje sličnosti i različitosti znakovnih nizova vodi do područja dubinske analize teksta. Analiza i prepoznavanje logičke strukture ulaznih podataka dotiče koncepte dubinske analize podataka.
generator; strukture podataka; dubinska analiza teksta
nije evidentirano
engleski
Generation of data structures based on document analysis
nije evidentirano
generator; data structures; text mining
nije evidentirano
Podaci o izdanju
70
17.12.2009.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb