Primjena tematskih modela na analizu dokumenata na hrvatskom jeziku (CROSBI ID 365305)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Kusalić, Ivan
Šnajder, Jan
hrvatski
Primjena tematskih modela na analizu dokumenata na hrvatskom jeziku
Generativni modeli s latentnim varijablama statistički su modeli podataka koji podatke opisuju temeljem njihovih skrivenih odnosno latentnih svojstava. Tematski modeli (engl. topic models) vrsta su generativnih modela s latentnim varijablama koji omogućavaju modeliranje apstraktnih tema sadržanih u tekstu dokumenta. Dana je teorijska podloga tematskih modela kao i njihov smještaj unutar većih grupa statističkih modela. Proučavane su teoretske osnove modela probabilističke semantičke analize (pLSA) i latentne Dirichletove alokacije (LDA). U eksperimentalnom dijelu pokazana je ispravnost generativnog smjera modela LDA i rezultati primjene istog na modeliranje dokumenata hrvatskog jezika. Na kraju je demonstrirana perspektivnost modela LDA za redukciju dimenzionalnosti reprezentacije dokumenata.
dubinska analiza teksta; tematski modeli; hrvatski jezik; LDA; pLSA
nije evidentirano
engleski
Application of Topic Models to Analysis of Croatian Documents
nije evidentirano
text mining; topic models; Croatian language; LDA; pLSA
nije evidentirano
Podaci o izdanju
40
28.06.2011.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb