Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku (CROSBI ID 377647)

Ocjenski rad | diplomski rad

Beliga, Slobodan Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku / Martinčić - Ipšić, Sanda (mentor); Rijeka, . 2013

Podaci o odgovornosti

Beliga, Slobodan

Martinčić - Ipšić, Sanda

hrvatski

Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku

Klasifikacija tekstova je proces automatskog klasificiranja tekstova u predefinirane klase. U posljednje se vrijeme klasifikaciji tekstova, kao području umjetne inteligencije, pridaje veliki interes i to zahvaljujući velikom broju dostupnih tekstova u digitalnom obliku. Eksperiment klasificiranja tekstova pisanih na hrvatskome jeziku u ovome diplomskom radu proveden je s ciljem istraživanja mogućnosti klasifikacije tekstova temeljem nestandardnih oblika (NSO) riječi. Prikupljeno je 390 tekstova, koji čine kolekciju SKIPEZ (službeno, književno, informativno, popularno, edukativno i znanstveno), a organizirani su u 6 klasa i to: edukacijsku, znanstvenu, službenu, informativnu, popularnu i književnu. Takav specijalizirani djelomični korpus tekstova pisanih na hrvatskome jeziku ima nešto više od 2.2 milijuna pojavnica, od čega približno 10% čine riječi nestandardnog oblika. Eksperiment je proveden na tri različite reprezentacije kolekcije SKIPEZ. Prva reprezentacija predstavljena je frekvencijama pojavnosti NSO. Druga reprezentacija kolekcije predstavljena je pomoću statističkih obilježja koja opisuju raspršenje NSO u pojedinome tekstu, dok treća ujedinjuje značajki prve i druge reprezentacije. Korišteno je šest različitih algoritama strojnoga učenja: Naive Bayes, CN2, C4.5, kNN, klasifikacijska stabla i Random Forest. Dobiveni rezultati potvrđuju opravdanost korištenja NSO riječi u hrvatskome jeziku kao reprezentativnih značajki vektora u postupcima klasifikacije. Model klasifikacije induciran Random Forest algoritmom pokazao se najboljim s rezultatom točnosti klasifikacije od 87%. Rezultat je postignut nad kolekcijom čija je reprezentacija temeljena na kombinaciji frekvencija pojavnosti NSO i deskriptivnoj statistici.

domena teksta; dubinska analiza teksta; frekvencija pojavnice; klasifikacija; kolekcija; nestandardni oblici riječi; reprezentacija kolekcije; strojno učenje; točnost klasifikatora; vektor značajki

nije evidentirano

engleski

Text Classification Based on Croatian Non-standard Words

nije evidentirano

text domain; text mining; token frequency; classification; text collection; non-standard word forms; collection representation; machine learning; recall; precisin; f-measure; feature vectors

nije evidentirano

Podaci o izdanju

111

04.04.2013.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Rijeka

Povezanost rada

Računarstvo, Informacijske i komunikacijske znanosti