crta
Hrvatska znanstvena Sekcija img
bibliografija
3 gif
 Naslovna
 O projektu
 FAQ
 Kontakt
4 gif
Pregledavanje radova
Jednostavno pretraživanje
Napredno pretraživanje
Skupni podaci
Upis novih radova
Upute
Ispravci prijavljenih radova
Ostale bibliografije
Slični projekti
 Bibliografske baze podataka

Pregled bibliografske jedinice broj: 624885

Disertacija

Autor: Beliga, Slobodan
Naslov: Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku
( Text Classification Based on Croatian Non-standard Words )
Vrsta: završni rad - diplomski/integralni studij
Fakultet: Odjel za informatiku
Sveučilište: Sveučilište u Rijeci
Mjesto: Rijeka
Datum: 4.4.
Godina: 2013
Stranica: 111
Mentor: Martinčić - Ipšić, Sanda
Ključne riječi: domena teksta; dubinska analiza teksta; frekvencija pojavnice; klasifikacija; kolekcija; nestandardni oblici riječi; reprezentacija kolekcije; strojno učenje; točnost klasifikatora; vektor značajki
( text domain; text mining; token frequency; classification; text collection; non-standard word forms; collection representation; machine learning; recall; precisin; f-measure; feature vectors )
Sažetak:
Klasifikacija tekstova je proces automatskog klasificiranja tekstova u predefinirane klase. U posljednje se vrijeme klasifikaciji tekstova, kao području umjetne inteligencije, pridaje veliki interes i to zahvaljujući velikom broju dostupnih tekstova u digitalnom obliku. Eksperiment klasificiranja tekstova pisanih na hrvatskome jeziku u ovome diplomskom radu proveden je s ciljem istraživanja mogućnosti klasifikacije tekstova temeljem nestandardnih oblika (NSO) riječi. Prikupljeno je 390 tekstova, koji čine kolekciju SKIPEZ (službeno, književno, informativno, popularno, edukativno i znanstveno), a organizirani su u 6 klasa i to: edukacijsku, znanstvenu, službenu, informativnu, popularnu i književnu. Takav specijalizirani djelomični korpus tekstova pisanih na hrvatskome jeziku ima nešto više od 2.2 milijuna pojavnica, od čega približno 10% čine riječi nestandardnog oblika. Eksperiment je proveden na tri različite reprezentacije kolekcije SKIPEZ. Prva reprezentacija predstavljena je frekvencijama pojavnosti NSO. Druga reprezentacija kolekcije predstavljena je pomoću statističkih obilježja koja opisuju raspršenje NSO u pojedinome tekstu, dok treća ujedinjuje značajki prve i druge reprezentacije. Korišteno je šest različitih algoritama strojnoga učenja: Naive Bayes, CN2, C4.5, kNN, klasifikacijska stabla i Random Forest. Dobiveni rezultati potvrđuju opravdanost korištenja NSO riječi u hrvatskome jeziku kao reprezentativnih značajki vektora u postupcima klasifikacije. Model klasifikacije induciran Random Forest algoritmom pokazao se najboljim s rezultatom točnosti klasifikacije od 87%. Rezultat je postignut nad kolekcijom čija je reprezentacija temeljena na kombinaciji frekvencija pojavnosti NSO i deskriptivnoj statistici.
Projekt / tema: 318-0361935-0852
Izvorni jezik: HRV
Znanstvena područja:
Računarstvo,Informacijske i komunikacijske znanosti
Upisao u CROSBI: Sanda Martinčić - Ipšić (smarti@inf.uniri.hr), 8. Tra. 2013. u 10:16 sati



Verzija za printanje   za tiskati


upomoc
foot_4