Algoritam korjenovanja riječi temeljen na grupiranju znakovnih nizova (CROSBI ID 360093)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Hot, Zlatan
Dalbelo Bašić, Bojana
Šnajder, Jan
hrvatski
Algoritam korjenovanja riječi temeljen na grupiranju znakovnih nizova
Performanse računalnih sustava za pretraživanje informacija i klasifikaciju teksta moguće je značajno poboljšati provođenjem postupka morfološke normalizacije. Jedan od načina jest korjenovanje riječi, koje uključuje svođenje morfološki sličnih riječi na zajedničku normu. Tema ovog rada je izrada programa za nenadzirano strojno učenje koji (bez predznanja o jeziku) kroz tri koraka izvodi potencijalna pravila za korjenovanje. Koraci su: povezivanje ortografski sličnih riječi, grupiranje riječi u derivacijske grupe korištenjem Newmanovog algoritma za otkrivanje zajednica u grafu te izvođenje pravila iz rezultirajućih grupa. Rezultat se vrednuje u smislu kakvoće normalizacije na flektivno-derivacijskoj razini. Istražuje se utjecaj izbora metode za određivanje udaljenosti, praga sličnosti i skupa ulaznih podataka.
korjenovanje; pretraživanje informacija; morfološka normalizacija; Newmanov algoritam za detekciju zajednica u grafu; sličnost znakovnih nizova; Ratclif-Obershelp mjera sličnosti
nije evidentirano
engleski
A Stemming Algorithm Based on String Clustering
nije evidentirano
stemming; information retrieval; morphological normalization; Newman's graph algorithm; string similarity; Ratclif-Obershelp similarity measure
nije evidentirano
Podaci o izdanju
39
09.07.2010.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb