Primjena algoritama k-sredina u dubinskoj analizi kolekcije tekstualnih podataka (CROSBI ID 352001)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Rukavina, Marijana
Grubišić, Luka
hrvatski
Primjena algoritama k-sredina u dubinskoj analizi kolekcije tekstualnih podataka
Klasteriranje podataka je zanimljivo i primjenjljivo područje, ali još uvijek nov i neprestano razvijajući pristup u analizi podataka. Najrazličitija znanstvena područja imaju veliku korist od ove discipline. Danas postoje brojni komercijalni i nekomercijalni alati koji imaju svoju primjenu u klasteriranju podataka. Primjerice, Weka, jedan od besplatnih alata, razvijen na sveučilištu Waikato, pruža mogućnost direktnog klasteriranja podataka ili indirektno, pozivanjem Weke iz aplikacije pisane u Javi. Zatim, komercijalni alat, MatLab-ov COMPACT (Comparative Package for Clustering Assessment) GUI za klasteriranje podataka. Cilj ovog diplomskog rada je bio upoznati i povezati različite tehnologije, opisati metodologiju klasteriranja i dati ilustrativan primjer primjene opisanog. Aplikacija, priložena ovom radu, ne vrši klasteriranje na nivou prethodno spomenutih alata, ali daje dobru ilustraciju svega što se događa u tom procesu klasteriranja. Prednost joj je u povezivanju različitih tehnologija, što je omogućilo primjenjljivost na bilo koju bazu podataka i sintezu različtih elemenata koji mogu doprinjeti klasteriranju podataka. Uz rad prilažem CD na kojem se nalazi kod aplikacije i sve ostale potrebne datoteke. Otvorena je mogućnost daljnje modifikacije aplikacije. Eventualne promjene mogle bi se odvijati u sljedećim smjerovima: upotreba SVD metode kod generiranja matrice \emph{;rijeći}; $\times$ \emph{;dokumenti};, umjesto $0-1$ elemenata korištenje TFIDF funkcije za vrijednosti matrice, korištenje drugih algoritama ili čak povezivanje MatLab-ovog COMPACT-a s aplikacijom, ubotreba složenijeg označavanja klastera i drugo.
algoritam k-sredina; dubinska analiza teksta; klasteriranje podataka
nije evidentirano
engleski
Application of the k-means algorithm in clustering of a collection of textual data
nije evidentirano
k-means algorithm; data-mining; data clustering
nije evidentirano
Podaci o izdanju
56
22.12.2008.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Prirodoslovno-matematički fakultet, Zagreb
Zagreb