Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli (CROSBI ID 376142)
Ocjenski rad | doktorska disertacija
Podaci o odgovornosti
Habus-Korbar, Anja
Szirovicza, Lajos ; Boras, Damir
hrvatski
Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli
Pod dubinskim pretraživanjem podataka podrazumijeva se skup metoda za statističku analizu i modeliranje koje se koriste u svrhu smislenih novih veza, struktura i trendova između mnoštva varijabli koje su nam na raspolaganju. Također nam pomaže u odabiru optimalnog modela koji će nam omogućiti predikciju budućih rezultata. Na pojedinom skupu podataka modeli se uspoređuju po pogrešci procijenjenoj na dijelu podataka za validaciju. Koji će model imati najmanju pogrešku ovisi o nizu faktora: strukturi podataka, broju i tipu varijabli razini međusobne veze među varijablama, stupnju odstupanja od normalnosti kvantitativnih varijabli i dr.. Zbog toga je jedan od važnih problema u području otkrivanja znanja iz podataka vezan uz izbor najpogodnijih transformacija i najefikasnijeg modela za dani skup podataka. Glavni cilj ove disertacije usporedba je slijedećih modela za klasifikaciju: osnovna logistička regresija te tri tipa logističke regresije sa transformacijama, stablo odlučivanja i neuralne mreže. Od metoda za transformaciju varijabli primijenjene su logaritamska, optimalna transformacija i kategorizacija u kvantile. Podaci na kojima je provedena usporedna analiza navedenih modela uključuju po sto uzoraka simuliranih podataka na osnovu tri faktora: tip distribucije, jednakost varijance i broj opservacija. Nakon usporedbe modela sa simuliranim matricama, rezultati istih testirani su na podacima iz dva područja primjene. Na prvom mjestu korišteni su normalno distribuirani podaci iz područja edukacije. Rezultati su uspoređeni na osnovu slijedećih mjera točnosti klasifikacije: srednja kvadratna pogreška, Gini indeks, Kolmogorov-Smirnov statistika i pogreška klasifikacije. Dokazano je postojanje statistički značajnih razlika među modelima u zavisnosti od predodređenih faktora: tip distribucija, jednakost varijanci i broj opservacija. Kao modeli sa najmanjim pogreškama prilikom predikcije pokazali su se kako kod simuliranih tako i kod primijenjenih podataka logistički modeli ( osnovni i model sa logaritamskom transformacijom u slučaju normalnih te model s optimalnom transformacijom prediktorskih varijabli kod nenormalnih distribucija podataka) te u pojedinim slučajevima i neuronska mreža dok su se kao lošiji za predikciju u većini slučajeva pokazali stablo odlučivanja i logistička regresija sa transformacijom prediktorskih varijabli po kvantilima.
dubinsko pretraživanje podataka; usporedba modela zaklasifikaciju; stabla odlučivanja; neuralne mreže
nije evidentirano
engleski
An empirical analysis of comparative data mining classification model performance given an assortment of qualitative/quantitative variables
nije evidentirano
data mining; evaluation of statistical predictive algorithms; decision tree; neural networks
nije evidentirano
Podaci o izdanju
201
11.07.2012.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Filozofski fakultet u Zagrebu
Zagreb