Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli (CROSBI ID 376142)

Ocjenski rad | doktorska disertacija

Habus-Korbar, Anja Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli / Szirovicza, Lajos ; Boras, Damir (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 2012

Podaci o odgovornosti

Habus-Korbar, Anja

Szirovicza, Lajos ; Boras, Damir

hrvatski

Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli

Pod dubinskim pretraživanjem podataka podrazumijeva se skup metoda za statističku analizu i modeliranje koje se koriste u svrhu smislenih novih veza, struktura i trendova između mnoštva varijabli koje su nam na raspolaganju. Također nam pomaže u odabiru optimalnog modela koji će nam omogućiti predikciju budućih rezultata. Na pojedinom skupu podataka modeli se uspoređuju po pogrešci procijenjenoj na dijelu podataka za validaciju. Koji će model imati najmanju pogrešku ovisi o nizu faktora: strukturi podataka, broju i tipu varijabli razini međusobne veze među varijablama, stupnju odstupanja od normalnosti kvantitativnih varijabli i dr.. Zbog toga je jedan od važnih problema u području otkrivanja znanja iz podataka vezan uz izbor najpogodnijih transformacija i najefikasnijeg modela za dani skup podataka. Glavni cilj ove disertacije usporedba je slijedećih modela za klasifikaciju: osnovna logistička regresija te tri tipa logističke regresije sa transformacijama, stablo odlučivanja i neuralne mreže. Od metoda za transformaciju varijabli primijenjene su logaritamska, optimalna transformacija i kategorizacija u kvantile. Podaci na kojima je provedena usporedna analiza navedenih modela uključuju po sto uzoraka simuliranih podataka na osnovu tri faktora: tip distribucije, jednakost varijance i broj opservacija. Nakon usporedbe modela sa simuliranim matricama, rezultati istih testirani su na podacima iz dva područja primjene. Na prvom mjestu korišteni su normalno distribuirani podaci iz područja edukacije. Rezultati su uspoređeni na osnovu slijedećih mjera točnosti klasifikacije: srednja kvadratna pogreška, Gini indeks, Kolmogorov-Smirnov statistika i pogreška klasifikacije. Dokazano je postojanje statistički značajnih razlika među modelima u zavisnosti od predodređenih faktora: tip distribucija, jednakost varijanci i broj opservacija. Kao modeli sa najmanjim pogreškama prilikom predikcije pokazali su se kako kod simuliranih tako i kod primijenjenih podataka logistički modeli ( osnovni i model sa logaritamskom transformacijom u slučaju normalnih te model s optimalnom transformacijom prediktorskih varijabli kod nenormalnih distribucija podataka) te u pojedinim slučajevima i neuronska mreža dok su se kao lošiji za predikciju u većini slučajeva pokazali stablo odlučivanja i logistička regresija sa transformacijom prediktorskih varijabli po kvantilima.

dubinsko pretraživanje podataka; usporedba modela zaklasifikaciju; stabla odlučivanja; neuralne mreže

nije evidentirano

engleski

An empirical analysis of comparative data mining classification model performance given an assortment of qualitative/quantitative variables

nije evidentirano

data mining; evaluation of statistical predictive algorithms; decision tree; neural networks

nije evidentirano

Podaci o izdanju

201

11.07.2012.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Filozofski fakultet u Zagrebu

Zagreb

Povezanost rada

Etnologija i antropologija, Matematika