Metode sjenastog klasteriranja za nebalansirane skupove podataka (CROSBI ID 400732)
Ocjenski rad | doktorska disertacija
Podaci o odgovornosti
Panjkota, Ante
Grujić, Tamara
Kononenko, Igor
hrvatski
Metode sjenastog klasteriranja za nebalansirane skupove podataka
Predmet istraživanja ove doktorske disertacije je binarna klasifikacija nebalansiranih skupova podataka. Preciznije, rad je usmjeren na rješavanje dvaju kompleksnih problema u području klasifikacije nebalansiranih podataka. Prvu grupu problema čine slučajevi s podkonceptima u manjinskoj klasi, sa znatnim preklapanjem među klasama, relativno velikim brojem dimenzija, postojanjem smetnji u oznakama klasa i vrijednostima atributa, te prisutnošću irelevantnih i redundantnih atributa (problemi tipa &Omega ; ). Sva navedena svojstva u ulaznom skupu podataka izuzev postojanja podkoncepata u manjinskoj klasi, ali uz dodatak svojstva aposolutne rijetkosti čini drugu grupu problema (problemi tipa &Theta ; ). Kao rješenje prve skupine problema razvijen je algoritam Ensemble Shadower-I koji provodi sjenasto klasteriranje u nižedimenzionalnim projekcijama manjinske klase, te potom naduzorkuje dobivena područja jezgri ili sjena i jezgri primjenom algoritma Breeder GA. Konačna klasifikacija algoritma dobiva se većinskim glasovanjem svih članova ansambla u svim projekcijama. Algoritam Ensemble Shadower- II razvijen je kao odgovor na probleme klasifikacije podataka apsolutne rijetkosti. Osnovu rada algoritma Ensemble Shadower-II predstavlja informativno uzorkovanje većinske klase u vidu provođenja sjenastog klasteriranja nad njezinim primjercima u nižedimenzionalnim ortogonalnim projekcijama. Dobiveni klasteri kombiniraju se s cijelom manjinskom klasom koja se potom naduzorkuje principom opisanim kod algoritma Ensemble Shadower-I. Politika glasovanja dobivenog ansambla opet je većinsko glasovanje. Efikasnost i kvaliteta razvijenih algoritama Ensemble Shadower-I i Ensemble Shadower-II potvrđene su usporedbom sa state- of-the-art algoritmima na većem broju sintetski generiranih podataka koji reflektiraju promatrana svojsta nebelansiranosti tipova problema &Omega ; i &Theta ; . Za potrebe generiranja sintetskih podataka razvijen je i generator sintetskih podataka koji stvara višedimenzionalne podatke spajanjem relevantnih 2D i 3D područja bottom up procedurom, uz dodavanje željenog broja irelevantnih i redundatnih atributa, te potrebne razine smetnji u klase ili atribute. Najvažniji rezultat pokazuje statistički značajniju robusnost na prisutnost smetnji novih algoritama Ensemble Shadower-I i Ensemble Shadower-II pri rješavanju istaknutih problema u odnosu na uspoređene state-of-the- art algoritme. Konačno, kvaliteta novih algoritama Ensemble Shadower-I i Ensemble Shadower-II potvrđena je usporedbom performansi klasifikacije sa state- of-the-art algoritmima, izraženo mjerom ACC, F-mjerom i mjerom AUC, na nebalansiranim binarnim problemima iz različitih realnih domena.
strojno učenje; nebalansirani podaci; sjenasto klasteriranje; ansambli; binarna klasifikacija; manjinski podkoncepti; apsolutna rijetkost; preklapanje klasa; evaluacija algoritama; generator sintetskih podataka
nije evidentirano
engleski
Shadowed Clustering Methods for Imbalanced Data Sets
nije evidentirano
machine learning; imbalanced data; shadowed clustering; ensemble; binary classification; minority subconcepts; absolute rarity; class overlapping; algorithm evaluation; synthetic data generator
nije evidentirano
Podaci o izdanju
153
24.09.2015.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike, strojarstva i brodogradnje u Splitu
Split