Sınıf Dengesizliği Sorununu Çözmek İçin Kullanılan Algoritmaların Farklı Sınıflandırma Yöntemlerinde Performanslarının Karşılaştırılması

AYDIN HAKLI, Duygu

dc.contributor.advisor	KARABULUT, Erdem
dc.contributor.author	AYDIN HAKLI, Duygu
dc.date.accessioned	2018-07-26T13:08:25Z
dc.date.available	2018-07-26T13:08:25Z
dc.date.issued	2018
dc.date.submitted	2018-06-27
dc.identifier.uri	http://hdl.handle.net/11655/4735
dc.description.abstract	Class imbalance, for a given dataset, occurs when there are relatively small observations in one or more groups comparing to other groups. Analyzing imbalanced data sets via machine learning algorithms has become a common and remarkable research area in recent years. However, this problem leads to a decrease in the model performance. Besides that, selection of the model for classiﬁcation, optimizing model parameters, validating the ﬁtted model, underlying distribution and data structure may also aﬀect model performance. Furthermore, several data balancing algorithms were proposed to overcome class imbalance problem such as SMOTE, SMOTEBoost, RUSBoost, MWMOTE, EasyEnsemble, SMOTEBagging and UnderBagging. In this study, we evaluated model performances using a comprehensive simulation study along with real data examples. We conducted a simulation study under diﬀerent classiﬁcation models, class imbalance algorithms, sample sizes, correlation structures and class imbalance ratios. Each scenario was repeated 1000 times and the ﬁtted models were optimized using 5-folds cross-validation. Simulation study showed that the model performances increase with sample size and correlation among dependent and independent variables. When the correlation approaches zero and classes are highly imbalanced, RUSBoost outperforms other algorithms. As data become more balanced, the seven algorithms gave similar results independently from sample size and correlation structure. Overall simulation results, RUSBoost algorithm provided better result for all sample sizes and EasyEnsemble for small sample size the most of the simulation combinations.	en
dc.description.tableofcontents	İÇİNDEKİLER Sayfa ONAY SAYFASI iii YAYIMLAMA VE FİKRİ MÜLKİYET HAKLARI BEYANI iv ETİK BEYAN TEŞEKKÜR vi ÖZET vii ABSTRACT viii İÇİNDEKİLER x SİMGELER VE KISALTMALAR xi ŞEKİLLER xii TABLOLAR xiii 1. GİRİŞ 1 1.1. Amaç 3 1.2. Tez organizasyonu 4 2. GENEL BİLGİLER 5 2.1. Veri Madenciliği 5 2.2. Makine Öğrenmesi 6 2.2.1 Danışmansız Öğrenme 6 2.2.2 Danışmanlı Öğrenme 6 2.3. Veri Madenciliği Yöntemleri 6 2.3.1 Tanımlayıcı Yöntemler 6 2.3.2 Kestirici Yöntemleri 7 2.4. Sınıﬂama Yöntemleri 7 2.4.1 Karar Ağaçları 7 2.4.2 RF (Random Forest) 11 2.4.3 DVM (Destek Vektör Makineleri-Support Vector Machine) 13 2.5. Sınıf Dengesizliği Problemi 15 2.5.1 Temel Kavramlar 16 2.5.2 Sınıf Dengesizliği Problemi İçin Kullanılan Algoritmalar 18 2.6. Sınıﬂama Yöntemleri İçin Performans Ölçüleri 24 2.6.1 Genel Doğruluk Oranı (GDO) 24 2.6.2 Duyarlılık (DUY) 25 2.6.3 Seçicilik (SEÇ) 25 2.6.4 Pozitif Kestirim Değeri (PKD) 25 2.6.5 Negatif Kestirim Değeri (NKD) 25 2.6.6 Eğri Altında Kalan Alan (EAA) 26 2.6.7 Düzeltilmiş Doğruluk Oranı (DDO) 26 2.6.8 F-ölçüsü 26 3. GEREÇ ve YÖNTEM 27 3.1. Benzetim Çalışması 27 3.2. Gerçek Veri Setleri 31 4. BULGULAR 33 4.1. Benzetim Çalışması Sonuçları 33 4.1.1 Düşük Düzey Korelasyona Ait Sonuçlar 33 4.1.2 Orta Düzey Korelasyona Ait Sonuçlar 44 4.1.3 Yüksek Düzey Korelasyona Ait Sonuçlar 54 4.1.4 Gerçek Korelasyona Ait Sonuçlar 64 4.2. Gerçek Veri Setlerine Ait Sonuçlar 74 5. TARTIŞMA 80 6. SONUÇ VE ÖNERİLER 81 7. KAYNAKLAR 84 8. ÖZGEÇMİŞ	tr_TR
dc.language.iso	tur	tr_TR
dc.publisher	Sağlık Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/closedAccess	tr_TR
dc.subject	Sınıf dengesizliği	tr_TR
dc.subject	Korelasyon yapıları
dc.subject	Sınıﬂama yöntemleri
dc.subject	Alt örnekleme
dc.subject	Aşırı örnekleme
dc.title	Sınıf Dengesizliği Sorununu Çözmek İçin Kullanılan Algoritmaların Farklı Sınıflandırma Yöntemlerinde Performanslarının Karşılaştırılması	tr_TR
dc.type	info:eu-repo/semantics/doctoralThesis	en
dc.description.ozet	Veri setlerinde sınıf dengesizliği problemi bir gruptaki gözlem sayısının diğer gruptaki gözlem sayısından küçük olması olarak tanımlanmaktadır. Dengesiz veri setlerini makine öğrenme yöntemleri ile analiz etmek son yıllarda yaygın ve dikkate değer bir araştırma alanı konumuna gelmiştir. Ancak bu problemden dolayı model performanslarında bir azalma olmaktadır. Bunun yanı sıra, verinin dağılımı ve verinin yapısı sınıﬂama için model seçimi, en uygun (optimum) model parametrelerinin elde edilmesi, modelin geçerliğinin etkileyebilmektedir. SMOTE, SMOTEBoost, RUSBoost, MWMOTE, EasyEnsemble, SMOTEBagging ve UnderBagging gibi algoritmalar sınıf dengesizliği probleminin etkisini azaltmak için önerilmiştir. Tez çalışmasında gerçek veri setleri ile birlikte kapsamlı bir benzetim çalışması ile elde edilen veri setleri kullanılarak sınıﬂama yöntemlerinin performanslarını değerlendirildi. Farklı sınıﬂama yöntemleri, farklı sınıf dengesizlik algoritmaları, farklı örneklem genişlikleri, farklı korelasyon yapıları ve farklı dengesizlik oranlarını kapsayacak bir benzetim çalışması gerçekleştirildi. Her senaryo 1000 kez tekrarlandı ve 5-kat çapraz geçerlik kullanılarak model doğruluğu sağlandı. Benzetim çalışmasındaki kurulan modellerin performanslarının, örneklem genişliği ve bağımlı-bağımsız değişkenler arasındaki ilişki ile arttığı görüldü. Korelasyon sıfıra yaklaştığında ve dengesizlik çok olduğunda, RUSBoost algoritması diğer algoritmalara göre sonuçlar üzerinde daha etkili bulundu. Veri setleri dengeli hale geldikçe yedi (7) algoritma örneklem genişliğinden ve korelasyon yapısından bağımsız olarak benzer sonuçlar verdi. Genel olarak benzetim çalışması sonucunda, RUSBoost tüm örneklem genişliklerinde, EasyEnsemble ise küçük örneklem genişliklerinde daha iyi sonuç verdi.	tr_TR
dc.contributor.department	Biyoistatistik	tr_TR
dc.contributor.authorID	109450	tr_TR

Bu öğenin dosyaları:

Ad:: DuyguAydınHaklı.pdf
Boyut:: 4.681Mb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Temel Tıp Bilimleri Bölümü Tez Koleksiyonu [283]

Basit öğe kaydını göster