Dengesiz Verilerde Sentetik Azınlık Aşırı Örnek Tekniklerinin (Smote) Karşılaştırılması: İnme Verisi Örneği
| dc.contributor.author | Özer Önder | |
| dc.contributor.department | İstatistik | |
| dc.date.accessioned | 2026-06-02T12:07:02Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | The class imbalance problem remains one of the most significant challenges limiting the effectiveness of classification algorithms in contemporary data-driven applications. This study investigates the impact of various oversampling techniques including SMOTE, Borderline-SMOTE, SVM-SMOTE, SMOTE-ENN, KMeans-SMOTE, SMOTE-Tomek, and ADASYN on the performance of classification models. The classifiers employed in this evaluation are Logistic Regression (LR), Random Forest (RF), Support Vector Machines (SVM), and XGBoost (XGB). The models' performances were assessed based on widely used evaluation metrics, including Precision, Recall, F1-score, ROC curve and AUC value. The comparisons were conducted between oversampling techniques and classification algorithms to determine the most effective combinations. In the final phase of the study, a single best-performing classifier was selected for each oversampling method, followed by a comparative analysis to identify the overall most successful pair. The experimental results demonstrate that the combination of the SMOTE-ENN oversampling technique and the RF classifier yields the highest performance across the considered evaluation metrics, indicating it as the most effective pairs for handling imbalanced datasets in this context. | |
| dc.description.ozet | Dengesiz sınıflı veri problemi günümüzde sınıflandırma algoritmalarının kullanımını sınırlandıran en büyük problemlerden biridir. Bu çalışma kapsamında aşırı örnekleme tekniği olarak temel SMOTE, Borderline-SMOTE, SVM-SMOTE, SMOTE-ENN, KMeans-SMOTE, SMOTETomek ve ADASYN algoritmaları ve sınıflandırma algoritması olarak lojistik regresyon (LR), rastgele ormanlar (RF), destek vektör makineleri (SVM) ve XGBoost (XGB) algoritmaları kullanılmıştır. Sınıflandırma performansları Kesinlik, Duyarlılık, F1 skoru, ROC eğrisi ve AUC değeri gibi ölçütler üzerinden karşılaştırılmış ve hangi ikilinin sınıflandırmada daha başarılı sonuçlar araştırılmıştır. Çalışmada bahsedilen performans ölçütleri kullanılarak ikili olarak performansları test edilmiş ve son bölümde her aşırı örnekleme algoritması için bir sınıflandırma algoritması seçilecek karşılaştırma yapılmış ve en verimli ikilinin ortaya çıkarılması amaçlanmıştır. Yapılan karşılaştırmaların sonucu olarak en yüksek performansa sahip ikili olarak, SMOTE-ENN aşırı örnekleme algoritması ve sınıflandırma algoritması olarak RF algoritması ikilisinin birlikte kullanımının en başarılı sınıflandırma yapan ikili olduğu gösterilmiştir. | |
| dc.embargo.lift | 2026-06-02T12:07:02Z | |
| dc.embargo.terms | Acik erisim | |
| dc.identifier.uri | https://hdl.handle.net/11655/38565 | |
| dc.language.iso | tr | |
| dc.publisher | Fen Bilimleri Enstitüsü | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.subject | Sınıflandırma | |
| dc.subject | Aşırı örnekleme | |
| dc.subject | Model | |
| dc.subject | Simülasyon | |
| dc.subject | Dengesiz veri | |
| dc.title | Dengesiz Verilerde Sentetik Azınlık Aşırı Örnek Tekniklerinin (Smote) Karşılaştırılması: İnme Verisi Örneği | |
| dc.title.alternative | Comparison Of Synthetic Minorıty Oversampling Techniques (Smote) On Imbalanced Data: The Stroke Data Example | |
| dc.type | info:eu-repo/semantics/masterThesis |