dc.contributor.advisor | Toka, Onur | |
dc.contributor.author | Aşlar Kırmızı, Cemile | |
dc.date.accessioned | 2023-06-06T05:59:36Z | |
dc.date.issued | 2023 | |
dc.date.submitted | 2023-01-19 | |
dc.identifier.uri | https://hdl.handle.net/11655/33392 | |
dc.description.abstract | In the field of data mining, the importance of classification techniques categorized under supervised learning is increasing with the constantly changing, diversifying and multiplying data. This variety in data creates the need for change and advancement of classification techniques. Robust classification techniques under basic classification techniques are being developed in order to reduce misclassification rates. In the presence of outliers caused by advancements and changes in the data, finding the right classification method increases its importance day by day.
In this study, some classification techniques gathered under machine learning were examined. Analyzes were made and interpreted on simulation and real data sets with algorithms that are most used in the literature and described as successful in the sources. Threshold Metrics were used to interpret the prediction errors of classification algorithms by digitizing them. The success of classification algorithms was evaluated based on these data by calculating sensitivity, specificity, overall accuracy and F1-scores. By diversifying the evaluation, analyzes were made on 4 types of simulation data sets and 2 different real data. The results of the analysis were charted, interpreted and graphical representations of the F1-scores were used.
In the analyzes using simulation datasets, the successes of logistic regression, robust logistic regression with similar features, tangentboost, gudermannianboost algorithms, robust linear discriminant analysis (RLDA) and robust quadratic discriminant analysis (RQDA), robust linear discriminant analysis with OGK estimator (RLDA-OGK) came forward. In the analysis results where real datasets were studied, logistic regression, robust logistic regression, tangentboost, gudermannianboost algorithms, sensitivity, specificity, overall accuracy and F1-scores were all found to be successful with a significant margin. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Makine öğrenmesi | tr_TR |
dc.subject | Sağlam sınıflandırma algoritmaları | tr_TR |
dc.subject | Sınıflandırma algoritmaları | tr_TR |
dc.title | Aykırı Değerler Varlığında Sınıflandırma Yöntemleri | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Veri madenciliğinde denetimli öğrenme başlığı altında yer alan sınıflandırma tekniklerinin önemi, sürekli değişen, çeşitlenen ve çoğalan verilerin hızıyla beraber artmaktadır. Verilerdeki bu değişkenlik, sınıflandırma tekniklerinin de değişim ve gelişimi ihtiyacını doğurmaktadır. Temel sınıflandırma teknikleri altında önerilen sağlam (robust) sınıflandırma teknikleri, yanlış sınıflandırma oranlarının düşmesi için geliştirilmektedir. Verilerdeki gelişim ve değişimlerin meydana getirdiği aykırı değerlerin varlığında, doğru sınıflandırma yönteminin bulunabilmesi gün geçtikçe önemini arttırmaktadır.
Bu çalışmada makine öğrenmesi başlığı altında toplanan bazı sınıflandırma teknikleri incelenmiştir. Literatürde en çok kullanılan ve kaynaklarda başarılı olarak nitelendirilen algoritmalar ile benzetim ve gerçek veri kümeleri üzerinde analizler yapılmış ve yorumlanmıştır. Sınıflandırma algoritmalarının tahmin hatalarını sayısallaştırarak yorumlayabilmek için Eşik Değerleri (Threshold Metrics) kullanılmıştır. Sınıflandırma algoritmalarının başarıları duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerileri hesaplanarak, bu veriler üzerinden değerlendirilmiştir. Değerlendirme çeşitlendirilerek 4 tip benzetim veri kümesi ve 2 farklı gerçek veri üzerinden analizler yapılmıştır. Yapılan analiz sonuçları tablolaştırılmış, yorumlanmış ve F1-değerlerinin grafiksel gösterimlerinden faydalanılmıştır.
Benzetim veri kümeleri ile analizlerde lojistik regresyon, benzer özelliğe sahip olan sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, sağlam doğrusal ayrıştırıcı (Robust Linear Discriminant Analysis - RLDA) ve sağlam karesel ayrıştırıcı ((Robust Quadratic Discriminant Analysis - RQDA), OGK (Ortogonolize Gnanadesikan- Kettenring) kestiricili sağlam doğrusal ayrıştırıcının (RLDA-OGK) başarıları ön plana çıkmıştır. Gerçek veri kümelerinin çalışıldığı analiz sonuçlarında ise lojistik regresyon, sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerlerinin tümü göz önüne alındığında önemli bir farkla başarılı bulunmuşlardır. | tr_TR |
dc.contributor.department | İstatistik | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2023-06-06T05:59:36Z | |
dc.funding | Yok | tr_TR |