Aykırı Değerler Varlığında Sınıflandırma Yöntemleri

Aşlar Kırmızı, Cemile

dc.contributor.advisor	Toka, Onur
dc.contributor.author	Aşlar Kırmızı, Cemile
dc.date.accessioned	2023-06-06T05:59:36Z
dc.date.issued	2023
dc.date.submitted	2023-01-19
dc.identifier.uri	https://hdl.handle.net/11655/33392
dc.description.abstract	In the field of data mining, the importance of classification techniques categorized under supervised learning is increasing with the constantly changing, diversifying and multiplying data. This variety in data creates the need for change and advancement of classification techniques. Robust classification techniques under basic classification techniques are being developed in order to reduce misclassification rates. In the presence of outliers caused by advancements and changes in the data, finding the right classification method increases its importance day by day. In this study, some classification techniques gathered under machine learning were examined. Analyzes were made and interpreted on simulation and real data sets with algorithms that are most used in the literature and described as successful in the sources. Threshold Metrics were used to interpret the prediction errors of classification algorithms by digitizing them. The success of classification algorithms was evaluated based on these data by calculating sensitivity, specificity, overall accuracy and F1-scores. By diversifying the evaluation, analyzes were made on 4 types of simulation data sets and 2 different real data. The results of the analysis were charted, interpreted and graphical representations of the F1-scores were used. In the analyzes using simulation datasets, the successes of logistic regression, robust logistic regression with similar features, tangentboost, gudermannianboost algorithms, robust linear discriminant analysis (RLDA) and robust quadratic discriminant analysis (RQDA), robust linear discriminant analysis with OGK estimator (RLDA-OGK) came forward. In the analysis results where real datasets were studied, logistic regression, robust logistic regression, tangentboost, gudermannianboost algorithms, sensitivity, specificity, overall accuracy and F1-scores were all found to be successful with a significant margin.	tr_TR
dc.language.iso	tur	tr_TR
dc.publisher	Fen Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	Makine öğrenmesi	tr_TR
dc.subject	Sağlam sınıflandırma algoritmaları	tr_TR
dc.subject	Sınıflandırma algoritmaları	tr_TR
dc.title	Aykırı Değerler Varlığında Sınıflandırma Yöntemleri	tr_TR
dc.type	info:eu-repo/semantics/masterThesis	tr_TR
dc.description.ozet	Veri madenciliğinde denetimli öğrenme başlığı altında yer alan sınıflandırma tekniklerinin önemi, sürekli değişen, çeşitlenen ve çoğalan verilerin hızıyla beraber artmaktadır. Verilerdeki bu değişkenlik, sınıflandırma tekniklerinin de değişim ve gelişimi ihtiyacını doğurmaktadır. Temel sınıflandırma teknikleri altında önerilen sağlam (robust) sınıflandırma teknikleri, yanlış sınıflandırma oranlarının düşmesi için geliştirilmektedir. Verilerdeki gelişim ve değişimlerin meydana getirdiği aykırı değerlerin varlığında, doğru sınıflandırma yönteminin bulunabilmesi gün geçtikçe önemini arttırmaktadır. Bu çalışmada makine öğrenmesi başlığı altında toplanan bazı sınıflandırma teknikleri incelenmiştir. Literatürde en çok kullanılan ve kaynaklarda başarılı olarak nitelendirilen algoritmalar ile benzetim ve gerçek veri kümeleri üzerinde analizler yapılmış ve yorumlanmıştır. Sınıflandırma algoritmalarının tahmin hatalarını sayısallaştırarak yorumlayabilmek için Eşik Değerleri (Threshold Metrics) kullanılmıştır. Sınıflandırma algoritmalarının başarıları duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerileri hesaplanarak, bu veriler üzerinden değerlendirilmiştir. Değerlendirme çeşitlendirilerek 4 tip benzetim veri kümesi ve 2 farklı gerçek veri üzerinden analizler yapılmıştır. Yapılan analiz sonuçları tablolaştırılmış, yorumlanmış ve F1-değerlerinin grafiksel gösterimlerinden faydalanılmıştır. Benzetim veri kümeleri ile analizlerde lojistik regresyon, benzer özelliğe sahip olan sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, sağlam doğrusal ayrıştırıcı (Robust Linear Discriminant Analysis - RLDA) ve sağlam karesel ayrıştırıcı ((Robust Quadratic Discriminant Analysis - RQDA), OGK (Ortogonolize Gnanadesikan- Kettenring) kestiricili sağlam doğrusal ayrıştırıcının (RLDA-OGK) başarıları ön plana çıkmıştır. Gerçek veri kümelerinin çalışıldığı analiz sonuçlarında ise lojistik regresyon, sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerlerinin tümü göz önüne alındığında önemli bir farkla başarılı bulunmuşlardır.	tr_TR
dc.contributor.department	İstatistik	tr_TR
dc.embargo.terms	Acik erisim	tr_TR
dc.embargo.lift	2023-06-06T05:59:36Z
dc.funding	Yok	tr_TR

Bu öğenin dosyaları:

Ad:: Cemile_A_Kirmizi_YL.pdf
Boyut:: 1.478Mb
Biçim:: PDF
Açıklama:: Yüksek Lisans Tez

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

İstatistik Bölümü Tez Koleksiyonu [112]

Basit öğe kaydını göster