Show simple item record

dc.contributor.advisorSaraçbaşı, Osmantr_TR
dc.contributor.authorÖzgür Dolgun, Muhsintr_TR
dc.date.accessioned2015-10-14T10:37:02Z
dc.date.available2015-10-14T10:37:02Z
dc.date.issued2014tr_TR
dc.identifier.urihttp://hdl.handle.net/11655/1000
dc.description.abstractDecision Trees, Bayesian Networks, and Support Vector Machines are the most commonly used statistical and data mining based methods of classification in the literature and practice. While using these methods, the impact of important factors on the model success, such as, the measuring level of the independent variables (i.e., continuous, discrete, etc.), the distribution of the independent variables (i.e., symmetric, skewed, etc.), the amount of correlation between independent variables (i.e., low, medium or strong relationship), and the sample size are often ignored. Therefore, in this study, the impact of different structures of dependent and independent variables on the model performances of Decision Trees, Bayesian Networks, Support Vector Machines methods are compared by a simulation study. A total of 243 different simulation scenarios were obtained by taking into account three levels for the degree of correlation between independent variables, three levels for the number of independent variables in a model, three levels for the sample size, three levels for the amount of the correlation between dependent and independent variables, and three levels for the prevalence of the dependent variable. Each scenario was repeated 1000 times, for each repetition mentioned classification methods are applied and they were compared by their model success criteria. At the end of the thesis, some general suggestions are given to the researchers on which classification method should be used or avoided under different structures of dependent and independent variables.tr_TR
dc.language.isoturtr_TR
dc.publisherSağlık Bilimleri Enstitüsütr_TR
dc.subjecttr_TR
dc.titleVeri Madenciliği Sınıflama Yöntemlerinin Başarılarının Bağımlı Değişken Prevelansı Örneklem Büyüklüğü ve Bağımsız Değişkenler Arası Ilişki Yapısına Göre Karşılaştırılmasıtr_TR
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.callno2014/1520tr_TR
dc.contributor.departmentoldBiyoistatistik Anabilim Dalıtr_TR
dc.description.ozetKarar Ağaçları, Bayesci Ağlar ve Destek Vektör Makinaları literatürde ve uygulamalarda en çok kullanılan istatistiksel ve veri madenciliği kökenli sınıflama yöntemleri arasında yer almaktadır. Bu yöntemler kullanılırken bağımsız değişkenlerin ölçüm seviyesi (sürekli, kesikli vb.), bağımsız değişkenlerin dağılımı (simetrik, çarpık, vb.), bağımlı değişkenin dağılımı (simetrik, çarpık, vb.) bağımsız değişkenler arasındaki ilişki miktarı (düşük, orta veya yüksek ilişki), örneklem hacmi gibi başlıca önemli unsurların model başarısına ve yöntemler üzerine olan etkileri göz ardı edilmektedir. Bu nedenle çalışmada, bağımlı ve bağımsız değişkenlerin farklı yapılarının; Karar Ağaçları, Bayesci Ağlar ve Destek Vektör Makinaları yöntemlerinin başarıları üzerine olan etkileri benzetim çalışması yardımıyla karşılaştırılmıştır. Benzetim çalışmasında, bağımsız değişkenler arasındaki ilişki miktarı için üç farklı seçenek, bağımsız değişken sayısı için üç farklı seçenek, örneklem hacmi için üç farklı seçenek, bağımsız değişkenler ile bağımlı değişken arasındaki ilişki miktarı için üç farklı seçenek, bağımlı değişken prevelansı için de üç farklı seçenek dikkate alınarak toplamda 243 farklı kombinasyon kullanılmıştır. Her bir senaryo 1000 kez tekrar edilmiş, her bir tekrarda sözü edilen sınıflama yöntemleri uygulanmış ve her bir modelin model başarı kriterleri elde edilerek karşılaştırılmıştır. Elde edilen sonuçlar ışığında, araştırmacılara bağımlı ve bağımsız değişkenlerin farklı yapıda olduğu durumlarda hangi sınıflama yöntemini kullanmaları veya hangi yöntemden kaçınmaları konusunda bilgi verilmiştir.tr_TR


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record