dc.contributor.advisor | Karabulut, Erdem | |
dc.contributor.author | Kaşıkcı, Merve | |
dc.date.accessioned | 2019-09-02T11:22:12Z | |
dc.date.issued | 2019 | |
dc.date.submitted | 2019-08-05 | |
dc.identifier.uri | http://hdl.handle.net/11655/8814 | |
dc.description.abstract | In this thesis, Artificial Neural Networks, Random Forest, Support Vector Machines, which are classical data mining methods, and Deep Learning method were used to classify the cancer subtypes. The performances of these methods were compared by using some performance comparison measures like accuracy, Kappa and F measure. For this reason, two different RNA sequencing data sets were used. The first data set is the lung cancer data set which has two classes. It is a balanced data set in terms of class size. The other data set is renal cancer data set. This data set contains three classes and the number of observation in these classes are uneven. Gene sets used in the classification were obtained by using different filters. Therefore the performances of the classification methods in different data sets and filters were examined. For each classification method, specific parameters were optimized and the most appropriate parameters were selected. Deep Learning method which has a deeper structure compared to classical data mining methods, showed a successful performance on the data sets used in this study. In terms of the measurements used in performance comparison, the classical single-layer Artificial Neural Network has lower values compared to other methods. | tr_TR |
dc.description.sponsorship | Microsoft Genetik Ekibi | tr_TR |
dc.description.tableofcontents | ONAY iii
YAYIMLAMA VE FİKRİ MÜLKİYET HAKLARI BEYANI iv
ETİK BEYAN v
TEŞEKKÜR vi
ÖZET vii
ABSTRACT viii
İÇİNDEKİLER ix
SİMGELER VE KISALTMALAR xi
ŞEKİLLER xii
TABLOLAR xiv
1. GİRİŞ 1
2. GENEL BİLGİLER 3
2.1. Omikler (Omics) 3
2.1.1. Genomikler (Genomics) 4
2.1.2. Transkriptomikler (Transcriptomics) 4
2.1.3. Proteomikler (Proteomics) 6
2.1.4. Metabolomikler (Metabolomics) 6
2.1.5. Transktriptom Verisinin Elde Edilmesi 7
2.2. Sınıflama Yöntemleri 15
2.2.1. Rastgele Orman 15
2.2.2. Destek Vektör Makineleri 19
2.2.3. Yapay Sinir Ağları 22
2.2.4. Derin Öğrenme 25
2.3. Performans Ölçüleri 35
3. GEREÇ VE YÖNTEM 39
3.1. Uygulama 39
3.1.1. Farklı İfade Edilmiş Genlerin Bulunması 39
3.1.2. Filtreleme 40
3.1.3. Dönüşüm 40
3.2. Yöntem 41
4. BULGULAR 44
5. TARTIŞMA 52
6. SONUÇ VE ÖNERİLER 57
7. KAYNAKLAR 58
8. EKLER
EK-1: Tez Çalışması Orijinallik Raporu
EK-2: Dijital Makbuz
9. ÖZGEÇMİŞ | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Sağlık Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | veri madenciliği | tr_TR |
dc.subject | derin öğrenme | tr_TR |
dc.subject | RNA dizileme | tr_TR |
dc.subject | kanser | tr_TR |
dc.subject | sınıflama yöntemleri | tr_TR |
dc.subject.lcsh | Konu Başlıkları Listesi::Tıp | tr_TR |
dc.title | Transkriptom Veri Seti Üzerinde Derin Öğrenme Yöntemi ile Klasik Veri Madenciliği Yöntemlerinin Sınıflama Performanslarının Karşılaştırılması | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Bu tez çalışmasında akciğer kanseri ve böbrek kanserine ait RNA dizileme verileri kullanılarak, kanser alt türlerinin sınıflandırılmasında klasik veri madenciliği yöntemleri ve Derin Öğrenme yöntemi kullanılmıştır. Çalışmada kullanılan klasik veri madenciliği yöntemleri Yapay Sinir Ağları, Rastgele Orman ve Destek Vektör Makineleri’dir. Sınıflama yöntemlerinin performansları doğruluk, Kappa, F ölçütü gibi ölçüler kullanılarak karşılaştırılmıştır. Akciğer kanseri veri seti iki sınıflı ve sınıf dağılımları dengeli bir veri seti iken böbrek kanseri veri setinde üç sınıf vardır, sınıflardaki gözlem sayıları dengesizdir. Sınıflamada kullanılan gen setleri, farklı filtreler uygulanarak elde edilmiştir. Böylece, farklı özellikte veri setlerinde ve farklı filtrelerde sınıflama yöntemlerinin performansları incelenmiştir. Her sınıflama yöntemi için, yöntemlere ait belirli parametrelerin alabileceği değer aralıkları belirlenmiş ve eğitim setleri üzerinde denenerek uygun parametre seçimi gerçekleştirilmiştir. Çalışmada kullanılan veri setlerinde, klasik veri madenciliği yöntemlerine göre daha derin bir yapıya sahip olan Derin Öğrenme yöntemi, genel olarak başarılı bir performans göstermiştir. Performans karşılaştırmada kullanılan ölçüler bakımından tek katmanlı klasik Yapay Sinir Ağı, diğer yöntemlere göre daha düşük değerler almıştır. | tr_TR |
dc.contributor.department | Biyoistatistik | tr_TR |
dc.embargo.terms | 6 ay | tr_TR |