dc.contributor.advisor | Karaağaoğlu, Ergun | tr_TR |
dc.contributor.author | Coşgun, Erdal | tr_TR |
dc.date.accessioned | 2015-10-14T10:37:02Z | |
dc.date.available | 2015-10-14T10:37:02Z | |
dc.date.issued | 2013 | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/1001 | |
dc.description.abstract | Genetic studies have been an important part of medical researches in recent years. These studies have become essential for the development of personalized treatment options and discovery of new drugs. The majority of these researches have focused on obtaining gene expression data. Different methods have been developed for the analysis of gene expression data. The most important problem in the analysis of these data is that they are high dimensional to help find the expression levels for thousands of genes for the presence of a small number of individuals. Analyzing such data would not be possible with classical statistical methods because this type of data does not provide statistical assumptions. For this reason, data mining methods have been used for the analyses. According to the classical data mining approach, dimension reduction of high-dimensional data must be applied first by using Principal Component Analysis, Independent Component Analysis or Factor Analysis, then the classification, estimation or essential analysis methods such as clustering must be selected. Within the scope of this thesis, the solution has been suggested to the state of the factors of the reduced data to be similar, which is one of the missing points of this approach. In this context, the dimension has been reduced and factors have been obtained first in gene expression data, and then these structures have been analyzed by Random Forest, a most widely used tree-based method for the classification analysis. Results of this analysis were compared with the results of the use of cluster loadings obtained by size reduction proposed by the thesis study first, and then clustering factors with the Kohonen Self Organizing Map method in the Random Forest algorithm. One of the major advantages of the proposed approach is to send 1000 sub-samples selected by sampling method (bootstrap) to the Random Forest algorithm by replacing the factors clustered. In this way, both; data that could not be factorized were made more homogeneous by clustering analysis, and random selection criteria of the Random Forest method were further strengthened. The performance measures used in comparing these approaches are True Classification Rate, the F-score, Precision and Recall. Applications were carried out on two types of data: data publicly available based on 15 Gene Expression Omnibus database and 18 artificial data created for specific scenarios. The proposed method provided an average of 17.8% and 11.68% improvement for the true classification rate that is the most essential measure of comparison in data with 2 and 3 classes, and in artificial data an average of 14.5% improvement in data sets with 3 dimensions and have 3 classes with 50 individuals. The proposed method has increased the performance especially in data with less subjects and classes in terms of classification based on these findings. Software that can make all of these analyses more comfortable based on the R programming language has been developed within this thesis and the researchers will be able to carry out their own analysis. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Sağlık Bilimleri Enstitüsü | tr_TR |
dc.subject | Gen ekspresyon | |
dc.subject | Veri madenciliği | |
dc.subject | Random forest | |
dc.subject | Kohonen map | |
dc.subject | Bootstrap | |
dc.title | New Approach to Unsupervised Based Classification on Microarray Data | tr_TR |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.callno | 2013/916 | tr_TR |
dc.contributor.departmentold | Biyoistatistik Anabilim Dalı | tr_TR |
dc.description.ozet | Genetik araştırmalar son yıllarda tıbbi araştırmaların önemli bir parçası olmuştur. Kişiye özel tedavi yöntemlerinin geliştirilmesi, yeni ilaç keşifleri için bu çalışmalar olmazsa olmaz hale gelmiştir. Bu araştırmaların da büyük kısmı gen expresyon verilerinin elde edilmesine odaklanmıştır. Gen expression verilerinin analizi için farklı yöntemler geliştirilmiştir. Bu verilerin analizinde en önemli sorun yüksek boyutta olmalarıdır. Yani çok az sayıda bireye ait binlerce gen için expression düzeylerinin bulunmasıdır. Bu tip bir veriyi klasik istatistiksel yöntemler ile analiz etmek mümkün olmamaktadır. Çünkü bu veri türü istatistiksel varsayımları sağlamamaktadır. Bu nedenle Veri Madenciliği yöntemleri analizler için kullanılmaktadır. Klasik veri madenciliğine göre önce yüksek boyutlu verinin boyut indirgemesi Temel Bileşenler Analizi, Bağımsız Bileşenler Analizi ya da Faktör Analizi kullanılarak yapılmalı, sonrasında sınıflama, tahmin ya da kümeleme gibi ana analiz yöntemleri seçilmelidir. Tez çalışması kapsamından bu yaklaşımın eksik noktalarından biri olan indirgenen verideki faktörlerin benzer olması durumuna çözüm önerilmiştir. Bu kapsamda gen ekspresyon verilerinde önce boyut indirgenip faktörler elde edilmiş sonra bu yapılar sınıflama analizleri için en çok kullanılan ağaç tabanlı yöntem olan Random Forest yöntemi analiz edilmiştir. Bu analiz sonuçları tez çalışması ile önerilen önce boyut indirgeme sonra elde edilen faktörlerin Kohonen Self Organizing Map yöntemi ile kümelenmesi sonucu elde edilen küme yüklerinin Random Forest algoritmasında kullanılmasının sonuçları ile karşılaştırılmıştır. Önerilen yaklaşımın en önemli avantajlarından biri kümelenen faktörlerin yerine koyarak örnekleme (bootstrap) yöntemi seçilen 1000 adet alt örneklemi Random Forest algoritmasına göndermesidir. Bu sayede hem yeterince faktörleştirilemeyen veri kümeleme analizi ile daha homojen duruma getirilmiş hem de Random Forest yönteminin rastgele seçme kriteri daha da güçlendirilmiştir. Bu yaklaşımları karşılaştırırken kullanılan performans ölçüleri Doğru Sınıflama Oranı, F-Skoru, Precision ve Recall'dur. İki tip veri üzerinde uygulamalar yapılmıştır: 15 adet Gene Expression Omnibus veri tabanı üzerinden genel kullanıma açık veriler ve belirli senaryolara göre oluşturulmuş 18 adet yapay veri. Bu verilerin analizi sonucu elde edilen bulgulara göre önerilen yaklaşım gerçek verilerde 2 ve 3 sınıflı daha az sayıda örneklem genişliğine sahip verilerde en temel karşılaştırma ölçüsü olan doğru sınıflama oranı için ortalama %17,8 ve %11,68'lik artış, yapay verilerde ise her sınıfta 50 bireyin olduğu 3 boyutlu ve 3 sınıflı veri setlerinde ortalama %14.95'lik artış sağlamıştır. Bu bulgular ışığında özellikle daha az deneğe ve sınıfa sahip verilerde önerilen yöntem sınıflama açısında performansı arttırmıştır. Tüm bu analizlerin daha rahat yapılabilmesi için R programlama dilini esas alan bir yazılım tez kapsamında geliştirilmiş olup araştırıcıların kendi analizlerini yapabilmeleri sağlanmıştır. | tr_TR |