dc.contributor.advisor | Yeniay, Özgür | |
dc.contributor.author | Derya, Turfan | |
dc.date.accessioned | 2020-09-17T10:34:27Z | |
dc.date.issued | 2020 | |
dc.date.submitted | 2020-07-28 | |
dc.identifier.uri | http://hdl.handle.net/11655/22715 | |
dc.description.abstract | Emergence of DNA microarray datasets started up a crucial research subject for both bioinformatics and machine learning. This type of data is obtained from tissue or cell samples and used to collect information that may be useful for disease diagnosis or distinguishing specific types of tumors. The biggest difficulty about this type of data – which is known as gene expression data – is that it includes information of thousands of genes whereas sample sizes are limited in a few dozens. This causes a disadvantage to correct classification of data.
Effective use of classification methods on gene expression data with thousands of genes and a small amount of sample size plays a vital role in diagnosis and treatment of illnesses. In large datasets like these, it is helpful to use feature selection which is a pre-processing step to increase the classification performance by selecting most related and informative features. Feature selection methods are described in three categories in the literature as filter, wrapper, and embedded methods. Filter methods are statistical feature selection methods that aim to select best feature subsets based on a certain evaluation measurement, independent from the classification algorithm
In this thesis, a new filter method for feature selection is suggested, namely “Feature Selection Algorithm based on Effective Ranges (FSAER)”. The suggested method aims to improve two current methods in the literature, namely “Effective Range based Gene Selection (ERGS)” and “Improved Feature Selection based on Effective Range (IFSER)”. ERGS and IFSER methods assign equal weight values to all discrete ranges. FSAER defines a new total area by taking discrete ranges into consideration in addition to having the advantages of ERGS and IFSER.
FSAER and five current filter methods are applied to six different open access gene expression datasets in order to validate the effectiveness of the suggested algorithm. Then, several classification methods (support vector machine, Naive Bayes, k-nearest neighbor) are employed to obtain the classification accuracies of the selected gene subsets. Findings of the applications are examined and FSAER is found to have highly effective results with regards to classification accuracy compared to the other methods. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Etkin aralık | tr_TR |
dc.subject | Filtre yöntemler | tr_TR |
dc.subject | Gen açıklama verileri | tr_TR |
dc.subject | Özellik seçimi | tr_TR |
dc.subject | Sınıflandırma yöntemleri | tr_TR |
dc.title | Gen Açıklama Verilerinin
Sınıflandırılmasında Yeni Bir Özellik Seçimi
Yöntemi | tr_TR |
dc.title.alternative | A Novel Feature Selectıon Method For
Classıfıcatıon Of Gene Expressıon Data | |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.description.ozet | DNA mikrodizi veri kümelerinin ortaya çıkışı hem biyoinformatikte hem de makine öğrenmesi alanlarında önemli bir araştırma konusunu canlandırmıştır. Doku veya hücre örneklerinden alınan bu tip veriler, hastalık teşhisinde ya da spesifik tümör tiplerini ayırt etmede faydalı olabilecek bilgileri toplamak için oldukça önemlidir. Gen açıklama verileri olarak bilinen bu veri kümelerindeki en önemli zorluk düzinelerle ifade edilebilen örneklem sayısına karşın binlerce gen bilgisini içermesidir. Bu durum verilerin doğru sınıflandırılması açısından büyük bir dezavantaj oluşturmaktadır.
Binlerce gen ve az sayıda örneklemden oluşan gen açıklama verilerinde sınıflandırma yöntemlerinin etkili bir şekilde uygulanması, hastalıkların tanı ve tedavisinde çok önemli bir rol oynamaktadır. Büyük boyutlu verilerde, en ilişkili ve bilgilendirici özellikleri seçerek sınıflandırma performansını artırmak için bir ön işleme adımı olan özellik seçimininin (feature selection) kullanımı kaçınılmazdır. Özellik seçimi yöntemleri literatürde filtre (filter), sarmal (wrapper) ve gömülü (embedded) olmak üzere üç temel başlıkta incelenmektedir. İstatistiksel yöntemler olarak da bilinen filtre yöntemler, sınıflandırma algoritmasından bağımsız olarak özellikleri ayrı ayrı inceleyen, belli bir değerlendirme ölçütüne dayanarak en iyi özellik alt kümesini seçmeyi amaçlayan özellik seçimi yöntemleridir.
Bu tez çalışmasında, özellik seçimi için yeni bir filtre yöntemi olarak “Etkin Aralıklara dayalı Özellik Seçimi Algoritması” (Feature Selection Algorithm based on Effective Ranges-FSAER) adlı bir yaklaşım önerilmiştir. Önerilen yöntem, literatürde bulunan “Etkin Aralığa dayalı Gen Seçimi” (Effective Range based Gene Selection-ERGS) ve “Etkin Aralığa dayalı Geliştirilmiş bir Özellik Seçimi” (Improved Feature Selection based on Effective Range-IFSER) yöntemlerinin dikkate almadığı bir eksikliği gidermek üzere geliştirilmiştir. Etkin aralıklara dayanan ERGS ve IFSER algoritmalarının en büyük eksikliği, tüm ayrık aralıklara aynı ağırlık değerini atamalarıdır. FSAER; ERGS ve IFSER yöntemlerinin avantajlarına sahiptir ve ayrıca ayrık etkili aralıkları da hesaba katarak yeni bir toplam alan tanımlamaktadır.
Önerilen algoritmanın etkinliğini doğrulamak amacıyla, erişime açık altı farklı gen açıklama veri seti kullanılarak, bilinen beş farklı filtre yöntemi ve FSAER ile farklı büyüklükteki gen alt kümeleri seçilmiştir. Seçilen genler kullanılarak farklı sınıflandırma yöntemlerinin (Naif Bayes, Destek Vektör Makinesi, k-En Yakın Komşu) uygulanması sonucunda sınıflandırma doğrulukları elde edilmiştir. Bu deneylerden elde edilen sonuçlar incelenmiş, FSAER algoritmasının diğer yöntemlerle karşılaştırıldığında sınıflandırma doğrulukları bakımından oldukça etkili sonuçlar verdiği görülmüştür. | tr_TR |
dc.contributor.department | İstatistik | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2020-09-17T10:34:27Z | |
dc.funding | Yok | tr_TR |