Development and Application of Novel Machine Learning Approaches for Rna-Seq Data Classification

Zararsız, Gökmen

dc.contributor.advisor	Karabulut, Erdem	tr_TR
dc.contributor.author	Zararsız, Gökmen	tr_TR
dc.date.accessioned	2015-10-14T10:37:01Z
dc.date.available	2015-10-14T10:37:01Z
dc.date.issued	2015	tr_TR
dc.identifier.uri	http://hdl.handle.net/11655/998
dc.description.abstract	RNA-Seq is a recent and efficient technique that uses the capabilities of next-generation sequencing technology in characterizing and quantifying transcriptomes. This technique has revolutionized the gene-expression profiling with major advantages over microarrays: (i) providing less noisy data, (ii) detecting novel transcripts and isoforms, and (iii) unnecessity of prearranged transcripts of interest. One important task using gene-expression data is to identify a small subset of genes and classify the data for diagnostic purposes, particularly for cancer diseases. Microarray based classifiers are not directly applicable due to the discrete nature of RNA-Seq data. Overdispersion is another problem that requires careful modeling of mean and variance relationship of the RNA-Seq data. Voom is a recent method that estimates the mean and variance relationship of the log-counts and provides precision weights for each observation to be used for further analysis. In this study, we developed VoomNSC method, which brings together voom and a powerful microarray classifier nearest shrunken centroids approaches for the purpose of "gene-expression based classification". VoomNSC is a sparse classifier that models the mean and variance relationship using voom method, incorporates the outputs of voom method (i.e. log-cpm values and precision weights) into NSC using weighted statistics. We also provided two non-sparse classifiers voomDLDA and voomDQDA, the extensions of diagonal linear and quadratic discriminant classifiers for RNA-Seq classification. A comprehensive simulation study is designed and four real datasets are used to assess the performance of developed approaches. Results revealed that voomNSC method performs as the sparsest classifier, also provides the most accurate results with power transformed Poisson linear discriminant analysis, and rlog transformed support vector machines and random forests algorithms. In conclusion, voomNSC is a fast, accurate and sparse classifier that can successfully be applied for diagnostic biomarker discovery and classification problems in medicine. This algorithm can also be used in other transcriptomics studies, such as separating developmental differences, cellular responses against stressors, or diverse phenotypes. An interactive web application is freely available at	tr_TR
dc.language.iso	en	tr_TR
dc.publisher	Sağlık Bilimleri Enstitüsü	tr_TR
dc.subject	Diagonal covariance matrix
dc.subject	Discriminant analysis
dc.subject	Gene expression
dc.subject	Nearest shrunken centroids
dc.subject	Next generation sequencing
dc.subject	RNA sequencing
dc.subject	Voom
dc.subject	Weighted statistic
dc.title	Development and Application of Novel Machine Learning Approaches for Rna-Seq Data Classification	tr-eng
dc.type	info:eu-repo/semantics/doctoralThesis	tr_TR
dc.callno	2015/2057	tr_TR
dc.contributor.departmentold	Biyoistatistik Anabilim Dalı	tr_TR
dc.description.ozet	RNA dizileme, transkriptom karakterizasyonu ve nicelleştirmesinde yeni nesil dizileme teknolojisinin imkânlarını kullanan güncel ve etkin bir tekniktir. Bu teknik mikrodizin teknolojisine olan önemli avantajları ile gen ifadesi profillemesinde önemli gelişmeler kaydetmiştir: (i) daha az tutarsız veri üretme, (ii) yeni transkript ve izoformalarını tespit edebilme ve (iii) ilgilenilen transkriptler için ön hazırlık gerektirmeme. Gen ifadesi verisi kullanılarak yapılan önemli işlemlerden biri genlerin küçük bir alt setinin belirlenmesi ve özellikle kanser hastalıklarında tanı amaçlı verinin sınıflandırılmasıdır. RNA dizileme verilerinin kesikli veri yapısından dolayı, mikrodizin temelli sınıflandırıcılar doğrudan kullanılamamaktadır. Aşırı yaygınlık diğer bir problem olup, RNA dizileme verisinin ortalama ve varyans ilişkisinin dikkatli modellemesini gerektirmektedir. Voom, log-sayma değerlerinin ortalama ve varyans ilişkisini tahmin eden ve izleyen analizlerde kullanılmak üzere her gözlem için ağırlık katsayıları üreten güncel bir yöntemdir. Bu çalışmada biz güçlü bir mikrodizin sınıflandırıcısı olan en yakın küçültülmüş merkezler ve voom yaklaşımlarını bir araya getiren voomNSC yöntemini geliştirdik. VoomNSC ortalama ve varyans ilişkisini voom yöntemi ile modelleyen, voom yöntemi çıktılarını (log-cpm değerleri ve ağırlık katsayıları) ağırlıklandırılmış istatistikler kullanarak en yakın küçültülmüş merkezler yöntemine dâhil eden spars bir sınıflandırıcıdır. Ayrıca biz köşegenel doğrusal ve karesel ayırma analizlerinin RNA dizileme sınıflandırmasındaki uyarlamaları olan voomDLDA ve voomDQDA spars olmayan sınıflandırıcılarını da sağladık. Geliştirilen yaklaşımların performanslarının değerlendirilmesi için kapsamlı bir benzetim çalışması tasarladık ve dört adet gerçek veri seti kullandık. Bulgular, voomNSC yönteminin en spars sınıflandırıcı olduğunu, ayrıca üs dönüşümü uygulanmış Poisson doğrusal ayırma analizi, ve rlog dönüşümü uygulanmış destek vektör makineleri ve random forests yöntemleri ile birlikte en doğru sonuçları ürettiğini göstermiştir. Sonuç olarak, voomNSC, tıp alanında tanı biyobelirteçlerinin tespiti ve sınıflandırılma probleminde başarıyla uygulanabilir hızlı, tutarlı ve spars bir sınıflandırıcıdır. Ayrıca, bu algoritma gelişim farklılıklarının ayırt edilmesi, stres ajanlarına karşı hücresel yanıtın tespiti gibi çeşitli fenotiplerin ayrımında da kullanılabilir. İnteraktif web uygulamasına	tr_TR

Bu öğenin dosyaları:

Ad:: 5747123c-0f65-4d98-9ec9-f35577 ...
Boyut:: 12.54Mb
Biçim:: PDF

Göster/Aç

Ad:: 5747123c-0f65-4d98-9ec9-f35577 ...
Boyut:: 12.54Mb
Biçim:: PDF

Göster/Aç

Ad:: 5747123c-0f65-4d98-9ec9-f35577 ...
Boyut:: 12.54Mb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Temel Tıp Bilimleri Bölümü Tez Koleksiyonu [289]

Basit öğe kaydını göster