dc.contributor.advisor | Doğan, Tunca | |
dc.contributor.author | Ulusoy, Erva | |
dc.date.accessioned | 2023-08-08T10:53:07Z | |
dc.date.issued | 2023-07-31 | |
dc.date.submitted | 2023-06-08 | |
dc.identifier.citation | Ulusoy E. Heterojen Biyomedikal Verinin Bilgi Çizgeleri ve Derin Öğrenme Tabanlı Analizi ile Protein Fonksiyonlarının Otomatik Tahmini [Yüksek Lisans Tezi]. Ankara: Hacettepe Üniversitesi; 2023 | tr_TR |
dc.identifier.uri | https://hdl.handle.net/11655/33887 | |
dc.description | Bu tez çalışması “TÜBİTAK - BİDEB 2210-A Genel Yurt İçi Yüksek Lisans Burs Programı” ve “TÜBİTAK - ARDEB 3501 - Kariyer Geliştirme Programı” tarafından desteklenmiştir. | tr_TR |
dc.description.abstract | Proteins are vital for cellular processes, and accurately determining their functions is crucial for understanding complex biological mechanisms. Computational approaches have emerged as alternatives to expensive and time-consuming experimental methods, leveraging publicly available data in biomedical databases to predict protein functions. However, existing methods often rely on a single data type, limiting their ability to capture the multifaceted functional complexity of proteins. Geometric deep learning offer new algorithms that can be utilized to address these issues by integrating diverse biological entities and relationships sourced from multiple databases using heterogeneous graphs. In this thesis study, we propose a heterogeneous graph learning approach and its implementation as a computational method for Gene Ontology (GO) based large-scale protein function prediction. For this, we first constructed a comprehensive biological knowledge graph by obtaining and integrating data from 14 different biomedical databases. Using this dataset, we trained function prediction models using graph neural networks, i.e., the heterogeneous graph transformer architecture. Performance evaluation on benchmark datasets indicated superior performance compared to baseline methods across all GO categories, while achieving comparable results to top predictors. Our model demonstrated excellent performance in predicting high-information-content molecular function terms, ranking among the top three models. To assess the biological relevance of predicted functional relationships, we conducted a use-case study for selected proteins, showcasing our approach's ability to identify unknown functions with limited available information. This study contributes to the existing literature by investigating protein function prediction using geometric deep learning on highly heterogeneous biomedical data. | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Sağlık Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Protein fonksiyon tahmini | tr_TR |
dc.subject | Çizge tabanlı derin öğrenme | tr_TR |
dc.subject | Biyomedikal bilgi çizgeleri | tr_TR |
dc.subject | Gen ontolojisi | tr_TR |
dc.subject | CAFA yarışması | tr_TR |
dc.title | Heterojen Biyomedikal Verinin Bilgi Çizgeleri ve Derin Öğrenme Tabanlı Analizi ile Protein Fonksiyonlarının Otomatik Tahmini | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Proteinlerin hücresel süreçlerdeki rollerinin belirlenmesi, kompleks biyolojik mekanizmaların tam olarak anlaşılması için büyük öneme sahiptir. Pahalı ve zaman alıcı deneysel yöntemlere alternatif olarak geliştirilen fonksiyon tahmini yöntemleri, biyolojik veritabanlarındaki herkese açık veri setlerinden yararlanmaktadır. Mevcut yöntemlerin genellikle tek bir veri türüne dayalı olması, proteinlerin çok yönlü fonksiyonel yapısını yakalama yeteneğini ve tahmin performansını sınırlamaktadır. Geometrik derin öğrenme yöntemlerindeki son gelişmeler, farklı kaynaklardaki çeşitli biyolojik bileşenleri ve ilişkilerini entegre eden heterojen çizgeleri kullanarak bu probleme çözüm olabilecek yeni algoritmalar sunmuştur. Bu tez çalışmasında heterojen çizge bazlı bir derin öğrenme yaklaşımı ve Gene Ontology (GO) tabanlı geniş çaplı protein fonksiyon tahminindeki uygulaması önerilmiştir. Bunun için öncelikle 14 farklı biyomedikal kaynaktan alınan veri kapsamlı bir heterojen bilgi çizgesi olarak entegre edilmiştir. Bu veri seti, çizge sinir ağları (heterojen çizge dönüştürücü mimarisi) ile tahmin modellerinin eğitiminde kullanılmıştır. Karşılaştırma veri setleri üzerinden yapılan performans değerlendirmesi, tüm GO kategorilerinde temel tahmin metodlarına kıyasla yüksek, son teknoloji tahmin modellerine kıyasla karşılaştırılabilir sonuçlara ulaşıldığını göstermiştir. Yüksek bilgi içerikli moleküler fonksiyon terimlerinin tahmininde önerilen model en başarılı üç yöntem arasında yer almıştır. Seçili proteinlere ait fonksiyon tahminlerinin biyolojik anlamlılığını araştıran literatür taramasında, hakkında kısıtlı bilgi bulunan yeni fonksiyonel ilişkilerin tahmin edilebildiği görülmüştür. Bu çalışma, son derece heterojen biyomedikal veri ile geometrik derin öğrenmenin protein fonksiyon tahmininde kullanımını araştırarak literatüre katkıda bulunmaktadır. | tr_TR |
dc.contributor.department | Biyoinformatik | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2023-08-08T10:53:07Z | |
dc.funding | TÜBİTAK | tr_TR |