Basit öğe kaydını göster

dc.contributor.advisorDoğan, Tunca
dc.contributor.authorKuşcuoğlu, Ecem
dc.date.accessioned2024-02-05T13:31:12Z
dc.date.issued2024-01-31
dc.date.submitted2024-01-02
dc.identifier.citationKuşcuoğlu, E. Image, Sequence, And Interactome Based Prediction of Subcellular Localization of Proteins, Hacettepe University Graduate School of Health Sciences Bioinformatics Program Master’s Thesis, Ankara, 2024.tr_TR
dc.identifier.urihttps://hdl.handle.net/11655/34562
dc.description.abstractKnowledge of subcellular localization (SL) of proteins is essential for drug development, systems biology, proteomics, and functional genomics. Due to the high costs associated with experimental studies, it has become crucial to develop computational systems to accurately predict proteins’ SLs. With different modes of biological data (e.g., biomolecular sequences, biomedical images, unstructured text, etc.) becoming readily available to ordinary scientists, it is possible to leverage complementary types of data to increase both the performance and coverage of predictions. In this study, we propose HoliLoc, a new method for predicting protein SLs via multi-modal deep learning. Our approach makes use of three different types of data (i.e., 2D confocal microscopy images, amino acid sequences, and protein protein interactions – PPIs) to predict SLs of proteins in a multi-label manner for 22 different cell compartments using protein language models, graph embeddings and convolutional and feed forward neural networks. The system was trained in an end-to end manner, and the performances were calculated on the unseen hold-out test dataset. The average test performance of individual models (each using a single data type) was 0.18 (macro F1-score) and 0.55 (accuracy), whereas for HoliLoc (the fusion of 3 modalities) it was observed to be 0.26 (F1-score) and 0.60 (accuracy), indicating the effectiveness of the multi-modal learning approach proposed. According to our comparison against state-of-the-art SL predictors, HoliLoc displays highly competitive performance. HoliLoc is distributed as an open-access programmatic tool, which is anticipated to benefit life science researchers by reducing the cost and time required for wet-lab experiments by accurately predicting the SLs of the protein of interest in advance.tr_TR
dc.language.isoentr_TR
dc.publisherSağlık Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectProtein subcellular localization predictiontr_TR
dc.subjectdeep learningtr_TR
dc.subjectprotein researchtr_TR
dc.subject.lcshQ- Bilimtr_TR
dc.titleImage, Sequence, and Interactome Based Prediction of Subcellular Localization of Proteinstr_TR
dc.title.alternativeProteinlerin Subselüler Yerleşimlerinin Görüntü, Sekans Ve İnteraktom Verisi Tabanlı Tahminitr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetProteinlerin subselüler yerleşimleri (SY) bilgisi, ilaç geliştirme, sistem biyolojisi, proteomik ve fonksiyonel genomik alanlarında önemlidir. Deneysel çalışmalarla ilişkilendirilen yüksek maliyetler nedeniyle, proteinlerin SY'lerini doğru bir şekilde tahmin edecek için hesaplamalı sistemleri geliştirmek gerekli hale gelmiştir. Farklı biyolojik veri türlerinin (örneğin, biyomoleküler diziler, biyomedikal görüntüler, yapılandırılmamış metinler vb.) araştırmacılar için kolayca erişilebilir hale gelmesi, tahminlerin hem performansını hem de kapsamını artırmak için tamamlayıcı veri türlerinden yararlanma olasılığı sunmuştur. Bu çalışmada, protein SY’lerini çok modlu derin öğrenme ile tahmin etmek için HoliLoc adlı yeni bir yöntem önerilmiştir. Yaklaşımımız, protein dil modellerini, çizge öğrenme tekniklerini ve evrişimli ve ileri beslemeli sinir ağlarını kullanarak, 22 farklı kompartıman için proteinlerin SY'lerini tahmin etmek için üç farklı veri türünden yararlanır (2D konfokal mikroskopi görüntüleri, amino asit dizileri ve protein-protein etkileşimleri). Sistem, uçtan uca bir şekilde eğitildi ve performanslar daha önce görülmeyen test veri setinde hesaplandı. Her biri tek bir veri tipini kullanan bireysel modellerin test performansı ortalama 0.18 makro F1 puanı ve 0.55 doğrulukta iken, HoliLoc'un (3 modalitenin birleşimi) gözlemlenen ortalama test performansı 0.26 makro F1 puanı ve 0.60 doğruluk olarak tespit edildi. Bu sonuçlar, önerilen çoklu modlu öğrenme yaklaşımının başarısını göstermektedir. Literatürde mevcut SY tahmincilerine karşı yaptığımız karşılaştırmaya göre, HoliLoc oldukça rekabetçi bir performans sergilemektedir. HoliLoc, yaşam bilimleri araştırmacılarına, ilgilendikleri proteinin subselüler yerleşimlerini doğru bir şekilde tahmin ederek laboratuvar deneyleri için gereken maliyeti ve zamanı azaltacak açık erişimli bir programlama aracı olarak sunulmaktadır.tr_TR
dc.contributor.departmentBiyoinformatiktr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2024-02-05T13:31:13Z
dc.fundingYoktr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster