dc.contributor.advisor | Doğan, Tunca | |
dc.contributor.author | Kuşcuoğlu, Ecem | |
dc.date.accessioned | 2024-02-05T13:31:12Z | |
dc.date.issued | 2024-01-31 | |
dc.date.submitted | 2024-01-02 | |
dc.identifier.citation | Kuşcuoğlu, E. Image, Sequence, And Interactome Based Prediction of
Subcellular Localization of Proteins, Hacettepe University Graduate School of
Health Sciences Bioinformatics Program Master’s Thesis, Ankara, 2024. | tr_TR |
dc.identifier.uri | https://hdl.handle.net/11655/34562 | |
dc.description.abstract | Knowledge of subcellular localization (SL) of proteins is essential for drug
development, systems biology, proteomics, and functional genomics. Due to the high
costs associated with experimental studies, it has become crucial to develop
computational systems to accurately predict proteins’ SLs. With different modes of
biological data (e.g., biomolecular sequences, biomedical images, unstructured text,
etc.) becoming readily available to ordinary scientists, it is possible to leverage
complementary types of data to increase both the performance and coverage of
predictions. In this study, we propose HoliLoc, a new method for predicting protein
SLs via multi-modal deep learning. Our approach makes use of three different types
of data (i.e., 2D confocal microscopy images, amino acid sequences, and protein protein interactions – PPIs) to predict SLs of proteins in a multi-label manner for 22
different cell compartments using protein language models, graph embeddings and
convolutional and feed forward neural networks. The system was trained in an end-to end manner, and the performances were calculated on the unseen hold-out test dataset.
The average test performance of individual models (each using a single data type) was
0.18 (macro F1-score) and 0.55 (accuracy), whereas for HoliLoc (the fusion of 3
modalities) it was observed to be 0.26 (F1-score) and 0.60 (accuracy), indicating the
effectiveness of the multi-modal learning approach proposed. According to our
comparison against state-of-the-art SL predictors, HoliLoc displays highly competitive
performance. HoliLoc is distributed as an open-access programmatic tool, which is
anticipated to benefit life science researchers by reducing the cost and time required
for wet-lab experiments by accurately predicting the SLs of the protein of interest in
advance. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Sağlık Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Protein subcellular localization prediction | tr_TR |
dc.subject | deep learning | tr_TR |
dc.subject | protein research | tr_TR |
dc.subject.lcsh | Q- Bilim | tr_TR |
dc.title | Image, Sequence, and Interactome Based Prediction of Subcellular Localization of Proteins | tr_TR |
dc.title.alternative | Proteinlerin Subselüler Yerleşimlerinin Görüntü, Sekans Ve İnteraktom Verisi Tabanlı Tahmini | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Proteinlerin subselüler yerleşimleri (SY) bilgisi, ilaç geliştirme, sistem biyolojisi,
proteomik ve fonksiyonel genomik alanlarında önemlidir. Deneysel çalışmalarla
ilişkilendirilen yüksek maliyetler nedeniyle, proteinlerin SY'lerini doğru bir şekilde
tahmin edecek için hesaplamalı sistemleri geliştirmek gerekli hale gelmiştir. Farklı
biyolojik veri türlerinin (örneğin, biyomoleküler diziler, biyomedikal görüntüler,
yapılandırılmamış metinler vb.) araştırmacılar için kolayca erişilebilir hale gelmesi,
tahminlerin hem performansını hem de kapsamını artırmak için tamamlayıcı veri
türlerinden yararlanma olasılığı sunmuştur. Bu çalışmada, protein SY’lerini çok modlu
derin öğrenme ile tahmin etmek için HoliLoc adlı yeni bir yöntem önerilmiştir.
Yaklaşımımız, protein dil modellerini, çizge öğrenme tekniklerini ve evrişimli ve ileri
beslemeli sinir ağlarını kullanarak, 22 farklı kompartıman için proteinlerin SY'lerini
tahmin etmek için üç farklı veri türünden yararlanır (2D konfokal mikroskopi
görüntüleri, amino asit dizileri ve protein-protein etkileşimleri). Sistem, uçtan uca bir
şekilde eğitildi ve performanslar daha önce görülmeyen test veri setinde hesaplandı.
Her biri tek bir veri tipini kullanan bireysel modellerin test performansı ortalama 0.18
makro F1 puanı ve 0.55 doğrulukta iken, HoliLoc'un (3 modalitenin birleşimi)
gözlemlenen ortalama test performansı 0.26 makro F1 puanı ve 0.60 doğruluk olarak
tespit edildi. Bu sonuçlar, önerilen çoklu modlu öğrenme yaklaşımının başarısını
göstermektedir. Literatürde mevcut SY tahmincilerine karşı yaptığımız
karşılaştırmaya göre, HoliLoc oldukça rekabetçi bir performans sergilemektedir.
HoliLoc, yaşam bilimleri araştırmacılarına, ilgilendikleri proteinin subselüler
yerleşimlerini doğru bir şekilde tahmin ederek laboratuvar deneyleri için gereken
maliyeti ve zamanı azaltacak açık erişimli bir programlama aracı olarak
sunulmaktadır. | tr_TR |
dc.contributor.department | Biyoinformatik | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-02-05T13:31:13Z | |
dc.funding | Yok | tr_TR |