dc.contributor.advisor | Doğan, Tunca | |
dc.contributor.author | Kuzucu, Osman Onur | |
dc.date.accessioned | 2024-10-18T07:36:06Z | |
dc.date.issued | 2024 | |
dc.date.submitted | 2024-06-03 | |
dc.identifier.uri | https://hdl.handle.net/11655/36054 | |
dc.description.abstract | In the quest to elucidate disease etiology and develop advanced diagnostic and treatment
tools, knowing disease-gene relationships is of great importance. Traditional approaches
based on manual curation fall short due to limited scalability and precision. On the other
hand, graph neural networks (GNN) enable the analysis of complex relational data within
biological networks. Although the GNN-based methods developed to date have produced
positive results in predicting unknown biological relationships, there is a current need to
develop new models with high prediction performance and generalisation capabilities for
usability in biology and medicine. In this thesis study, we propose GLADIGATOR (Graph
Learning bAsed DIsease Gene AssociaTiOn pRediction), a deep learning model designed
with the encoder-decoder architecture to predict disease-gene associations. GLADIGATOR
creates a heterogeneous graph that primarily integrates two types of biological components,
genes and diseases, and the connections between them. The model was trained using
gene-gene, disease-disease and gene-disease relationships existing in source biological
databases, as well as protein sequence representations generated by the Prot-T5[1] protein
language model and disease representations generated by the BioBert[2] language model,
as node feature vectors. As the outcome of the analyses conducted, it was observed that
i
GLADIGATOR had superior prediction accuracy. Additionally, the model was positioned
as the highest performer among 14 different disease-gene association prediction methods.
Literature-driven studies on selected predictions have confirmed the biological relevance of
predicted novel associations and highlighted the effectiveness of the GNN-based approach
in identifying potential candidate genes for specific diseases. These results may provide
valuable information for discovering new drugs as a result of future experimental validation
analyses. GLADIGATOR has not only enriched computational approaches developed
for disease-gene association prediction but also emphasised the transformative abilities of
GNNs in biomedical research by potentially accelerating the discovery of new biological
relationships. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Bilişim Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Graph neural networks | tr_TR |
dc.subject | Machine learning | tr_TR |
dc.subject | Biological graph | tr_TR |
dc.subject | Disease gene association prediction | tr_TR |
dc.subject.lcsh | A - Genel konular | tr_TR |
dc.title | Predicting Disease-Gene Associations Via Machine Learning | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Hastalık etiyolojisini aydınlatma ve ileri tanı ve tedavi araçları geliştirme arayışında, hastalık-gen ilişkilerinin bilinmesi buyük önem taşımaktadır. Manuel kürasyona dayalı geleneksel yaklaşımlar, sınırlı olçeklenebilirlik ve hassasiyet nedeniyle yetersiz kalmaktadır. Öte yandan, çizge sinir ağları (ÇSA), biyolojik ağlar içindeki karmaşık ilişkisel verinin analizini mümkün kılmaktadır. Bugüne kadar geliştirilmis¸ olan ÇSA tabanlı yöntemleri bilinmeyen biyolojik ilişkilerin tahmini konusunda olumlu sonuçlar uretmis¸ olsa da, biyoloji ve tıp alanlarında kullanılabilirlik için tahmin performansı genelleme yetenekleri yuksek seviyede olan yeni modellerin geliştirilmesine ihtiyac¸ duyulmaktadır. Bu çalışmada, hastalık-gen ilişkilerini tahmin etmek için kodlayıcı-kod çözücü mimarisi ile tasarlanmıs¸ bir derin öğrenme modeli olan GLADIGATOR’u (Çizge Öğrenme Tabanlı Hastalık Gen İIlişkilendirmesi) oneriyoruz. GLADIGATOR,
öncelikle genler ve hastalıklar olarak iki biyolojik bileşen tipini ve aralarındaki bağlantıları entegre eden heterojen bir çizge oluşturur. Model, kaynak biyolojik veri tabanlarında mevcut gen-gen, hastalık-hastalık ve hastalık-gen ilişkilerinin yanı sıra Prot-T5 protein dil modeli tarafından oluşturulan protein dizi temsillerini ve BioBert dil modeli tarafından oluşturulan hastalık temsillerini düğüm özellik vektörleri olarak kullanılarak eğitilmiştir. Yapılan analizlerde, GLADIGATOR’un ustün tahmin doğruluğuna sahip olduğu gözlenmis¸tir. Ayrıca, model, 14 farklı hastalık-gen ilişki tahmini yontemiyle karşılaştırıldığında en yüksek performansı sergileyen model olarak konumlanmıştır. Seçili gen-hastalık tahmin örnekleri üzerinde yapılan literatur odaklı çalışmalar, tahmin edilen yeni ilişkilerinin biyolojik uygunluğunu doğrulamıştır ve belirli hastalıklar için potansiyel aday genlerin belirlenmesinde ÇSA temelli yaklaşımın etkinliginin altını çizmiştir. Bu sonuçlar, ileride gerçekleştirilecek deneysel doğrulama analizleri sonucunda, yeni ilaçların keşfedilmesi için değerli bilgiler sağlayabilir. GLADIGATOR yalnızca hastalık-gen ilişkisi tahmini için geliştirilen hesaplamalı yaklaşımları zenginleştirmekle kalmamıs¸, aynı zamanda da yeni biyolojik ilişkilerinin ortaya çıkarılmasını potansiyel olarak hızlandırarak biyomedikal araştırmalarda ÇSA’nın donüşürücü yeteneğini vurgulamıştır. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-10-18T07:36:06Z | |
dc.funding | Yok | tr_TR |
dc.subtype | project | tr_TR |