Show simple item record

dc.contributor.advisorDoğan, Tunca
dc.contributor.authorKuzucu, Osman Onur
dc.date.accessioned2024-10-18T07:36:06Z
dc.date.issued2024
dc.date.submitted2024-06-03
dc.identifier.urihttps://hdl.handle.net/11655/36054
dc.description.abstractIn the quest to elucidate disease etiology and develop advanced diagnostic and treatment tools, knowing disease-gene relationships is of great importance. Traditional approaches based on manual curation fall short due to limited scalability and precision. On the other hand, graph neural networks (GNN) enable the analysis of complex relational data within biological networks. Although the GNN-based methods developed to date have produced positive results in predicting unknown biological relationships, there is a current need to develop new models with high prediction performance and generalisation capabilities for usability in biology and medicine. In this thesis study, we propose GLADIGATOR (Graph Learning bAsed DIsease Gene AssociaTiOn pRediction), a deep learning model designed with the encoder-decoder architecture to predict disease-gene associations. GLADIGATOR creates a heterogeneous graph that primarily integrates two types of biological components, genes and diseases, and the connections between them. The model was trained using gene-gene, disease-disease and gene-disease relationships existing in source biological databases, as well as protein sequence representations generated by the Prot-T5[1] protein language model and disease representations generated by the BioBert[2] language model, as node feature vectors. As the outcome of the analyses conducted, it was observed that i GLADIGATOR had superior prediction accuracy. Additionally, the model was positioned as the highest performer among 14 different disease-gene association prediction methods. Literature-driven studies on selected predictions have confirmed the biological relevance of predicted novel associations and highlighted the effectiveness of the GNN-based approach in identifying potential candidate genes for specific diseases. These results may provide valuable information for discovering new drugs as a result of future experimental validation analyses. GLADIGATOR has not only enriched computational approaches developed for disease-gene association prediction but also emphasised the transformative abilities of GNNs in biomedical research by potentially accelerating the discovery of new biological relationships.tr_TR
dc.language.isoentr_TR
dc.publisherBilişim Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectGraph neural networkstr_TR
dc.subjectMachine learningtr_TR
dc.subjectBiological graphtr_TR
dc.subjectDisease gene association predictiontr_TR
dc.subject.lcshA - Genel konulartr_TR
dc.titlePredicting Disease-Gene Associations Via Machine Learningtr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetHastalık etiyolojisini aydınlatma ve ileri tanı ve tedavi araçları geliştirme arayışında, hastalık-gen ilişkilerinin bilinmesi buyük önem taşımaktadır. Manuel kürasyona dayalı geleneksel yaklaşımlar, sınırlı olçeklenebilirlik ve hassasiyet nedeniyle yetersiz kalmaktadır. Öte yandan, çizge sinir ağları (ÇSA), biyolojik ağlar içindeki karmaşık ilişkisel verinin analizini mümkün kılmaktadır. Bugüne kadar geliştirilmis¸ olan ÇSA tabanlı yöntemleri bilinmeyen biyolojik ilişkilerin tahmini konusunda olumlu sonuçlar uretmis¸ olsa da, biyoloji ve tıp alanlarında kullanılabilirlik için tahmin performansı genelleme yetenekleri yuksek seviyede olan yeni modellerin geliştirilmesine ihtiyac¸ duyulmaktadır. Bu çalışmada, hastalık-gen ilişkilerini tahmin etmek için kodlayıcı-kod çözücü mimarisi ile tasarlanmıs¸ bir derin öğrenme modeli olan GLADIGATOR’u (Çizge Öğrenme Tabanlı Hastalık Gen İIlişkilendirmesi) oneriyoruz. GLADIGATOR, öncelikle genler ve hastalıklar olarak iki biyolojik bileşen tipini ve aralarındaki bağlantıları entegre eden heterojen bir çizge oluşturur. Model, kaynak biyolojik veri tabanlarında mevcut gen-gen, hastalık-hastalık ve hastalık-gen ilişkilerinin yanı sıra Prot-T5 protein dil modeli tarafından oluşturulan protein dizi temsillerini ve BioBert dil modeli tarafından oluşturulan hastalık temsillerini düğüm özellik vektörleri olarak kullanılarak eğitilmiştir. Yapılan analizlerde, GLADIGATOR’un ustün tahmin doğruluğuna sahip olduğu gözlenmis¸tir. Ayrıca, model, 14 farklı hastalık-gen ilişki tahmini yontemiyle karşılaştırıldığında en yüksek performansı sergileyen model olarak konumlanmıştır. Seçili gen-hastalık tahmin örnekleri üzerinde yapılan literatur odaklı çalışmalar, tahmin edilen yeni ilişkilerinin biyolojik uygunluğunu doğrulamıştır ve belirli hastalıklar için potansiyel aday genlerin belirlenmesinde ÇSA temelli yaklaşımın etkinliginin altını çizmiştir. Bu sonuçlar, ileride gerçekleştirilecek deneysel doğrulama analizleri sonucunda, yeni ilaçların keşfedilmesi için değerli bilgiler sağlayabilir. GLADIGATOR yalnızca hastalık-gen ilişkisi tahmini için geliştirilen hesaplamalı yaklaşımları zenginleştirmekle kalmamıs¸, aynı zamanda da yeni biyolojik ilişkilerinin ortaya çıkarılmasını potansiyel olarak hızlandırarak biyomedikal araştırmalarda ÇSA’nın donüşürücü yeteneğini vurgulamıştır.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2024-10-18T07:36:06Z
dc.fundingYoktr_TR
dc.subtypeprojecttr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record