Show simple item record

dc.contributor.advisorErdem, Mehmet Erkut
dc.contributor.authorKuyu, Menekşe
dc.date.accessioned2020-12-14T11:15:02Z
dc.date.issued2020-09
dc.date.submitted2020-08
dc.identifier.citationKuyu, M. (2020). Learning Visually-Grounded Representations Using Cross-lingual Multimodal Pre-training. Yüksek Lisans tezi, Hacettepe Üniversitesi, Ankara.tr_TR
dc.identifier.urihttp://hdl.handle.net/11655/23170
dc.description.abstractIn recent years, pre-training approaches in the field of NLP have emerged with the increase in the number of data and developments in computational power. Although these approaches initially included only pre-training a single language, cross-lingual and multimodal approaches were proposed which employs multiple languages and modalities. While cross-lingual pre-training focuses on representing multiple languages, Multimodal pre-training integrates Natural Language Processing and Computer Vision areas and fuse visual and textual information and represent it in the same embedding space. In this work, we combine cross-lingual and multimodal pre-training approaches to learn visually-grounded word embeddings. Our work is based on cross-lingual pre-training model XLM which has shown success on various downstream tasks such as machine translation and cross-lingual classification. In this thesis, we proposed a new pre-training objective called Visual Translation Language Modeling (vTLM) which combines visual content and natural language to learn visually-grounded word embeddings. For this purpose, we extended the large-scale image captioning dataset Conceptual Captions to another language—German using state-of-the art translation system to create a cross-lingual multimodal dataset which is required in pretraining. We finetuned our pre-trained model on Machine Translation (MT) and Multimodal Machine Translation (MMT) tasks using Multi30k dataset. We obtained state-of-the-results on Multi30k test2016 set for both MT and MTT tasks. We also demonstrated attention weights of the model to analyze how it operates over the visual content.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectÇok dilli ön eğitimtr_TR
dc.subjectÇok kipli ön eğitimtr_TR
dc.subjectDönüştürücütr_TR
dc.subjectMakine çevirisitr_TR
dc.subjectÇok kipli makine çevirisitr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleLearnıng Vısually-Grounded Representatıons Usıng Cross-Lıngual Multımodal Pre-Traınıngtr_TR
dc.title.alternativeÇok Dilli Çok Kipli Ön Öğrenme ile Görsel Tabanlı Temsillerin Öğrenilmesi
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetSon yıllarda veri sayısındaki artış ve hesaplama gücündeki gelişmeler ile birlikte Doğal Dil İşleme alanında ön eğitimli model yaklaşımları ortaya çıkmıştır. Bu yaklaşımlar başta sadece tek dili kapsayacak şekilde olsa da, ardından çok dilli ve multimodal yapılar önerilmiştir. Çok kipli ön eğitimli modeller, Doğal Dil işleme ve Bilgisayarlı Görü alanlarının ikisini de kapsıyor olup görsel ve metinsel bilgiyi birleştirerek aynı uzayda ifade edilmesini hedef alır. Bu çalışmada, görsel temelli kelime gösterimlerini öğrenmek için diller arası ve çok kipli ön eğitim yaklaşımları birlikte kullanılmıştır. Çalışmamız, makine çevirisi ve diller arası sınıflandırma gibi çeşitli alt görevlerde başarı gösteren, diller arası ön eğitim modeli XLM tabanlıdır. Bu tez kapsamında, görsel temelli kelime vektörlerini öğrenmek için görsel içerik ve doğal dili birleştiren Görsel Çeviri Dili Modellemesi adı verilen yeni bir ön eğitim hedef önerildi. Bu amaçla, ön eğitimde gerekli olan diller arası çok kipli bir veri kümesi oluşturmak için son yıllarda önerilen en başarılı açık kaynak çeviri modelini kullanarak, büyük ölçekli bir görüntü altyazılama veri kümesi olan Conceptual Captions’ı , yeni bir dil; Almanca olarak genişlettik. Önerilen ön eğitimli model, Multi30k veri kümesini kullanarak Makine Çevirisi (MÇ) ve Çok Kipli Makine Çevirisi (ÇMÇ) görevlerinde ince ayar yapılmıştır. Hem MÇ hem de ÇMÇ görevleri için Multi30k test2016 setinde literatürdeki en başarılı sonuçlar elde edilmiştir. Ek olarak, önerilen modelin görsel içerik üzerinde nasıl çalıştığını analiz etmek için dikkat ağırlıkları görselleştirilmiştir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2020-12-14T11:15:03Z
dc.fundingTÜBİTAKtr_TR
dc.subtypelearning objecttr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record