dc.contributor.advisor | Erdem, Mehmet Erkut | |
dc.contributor.author | Kuyu, Menekşe | |
dc.date.accessioned | 2020-12-14T11:15:02Z | |
dc.date.issued | 2020-09 | |
dc.date.submitted | 2020-08 | |
dc.identifier.citation | Kuyu, M. (2020). Learning Visually-Grounded Representations Using Cross-lingual Multimodal Pre-training. Yüksek Lisans tezi, Hacettepe Üniversitesi,
Ankara. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/23170 | |
dc.description.abstract | In recent years, pre-training approaches in the field of NLP have emerged with the increase in the number of data and developments in computational power. Although these approaches initially included only pre-training a single language, cross-lingual and multimodal approaches were proposed which employs multiple languages and modalities. While cross-lingual pre-training focuses on representing multiple languages, Multimodal pre-training integrates Natural Language Processing and Computer Vision areas and fuse visual and textual information and represent it in the same embedding space. In this work, we combine cross-lingual and multimodal pre-training approaches to learn visually-grounded word embeddings. Our work is based on cross-lingual pre-training model XLM which has shown success on various downstream tasks such as machine translation and cross-lingual classification.
In this thesis, we proposed a new pre-training objective called Visual Translation Language Modeling (vTLM) which combines visual content and natural language to learn visually-grounded word embeddings. For this purpose, we extended the large-scale image captioning dataset Conceptual Captions to another language—German using state-of-the art translation system to create a cross-lingual multimodal dataset which is required in pretraining. We finetuned our pre-trained model on Machine Translation (MT) and Multimodal Machine Translation (MMT) tasks using Multi30k dataset. We obtained state-of-the-results on Multi30k test2016 set for both MT and MTT tasks. We also demonstrated attention weights of the model to analyze how it operates over the visual content. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Çok dilli ön eğitim | tr_TR |
dc.subject | Çok kipli ön eğitim | tr_TR |
dc.subject | Dönüştürücü | tr_TR |
dc.subject | Makine çevirisi | tr_TR |
dc.subject | Çok kipli makine çevirisi | tr_TR |
dc.subject.lcsh | Bilgisayar mühendisliği | tr_TR |
dc.title | Learnıng Vısually-Grounded Representatıons
Usıng Cross-Lıngual Multımodal Pre-Traınıng | tr_TR |
dc.title.alternative | Çok Dilli Çok Kipli Ön Öğrenme ile Görsel
Tabanlı Temsillerin Öğrenilmesi | |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Son yıllarda veri sayısındaki artış ve hesaplama gücündeki gelişmeler ile birlikte Doğal Dil İşleme alanında ön eğitimli model yaklaşımları ortaya çıkmıştır. Bu yaklaşımlar başta sadece tek dili kapsayacak şekilde olsa da, ardından çok dilli ve multimodal yapılar önerilmiştir. Çok kipli ön eğitimli modeller, Doğal Dil işleme ve Bilgisayarlı Görü alanlarının ikisini de kapsıyor olup görsel ve metinsel bilgiyi birleştirerek aynı uzayda ifade edilmesini hedef alır. Bu çalışmada, görsel temelli kelime gösterimlerini öğrenmek için diller arası ve çok kipli ön eğitim yaklaşımları birlikte kullanılmıştır. Çalışmamız, makine çevirisi ve diller arası sınıflandırma gibi çeşitli alt görevlerde başarı gösteren, diller arası ön eğitim modeli XLM tabanlıdır.
Bu tez kapsamında, görsel temelli kelime vektörlerini öğrenmek için görsel içerik ve doğal dili birleştiren Görsel Çeviri Dili Modellemesi adı verilen yeni bir ön eğitim hedef önerildi. Bu amaçla, ön eğitimde gerekli olan diller arası çok kipli bir veri kümesi oluşturmak için son yıllarda önerilen en başarılı açık kaynak çeviri modelini kullanarak, büyük ölçekli bir görüntü altyazılama veri kümesi olan Conceptual Captions’ı , yeni bir dil; Almanca olarak genişlettik. Önerilen ön eğitimli model, Multi30k veri kümesini kullanarak Makine Çevirisi (MÇ) ve Çok Kipli Makine Çevirisi (ÇMÇ) görevlerinde ince ayar yapılmıştır. Hem MÇ hem de ÇMÇ görevleri için Multi30k test2016 setinde literatürdeki en başarılı sonuçlar elde edilmiştir. Ek olarak, önerilen modelin görsel içerik üzerinde nasıl çalıştığını analiz etmek için dikkat ağırlıkları görselleştirilmiştir. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2020-12-14T11:15:03Z | |
dc.funding | TÜBİTAK | tr_TR |
dc.subtype | learning object | tr_TR |