Show simple item record

dc.contributor.advisorErdem, Mehmet Erkut
dc.contributor.authorDoğan, Mustafa
dc.date.accessioned2024-10-18T07:43:29Z
dc.date.issued2024
dc.date.submitted2024-05-31
dc.identifier.urihttps://hdl.handle.net/11655/36066
dc.description.abstractVision-Language Models (VLMs) stand at the forefront of artificial intelligence research, aiming to bridge the gap between visual content and natural language understanding. Their significance lies in their potential to enable machines to comprehend and interact with the world in a more human-like manner. However, the evaluation of VLMs poses twofold challenges that require careful consideration and innovative approaches. One of the primary challenges in evaluating VLMs revolves around understanding the intricate relationship between visual and linguistic information. While these models are good at processing individual modalities, such as images, videos, or text, effectively integrating these modalities to derive meaningful insights remains a complex task. Particularly in dynamic and context-rich scenarios, VLMs must navigate diverse visual stimuli while interpreting accompanying textual cues, requiring robust mechanisms for cross-modal fusion and comprehension. Furthermore, the lack of transparency in VLMs adds another layer of complexity to their evaluation. While these models may exhibit high performance on benchmark datasets, understanding the underlying reasoning processes and knowledge representations remains elusive. Deciphering how VLMs leverage their learned knowledge to generate responses and make predictions is essential for gaining insights into their capabilities and limitations. This thesis addresses these challenges by conducting a comprehensive comparative analysis of Multimodal Large Language Models (MLLMs) and Video-Language Models (VidLMs). It focuses on their ability to bridge the semantic gap between visual inputs and linguistic outputs. Through empirical evaluation, this research examines the strengths and limitations of these models in comprehending and articulating visual content in both static and dynamic contexts. This thesis makes two main contributions. Firstly, it conducts a comprehensive analysis of few-shot In-Context Learning (ICL) and Chain-of-Thought (CoT) strategies on MLLMs, revealing that these strategies can significantly boost performance compared to zero-shot settings. Secondly, it introduces a novel zero-shot foiling test for VidLMs, designed to assess their proficiency in recognizing actions and actors within dynamic scenes. The findings indicate that current VidLMs face challenges in temporal reasoning and action recognition, performing only marginally better than chance, thereby highlighting the imperative for advancements in VidLMs architectures to effectively handle spatio-temporal tasks. In conclusion, this thesis sheds light on the performance of MLLMs and VidLMs, offering valuable insights and identifying areas for future improvement. It indicates the importance of ongoing innovation in multimodal architectures to develop more robust and contextually aware language models capable of bridging the gap between visual content and natural language.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectChain-of-Thought Reasoningtr_TR
dc.subjectIn-Context Learningtr_TR
dc.subjectTemporal Reasoningtr_TR
dc.subjectMultimodal Architecturestr_TR
dc.subjectVision Language Modelstr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleEvaluating Zero-Shot Learning Capabilities of Vision-Language Modelstr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetGörme-Dil Modelleri (VLM'ler), görsel içerik ve doğal dil anlayışı arasındaki boşluğu doldurmayı amaçlayan yapay zeka araştırmalarının ön saflarında yer almaktadır. Makinelerin dünyayı daha insani bir şekilde anlamalarını ve etkileşime girmelerini sağlama potansiyelinde VLM'lerin önemi yer almaktadır. Bununla birlikte, VLM'lerin değerlendirilmesi, dikkatli bir değerlendirme ve yenilikçi yaklaşımlar gerektiren iki yönlü zorluklar ortaya çıkarmaktadır. VLM'lerin değerlendirilmesindeki temel zorluklardan biri, görsel ve dilsel bilgiler arasındaki karmaşık ilişkiyi anlamakla ilgilidir. Bu modeller görüntüler, videolar veya metinler gibi tek tek modaliteleri işlemede iyi olsa da, anlamlı içgörüler elde etmek için bu modaliteleri etkili bir şekilde entegre etmek karmaşık bir görev olmaya devam etmektedir. Özellikle dinamik ve bağlam açısından zengin senaryolarda, VLM'lerin eşlik eden metinsel ipuçlarını yorumlarken çeşitli görsel uyaranlarda gezinmesi gerekir, bu da modlar arası füzyon ve anlama için sağlam mekanizmalar gerektirir. Ayrıca, VLM'lerdeki şeffaflık eksikliği, değerlendirmelerine başka bir karmaşıklık katmanı ekler. Bu modeller kıyaslama veri kümelerinde yüksek performans gösterebilirken, altta yatan muhakeme süreçlerini ve bilgi temsillerini anlamak zor olmaya devam etmektedir. VLM'lerin yanıt üretmek ve tahminlerde bulunmak için öğrenilmiş bilgilerinden nasıl yararlandıklarını deşifre etmek, yetenekleri ve sınırlamaları hakkında içgörü kazanmak için çok önemlidir. Bu tez, Çok Modlu Büyük Dil Modelleri (MLLM'ler) ve Video-Dil Modellerinin (VidLM'ler) kapsamlı bir karşılaştırmalı analizini yaparak bu zorlukları ele almaktadır. Tez, görsel girdiler ile dilsel çıktılar arasındaki anlamsal boşluğu doldurma becerilerine odaklanmaktadır. Bu araştırma ampirik değerlendirme yoluyla hem statik hem de dinamik bağlamlarda görsel içeriği anlama ve ifade etmede bu modellerin güçlü yönlerini ve sınırlamalarını incelemektedir. Bu tezin iki ana katkısı bulunmaktadır. İlk olarak, MLLM'ler üzerinde birkaç atışla bağlam içi öğrenme ve düşünce zinciri stratejilerinin kapsamlı bir analizini yaparak, bu stratejilerin performansı sıfır atış öğrenmeye göre önemli ölçüde artırabileceğini ortaya koyuyor. İkinci olarak, bu tez VidLM'ler için dinamik sahnelerdeki eylemleri ve aktörleri tanıma yeterliliklerini değerlendirmek üzere tasarlanmış yeni bir sıfır atış engelleme testi sunuyor. Bulgular, mevcut VidLM'lerin zamansal muhakeme ve eylem tanıma konusunda zorluklarla karşılaştığını, şanstan yalnızca marjinal olarak daha iyi performans gösterdiğini ve böylece VidLM mimarilerinde uzamsal-zamansal görevleri etkili bir şekilde ele almak için ilerlemelerin zorunluluğunu vurgulamaktadır. Sonuç olarak, bu tez MLLM'lerin ve VidLM'lerin performansına ışık tutmakta, değerli içgörüler sunmakta ve gelecekteki iyileştirme alanlarını belirlemektedir. Görsel içerik ve doğal dil arasındaki boşluğu doldurabilecek daha sağlam ve bağlamsal farkındalığa sahip dil modelleri geliştirmek için çok modlu mimarilerde devam eden yeniliklerin önemine işaret etmektedir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2024-10-18T07:43:29Z
dc.fundingYoktr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record