Basit öğe kaydını göster

dc.contributor.advisorİkizler-Cinbiş, Nazlı
dc.contributor.authorAkar, Arif
dc.date.accessioned2025-03-03T11:01:41Z
dc.date.issued2025
dc.date.submitted2024-12-05
dc.identifier.urihttps://hdl.handle.net/11655/36629
dc.description.abstractVideo representation learning is a fundamental area of research in computer vision. It focuses on developing methods and models to encode video data into definitive and discriminative representations that can be effectively utilized in downstream tasks, such as video classification, action recognition, video retrieval and video captioning. At the core of it, video representation learning seeks to understand scene, actor and actor’s relationship with their surroundings, e.g. objects, and scene elements. In order to learn the transition of visual content over time, a model needs to capture temporal and spatial information inherently encoded in video sequences and to extract spatiotemporal representations that can be useful for downstream applications. This thesis addresses the problem of self-supervised video representation learning focused on motion features, aiming to capture features from foreground motion with reduced reliance on background bias. Recent successful methods often employ instance discrimination approaches, which entail heavy computation and may lead to inefficient and exhaustive pretraining. Although several works in literature incorporate two-stream networks [1, 2] to incorporate motion learning, this thesis work seeks for single network solutions for learning spatiotemporal features. To this end, we utilize the augmentation technique MAC: Mask-Augmentation teChnique. MAC blends foreground motion using frame-difference-based based masks and sets up a pretext task to recognize the applied transformation. By incorporating a game of predicting the correct blending multiplier at the pretraining stage, our model is compelled to encode motion-based features, which are then successfully transferred to downstream tasks such as action recognition and video retrieval. Moreover, we expand our approach within a joint contrastive framework and integrate additional tasks in the spatial and temporal domains to further enhance representation capabilities. We seek for alternative methods to extract motion masks and implement optical flow based motion extraction to complement frame difference based motion extraction. We present experimental results on action recognition and video retrieval tasks to demonstrate that our method achieves superior performance on the UCF-101, HMDB51 and Diving-48 datasets under low-resource settings and competitive results with instance discrimination methods under costly computation settings. We carefully design ablation experiments to analyze learning behavior of proposed methods and contribution of each component. Lastly, we present qualitative results to further illustrate the benefits of presented methods. We anticipate that our augmentation technique, along with the associated pretext and contrastive learning objectives, will lay the groundwork for future advancements in self-supervised video representation learning.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectSelf-supervised learning
dc.subjectVideo representation learning
dc.subjectContrastive learning
dc.subjectVideo action recognition
dc.subjectVideo retrieval
dc.subjectMask-guidance
dc.subjectMotion-guided learning
dc.titleVisual Representation Learning by Exploring Spatio-Temporal Consistencytr_TR
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.description.ozetVideo temsili öğrenimi, bilgisayarla görme alanında temel bir araştırma konusudur. Bu alan, video verilerini belirgin ve ayırt edici temsillere kodlamak için yöntemler ve modeller geliştirmeye odaklanır. Bu temsiller, video sınıflandırma, eylem tanıma, video arama ve video açıklama gibi alt görevlerde etkili bir şekilde kullanılabilir. Video temsili öğreniminin temelinde, sahneyi, aktörü ve aktörün nesneler ve sahne elemanları gibi çevresiyle ilişkisini anlamak yatar. Görsel içeriğin zaman içindeki geçişini öğrenmek için bir modelin, video dizilerinde doğrudan kodlanmış zamansal ve mekansal bilgileri yakalaması ve çeşitli uygulamalarda faydalı olabilecek uzaysal-zamansal temsilleri çıkarması gerekir. Bu tez, hareket özniteliklerine odaklanan özdenetimli video temsili öğrenimi problemini ele almakta ve arka plan yanlılığını azaltarak ön plandaki hareketlerden öznitelikler yakalamayı amaçlamaktadır. Son dönemde başarılı yöntemler genellikle örnek ayrımı tabanlı yaklaşımları kullanmakta olup, bu yaklaşımlar yoğun hesaplama gerektirebilir ve verimsiz ve yorucu bir ön eğitim sürecine yol açabilir. Ayrıca, bu tezde önerilen yöntemler hareket öznitelikleri için optik akış, H264 codec öznitelikleri veya herhangi bir hareket tanımlayıcı gibi ek hesaplamalar gerektirmez. Çeşitli çalışmalar iki kanallı ağlar \cite{simonyan2014two, feichtenhofer2019slowfast} kullanarak hareket öğrenimini amaçlasa da, bu tez çalışması uzaysal-zamansal öznitelikleri öğrenmek için tek kanallı çözümleri aramaktadır. Bu doğrultuda, MAC: \textbf{M}ask-\textbf{A}ugmentation te\textbf{C}hnique (Maskeleme-tabanlı Artırma Tekniği) adlı veri artırma tekniğini kullanıyoruz. MAC, video kareleri-farkına dayalı maskeler kullanarak ön plan hareketini harmanlar ve uygulanan dönüşümü tanımayı bir ön görev olarak belirler. Ön eğitim aşamasında doğru harmanlama katsayısını tahmin etme oyununu içeren modelimiz, hareket temelli temsil özniteliklerini kodlamaya zorlanır ve bu özniteliklerini daha sonra eylem tanıma ve video arama gibi alt görevlere başarıyla aktarılır. Ayrıca, temsili yetenekleri daha da artırmak için uzaysal ve zamansal alanlarda ek görevler ekleyerek yaklaşımımızı bütünleşik bir öğrenme çerçevesinde karşıt öğrenme ile genişletiyoruz. UCF-101, HMDB51 ve Diving-48 veri setlerinde düşük kaynak tüketimi ayarlarında yöntemimizin üstün performans elde ettiğini ve yoğun kaynak tüketimi ayarlarında örnek ayrımı tabanlı yöntemlerle rekabetçi sonuçlar elde ettiğini gösteren deneysel sonuçlar sunuyoruz. Önerilen yöntemlerin öğrenme davranışını ve her bileşenin katkısını analiz etmek için özenle tasarlanmış ablasyon deneyleri yapıyoruz. Son olarak, sunulan yöntemlerin faydalarını daha da vurgulamak için nitel sonuçlar sunuyoruz. Artırma tekniğimizin, ilişkili ön görev ve karşıt öğrenme hedefleriyle birlikte, özdenetimli video temsili öğreniminde gelecekteki gelişmelerin temelini oluşturacağına inanıyoruz.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2025-03-03T11:01:41Z
dc.fundingYoktr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster