Understanding Actions in Instructional Videos

Yalçınkaya Şimşek, Özge

dc.contributor.advisor	Duygulu Şahin, Pınar
dc.contributor.author	Yalçınkaya Şimşek, Özge
dc.date.accessioned	2023-06-19T12:30:23Z
dc.date.issued	2023
dc.date.submitted	2023-05-26
dc.identifier.uri	https://hdl.handle.net/11655/33449
dc.description.abstract	Despite the promising improvements in human activity recognition for fundamental actions, understanding actions in instructional web videos is a challenging research problem. Instructional web videos contain various demonstrations for daily human tasks such as cooking, repairing, or how to do something. These tasks involve multiple fine-grained and complex actions in different orders or appearances according to the people demonstrating them. In addition to the challenge of finding a robust action localization model for fine-grained actions, a vast amount of labeled data is needed. Due to the difficulties in labeling such data, studies propose self-supervised video representation learning models that leverage the narrations in the videos. By utilizing the automatically generated transcriptions obtained from the narrators, joint embedding spaces are trained to learn video-text similarities. Hence, pre-defined instructional action steps can be localized, leveraging the video-text similarity information. However, learning such models presents a drawback where background video clips containing non-action scenes can get high scores for specific action steps due to the misleading transcriptions paired with them in training. Therefore, action localization results can be impacted. Detecting harmful backgrounds and distinguishing them from action clips is essential. In this thesis, we investigate improving action localization results on instructional videos by defining actions and backgrounds with a novel representation that forces their discrimination in the joint feature space. We show that using baseline video-text model similarity score cues to describe each video clip reinforces the discrimination of action clips and backgrounds. The idea is based on the hypothesis that background video clips tend to obtain uniformly distributed low similarity scores for all action step labels, whereas action clips get high scores for specific action steps. We jointly train a binary model that encodes the actionness of each video clip with this discriminative representation and visual features. Here the actionness score defines the probability for a given video clip to contain an action. Then, we use the actionness scores of each video clip to post-process action localization and action segmentation scores of baseline video-text models. We present results on CrossTask and COIN datasets. We show that a small labeled set is sufficient for action/background discrimination learning. However, the quality of the data affects more. Thus, we investigate the effect of augmenting training data with action images collected from the web and utilize an image-text model. We show promising results for future directions along with challenges due to the bottleneck of the model and dataset.	tr_TR
dc.language.iso	en	tr_TR
dc.publisher	Fen Bilimleri Enstitüsü	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	İnstructional videos	tr_TR
dc.subject	Action localization	tr_TR
dc.subject	Action segmentation	tr_TR
dc.subject	Actionness	tr_TR
dc.subject	Video representation	tr_TR
dc.subject	Action images	tr_TR
dc.subject.lcsh	Bilgisayar mühendisliği	tr_TR
dc.title	Understanding Actions in Instructional Videos	tr_TR
dc.type	info:eu-repo/semantics/doctoralThesis	tr_TR
dc.description.ozet	Temel eylemler için insan etkinliği tanımadaki umut verici gelişmelere rağmen, eğitici internet videolarındaki eylemleri anlamak zorlu bir araştırma problemidir. Eğitici internet videoları, yemek pişirme, tamir etme veya bir şey nasıl yapılır gibi günlük insan görevleri için çeşitli gösterimler içerir. Bu görevler, onları yapan insanlara göre değişmek üzere farklı sırada veya görünümde çok sayıda ince taneli ve karmaşık eylem içermektedir. İnce taneli eylemler için sağlam bir eylem yerelleştirme modeli bulma zorluğuna ek olarak, büyük miktarda etiketlenmiş veriye ihtiyaç vardır. Bu tür verileri etiketlemenin zorlukları nedeniyle, araştırmalar, videolardaki anlatımlardan yararlanan ve kendi kendini denetleyen video temsili öğrenme modelleri önermiştir. Anlatıcılardan elde edilen otomatik olarak oluşturulmuş altyazılardan yararlanılarak, video-metin benzerliklerini öğrenmek için ortak özellik uzayları eğitilir. Bu sayede, video-metin benzerlik bilgisinden yararlanılarak önceden tanımlanmış eğitimsel eylem adımları yerelleştirilebilir. Bununla birlikte, bu tür modellerin öğrenilmesi, eylem dışı sahneler içeren arka plan video kliplerinin, eğitim sırasında eşleştikleri yanıltıcı altyazılar nedeniyle eylem adımları için yüksek puanlar alabildiği durumlarda bir dezavantaj sunar. Bu nedenle, eylem yerelleştirme sonuçları etkilenebilir. Zararlı arka planları tespit etmek ve bunları eylem kliplerinden ayırmak önemli olmaktadır. Bu tezde, eylemlerin ve arka planların ortak özellik uzayındaki ayrımlarını zorlayan yeni bir temsil tanımlayarak, eğitici videolarda eylem yerelleştirme sonuçlarının iyileştirilmesini araştırıyoruz. Her bir video klibi tanımlamak için temel video-metin modeli benzerlik puanı ipuçlarını kullanmanın, eylem klipleri ve arka planların ayrımını güçlendirdiğini gösteriyoruz. Bu fikir, arka plan video kliplerinin tüm eylem adımı etiketleri için düşük benzerlik puanları alma eğiliminde olduğu ve karşıt olarak eylem kliplerinin belirli eylem adımları için yüksek puanlar aldığı hipotezine dayanmaktadır. Her video klibin eylemliliğini bu ayırt edici temsil ve görsel özelliklerle birlikte kodlayan bir ikili modeli ortaklaşa eğitiyoruz. Burada eylemlilik puanı, belirli bir video klibin bir eylem içerme olasılığını tanımlar. Ardından, temel video-metin modellerinin eylem yerelleştirme ve eylem segmentasyonu puanlarını sonradan işlemek için her bir video klibin eylemlilik puanlarını kullanıyoruz. Sonuçları CrossTask ve COIN veri kümeleri üzerinde sunuyoruz. Eylem/arka plan ayrımcılığının öğrenilmesi için küçük etiketli bir kümenin yeterli olduğunu göstermenin ardından veri kalitesinin sonuçları daha fazla etkileyebileceğini tartışıyoruz. Ek bir çözüm olarak, internetten toplanan eylem görüntüleriyle eğitim setini çeşitlendirmenin etkisini araştırıyoruz ve bir görüntü-metin modeli kullanıyoruz. Modelin ve veri kümesinin darboğazından kaynaklanan zorluklarla birlikte gelecekteki yönelimler için umut verici sonuçlar gösteriyoruz.	tr_TR
dc.contributor.department	Bilgisayar Mühendisliği	tr_TR
dc.embargo.terms	Acik erisim	tr_TR
dc.embargo.lift	2023-06-19T12:30:23Z
dc.funding	TÜBİTAK	tr_TR

Bu öğenin dosyaları:

Ad:: 10546522.pdf
Boyut:: 11.61Mb
Biçim:: PDF

Göster/Aç

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Bilgisayar Mühendisliği Bölümü Tez Koleksiyonu [212]

Basit öğe kaydını göster

Understanding Actions in Instructional Videos

Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

İlgili öğeler

The Evaluation Of Teachers’ Science Concept Teaching And Their Action To Diagnose And Eliminate Misconceptions | Öğretmenlerin Fen Kavram Öğretimleri, Kavram Yanilgilarini Saptama Ve Giderme Çalişmalarinin Değerlendirilmesi ﻿

Anabolic Actions of Parathyroid Hormone during Bone Growth Are Dependent on C-Fos ﻿

Cells Of The Osteoclast Lineage As Mediators Of The Anabolic Actions Of Parathyroid Hormone In Bone ﻿

The Evaluation Of Teachers’ Science Concept Teaching And Their Action To Diagnose And Eliminate Misconceptions | Öğretmenlerin Fen Kavram Öğretimleri, Kavram Yanilgilarini Saptama Ve Giderme Çalişmalarinin Değerlendirilmesi

Anabolic Actions of Parathyroid Hormone during Bone Growth Are Dependent on C-Fos

Cells Of The Osteoclast Lineage As Mediators Of The Anabolic Actions Of Parathyroid Hormone In Bone