Basit öğe kaydını göster

dc.contributor.advisorDuygulu Şahin, Pınar
dc.contributor.authorYalçınkaya Şimşek, Özge
dc.date.accessioned2023-06-19T12:30:23Z
dc.date.issued2023
dc.date.submitted2023-05-26
dc.identifier.urihttps://hdl.handle.net/11655/33449
dc.description.abstractDespite the promising improvements in human activity recognition for fundamental actions, understanding actions in instructional web videos is a challenging research problem. Instructional web videos contain various demonstrations for daily human tasks such as cooking, repairing, or how to do something. These tasks involve multiple fine-grained and complex actions in different orders or appearances according to the people demonstrating them. In addition to the challenge of finding a robust action localization model for fine-grained actions, a vast amount of labeled data is needed. Due to the difficulties in labeling such data, studies propose self-supervised video representation learning models that leverage the narrations in the videos. By utilizing the automatically generated transcriptions obtained from the narrators, joint embedding spaces are trained to learn video-text similarities. Hence, pre-defined instructional action steps can be localized, leveraging the video-text similarity information. However, learning such models presents a drawback where background video clips containing non-action scenes can get high scores for specific action steps due to the misleading transcriptions paired with them in training. Therefore, action localization results can be impacted. Detecting harmful backgrounds and distinguishing them from action clips is essential. In this thesis, we investigate improving action localization results on instructional videos by defining actions and backgrounds with a novel representation that forces their discrimination in the joint feature space. We show that using baseline video-text model similarity score cues to describe each video clip reinforces the discrimination of action clips and backgrounds. The idea is based on the hypothesis that background video clips tend to obtain uniformly distributed low similarity scores for all action step labels, whereas action clips get high scores for specific action steps. We jointly train a binary model that encodes the actionness of each video clip with this discriminative representation and visual features. Here the actionness score defines the probability for a given video clip to contain an action. Then, we use the actionness scores of each video clip to post-process action localization and action segmentation scores of baseline video-text models. We present results on CrossTask and COIN datasets. We show that a small labeled set is sufficient for action/background discrimination learning. However, the quality of the data affects more. Thus, we investigate the effect of augmenting training data with action images collected from the web and utilize an image-text model. We show promising results for future directions along with challenges due to the bottleneck of the model and dataset.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectİnstructional videostr_TR
dc.subjectAction localizationtr_TR
dc.subjectAction segmentationtr_TR
dc.subjectActionnesstr_TR
dc.subjectVideo representationtr_TR
dc.subjectAction imagestr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleUnderstanding Actions in Instructional Videostr_TR
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.description.ozetTemel eylemler için insan etkinliği tanımadaki umut verici gelişmelere rağmen, eğitici internet videolarındaki eylemleri anlamak zorlu bir araştırma problemidir. Eğitici internet videoları, yemek pişirme, tamir etme veya bir şey nasıl yapılır gibi günlük insan görevleri için çeşitli gösterimler içerir. Bu görevler, onları yapan insanlara göre değişmek üzere farklı sırada veya görünümde çok sayıda ince taneli ve karmaşık eylem içermektedir. İnce taneli eylemler için sağlam bir eylem yerelleştirme modeli bulma zorluğuna ek olarak, büyük miktarda etiketlenmiş veriye ihtiyaç vardır. Bu tür verileri etiketlemenin zorlukları nedeniyle, araştırmalar, videolardaki anlatımlardan yararlanan ve kendi kendini denetleyen video temsili öğrenme modelleri önermiştir. Anlatıcılardan elde edilen otomatik olarak oluşturulmuş altyazılardan yararlanılarak, video-metin benzerliklerini öğrenmek için ortak özellik uzayları eğitilir. Bu sayede, video-metin benzerlik bilgisinden yararlanılarak önceden tanımlanmış eğitimsel eylem adımları yerelleştirilebilir. Bununla birlikte, bu tür modellerin öğrenilmesi, eylem dışı sahneler içeren arka plan video kliplerinin, eğitim sırasında eşleştikleri yanıltıcı altyazılar nedeniyle eylem adımları için yüksek puanlar alabildiği durumlarda bir dezavantaj sunar. Bu nedenle, eylem yerelleştirme sonuçları etkilenebilir. Zararlı arka planları tespit etmek ve bunları eylem kliplerinden ayırmak önemli olmaktadır. Bu tezde, eylemlerin ve arka planların ortak özellik uzayındaki ayrımlarını zorlayan yeni bir temsil tanımlayarak, eğitici videolarda eylem yerelleştirme sonuçlarının iyileştirilmesini araştırıyoruz. Her bir video klibi tanımlamak için temel video-metin modeli benzerlik puanı ipuçlarını kullanmanın, eylem klipleri ve arka planların ayrımını güçlendirdiğini gösteriyoruz. Bu fikir, arka plan video kliplerinin tüm eylem adımı etiketleri için düşük benzerlik puanları alma eğiliminde olduğu ve karşıt olarak eylem kliplerinin belirli eylem adımları için yüksek puanlar aldığı hipotezine dayanmaktadır. Her video klibin eylemliliğini bu ayırt edici temsil ve görsel özelliklerle birlikte kodlayan bir ikili modeli ortaklaşa eğitiyoruz. Burada eylemlilik puanı, belirli bir video klibin bir eylem içerme olasılığını tanımlar. Ardından, temel video-metin modellerinin eylem yerelleştirme ve eylem segmentasyonu puanlarını sonradan işlemek için her bir video klibin eylemlilik puanlarını kullanıyoruz. Sonuçları CrossTask ve COIN veri kümeleri üzerinde sunuyoruz. Eylem/arka plan ayrımcılığının öğrenilmesi için küçük etiketli bir kümenin yeterli olduğunu göstermenin ardından veri kalitesinin sonuçları daha fazla etkileyebileceğini tartışıyoruz. Ek bir çözüm olarak, internetten toplanan eylem görüntüleriyle eğitim setini çeşitlendirmenin etkisini araştırıyoruz ve bir görüntü-metin modeli kullanıyoruz. Modelin ve veri kümesinin darboğazından kaynaklanan zorluklarla birlikte gelecekteki yönelimler için umut verici sonuçlar gösteriyoruz.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2023-06-19T12:30:23Z
dc.fundingTÜBİTAKtr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster