Basit öğe kaydını göster

dc.contributor.advisorİkizler Cinbiş, Nazlı
dc.contributor.advisorErdem, İbrahim Aykut
dc.contributor.authorBoran, Emre
dc.date.accessioned2020-09-17T10:36:03Z
dc.date.issued2020-07
dc.date.submitted2020-07-17
dc.identifier.urihttp://hdl.handle.net/11655/22724
dc.description.abstractDense video captioning aims at detecting events in untrimmed videos and generating accurate and coherent caption for each detected event. It is one of the most challenging captioning tasks since generated sentences must form a meaningful and fluent paragraph by considering temporal dependencies and the order between the events, where most of the previous works are heavily dependent on the visual features extracted from the videos. Collecting textual descriptions is an especially costly task for dense video captioning, since each event in the video needs to be annotated separately and a long descriptive paragraph needs to be provided. In this thesis, we investigate a way to mitigate this heavy burden and we propose a new dense video captioning approach that leverages captions of similar images as auxiliary context while generating coherent captions for events in a video. Our model successfully retrieves visually relevant images and combines noun and verb phrases from their captions to generating coherent descriptions. We employ a generator and a discriminator design, together with an attention-based fusion technique, to incorporate image captions as context in the video caption generation process. We choose the best generated caption by a hybrid discriminator that can consider temporal and semantic dependencies between events. The effectiveness of our model is demonstrated on ActivityNet Captions dataset and our proposed approach achieves favorable performance when compared to the strong baseline based on automatic metrics and qualitative evaluations.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectDense video captioningtr_TR
dc.subjectImage descriptionstr_TR
dc.subjectAuxiliary datatr_TR
dc.subjectContextual Informationtr_TR
dc.titleDense Video Captioning By Utilizing Auxiliary Image Datatr_TR
dc.title.alternativeYardımcı Resim Verilerini Kullanarak Detaylı Video Altyazılama
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetDetaylı video altyazılama, uzun videolardaki olayları tespit etmek ve tespit edilen her olay için doğru ve tutarlı altyazı oluşturulmasını amaçlamaktadır. Altyazılar oluşturulurken, olaylar arasındaki zamansal bağımlılıklar ve olayların sıralamasının dikkate alınması ve bu kapsamda anlamlı ve akıcı bir paragraf oluşturulması gerektiğinden en zorlu altyazılama görevlerinden biridir ve önceki çalışmaların çoğu büyük ölçüde videolardan elde edilen özniteliklere bağımlıdır. Videoda yer alan her bir olayın ayrı ayrı altyazılanması ve uzun, tanımlayıcı bir paragraf oluşturulması gerektiğinden, metinsel altyazıların oluşturulması, yoğun video altyazılama görevi için oldukça zor bir iştir. Bu tezde, bu ağır yükü hafifletmenin bir yolunu arıyoruz ve bir videoda yer alan olaylar için uyumlu altyazılar oluştururken, yardımcı veri kaynağı olarak, videolara benzer resimlerin altyazılarından yararlanan, yeni bir detaylı video altyazılama yaklaşımı önerilmektedir. Önerilen model, görsel olarak benzer resimleri başarılı bir şekilde bulmakta ve videolara benzer nitelikteki resimlerin altyazılarında yer alan isim ve fiil tamlamalarını başarıyla kullanmaktadır. Yaratıcı ve seçici olarak adlandırabilecek bir dizayn ve dikkat mekanizması tabanlı birleştirme tekniği ile resim altyazılarının, yoğun video altyazılama sürecinde dahil edilmesi sağlanmaktadır. Bir olay için en iyi üretilmiş altyazı, olaylar arasındaki zamansal ve anlamsal bağlantıları dikkate alan bir seçici tarafından seçilmektedir. Önerdiğimiz modelin başarımı, detaylı video altyazılama için önerilen ActivityNet Captions veri kümesi üzerinde gösterilmiş ve yaklaşımımız güçlü bir temel model ile kıyaslandığında otomatik metrikler ve nitel değerlendirmelerine göre daha iyi sonuçlar vermektedir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2020-09-17T10:36:03Z
dc.fundingTÜBİTAKtr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster