Basit öğe kaydını göster

dc.contributor.advisorİkizler Cinbiş, Nazlı
dc.contributor.authorOğuz, Oğuzhan
dc.date.accessioned2024-10-07T08:17:44Z
dc.date.issued2023
dc.date.submitted2023-12-19
dc.identifier.urihttps://hdl.handle.net/11655/35816
dc.description.abstractThe rapid evolution of machine learning and deep learning approaches has enabled robust solutions for complex and computationally intensive problems, particularly in describing, identifying, and segmenting video content. The success of these solutions is made possible through a large amount of high-resolution video data. However, these high-quality video scenes contain private data about individuals and environments. While people have limited rights over this data, the storage mediums are vulnerable to cyber attacks. Also, storing and processing high-resolution videos is becoming increasingly costly. At this point, extremely low-resolution video samples (12 x 16) offer a more affordable storage cost while not containing private information. However, they also contain very limited temporal and spatial information. This thesis focuses on recognizing actions in extremely low-resolution videos and offers novel deep learning-based approaches. In this context, we create extremely low-resolution samples of high-resolution video action recognition datasets currently used in literature, namely UCF-101 and HMDB-51. This way, we prepare a scenario comparable to existing literature. Then, to improve the limited temporal and spatial information quality of these low-resolution data, we use a scene-based super-resolution algorithm. Later on, we develop new deep learning models based on knowledge distillation to recognize actions in extremely low-resolution videos. We pre-train the teacher networks with high-resolution counterparts from the relevant datasets. We propose different and novel deep architectures for the student network, which will learn the temporal and spatial information in low resolution. In addition, we define new feature-based distillation loss functions for training these student networks. We propose cross-resolution attention modules to make the transfer of information from teacher to student network more effective during the training and present their potential uses experimentally. Also, for solving this challenging problem, we increase the information spaces used by our unique deep learning structures. To transfer the information in the optical flow space, which models motion in video scenes, to the extreme low-resolution space in a efficient way, we develop a new teacher model. We show the effect of this new teacher structure with detailed experiments. Then, based on the fact that high-frequency information in high-resolution scenes represents spatial details, for the first time in the literature of extreme video action recognition, we use frequency space features to transfer to the student network. In our experiments, we show that our ability to recognize actions in extremely low-resolution videos achieves the state-of-the-art (SoA) level in the UCF-101 dataset and achieves competitive recognition accuracies for the HMDB-51 dataset.tr_TR
dc.language.isoentr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectAksiyon tanımatr_TR
dc.subjectAşırı düşük çözünürlüktr_TR
dc.subjectBilgi damıtmatr_TR
dc.subjectÇapraz çözünürlük dikkat mekanizmasıtr_TR
dc.subjectMahremiyet korumatr_TR
dc.subjectAction recognitiontr_TR
dc.subjectExtreme low resolutiontr_TR
dc.subjectKnowledge distillationtr_TR
dc.subjectCross resolution attention mechanismtr_TR
dc.subjectPrivacy preservingtr_TR
dc.subject.lcshBilgisayar mühendisliğitr_TR
dc.titleExtreme Low Resolution Video Action Recognitiontr_TR
dc.typeinfo:eu-repo/semantics/doctoralThesistr_TR
dc.description.ozetMakine öğrenimi ve derin öğrenme yaklaşımlarının hızlı evrimi, özellikle video içerik betimleme, tanımlama ve bölütleme gibi karmaşık ve ağır hesap gücü gerektiren problemlerde gürbüz çözümler sunmaktadır. İnsan hayatını kolaylaştıran bu çözümlerin başarımı, çok miktarda yüksek çözünürlüklü video verisi sayesinde sağlanmaktadır. Ancak bu yüksek kalitedeki video sahneleri, kişiler ve ortamlar hakkında kişisel verileri içerir. Kişilerin bu veriler üzerindeki hakları sınırlı olmakla beraber, verilerin saklandığı depolama ortamları sanal saldırılara maruz kalabilmektedir. Ayrıca, yüksek çözünürlükteki videoların saklanması ve işlenmesi günden güne maliyeti artan bir giderdir. Bu noktada aşırı düşük çözünürlükteki video örnekleri (12 x 16), hem kişisel bilgiyi içermezken hem de sahip oldukları küçük boyutlardan dolayı daha uygun bir depolama maliyeti sunabilmektedir. Ancak kişisel bilgi olmadığı gibi, bu düşük çözünürlükte sahnelerdeki zamansal ve uzamsal bilgiler de çok limitli bir miktarda bulunmaktadır. Bu tez, aşırı düşük çözünürlükteki videolardaki aksiyonları tanımaya odaklanmaktadır ve bu konuda özgün derin öğrenme tabanlı yaklaşımlar sunmaktadır. Bu bağlamda, mevcut literatürde kullanılan yüksek çözünürlüklü video aksiyon tanıma veri setleri olan UCF-101 ve HMDB-51 veri setlerinin aşırı düşük çözünürlüklü örnekleri oluşturulmuştur. Böylece, literatürle karşılaştırılabilir bir senaryo hazırlanmıştır. Daha sonra, bu düşük çözünürlüklü verilerin sınırlı zamansal ve uzamsal bilgi kalitesini iyileştirmek için sahne tabanlı bir süper çözünürlük algoritması kullanışmıştır. Sonrasında aşırı düşük çözünürlüklü videolardaki aksiyonları tanımak için bilgi damıtma tabanlı yeni derin öğrenme modelleri geliştirilmiştir. Modellerde kullanılan, öğretmen ağlarının ilgili veri setlerindeki yüksek çözünürlüklü eşlerinde, ön eğitimlerini sağlanmıştır. Bu düşük çözünürlükteki zamansal ve uzamsal bilgileri öğrenecek olan öğrenci ağı için farklı özgün derin modeller önerilmiştir. Bununla beraber bu öğrenci ağlarının eğitimi için öznitelik tabanlı yeni damıtla kayıp fonksiyonları tanımlanmıştır. Eğitim sırasında, öğretmen ağından öğrenci ağına bilgi aktarımını daha etkili hale getirebilmek için çapraz çözünürlük dikkat modülleri önerilmiş ve olası kullanım noktalarını deneysel olarak sunulmuştur. Ayrıca, bu zor problemin çözümünde sunduğumuz özgün derin öğrenme yapılarının kullandıkları bilgi uzayları arttırılmıştır. Video sahnelerindeki hareketi modelleyen optik akış düzlemindeki bilginin aşırı düşük çözünürlük uzayına, etkin bir şekilde aktarımı sağlamak amacıyla, yeni bir öğretmen modeli geliştirilmiştir. Bu yeni öğretmen yapısının etkisi detaylı deneyler ile sunulmuştur. Sonrasında yüksek çözünürlüklü sahnelerdeki, yüksek frekanslı bilgilerin, sahnelerdeki uzamsal detayları temsil ettiği gerçeğinden yola çıkarak, aşırı düşük çözünürlüklü video aksiyon tanıma literatüründe ilk defa frekans uzayı öznitelikleri öğrenci ağına aktarmak üzere kullanılmıştır. Yaptığımız deneylerde, aşırı düşük çözünürlüklü videolardaki aksiyon tanıma yeteneklerimizin UCF-101 veri seti için literatürdeki en yüksek tanımlama başarısına sahip olduğu, HMDB-51 veri seti için ise rekabetçi başarı seviyelerine ulaştığı gösterilmiştir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2024-10-07T08:17:44Z
dc.fundingYoktr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster