dc.contributor.advisor | Erdem, Mehmet Erkut | |
dc.contributor.advisor | Erdem, İbrahim Aykut | |
dc.contributor.author | Ercan, Burak | |
dc.date.accessioned | 2024-10-18T07:18:53Z | |
dc.date.issued | 2024 | |
dc.date.submitted | 2024-05-29 | |
dc.identifier.uri | https://hdl.handle.net/11655/36032 | |
dc.description.abstract | The past decade has seen significant progress in computer vision, leading to diverse applications across various domains. However, today’s artificial vision systems remain in their infancy compared to their biological counterparts in robustness to challenging real-world scenarios, real-time processing capabilities, and computational efficiency. These shortcomings can be attributed to the classical frame-based acquisition and processing pipelines, which suffer from low temporal resolution, low dynamic range, motion blur, and redundant information flow.
A new class of visual sensory devices called event cameras offers promising solutions to these challenges. Instead of capturing frames collectively, the pixels of an event camera work independently and respond to local brightness variations by generating asynchronous signals called events. As a result, event cameras have many advantages over traditional frame-based sensors, such as high dynamic range, high temporal resolution, low latency, and minimal motion blur.
This thesis focuses on reconstructing intensity images from events. Reconstruction of intensity information leverages the advantages of events for high-quality imaging in challenging scenarios. This enables the application of established methods developed for frame-based images and facilitates human-centered applications involving event data. We present three main contributions on this task: a novel method surpassing existing ones in terms of image quality and efficiency, a comprehensive evaluation framework, and a large and diverse benchmark dataset.
First, we develop a novel dynamic neural network architecture based on hypernetworks, named HyperE2VID. HyperE2VID dynamically adapts to event data, unlike existing works that process events with static networks. Its context fusion module leverages complementary elements of event and frame domains, while its filter decomposition steps reduce computational cost. Thanks to this design, it surpasses existing methods in both image quality and computational efficiency.
Our second contribution is an open-source library for evaluating and analyzing event-based video reconstruction methods, called EVREAL. EVREAL allows us to evaluate different methods comprehensively, considering diverse and challenging scenarios, employing extensive real-world datasets, measuring robustness to several key variables, and assessing performance through multiple metrics and tasks. This evaluation ensures generalizability to real-world scenarios, fair comparison, and reproducibility.
Our third contribution is a new benchmark dataset, HUE. HUE has high resolution, contains numerous sequences taken in diverse scenarios, and focuses on low-light scenarios, a challenging but rewarding domain for event-based video reconstruction.
Using EVREAL, we evaluate HyperE2VID via extensive experiments on several datasets, including our proposed dataset HUE. We use various metrics to assess the image quality under different conditions. We also analyze computational complexity and present a detailed ablation study to validate the design choices of HyperE2VID. Our experimental results demonstrate the success of the proposed dynamic architecture, generating higher-quality videos than previous state-of-the-art methods across a wide range of settings, while also reducing memory consumption and inference time.
We expect the event-based vision literature to keep growing and event cameras to become more prominent in the coming years. We believe our method HyperE2VID, together with our evaluation framework EVREAL and benchmark dataset HUE, marks an important step towards enabling high-quality and robust imaging in a computationally efficient way. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Event cameras | tr_TR |
dc.subject | Dynamic vision sensors | tr_TR |
dc.subject | Event-based vision | tr_TR |
dc.subject | Video reconstruction | tr_TR |
dc.subject.lcsh | Bilgisayar mühendisliği | tr_TR |
dc.title | Learning to Reconstruct Intensıty Images From Events | tr_TR |
dc.title.alternative | Olaylardan Yeğinlik Görüntüleri Geriçatmayı Öğrenmek | tr_TR |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.description.ozet | Son on yılda bilgisayarlı görme alanında önemli ilerlemeler kaydedilmiş ve pek çok alanda çeşitli uygulamaların yolu açılmıştır. Yine de, günümüzün yapay görme sistemleri, zorlu gerçek dünya senaryolarına olan dayanıklılıkları, gerçek zamanlı işleme kapasiteleri ve hesaplama verimliliği açısından biyolojik benzerlerine kıyasla hala emekleme aşamasındadır. Bu durumun önemli sebeplerinden biri; düşük zamansal çözünürlüğe, düşük dinamik aralığa, hareket bulanıklığına ve gereksiz bilgi akışına neden olan klasik çerçeve tabanlı görüntü alma ve işleme yöntemlerini izlemeleridir.
Olay kameraları adı verilen yeni bir görsel algılayıcı sınıfı, bu sorunlara umut verici çözümler sunmaktadır. Bir olay kamerasının pikselleri, beraberce bir çerçeve yakalamak yerine bağımsız olarak çalışır ve yerel parlaklık değişikliklerine yanıt olarak olay adı verilen asenkron sinyaller üretirler. Bunun sonucunda olay kameraları, geleneksel çerçeve tabanlı sensörlere kıyasla yüksek dinamik aralık, yüksek zamansal çözünürlük, düşük gecikme süresi ve minimal hareket bulanıklığı gibi birçok avantaja sahiptir.
Bu tez, olaylardan yeğinlik görüntüleri geriçatmaya odaklanmaktadır. Yeğinlik bilgisinin yeniden oluşturulması, zorlu senaryolarda olayların avantajlarından yararlanarak yüksek kaliteli görüntüleme sağlamaktadır. Bu da çerçeve tabanlı görüntüler için geliştirilen mevcut yöntemlerin uygulanabilmesini sağlar ve olay verilerini içeren insan merkezli uygulamaları kolaylaştırır. Bu göreve ilişkin üç ana katkı sunmaktayız: görüntü kalitesi ve verimlilik açısından mevcut yöntemleri aşan yenilikçi bir yöntem, kapsamlı bir değerlendirme kütüphanesi, ve geniş bir denektaşı veri kümesi.
Öncelikle, HyperE2VID adında, hiperağlara dayanan, yenilikçi ve dinamik bir sinir ağı mimarisi geliştirilmiştir. HyperE2VID, olay verilerini statik ağlarla işleyen mevcut çalışmaların aksine, olay verilerine dinamik olarak uyum sağlamak üzere tasarlanmıştır. Kullanılan bağlam birleştirme modülü, olay ve çerçevelerin birbirini tamamlayıcı unsurlarından yararlanmakta, filtre ayrıştırma adımları ise hesaplama maliyetini azaltmaya yardımcı olmaktadır. Bu tasarım sayesinde, HyperE2VID hem görüntü kalitesi hem de hesaplama verimliliği açısından mevcut yöntemleri aşmaktadır.
İkinci katkımız, olaylardan yeğinlik geriçatma yöntemlerini değerlendirmek ve analiz etmek için açık kaynaklı bir kütüphane olan EVREAL'dır. EVREAL, çeşitli zorlu senaryoları dikkate alarak, kapsamlı gerçek dünya veri kümelerini kullanarak, birkaç anahtar değişkene karşı sağlamlığı ölçerek ve birden çok metrik ve görev aracılığıyla performansı değerlendirerek, farklı geriçatma yöntemlerini bütünleşik ve kapsamlı bir şekilde değerlendirebilmemizi sağlamaktadır. Bu değerlendirme gerçek dünya senaryolarına genelleştirilebilirliği, adil karşılaştırmayı ve yeniden üretilebilirliği garanti etmektedir.
Üçüncü katkımız, HUE adında yeni bir denektaşı veri kümesidir. HUE veri kümesi yüksek çözünürlüğe ve çeşitli senaryolarda çekilmiş çok sayıda sekansa sahiptir. Önemli bir kısmı olaylardan yeğinlik görüntüleri geriçatma açısından zorlayıcı ancak ödüllendirici olan düşük ışıklı sahneleri içerecek şekilde çekilmiştir.
HyperE2VID, önerdiğimiz HUE veri seti de dahil olmak üzere çeşitli veri setlerinde ve EVREAL kullanılan geniş çaplı deneylerle değerlendirilmiştir. Her yöntemin farklı koşullar altındaki görüntü kalitesini değerlendirmek için çeşitli metrikler kullanılmıştır. Ayrıca hesaplama karmaşıklığı analiz edilmiş ve HyperE2VID'in tasarım seçimlerinin birçoğunu doğrulamak için detaylı bir ablasyon çalışması sunulmuştur. Deneysel sonuçlar, yaklaşımımızın görsel kalite açısından önceki yöntemlere göre daha iyi videolar oluşturabildiği ve aynı zamanda daha düşük bellek tüketimine sahip olduğu ve çıkarım sürelerini azalttığını göstererek önerilen dinamik mimarinin başarısını vurgulamıştır.
Olay tabanlı görme literatürünün büyümeye devam edeceğini ve olay kameralarının önümüzdeki yıllarda daha yaygın hale geleceğini öngörmekteyiz. Yöntemimiz HyperE2VID'in, değerlendirme kütüphanemiz EVREAL ve denektaşı veri kümemiz HUE ile birlikte, hesaplama açısından verimli şekilde yüksek kaliteli ve gürbüz görüntüleme sağlamaya yönelik önemli bir adım olduğuna inanıyoruz. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-10-18T07:18:53Z | |
dc.funding | Yok | tr_TR |