dc.contributor.advisor | Can, Ahmet Burak | |
dc.contributor.author | Çağlayan, Ali | |
dc.date.accessioned | 2018-12-26T10:26:25Z | |
dc.date.issued | 2018 | |
dc.date.submitted | 2018-11-28 | |
dc.identifier.uri | http://hdl.handle.net/11655/5494 | |
dc.description.abstract | Object recognition is one of the basic and challenging problems of computer vision. With the widespread use of RGB-D sensors such as Microsoft Kinect, which provides rich geometric structured depth data along with RGB images, RGB-D data have emerged as very useful resources for solving fundamental computer vision problems. Particularly in the field of robotic vision, an object recognition task using such data plays an essential role in the interaction of a robot with its surrounding environment and the capability of its visual comprehension. On the other hand, the tremendous progress in deep learning techniques over the last decade, has led to a significant increase in object recognition performance.
In this thesis, several studies on RGB-D object category recognition using deep learning techniques are presented. In these studies, convolutional neural networks (CNN) and recursive neural networks (RNN) are employed. In the first phase of the thesis, an empirical analysis for RGB-D object recognition based on a two-layered shallow architecture with an RNN layer and a CNN layer in which the convolution filters are learned in an unsupervised manner is presented. In accordance with the different characteristics of RGB and depth data, effective model settings and parameters are investigated in this shallow model that learns deep features in a feed-forward manner without backpropagation algorithm. In the next phase of the thesis, various volumetric representations are defined in order to make better use of the rich geometric information stored in the depth data and recognition is carried out with 3-dimensional CNN architectures that take these volumetric representations as inputs. To this end, depth data are represented by 3D voxel grid representations and a suitable 3D CNN model is presented for these representations by experimentally investigating among many different alternatives. In the last part of the thesis, a new approach based on transfer learning for RGB-D object recognition is presented. To this end, firstly, a pretrained CNN model is used to extract features from different layers for RGB and depth data. Then, these features are transformed with RNN structures to map to higher-level representations. Finally, the representations derived from different levels are fused to produce a final vector expressing the holistic object image.
The proposed works are analyzed with extensive experiments performed on the well-known datasets for RGB-D object recognition. The proposed works produce successful results that confirm the main objectives and the results are higly competitive with the related studies. | tr_TR |
dc.description.tableofcontents | ÖZET i
ABSTRACT iii
TEŞEKKÜR v
İÇİNDEKİLER vi
ŞEKİLLER ix
ÇİZELGELER xii
TERİMLER VE KISALTMALAR xiii
1. GİRİŞ 1
1.1. Hedef ve Katkılar 4
1.2. Tez Metninin Organizasyonu 5
2. TEORİK BİLGİ 8
2.1. Evrişimsel Sinir Ağları (ESA) 8
2.1.1. Giriş 8
2.1.2. ESA Mimarisi 9
2.1.2.1. Evrişim Katmanı 9
2.1.2.2. Havuzlama Katmanı 10
2.1.2.3. Tam-bağlantılı Katman 10
2.1.3. ESA’nın Eğitilmesi 11
2.1.4. Sonuç 13
2.2. Özyinelemeli Sinir Ağları (ÖSA) 13
2.2.1. Giriş 13
2.2.2 ÖSA Mimarisi 15
2.2.3 Sonuç 17
3. RGB-D NESNE TANIMA İÇİN DERİN NİTELİKLERİN ÖĞRENİLMESİNİN DENEYSEL BİR ANALİZİ 18
3.1. Giriş 18
3.2. İlgili Çalışmalar 19
3.3. Öğrenme Yöntemi 20
3.3.1. Filtre Öğrenme Modülü 20
3.3.2. ESA Katmanı 21
3.3.2.1. Doğrultucu Birimi 21
3.3.2.2. Havuzlama 22
3.3.3. ÖSA Katmanı 22
3.3.4. Sınıflandırma 23
3.4. Deneysel Değerlendirmeler 24
3.4.1. Washinton RGB-D Nesne Veri Kümesi ve Kullanımı 24
3.4.2. Filtre Öğrenme Yaklaşımlarının Etkileri 26
3.4.3. Doğrultucu Birimlerinin Etkileri 28
3.4.4. Havuzlama Yöntemlerinin Etkileri 28
3.4.5. Sınıflandıcırı Karşılaştırmaları 29
3.4.6. Tartışmalar 30
3.5. Sonuç 32
4. DERİNLİK VERİLERİNDE 3B ESA KULLANARAK HACİMSEL NESNE TANIMA 33
4.1. Giriş 33
4.2. İlgili Çalışmalar 35
4.2.1. El Yapımı Nitelik Tabanlı Yöntemler 35
4.2.2. 2.5B ESA Tabanlı Yöntemler 36
4.2.3. 3B ESA Tabanlı Yöntemler 37
4.3. Önerilen Yöntem 37
4.3.1. Hacimsel Temsiller 38
4.3.1.1. İkili Grid (Binary Grid) 38
4.3.1.2. Yoğunluk Gridi (Intensity Grid) 39
4.3.2. 3B ESA 40
4.3.3. Çoklu-Dönüşlü Yaklaşım 43
4.4. Deneysel Değerlendirmeler 45
4.4.1. Veri Kümeleri ve Kurulumları 45
4.4.1.1. Washington RGB-D Veri Kümesi 45
4.4.1.2. 2D3D Nesne Veri Kümesi 47
4.4.1.3. Çoklu-Dönüşlü Kurulumu 47
4.4.2. Sonuçlar 48
4.4.2.1. Hacimsel Grid Farklılıkları 48
4.4.2.2. Washington RGB-D Nesne Veri Kümesinde Karşılaştırma 50
4.4.2.3. 2D3D Nesne Veri Kümesinde Karşılaştırma 54
4.4.3. Çoklayan-Dönüşlü Yaklaşımı ve Deneysel Sonuçlar 56
4.4.4. Renk Bilgisinin Kullanıldığı Yaklaşımlar ve Deneysel Sonuçlar 59
4.5. Sonuç 61
5. ÖNEĞİTİMLİ BİR ESA MODELİNİ ÇOKLU ÖSA YAPILARI İLE BİRLİKTE KULLANARAK RGB-D NESNE TANIMA 63
5.1. Giriş 63
5.2. İlgili Çalışmalar 65
5.3. Önerilen Yöntem 67
5.4. Deneysel Değerlendirmeler 70
5.4.1. Model Analizi 70
5.4.2. Karşılaştırmalı Sonuçlar 75
5.4.3. Hacimsel Tanımada ÖSA Modelinin Kullanımı ve Deneysel Sonuçlar 82
5.5. Sonuç 83
6. SONUÇLAR 85
6.1. Tartışmalar ve Gelecek Çalışmalar 88
KAYNAKLAR 91
ÖZGEÇMİŞ 99 | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | RGB-D nesne tanıma | tr_TR |
dc.subject | Derin öğrenme | tr_TR |
dc.subject | Evrişimsel sinir ağları | tr_TR |
dc.subject | Özyinelemeli sinir ağları | tr_TR |
dc.subject | Transfer öğrenme | tr_TR |
dc.subject | Derin nitelikler | tr_TR |
dc.subject | Nitelik öğrenme | tr_TR |
dc.subject | Sınıflandırma | tr_TR |
dc.title | Derin Öğrenme Tekniklerini Kullanarak Rgb-D Nesne Tanıma | tr_TR |
dc.title.alternative | Rgb-D Object Recognition Using Deep Learning Techniques | tr_eng |
dc.type | info:eu-repo/semantics/doctoralThesis | tr_TR |
dc.description.ozet | Nesne tanıma, bilgisayarlı görü alanının temel ve zorlu problemlerinden birisidir. RGB görüntüleri ile beraber zengin geometrik yapılı derinlik verilerini sağlayan Microsoft Kinect gibi algılayıcıların yaygınlaşmalarıyla birlikte, RGB-D verileri, temel bilgisayarlı görü problemlerini çözmek için çok yararlı bir kaynak olarak ortaya çıkmıştır. Özellikle robotik görme alanında bu tür verilerin kullanıldığı nesne tanıma görevi, robotun ortamla etkileşiminde ve görsel kavrayışında önemli bir rol oynamaktadır. Öte yandan, derin öğrenme tekniklerinde kaydedilen özellikle son on yıldaki gelişmeler, nesne tanıma performansında büyük bir artış sağlamıştır.
Bu tez kapsamında, derin öğrenme tekniklerini kullanarak RGB-D nesne kategorilerini tanımak için gerçekleştirilen çeşitli çalışmalar sunulmaktadır. Bu çalışmalarda, derin öğrenme tekniklerinden evrişimsel sinir ağları (ESA, convolutional neural networks) ve özyinelemeli sinir ağları (ÖSA, recursive neural networks) kullanılmaktadır. Tezin ilk aşamasında, evrişim filtrelerinin gözetimsiz bir şekilde öğrenildiği bir ESA ve bir de ÖSA olmak üzere iki katmanlı, sığ bir mimari kullanılarak RGB-D nesne tanıma için bir analiz çalışması sunulmaktadır. RGB ve derinlik verilerinin farklı karakteristiklerine uygun olarak, geriyayılım algoritması kullanmaksızın ileri-beslemeli öğrenme gerçekleştiren sığ mimaride, etkin model ayarlamaları ve parametreleri araştırılmaktadır. Tezin sonraki aşamasında, derinlik verilerinde saklı olan zengin geometrik bilgilerden daha iyi faydalanmak için çeşitli hacimsel gösterimler tanımlanarak, bu hacimsel gösterimleri giriş olarak ele alan 3-boyutlu ESA mimarileri ile tanıma gerçekleştirilmektedir. Bu amaçla, derinlik verileri 3B voksel grid temsilleri ile ifade edilmekte ve bu temsillere uygun 3B ESA modelleri deneysel olarak araştırılarak uygun bir model sunulmaktadır. Tezin son kesiminde ise transfer öğrenme ile RGB-D nesne tanıma için yeni bir yaklaşım sunulmaktadır. Buna göre ilk önce bir öneğitimli ESA modeli ile RGB ve derinlik verileri için farklı katmanlardan nitelikler çıkartılmaktadır. Daha sonra bu nitelikler daha yüksek düzeyli temsillere eşlenmek üzere, ÖSA modelleri ile dönüştürülmektedir. Son olarak farklı düzeyden çıkartılan temsiller birleştirilerek bir nesne görüntüsünün bütününü ifade eden vektörler elde edilmektedir.
Önerilen çalışmalar, RGB-D nesne tanıma için literatürde sıkça kullanılan veri kümelerinde gerçekleştirilen kapsamlı testler ile analiz edilmektedir. Önerilen yöntemlerde, çalışma amaçlarını doğrulayan ve ilgili çalışmalarla yarışabilir düzeyde, başarılı sonuçlar elde edilmektedir. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.contributor.authorID | 163218 | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | - | |