dc.contributor.advisor | İKİZLER CİNBİŞ, NAZLI | |
dc.contributor.author | ATVAR, ANIL | |
dc.date.accessioned | 2018-12-26T10:43:17Z | |
dc.date.issued | 2018 | |
dc.date.submitted | 2018 | |
dc.identifier.citation | [1]Krizhevsky A. Sutskever I. & Hinton G. E. Imagenet classification with deep
convolutional neural networks. In Advances in neural information processing
systems, pages 1097–1105. 2012.
[2] He K. Zhang X. Ren S. & Sun J. Deep residual learning for image recognition. In
Proceedings of the IEEE conference on computer vision and pattern recognition,
pages 770–778. 2016.
[3] Choi W. Chao Y. W. Pantofaru C. & Savarese S. Discovering groups of people in
images. In European conference on computer vision, pages 417–433. 2014.
[4] Y. Wang J. Song Y. Leung T. Rosenberg C. Wang J. Philbin J. & Wu. Learning
fine-grained image similarity with deep ranking. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pages 1386–1393. 2014.
[5] Bourdev L. & Malik J. Poselets: Body part detectors trained using 3d human pose
annotations. In IEEE 12th International Conference, pages 1365–1372. 2009.
[6] Singh S. Gupta A. & Efros A. A. Unsupervised discovery of mid-level discriminative
patches. In Computer Vision–ECCV, pages 73–86. 2012.
[7] Dalal N. & Triggs B. Histograms of oriented gradients for human detection. In
IEEE Computer Society Conference, pages 886–893. 2005.
[8] He K. Gkioxari G. Dollar P. & Girshick R. Mask r-cnn. In Computer Vision
(ICCV), pages 2980–2988. 2017.
[9] Chang C. C. & Lin C. J. Libsvm: a library for support vector machines. In ACM
transactions on intelligent systems and technology, pages –. 2011.
[10] Ke Q. Bennamoun M. An S. Sohel F. & Boussaid F. A new representation of
skeleton sequences for 3d action recognition. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), pages 4570–4579. 2017.
50
[11] Gers F. A. Schmidhuber J. & Cummins F. Learning to forget: Continual prediction
with lstm. In -, pages –. 1999.
[12] Cao Z. Simon T.Wei S. E. & Sheikh Y. Realtime multi-person 2d pose estimation
using part affinity fields. In CVPR, pages Vol. 1, No. 2, p. 7. 2017.
[13] Amer M. R. Xie D. Zhao M. Todorovic S. & Zhu S. C. Cost-sensitive topdown/
bottom-up inference for multiscale activity recognition. In European Conference
on Computer Vision, pages 187–200. 2012.
[14] Felzenszwalb P.F. Girshick R.B. McAllester D. Ramanan D. Object detection
with discriminatively trained part-based models. In IEEE Transactions on Pattern
Analysis and Machine Intelligence, page 1627–1645. 2010.
[15] Laptev I. Marszalek M. Schmid C. Rozenfeld B. Learning realistic human actions
from movies. In CVPR, pages –. 2008.
[16] Deng Z. Zhai M. Chen L. Liu Y. Muralidharan S. Roshtkhari M. J. & Mori
G. Deep structured models for group activity recognition. In arXiv, page
1506.04191. 2015.
[17] Deng J. DongW. Socher R. Li L. J. Li K. & Fei-Fei L. Imagenet: A large-scale hierarchical
image database. In Computer Vision and Pattern Recognition(CVPR),
pages 248–255. 2009.
[18] Yangqing Jia Evan Shelhamer Jeff Donahue Sergey Karayev Jonathan Long Ross
Girshick Sergio Guadarrama and Trevor Darrell. Caffe: Convolutional architecture
for fast feature embedding. In arXiv, page 1408.5093. 2014.
[19] Choi W. Shahid K. & Savarese S. Learning context for collective activity recognition.
In Computer Vision and Pattern Recognition (CVPR), pages 3273–3280.
2011.
51
[20] Toshev A. & Szegedy C. Deeppose: Human pose estimation via deep neural
networks. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 1653–1660. 2014.
[21] B. Sapp and B. Taskar. Modec: Multimodal decomposable models for human
pose estimation. In CVPR, pages –. 2013.
[22] S. Johnson and M. Everingham. Clustered pose and nonlinear appearance models
for human pose estimation. In BMVC, pages –. 2010.
[23] Chao Y. W. Liu Y. Liu X. Zeng H. & Deng J. Learning to detect human-object
interactions. In arXiv, page 1702.05448. 2017.
[24] R. Girshick. Fast r-cnn. In arXiv, page 1504.08083. (2015.
[25] Ren S. He K. Girshick R. & Sun J. Faster r-cnn: Towards real-time object detection
with region proposal networks. In Advances in neural information processing
systems, pages 91–99. 2015.
[26] https://keras.io/. In -, pages –. -.
[27] https://www.tensorflow.org/. In -, pages –. -.
[28] https://github.com/ildoonet/tf-pose-estimation. In -, pages – | tr_TR |
dc.identifier.uri | http://hdl.handle.net/11655/5552 | |
dc.description.abstract | The main problem focused in this thesis is inferring the group activity information from still images and classifying them. Activity information is often meaningful when analyzed based on the timeline. This is one of the reasons that complicates the problem. For example, if two people are not in the same activity but are standing side-by-side in a still image, they will most likely be classified to have the same activity. For reasons like this, classification of group activities in still images is a challenging problem. To overcome these difficulties, detection and classification of individual human from still image should be done with high accuracy. At the same time, this approach constitutes the first part of the thesis.
Deep learning techniques, which are yielding successful results in object detection and classification problems in recent years, are preferred methods to solve the problems dealt with in the scope of this thesis. It is important that the features should be well chosen to represent individual humans and groups in images. The success of deep learning techniques also provides more advantages than other methods at this point. These features can be automatically learned by the model in deep learning approaches.
There are additional challenges associated with choosing deep learning methods as a base problem solvers.
%When deep learning methods are chosen for problem solving, some other challenges occurred.
At the top of these difficulties is deciding a deep learning model that is suitable for problem. Since we are dealing with classification problems, Convolutional Neural Networks (CNN) \cite{paper1} have been chosen to be adapted for group activity recognition. As a model to be used in this method, ResNet \cite{paper2} architecture, which is preferred for complex classification problems in recent years, has been preferred. Another difficulty in the field of deep learning is that decide size and variety of dataset . SGD \cite{paper3} was preferred as a dataset in the thesis. The most challenging issue in the thesis is that in the preferred dataset \cite{paper3}, the singular human orientation and group activity classes are not able to increase the classification performance due to the lack of sufficient numbers and diversity of samples. In addition to group activity information, joint and segment informations were also used to overcome these difficulties. In order to merge these informations into the deep learning process, fusion processes were performed and then results were observed.
Within the thesis, it can be observed that the success of the detection and classification is achieved by the choice of the deep learning techniques. | tr_TR |
dc.description.tableofcontents | ÖZET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
TEŞEKKÜR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
İÇİNDEKİLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
1. GİRİŞ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. İLGİLİ ÇALIŞMALAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3. TEMEL BİLGİLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1. DERİN ÖĞRENME TEMELLERİ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. DENEKTAŞI VERİ KÜMESİ TEMELLERİ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4. YÖNTEM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1. İNSAN DURUŞ ve YÖNELİM BİLGİSİNİN SINIFLANDIRILMASI . . . . . . . . . . . . 19
4.1.1. Sabit Resim Üzerinden Tekil İnsan Tespitinin Yapılması....................................... 22
4.1.2. Tekil İnsan Bilgisinin Duruş Sınıfına Göre Sınıflandırılması ................................. 22
4.1.3. Tekil İnsan Bilgisinin Yönelim Sınıfına Göre Sınıflandırılması............................. 23
4.1.4. Deneysel Sonuçlar .................................................................................................. 24
4.1.5. Değerlendirme ........................................................................................................ 27
4.2. GRUP BİLGİSİNİN SINIFLANDIRILMASI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.1. Verilerin Hazırlanması ............................................................................................ 28
4.2.2. Sınıflandırma Süreci ............................................................................................... 33
4.2.3. Deneysel Sonuçlar .................................................................................................. 38
4.2.4. Değerlendirme ........................................................................................................ 44
5. YAZILIM ve KÜTÜPHANELER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6. SONUÇ & GELECEK ÇALIŞMALAR. . . . . . . . . . .. . 49
REFERANSLAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 | tr_TR |
dc.language.iso | tur | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Grup aktivitesi tanıma | tr_TR |
dc.subject | Derin öğrenme | |
dc.subject | İnce ayarlama | |
dc.subject | Sınıflandırma | |
dc.title | DERİN ÖĞRENME İLE GRUP HAREKETLERİNİN SABİT RESİM ÜZERİNDEN TANINMASI | tr_TR |
dc.title.alternative | RECOGNITION OF GROUP ACTIVITIES ON STILL IMAGES USING DEEP LEARNING | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Tez kapsamında odaklanılan temel problem, insana ait grup aktivite bilgilerinin sabit resimler üzerinden anlamlandırılması ve bu hareket bilgilerinin sınıflandırılmasıdır. Aktivite bilgilerinin çoğunlukla zaman çizelgesine bağlı olarak analiz edildiğinde anlamlı hale geliyor olması üstünde uğraşılan problemi zorlaştıran nedenlerin başında gelmektedir. Aynı aktivite içerisinde bulunmayan ancak görüntünün elde edildiği anda yan yana gelen iki insana ait durum bilgisi sabit görüntü üzerinden analiz edildiğinde büyük ihtimal ile aynı aktiviteye dahil olarak sınıflandırılacaktır. Üzerinde uğraşılan problemin bu ve benzer sebeplerden dolayı sahip olduğu zorlukların üstesinden gelebilmek adına sabit görüntüde bulunan tekil insan bilgilerinin yüksek doğrulukla görüntüden elde edilmesi ve bu bilgilerin yüksek doğrulukta sınıflandırılması büyük önem arz etmektedir.
Son yıllarda obje tespit ve sınıflandırma alanlarında başarılı sonuçlar üreten derin öğrenme teknikleri, tez kapsamında uğraşılan problemin başarısını artırmak için de tercih edilen yöntemlerin başında gelmektedir. Görüntü üzerinde bulunan insan ve insanların oluşturduğu grupların tespit ve sınıflandırılması aşamalarında insan ve grupları temsil eden özniteliklerin iyi seçilmiş olması önem arz etmektedir. Derin öğrenme tekniklerinin başarısı da bu aşamada diğer yöntemlere göre avantaj sağlamaktadır. Derin öğrenme modeline girdi olarak verilen eğitim kümesi üzerinde öğrenme süreci boyunca eğitim kümesinde sınıflandırılması istenilen objelere yönelik öznitelikler model tarafından otomatik olarak üretilebilmektedir.
Problem çözümüne yönelik olarak derin öğrenme yöntemleri seçildiğinde de bu yöntemlere ait başka zorluklar önümüze çıkmaktadır. Bunların en başında probleme uygun olan bir derin öğrenme modeli seçimi gelmektedir. Tez kapsamında uğraşılan problem, sınıflandırma temelli bir problem olduğundan dolayı derin öğrenme yöntemi olarak Evrişimli Sinir Ağları (CNN) \cite{paper1} tercih edilmiştir. Bu yöntemde kullanılacak olan model olarak da son yıllarda kompleks sınıflandırma problemleri için çokça tercih edilen ResNet \cite{paper2} mimarisi tercih edilmiştir. Derin öğrenme alanında karşılaşılan diğer bir zorluk da eğitim aşaması için tercih edilecek görüntü denektaşı veri kümelerinin büyüklüğünün ve çeşitliliğinin yüksek olması gerekliliğidir. Tez kapsamında da en çok zorlanılan konu, tercih edilen SGD \cite{paper3} denektaşı veri kümesinde, tekil insana ait yönelim ve grup aktivite sınıflarının yeterli sayı ve çeşitlilikte örnek içermemesinden kaynaklı sınıflandırma başarılarının daha yukarılara taşınamamasıdır. Bu zorluğun üstesinden gelebilmek adına grup aktivite bilgilerine ek olarak poz ve bölüt bilgileri de kullanılmıştır. Bu bilgilerin de derin öğrenme sürecine dahil olabilmeleri adına füzyon işlemleri gerçekleştirilmiş ve elde edilen sonuçlar gözlemlenmiştir.
Tez kapsamında derin öğrenme tekniklerinin tercih edilmesi ile derin olmayan diğer yöntemlere göre daha başarılı tespit ve sınıflandırma başarısının elde edildiği gözlemlenmiştir. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.contributor.authorID | 10219856 | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2018-12-26T10:43:17Z | |