Basit öğe kaydını göster

dc.contributor.advisorİKİZLER CİNBİŞ, NAZLI
dc.contributor.authorATVAR, ANIL
dc.date.accessioned2018-12-26T10:43:17Z
dc.date.issued2018
dc.date.submitted2018
dc.identifier.citation[1]Krizhevsky A. Sutskever I. & Hinton G. E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105. 2012. [2] He K. Zhang X. Ren S. & Sun J. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778. 2016. [3] Choi W. Chao Y. W. Pantofaru C. & Savarese S. Discovering groups of people in images. In European conference on computer vision, pages 417–433. 2014. [4] Y. Wang J. Song Y. Leung T. Rosenberg C. Wang J. Philbin J. & Wu. Learning fine-grained image similarity with deep ranking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1386–1393. 2014. [5] Bourdev L. & Malik J. Poselets: Body part detectors trained using 3d human pose annotations. In IEEE 12th International Conference, pages 1365–1372. 2009. [6] Singh S. Gupta A. & Efros A. A. Unsupervised discovery of mid-level discriminative patches. In Computer Vision–ECCV, pages 73–86. 2012. [7] Dalal N. & Triggs B. Histograms of oriented gradients for human detection. In IEEE Computer Society Conference, pages 886–893. 2005. [8] He K. Gkioxari G. Dollar P. & Girshick R. Mask r-cnn. In Computer Vision (ICCV), pages 2980–2988. 2017. [9] Chang C. C. & Lin C. J. Libsvm: a library for support vector machines. In ACM transactions on intelligent systems and technology, pages –. 2011. [10] Ke Q. Bennamoun M. An S. Sohel F. & Boussaid F. A new representation of skeleton sequences for 3d action recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4570–4579. 2017. 50 [11] Gers F. A. Schmidhuber J. & Cummins F. Learning to forget: Continual prediction with lstm. In -, pages –. 1999. [12] Cao Z. Simon T.Wei S. E. & Sheikh Y. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, pages Vol. 1, No. 2, p. 7. 2017. [13] Amer M. R. Xie D. Zhao M. Todorovic S. & Zhu S. C. Cost-sensitive topdown/ bottom-up inference for multiscale activity recognition. In European Conference on Computer Vision, pages 187–200. 2012. [14] Felzenszwalb P.F. Girshick R.B. McAllester D. Ramanan D. Object detection with discriminatively trained part-based models. In IEEE Transactions on Pattern Analysis and Machine Intelligence, page 1627–1645. 2010. [15] Laptev I. Marszalek M. Schmid C. Rozenfeld B. Learning realistic human actions from movies. In CVPR, pages –. 2008. [16] Deng Z. Zhai M. Chen L. Liu Y. Muralidharan S. Roshtkhari M. J. & Mori G. Deep structured models for group activity recognition. In arXiv, page 1506.04191. 2015. [17] Deng J. DongW. Socher R. Li L. J. Li K. & Fei-Fei L. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition(CVPR), pages 248–255. 2009. [18] Yangqing Jia Evan Shelhamer Jeff Donahue Sergey Karayev Jonathan Long Ross Girshick Sergio Guadarrama and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In arXiv, page 1408.5093. 2014. [19] Choi W. Shahid K. & Savarese S. Learning context for collective activity recognition. In Computer Vision and Pattern Recognition (CVPR), pages 3273–3280. 2011. 51 [20] Toshev A. & Szegedy C. Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1653–1660. 2014. [21] B. Sapp and B. Taskar. Modec: Multimodal decomposable models for human pose estimation. In CVPR, pages –. 2013. [22] S. Johnson and M. Everingham. Clustered pose and nonlinear appearance models for human pose estimation. In BMVC, pages –. 2010. [23] Chao Y. W. Liu Y. Liu X. Zeng H. & Deng J. Learning to detect human-object interactions. In arXiv, page 1702.05448. 2017. [24] R. Girshick. Fast r-cnn. In arXiv, page 1504.08083. (2015. [25] Ren S. He K. Girshick R. & Sun J. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99. 2015. [26] https://keras.io/. In -, pages –. -. [27] https://www.tensorflow.org/. In -, pages –. -. [28] https://github.com/ildoonet/tf-pose-estimation. In -, pages –tr_TR
dc.identifier.urihttp://hdl.handle.net/11655/5552
dc.description.abstractThe main problem focused in this thesis is inferring the group activity information from still images and classifying them. Activity information is often meaningful when analyzed based on the timeline. This is one of the reasons that complicates the problem. For example, if two people are not in the same activity but are standing side-by-side in a still image, they will most likely be classified to have the same activity. For reasons like this, classification of group activities in still images is a challenging problem. To overcome these difficulties, detection and classification of individual human from still image should be done with high accuracy. At the same time, this approach constitutes the first part of the thesis. Deep learning techniques, which are yielding successful results in object detection and classification problems in recent years, are preferred methods to solve the problems dealt with in the scope of this thesis. It is important that the features should be well chosen to represent individual humans and groups in images. The success of deep learning techniques also provides more advantages than other methods at this point. These features can be automatically learned by the model in deep learning approaches. There are additional challenges associated with choosing deep learning methods as a base problem solvers. %When deep learning methods are chosen for problem solving, some other challenges occurred. At the top of these difficulties is deciding a deep learning model that is suitable for problem. Since we are dealing with classification problems, Convolutional Neural Networks (CNN) \cite{paper1} have been chosen to be adapted for group activity recognition. As a model to be used in this method, ResNet \cite{paper2} architecture, which is preferred for complex classification problems in recent years, has been preferred. Another difficulty in the field of deep learning is that decide size and variety of dataset . SGD \cite{paper3} was preferred as a dataset in the thesis. The most challenging issue in the thesis is that in the preferred dataset \cite{paper3}, the singular human orientation and group activity classes are not able to increase the classification performance due to the lack of sufficient numbers and diversity of samples. In addition to group activity information, joint and segment informations were also used to overcome these difficulties. In order to merge these informations into the deep learning process, fusion processes were performed and then results were observed. Within the thesis, it can be observed that the success of the detection and classification is achieved by the choice of the deep learning techniques.tr_TR
dc.description.tableofcontentsÖZET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii TEŞEKKÜR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v İÇİNDEKİLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi 1. GİRİŞ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2. İLGİLİ ÇALIŞMALAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3. TEMEL BİLGİLER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1. DERİN ÖĞRENME TEMELLERİ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2. DENEKTAŞI VERİ KÜMESİ TEMELLERİ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4. YÖNTEM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.1. İNSAN DURUŞ ve YÖNELİM BİLGİSİNİN SINIFLANDIRILMASI . . . . . . . . . . . . 19 4.1.1. Sabit Resim Üzerinden Tekil İnsan Tespitinin Yapılması....................................... 22 4.1.2. Tekil İnsan Bilgisinin Duruş Sınıfına Göre Sınıflandırılması ................................. 22 4.1.3. Tekil İnsan Bilgisinin Yönelim Sınıfına Göre Sınıflandırılması............................. 23 4.1.4. Deneysel Sonuçlar .................................................................................................. 24 4.1.5. Değerlendirme ........................................................................................................ 27 4.2. GRUP BİLGİSİNİN SINIFLANDIRILMASI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.1. Verilerin Hazırlanması ............................................................................................ 28 4.2.2. Sınıflandırma Süreci ............................................................................................... 33 4.2.3. Deneysel Sonuçlar .................................................................................................. 38 4.2.4. Değerlendirme ........................................................................................................ 44 5. YAZILIM ve KÜTÜPHANELER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 6. SONUÇ & GELECEK ÇALIŞMALAR. . . . . . . . . . .. . 49 REFERANSLAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50tr_TR
dc.language.isoturtr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.rightsinfo:eu-repo/semantics/openAccesstr_TR
dc.subjectGrup aktivitesi tanımatr_TR
dc.subjectDerin öğrenme
dc.subjectİnce ayarlama
dc.subjectSınıflandırma
dc.titleDERİN ÖĞRENME İLE GRUP HAREKETLERİNİN SABİT RESİM ÜZERİNDEN TANINMASItr_TR
dc.title.alternativeRECOGNITION OF GROUP ACTIVITIES ON STILL IMAGES USING DEEP LEARNINGtr_TR
dc.typeinfo:eu-repo/semantics/masterThesistr_TR
dc.description.ozetTez kapsamında odaklanılan temel problem, insana ait grup aktivite bilgilerinin sabit resimler üzerinden anlamlandırılması ve bu hareket bilgilerinin sınıflandırılmasıdır. Aktivite bilgilerinin çoğunlukla zaman çizelgesine bağlı olarak analiz edildiğinde anlamlı hale geliyor olması üstünde uğraşılan problemi zorlaştıran nedenlerin başında gelmektedir. Aynı aktivite içerisinde bulunmayan ancak görüntünün elde edildiği anda yan yana gelen iki insana ait durum bilgisi sabit görüntü üzerinden analiz edildiğinde büyük ihtimal ile aynı aktiviteye dahil olarak sınıflandırılacaktır. Üzerinde uğraşılan problemin bu ve benzer sebeplerden dolayı sahip olduğu zorlukların üstesinden gelebilmek adına sabit görüntüde bulunan tekil insan bilgilerinin yüksek doğrulukla görüntüden elde edilmesi ve bu bilgilerin yüksek doğrulukta sınıflandırılması büyük önem arz etmektedir. Son yıllarda obje tespit ve sınıflandırma alanlarında başarılı sonuçlar üreten derin öğrenme teknikleri, tez kapsamında uğraşılan problemin başarısını artırmak için de tercih edilen yöntemlerin başında gelmektedir. Görüntü üzerinde bulunan insan ve insanların oluşturduğu grupların tespit ve sınıflandırılması aşamalarında insan ve grupları temsil eden özniteliklerin iyi seçilmiş olması önem arz etmektedir. Derin öğrenme tekniklerinin başarısı da bu aşamada diğer yöntemlere göre avantaj sağlamaktadır. Derin öğrenme modeline girdi olarak verilen eğitim kümesi üzerinde öğrenme süreci boyunca eğitim kümesinde sınıflandırılması istenilen objelere yönelik öznitelikler model tarafından otomatik olarak üretilebilmektedir. Problem çözümüne yönelik olarak derin öğrenme yöntemleri seçildiğinde de bu yöntemlere ait başka zorluklar önümüze çıkmaktadır. Bunların en başında probleme uygun olan bir derin öğrenme modeli seçimi gelmektedir. Tez kapsamında uğraşılan problem, sınıflandırma temelli bir problem olduğundan dolayı derin öğrenme yöntemi olarak Evrişimli Sinir Ağları (CNN) \cite{paper1} tercih edilmiştir. Bu yöntemde kullanılacak olan model olarak da son yıllarda kompleks sınıflandırma problemleri için çokça tercih edilen ResNet \cite{paper2} mimarisi tercih edilmiştir. Derin öğrenme alanında karşılaşılan diğer bir zorluk da eğitim aşaması için tercih edilecek görüntü denektaşı veri kümelerinin büyüklüğünün ve çeşitliliğinin yüksek olması gerekliliğidir. Tez kapsamında da en çok zorlanılan konu, tercih edilen SGD \cite{paper3} denektaşı veri kümesinde, tekil insana ait yönelim ve grup aktivite sınıflarının yeterli sayı ve çeşitlilikte örnek içermemesinden kaynaklı sınıflandırma başarılarının daha yukarılara taşınamamasıdır. Bu zorluğun üstesinden gelebilmek adına grup aktivite bilgilerine ek olarak poz ve bölüt bilgileri de kullanılmıştır. Bu bilgilerin de derin öğrenme sürecine dahil olabilmeleri adına füzyon işlemleri gerçekleştirilmiş ve elde edilen sonuçlar gözlemlenmiştir. Tez kapsamında derin öğrenme tekniklerinin tercih edilmesi ile derin olmayan diğer yöntemlere göre daha başarılı tespit ve sınıflandırma başarısının elde edildiği gözlemlenmiştir.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
dc.contributor.authorID10219856tr_TR
dc.embargo.termsAcik erisimtr_TR
dc.embargo.lift2018-12-26T10:43:17Z


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster