dc.contributor.advisorEfe, Mehmet Önder
dc.contributor.authorErtekin, Mehmet
dc.identifier.citationErtekin M. (2021). Benchmarking Hindsight Experience Replay Reinforcement Learning Methods On Vehicle Parking Environment [master’s thesis]. Hacettepe University.tr_TR
dc.description.abstractIn the age we live in, both passenger transportation and freight transportation are of great importance. Parking the vehicles when they reach the target point is challenging for both humans and automatic parking systems. Artificial intelligence-based methods are used for this task where traditional control methods are insufficient. A common strategy for solving this kind of problem is planning a trajectory using heuristic search algorithms and following that trajectory using traditional control methods. On the other hand, reinforcement learning algorithms are developing algorithms that can be used in solving this kind of problem. HER (Hindsight Experience Replay) method is a wrapper algorithm that increases unsuccessful attempts when used with reinforcement learning algorithms. In this thesis, Twin Delayed Policy Gradient (TD3), Deep Deterministic Policy Gradient (DDPG), Soft Actor-Critic (SAC) reinforcement learning algorithms are studied. The comparison of these algorithms, which have been compared with their raw form on different problems in the literature, with the HER algorithm in the autonomous parking problem has contributed to the literature. In the designed working environment, an artificial intelligence control system was designed with HER supported reinforcement learning methods on a vehicle model whose throttle and steering commands are constantly controlled in space. The designed control system controls the vehicle and enables it to park at the target point. It has been shown by the studies that the studied reinforcement learning methods can solve the autonomous parking problem, and the algorithm performances are compared. Experiments have shown that the TD3 algorithm, which was launched as an improved version of the DDPG algorithm, could not perform better than the DDPG algorithm when used in the autonomous parking problem with HER. The most successful of the algorithms used in this study was the SAC algorithm.tr_TR
dc.publisherFen Bilimleri Enstitüsütr_TR
dc.subjectReinforcement learningtr_TR
dc.subject.lcshBilgi kaynaklarıtr_TR
dc.titleBenchmarkıng Hındsıght Experıence Replay Reınforcement Learnıng Methods On Vehıcle Parkıng Envıronmenttr_TR
dc.title.alternativeDeneyim Tekrarlı Pekiştirmeli Öğrenme Yöntemlerinin Otonom Park Probleminde Kıyaslanmasıtr_TR
dc.description.ozetİçinde bulunduğumuz çağda gerek yolcu taşımacılığı gerekse yük taşımacılığı büyük önem taşımaktadır. Araçların hedef noktaya ulaştıklarında park etmeleri hem insanlar için hem otomatik park sistemleri için oldukça zorlayıcı bir görevdir. Geleneksel kontrol yöntemlerinin yetersiz kaldığı bu görev için yapay zekâ tabanlı yöntemlerden yardım alınmaktadır. Bu tarz problemlerin çözümü için yaygın olarak kullanılan yöntem sezgisel arama algoritmaları ile yol planlayıp geleneksel kontrol yöntemleri ile planlanan yolu takip etmektir. Diğer taraftan pekiştirmeli öğrenme algoritmaları gelişmekte olan ve bu tarz problemlerin çözümünde kullanılabilecek yapay zekâ algoritmalarıdır. HER (İng. Hindsight Experience Replay) yöntemi ise pekiştirmeli öğrenme algoritmaları ile kullanıldığında başarısız denemelerindeki performansı arttıran sarmal (İng. wrapper) algoritmadır. Bu tezde TD3 (İng. Twin Delayed Policy Gradient), DDPG (İng. Deep Deterministic Policy Gradient), SAC (İng. Soft Actor Critic) pekiştirmeli öğrenme algoritmaları çalışılmıştır. Literatürde ham halleri ile farklı problemler üzerinde kıyaslaması yapılmış bu algoritmaların HER algoritması ile otonom park probleminde kıyaslanması literatüre katkı sağlamıştır. Tasarlanan çalışma ortamında sürekli uzayda (İng. continuous space) gaz ve direksiyon komutları kontrol edilen bir araç modeli üzerinde HER destekli pekiştirmeli öğrenme yöntemleri ile yapay zekâ kontrol sistemi tasarlanmıştır. Tasarlanan kontrol sistemi aracı kontrol ederek hedef noktaya park etmesini sağlamaktadır. Yapılan çalışmalarla kullanılan pekiştirmeli öğrenme yöntemlerinin otonom park problemini çözebileceği gösterilmiş ve algoritma performansları kıyaslanmıştır. Yapılan deneyler göstermiştir ki, DDPG algoritmasının geliştirilmiş versiyonu olarak lanse edilen TD3 algoritması HER ile otonom park probleminde kullanıldığında DDPG algoritmasından iyi bir performans sergileyememiştir. Bu çalışmada kullanılan algoritmaların en başarılısı SAC algoritması çıkmıştır.tr_TR
dc.contributor.departmentBilgisayar Mühendisliğitr_TR
