dc.contributor.advisor | Erkent, Özgür | |
dc.contributor.author | Doğan, Devran | |
dc.date.accessioned | 2024-10-18T07:24:49Z | |
dc.date.issued | 2024 | |
dc.date.submitted | 2024-05-29 | |
dc.identifier.uri | https://hdl.handle.net/11655/36039 | |
dc.description.abstract | In our study we wanted to see if there is any way we can make the training process of
a DRL agent much easier, and optimize the success rate in the given tasks. In order to
increase the speed of convergence we adopted curriculum learning techniques. Since the
importance of the automated vehicles are increasing day by day, and the capabilities such
as target search in unknown environments are gaining more attention, that brings us to
the importance of path generation, and the exploration of the environment, when human
life is at risk or if humans exist in the environment. As we know in complex real-world
applications, safety and risk awareness become unavoidable aspects. We used risk-aware
systems in unknown environments for testing the model’s robustness in localization and path
generation to observe the performance under the situations that are not encountered during
training. Systems that are not risk-aware may lead to suboptimal decisions that will lead to
failures. These explorations require high computation time. We needed to make improved
risk-aware decision making to train a risk-sensitive policy that can have high performance
and adaptability to required risk. And can navigate in collision free manner, while acting
among static and dynamic obstacles.
DRL algorithms showed their capabilities, in learning also easy to compute reward signals.
But they require long training times that makes them limited for real-world applications.
Therefore, we used curriculum learning and DRL algorithms to build a goal-oriented model.
By doing that we achieved faster convergence, search time for the targets is reduced for the
same amount of training episodes. Collision rate is reduced. In the training process we
wanted to understand in which order the training becomes really hard. For that reason we
injected Gaussian noise to neural network parameters in different forms, we used different
environments, delayed the sensory information to see the agents behavior, prediction success
and also tested with only static obstacles, with dynamic obstacles, and finally we added
both of the obstacles together. Many of the environments were partially observable, we also
tested in fully observable environments as well, but we saw that DRL agents can solve these
environments easily.
In order to make this study and measure the efficiency, we build a 2D simulation environment.
The performance is verified with results of the simulation analysis. We measured the
efficiency of the agent, by collecting the total hit ratio metrics. Experiments show the agent
with curriculum learning reaches a better success rate, is efficient at control, performs better
under noisy conditions, can adapt faster to unknown environments. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Fen Bilimleri Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.subject | Deep Reinforcement Learning | tr_TR |
dc.subject | Target Search | tr_TR |
dc.subject | Risk-sensitive Control | tr_TR |
dc.subject | Motion and Path Planning | tr_TR |
dc.subject | Autonomous Driving | tr_TR |
dc.subject | Uncertainty Quantification | tr_TR |
dc.subject | Partially Observable | tr_TR |
dc.subject | Automatic Vehicle Control | tr_TR |
dc.subject | Q-learning | tr_TR |
dc.subject | Obstacle and Collision Avoidance | tr_TR |
dc.subject | Unknown Environment Exploration | tr_TR |
dc.subject | Risk-aware | tr_TR |
dc.subject | Trajectory Planning | tr_TR |
dc.subject.lcsh | Bilgisayar mühendisliği | tr_TR |
dc.title | Curriculum Learning for Robot Navigation in Dynamic Environments with Uncertainties | tr_TR |
dc.title.alternative | Belirsiz Di̇nami̇k Ortamlarda Robot Seyrüseferi̇ içi̇n Müfredatlı Öğrenme | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Çalışmamızda, Derin Pekiştirmeli Öğrenme (DRL) ajanlarının eğitim sürecini daha da
kolaylaştırmanın ve verilen görevlerde başarı oranını optimize etmenin bir yolunu bulmak
istedik. Yakınsama hızını artırmak için müfredat öğrenme tekniklerini benimsedik. Otomatik
araçların önemi her geçen gün artmakta ve bilinmeyen ortamlarda hedef arama gibi
yetenekler daha fazla ilgi görmektedir. Bu da bizi, insan hayatının risk altında olduğu
veya insanların bulunduğu ortamlarda hedef aramanın ve rota oluşturmanın ne kadar önemli
olduğuna getiriyor. Bildiğimiz üzere karmaşık gerçek dünya uygulamalarında, güvenlik
ve risk farkındalığı kaçınılmaz öneme sahiptir. Risk bilincine sahip sistemleri, bilinmeyen
farklı ortamlarda, modelin yer belirlemede ve rota oluşturmada güvenilirliliğini test etmek
için kullandık. Ayrıca eğitim sırasında karşılaşılmayan durumlarda modelin performansını
görmek için de kullandık. Risk bilincine sahip olmayan sistemler, başarısızlıklara yol açacak
optimal olmayan kararların alınmasına yol açabilir. Bu rota oluşturma çabaları yüksek
hesaplama süresi gerektirir. Çarpışmasız bir şekilde, statik ve dinamik engeller arasında
hareket edebilen, istenilen risk düzeyine, yüksek performans ve uyum yeteneğine sahip riske
duyarlı, risk farkındalığının artırıldığı karar verme süreçlerini geliştirmek zorundaydık. DRL
algoritmaları, öğrenme ve ödül sinyallerini hesaplama konusunda yeteneklerini gösterdiler.
Ancak, uzun eğitim süreleri gerektirmeleri nedeniyle gerçek dünya uygulamaları için sınırlı
uygulama alanına sahipler. Bu nedenle bizde Müfredat öğrenme ve DRL algoritmalarını
kullanarak hedef odaklı bir model oluşturduk. Bunu yaparak daha hızlı yakınsama elde
ettik, hedef arama süresini aynı miktardaki eğitim sayısı içerisinde azalttık. Çarpışma
oranı azaldı. Eğitim sürecinde eğitimin hangi sırayla gerçekten zorlaştığını anlayabilmek
adına, farklı yöntemlerle yapay ağ parametrelerine gauss gürültüsü enjekte ettik, farklı
ortamlar kullandık, ajanın davranışını, tahmin başarısını görmek için sensör bilgilerini
geciktirdik ve sadece statik engeller kullanarak, dinamik engeller kullanarak ve son olarak
her iki engeli birden kullanarak sistemi test ettik. Simülasyon ortamlarının çoğu kısmen
gözlemlenebilirken, tamamen gözlemlenebilir ortamlarda da sistemi test ettik, ancak DRL
ajanlarının bu ortamları kolayca çözebildiğini gördük.
Bu çalışmayı yapabilmek ve verimliliğini ölçmebilmek için 2 boyutlu bir simülasyon
ortamı oluşturduk. Performansı, simülasyon sonuçlarının analizi ile doğrulandı. Ajanın
verimliliğini toplam çarpma oranı metrikleri ile ölçtük. Deneyler, müfredat öğrenme yöntemi
ile eğitilmiş ajanın daha iyi başarı oranına ulaştığını, daha iyi kontrol sağladığını, gürültülü
koşullar altında daha iyi performans gösterdiğini ve bilinmeyen ortamlara daha hızlı uyum
sağlayabildiğini göstermektedir. | tr_TR |
dc.contributor.department | Bilgisayar Mühendisliği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2024-10-18T07:24:49Z | |
dc.funding | Yok | tr_TR |