dc.contributor.advisor | Kavafoğlu, Zümra | |
dc.contributor.author | Karşı, Tarık | |
dc.date.accessioned | 2021-01-12T11:28:59Z | |
dc.date.issued | 2020-12-16 | |
dc.date.submitted | 2020-11-20 | |
dc.identifier.uri | http://hdl.handle.net/11655/23268 | |
dc.description.abstract | Massively Multiplayer Online Role Playing Games (MMORPG) are very similar to real life problems since they are complex and partially observable. These games, which have many features such as trade, character improvement, item crafting, questing and player versus player (PvP) battle, have hosted many studies. It is also very suitable for developing and testing artificial intelligence algorithms in terms of the difficulty of the domain, its similarity to real life and abundance of data. In PvPs, the players need to take hundreds of real time actions and develop complex strategies in a partially observable environment. Therefore building an AI for PvPs in MMORPGs constitutes a difficult problem.
With reinforcement learning, a general AI can be developed that can make PvP in MMORPGs. But, designing a reward function manually for reinforcement learning problems in partially observable environments is quite a daunting task. Most of the existing work in the literature aim to accomplish reward shaping by learning from demonstrations or with some kind of human assistance like preferences or rankings. However, for most of the real world problems, it’s nearly impossible to attain such facilities, and even if they are available, they restrict the success of the agent to some human level. In this work, we propose a reward shaping method for PvP in MMORPGs without any demonstrations or human assistance, and compare it with
several manually designed reward functions. We compared manual reward shaping method, which use predefined rewards, with the MCTS reward shaping method, which only exploits the prediction characteristic of a simply crafted Monte Carlo Tree Search planner. PvP results for a single character type showed that MCTS method can be used for reward shaping. | tr_TR |
dc.language.iso | en | tr_TR |
dc.publisher | Bilişim Enstitüsü | tr_TR |
dc.rights | info:eu-repo/semantics/openAccess | tr_TR |
dc.rights | CC0 1.0 Universal | * |
dc.rights.uri | http://creativecommons.org/publicdomain/zero/1.0/ | * |
dc.subject | Artificial intelligence | tr_TR |
dc.subject | MMORPG | |
dc.subject | Monte carlo tree search | |
dc.subject | Reinforcement learning | |
dc.subject | Reward shaping | |
dc.subject.lcsh | Bilgisayar mühendisliği | tr_TR |
dc.title | Artıfıcıally Intellıgent Players
For Pvp In Mmorpgs | tr_TR |
dc.title.alternative | Mmorpg’lerde Pvp için
Yapay Akıllı Oyuncular | tr_TR |
dc.type | info:eu-repo/semantics/masterThesis | tr_TR |
dc.description.ozet | Çok oyunculu çevrimiçi rol yapma oyunları (MMORPG) karmaşık ve kısmen gözlemlenebilir olmaları açısından gerçek hayattaki problemlere çok benzerlik gösterirler. Ticaret, karakter geliştirme, eşya zanaati, görev yapma ve oyuncuya karşı oyuncu savaşı (PvP) gibi pek çok özelliğe sahip olan bu oyunlar birçok çalışmaya ev sahipliği yapmıştır. Alanın zorluğu, gerçek hayata benzerliği ve veri bolluğu yönünden yapay zeka algoritmaları geliştirmek ve test etmek için de çok uygundur. PvP'lerde, oyuncuların kısmen gözlemlenebilir bir ortamda yüzlerce gerçek zamanlı eylem gerçekleştirmesi ve karmaşık stratejiler geliştirmesi gerekir. Bu nedenle MMORPG'lerde PvP'ler için yapay zeka oluşturmak zor bir problemdir.
Pekiştirmeli öğrenme yöntemi ile MMORPG'lerde PvP yapabilen genel bir yapay zeka geliştirilebilir. Ancak, kısmen gözlemlenebilir ortamlarda pekiştirmeli öğrenme problemleri için manuel olarak bir ödül fonksiyonu tasarlamak oldukça zor bir iştir. Literatürdeki mevcut çalışmaların çoğu, örnek verilerden öğrenme veya insan yönlendirmesiyle ödül biçimlendirmeyi başarmayı amaçlamaktadır. Bununla birlikte, gerçek dünyadaki sorunların çoğu için, bu tür imkanlara ulaşmak neredeyse imkansızdır ve mevcut olsalar bile, yapay zekanın başarısını insan seviyesiyle sınırlarlar. Bu çalışmada, herhangi bir gösteri veya insan yardımı olmaksızın PvP için ödül şekillendirme yöntemi öneriyor ve bunu birkaç manuel tasarlanmış ödül yöntemi ile karşılaştırıyoruz. Önceden tanımlanmış ödülleri kullanan manuel ödül şekillendirme yöntemini, yalnızca basit bir şekilde hazırlanmış Monte Carlo Ağaç Arama planlayıcısının tahmin özelliğini kullanan MCTS ödül şekillendirme yöntemiyle karşılaştırdık. Tek bir karakter türü için yapılan PvP sonuçları, MCTS yönteminin ödül şekillendirme için kullanılabileceğini gösterdi. | tr_TR |
dc.contributor.department | Bilgisayar Grafiği | tr_TR |
dc.embargo.terms | Acik erisim | tr_TR |
dc.embargo.lift | 2021-01-12T11:28:59Z | |
dc.funding | Yok | tr_TR |