PRIMENA UČENJA USLOVLJAVANJEM NA OBUČAVANJE AGENTA ZA AUTONOMNO KRETANJE U OKRUŽENJU CarRacing-v0

  • Novica Šarenac
Ključne reči: učenje uslovljavanjem, CarRacing-v0, Deep Q-Network, Advantage Actor Critic, Asynchronous Advantage Actor Critic

Apstrakt

U radu je opisan trening i evaluacija agenta za autonomno kretanje u OpenAI Gym okruženju CarRacing-v0. Okruženje predstavlja stazu za vožnju automobila iz ptičije perspektive. Za treniranje agenta korištene su tehnike učenja uslovljavanjem. Poređene su osobine algoritama u pogledu rezultata postignutih u okruženju, dužine treniranja i implementacionih detalja. Implementirani i poređeni algoritmi su: Deep Q-Network (DQN), Advantage Actor Critic (A2C) i Asynchronous Advantage Actor Critic (A3C).

Reference

[1] V. Mnih, K. Kavukcouoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, D. Hassabis „Human-level control through deep reinforcement learning“
[2] V. Mnih, A.P. Badia, M. Mirza, A. Graves, T. Harley, T.P. Lillicrap, D. Silver, K. Kavukcouglu „Asynchronous Methods for Deep Reinforcement Learning“
[3] https://gym.openai.com/envs/CarRacing-v0/ [pristupljeno 7.9.2019.]
[4] S. Ruder „An overview of gradient descent optimization algorithms“
[5] D. P. Kingma, J. L. Ba „Adam: A Method for Stochastic Optimization“
Objavljeno
2019-12-21
Sekcija
Elektrotehničko i računarsko inženjerstvo