ПРОJЕКТОВАЊЕ АДАПТИВНИХ РЕГУЛАТОРА ПРИМЕНОМ ППО АЛГОРИТМА УПОТРЕБОМ ПРОГРАМСКОГ ПАКЕТА МАТЛАБ
Ključne reči:
PPO, агент, регулатор
Apstrakt
У овом раду истражена jе могућност употребе учења потркепљењем, конкретно Proximal Policy Optimization алгоритма, за проблеме управљања континуалним динамичким системима. Изабрано jе неколико репрезентативних, линеарних и нелинеарних система са континуалном динамиком, а за решење проблема управљања, трениран jе одговараjући агент, и то користећи MATLAB-ово софтверско окружење Reinforcement Learning Designer. За приказ резултата и симулациjу, коришћен jе Simulink.
Reference
[1] Richard S. Sutton, Andrew G. Barto “Reinforcement Learning: An Introduction, Second edition”, Bradford Book, The MIT Press, Cambridge, Massachusetts, London, England, 2014.-2015.
[2] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov, “Proximal Policy Optimization Algorithms”, https://arxiv.org/ abs/1707.06347, 2017.
[3] John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, Pieter Abbeel, “High-Dimensional Continuous Control Using Generalized Advantage Estimation”, ICLR, 2016.
[4] Nai-Chieh Huang, Ping-Chun Hsieh, Kuo- Hao Ho, I-Chen Wu “PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clippin”, Department of Computer Science, National Yang Ming Chiao Tung University, Hsinchu, Taiwan, https://arxiv.org/abs/2312.12065, 2024.
[5] Wouter van Heeswijk, “Policy Gradients In Reinforcement Learning Explained” Medium, 2022.
[2] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov, “Proximal Policy Optimization Algorithms”, https://arxiv.org/ abs/1707.06347, 2017.
[3] John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, Pieter Abbeel, “High-Dimensional Continuous Control Using Generalized Advantage Estimation”, ICLR, 2016.
[4] Nai-Chieh Huang, Ping-Chun Hsieh, Kuo- Hao Ho, I-Chen Wu “PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clippin”, Department of Computer Science, National Yang Ming Chiao Tung University, Hsinchu, Taiwan, https://arxiv.org/abs/2312.12065, 2024.
[5] Wouter van Heeswijk, “Policy Gradients In Reinforcement Learning Explained” Medium, 2022.
Objavljeno
2025-04-04
Sekcija
Elektrotehničko i računarsko inženjerstvo