Preview

Усложнение посредством постепенного вовлечения и предоставления вознаграждения в глубоком обучении с подкреплением

https://doi.org/10.21122/2309-4923-2024-4-13-20

Аннотация

Тренировка нейронной сети, в рамках задач обучения с подкреплением, имеющей достаточную вычислительную емкость для решения сложных задач достаточно проблематична. В реальной жизни процесс решения задач требует системы знаний, где процесс изучения более сложных навыков основывается на использовании уже имеющихся. Аналогично, в ходе биологической эволюции, новые формы жизни базируются на достигнутом на предыдущем этапе уровне структурной сложности. Используя данные идеи, в настоящей работе предложены способы увеличения сложности архитектуры нейронных сетей, в частности способ тренировки сети с меньшем рецептивным полем и использованием натренированных весов в качестве отправной точки для более сложных сетей через постепенное вовлечение некоторых частей, а также способ предполагающий использование более простой сети с целью предоставления вознаграждения для более сложной. Это позволяет получить лучшую производительность в конкретном описанном примере, использующем Q-обучение, по сравнению со сценариями, когда сеть пытается использовать больший вектор входной информации с нуля.

Об авторе

Е. B. Рулько
Военная академия Республики Беларусь
Беларусь
Рулько Евгений Викторович, кандидат технических наук, доцент, начальник научно-исследовательской лаборатории моделирования военных действий
г. Минск


Список литературы

1. Zhuangdi Zhu et al. Transfer Learning in Deep Reinforcement Learning: A Survey. 2023. arXiv: 2009.07888.

2. Petru Soviany et al. Curriculum Learning: A Survey. 2022. arXiv: 2101.10382.

3. Vassil Atanassov et al. Curriculum-Based Rein-forcement Learning for Quadrupedal Jumping: A Reference-free Design. 2024. arXiv: 2401.16337.

4. Yash J. Patel et al. Curriculum reinforcement learning for quantum architecture search under hardware errors. 2024. arXiv: 2402.03500.

5. David Hoeller et al. ANYmal Parkour: Learning Agile Navigation for Quadrupedal Robots. 2023. arXiv: 2306.14874.

6. Ken Caluwaerts et al. Barkour: Benchmarking Animal-level Agility with Quadruped Robots. 2023. arXiv: 2305.14654.

7. Andrei A. Rusu et al. Progressive Neural Networks. 2022. arXiv: 1606.04671.

8. Enric Boix-Adsera. Towards a theory of model distillation. 2024. arXiv: 2403.09053.

9. Timo Kaufmann et al. A Survey of Reinforcement Learning from Human Feedback. 2024. arXiv: 2312. 14925 [cs.LG]. URL: https://arxiv.org/abs/2312.14925..

10. E. Rulko. Complexification Through Gradual Involvement in Deep Reinforcement Learning. https://github.com/Eugene1533/snake-aipytorch-complexification. 2024.

11. P. Loeber. Reinforcement Learning With PyTorch and Pygame. https : / / github . com / patrickloeber/snake-aipytorch.2021.


Рецензия

Для цитирования:


Рулько Е.B. Усложнение посредством постепенного вовлечения и предоставления вознаграждения в глубоком обучении с подкреплением. Системный анализ и прикладная информатика. 2024;(4):13-20. https://doi.org/10.21122/2309-4923-2024-4-13-20

For citation:


Rulko, E.V. Complexification through gradual involvement and reward Providing in deep reinforcement learning. «System analysis and applied information science». 2024;(4):13-20. https://doi.org/10.21122/2309-4923-2024-4-13-20

Просмотров: 478


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2309-4923 (Print)
ISSN 2414-0481 (Online)