Усложнение посредством постепенного вовлечения и предоставления вознаграждения в глубоком обучении с подкреплением

Е. B. Рулько

doi:10.21122/2309-4923-2024-4-13-20

Усложнение посредством постепенного вовлечения и предоставления вознаграждения в глубоком обучении с подкреплением

Е. B. Рулько

https://doi.org/10.21122/2309-4923-2024-4-13-20

Полный текст:

PDF (Eng)

сгенерировать QR код

Аннотация

Тренировка нейронной сети, в рамках задач обучения с подкреплением, имеющей достаточную вычислительную емкость для решения сложных задач достаточно проблематична. В реальной жизни процесс решения задач требует системы знаний, где процесс изучения более сложных навыков основывается на использовании уже имеющихся. Аналогично, в ходе биологической эволюции, новые формы жизни базируются на достигнутом на предыдущем этапе уровне структурной сложности. Используя данные идеи, в настоящей работе предложены способы увеличения сложности архитектуры нейронных сетей, в частности способ тренировки сети с меньшем рецептивным полем и использованием натренированных весов в качестве отправной точки для более сложных сетей через постепенное вовлечение некоторых частей, а также способ предполагающий использование более простой сети с целью предоставления вознаграждения для более сложной. Это позволяет получить лучшую производительность в конкретном описанном примере, использующем Q-обучение, по сравнению со сценариями, когда сеть пытается использовать больший вектор входной информации с нуля.

Ключевые слова

глубокое обучение с подкреплением, Q-обучение, обучение по куррикулумому, дистилляционная модель, формирование вознаграждения в обучение с подкреплением

Об авторе

Е. B. Рулько

Военная академия Республики Беларусь
Беларусь
Рулько Евгений Викторович, кандидат технических наук, доцент, начальник научно-исследовательской лаборатории моделирования военных действий
г. Минск

Список литературы

1. Zhuangdi Zhu et al. Transfer Learning in Deep Reinforcement Learning: A Survey. 2023. arXiv: 2009.07888.

2. Petru Soviany et al. Curriculum Learning: A Survey. 2022. arXiv: 2101.10382.

3. Vassil Atanassov et al. Curriculum-Based Rein-forcement Learning for Quadrupedal Jumping: A Reference-free Design. 2024. arXiv: 2401.16337.

4. Yash J. Patel et al. Curriculum reinforcement learning for quantum architecture search under hardware errors. 2024. arXiv: 2402.03500.

5. David Hoeller et al. ANYmal Parkour: Learning Agile Navigation for Quadrupedal Robots. 2023. arXiv: 2306.14874.

6. Ken Caluwaerts et al. Barkour: Benchmarking Animal-level Agility with Quadruped Robots. 2023. arXiv: 2305.14654.

7. Andrei A. Rusu et al. Progressive Neural Networks. 2022. arXiv: 1606.04671.

8. Enric Boix-Adsera. Towards a theory of model distillation. 2024. arXiv: 2403.09053.

9. Timo Kaufmann et al. A Survey of Reinforcement Learning from Human Feedback. 2024. arXiv: 2312. 14925 [cs.LG]. URL: https://arxiv.org/abs/2312.14925..

10. E. Rulko. Complexification Through Gradual Involvement in Deep Reinforcement Learning. https://github.com/Eugene1533/snake-aipytorch-complexification. 2024.

11. P. Loeber. Reinforcement Learning With PyTorch and Pygame. https : / / github . com / patrickloeber/snake-aipytorch.2021.

Рецензия

Для цитирования:

Рулько Е.B. Усложнение посредством постепенного вовлечения и предоставления вознаграждения в глубоком обучении с подкреплением. Системный анализ и прикладная информатика. 2024;(4):13-20. https://doi.org/10.21122/2309-4923-2024-4-13-20

For citation:

Rulko, E.V. Complexification through gradual involvement and reward Providing in deep reinforcement learning. «System analysis and applied information science». 2024;(4):13-20. https://doi.org/10.21122/2309-4923-2024-4-13-20

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2309-4923 (Print)
ISSN 2414-0481 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Системный анализ и прикладная информатика

Усложнение посредством постепенного вовлечения и предоставления вознаграждения в глубоком обучении с подкреплением

Полный текст:

Аннотация

Ключевые слова

Об авторе

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов