Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением (reinforcement learning, RL) привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах. Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
В этой книге вы узнаете об обучении с подкреплением. Его сложно понять и объяснить по ряду причин. Во-первых, это довольно специфический подход — здесь много математики. Усвоить основные знания по этой теме и не увязнуть в них — уже непростая задача. Во-вторых, обучение с подкреплением изначально предполагает некоторое логическое несоответствие, так как это одновременно и способ осмысления задач принятия решений, и набор инструментов для решения этих задач. Под способом осмысления я имею в виду то, что RL служит основой для принятия решений: помимо прочего, в нем обсуждаются сигналы состояния и подкрепления. Говоря о наборе инструментов, я подразумеваю, что при обсуждении RL мы зачастую пользуемся такими терминами, как марковские процессы принятия решений и алгоритм Беллмана. На удивление легко спутать способ осмысления с математическими инструментами, которые мы используем.
Наконец, RL можно по-разному реализовать. Поскольку это способ осмысления, мы можем говорить о нем как о чем-то абстрактном, но его также можно воплотить в коде или, если уж на то пошло, в виде нейронов. Для изучения RL и глубоких нейронных сетей нужны разные фундаментальные знания — это два интересных направления исследований, которые развивались независимо друг от друга. Объяснить и то и другое в контексте средств разработки — непростая задача.
Не стоит забывать, что для понимания обучения с подкреплением нужно не только овладеть инструментами и их реализацией в глубоких нейросетях, но и перенять определенный способ осмысления RL. Иначе вы не сможете делать обобщения за рамками тех примеров, которые изучаете. Повторюсь, преподавать RL сложно, а в обучении глубокому RL очень много нюансов, которые могут свести весь процесс на нет. Чтобы всего этого избежать, мы обращаемся к книге Мигеля Моралеса.
Разместите ссылку на эту страницу в социальных сетях. Так о ней узнают тысячи человек:
Facebook
Twitter
Мой мир
Вконтакте
Одноклассники
Нашли ошибку? Сообщите администрации сайта: Выберите один из разделов меню и, если необходимо, напишите комментарий
За ложную информацию бан на месяц
Разместите, пожалуйста, ссылку на эту страницу на своём веб-сайте:
Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
Обучение с подкреплением для реальных задач. Инженерный подход — Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL).
В этой книге дано введение в глубокое обучение с подкреплением (Reinforcement Learning, RL) и сведены в целостную систему результаты работ за последние шесть лет. Обучение с подкреплением — это область машинного обучения, занимающаяся задачами последовательного принятия решений, то есть теми, решение которых занимает определенное время. Оно приме ...
Рассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на ...
Библиотека PyTorch выходит на передовые позиции в качестве средства обучения с подкреплением (ОП) благодаря эффективности и простоте ее использования.
Данный материал НЕ НАРУШАЕТ авторские права никаких физических или юридических лиц. Если это не так - свяжитесь с администрацией сайта. Материал будет немедленно удален. Электронная версия этой публикации предоставляется только в ознакомительных целях. Для дальнейшего её использования Вам необходимо будет приобрести бумажный (электронный, аудио) вариант у правообладателей.