1. Обнаружена оптимизация политики(arXiv)

Автор: Крис Лу, Якуб Грудзьен Куба, Алистер Летчер, Люк Мец, Кристиан Шредер де Витт, Якоб Ферстер.

Аннотация: За последнее десятилетие в обучении с подкреплением (RL) был достигнут огромный прогресс. Большинство этих достижений произошло благодаря постоянной разработке новых алгоритмов, которые были разработаны с использованием комбинации математических выводов, интуиции и экспериментов. Такой подход создания алгоритмов вручную ограничен человеческим пониманием и изобретательностью. Напротив, метаобучение предоставляет набор инструментов для автоматической оптимизации методов машинного обучения, потенциально устраняя этот недостаток. Однако подходы «черного ящика», которые пытаются обнаружить алгоритмы RL с минимальной априорной структурой, до сих пор не превзошли существующие алгоритмы, созданные вручную. Зеркальное обучение, которое включает в себя алгоритмы RL, такие как PPO, предлагает потенциальную отправную точку среднего уровня: хотя каждый метод в этой структуре имеет теоретические гарантии, компоненты, которые отличают их, подлежат разработке. В этой статье мы исследуем пространство зеркального обучения путем метаобучения функции «дрейфа». Мы называем немедленный результат оптимизацией изученной политики (LPO). Анализируя LPO, мы получаем оригинальное представление об оптимизации политик, которое мы используем для формулировки нового алгоритма закрытой формы RL, обнаруженной оптимизации политик (DPO). Наши эксперименты в средах Brax подтверждают современную производительность LPO и DPO, а также их перенос в невидимые настройки.

2. Эффективная оптимизация политик на основе исследований для решения проблем с маршрутизацией(arXiv)

Автор:Насрин Султана, Джеффри Чан, Табинда Сарвар, А. К. Цинь

Аннотация:алгоритмы обучения на основе глубокого подкрепления без использования моделей были применены к ряду COP~\cite{bello2016neural}~\cite{kool2018attention}~\cite{nazari2018reinforcement}. Однако эти подходы страдают от двух ключевых проблем при применении к комбинаторным задачам: недостаточное исследование и требование множества обучающих примеров пространства поиска для достижения приемлемой производительности. Комбинаторная оптимизация может быть сложной, характеризующейся поисковыми пространствами с множеством оптимумов и большими пространствами для поиска и изучения. Следовательно, необходим новый метод для поиска хороших решений, которые являются более эффективными за счет большей эффективности выборки. В этой статье представлен новый подход к обучению с подкреплением, основанный на энтропии. Кроме того, мы разрабатываем метод обучения с подкреплением, не основанный на политике, который максимизирует ожидаемую отдачу и повышает эффективность выборки для достижения более быстрого обучения во время обучения. Мы систематически оцениваем наш подход к ряду задач оптимизации маршрута, обычно используемых для оценки оптимизации на основе обучения, таких как задачи коммивояжера (TSP), задача маршрутизации транспортных средств с вместимостью (CVRP). В этой статье мы показываем, что наша модель может быть обобщена на различные проблемы маршрутизации, такие как VRP с разделенной доставкой (SDVRP), и сравниваем производительность нашего метода с эффективностью современных современных подходов. Эмпирические результаты показывают, что предлагаемый метод может улучшить современные методы с точки зрения качества решения и времени вычислений, а также обобщить задачи различных размеров.

3. Зеркальное обучение: унифицированная основа оптимизации политик(arXiv)

Автор:akub Grudzien Kuba, Christian Schroeder de Witt, Jakob Foerster

Аннотация:Современные алгоритмы глубокого обучения с подкреплением (RL) основаны либо на обобщенной итерации политик (GPI), либо на основе обучения доверительной области (TRL). Однако алгоритмы, которые строго придерживаются этих теоретических основ, оказались не масштабируемыми. Удивительно, но единственные известные масштабируемые алгоритмы нарушают допущения GPI/TRL, т.е. из-за необходимой регуляризации или других эвристик. Нынешнее объяснение их эмпирического успеха, по существу, «по аналогии»: они считаются приблизительными адаптациями теоретически обоснованных методов. К сожалению, исследования показали, что на практике эти алгоритмы сильно отличаются от своих концептуальных предков. Напротив, в этой статье мы представляем новую теоретическую структуру, называемую зеркальным обучением, которая обеспечивает теоретические гарантии для большого класса алгоритмов, включая TRPO и PPO. В то время как последние два используют гибкость нашей структуры, GPI и TRL подходят просто как патологически ограничительные крайние случаи. Это говорит о том, что эмпирическая эффективность современных методов является прямым следствием их теоретических свойств, а не вышеупомянутых приблизительных аналогий. Зеркальное обучение дает нам возможность смело исследовать новые, теоретически обоснованные алгоритмы RL, до сих пор неизведанную страну чудес.