1. Обучение представлению на основе физики для возникающей организации в сложных динамических системах (arXiv)

Автор: Адам Руп, Картик Кашинатх, Налини Кумар, Джеймс П. Кратчфилд.

Аннотация: Нелинейно взаимодействующие компоненты системы часто вносят нестабильность, которая порождает явления с новыми свойствами и в других масштабах пространства-времени, чем компоненты. Это известно как спонтанная самоорганизация и повсеместно распространено в системах, далеких от термодинамического равновесия. Мы представляем теоретически обоснованную основу для возникающей организации, которая с помощью алгоритмов, управляемых данными, является конструктивной на практике. Его строительные блоки — это световые конусы пространства-времени, которые фиксируют, как информация распространяется по системе посредством локальных взаимодействий. Мы показываем, что прогностические классы эквивалентности световых конусов, локальных причинных состояний фиксируют организованное поведение и когерентные структуры в сложных пространственно-временных системах. Используя наш неконтролируемый алгоритм машинного обучения, основанный на физике, и реализацию высокопроизводительных вычислений, мы демонстрируем применимость локальных причинных состояний для решения реальных проблем предметной области. Мы показываем, что локальные причинные состояния захватывают вихри и их степенное затухание в двумерной турбулентности. Затем мы показываем, что известные (ураганы и атмосферные реки) и новые экстремальные погодные явления можно идентифицировать на уровне пикселей и отслеживать во времени в климатических данных с высоким разрешением.

2. Сети Proto-Value: масштабирование обучения представлению с помощью вспомогательных задач (arXiv)

Автор: Джесси Фэйрбразер, Джошуа Гривз, Ришаб Агарвал, Шарлин Ле Лан, Росс Горошин, Пабло Самуэль Кастро, Марк Г. Беллемаре.

Аннотация: Вспомогательные задачи улучшают представления, изученные агентами глубокого обучения с подкреплением. Аналитически их эффект достаточно хорошо изучен; на практике, однако, их основное использование остается для поддержки основной цели обучения, а не в качестве метода обучения репрезентациям. Это, возможно, удивительно, учитывая, что многие вспомогательные задачи определены процедурно и, следовательно, могут рассматриваться как практически бесконечный источник информации об окружающей среде. Основываясь на этом наблюдении, мы изучаем эффективность вспомогательных задач для изучения богатых представлений, ориентируясь на настройку, в которой одновременно увеличивается количество задач и размер сети агента. Для этого выведем новое семейство вспомогательных задач, основанное на последующей мере. Эти задачи просты в реализации и имеют привлекательные теоретические свойства. В сочетании с подходящим правилом обучения вне политики результатом является алгоритм обучения представлению, который можно понимать как расширение протоценностных функций Mahadevan & Maggioni (2007) до глубокого обучения с подкреплением — соответственно, мы называем результирующий объект протоценностью. сети. С помощью серии экспериментов в Arcade Learning Environment мы продемонстрировали, что протоценностные сети обладают широким набором функций, которые можно использовать для достижения производительности, сравнимой с уже известными алгоритмами, используя только линейное приближение и небольшое количество (~ 4 М) взаимодействий с окружением. функция вознаграждения.