Сегодня я вырвал немного времени из своего дня, чтобы просмотреть gym.OpenAI.com/docs. Ранее в этом году я сделал попытку обучения с подкреплением, купив книгу Ричарда Саттона на Amazon. Первые две главы меня зацепили, и я решил упражнения для первой. Переходить со второй на третью было сложно, потому что я пропустил упражнения из второй главы, и тогда у меня не было проблем с размышлениями, когда я не читал. Было не так весело решать наборы задач в свободное время. Это привело к полной остановке моего исследования RL. Раньше у меня было мало знаний об обучении с подкреплением, за исключением того, что я знаю из теории игр и линейного программирования, поэтому траектория обучения была крутой. Однако, учитывая ажиотаж вокруг AlphaGo и интеграцию нейронных сетей в эту дисциплину, я решил, что пришло время заняться этим, поскольку мне также любопытно, как создавать и запускать модели глубоких нейронных сетей на сложных наборах задач.

Тренажерный зал openAI имеет удобную для чтения документацию по использованию их пакета Python для решения проблем RL и последовательности задач программирования. Мое главное препятствие при изучении новых вещей — убедиться, что я провожу как минимум в 2 раза больше времени за решением проблем, чем за чтением книг. Для этого он оказывается отличным компаньоном.

Я поддерживаю свой код на Python для упражнений, решенных из книги и спортзала, здесь https://github.com/shkr/openai-gym.

14 июля 2016 года моя первая заявка – электронный жадный алгоритм RL с вознаграждением за действие. Метод update для действия имеет инкрементную реализацию.

https://gym.openai.com/evaluations/eval_v9o3zI4FRGuK200fTyfn9w