Публикации по теме 'reinforcement-learning'


Обучение с подкреплением с OpenAI
Сегодня я вырвал немного времени из своего дня, чтобы просмотреть gym.OpenAI.com/docs. Ранее в этом году я сделал попытку обучения с подкреплением, купив книгу Ричарда Саттона на Amazon. Первые две главы меня зацепили, и я решил упражнения для первой. Переходить со второй на третью было сложно, потому что я пропустил упражнения из второй главы, и тогда у меня не было проблем с размышлениями, когда я не читал. Было не так весело решать наборы задач в свободное время. Это привело к..

Прикладной RL: настройка политик RL с помощью StableBaselines3
Как объяснялось в предыдущем посте этой серии, мы разработали торговую среду для нескольких акций с использованием API OpenAI Gym. Applied RL: пользовательская среда Gym для торговли несколькими акциями на основе алгоритма RL OpenAI предоставила библиотеку Gym с открытым исходным кодом для разработки среды на python, мы используем ее для создания Multi-Stock торговля… medium.com Мы можем обучить модель RL, используя эту среду,..

Почему для обучения с подкреплением не нужно уравнение Беллмана
Переоценка известного уравнения Беллмана в формулировках обучения с подкреплением и MDP. В академических кругах часто принято совмещать алгоритм обучения с подкреплением (RL) с формулировкой марковского процесса принятия решений (MDP) и знаменитым уравнением Беллмана . На первый взгляд, это имеет смысл, так как мы часто стремимся найти примерно оптимальные политики для MDP. Однако во многих отношениях RL настолько далеко ушел от истоков динамического программирования, что можно..

Обзор сегментации MI и неконтролируемых видеообъектов с помощью Reinforcement Learning Talk
Недавно я имел честь представить и модерировать доклад профессора Паскаля Пупарта о сегментации видеообъектов без учителя для глубокого обучения с подкреплением. Профессор Пупарт преподает в Университете Ватерлоо в Школе компьютерных наук. Он является преподавателем Waterloo AI и председателем канадского CIFAR AI в Технологическом институте Vector. Кроме того, профессор Пупарт является главным исследователем и основателем ИИ Waterloo RBC Borealis. По меньшей мере, для меня было большой..

Создание пользовательской среды для агента TensorFlow - пример крестиков-ноликов
Вводный блог о пользовательской среде TF-Agent Фон Обучение с подкреплением - это развивающаяся область искусственного интеллекта, которая показала многообещающие возможности в таких областях, как игры, робототехника, производство и аэрокосмическая промышленность. После победы над человеческими чемпионами в таких играх, как го [1] и шахматы [2] в середине 2010-х годов, обучение с подкреплением стало популярным. Google купил DeepMind [3], уважаемый стартап в области искусственного..

Обзор недавних приложений обучения с подкреплением в здравоохранении
Машинное обучение выходит за рамки диагностики, чтобы найти оптимальное лечение Применение машинного обучения в здравоохранении дало множество отличных результатов. Однако значительная часть из них сосредоточена на диагностике состояний или прогнозировании результатов, а не непосредственно на лечении. Хотя они могут косвенно помочь в лечении людей (например, диагноз - это первый шаг к поиску лечения), во многих случаях, особенно при наличии множества доступных вариантов лечения,..

Обучение с подкреплением
Мой путь от B2B - Котлов к банковскому делу. Сегодня мы поговорим об уроках, которые мы извлекаем во время нашего личного и профессионального пути, которые помогают нам принимать решения - хорошие или плохие, за которые нас награждают или наказывают, «Это обучение с подкреплением» Давайте рассмотрим практический пример работы котла, чтобы объяснить полезную концепцию обучения с подкреплением и заставить компьютеры учиться тому, что вы узнали. Экономическое обоснование..