Статьи по тематике markov-decision-process

Публикации по теме 'markov-decision-process'

Почему для обучения с подкреплением не нужно уравнение Беллмана

Переоценка известного уравнения Беллмана в формулировках обучения с подкреплением и MDP. В академических кругах часто принято совмещать алгоритм обучения с подкреплением (RL) с формулировкой марковского процесса принятия решений (MDP) и знаменитым уравнением Беллмана . На первый взгляд, это имеет смысл, так как мы часто стремимся найти примерно оптимальные политики для MDP. Однако во многих отношениях RL настолько далеко ушел от истоков динамического программирования, что можно..

Публикации по теме 'markov-decision-process'

Почему для обучения с подкреплением не нужно уравнение Беллмана

Похожие вопросы