Публикации по теме 'markov-decision-process'


Почему для обучения с подкреплением не нужно уравнение Беллмана
Переоценка известного уравнения Беллмана в формулировках обучения с подкреплением и MDP. В академических кругах часто принято совмещать алгоритм обучения с подкреплением (RL) с формулировкой марковского процесса принятия решений (MDP) и знаменитым уравнением Беллмана . На первый взгляд, это имеет смысл, так как мы часто стремимся найти примерно оптимальные политики для MDP. Однако во многих отношениях RL настолько далеко ушел от истоков динамического программирования, что можно..