Публикации по теме 'markov-decision-process'
Почему для обучения с подкреплением не нужно уравнение Беллмана
Переоценка известного уравнения Беллмана в формулировках обучения с подкреплением и MDP.
В академических кругах часто принято совмещать алгоритм обучения с подкреплением (RL) с формулировкой марковского процесса принятия решений (MDP) и знаменитым уравнением Беллмана . На первый взгляд, это имеет смысл, так как мы часто стремимся найти примерно оптимальные политики для MDP. Однако во многих отношениях RL настолько далеко ушел от истоков динамического программирования, что можно..