Calculadora de la Ecuación de Bellman

Autor: Neo Huang
Revisado por: Nancy Deng
Última Actualización: 2024-10-10 09:45:11
Uso Total: 6203
Powered by @Calculator Ultra
Compartir
Incrustar

Convertidor de Unidades

  • {{ unit.name }}
  • {{ unit.name }} ({{updateToValue(fromUnit, unit, fromValue)}})

Citación

Use la cita a continuación para agregarla a su bibliografía:

{{ citationMap[activeStyle] }}

Find More Calculator

La ecuación de Bellman es un componente fundamental en el aprendizaje por refuerzo y la programación dinámica. Define recursivamente el valor de un estado como la recompensa inmediata más el valor futuro descontado, teniendo en cuenta la política. La ecuación se expresa típicamente como:

\[ V(s) = R(s) + \gamma \sum_{s'} P(s'|s,a) V(s') \]

Donde:

  • \( V(s) \) es la función de valor en el estado \( s \).
  • \( R(s) \) es la recompensa inmediata.
  • \( \gamma \) es el factor de descuento.
  • \( \sum_{s'} P(s'|s,a) V(s') \) representa el valor esperado del siguiente estado, considerando la política.

Esta calculadora permite calcular la función de valor en base a estos parámetros, siendo útil para estudios en procesos de decisión y aprendizaje por refuerzo.