Calculadora de la Ecuación de Bellman
Powered by @Calculator Ultra
Convertidor de Unidades
- {{ unit.name }}
- {{ unit.name }} ({{updateToValue(fromUnit, unit, fromValue)}})
Citación
Use la cita a continuación para agregarla a su bibliografía:
{{ citationMap[activeStyle] }}
Find More Calculator ☟
La ecuación de Bellman es un componente fundamental en el aprendizaje por refuerzo y la programación dinámica. Define recursivamente el valor de un estado como la recompensa inmediata más el valor futuro descontado, teniendo en cuenta la política. La ecuación se expresa típicamente como:
\[ V(s) = R(s) + \gamma \sum_{s'} P(s'|s,a) V(s') \]
Donde:
- \( V(s) \) es la función de valor en el estado \( s \).
- \( R(s) \) es la recompensa inmediata.
- \( \gamma \) es el factor de descuento.
- \( \sum_{s'} P(s'|s,a) V(s') \) representa el valor esperado del siguiente estado, considerando la política.
Esta calculadora permite calcular la función de valor en base a estos parámetros, siendo útil para estudios en procesos de decisión y aprendizaje por refuerzo.