Calculatrice de l'équation de Bellman

Auteur: Neo Huang
Révisé par: Nancy Deng
Dernière Mise à jour: 2025-01-20 01:09:15
Usage Total: 4747
Powered by @Calculator Ultra
Partager
Intégrer

Convertisseur d'Unités

  • {{ unit.name }}
  • {{ unit.name }} ({{updateToValue(fromUnit, unit, fromValue)}})

Citation

Utilisez la citation ci-dessous pour l’ajouter à votre bibliographie:

{{ citationMap[activeStyle] }}

Find More Calculator

L'équation de Bellman est un élément fondamental de l'apprentissage par renforcement et de la programmation dynamique. Elle définit récursivement la valeur d'un état comme la récompense immédiate plus la valeur future actualisée, en tenant compte de la politique. L'équation s'exprime généralement ainsi :

\[ V(s) = R(s) + \gamma \sum_{s'} P(s'|s,a) V(s') \]

Où :

  • \( V(s) \) est la fonction de valeur à l'état \( s \).
  • \( R(s) \) est la récompense immédiate.
  • \( \gamma \) est le facteur d'actualisation.
  • \( \sum_{s'} P(s'|s,a) V(s') \) représente la valeur attendue de l'état suivant, compte tenu de la politique.

Ce calculateur permet de calculer la fonction de valeur en fonction de ces paramètres, ce qui le rend utile pour les études sur les processus de décision et l'apprentissage par renforcement.