152****61722024-10-05 12:19:24
这个reinforcement learning 公式表达的是啥意思?
回答(1)
黄石2024-10-09 11:15:25
同学你好。该公式稍作了解即可,reinforcement learning的内容繁多,原版书上只是进行了简要介绍。V(S)指的是状态S下的“价值”,这个价值等于max_A[Q(S, A)]。其中,Q(S, A)可被理解成是在状态S下采取动作A所能带来的预期未来奖励,而V(S)则是从一系列不同的动作A带来的Q(S, A)中挑选一个最大值作为该状态下的价值。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片