回答(1)
黄石2024-07-29 11:27:43
同学你好。这道题考察的是reinforcement learning中的Q-learning的具体应用。其实从题目本身来说只要会套这两个公式即可,其中S是state,A是action,alpha是一个参数,叫做learning rate,R是reward,Q_old就是当前的Q值,Q_new是新的Q值(当machine采取了一个action,进入了一个state后的Q值)。对于Q-learning的话通过一个例子来看会更好理解一些,见下图。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片