回答(1)
黄石2024-08-05 15:17:48
同学你好。这道题考察的是reinforcement learning中的Q-learning的具体应用。其实从题目本身来说只要会套这两个公式即可,其中S是state,A是action,alpha是一个参数,叫做learning rate,R是reward,Q_old就是当前的Q值,Q_new是新的Q值(当machine采取了一个action,进入了一个state后的Q值)。对于Q-learning的话通过一个例子来看会更好理解一些,见下图。基于Monte-Carlo method,代入数据,有Q_new(S,A) <= Q_old(S,A) + α[R_Total - Q_old(S,A)] = 0.9 + 0.05*(1.2 - 0.9) = 0.915。基于Temporal Difference method,代入数据,有Q_new(S,A) <= Q_old(S,A) + α[R_t+1 + γMax(Q(St + 1,A)) - Q_old(S,A)] = 0.9 + 0.05*(0.3 + 0.7 - 0.9) = 0.905(此处假设不考虑折现问题)。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片