天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>FRM一级

圆同学2024-08-04 14:36:38

可以详细解释一下这道题吗?谢谢老师Thanks♪(・ω・)ノ

查看试题

回答(1)

黄石2024-08-05 15:17:48

同学你好。这道题考察的是reinforcement learning中的Q-learning的具体应用。其实从题目本身来说只要会套这两个公式即可,其中S是state,A是action,alpha是一个参数,叫做learning rate,R是reward,Q_old就是当前的Q值,Q_new是新的Q值(当machine采取了一个action,进入了一个state后的Q值)。对于Q-learning的话通过一个例子来看会更好理解一些,见下图。基于Monte-Carlo method,代入数据,有Q_new(S,A) <= Q_old(S,A) + α[R_Total - Q_old(S,A)] = 0.9 + 0.05*(1.2 - 0.9) = 0.915。基于Temporal Difference method,代入数据,有Q_new(S,A) <= Q_old(S,A) + α[R_t+1 + γMax(Q(St + 1,A)) - Q_old(S,A)] = 0.9 + 0.05*(0.3 + 0.7 - 0.9) = 0.905(此处假设不考虑折现问题)。 

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录