天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>FRM一级

❤️智慧2024-08-08 10:17:38

老师,temporal difference的这里面并没有提及是在哪一个ACTION. 而且认为S1 是开始点,需要转移到S2去。那么old is s1 and new is s2. and 0.7是怎么被选择到的,毕竟我们知道这里并没有受是哪一个action. 公式的下标,t and t+1 都是什么意思啊。里面还有一个gamma,是什么意思?麻烦老师了。感谢。

查看试题

回答(1)

黄石2024-08-09 09:53:16

同学你好。当前我们要update Q(2,2),根据题目信息,对于temporal difference method,已知the next decision on the trial is when the learning agent is on S1 —— 我们需要从S1的两个action中选择一个能够最大化Q-value的,所以我们选择Action 1,对应Q-value = 0.7。公式的下标t就是当前,t + 1就是做出下一次决策的时点。gamma是一个折现率的概念,因为Q(St + 1,A)发生在未来。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录