❤️智慧2024-08-08 10:17:38
老师,temporal difference的这里面并没有提及是在哪一个ACTION. 而且认为S1 是开始点,需要转移到S2去。那么old is s1 and new is s2. and 0.7是怎么被选择到的,毕竟我们知道这里并没有受是哪一个action. 公式的下标,t and t+1 都是什么意思啊。里面还有一个gamma,是什么意思?麻烦老师了。感谢。
查看试题回答(1)
黄石2024-08-09 09:53:16
同学你好。当前我们要update Q(2,2),根据题目信息,对于temporal difference method,已知the next decision on the trial is when the learning agent is on S1 —— 我们需要从S1的两个action中选择一个能够最大化Q-value的,所以我们选择Action 1,对应Q-value = 0.7。公式的下标t就是当前,t + 1就是做出下一次决策的时点。gamma是一个折现率的概念,因为Q(St + 1,A)发生在未来。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片