李同学2025-07-31 14:56:33
老师,为什么这里的G=1,G是代表未来的期望奖励,还是未来的期望奖励之和,赢了的奖励是1,输了的奖励是-1,这个G是怎么得出来的呢
回答(1)
黄石2025-08-01 10:47:23
同学你好。G为未来期望奖励之和,说人话就是算法做了这一次试验(例子里就是玩了一次游戏)所能得到的所有奖励之和。在这个例子里,只有最后游戏结束时有奖励,所以G就等于游戏结束时的奖励。一般来说我们还要考虑折现的问题,就是游戏结束时的1并不等于当前的1,所以一般会在1前面乘上一个小于1的折现因子。但考试的话目前来看基本都不考虑折现的问题。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片