天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>FRM一级

李同学2025-07-31 14:56:33

老师,为什么这里的G=1,G是代表未来的期望奖励,还是未来的期望奖励之和,赢了的奖励是1,输了的奖励是-1,这个G是怎么得出来的呢

回答(1)

黄石2025-08-01 10:47:23

同学你好。G为未来期望奖励之和,说人话就是算法做了这一次试验(例子里就是玩了一次游戏)所能得到的所有奖励之和。在这个例子里,只有最后游戏结束时有奖励,所以G就等于游戏结束时的奖励。一般来说我们还要考虑折现的问题,就是游戏结束时的1并不等于当前的1,所以一般会在1前面乘上一个小于1的折现因子。但考试的话目前来看基本都不考虑折现的问题。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录