天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>FRM一级

龚同学2024-04-12 04:37:47

请问老师可以再讲一下这个公式吗?里面的S ,A ,Alpha , R 分别对应什么呢?然后old又是几期的Q呢?

回答(1)

黄石2024-04-12 16:35:19

同学你好。S是state,A是action,alpha是一个参数,叫做learning rate,R是reward,Q_old就是当前的Q,Q_new是新的Q(当机器采取了一个action,进入了一个state后)。这部分内容我比较建议你通过一个切实的例子去理解,比如https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/,这个例子挺形象的。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2026金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录