龚同学2024-04-12 04:37:47
请问老师可以再讲一下这个公式吗?里面的S ,A ,Alpha , R 分别对应什么呢?然后old又是几期的Q呢?
回答(1)
黄石2024-04-12 16:35:19
同学你好。S是state,A是action,alpha是一个参数,叫做learning rate,R是reward,Q_old就是当前的Q,Q_new是新的Q(当机器采取了一个action,进入了一个state后)。这部分内容我比较建议你通过一个切实的例子去理解,比如https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/,这个例子挺形象的。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

