回答(1)
黄石2024-06-25 09:16:25
同学你好。Reinforcement learning使用unlabeled也就是无标签的数据集(故B选项错误,没有correct output values)。它是根据周围的环境采取行动,而模型会根据行动的结果给予奖励或惩罚,从而不断优化行动策略。本质上reinforcement learning考虑的是智能体与环境的交互问题,目标是找到一个最优策略,使智能体获得尽可能多的奖励。可以类比成赛车游戏,赛车就是智能体,需要通过执行很多动作来获得尽可能高的比赛得分,这里比赛得分就是奖励。
- 评论(0)
- 追问(0)
![](/images/test.png)
![](/images/icon_x.png)
评论
0/1000
追答
0/1000
+上传图片