天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>FRM问答

Lord Voldermort2024-06-24 21:11:42

B哪里错了呢

查看试题

回答(1)

黄石2024-06-25 09:16:25

同学你好。Reinforcement learning使用unlabeled也就是无标签的数据集(故B选项错误,没有correct output values)。它是根据周围的环境采取行动,而模型会根据行动的结果给予奖励或惩罚,从而不断优化行动策略。本质上reinforcement learning考虑的是智能体与环境的交互问题,目标是找到一个最优策略,使智能体获得尽可能多的奖励。可以类比成赛车游戏,赛车就是智能体,需要通过执行很多动作来获得尽可能高的比赛得分,这里比赛得分就是奖励。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2024金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录