B哪里错了呢



你还未登录〜

天堂之歌

听歌而来，送我踏青云〜

0元

充值
0橙宝

充值

首页
版块大全

财经学院

CFA FRM CFRM 量化投资

从业资格

证券从业银行从业

会计学院

CPA 会计职称 ACCA CMA 财会求职灌水闲聊

金程考研

公共课 199管综 396经综金融学硕金融专硕经济学硕士会计硕士考研院校考研就业

投资理财

RFP

金融杂谈

金融动态金融八卦吐槽专区

求职招聘

职业发展金融求职职场经验职场修养

研招信息

专业院校热点资讯考研交流考研经验

考研科目

专业课公共课 199管理类联考 396经济类联考

生活日常

运动音乐电影美食交友租房

个人发展
论坛

您现在的坐在位置：首页>智汇问答>FRM问答

Lord Voldemort2024-06-24 21:11:42

B哪里错了呢

查看试题

回答（1）

黄石2024-06-25 09:16:25

同学你好。Reinforcement learning使用unlabeled也就是无标签的数据集（故B选项错误，没有correct output values）。它是根据周围的环境采取行动，而模型会根据行动的结果给予奖励或惩罚，从而不断优化行动策略。本质上reinforcement learning考虑的是智能体与环境的交互问题，目标是找到一个最优策略，使智能体获得尽可能多的奖励。可以类比成赛车游戏，赛车就是智能体，需要通过执行很多动作来获得尽可能高的比赛得分，这里比赛得分就是奖励。