天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>FRM问答

枻同学2023-02-17 13:20:11

reinforcement learning可以举个具体点例子吗,没有太明白

回答(1)

最佳

ES2023-02-17 16:54:31

同学你好~
1. 强化学习(Reinforcement learning)比较典型的例子就是“AI与人类下棋”。Reinforcement learning这种算法在一开始会犯很多错误,性能很差,但随着试错的次数越来越多,Reinforcement learning会不断改进自己的方法、行动,最终战胜人类,赢得比赛。

2. 强化学习的过程可以用以下的循环来加强理解:
2.1 机器在环境 (environment) 里获得一个初始状态S0 
2.2 在S0的基础上,机器会做出第一个行动A0
2.3 环境变化(environment changing) ,获得新的状态S1 (A0发生后) 
2.4 环境给出了第一个奖励R1 
这个循环就是一个由状态、奖励和行动组成的序列。而算法的目标就是让预期累积奖励最大化。

3. 在算法决定采取行动的过程中,它需要在探索和开发之间进行选择
3.1 exploration. 探索是找到关于环境的更多信息
3.2 exploitation. 开发是利用已知信息来得到最多的奖励
正因为算法的目标是将预期累积奖励最大化,它有时候会陷入一种困境。如果算法总是选择迄今为止所能确定的最佳动作而不去尝试新动作,奖励累积就会比较慢,可能会产生次优结果。如果它一直尝试新动作,也许就会发现大奖的存在,但也有可能发生危险。所以,程序员需要在exploration & exploitation把握一个平衡。

4. Reinforcement learning的一个缺点是,与其他机器学习方法相比,它们往往需要更大量的训练数据。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录