枻同学2023-02-17 13:20:11
reinforcement learning可以举个具体点例子吗,没有太明白
回答(1)
最佳
ES2023-02-17 16:54:31
同学你好~
1. 强化学习(Reinforcement learning)比较典型的例子就是“AI与人类下棋”。Reinforcement learning这种算法在一开始会犯很多错误,性能很差,但随着试错的次数越来越多,Reinforcement learning会不断改进自己的方法、行动,最终战胜人类,赢得比赛。
2. 强化学习的过程可以用以下的循环来加强理解:
2.1 机器在环境 (environment) 里获得一个初始状态S0
2.2 在S0的基础上,机器会做出第一个行动A0
2.3 环境变化(environment changing) ,获得新的状态S1 (A0发生后)
2.4 环境给出了第一个奖励R1
这个循环就是一个由状态、奖励和行动组成的序列。而算法的目标就是让预期累积奖励最大化。
3. 在算法决定采取行动的过程中,它需要在探索和开发之间进行选择
3.1 exploration. 探索是找到关于环境的更多信息
3.2 exploitation. 开发是利用已知信息来得到最多的奖励
正因为算法的目标是将预期累积奖励最大化,它有时候会陷入一种困境。如果算法总是选择迄今为止所能确定的最佳动作而不去尝试新动作,奖励累积就会比较慢,可能会产生次优结果。如果它一直尝试新动作,也许就会发现大奖的存在,但也有可能发生危险。所以,程序员需要在exploration & exploitation把握一个平衡。
4. Reinforcement learning的一个缺点是,与其他机器学习方法相比,它们往往需要更大量的训练数据。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

