李同学2024-05-11 15:54:25
The size of the step in the gradient descent algorithm is known as the learning rate这个讲义里面没看到有啊,只提到the direction of steepest descent,感觉ML这块讲的太粗糙了,考的又很细
查看试题回答(1)
黄石2024-05-14 09:56:34
同学你好。我这边去反馈一下,造成的不便还请谅解。这个内容确实比较细,原版书上也基本没怎么讲。总而言之,在ANN中,我们会计算模型输出值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层。在反向传播的过程中,模型会结合优化方法、根据误差调整各参数的值。该过程将会不断迭代、直至收敛。常用的方法是gradient descent algorithm,在该算法下,通常会先设置一个目标函数,比如mean squared error(见图1),然后将其对biases和weights求一阶导,然后利用图2中的公式去获得新的参数。图2中的gamma就是learning rate,它影响的是gradient descent algorithm调整的大小(倒三角L就是前面求的导数)。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片