看了一些文档和视频，还是有些模糊。想问老师，梯度，步长，斜率，学习率之间的关系是什么样的，怎么被使用的？



你还未登录〜

天堂之歌

听歌而来，送我踏青云〜

0元

充值
0橙宝

充值

首页
版块大全

财经学院

CFA FRM CFRM 量化投资

从业资格

证券从业银行从业

会计学院

CPA 会计职称 ACCA CMA 财会求职灌水闲聊

金程考研

公共课 199管综 396经综金融学硕金融专硕经济学硕士会计硕士考研院校考研就业

投资理财

RFP

金融杂谈

金融动态金融八卦吐槽专区

求职招聘

职业发展金融求职职场经验职场修养

研招信息

专业院校热点资讯考研交流考研经验

考研科目

专业课公共课 199管理类联考 396经济类联考

生活日常

运动音乐电影美食交友租房

个人发展
论坛

您现在的坐在位置：首页>智汇问答>FRM问答

❤️智慧2024-08-07 17:28:24

看了一些文档和视频，还是有些模糊。想问老师，梯度，步长，斜率，学习率之间的关系是什么样的，怎么被使用的？

查看试题

回答（1）

黄石2024-08-08 10:22:29

同学你好。首先明确loss function的概念。绝大多数机器学习模型都会有一个损失函数，比方说均方误差损失函数（见图1）。这种函数其实就是用来衡量模型的精确度的。一般来说，损失函数越小，模型就越精确（如均方误差越小、模型就越精确）。想要提高机器学习模型的精确度就要尽可能降低损失函数的值。Gradient descent algorithm就是一个常用的降低损失函数的算法，我们用这个算法不断地调整weight和bias，以使损失函数越来越小。这一算法要用到loss function对于weight和bias的一阶导，通过一阶导乘以learning rate来对参数进行不断的调整、使得loss function越来越小（见图2）。learning rate减小能解决loss function converges to different values的问题，这主要是因为loss function通常比较复杂，可能是非常弯弯绕绕的曲线，这种情况下就会有很多所谓的local minima（局部最小）的情形。如果我们learning rate太大，每次对于parameter的调整太多，很有可能导致loss function在最小化的过程中发生偏离。同学可以看一下https://blog.csdn.net/iqdutao/article/details/107174240这篇文章中下山的例子，可以很好地帮助理解。