天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

曹同学2021-03-01 22:28:38

老师,bagging里面所谓的不同训练集怎么理解,如果都是从200个数据里分组作为训练数据,怎么分训练集还是这200啊

回答(1)

Kevin2021-03-02 10:02:39

同学你好!

比如200个数据,每个数据有100个feature。bagging的做法,比如每次抽200个数据的不重叠的10个feature进行训练。


致正在努力的你,望能解答你的疑惑~
如此次答疑能更好地帮助你理解该知识点,烦请【点赞】。你的反馈是我们进步的动力,祝你顺利通过考试~ 

  • 评论(0
  • 追问(4
评论
追问
我之前理解的200个数据,随机抽100,反复这样。这个随机的100就是训练集。不是这样吗?
追答
同学你好! 我看了下目前主流的说法,你说的是对的,应该是我记混了。 bagging的做法: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的) 每次使用一个训练集得到一个模型,k个训练集共得到k个模型。 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。
追问
也就是说这个抽样不是把200个都用到,属于随机抽样。如果这样的话不是也会出现偏差,比如没有被抽到的可能解释力度更大
追答
同学你好! 1.是的,不一定都用到。 2.由于是k个模型的平均结果,有用的特征基本都是能抽到的。即使没抽到,调试模型的过程中也可以采用不同的抽样结果,进行对比。

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录