曹同学2021-03-01 22:28:38
老师,bagging里面所谓的不同训练集怎么理解,如果都是从200个数据里分组作为训练数据,怎么分训练集还是这200啊
回答(1)
Kevin2021-03-02 10:02:39
同学你好!
比如200个数据,每个数据有100个feature。bagging的做法,比如每次抽200个数据的不重叠的10个feature进行训练。
致正在努力的你,望能解答你的疑惑~
如此次答疑能更好地帮助你理解该知识点,烦请【点赞】。你的反馈是我们进步的动力,祝你顺利通过考试~
- 评论(0)
- 追问(4)
- 追问
-
我之前理解的200个数据,随机抽100,反复这样。这个随机的100就是训练集。不是这样吗?
- 追答
-
同学你好!
我看了下目前主流的说法,你说的是对的,应该是我记混了。
bagging的做法:
从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)
每次使用一个训练集得到一个模型,k个训练集共得到k个模型。
对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。
- 追问
-
也就是说这个抽样不是把200个都用到,属于随机抽样。如果这样的话不是也会出现偏差,比如没有被抽到的可能解释力度更大
- 追答
-
同学你好!
1.是的,不一定都用到。
2.由于是k个模型的平均结果,有用的特征基本都是能抽到的。即使没抽到,调试模型的过程中也可以采用不同的抽样结果,进行对比。
评论
0/1000
追答
0/1000
+上传图片

