187****02062024-09-22 13:19:00
请 再讲下这个?
回答(1)
黄石2024-09-24 10:32:30
同学你好。Bootstrap aggregation/bagging是通过重抽样的方式,获得大量重抽样样本,通过这些样本分别去训练模型,最终将这些个体模型的结果整合后作为最终的结果。比方说我通过有放回的重抽样获取100个重抽样样本,对于这100个样本分别建模决策树。假设我研究的是是否发放贷款,这100个决策树中有70个给到的决策是发放,30个给到的是不发放,那我们的最终决策就是少数服从多数、发放贷款。而这种基于重抽样样本建模决策树的方式,就是random forest。换言之,random forest其实就是bootstrap aggregation的一个特例,是应用于决策树的bootstrap aggregation。现实中,除了对样本进行重抽样,有时我们还会对特征进行重抽样。比方说我有50个特征,我每次随机抽样获得25个特征,将这25个特征以及它们的所有样本数据用于模型的估计,最终也能得到一系列模型。不过需要注意的是,在对特征进行随机抽样时,我们是选择无放回的重抽样,以避免一个特征在决策树中出现多次的情况。
对于boosting,假设说我现在在做回归,研究Y与X之间的关系。根据样本跑了回归后,我能得到一系列残差e。一般的回归跑这一次、得到参数估计就结束了。而boosting的思路则是,第一次回归的残差我们的算法也要学习一下,以使得模型更加精确。因此,接下来boosting会将残差对X跑一个回归。这个回归又能够得到一系列新的残差,boosting会持续不断地对‘前模型’的残差进行学习,最终得到一系列模型,对Y进行预测只需将所有模型的预测加在一起即可,因为这些模型是通过残差项环环相扣在一起的。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片