152****80902023-07-07 16:54:38
为什么earning drop可以下降0.48还不好,large cap只下降0.255就是好的呢?
回答(1)
Tom2023-07-09 11:26:54
同学您好~
熵和基尼系数都是量化数据混乱程度的指标。就基尼系数而言,在决策树中,每个属性(数据表中的列)会有一个对应的基尼系数的值,数值越小,代表用该属性分类的不确定性越低,换句话说就是分出来的类越纯粹,分类效果越好。
决策树本质上是按照数据属性一层一层搭建的分类模型。你有了一个新数据后,把新数据的属性放到决策树中一层一层做判断,就能得到数据的分类。
那么在建模的时候,各个属性应该谁在上谁在下呢,或者说按什么样的属性顺序进行划分,才能找到最纯净的分类呢?在此我们引入熵和基尼系数的概念,他俩表示样本集的不纯度,或者说是不确定性。对于每个节点,我们可以计算它所代表的数据的,每个属性的基尼系数,选基尼系数最小的那个属性作为其下层节点。基尼系数的最大值是0.5(可以求导得到),最小值是0,越接近0代表用该节点分类的效果越好,应该首先采用。
在这里不好描述,还有什么不了解的就再来找我~
如果对答案满意,请给我点个赞~ 祝您学习愉快~
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

