回答(1)
黄石2024-05-10 11:03:42
同学你好。这里考察决策树的构建。我先说一下做法。决策树的构建与信息增益的概念相关,信息增益是一种通过获取关于特征的信息来降低不确定性的度量指标。决策树每一个节点上所选取的特征都应尽量最大化信息增益、最大程度上降低不确定性。不确定性我们使用熵(Emtropy)或者基尼系数(Gini coefficient)衡量,这些指标均落在[0, 1]区间,取值越大不确定性越高,取值越小不确定性越低。在选择第一个节点的变量之前,我们会先计算出一个不考虑任何特征的输出变量的熵/基尼系数,再将已有的变量一个一个套进来试、选择使得熵/基尼系数降低最多(也就是信息增益最多)的那个变量作为root node。
回到题目,题目已经告诉我们root node是occupancy status了,我们只需要计算出其带来的基尼系数的下降幅度即可。首先,计算不考虑任何特征的输出变量的基尼系数,十个房产中五个卖价高于8,000,000,五个低于8,000,000。根据公式,Gini = 1 - [(5/10)^2 + (5/10)^2] = 0.5。接下来,考虑occupancy status作为root node。在4个occupied的房产中,3个卖价高于8,000,000,1个卖价低于8,000,000,Gini = 1 - [(3/4)^2 + (1/4)^3] = 0.375;在6个非occupied的房产中,2个卖价高于8,000,000,4个卖价低于8,000,000,Gini = 1 - [(2/6)^2 + (4/6)^2] = 0.444;二者取平均等于0.410。因此,基尼系数从0.5跌到0.410,下降了0.09,这是我们的信息增益。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片