13****522024-03-15 08:47:17
这一页的silhouette coefficient、GtS、M-fold都是什么概念,麻烦分别解释下。
回答(1)
最佳
黄石2024-03-15 16:18:57
同学你好。
Silhouette coefficient是轮廓系数,被用于寻找最优的K值。对于某个簇中的数据点i,首先计算其与簇内所有数据之间的平均距离,记作αi;再计算其与最邻近簇内所有数据之间的平均距离(即数据点i与所有非本身所在簇的簇内所有数据之间的平均距离的最小值,这定义了“最邻近簇”),记作bi。换言之,αi 描述的是簇内的内聚度,而 bi 描述的是簇间的分离度。数据点i的轮廓系数记作 Si = (bi - αi)/Max(αi, bi)。将所有数据点的轮廓系数求平均,得到的就是该聚类结果总的轮廓系数。轮廓系数的取值介于-1, 1之间,越趋近于1代表内聚度和分离度都相对较优。
GtS的做法是先建立一个包含所有变量的大型模型,在对所有系数进行检验后,找到最不显著的那个系数对应的解释变量(也就是test statistic绝对值最小的那个),将其剔除、重新回归、循环往复、直到模型中所有系数都是显著的。
M-fold cross validation则是拿出大部分样本进行建模,留下小部分样本进行模型验证,计算出小部分样本中的SSR,比较各个模型的表现,选择SSR最小的那个。具体方法见下图。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片


