回答(1)
黄石2024-10-09 11:31:51
同学你好。这两种算法没有什么关系,只不过名字中都带了一个k。
KNN是一种监督式学习,主要是用作分类(也可以用作回归)。比方说我现在要研究新发放的贷款是否会违约。当前我的训练集中有诸如公司的信用评级、公司的财务指标等一系列特征,且每个个体我都有对应的label:违约/未违约。现在假设我获得了一个新观测个体,我可以通过某些测量距离的指标(欧几里得距离或曼哈顿距离),来找到特征值距离这一新个体最近的k个训练集个体。比方说k = 5,那就是找到5个最近的训练集个体。如果这5个个体中4个未违约,1个违约,那么我们就可以按少数服从多数的逻辑对新个体进行分类:新个体不会违约。
K-means algorithm是一种非监督式学习,是研究数据结构、对数据进行聚类的一种算法。其做法是,随机在训练集中取k个点作为质心(centroid)的初始值,根据欧几里得距离或曼哈顿距离将每个训练集个体聚类到与其最近的点。接下来,对于这k个聚类,我们可以重新计算其质心(质心其实就是中心的概念,也就是对于聚类中每个特征取平均值得到的点),然后重复上述动作:计算距离、聚类、重新计算质心。直到重新计算的质心不再发生变动,算法就完成了,我们也得到了k个聚类。这种方法可以用在比方说客户的聚类上。
- 评论(0)
- 追问(4)
- 追问
-
监督式学习和非监督式学习主要目的就是是否带有目的是么?能展开说说么?
- 追答
-
同学你好。监督式学习中,对于每个个体,都有特征(feature)以及目标的取值(目标是target,其取值被称为label),其核心目的在于预测(prediction)或分类(classification)。计量经济学中的回归就是一种最简单的监督式学习,我们可以通过学习训练集中个体的特征与目标之间的关系并估计参数,进而对于每个给定的新个体的特征取值,都能够进行预测。非监督式学习中,对于每个个体,只有特征,没有目标,该算法的核心目的在于研究数据的结构,对数据本身进行聚簇(clustering)。典型的例子比方说主成分分析(通过一些数学手段,对数据本身进行“打碎重组”,将原先的特征转换为主成分,而通常前3个主成分就足以包含数据中绝大部分信息)。
- 追问
-
好像估值那章和机器学习都有讲主成分分析法是么?这区别是啥?
- 追答
-
同学你好。没有区别,估值中PCA的部分是对于机器学习里PCA的一个很好的案例补充,是金融固定收益领域中PCA的一个经典应用。


评论
0/1000
追答
0/1000
+上传图片