圆同学2022-07-10 22:06:23
课后题第7题的a选项,通过K次的反复样本内训练与交叉验证,这我就相当于 Training data与 Validation data当成一个整体,你合过了吗?在进行样本外数据 Test data测试时,那不就该过度拟合了吗?
回答(1)
Essie2022-07-12 09:23:01
你好,比如在视频中老师举例k=3的情况,将数据分为了数据集1, 2, 3。如果训练集数据用了数据集1和2,那么验证集用的就是数据集3;或者训练集用数据集2和3,那么验证集就用数据集1......无论在哪种情况下,训练集和验证集用到的样本集合本来就是不同的,所以不会产生过拟合问题。
且因为用不同的数据进行过训练,又用另一组不同的数据进行过反复多次验证,可以使模型不仅能够准确预测样本内数据,还可以很好的去应对样本外数据,反而可以避免过拟合问题。所以即使再去应对test data,也会有较好的预测能力。
- 评论(0)
- 追问(2)
- 追问
-
用其中两个做training data,另外一个做验证,做三次下来,与将三个样本全部做training data,效果没区别呀??因为已经将他们的特征全部包含进model了呀??对吧??不理解是怎么减少特征量,避免 Over fitting的???
- 追答
-
虽然最终的结果三个样本集都做过训练,但它们不是同时被用于训练,总有一个样本是被拿来做验证的。在用1&2做训练的时候是不包含第3个验证集的,这样就可以记录一次样本外误差,重复三次,每次训练的样本和验证的样本都不一样,得到三个独立的样本外误差,再除以k,就可以得到平均的样本外误差,通过降低平均样本外误差,从而避免过拟合问题。
减少过拟合问题有两种方法,一是降低复杂性二是交叉验证,减少特征值对应的是降低复杂性的方法。
评论
0/1000
追答
0/1000
+上传图片
