徐同学2019-05-13 11:27:29
Practice Exam 2 36题 题设问可最大化数据质量的方面是 B选项:样本规模 感觉只是一个方面,样本大,但数据残缺或者不规整的数据多得是
回答(1)
Cindy2019-05-13 20:08:01
同学你好,
首先对于time span ,关于数据质量的进一步描述是数据所指的时间跨度(time span)。理想情况下,数据集应该通过考虑整个信贷周期来生成;否则,估计将取决于特定的有利或不利的周期阶段。宏观经济状况是决定违约率的最重要因素之一。如果我们没有很好地描述信贷周期我们就错过了描述违约概率的相关内容。但是这个不是受我们控制的,宏观环境在变,所以time span不行
接下来就是sample size和size homogenity,还有lending techonology,样本大小和样本一致性都很重要:理想情况下,一个样本必须从一个独特的群体中生成,使用相同的过程、标准和方法。换句话说,样本必须由相同的“lending techonology”生成。lending techonology是用于信贷发放和监测的一组信息、规则、合同和政策;更改其中一个或多个组件会改变数据集中的信用组合生成和借款人的概况,并可能损害模型开发数据集与模型操作应用的一致性。但是lending techonology也不是我们人为可以控制的,lending techonology很难维持一成不变的,剩下的就是样本的大小和一致性了,这两个比起来样本的大小更好控制,样本的一致性定性的因素较多,控制起来更加不容易,不过这个也是可控制的,这道题问的是最可控的,所以还是选最容易控制的样本大小吧
这个考的有点偏哦,(#^.^#)
- 评论(0)
- 追问(2)
- 追问
-
好吧,谢谢老师,为难你们了
- 追答
-
不客气,考试加油呀ヾ(◍°∇°◍)ノ゙


评论
0/1000
追答
0/1000
+上传图片