天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

李同学2020-06-12 14:27:23

关于这个矩阵(其中的1 2 3 4对应单老师标注的)我有一些小问题(前提:建立在已经听明白整个逻辑的基础上): 问题1.P(1)=(2)/(1)+(2) 一类错误的概率用公式表示这样吗?问题2:P(2)=(3)/(1)+(3) 二类的公式表示? 问题3:F1 score的意义在于 让precision和recall之间取得一个平衡,所以可以理解为:不是要P或者R最大,而是要让F1最大即最好?问题4:Accuracy和precision在中文含义里差不太多,请问如果译成中文的话,各大金融类书籍的标准翻译分别对应的什么?问题5:截图中的紫色画线部分的文字想要说明的是什么,可否简单做解释,便于和我前面想的结论相互印证?

回答(1)

Kevin2020-06-12 15:27:26

同学你好!

I类和II类错误的定义如图。那么概率计算如下:

1.P(I)=(2)/((2)+(4));

2.P(II)=(3)/((1)+(3));

3.F1越大越好,无论P或R如何;

4.目前没有比较权威的叫法,可以参考:accuracy准确率,precision精确率。(其实没必要纠结,实际中英语不就很好区分了吗?2333);

5.比如癌症检测,1万人中仅10个患癌症。我们用1表示阳性,0表示阴性。那么I类错误:没患病但检测患病,II类错误:患病但检测结果没患病。实践中,precision和recall相互制约,基本此消彼长。我们强调precision,可能只检测出6个,6个都是患癌症的,precision很高,但是对于别的病人就不负责任。强调recall,可能检测出15个,8个患癌症的,多7个正常人,造成医疗资源的浪费。大致就是这样。所以评价一个检测方法应该precision和recall都有涉及,因此F1 score更好。

  • 评论(0
  • 追问(11
评论
追问
第一个问题追问:p(1)=(2)/(2)+(4)表示:在人没病的里边,机器验出有病的概率,即错杀好人,一类错误;p(1)=(1)/(1)+(2)表示:在机器说人有病的里边,机器说错了(其实人没病)的概率,也是错杀好人,也是一类错误。有点没绕不过来了~两个哪个对呢
追问
5追问:他说俩个比较 F1更好的条件是建立在:unequal class distribution is in the dataset.请问这个条件是想强调说明什么呢
追问
P(I)=(2)/((2)+(4));P=(1)((1)+(2)) P(II)=(3)/((1)+(3));R=(1)((1)+(3)) 单老师的推导逻辑是:一类和二类错误都是越低越好,且此消彼长,所以P和R就是越高越好,且也是此消彼长。问题:如果一类错误的公式您写的那样(当然 应该就是那样,所以还是有点晕),不是我写的P(I)=(2)/((1)+(2))这样的话,那单老师这种类比的推导方法就有些问题了,请问怎么解释?
追答
同学你好! 1.P(I)和P(II)都是建立在真实数据为真或为假的基础上的条件概率,(1)+(2)明显是预测为假的基础上,肯定不对。 2.就是癌症这个例子,分布极不对称,10个人患癌症,9990人正常。
追答
同学你好! 我看了看,单老师没推导I类和II类错误的问题,只是写了写precision和recall的公式。precision和recall的关系,是此消彼长的,I类和II类错误也是此消彼长的关系,也没问题的。
追问
您举的癌症的例子,我没有能明白,和公式没能对的上。1.明确:precision的对立面不是一类错误,而recall的对立面是二类错误,这个确定对吧?2.P和R的此消彼长可否再说的通俗一点呀?
追答
同学你好! 1.是的 2.还是癌症的例子,10000人中10患癌症,但这次更极端一点。比如一套检测癌症的方法,强调precision时,就是强调判断患癌的人中有多少真正患癌,该比例越高,说明检测能力越强。为了提高precision,那么我们可能会考虑10个指标,10个指标都满足才判定患癌症。最终这种方法只检测出1个患癌的人,实际1个的确患癌,也就是TP=1,FN=9,FP=0,TN=9990。此时precision=100%,recall仅10%。但是这样的做法对于别的病人就不负责任。 强调recall,就是强调真实病人中,有多少能被我们检测出来患癌,比例越高越好。那么我们抱着宁可错判断,也不能放过的心态,我们就可能放松标准,比如满足10个指标中的6个就判定患癌症。此时可能检测出15个患癌,实际这15个人中,8个患癌症的,多7个正常人。TP=8,FN=2,FP=7,TN=9983。此时precision=8/15,recall=80%。但也造成了医疗资源的浪费。 所以在这套检测的方法中,我们选的指标越多,那么precision越高,但是recall相对就会低;选的指标越少,那么recall越高,但precision相对会低。
追问
我的理解(简单转述一下您的意思 看是否理解): 精准度高的好处:检查过的没有错的;坏处:查的太慢 对没查到的不公平。召回度高的好处:把可能出问题的基数扩大了;坏处:不该查的也查了,浪费了资源。标准严一点,准确度高 召回的基数就不可能那么大;标准松一点,召回的基数大了,就不可能保证每个都是精准无误。所以此消彼长。 ok?
追答
同学你好! 很棒!理解得很到位哈!
追问
谢谢老师,看来有问题还是要问的,弄明白了心情好~
追答
别客气 继续加油哈~

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录