鸡同学2022-07-24 12:24:47
这三个选项能再解释一下吗?
回答(1)
最佳
Essie2022-07-25 11:08:22
你好,
A是词频,也就是单个单词在文本中出现的次数。
B是独热编码。它是指对于分类数据,新特征可以是两个特征的组合,也可以是一个特征分解为多个特征。比如单个分类特征表示五个可能的教育水平(高中、大专、学士、硕士和博士学位),那么就可以把这些值分解为五个新特征,每个可能值表示为(is_bachelor、is_master),然后填充0(假)或 1(真)。最终将分类变量转换为二进制形式。和本题中将天气分为了不同的几种,将分类变量转换为二进制的情况一样,所以本题选B。
C是命名实体识别NER,NER算法在使用上下文的情况下,针对其内部库搜索标识符值,并为标识符分配NER标签。比如说,“微软”这个词会被分配“ORG”的NER标签。“欧洲”这个词将被分配“Place”的NER标签。这样的做法可以帮助将特定的标识符根据其特征分配NER标签,使标识符更具区分性。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片