谢同学2022-12-01 20:09:14
原版书的Module 7 Big Data Projects的EXAMPLE 5 Textual Feature Representations for ML Model Building 的两个问题都没有看懂,基础课上也没有讲到相关知识。1. Describe three textual feature representations that Lee and Kim should consider for their text data. 和2. Describe a rationale for adopting each of the three textual feature representations identified in Question 1. 求讲解,谢谢!
回答(1)
Essie2022-12-02 10:04:31
你好,基础课中是有讲过的,第一问是关于非结构化数据(文本)的整理和展示方式,针对的是题目表格最右边一列的“Free Responses to “Explain Credit Score”,见下图1-3。处理文本数据,可以使用词包、n元分词和词性来表示关键的文本特征。
答案解析中还提到了NER,它是命名实体识别,这个算法主要是通过给定地名、人物、时间年份这些名词一个标签,在使用上下文的情况下,针对其内部库搜索标识符值,并为标识符分配NER标签。和这里的使用情况不符。
第二问让解释一下上述三种方式的基本原理。
1. 在数据被清理和标准化之后,可以应用词包(BOW)程序,该程序只收集所有单词或标识符,而不考虑出现的顺序。一般都是探索文本特征的起点。
2. 如果文本的顺序很重要,则可以使用N元分词来表示单词序列,比如worked这个词,在第五、六、七个人的文本数据中均有出现,且利用n元分词可以看出“have_ worked_hard”的人不会违约,“have_ worked_harder”的人会违约,这也能为我们未来的预测提供一定的支持。
3. POS词性标签可以通过文本的组成,对文本中出现的词性进行分类。比如将单词根据词性分为动词、介词、名词等,根据词性的分类,机器学习可能也能找到特定的规律。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片



