原版书的Module 7 Big Data Projects的EXAMPLE 5 Textual Feature Representations for ML Model Building 的两个问题都没有看懂，基础课上也没有讲到相关知识。1. Describe three textual feature representations that Lee and Kim should consider for their text data. 和2. Describe a rationale for adopting each of the three textual feature representations identified in Question 1. 求讲解，谢谢！



你还未登录〜

天堂之歌

听歌而来，送我踏青云〜

0元

充值
0橙宝

充值

首页
版块大全

财经学院

CFA FRM CFRM 量化投资

从业资格

证券从业银行从业

会计学院

CPA 会计职称 ACCA CMA 财会求职灌水闲聊

金程考研

公共课 199管综 396经综金融学硕金融专硕经济学硕士会计硕士考研院校考研就业

投资理财

RFP

金融杂谈

金融动态金融八卦吐槽专区

求职招聘

职业发展金融求职职场经验职场修养

研招信息

专业院校热点资讯考研交流考研经验

考研科目

专业课公共课 199管理类联考 396经济类联考

生活日常

运动音乐电影美食交友租房

个人发展
论坛

您现在的坐在位置：首页>智汇问答>CFA二级

谢同学2022-12-01 20:09:14

原版书的Module 7 Big Data Projects的EXAMPLE 5 Textual Feature Representations for ML Model Building 的两个问题都没有看懂，基础课上也没有讲到相关知识。1. Describe three textual feature representations that Lee and Kim should consider for their text data. 和2. Describe a rationale for adopting each of the three textual feature representations identified in Question 1. 求讲解，谢谢！

回答（1）

最佳

Essie2022-12-02 10:04:31

你好，基础课中是有讲过的，第一问是关于非结构化数据(文本)的整理和展示方式，针对的是题目表格最右边一列的“Free Responses to “Explain Credit Score”，见下图1-3。处理文本数据，可以使用词包、n元分词和词性来表示关键的文本特征。
答案解析中还提到了NER，它是命名实体识别，这个算法主要是通过给定地名、人物、时间年份这些名词一个标签，在使用上下文的情况下，针对其内部库搜索标识符值，并为标识符分配NER标签。和这里的使用情况不符。

第二问让解释一下上述三种方式的基本原理。
1. 在数据被清理和标准化之后，可以应用词包（BOW）程序，该程序只收集所有单词或标识符，而不考虑出现的顺序。一般都是探索文本特征的起点。
2. 如果文本的顺序很重要，则可以使用N元分词来表示单词序列，比如worked这个词，在第五、六、七个人的文本数据中均有出现，且利用n元分词可以看出“have_ worked_hard”的人不会违约，“have_ worked_harder”的人会违约，这也能为我们未来的预测提供一定的支持。
3. POS词性标签可以通过文本的组成，对文本中出现的词性进行分类。比如将单词根据词性分为动词、介词、名词等，根据词性的分类，机器学习可能也能找到特定的规律。