特征工程
简介
嘿,今天我们将揭开特征工程的神秘面纱。这似乎是一个很难涵盖的主题,但我希望在本文末尾您至少能了解它的基础知识。
来自维基百科,特征工程是一种机器学习方法,它使用数据创建不包含在训练集中的新变量。
它可以为监督学习和无监督学习生成新特征。
使数据转换变得更容易、更快捷,同时提高模型的准确性。
特征工程技术
- 数据清理:这是整理您的数据。您解决缺失的信息、更正错误并消除任何不一致之处。
- 数据转换:这是数据重塑或调整。示例:按比例缩小大量数据或标准化数据,使其适合某个范围。 重要的因素是在不改变数据含义的情况下进行这些更改。
- 特征提取:这是我们探索现有数据并创建可以提供新见解的新特征的地方。这使得模型更简单、更快,而不会丢失有用的细节。
- 特征选择:涉及挑选与目标预测最密切相关的数据片段。这消除了不必要的信息,使模型更加集中。
- 功能迭代:这都是关于尝试和错误的。添加或删除某些功能、测试它们如何影响模型并保留可提高模型性能的过程。
机器学习中的特征类型
- 数字特征:这些数字是可以测量的,本质上是直接且连续的。示例:年龄。
- 分类特征:这些是分类的。例如,眼睛的颜色。
- 时间序列特征:随时间记录的数据。例子;股票。
- 文本特征:这些是由单词或文本组成的特征。示例:客户评论
结论
我希望我很好地解释了这些术语,我相信这是作为初学者理论上需要了解的几件事。下次我们讨论特征工程时,将会用更实际的术语。
下次见!