2025年特征工程包含(特征工程包含哪三个方面?)

特征工程包含(特征工程包含哪三个方面?)本公众号关注大数据与人工智能技术 由一批具备多年实战经验的技术极客参与运营管理 持续输出大数据 数据分析 推荐系统 机器学习 人工智能等方向的原创文章 每周至少输出 10 篇精品原创 同时 我们会关注和分享大数据与人工智能行业动态 欢迎关注 在上一篇 特征工程 上 特征选择 中 我们解决了从哪些维度去刻画一个对象的问题 在本篇中我们聊一下特征表达 或者说特征编码 的问题

大家好,我是讯享网,很高兴认识大家。



  本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理,持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章,每周至少输出10篇精品原创。同时,我们会关注和分享大数据与人工智能行业动态。欢迎关注。

在上一篇《特征工程(上)—特征选择》中,我们解决了从哪些维度去刻画一个对象的问题。
在本篇中我们聊一下特征表达(或者说特征编码)的问题,即从这些选定的维度,如何去刻画特定的对象。 
01

从一个完整的机器学习任务来看,在选择完特征之后,特征表达的任务就是要将一个个的样本抽象成数值向量,供机器学习模型使用。因此,特征表达就要兼顾特征属性和模型需求这两个方面。 

探讨完特征表达需要考虑的因素,下面我们就可以有的放矢,讨论一下特征表达的技术问题。
 02


讯享网

上面说过,根据模型的需要,特征需要做连续化或者离散化的处理。连续特征已无需再做连续化处理,可以把特征的值直接拿来用,最多再做个归一化什么的就够了。

方法主要有两种,阈值分组和模型离散。
先说阈值分组,以出生日期为例,如果模型不需要知道一个人具体在哪一分哪一秒出身,很多情况下以年月为阈值划分就足够了。
模型离散的话,我们以树模型为例。树模型是靠对特征空间进行分割,并在每个子空间中用常量建模,得到预测结果的。
特征划分的结果,最终反映为树的叶子结点,因此用某个连续值特征被划分到哪个叶子结点,自然就实现了连续特征的离散化。 
03

对离散特征,我们考虑其连续化和离散化的过程。

本文在特征选择的基础上,进一步讨论了特征表达的问题,主要涉及连续和离散型特征的编码方式、特殊特征的处理和缺失值处理等方面。
对文中提到的归一化,我们认为也是特征表达的一个方面,但这个问题不太核心,且限于篇幅,不再详述。下篇文章将是特征工程系列的最后一篇,届时会讨论特征评估的问题。
感谢大家的阅读,对不足及错误之处,依然敬请指正。
-end-

小讯
上一篇 2025-04-30 13:05
下一篇 2025-06-08 14:29

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/198370.html