数据特征工程是什么(数据特征工程是什么意思)

数据特征工程是什么(数据特征工程是什么意思)p strong 数据挖掘之特征工程 strong p 特征工程最主要的是通过专业背景知识和技巧处理数据 改善特征或者构建新的特征 使其能在机器学习算法上发挥更好的作用的过程 在数据建模时 如果对原始数据的所有属性进行学习 并不能很好的找到数据的潜在趋势 而通过特征工程 算法模型能够减少噪声的干扰 这样能够更好的找出数据趋势

大家好,我是讯享网,很高兴认识大家。

 

 <p><strong>数据挖掘之特征工程</strong></p> 

讯享网

特征工程最主要的是通过专业背景知识和技巧处理数据,改善特征或者构建新的特征,使其能在机器学习算法上发挥更好的作用的过程。

在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程,算法模型能够减少噪声的干扰,这样能够更好的找出数据趋势。优秀的特征甚至能够帮你实现使用简单的模型达到很好的效果。可以说,数据和特征决定了整个模型效果的上限,而改进算法只是在逼近这个上限。

数据中经常会遇到一些地区、国家、性别等字符信息,需要将其通过特定的编码方式转化为数值型数据,常见的编码方式有one_hot编码,label_encoder编码。

  • label_encoder编码

label_encoder会将不同字符编码为整数,例如,如果某列含有8个不同的字符,则label_encoder会将其编码为0到8的整数集合。

讯享网 
  • one-hot编码

one-hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。


讯享网

例如,将一列数据:["中国", "美国", "日本", "美国"],进行one-hot编码。其结果如上图所示。

 

非线性变换包括对数转换、平方根转换、平方转换、幂转换等。

讯享网 

特征离散化就是把连续特征分段,每一段内的原始连续特征无差别的看成同一个新特征。离散化的特征更易于理解、可以简化模型,提高模型准确度,提高运行速度。

  • 连续数据统计特征,如最大值、最小值、平均值、方差、累加和等

使用时,通常先对数据进行分组后,再逐一计算统计特征,例如按国家分组后,计算每组每年增长人口的最大值、最小值、平均值、方差等。

 
  • 离散数据统计特征,如众数、熵、计数等

使用时,也是先对数据进行分组后,再逐一计算统计特征。

讯享网 

小讯
上一篇 2025-04-26 16:25
下一篇 2025-05-09 14:13

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/207926.html