2025年特征工程怎么做(如何做特征工程)

特征工程怎么做(如何做特征工程)svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。



 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <p>特征工程的主要步骤分6步&#xff1a;<br /> 1.特征理解&#xff0c;学习如何识别定量数据和定性数据<br /> 2.特征增强&#xff0c;清洗和填充缺失值&#xff0c;最大化数据集的价值<br /> 3.特征构建&#xff0c;构建新的特征&#xff0c;探索特征间的联系<br /> 4.特征选择&#xff0c;通过统计方法选择一部分特征&#xff0c;以减少数据噪声<br /> 5.特征转换&#xff0c;提取数据中的隐藏结构&#xff0c;用数学方法转换数据集&#xff0c;增强效果<br /> 6.特征学习&#xff0c;用简单的神经网络学习特征</p> 

讯享网

讯享网

数据可以分为四个等级:

等级 属性 描述性统计 图表 定类 离散 无序 频率/占比,众数 条形图,饼图 定序 有序类别 比较 频率,众数,中位数,百分位数 条形图,饼图,茎叶图 定距 数字差别有意义 频率,众数,中位数,均值,标准差 条形图,饼图,茎叶图,箱线图,直方图 定比 连续 均值,标准差 直方图,箱线图

二、特征增强
一下均假设得到的数据集为df,x为df的自变量集合,y为df的因变量集合
1.删除无数据的行

 

在删除了之后需要比较一下各列均值的变化

讯享网
 

使用填充器填充

讯享网
 
讯享网
 

(2)min-max标准化,使得所有值在0-1之间

讯享网

(3)行归一化,使得每行的向量长度相同

 

三、特征构建
1.自定义填充器
(1)自定义分类填充器

讯享网

(2)自定义分量填充器


讯享网

 
讯享网

(2)定序等级的编码

 
讯享网
 

(2)tf-idf向量化

讯享网

四、特征选择
1.基于统计的特征选择
(1)皮尔逊相关系数

 

(2)假设检验

讯享网
 

根据阈值进行模型选择

讯享网
 
讯享网

2.线性判别分析,用于对数据分类划分出决策边界

 

(未完)


小讯
上一篇 2025-05-11 20:24
下一篇 2025-04-20 11:56

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/142132.html