<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <p>特征工程的主要步骤分6步:<br /> 1.特征理解,学习如何识别定量数据和定性数据<br /> 2.特征增强,清洗和填充缺失值,最大化数据集的价值<br /> 3.特征构建,构建新的特征,探索特征间的联系<br /> 4.特征选择,通过统计方法选择一部分特征,以减少数据噪声<br /> 5.特征转换,提取数据中的隐藏结构,用数学方法转换数据集,增强效果<br /> 6.特征学习,用简单的神经网络学习特征</p>
讯享网
讯享网
数据可以分为四个等级:
等级 属性 描述性统计 图表 定类 离散 无序 频率/占比,众数 条形图,饼图 定序 有序类别 比较 频率,众数,中位数,百分位数 条形图,饼图,茎叶图 定距 数字差别有意义 频率,众数,中位数,均值,标准差 条形图,饼图,茎叶图,箱线图,直方图 定比 连续 均值,标准差 直方图,箱线图
二、特征增强
一下均假设得到的数据集为df,x为df的自变量集合,y为df的因变量集合
1.删除无数据的行
在删除了之后需要比较一下各列均值的变化
讯享网
使用填充器填充
讯享网
讯享网
(2)min-max标准化,使得所有值在0-1之间
讯享网
(3)行归一化,使得每行的向量长度相同
三、特征构建
1.自定义填充器
(1)自定义分类填充器
讯享网
(2)自定义分量填充器
讯享网
(2)定序等级的编码
讯享网
(2)tf-idf向量化
讯享网
四、特征选择
1.基于统计的特征选择
(1)皮尔逊相关系数
(2)假设检验
讯享网
根据阈值进行模型选择
讯享网
讯享网
2.线性判别分析,用于对数据分类划分出决策边界
(未完)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/142132.html