<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg>
讯享网
特征工程 Feature Engineering
将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。
目的
发现重要特征,即对因变量y有明显作用的特征(自变量x)。
特征——对建模
特征选择——从的特征
特征提取——从原始数据构建新特征
特征构造——从原始数据构建新特征
特征重要性——对的估计
- 更好的特征——
- 更好的特征——
- 更好的特征——
下图是基本的数据挖掘场景
讯享网
下图为特征工程迭代过程

下图为特征工程常见方法和步骤

特征重要性,可以被认为是一个选择特征重要的评价方法。特征可以被分配一个分值,然后按照这个分值排序,那些具有较高得分的特征可以被选出来包含在训练集中,同时剩余的就可以被忽略。
特征重要性得分可以帮助我们抽取或者构建新的特征。挑选那些相似但是不同的特征作为有用的特征。
如果一个特征与因变量(被预测的事物)高度相关,那么这个特征可能很重要。
重要性评估:
- 相关系数和其他单变量的方法(每一个变量被认为是相互独立的)是比较通用的评估方法。
- 更复杂的方法是通过预测模型算法来对特征进行评分。这些预测模型内部有这样的特征选择机制,比如。这些模型也可以得出变量的重要性
通过数据获取,我们得到未经处理的特征,这时的特征可能有以下问题:
- (特征规格不一致)
- ——同的机器学习算法和模型对数据中信息的利用是不同的。
那么最好先对数据的整体情况做一个描述、统计、分析,并且可以尝试相关的可视化操作。主要可分为以下几方面:
- 数据结构
- 质量检验——标准性、唯一性、有效性、正确性、一致性、缺失值、异常值、重复值
- 分布情况—— 【探索性数据分析(EDA,Exploratory Data Analysis)】
对数据的整体性有一个宏观的了解之后,即需要进入特征工程第一个重要的环节——特征处理,特征处理会消耗大量时间,并且直接影响特征选择的结果。 特征处理主要包括: ①。即数据清洗工作,主要为、、、、 、等问题的处理。 ②。即、、等的转换,便于入模。
特征检验

- 单变量:
- 多变量:
特征选择
从大量的特征中选择少量的有用特征。 不是所有的特征都是平等的。
那些与问题不相关的属性需要被删除;
还有一些特征可以比其他特征更重要;
也有的特征跟其他的特征是冗余的。
特征选择就是自动地选择对于问题。
特征选择的作用
- ,增加模型的
- 改善模型、
特征选择的方法
判断特征是否发散:如果一个特征不发散,就是说这个特征大家都有或者非常相似,说明这个特征不需要。
判断特征和目标是否相关:与目标的相关性越高,越应该优先选择。
按照特征评价标准分类:
- 选择或者。
- 利用距离来度量样本之间相似度。
- 利用(Shannon熵、Renyi熵和条件熵)的那些特征来分类。
- 利用, 找出特征和类之间存在的相互关系; 利用特征之间的依赖关系, 来表示特征的冗余性加以去除。
- 特征选择算法可以,如相关性和其他特征重要性手段;
- 更高级的方法。这些方法通过建立模型,评价模型,然后自动的获得对于目标最具预测能力的特征子集。
- 还有一些算法能得到特征选择的副产品。比如说就是能够自动的选择特征来构建模型。
- 比如和可以作为特征选择的算法。他们在构建模型的过程中删去或者减小不重要特征的贡献。
据特征选择的形式可以将特征选择方法分为3种:
- :,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
- :,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
- :,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

过滤式(Filter)
过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此具有。通常选择和类别相关度大的特征或者特征子集。过滤式特征选择的研究者认为,相关度较大的特征或者特征子集会在分类器上获得较高的准确率。
过滤式特征选择的评价标准分为四种,即。
- 方法:
- 优点:算法的;省去了分类器的训练步骤,算法,因而;可以快速去除大量不相关的特征,作为特征的预筛选器非常合适。
- 缺点:由于算法的评价标准独立于特定的学习算法,。
封装式(Wrapper)
封装式特征选择是利用学习算法的性能评价特征子集的优劣。因此,对于一个待评价的特征子集,Wrapper方法需要训练一个分类器,根据分类器的性能对该特征子集进行评价。Wrapper方法中用以评价特征的学习算法是多种多样的,例如等等。
- 优点:相对于Filter方法,Wrapper方法找到的。
- 缺点:Wrapper方法选出的特征,当改变学习算法时,需要针对该学习算法重新进行特征选择;由于每次对子集的评价都要进行分类器的训练和测试,所以算法,尤其对于大规模数据集来说,算法的执行。
基于目标函数:
嵌入式(Embedded)
在嵌入式特征选择中,特征选择算法本身作为组成部分嵌入到学习算法里。最典型的即,等,决策树算法在树增长过程的每个递归步都必须选择一个特征,将样本集划分成较小的子集,选择特征的依据通常是划分后子节点的纯度,划分后子节点越纯,则说明划分效果越好,可见决策树生成的过程也就是特征选择的过程。
嵌入法Embedded(,,, 但是如何参数设置, 需要深厚的背景知识。) 在模型既定的条件下,寻找最优特征子集
通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验 。
定义
可能由于特征矩阵过大,一些样本如果直接使用预测模型算法可能在原始数据中有太多的列被建模,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。特征提取是一个自动化的降维过程。使得特征太多的样本被建模的维数降低。
作用
最大限度地降低数据的维度的前提下能够同时保证保留目标的重要信息,特征提取。特征提取是一个自动将观测值降维到一个足够建模的小数据集的过程。
数据降维有以下几点好处:

- 1、避免,导致算法失效,或者时间复杂度高
- 2、避免高维数据中引入的噪声,
- 3、,
方法
对于列表数据,可使用的方法包括一些,像和。 对于图形数据,可能包括一些和,对于不同领域有各自的方法。
特征提取的关键点在于这些方法是自动的(只需要从简单方法中设计和构建得到),还能够解决不受控制的高维数据的问题。大部分的情况下,是将这些不同类型数据(如图,语言,视频等)存成数字格式来进行模拟观察。
不同的数据降维方法除了实现降维目标的作用,同时具有各自的特点:
- ;
- 非负矩阵分解,因为在一些文本,图像领域数据要求非负性,;
- ;
- 。

PCA和LDA的映射目标不一样:
PCA是为了让映射后的样本具有最大的发散性;
而LDA是为了让映射后的样本有最好的分类性能。
所以说PCA是一种无监督的降维方法,而LDA是一种有监督的降维方法。
非线性降维
①核主成分分析(KPCA):带核函数的PCA
局部线性嵌入(LLE):利用流形结构进行降维 还有拉普拉斯图、MDS等
迁移学习降维
①迁移成分分析(TCA):不同领域之间迁移学习降维
定义
从原始数据中构造新特征。在机器学习或者统计学中,又称为、或者,是在模型构建中,选择相关特征并构成特征子集的过程。 根据已有特征生成新特征,增加特征的非线性。
常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无用的特征增加算法运算的复杂度。 特征重要性和特征选择可以告诉你特征的效用。你需要构造新的特征出来。这要求你在样本数据上花费大量的时间并且思考问题的本质,数据的结构,以及怎么最好的在预测模型中利用他们。
作用
对于表格型数据,通常对特征进行,或者来创造新的特征; 对于文本数据通常需要设计特定的与问题相关的文档指标; 对于图像数据通常需要花费大量时间。 这部分就是人们通常认为的特征工程最具艺术性的部分。这是一个漫长的部分,需要耗费大量的脑力和时间,并可以产生巨大的不同。
方法
- 简单构造
①四则运算
e.g 比如原来的特征是x1和x2,那么x1+x2就是一个新的特征。
②特征交叉(组合分类特征)
交叉特征算是特征工程中非常重要的方法之一了,它是将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这是一项非常有用的技术。
e.g 数学上来说,是对类别特征的所有可能值进行交叉相乘。假如拥有一个特征A,A有两个可能值{A1,A2}。拥有一个特征B,存在{B1,B2}等可能值。然后,A&B之间的交叉特征如下:{(A1,B1),(A1,B2),(A2,B1),(A2,B2)},并且你可以给这些组合特征取任何名字,但是需要明白每个组合特征其实代表着A和B各自信息协同作用。
e.g 一个更好地诠释好的交叉特征的实例是类似于(经度,纬度)。一个相同的经度对应了地图上很多的地方,纬度也是一样。但是一旦你将经度和纬度组合到一起,它们就代表了地理上特定的一块区域,区域中每一部分是拥有着类似的特性。
③分解类别特征
④重构数值量
⑤分解Datatime
⑥窗口变量统计 - 机器学习
①监督式学习
②非监督式学习
作用
模型评估一般有两个目的:
- 检验特征工程的工作,查看所选择的
- 检查参数调整的工作,通过调整模型参数,找到使得模型的分类、预测性能**。
针对回归预测问题
对于连续型目标变量的回归预测问题,评估模型的方法一般有:R2值,R2值越大,模型的预测效果越好。
针对分类预测问题
对于离散型目标变量的分类预测问题,评估模型的方法一般有: 交叉检验 观察模型的预测准确率,越大越好。但注意使用决策树或随机森林时的过拟合问题。 AUC、ROC 观察模型的ROC曲线及AUC值,越大越好
参考链接https://zhuanlan.zhihu.com/p/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/164091.html