2025年变量选择之VARCLUS

变量选择之VARCLUS1 变量选择过程介绍 对于数据挖掘来说 变量选择是一个很重要的过程 使用维归约来进行变量选择的好处是在能不降低预测能力的前提下 减少侯选变量的个数 本文将讲一下维归约的过程 维归约的方法以及实现这些方法的 SAS 过程步 主要包括 VARCLUS factor princomp 三个过程步

大家好,我是讯享网,很高兴认识大家。

1 变量选择过程介绍

 

对于数据挖掘来说,变量选择是一个很重要的过程,使用维归约来进行变量选择的好处是在能不降低预测能力的前提下,减少侯选变量的个数。本文将讲一下维归约的过程、维归约的方法以及实现这些方法的SAS过程步,主要包括VARCLUS,factor,princomp三个过程步,通过这三个过程步,我们可以将变量进行分组,然后通过选择组里几个重要的变量来代替整个组的变量,从而达到既减少侯选变量,又不降低预测能力的目的。

先讲一下一个完整的变量选择/维归约过程:

 


讯享网

对于连续变量,步骤如下:

1 剔除缺失率大于X%的变量

2 剔除与目标变量相关性很小的侯选变量

3 无用OCA来保留那些有最高IV值和最低R2的变量

4 根据目标变量对侯选变量进行分箱操作,然后根据WOE和IV值对变量进行选择

5 根据协方差统计量对变量进行转换

6 对所有保留的有缺失值的变量进行缺失值标记(生成哑变量?)。

离散变量:

1 剔除与目标变量相关性最低的侯选变量

2 基于目标变量,对侯选变量进行分箱操作

3 根据WOE值和IV值选择最终的离散变量。

对于缺失率很高的变量,以及与目标变量相关性低的变量,我们可以用一般的统计方法来完成筛选。WOE和IV值请查阅相关文献,本文不作讲解。对哑变量的生成请查阅相关文献,本文也不作讲解。下面讲解的内容是通过VARCLUS过程步对变量进行分箱操作,然后根据R2(或1-R2)来对变量进行选择,主要是对VARCLUS过程步进行讲解。对于主成份分析primcomp和因子分析factor,网上的讲解已经很多,本文给出一些链接,这里就不作介绍了。

变量选择是一个很复杂的过程,本文只是讲解一些思路,在实际建模过程请灵活运用。

 

2 变量选择方法:Proc VARCLUS过程步

VARCLUS过程步的主要功能是将一组数值变量归类到不重叠的或重叠的群中,这样可以简化资料文件内的变量,使其不致过于繁复。

举例:

生成数据集:

data phys8(type=corr);

    title 'Eight Physical Variables Measured on 305 School Girls';

    title2 'See Page 22 of Harman: Modern Factor Analysis, 3rd Ed';

    label height='height'

          arm_span='arm span'

          forearm='length of forearm'

          low_leg='length of lower leg'

          weight='weight'

          bit_diam='bitrochanteric diameter'

          girth='chest girth'

          width='chest width';

    input _name_ $ 1-9

          (height arm_span forearm low_leg weight bit_diam girth width)

          (8.);

    _type_ = 'corr';

    cards;

 height   1.0     .846    .805    .859    .473    .398    .301    .382

 arm_span .846    1.0     .881    .826    .376    .326    .277    .415

 forearm  .805    .881    1.0     .801    .380    .319    .237    .345

 low_leg  .859    .826    .801    1.0     .436    .329    .327    .365

 weight   .473    .376    .380    .436    1.0     .762    .730    .629

 bit_diam .398    .326    .319    .329    .762    1.0     .583    .577

 girth    .301    .277    .237    .327    .730    .583    1.0     .539

 width    .382    .415    .345    .365    .629    .577    .539    1.0

;

run;

varclus过程步的语法如下:

PROC VARCLUS < options> ;

VAR 参与分析的数值变量名称 ;

SEED 定出各群的起始点(initial=seed;当initial=random,input,group时该指令无效) ;

PARTIAL 净化资料的变量名称 ;

WEIGHT 变量加权值,可为正有理数 ;

FREQ 变量加权值,只能为整数 ;

BY 分类变量,之前需要sort ;

 

选项说明:

第一类选项:得到资料

Data=输入资料文件名

Outstat=输出均值方差相关性等统计资料文件

Outtree=输出一个文件,供绘制树形图。当使用此选项时,SAS会同时界定hierarchy选项。

第二类选项:控制群的数目

Minclusters(minc)=正整数:指定最少要有几个群。

Maxclusters(maxc)=正整数:指定最多有几个群。

Proportion(percent)=正有理数:群主成份所能解释的变异数百分比。注意,这里proportion=0.75与percent=75是一样的。

Maxeigen=实数:规定每个群内第二特征值的最大可能值。

第三类选项:控制群形成的方法

Covariance(cov):SAS分析一个变异数/共变异数的矩阵,而非相关系数矩阵

Initial=(random,seed,input,group):指定方法展开群分析

Centroid:导出群的重心成份而非主成份,不能与maxeigen选项合用。

Maxiter:分析过程循环的最高次数。

Hierarchy(HI):要求SAS用层次聚类法。

Multiplegroup(MG):选用此项时,输入资料文件必须是type=corr,ucorr,cov,ucov,sscp或factor中的一种。

Random=随机数

Noint:不考虑截距

Vardef=df:界定计算变异数或共变异数时所用的分母。其中DF为自由度,N为总观测数,WGT为加权观测总数,WDF=WGT-1

第四类选项:控制统计值的打印

Simple(s):打印每一变量的平均数与标准差

Corr(c):打印变量间的相关系数矩阵

第五类选项:控制输出资料的打印

Short:不打印群结构、线性组合系数以及群间相关系数

Summary:只打印总结论表

Noprint:结果都不打印

Trace:打印每次循环过程中各变量所属的群。

 

运行varclus过程步:

proc varclus data=phys8 outtree=tree;

run;

结果及解释:

 

Varclus过程步已将8个变量划分为两个群,对于每个群的变量,我们可以挑出几个变量即可,这种方式可以减少很多侯选变量。

挑选变量的原则如下:

选择IV值最大的变量

选择1-R平方最小的变量

选择业务解释性好的变量。

 

本例中,对于群1,我们可以选择变量arm_span,因为其1-R2最小。由于本例的业务解释方面不突出,因此不作业务变量选择。这里我们不对IV值进行说明,大家可以查阅相关文献(关键词information value)

 

proc tree;

    height _propor_;

run;

结果:

 

这里我们可以看到,很明显地将八个变量分为两个群,并且还可以更直观地看到各个变量间的相似度。

 

3 因子分析factor和主成份分析princomp

详见:

实验十   主成份分析——primcomp过程

http://eme.gdcc.edu.cn/sas/item10.htm

实验十一  因子分析——Factor过程

http://eme.gdcc.edu.cn/sas/item11.htm

其它

http://houjianzhong5.spaces.live.com/Blog/cns!ECC9D8258DADF20!155.entry

 

4 变量选择最终建议Summary, Conclusions and Recommendations

Apply the Unger and Hansch recommendations:

  1.  Selection of meaningful variables:选择业务解释意义好的变量

  2.  Elimination of interrelated variables:剔除指标间相关性高的变量

  3.  Justification of variable choices by statistics:通过统计值对变量进行选择

  4.  Principle of parsimony (Ockham‘s Razor):吝啬原则:对于一个有效的预测,模型的参数越多,参数估计的有效性就越差。换句话,通常我们选择一个简单模型描述对象。

  5.  Number of variables to choose from:可选择的变量数

  6.  Number of variables in the model:进入模型的变量数

  7.  Qualitative biophysical model:定性生物物理模型(什么意思,不太明白)

Additional recommendations:

  8.  Beware of Q2 (Alex Tropsha):http://www.ncbi.nlm.nih.gov/pubmed/

  9.  Search for outliers in the test set:注意异常值

10.  Do not expect your model to be predictive:别抱太大希望

 

参考文献:

VARCLUS DOCUMENTATION EXAMPLE

ftp://ftp.sas.com/techsup/download/sample/samp_lib/statsampVarclus_Documentation_Example.html

Variable Selection in the Credit Card Industry

http://www.nesug.org/proceedings/nesug06/an/da23.pdf

Variable Selection and Model Validation

http://www.kubinyi.de/dd-13.pdf

第九部分 集群分析

http://www.sasfans.com/main/Article/UploadFiles/RaSasIntroduction9.pdf

小讯
上一篇 2025-03-18 11:02
下一篇 2025-04-10 21:16

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/21220.html