数据特征分析(数据特征分析的主要目的是什么)

数据特征分析(数据特征分析的主要目的是什么)svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。



 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> 

讯享网

21世纪是大数据的时代,因为这些大数据中蕴含着时代发展的信息。如何科学地分析数据特征是数据分析师必须掌握的基础技能之一。因此,我今天主要希望通过理论推导并实现一些常用的数据特征分析方法来加强对数据特征处理的能力。

讯享网

通过散点图大致看一下数据分布情况,如图1所示:
图
讯享网
图1 颜色越深代表房价越高,经纬度可以确定深圳罗湖不同二手房的位置,从而表现出在不同位置二手房的房价。

 

在这里插入图片描述
图2 计算结果如图所示。

讯享网

在这里插入图片描述
图3 通过直方图,我们可以看出不同区间二手房首付价格的大致分布情况。

对比分析就是用两组或两组以上的数据进行比较,是最通用的方法。我们知道孤立的数据、图像没有意义,有对比才有差异。比如在时间维度上的同比和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。该方法一般会结合其他方法在后文呈现,这里不加赘述。

1、集中趋势度量:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或者中心值————统计平均数
常用指标为: 算数平均数(均值)、位置平均数(中位数)、 众数
2、离中趋势量:指一组数据中各数据以不同程度的距离偏离中心的趋势。
常用指标为:极差、标准差

 

帕累托分析(贡献度分析)即为我们常说的帕累托法则:20/80定律。“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:
1、多数,它们只能造成少许的影响;
2、少数,它们造成主要的、重大的影响。”
比如说,一个公司80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润,通过二八原则,寻找关键的20%决定性因素!

讯享网

在这里插入图片描述
图4 即为帕累托可视化图像。J~F占所有种类的70%,贡献了80.082%的利润,企业应增加J-F的投入,减少C~B的投入以获得更高的盈利额。
在这里插入图片描述
图5 运行结果,通过结合图像可以很快地找到超过80%累计占比的节点以及对应的节点值。

常用方法:直方图初判/图判断/K-S检验

 

在这里插入图片描述
图6 第2个子图即为直方图。利用散点图和直方图,我们可以清晰地看出该组数据满足正态分布。

讯享网

在这里插入图片描述
图7 第3个子图即为图。利用不同图像的对比分析,我们可以清晰地看出图通过分位点的方式可以很好表现出正态分布特征。

 

在这里插入图片描述
图8 通过理论推导得出的结果如图所示。

讯享网

在这里插入图片描述
图9 但在scipy包种有该正态分布检验方法,即ks代码块儿。

相关性分析:是指对两个或者多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度,且相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。

图示判断:
Pearson相关系数(皮尔逊相关系数)
Sperman秩相关系数(斯皮尔曼相关系数)

 

在这里插入图片描述
图10 左图为正相关,右图为负相关。

讯享网

在这里插入图片描述
图11 多变量之间可以用散点矩阵图,但该数据无法看出不同变量之间的相关性。
以上皆为通过图像来判断数据相关性的方法,我们还可以通过数据的方式来判断不同变量之间的相关性。

 

在这里插入图片描述
图12 pvalue均大于0.05,则满足正态分布。

讯享网

在这里插入图片描述
图13 通过推导得出相关系数和导入函数包结果对比如图所示。由计算出的结果大于0.05,我们可以看出该组数据存在相关性。
然而,Pearson相关系数主要用于服从正态分布的连续变量,不服从正态分布的变量、分类的关联性可采用Sperman秩关联系数,也称等级相关系数。
计算逻辑:
(1)对两个变量成对的取值按照从小到大顺序编秩,Rx代表Xi的秩次, Ry代表Yi的秩次,如果两个值大小一样,则秩次为(index1 + index2) / 2;
(2)di = Rx - Ry
Spearson系数和Pearson 系数在效率上等效

 

在这里插入图片描述
图14 结果为负值,代表看电视和智商并不相关。

以上就是今天需要总结的数据特征方法。但是我们需要清楚地知道,在实际案例中,我们需要结合不同的方法科学地分析不同数据蕴含的数据特征。在相关性分析当中,还有几种分别kendall(和谐系数)和GRA(GreyRelationAnalysis,GRA)灰色关联度分析,以及几个重要性分析(MDI、MDA)后期再更。

小讯
上一篇 2025-05-18 13:19
下一篇 2025-04-30 07:00

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/168804.html