前面几篇文档,我们已经学习了时序型数据、对比型数据、对比型数据、分布型数据、区间型数据、关系型数据、地理型数据的可视化方式,这次,我们针对几种常见的图表,根据不同数据集以及可视化的目的,对比相似图表的差别和适用的数据集,从而总结出根据可视化目的、数据集特征,去选择图表类型的一般套路。
1.柱状图vs条形图
1.1可视化目标
首先明确可视化的目的是要展示什么,比如:展示销售额TOP5的产品二级大类?
1.2数据集
其次准备所需要的数据集(这里需要汇总各类的销售额):
| 销售额 | 产品二级子类别 |
| .02 | 办公机器 |
| 84453.586 | 电话通信产品 |
| 68514.348 | 桌子 |
| 42704.19 | 容器,箱子 |
| 24924.98 | 椅子 |
1.3图形可视化对比
条形图vs柱状图
销售额TOP5的产品二级大类
这里的柱状图和条形图可以互换。
1.4总结
(1)相同点:
- 两者数据结构相同,都是类别加上对应的离散数值;
- 当数据的记录数不大于12条,分类字段的字符长度小于5时,此时柱状图和条形图可以互换。
(2)不同点:
- 柱状图:如果分类的类目,恰好是时间序列,此时建议使用柱状图,因为柱状图能更好地体现数据随时间的变化情况;
- 条形图:当分类的类名长度大于5时,用条形图能更加美观地显示。
2.柱状图vs直方图
2.1可视化目标
明确可视化目标,需要展示什么东西。
- 展示订单中,不同产品一级类别的商品销售数量;
- 已知商品定价范围在[1.68,3511.68]之间,现需展示订单数据中商品的价格分布,要求每10元作为一个区间。
2.2数据集
整理出来可视化展示所需的数据集:
数据集1:
| 产品一级类别 | 商品数量 |
| 办公用品 | 4188 |
| 技术产品 | 1817 |
| 家具产品 | 1531 |
数据集2:
| 单价区间 | 商品数量 |
| 1.68-11.68 | 3043 |
| 11.68-21.68 | 1002 |
| 21.68-31.68 | 485 |
| 31.68-41.68 | 481 |
| 41.68-51.68 | 224 |
| 51.68-61.68 | 146 |
| 61.68-71.68 | 432 |
| 71.68-81.68 | 84 |
| 81.68-91.68 | 68 |
| 91.68-101.68 | 182 |
| 101.68-111.68 | 116 |
| 111.68-121.68 | 116 |
| 121.68-131.68 | 224 |
| 131.68-141.68 | 85 |
| 141.68-151.68 | 112 |
| 151.68-161.68 | 34 |
| 171.68-181.68 | 61 |
| 191.68-201.68 | 84 |
| 201.68-211.68 | 121 |
| 211.68-221.68 | 34 |
| 231.68-241.68 | 29 |
| 241.68-251.68 | 2 |
| 281.68-291.68 | 13 |
| 301.68-311.68 | 23 |
| 341.68-351.68 | 3 |
| 361.68-371.68 | 37 |
| 371.68-381.68 | 29 |
| 391.68-401.68 | 45 |
| 411.68-421.68 | 3 |
| 421.68-431.68 | 37 |
| 491.68-501.68 | 82 |
| 501.68-511.68 | 18 |
| 691.68-701.68 | 19 |
| 801.68-811.68 | 38 |
| 891.68-901.68 | 14 |
| 1491.68-1501.68 | 4 |
| 2031.68-2041.68 | 3 |
| 3501.68-3511.68 | 3 |
2.3可视化展示
选择合适的图表可视化展示:


2.4总结
(1)相同点:
- 两者数据结构类似,都为一个类别字段/分组字段+数值字段;
- 都是由柱形条构成。
(2)不同点:
- 两者的分析目的和适用场景不同。柱状图主要是比较不同类别数据的大小,直方图表示数据分布情况;
- X轴上的数据属性不同,柱状图的为不同分类,直方图为连续的分组数据;
- 宽度代表的实际意义不同。柱状图中柱形条的宽度没有实际意义,一般宽度相同,直方图中柱形条宽度为组距,区间不同的话柱形条宽度也会不同;
- 表示数据大小的方式不同。柱状图,是通过柱形条的高度,来映射数据的大小,且柱子之间有间隔;直方图,是通过高度(频数直方图)或面积(频率直方图)来表示数据的大小,且柱子之间没有间隔。
3.堆叠柱状图vs百分比堆叠柱状图
3.1可视化目的
- 不同年份的商品的销售数量趋势,及其不同年份三种运输方式的数量趋势;
- 不同年份的商品的销售三种运输方式占比趋势。
3.2数据准备
数据集1:
不同年份不同运输方式运输的商品数量
| 年份 | 大卡 | 火车 | 空运 |
| 2009 | 214 | 1299 | 105 |
| 2010 | 288 | 1753 | 419 |
| 2011 | 142 | 1387 | 214 |
| 2012 | 328 | 1244 | 143 |
数据集2:
不同年份不同运输方式运输的商品数量占比
| 年份 | 大卡 | 火车 | 空运 |
| 2009 | 13.23% | 80.28% | 6.49% |
| 2010 | 11.71% | 71.26% | 17.03% |
| 2011 | 8.15% | 79.58% | 12.28% |
| 2012 | 19.13% | 72.54% | 8.34% |
3.3可视化
不同年份不同运输方式运输的商品数量
![]()


3.4总结
(1)相同点:
- 堆叠柱状图和百分比堆叠柱状图,都适合用来展示分类数据的构成对比或构成随时间的变化趋势;
- 当映射到X轴上的数据为时间序列时,此时可以用堆叠面积图或者百分比堆叠面积图来代替。
(2)不同点:
- 堆叠柱状图既可以对比各构成部分的数值差异,还可以观测各组数据的整体差距,而百分比堆叠柱状图只能对比整体中的各构成部分的占比差异,无法对比不同整体的差异。
4.折线图vs面积图
4.1可视化目标
- 按月份展示商品的销售数量趋势;
- 展示不同月份的三种商品不同运输方式运输的商品数量趋势。
4.2数据集
数据集1:
不同月份的商品销售数量
| 订单日期 (月) | 商品数量 |
| 2009年1月 | 192 |
| 2009年2月 | 64 |
| 2009年3月 | 131 |
| 2009年4月 | 183 |
| 2009年5月 | 25 |
| 2009年6月 | 230 |
| 2009年7月 | 174 |
| 2009年8月 | 131 |
| 2009年9月 | 213 |
| 2009年10月 | 84 |
| 2009年11月 | 71 |
| 2009年12月 | 120 |
| 2010年1月 | 255 |
| 2010年2月 | 87 |
| 2010年3月 | 148 |
| 2010年4月 | 29 |
| 2010年5月 | 131 |
| 2010年6月 | 298 |
| 2010年7月 | 318 |
| 2010年8月 | 331 |
| 2010年9月 | 159 |
| 2010年10月 | 195 |
| 2010年11月 | 173 |
| 2010年12月 | 336 |
| 2011年1月 | 75 |
| 2011年2月 | 212 |
| 2011年3月 | 124 |
| 2011年4月 | 98 |
| 2011年5月 | 217 |
| 2011年6月 | 85 |
| 2011年7月 | 215 |
| 2011年8月 | 99 |
| 2011年9月 | 140 |
| 2011年10月 | 295 |
| 2011年11月 | 141 |
| 2011年12月 | 42 |
| 2012年1月 | 91 |
| 2012年2月 | 122 |
| 2012年3月 | 186 |
| 2012年4月 | 214 |
| 2012年5月 | 95 |
| 2012年6月 | 37 |
| 2012年7月 | 83 |
| 2012年8月 | 93 |
| 2012年9月 | 71 |
| 2012年10月 | 260 |
| 2012年11月 | 241 |
| 2012年12月 | 222 |
数据集2:
| 订单日期 | 大卡 | 火车 | 空运 |
| 2009年1月 | 23 | 156 | 13 |
| 2009年2月 | 39 | 21 | 4 |
| 2009年3月 | 0 | 111 | 20 |
| 2009年4月 | 18 | 125 | 40 |
| 2009年5月 | 0 | 25 | 0 |
| 2009年6月 | 0 | 202 | 28 |
| 2009年7月 | 26 | 148 | 0 |
| 2009年8月 | 0 | 131 | 0 |
| 2009年9月 | 0 | 213 | 0 |
| 2009年10月 | 12 | 72 | 0 |
| 2009年11月 | 0 | 71 | 0 |
| 2009年12月 | 96 | 24 | 0 |
| 2010年1月 | 63 | 192 | 0 |
| 2010年2月 | 31 | 56 | 0 |
| 2010年3月 | 35 | 113 | 0 |
| 2010年4月 | 18 | 11 | 0 |
| 2010年5月 | 0 | 38 | 93 |
| 2010年6月 | 30 | 229 | 39 |
| 2010年7月 | 15 | 151 | 152 |
| 2010年8月 | 7 | 242 | 82 |
| 2010年9月 | 33 | 81 | 45 |
| 2010年10月 | 0 | 195 | 0 |
| 2010年11月 | 49 | 124 | 0 |
| 2010年12月 | 7 | 321 | 8 |
| 2011年1月 | 28 | 47 | 0 |
| 2011年2月 | 0 | 172 | 40 |
| 2011年3月 | 0 | 75 | 49 |
| 2011年4月 | 33 | 38 | 27 |
| 2011年5月 | 0 | 169 | 48 |
| 2011年6月 | 0 | 85 | 0 |
| 2011年7月 | 62 | 153 | 0 |
| 2011年8月 | 0 | 61 | 38 |
| 2011年9月 | 0 | 128 | 12 |
| 2011年10月 | 19 | 276 | 0 |
| 2011年11月 | 0 | 141 | 0 |
| 2011年12月 | 0 | 42 | 0 |
| 2012年1月 | 35 | 56 | 0 |
| 2012年2月 | 31 | 62 | 29 |
| 2012年3月 | 82 | 104 | 0 |
| 2012年4月 | 0 | 214 | 0 |
| 2012年5月 | 0 | 52 | 43 |
| 2012年6月 | 0 | 37 | 0 |
| 2012年7月 | 0 | 53 | 30 |
| 2012年8月 | 0 | 93 | 0 |
| 2012年9月 | 0 | 71 | 0 |
| 2012年10月 | 61 | 199 | 0 |
| 2012年11月 | 69 | 172 | 0 |
| 2012年12月 | 50 | 131 | 41 |
4.3可视化

不同月份的三种商品不同运输方式运输的商品数量趋势:
![]()

4.4总结
(1)相同点:
- 折线图和面积图展示的是数据随时间的变化趋势,因此映射到X轴的数据类型一般为时间/日期;
- 二者均可以展现一个或多个变量和时间的关系,这种关系包括,周期性变化、季节性变化、异常波动等;
- 在大部分情况下,折线图和面积图可以互换。
(2)不同点:
- 折线图是通过数据点的纵坐标来映射数值的大小,一般只用来表示数据的趋势,而面积图用面积映射数值大小,除了可以表示数据趋势,还可以用来表示整体及其构成部分随时间的变化趋势。
5.堆叠面积图 VS 百分比堆叠面积图
5.1可视化目标

- 展示2009到2012年,火车、大卡、空运三种运输方式的运输量趋势;
- 展示2009到2012年,火车、大卡、空运三种运输方式的运输量占比情况;
5.2数据集
数据采用3.堆叠柱状图vs百分比堆叠柱状图的数据集。
5.3可视化
堆叠面积图:

百分比堆叠面积图:

5.4总结
(1)相同点:
- 堆叠面积图和百分比堆叠面积图,映射到X轴的均为时间序列。
- 两者都可以展示各构成部分随时间的变化趋势,只不过堆叠面积图的是构成部分的实际值随时间的变化趋势,百分比堆叠面积图展示的是构成部分的占比随时间的变化趋势。
(2)不同点:
- 堆叠面积图除了可以展示各构成部分随时间的变化趋势,还可以展示整体随时间的变化趋势。
- 百分比堆叠面积图只能展示各构成部分占总体的比例随时间的变化,无法观测总体随时间的变化趋势。此外,从任何一个时间节点纵切下来,各部分占比之和必须为100%,即必须等于该节点的整体。
6.堆叠面积图 VS 堆叠柱状图
6.1可视化目标
- 展示不同种类的商品用火车、大卡、空运三种运输方式的数量;
- 展示2009到2012年,火车、大卡、空运三种运输方式的运输量趋势。
6.2数据集
数据集1:
| 产品一级类别 | 大卡 | 火车 | 空运 |
| 办公用品 | 106 | 3452 | 630 |
| 技术产品 | 217 | 1465 | 135 |
| 家具产品 | 649 | 766 | 116 |
数据集2:
| 年份 | 大卡 | 火车 | 空运 |
| 2009 | 214 | 1299 | 105 |
| 2010 | 288 | 1753 | 419 |
| 2011 | 142 | 1387 | 214 |
| 2012 | 328 | 1244 | 143 |
6.3可视化
可视化1:

可视化2:
如5的堆叠面积图显示。
6.4总结
(1)相同点:
- 两者的数据结构都为分类字段加上多个连续值字段;
- 两者都可以观测某一节点的总体数值和各组成部分的具体数值,都有数据对比的功能。
(2)不同点:
- 堆叠面积图的分类字段,一般是时间序列。当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化情况时,应该使用堆叠面积图;
- 堆叠柱状图的分类字段,一般是非时间类型的分类数据。当既要对比不同整体的数据大小,又要观测整体各构成项的数据大小时,应该使用堆叠柱状图。
7.散点图vs气泡图
7.1可视化目标
- 每笔订单的销售额和利润额分布;
- 每笔订单的销售额、利润额和对应的数量;
7.2数据准备
数据集1:(显示部分)
| 销售额 | 利润额 | 顾客姓名 |
| 12805.25 | 5065.51 | 谢国平 |
| 3610.85 | 2235.37 | 许磊明 |
| 5677.609 | 1680.79 | 徐艳 |
| 6168.07 | 1542 | 赵若男 |
| 3832.37 | 1322.07 | 赵磊华 |
| 4815.862 | 1316.79 | 赵磊华 |
| 4158.1235 | 1228.89 | 赵伟 |
| 4359 | 907.67 | 周智宇 |
| 3077.731 | 745.48 | 周雨生 |
| 2251.9135 | 655.91 | 张子强 |
| 2568.71 | 590.77 | 谢若愚 |
| 1186.06 | 511.69 | 展大鹏 |
| 1516.13 | 493.03 | 杨子梅 |
| 6375.28 | 489.02 | 谢中明 |
| 1435.32 | 485.95 | 郑则强 |
| 10123.02 | 457.81 | 谢浩谦 |
| 15897.01 | 455.02 | 谢子扬 |
| 1041.72 | 437.61 | 谢平安 |
| 6483.26 | 341.98 | 杨子梅 |
数据集2:
| 销售额 | 利润额 | 顾客姓名 | 商品数量 |
| 12805.25 | 5065.51 | 谢国平 | 14 |
| 3610.85 | 2235.37 | 许磊明 | 36 |
| 5677.609 | 1680.79 | 徐艳 | 47 |
| 6168.07 | 1542 | 赵若男 | 12 |
| 3832.37 | 1322.07 | 赵磊华 | 36 |
| 4815.862 | 1316.79 | 赵磊华 | 47 |
| 4158.1235 | 1228.89 | 赵伟 | 37 |
| 4359 | 907.67 | 周智宇 | 41 |
| 3077.731 | 745.48 | 周雨生 | 31 |
| 2251.9135 | 655.91 | 张子强 | 41 |
| 2568.71 | 590.77 | 谢若愚 | 43 |
| 1186.06 | 511.69 | 展大鹏 | 42 |
| 1516.13 | 493.03 | 杨子梅 | 22 |
| 6375.28 | 489.02 | 谢中明 | 35 |
| 1435.32 | 485.95 | 郑则强 | 49 |
| 10123.02 | 457.81 | 谢浩谦 | 49 |
| 15897.01 | 455.02 | 谢子扬 | 37 |
| 1041.72 | 437.61 | 谢平安 | 29 |
| 6483.26 | 341.98 | 杨子梅 | 29 |
7.3可视化
每笔订单的销售额和利润额分布情况

每笔订单的销售额、利润额和对应的数量

7.4总结
(1)相同点:
- 两者都是用来展示数据分布情况;
- 两者都是将两个字段映射到x,y轴的位置上,(x,y)的取值确定一个圆点或气泡在直角坐标系中的位置。
(2)不同点:
- 散点图一般是用来展示二维数据
(x,y)的分布,侧重于研究二维数据的两个变量x,y之间的相关性,如身高和体重之间的相关关系; - 气泡图一般用来展示三维数据(x,y,z)的分布情况,气泡图增加了一个维度的数据展示,且将其数值映射到气泡的大小上。
8.可视化实践
8.1想了解一下全部发货物品的单价的分布情况,每10元作为一个区间?
回答:如上2中直方图展示。
8.2展示销售额TOP5的产品二级大类?
回答:上1中直方图或条形图都是。
8.3按月份展示商品的销售数量趋势?
回答:上4折线图所示。
8.4展示不同年份的商品的销售数量,及其不同年份三种运输方式的数量占比?
回答:上5堆叠面积图所示。
9.总结概括
总之,可视化的实现主要分以下几个步骤:
- 分析明确可视化的目的;
- 准备实现可视化目的所需要的数据集;
- 选择合适的图表实现。
常用图表对比的概括如下:(图片来源为微信公众号:数据科学家联盟)



版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/27019.html