狗熊会吧 关注:48贴子:475
  • 1回复贴,共1
最近刚结束了一个可视化的在线课程,教的都是基础的统计图表。授课过程中,发现学员对于统计图的规范确实没有什么概念,尤其是统计图的纵坐标。
在讲授折线图的时候,我留了一个作业,要求学员绘制北京每周平均房价的折线图,纵坐标分别从0和从60000开始。同时,要求学员评价这两个统计图,应该选择哪个在报告中汇报。读者也可以思考一下,要是你会选择哪个统计图?
再来看一个类似的问题。这是一组柱状图,绘制的是不同性别、不同职称的老师的教学评估平均得分。一个的纵坐标是从3.9开始,一个是从0开始。同样的,读者可以思考一下,应该汇报哪个统计图?
无论是折线图还是柱状图,纵坐标应该从0开始绘制,因为0是最自然的一个参照点。如果从中间某个位置截断,会夸大数据的波动(上述例子的折线图)或者拉大组别之间的差异(上述的柱状图)。现在有很多统计图不标注纵坐标,尤其是不标注纵轴的刻度,这都是非常不好的做法。
我留的另一个作业,是要求学员评价一下下方的这个统计图,并且陈述这个图存在什么问题。可以看到,这是一个双轴图,绘制的是3种肉类的价格。鸡肉价格是左轴,牛羊肉价格是右轴。抛开细枝末节不谈,这个图最大的问题就是纵坐标。咱们先卖个关子,来看一下学员的作业。读者也可以趁机思考一下这个统计图到底有什么问题。
我在作业中要求学员对比几个城市的房价,数据是同一个,大家看一下两位学员的统计图呈现的效果。左图只有一个坐标轴,并且从0开始绘制,能够明显看到几个城市的房价平均水平和波动水平的对比。右图非常tricky,将四个城市的房价绘制成双轴图(广州的是右轴)并且左侧坐标轴从40000开始,右侧坐标轴从0开始。读者应该能够明显感受到,这个图第一眼看去容易误解成北京和广州的房价非常接近,传递了完全不一样的信息。
在绘制单位相同的几个指标的时候,要选择一个坐标轴,不要采用双轴图。双轴图一般用于同时绘制绝对量和增长率。这个时候,坐标轴依然要从0开始绘制。
在授课过程中,我重点讲解了箱线图。了解水妈的读者都知道,水妈最喜欢的工具就是分组箱线图(戳这里,请帮我链接箱线图那一讲)。学员当时提了一个非常好的问题,他说水妈,你绘制的分组箱线图怎么坐标轴都没有从0开始呢,比如下图。
分组箱线图最大的作用是作对比,比如对比标准间、商务间和豪华套间的房价。箱子的中间那条线是中位数。那么标准间和商务间之间的差异到底多大才算“大”呢?这里跟读者分享一个技巧。两个组的平均水平的差异,如果跟数据整体的波动水平比起来可以忽略,那么这种差异就不算大;如果平均水平的差异跟数据整体的波动水平比起来不能忽略,那么这种差异就算大。箱线图非常妙的地方就在于它展示出了数据的波动范围(对比起来,之前出现的柱状图的柱高只是平均水平,没有展示波动范围),因此对于分组箱线图来说,已经有了可以参照的对象,不一定非要从0开始绘制纵轴。
以上是关于统计图坐标轴的一点理解,欢迎大家留言批评指正。


IP属地:北京1楼2020-01-07 15:20回复
    老师您好,如果数据与数据之间差距太大我想跳过纵坐标轴中间一部分数值但是又不到取对数那种情况,我应该怎么做呢


    IP属地:美国3楼2021-05-10 22:44
    回复