直方图是一种用于展示定量数据分布的常用图形。通过直方图,用户可以很直观的看出数据分布的形状、中心位置以及数据的离散程度等。很多软件也可以为直方图添加上正态曲线,进一步通过正态曲线判断数据的正态性。
直方图与柱状图的区别
需要注意的是,直方图和我们常见的柱状图可不一样。直方图用于显示定量数据的分布;而柱状图对比定类数据。在绘制时,直方图是按照数值大小进行分组排列,前后顺序不可变更;柱状图则是对分类对象进行分组,而不是根据具体数值进行分组,分组顺序可以调整。
使用场景
直方图一般在初步研究中使用,对数据分布特征进行描述。以及在判断数据正态性时,可作为初步判断工具。
操作步骤
假设我们有以下一份数据,数据集中显示了某市121名成年男性的血红蛋白量。希望通过直方图对观测数据图形化,以判断该数据是否满足正态分布。
原始数据
登录SPSSAU,选择【可视化】--【直方图】。
SPSSAU【可视化】-【直方图】
将分析项拖拽至右侧分析框。单击开始分析。
组数可以由自己设定,也可默认由系统设置,这里的组数指的就是直方图柱子的个数。选择的组数过大或过小都会影响数据的展示。一般情况下默认由系统确定组数即可。
直方图如何解读
横轴各坐标为各分组的起止范围;左边Y轴代表的是正态曲线的概率密度;右侧Y轴代表频率。
通过直方图可以得到以下信息:
(1)显示数据波动及分布情况,有无离群值等
通过上图可以看出观测样本的血红蛋白量在134.47~141.17(g/L)这个区间上的统计频次最高。这与正常值是相吻合的(120~160g/L),说明该数据基本能够反映该市成年男性的血红蛋白量的正常情况。
(2)显示数据正态性
正态曲线基本对称,且呈“钟形”分布,说明数据基本满足正态分布。
其他正态性检验方法
除上面介绍的直方图判断正态性,检测数据正态性的方法还有很多,这些方法在SPSSAU里均有提供。
不同方法判断正态性有时可能出现结果矛盾,这时该如何处理?或者数据出现不正态,该如何办?
这些在之前的文章中都有详细总结,有需要大家可参看SPSSAU往期文章内容。