统计学这么厉害,那会很难学习吗?
NO!
今天,小编特整理了一些统计学干货姿势分享给大家,分享数据分析挖掘及可视化的相关干货,只为更快吸收姿势的你,更高效地应用。
数据的概括性度量
导说:
用图表表示数据,可以对数据的分布形状和特征有一个大致的了解,但是要进一步掌握数据的分布特征,还需要找到反应数据数据分布特征的各个代表值,那么数据的分布形态主要从三个方面进行测量和描述:
集中趋势、离散程度、偏态和峰态
1——集中趋势的度量
如何对数据进行集中趋势的度量?
集中趋势是指一组数据向某一个中心值靠拢的程度,它反映了一组数据中心点的位置所在,
描述数据集中趋势的统计量有:
平均数、中位数、分位数以及众数等
1. 平均数
一组数据相加后除以数据的个数而得到的结果,称为平均数,平均数是度量数据水平的常用统计量
2.中位数
一组数据排序后处于中间位置上的变量值
3. 分位数
与中位数类似的还有四分位数、十分位数、百分位数。它们通常用的是3个点、9个点、99个点将数据分为四等分、十等分和一百等分后各分为点上的值
四分位数:一组数据排序后处于25%和75%位置上的值,称为四分位数,也称四分位点
4. 众数
一组数据出现次数最多的元素称为众数
2——离散程度的度量
如何对数据进行离散程度的度量?
集中趋势只是数据分析的一个特征,它反映的是各变量值向其中心值聚集的程度。
而数据的离散程度,反映的是各变量值远离其中心值的程度,描述数据的离散程度采用的测量值有:
极差、四分位差、方差、标准差以及离散系数等
1. 极差
一组数据中最大值与最小值之差
2. 四分卫差
上四分位数与下四分位数之差
3. 平均差
各变量值与其平均数离差绝对值的平均数,平均差以平均数为中心,反映了每个数与平均数的平均差异程度,能够全面的反应一组数据的离散程度
4. 方差
方差:各变量值与其平均数离差平方的平均数
标准差:方差的平方根
离散系数:一组数据的标准差与其相应的平均数之比,离散系数主要用于比较不同样本数据的离散程度,离散系数越大,说明离散程度越大。
3——偏态和峰态的度量
如何衡量数据的偏态和峰态?
通过直方图和茎叶图就可以知道数据的分布是否对称?
对于不对称的分布,就需要计算相应的描述统计量:
偏态系数和峰态系数
1. 偏态
数据分布的不对称性,通常用偏态系数衡量数据分布的不对称性
2. 峰态
数据分布的平峰或者尖顶峰度,对峰度的测量则需要计算峰态系数
书名:统计学学习指导书(第3版)
作者:孙静娟、邢莉
定价:¥29.80