统计数据的描述就好比给这些数据做一次体检,在没有全面了解这些数据的“面目”前,我们无法准确决定该使用哪种统计方法去分析它。这里我们把统计描述的知识整理成了图表法和指标法两个部分,方便大家快速理解和掌握。 为什么一定要先观察数据?因为计量资料自带“度量衡”,数值大小本身就能传递信息,与计数资料和等级资料不同。 图表法能够迅速锁定数据的整体情况。统计表曾经是手工时代的重要工具,但现在在SPSS、R、Python这些软件里可以一键生成,很少有人再手工画表了。直方图是统计图形中的主角,它用矩形面积代表频数,能直观地展示数据集中在哪个区间以及分布是否对称。 指标法则包含了7个离散趋势指标和3个集中趋势指标。集中趋势指标有算术均数(¯x)、几何均数(G)、中位数(M)和百分位数(Px)。其中算术均数是最常用的,但容易受极端值影响;几何均数适用于平方和类数据;中位数适合偏态分布;百分位数能帮助我们将人群分成几部分进行分层研究。离散趋势指标有极差(R)、四分位数间距(IQR)、平均偏差(MD)、离均差平方和(SS)、方差(S²)、标准差(S)和变异系数(CV)。极差计算简单但容易受异常值干扰;四分位数间距能圈住一半数据;平均偏差衡量每个值与均数的平均距离;离均差平方和是平均偏差的升级版;方差是计算标准差的基础;标准差是衡量个体与整体差距的工具;变异系数可以跨量纲比较。 实际操作时要注意:对称分布用算术均数加减标准差(¯x±SD),偏态分布用中位数加上四分位数间距(M(IQR)),比较不同样本要用变异系数(CV)。在发表文章前,最好先看看直方图,如果肉眼能看到偏态分布却只用均数加减标准差描述,审稿老师可能会不太满意。记住软件能帮我们算出所有数字,但判断该用哪个指标以及什么时候用才是统计学素养的真正体现。下一篇我们会讨论正态分布,继续提升大家的“数据洞察力”。