问题——“不显著”被误读,科研判断容易走偏。 在以零假设显著性检验为主的研究中,不少研究者把“p>0.05”直接当作实验失败或结论无效。受发表压力影响,一些人可能采取不当做法:随意增加或删减样本、反复更换分析模型、做了多重比较却只报告“显著”结果等。这不仅削弱研究可信度,也加深了学界对结论可重复性的担忧。更重要的是,“不显著”并不等于“没有信息”。如果简单贴上“无效”标签,可能忽略了真实效应较小、样本量不足或测量误差较大等关键线索。 原因——p值能回答的问题有限,“沉默”背后有两种可能。 统计学界普遍认为,p值表示在零假设成立时观察到当前数据(或更极端数据)的概率。它只能说明“现有数据不足以支持差异存在”,却不能直接证明“差异不存在”。因此,“p>0.05”通常对应两种情况:其一,研究对象之间差异确实很小,接近可忽略水平;其二,研究设计或样本规模不足以捕捉真实但较小的效应。若把两者混为一谈,容易做出错误判断:要么把“尚未发现”误当作“已经否定”,要么在不确定性中不断试探,诱发随意调整研究路径。 影响——从个体研究到学术生态,代价不止“发不发得出论文”。 对单项研究而言,误读“不显著”可能让结论变得过于保守或过于武断:该扩大样本、改进测量时却匆忙收尾;该承认效应微弱、转向机制解释时却陷入“找显著”的循环。对学术共同体而言,“只报显著”的倾向会抬高文献中的效应估计,增加后续研究复现失败的概率,浪费科研资源;而围绕p值的单一评价,也会挤压对效应量、置信区间、研究设计质量等核心要素的关注。 对策——三类方法为“不显著”提供可检验的证据框架。 业内人士指出,研究重点应从“是否显著”转向“效应有多大、是否具有实际意义、零效应能否得到支持”。围绕这个转向,至少有三类常用工具可帮助拆解“不显著”的含义,提高结果可解释性。 第一,等价性检验:用“可忽略区间”检验零效应是否成立。 等价性检验强调先定义“最小感兴趣效应”(即实践中才值得关注的效应范围),据此设定等价区间Δ。若结果显示效应的置信区间完全落在Δ之内,就可以更有依据地认为“差异即使存在也微不足道”,从而为“零效应或近似零效应”提供支持。其关键在于阈值需事先设定,避免事后随意改变解释口径。 第二,贝叶斯估计:以区间概率呈现实质效应大小与不确定性。 贝叶斯估计不把结论压缩为“显著/不显著”,而是给出效应量的后验分布,并结合“实际等价区间”(常称ROPE)判断效应是否落在可忽略范围内。若后验分布的大部分概率质量集中在ROPE内,提示效应很可能不足以产生实际影响;若分布跨越ROPE较多,则说明不确定性仍较大,可能需要更高质量数据或更大样本来提高把握。该方法有助于把结论从二元判断转为连续证据表达。 第三,贝叶斯因子:对“支持零假设”的力度进行量化比较。 贝叶斯因子通过比较数据在零假设与备择假设下的相对支持程度,直接回答“数据更支持哪一种解释”。当证据更偏向零假设时,可在一定程度上缓解“p>0.05难以证明零效应”的问题。但业内也强调,贝叶斯因子的解读同样依赖合理的先验设定与透明报告,不能替代严谨的研究设计。 前景——从“追显著”走向“重质量”,需要制度与方法同步升级。 在可重复性讨论的推动下,越来越多研究开始重视预注册、公开数据与代码、报告效应量及区间估计、开展功效分析与样本量规划等。统计工具的更新不是为了“换一种方式得到想要的结论”,而是促使研究在事前明确“何为有意义的差异”,在事后用多维证据解释不确定性。可以预见,随着期刊审稿与科研评价更重视方法透明和结果可复核,“不显著”将不再被默认等同于“失败”,而会进入更严格的证据评估流程:该确认微弱效应就确认微弱效应,该扩大样本就明确扩大样本,该改进测量就直面测量局限。
科学研究的价值不在于“做出显著”,而在于如实呈现证据。把“p>0.05”从一句简单的否定,改写为对效应大小、证据强度和不确定性的规范描述,是科研方法走向成熟的重要一步。让统计工具服务于求真——而不是迎合评价——才能为学术生态带来更稳定的可信度与创新空间。