我的研究重要吗？为什么你不应依靠 P 值

2016年11月14日 11.3万次浏览

研究文章中最常被报告的统计项目也可能是最常被误解和误用的。这里我们指的是 P 值。

美国统计学会 (American Statistical Association, ASA) 最近发表了「统计上显著差别和 P 值的宣言」 (Statement on Statistical Significance and P-Values)，列出了六个有关适当运用和诠释 P 值的宗旨。宣言的全文可在上面的链接中找到。

我们首先看一下 ASA 的宗旨，还有如何把他们运用到研究中。

1. P 值可以指出资料跟某一统计模型如何不匹配。

这里重要的字眼是“某一”。不论是任何研究或分析，当研究人员建立一个统计模型时，他们需要作出一些假设。根据统计学家的说法，0.05 的 P 值不表示某一假设有 95% 的机会为正确。相反，这个数值意味着如果假设是正确的同时其他作出的假设均为有效，那么我们有百分之五的机会获得我们现时得出的结果。

2. P 值不能估算我们的研究假设为正确的概率，也不能量度数据是随机出现的概率。

研究员们很常把小的 p 值错误诠释为虚假的。事实上，p 值只表示我们会获得某结果的概率跟在假设为正确的情况下一样大。

3. 我们不应单靠某一 p 值是否达到某一阙值而作出科学结论，或商业及公共政策决定。

「p<.05」不能保证某事物为真确。说到底，一个 p 值只是一个统计数值，而非上天赐予的讯号。一个 p 值可以受到研究计划很多方面影响，尤其是样本数。如果一个样本特别大，那么 p 值就差不多必然达到显著性的水平（虽然效应值可能不重要），除非效应完全不存在。因此你不能单靠 p 值作出实际决定。

4. 适当的推论需要更全面的报告和透明度。

在一般情况下，作者只报告 p 值为 .05 以下的结果。ASA 强烈不建议这种「樱桃」的行为。相反，这样会建议作者报告所有探索过的假设，所有进行过的统计分析，还有所有获得的 p 值，不管有显著性差异与否。作者只有在完成这些步骤后才能基于他们的数据作出有效的结论。

5. 一个 p 值或统计上的显著性差异并不量度效应的大小或结果的重要性。

有些作者会把 p 值非常低 (<.001) 的结果标签成「非常显著差异」或「高度显著差异」。可是，一个小的 p 值不表示结果带有实际或临床重要性。

假设你在女生中找到增加能量饮料的饮用量和良好身材在统计上有显著差异的关系。这不表示你应该设计一个措施去派发免费能量饮料给女生，以帮助她们改善身体形象。相反地，你应该审视这个关系的强度（例如：相关系数，回归系数）。如果这个关系不强（例如相关系数只有 0.1），当你考虑到其他跟身材关系更强的因素（例如整体个人自信，参加肥胖讲座的次数），你的干预措施可能会变得更有效。

断定结果的重要性时，研究员也应该考虑到整体环境，这是重要的一点。人数多的组别之间的细微差异可能在统计上有显著性差异但实际上不重要，而人数少组别之间的大差异尽管在统计上没有显著性差异，但实际上可以很重要。例如在实施一个教育干预措施后，在一个满分为 100 分的数学测验中平均分进步了 1.5 分也许达到统计学上的显著性差异，但在实际生活中这个干预措施不一定会带来特别的益处。

6. 就本身而言，当关系到一个模型或假设时，p 值不是一个好的指标去量度证据

科研作者作者应该避免在他们的结果中只报告 p 值。一个小的 p 值不表示假设不真确，而一个大的 p 值也不表示假设为真确。研究中可以有很多不同的假设都跟观察到的数据一致。所以一个 p 值不是唯一的统计项目支持被测试的模型或理论，一个研究的价值不应单靠取得的 p 值。

总而言之，尽管 p 值有其用武之地，它们不是一个研究变得有价值或重要的依据，他们也不应该被看作这样的依据。统计上的显著性差异不意味着在科学，实践或临床方面亦有相同的重要性。