数据分析

统计功效——生物医学实验知识要点

2013年11月22日 6.5万次浏览

统计功效不足是致使生物医学类研究质量低下的关键原因之一。^[1]包括《试验报告统一标准》（Consolidated Standards of Reporting Trials, or CONSORT）^[2]在内的一众写作规范均要求作者验证其样本量的合理性。《英国外科学杂志》（British Journal of Surgery）^[3] 及《美国医学会神经病学杂志》（JAMA Neurology）^[4] 则规定作者在稿件中展示功效计算过程。还有一些出版物，如《分子遗传学与代谢》（Molecular Genetics and Metabolism），更是明确表示“对于未含功效计算的稿件，将不予评估，直接退稿”。^[5] 对统计功效有着严格要求的不止医学和生命科学，美国心理学会在其《心理学研究报告准则》（Reporting Standards for Research in Psychology）^[6]中，同样强烈建议论文作者在方法章节给出功效分析。

什么是统计功效

在统计学中，功效指在检验假设中，拒绝原假设后，正确替换假设被接受的概率。统计功效不足的研究，往往会无法识别出重大发现或得出假阳性结果。进而令数据的一致性存疑，且具误导性，最终动摇研究信度。^[7]

如何计算统计功效

在设计实验时，需要考虑以下四个要素：

一：样本量，即抽取的样本元素（如患者）总数，通常以N来表示。

二：效应量。通常来说，效应量越大，所需样本量越小。

三：α水平，即显著性阙值（通常是.001，.05 或 .1）。若p值达到或高于α水平，则研究结果在统计学上不显著。

四：功效。代表发现效应的可能性，为数值。

上述四个参数相互关联。当掌握了其中三个参数的值，便可得出第四个参数。如上文所说，通常α水平是固定的。而在查阅文献中也可大致了解效应的大小。所以，若想让研究具有较大的功效，就需要关注样本量。

本文并未提及研究方法，因为研究功效与其方法无关。一些研究本身的统计功效较小，却不妨碍其设计得精密严格，许多临床试验就是如此。但无视统计功效可能会因样本量过小而无法识别研究效应，既不能得到有信度、可重复的结果，又浪费了时间和资源。

什么时候计算统计功效

数据收集一旦完成，功效就难以修正了。因此，在实验设计阶段作先验功效分析就十分必要。如研究属长期型，可能还需作中期功效计算，以便调整样本量，避免研究过早结束或不必要地延长。当面对非显著的研究结果，有时也要作后验功效分析以进一步查明原因。值得一提的是，功效计算还能为基金申请增色，它能帮助评审人员衡量研究的可行性。

结语

功效分析能帮助研究者回答自己提出的研究问题，自圆其说。而功效值又取决于研究者是否能准确估算所需样本量。

参考文献

^[1] https://royalsocietypublishing.org/doi/10.1098/rsos.160254

^[2] https://www.equator-network.org/reporting-guidelines/consort/

^[3] https://academic.oup.com/bjs/pages/general-instructions

^[4] https://jamanetwork.com/journals/jamaneurology/pages/instructions-for-authors

^[5] https://www.elsevier.com/journals/molecular-genetics-and-metabolism/1096-7192/guide-for-authors

^[6] https://www.apa.org/pubs/authors/jars.pdf

^[7] https://web.ma.utexas.edu/users/mks/statmistakes/UnderOverPower.html