康奈尔大学教授因操纵 P 值,被撤稿及被警告文章累积达 29 篇

康奈尔大学教授因操纵 P 值,被撤稿及被警告文章累积达 29 篇

/盘子越大,人就吃得越多,换成小碗能避免吃太多。

用剧下饭容易吃撑,最多能比平时多吃 60%

有女性在场时,男性会吃比正常饭量更多的披萨。

国内外教人健康饮食的网站没少援引这些有网感的研究。别以为这是什么爱瞎搞的机构出的调查,它们都出自康奈尔大学食物与品牌实验室 (Cornell Food and Brand Lab)

这个实验室的负责人 Brian Wansink 是行为心理学出身,主攻饮食、健康领域的研究。除了搞科研,Wansink 还著有畅销书《无意识饮食》,经常在主流媒体露脸教人怎么吃、怎么减肥,可以说是该领域目前最火的研究者之一。

不过,这人最近又出事了。

5 8 日,《美国医学会杂志》(JAMA) 主编 Howard Bauchner 在其网站上贴出了对 Wansink 早前发表的 6 篇论文的关注声明 (Expression of Concern),并严词警告学术圈对这些论文中的研究效度加个小心。

JAMA主编关注声明

JAMA主编关注声明,图片来自:JAMA Network

Bauchner 主编在声明中表示:医学期刊最重要的特质之一是准确,而 Wansink 频繁(被)撤稿的现象给他的研究带来了很多不确定性,我们已经要求康奈尔大学重新评估他的研究,在积极的结果出现之前,我们不会撤销关注声明。

这不是 Wansink 第一次和学术不端扯上关系。早在去年底,他就因为一年内有 5 篇论文被撤稿(其中一篇被撤两次)、论文修改 13 次,而被《科学人》列入 2017 年度十大撤稿事件。据《撤稿观察》 (Retraction Watch) 的数据显示,到目前为止,Wansink 所涉及的期刊撤稿和关注声明一共 29 个。根据撤稿时间倒序,我们将其中被撤稿的 7 篇论文整理如下:

序号

文章

发表期刊

发表日期

撤稿日期

1

Shifts in the Enjoyment of Healthy and Unhealthy Behaviors Affect Short- and Long-Term Postbariatric Weight Loss

Bariatric Surgical Practice and Patient Care

3/01/2017

3/19/2018

2

Attractive names sustain increased vegetable intake in schools

Preventive Medicine

07/27/2012

02/26/2018

3

Profiling taste-motivated segments

Appetite

10/30/2003

01/13/2018

4

How Traumatic Violence Permanently Changes Shopping Behavior

Frontiers in Psychology

09/06/2016

11/24/2017

5

Can Branding Improve School Lunches?

JAMA Pediatrics

10/01/2012

10/20/2017, 09/21/2017

6

Low prices and high regret: how pricing influences regret at all-you-can-eat buffets

BMC Nutrition

11/19/2015

09/15/2017

7

Sensory Suggestiveness and Labeling: Do Soy Labels Bias Taste?

Journal of Sensory Studies

11/01/2002

04/10/2017

 

所以,他的研究到底出了什么幺蛾子?

1. 论文重复发表、自我抄袭

Wansink 15 年发表的一篇论文和他 13 年的论文有 1376 字重复,虽然他把自己的论文加进了参考文献中,还是被期刊要求修改。

相似的,另一篇发表于 2003 年关于大豆的论文因为一稿多投而在去年被撤稿。

2. 样本年龄错误

Wansink 2012 年发表在期刊《预防医学》 (Preventive Medicine) 上、现已被撤稿的一篇论文,研究了小孩吃蔬菜这件事。他发现如果给难吃的蔬菜取个酷点儿的名字,比如“X 射线眼胡萝卜,会让小孩改变心意,爱上胡萝卜,从而提高蔬菜摄入。不过,后来 Wansink 承认实验样本并不像论文里写的是 8-11 岁的学生,而是 3-5 岁的小朋友。

3. 用结论操纵数据、数据作假

Wansink 和其团队的邮件记录证实,他在许多研究中操纵数据。比如在一个有关自助餐的项目中,Wansink 要求实验室的研究生根据 p 值倒推变量,尝试不同变量,直到得出一看就能火的结果才行。

事实上,学术界对 Wansink 这些受欢迎的研究是否具有信度和效度早存在争议。来自波士顿东北大学的 James Heathers 自己编程,通过统计学原理,从一些已经发表的研究结果中推出原数据的可能面貌。

在跑完 Wansink 的几十篇论文数据后,他发现了 150 多处数据不一致。其中就包括上面的提到的胡萝卜实验。要得到和实验数据相匹配的结果,其中某个样本需要吃掉 60 个胡萝卜。对于 Wansink 给出的实验用到的是只有正常大小 1/4 的小胡萝卜,期刊编辑认为非常牵强。

Buzzfeed Wansink 事件进行了一系列报道,他们结合学界其他研究者的意见,认为这些论文中出现的数据不一致,主要是 Wansink 团队在 p-hacking

关于 p 值,以及它有什么问题?

在研究型论文中,多数研究者会使用假设检验的方法来统计概率。简单来说,假设检验的逻辑过程有 4 步:

  1. 提出问题,同时根据问题作出两个相反的假设,即零假设和备选假设
  2. 根据样本数据,算出零假设成立前提下,样本观察结果出现的概率,也就是 p
  3. 按照学术界标准,当 p<=5%,也就是我们常说的实验结果显著
  4. 得出结论,零假设被否认

为了让实验结果显著,大研究人员都受到不少来自 5% 这个硬指标的压力。感受一下豆瓣网友翕如这张饼图:

跑数据心情

图片来自:豆瓣

为了使 p 值好看,统计时一旦 p 值显著就停止收集数据、根据 p 值显著性倒推变量、删掉一些初始变量改变 p 值等操作都属于 p-hacking

这也就使容易被人为操作成为 p 值的一个黑点。反对 p 值的研究者认为,p 值应该作为衡量实验结果的参考,而不是唯一标准。意得辑专家视点此前就报道过,为了说明 p 值的存在的问题,期刊《Basic and Applied Social Psychology(BASP)   2015 年宣布禁用假设检验及相关的统计程序。

此外,p 值的可重复性低也一直是个问题。弗吉尼亚大学的心理学教授 Brian Nosek 花了 3 年时间和同行研究者对 100 个已经发表的研究重新测试。这些早先 p 值显著的研究中,只有 36% 在二次实验中 p 值依然显著。p 值的不稳定性和样本体量、环境、学科领域间等因素有关。比如在上述项目中,认知心理学研究中的 p 值可复制率是社会心理学研究的两倍。

意得辑专家视点相关阅读:

参考资料:

文章封面图片:flickr 作者 fickleandfreckled

期待学术生涯高歌猛进,发表过程一帆风顺?

来加入我们活力洋溢的在线社区吧。免费注册,无限阅览。

社交账号一键登入

已有54300名科研人员在此注册。

Found this useful?

If so, share it with your fellow researchers