You are here

误用文献计量学分析让科学家将重心从研究移往追求分数

Sneha Kulkarni | 2017年7月27日 | 7,925 浏览次数
误用文献计量学分析让科学家将重心从研究移往追求分数
David A. Pendlebury

David A. Pendlebury 从 1983 年就开始担任科睿唯安 (Clarivate Analytics) 的引用分析师,科睿唯安前身为汤森路透知识产权与科技。David 在完成古代历史的本科和研究所学业后,在美国科学情报所 (Institute for Scientific Information, ISI) 担任翻译员和索引人员,ISI 于 1992 并入汤森路透,他还与 ISI 创始者 Eugene Gerfield 一同合作私人研究项目。1987 年,David 在《The Scientist》报纸上开设研究专栏,两年后加入公司的研究服务团队,帮助发行《Science Watch》报纸。身为研究团队的一员,他协助设计开发科睿唯安基本科学指标 (Claricate Analytics Essential Science Indicators),基本科学指标是提供全球研究出版和引用数据表现与趋势的数据库。David 与全球中央单位、学术单位、企业和科学出版社都有丰富的工作经验。

理解研究的影响力是很重要的,今天,快速变化的数字学术出版产业对评价研究影响力的人来说有机会也有挑战,此次与 David 的访谈聚焦在文献计量学及其使用,讨论他在科睿唯安的工作,以及科睿唯安宣布的 Eugene Garfield 引用分析创新奖 (Eugene Garfield Award for Innovation in Citation Analysis)。

您在科睿唯安的主要工作内容是什么?如果能谈谈您当初是怎么开发科睿唯安基本科学指标的话,那就再好不过了!

我专注在沟通信息检索、研究评价和科学监控引用分析的可能性与威力。基本科学指标 (Essential Science Indicators, ESI) 是 2000 年由研究部门的团队所开发的,(当时的)领导是汤姆森科技信息集团 (Tomson Scientific) 的主任 Henry Small,那时我们主要的目标是提供可以轻松取得十年间在 22 个学科领域的出版和引用统计信息。ESI 也有非常宝贵的研究数据,是通过过去五年的高引文章的共引文分析 (co-citation analysis) 所找出的专门领域。共引文分析能找出发表文章间的相似度,因为他们经常被一起引用。Henry 在 70 和 80 年代率先进行研究领域的共引文集聚和科学测绘。ESI 数据每两个月会更新一次,让这个数据库成为最能跟上主要研究活动的信息来源。ESI 现在隶属 InCites 平台,是发表影响因子的期刊引证报告 (Journal Citation Reports) 其中的一份子。InCites 平台使用我们的 Web of Science 数据,提供用户不同维度的出版和引用数据研究评估和标杆。所以这些工具和数据是设计来提供研究架构和动态的观点,发现重要和成长的领域,找出表现杰出的人,还有帮助信息检索或信息发现。

您的工作中,有一些特殊项目,例如预测诺贝尔奖得主,您是怎么进行这方面的工作的?

从最早期 Eugene Garfield 的科学引文索引 (Science Citation Index, SCI) 工作中,我们的数据中的桂冠科学家,也就是大家一般认为的诺贝尔得主,他们和所谓的一般科学家间的区别很明显。Garfield 在 1965 年(当时只有几年的数据)就说过,诺贝尔奖得主的平均发表数是一般研究人员的五倍,平均引用数为 30 到 50 次,他也表示几乎每一位诺贝尔奖得主有一篇或多篇“引文经典”(Citation Classics),引文经典是引用排名位于领域中前 0.1% 的文献。我们科睿唯安的研究人员会在诺贝尔奖颁发的科学领域,也就是生理学或医学、物理学、化学和经济学中,搜索引用数特别高的论文(一般超过 2 千次引用),检查找出这些文章的作者、这些文章中报告的研究发现本质以及这个研究和研究人与是否曾得过诺贝尔奖。在许多案例中,我们都发现确实如此,因此我们将重点放在有高引论文但还没有接到瑞典人打来这通令人兴奋的电话的科研人员。高引论文还有顶级奖项间的关系没有什么特别的秘密:这两个都反映出高度尊重,前者是数量,而后者是根据同僚所评价的质量。

是否可以请您为意得辑专家视点的读者说明文献计量学 (bibliometrics) 和科学计量学 (scientometrics) 的差别?

文献计量学 (bibliometrics) 是从希腊文 biblios 和 metron 而来,意思是书籍或卷轴,还有测量,因此文献计量学是各种出版的测量,不论是书籍或期刊。早期图书馆员用这来找出所谓的核心期刊,改善图书馆藏书,还有观察使用趋势,做为藏书决策的科学依据。科学计量学 (scientometrics) 这个词大概是在 1960 年代晚期,由博学多闻的俄罗斯人 Vasily Nalimov 最先提出的,当时他谈到 naukometriya,nauk 在俄文中是科学的意思,所以将文献计量学用在科学就是科学计量学。科学计量学研究比为图书馆员分析科学期刊来得更广,其中包含了研究表现、创新、科学沟通、领域结构与动态还有政策相关的项目,例如基金。

就您看来,使用文献计量学有什么优缺点?

你的问题或许可以看成“指标的用处是什么?”,还有“指标有什么危险?”。我们必须要知道指标可以是很有用的。开尔文格言说如果我们可以衡量事物,我们会知道我们对什么更感兴趣,没有衡量,我们的知识是浅薄的。我想要强调可能的“缺点”,其中包含:使用不完整或不精确的数据、采用没有办法回答问题的指标、只看单一或综合的指标(不足以测绘众多不同的研究活动和影响力)、没有使用相关或标准化的指标确保对等比较、相信数据自己会说话无需领域专家阐释就可以使用等。

您是否觉得科研圈里的人,例如决策人员和基金单位,误解了文献计量学,或是错误地使用文献计量学?常见的误用情况是什么?

是的,确实是,这非常令人痛心。落实简单单一的衡量体系(如 h 指数或平均影响因子)来进行评价还有决定基金,破坏了大众对公众业务的信心和文献计量分析的价值,而我很不幸地很常看到这个情况,它还改变了科研人员的行为,他们开始追求分数,而不是专注在研究上,这对科学有腐蚀性的影响。要防止这些误用的一个方法是确保引用分析是补充同行评审,而不是替代。人决定内容和质量,而文献计量指标是代表或迹象,不提供显著性或数值。

在不断进化的科研版图中,您认为文献计量学的挑战是什么?

一个是超过学术影响力的影响指标的需求,也就是超过大学范围之外的影响。当然,一直以来都有追踪基础研究和应用研究创新影响力的想法。科睿唯安使用自己的 Derwent 专利数据 (Derwant patent data) 来衡量创新已经超过五十年了。现今一个重要的研究领域是学术文献被最有价值的高引专利引用的分析,这能透露出学术与产业的重要连结。有越来越多的大学想要展现他们在经济成长上的贡献,证明自己值得获得高额的公众研究基金。随着社交媒体的兴起,收集新的研究影响力指标成为可能,特别是在大学内进行的研究活动对社会和文化的好处。altmetrics 是经常用来叙述多个不同类型的数据的词汇和潜力指标,例如用处、推荐或书签、新闻、博客、微博等等,altmetrics 是科学计量学研究最活跃的主题之一,但需要更多的研究来了解不同的 altmetrics 指标,它们的未来、意义和动能等,还有即使它们的定义较为广泛,跟研究影响力是否有任何关联。对于那些能提供影响力观点的指标,需要在年纪、领域或主题上正常化,这些才处在刚开始的阶段而已。目前 altmetrics 并没有取代传统指标的可能,但有可能成为传统指标的补充,不过现在说这些都还太早。

我对您最近在新闻稿中说的话有点好奇,您说:「小心分析发表和引用数据代表由数据驱动的科学决策和基金,也可能成为解决短板发展强项的关键策略。」可以请您进一步说明吗?引用数据如何能用在政策和基金决策上?

文献计量分析文献最大的好处是由上而下的切入,有可能总结大量的信息,决定研究版图中的关键特点,但这有可能不会被注意到或有人欣赏,因为传统在同行评审来自更有局限性的个人知识和经验的观点是由下往上。再来,具有高度偏倚的引文特征分布能快又有效地让人关注范围内最大或最高的作品。当然,一个领域中最突出的比起其他领域有可能是相对较小的数值,因为不同领域的平均引用数也不同。还有要记得的是根据期间做调整,因为发表较久的论文有较长的时间积累引用数,所以需要相对指标或标准化指标。引用分析可以表现的是研究在领域中的影响力或专业的正面证据,还有影响力与其他不管是科研人员、单位或国家的关联,这个证据能对影响前后提供更好地理解。由于不是所有的东西都能补助,有逻辑的做法是宣传或资助那些做出被证明具有影响力的研究的科研人员,但这并不是在说只有哪些在引用指标上有高研究影响力记录的人才有资格获得支持。已经有很多人都说过“缺乏证据并不代表证据不存在”,所以,除了过去成功的量化指标记录外,一定要保留依据知识和直觉进行政策和基金决策的空间,特别是为了支持处在科研早期的研究人员。

这只是完整使用数据驱动来强化研究能力的一部分而已,研究的生命周期比发表论文及其后续吸引的引用来得长多了。在发表前有同行评审,科研人员在发表前要投入大量精力改善研究记录。做这件事的高校研究人员应该要获得认可,即使是因为参与单位上持续进行的项目的整体策略获奖也是好事。这就是为什么科睿唯安最近会收购让科研人员分享、讨论、获得同行评审以及编校学术论文工作认可的全球领导平台 Publons 的原因。(http://news.clarivate.com/2017-06-01-Clarivate-Analytics-acquires-market-leader-Publons-creating-the-definitive-publisher-independent-platform-for-accelerating-research-through-peer-review) 抓取并衡量这个纬度的研究活动能扩展单位的数据,协助其决策。

科学计量学近来有什么创新的发展?

我已经有提到一些了,例如 altmetrics 还有通过取得全文数据能做到的情境和情感分析,基金数据分析也因为论文开始加入这个信息而变得可行。科睿唯安从 2008 年 8 月就开始收录基金来源,所以我们现在已经有将近十年的数据了。连结基金来源与发表论文还有从引用数所透露出的影响力成为新的前沿趋势,基金单位一定会想知道他们所做出的基金决定带来了什么结果和影响。加快产业、高校、政府和私人基金创新的渴望促进了越来越多的跨领域研究,跨领域研究的未来、本质和潜力能带来更多发现。定义跨领域研究则是个挑战,可以从很多不同的面向来看,特别是传统的领域界线已经越来越没有意义。尽管如此,就我来看,用回顾性和前瞻性的方式研究,结合不同纬度的知识,如何产生重要的研究发现会是科学计量学的沃壤。另外跟这个有点关联的是科学融合的成长,感谢计算机速度、内存的提升,还有许多学术团体开发出的软件,让人可以自己轻松做出多种视觉化图像。

今天学术出版领域正经历快速的数字化转换,现在数据可以被许多人用不同形式储存在多个平台上,这样子的开放取得是否让信息检索复杂化?文献计量学在这个复杂的数字期刊出版中能如何帮助信息检索?

从印刷到数字媒体的进步是大家乐见的,已经而且将会继续对信息的散布、使用和分析带来革命性的改变。我喜欢手上拿着书本和期刊的感觉,我也觉得阅读印刷资料比在屏幕上阅读容易,但这也许是印刷本唯一的好处了,当然,要利用数字转换带来的可能性需要适应。作者和单位的独特识别码 DOIs (Digital Object Identifiers) 是基本必备的,现在也越来越多地方采用。ResearcherID 或 ORCID 这类独特的作者识别码因为能解决作者的姓名问题,当其被全球广泛采用时,将会大大帮助科学计量分析,引用句子分析得以进行,解析出引用事件的背景和情感。区别引用的“质量”这个议题已经讨论了好几十年,但现在终于在技术上得以大规模进行。我所说的“质量”指的是看清参考内容是正面或支持、负面或批评还是单纯中立。为了加速这方面的发展,科睿唯安最近宣布资助 ImpactStory 的 oaDO 服务,该服务通过免费快速开放的 API 提供开放获取全文版本的已发表文章 (http://news.clarivate.com/2017-06-23-Clarivate-Analytics-announces-landmark-partnership-with-Impactstory-to-make-open-access-content-easier-for-researchers-to-use) 我想我应该提一下“大数据”分析,但不同人对这个词的理解不同,而且有些过度宣传了,不过,全文论文还有与其相关的数据集应当要进行挖掘,解析出所有各种新的关联和连结。这个挖掘不仅限于文字,还可以用在引用上,这已经是正在发生的事了。

这些听起来都很振奋人心。这里有一个比较个人的问题,Eugene Garfield 是科学计量学的先锋人员之一,而你跟他密切地工作了好几年,能跟我们分享与他一起工作的经验吗?

能够跟他一起工作超过三十年真的非常荣幸,他对我来说是 mentor 也是朋友。许多人认为他是商人或是创业家,设计贩卖 Web of Science 和 Current contents 这类数据库商品,但我认为他是第一个也是最重要的研究人员,他对分析和了解数据的热爱远胜于其他事物,因此能创造出这些商品。他的学术贡献(不只发明科学的引文索引)成就了他和科学计量学之父 Derek de Solla Price。噢,我有说到他是个天才吗?他当然是,但他也是慷慨善良的人。我很想念他。

最近科睿唯安宣布 Eugene Garfield 引用分析创新奖,能请您稍微介绍一下这个奖项吗?

在 Gene(Eugene 的昵称)于今年二月底过世后不久,科睿唯安决定以他的名义创立一个奖项来纪念他。我们几个参与这个奖项设置的人选择了他一生工作的核心“引用分析”做为奖项主轴,因为被引的文献是 SCI 构成的重点,而他用了七十年的时间研究一种又一种的形式。这个奖项将会支持跟引用分析有关的研究项目,但不仅限于研究表现的研究,科学结构分析、科学测绘、监控趋势还有信息检索引用的功用都包含在内,这些是 Gene 一开始感兴趣的领域。第一次的得奖名单会在庆祝 Gene 的一生的活动上公布,预定在今年 9 月 15 到 16 日在菲律宾举行。除了奖项外,还有 25,000 美元的奖金,以及取得支持研究项目的 Web of Science 数据。我们希望处于科研早期的研究人员来申请,也就是取得博士学位不满十年的人。

【感谢 David A. Pendlebury 接受意得辑专家视点的采访,与我们分享这么多有用的观点!】

知识共享许可协议

如需转载,请注明原文出处:https://www.editage.cn/insights/2154.html

重新发布

喜欢这篇文章的内容吗?欢迎重复发表!
《意得辑专家视点》深信知识需要开放给所有大众并传播,因此我们鼓励读者重复发表我们的内容,重复发表形式可为在线或印刷。我们采用知识共享(Creative Commons license),只要您遵守以下事项,即可免费重复发表我们的内容:
  • 作者信息:请尊重我们的作者,他们花费了时间精力为您撰写这些有价值的内容,重复发表时加注作者信息。
  • 意得辑专家视点:必须注明文章出自《意得辑专家视点》。
  • 表达您的情意:您可以加句“前往《意得辑专家视点》阅读全文”之类的话,啊,还有,别忘了加上文章链接。
  • 重复使用图片:要使用某些文章的图片必须事先取得许可,并加注图片原始出处。
  • 镶嵌代码:要重复使用这篇文章最简单的方式就是将下面的代码复制贴上您的页面!

 

请将上方代码直接复制贴上到您的网站,即可重新发布

Filtered HTML

  • Web page addresses and e-mail addresses turn into links automatically.

Plain text

  • No HTML tags allowed.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Lines and paragraphs break automatically.