AI润色效果几何,这里有四款工具的综合测评

AI润色效果几何,这里有四款工具的综合测评

ChatGPT于一年前问世,AI话题热度至今未退。有人叹谓新兴科技,也有人关心技术和自身有什么关系。在Nature近日发布的一项样本为1659人的调查中,有超过半数受访者认为目前AI在科研中的可施展之处在于为非英语母语者作文章润色及翻译。

 

而在ChatGPT之前,市面上不乏以人工智能驱动的翻译、润色工具。作为学术出版从业者,我们及用户最关心的问题不外乎:AI润色质量如何;能否取代人;哪款工具最好用。

 

本文带着祛魅的目的对四款AI工具作了测评,希望能解答以上问题。愿你看过之后善用科技,不因未知而仰望,也无谓傲慢贬损。鉴于出版界目前对AI生成的文字持保守态度,许多期刊、基金、协学会不接受以机器撰写内容投稿,我们仅将测评范围划定在语言润色功能内。

 

统计标准定义

本测评以一段约600字的研究型论文为样本,分别经四款AI工具润色语言,另外引入人工润色结果作为对照。

 

将人工润色纳入对比,一来是模拟科研作者先用AI润色再自行校对的过程;再则是出于学术道德考量,表明学术文章的署名作者可以借助工具完善内容,却也应明确对工具作业结果负责的立场。

 

*样本文章为中文母语者撰写,英语是其第二语言。测评前作者已知情同意,原文可见参考文献。

 

本测评以人工编辑润色结果为标准,判断AI工具的语言编辑效果,评估指标如下:

 

改对:即工具修改结果与人工编辑改动一致。

改错:即工具修改结果与人工编辑改动不同,且含语法错误。

未改:即工具未识别出人工编辑作出的改动。

改进:即工具识别出人工编辑遗漏的错误。

无明显对错:即工具修改结果与人工编辑改动尽管不同,但语法正确,仅涉及语言风格、措辞等变化。

 

编辑效果之改了多少

在深入至“AI能改到什么程度问题之前,不妨先看看改写量。

 

  • Grammarly未识别出的错误最多,不过但凡有改动都校正准确;
  • Paperpal识别出了所有问题,改对数最多;
  • QuillBot遗漏了超过半数的错误,在29处改动中仍有1处改错;
  • ChatGPT的改动总数最多,但改错率也最高。有超过一半的改动无明显对错,这是因为ChatGPT对文章的改写程度高,至于是好是坏下文还会展开。

Default Alt text

Default Alt text

 

*测评工具均为免费版,分别为Grammarly FreePaperpal FreeQuillBot FreeChatGPT 3.5

 

编辑质量之改动优劣

错在哪里

AI工具的润色或者说改写逻辑,其一是替换同义词。换得好能令行文正式、用词不单一。但对作者判断是否替换得当的要求也更高,在没有学科知识结构支撑的情况下,换词很可能让术语走样。

 

由同义词替换引发术语出错也是此次测评中最常见的问题,分为两类。

 

1.改变术语意思

ChatGPT在编辑中,将learning改为acquisition(图3)。不过从data learningdata acquisition,定义的内容已经变了。

Default Alt text

3-润色改变术语意指

 

4中也有类似例子,ChatGPT将原文中的parallel mechanism用同义词作了替换,parallelconcurrent都有同时发生的意思。但在计算机领域中,并行“parallel mechanism”是并发“concurrent mechanism”的子集,两者表达的精准度有别。

 

Default Alt text

4-润色改变术语精确度

 

2.祛技术性

QuillBot的返稿中,计算机术语时间步长time step被改为step,偏移了学术语境。

 

Default Alt text

5-润色祛除术语专业性

 

基础语法编辑效果对比

1.单复数

英语中有集合名词,以单数形式出现,根据语境其单复数性质会有不同。比如people从不加-s,但所指绝不止一人。

 

以下例句中的vector就被当作实际意义为复数的集合名词写了下来:

Afterwards, the feature map with channel-attention is split into a series of the vector containing feature information along the time dimension.

 

vector在计算机领域指存放数据或数据结构的序列,可译为序组,是可数名词。所以句中的vector理应改为vectors。此处或许是原文作者笔误,因其样本文章中多次出现vectors一词,都用对了单复数。

 

测评中,ChatGPTPaperpalQuillBot对此错误都校正准确。Grammarly对单复数未作改动,既没能判断单句中的词性词意,对上下文用词一致性的把握也欠火候。

Default Alt text

6-对单复数编辑正确的工具

Default Alt text

7-对单复数编辑错误的工具

 

2.冠词

当非母语者的笔触落在冠词上,往往伴随着犹疑。不该添冠词的地方加多了,会显得唐突;而把应有的冠词略掉,句子的韵律生被抽走一拍,可读性受阻。更重要的是冠词有其功能性,影响着表意。

 

样本例句:

Due to the presence of parallel mechanism in decoder, the inputs after the current time will be set to zero in order to facilitate the calculation.

 

这句话说的是:由于解码器的并行机制,输入计法是如何设置的。前半句中少了两个冠词,实际应为“Due to the presence of a parallel mechanism in the decoder...”

 

decoder特指研究中的解码器,有点名意味,宜用the修饰。而parallel mechanism则泛指并行机制这一运行逻辑,结合语境前面用a修饰更合理。

 

这两处错误GrammarlyPaperpalQuillBot都修改正确;ChatGPT识别出句子少了两个冠词,但其中一处校正有误,将a parallel mechanism前的冠词写作the

Default Alt text

8-对冠词编辑正确的工具

Default Alt text

9-对冠词编辑错误的工具

3.从句用that还是which

拿不准定语从句用that还是用which是个顽疾,许多人初中英语课染病后始终治不好。

 

拿以下样本选句为例:

As shown in Fig. 3, the input of the proposed channel-attention-based CNN is a 2D data map which involves senser measurements in multiple time steps.

*此处“senser”是原稿中的拼写错误。

 

定语“which involves senser measurements in multiple time steps”,意为含多个时间步长的传感器测量值,修饰2D data map并定义其内容,属限定定语从句。

 

如按严格的语法应用,此处应该用that而非which,但现代英语已不做硬区分。用that最好,用which也不算错。

 

尽管如此,GrammarlyPaperpalQuillBot都严谨地替换为thatChatGPT按照其热衷改写的特性,用动词ing做后置定语,也无可指摘。

Default Alt text

4.主谓一致

主谓一致性语法难点有二,识别主语及判断其是否可数。

 

取样文章中有如下句子:

Although the size of input and output is seemingly the same, the meanings behind them are totally different.

 

input/output可同时做可数名词与不可数名词。结合语境,句中指机器学习中的输入输出序列,为可数名词。the size of input and output乍看是单数,但结合下文中的the meanings behind them则不难理解,作者的意思是the size of the input and the size of the output,属复数。

 

GrammarlyQuillBot没有识别出后文的隐藏线索,而ChatGPTPaperpal则在这句的编辑中展示了对语法和语境的两重理解。

Default Alt text

11-对主谓一致编辑正确的工具

Default Alt text

12-对主谓一致编辑错误的工具

 

综合评语

ChatGPT

ChatGPT得到的编辑指令是“edit and proofread the text into academic language”。编辑结果在修改语法之余做了大量改写,可以看作是同类工具grammar check + paraphrase两种功能的组合。文字流畅、贴近母语者水准;擅用同义词替换逻辑,把简单词汇转写为大词。后者对人工校对的要求高,替换是否有碍准确性,或用词是否过于艰深令表达效果失色,都需要专业判断。此外,编辑结果无法追踪修改痕迹,需借助第三方软件对比编辑前后文本,操作起来略有不便。

Default Alt text

Grammarly

改得比较浅,校正停留在基础语法上。尽管免费版支持设置书面/口语模式及调节受众理解力(图14),但在改稿中没有体现,专业用词替换或措辞调整的情况均为零。

Default Alt text

Paperpal

与人工编辑的润色结果非常接近,纠错和校正的综合效果好。测评仅启用了语言编辑功能,不涉及改写,返稿结果在专业上忠于原文,对学科术语有一定敬意,语言表达则更偏正式。比如将afterwardsafter that改为subsequentlymake clear改为clarify。其他三款工具除ChatGPT都没能向前迈这一步。

Default Alt text

Paperpal支持逐句查看扣分点,视图类似Word的追踪效果。句首自动归纳问题性质,如重新措辞、主谓一致、大小写等。但如能更详细地注释语法规则,给用户判断是与非一些参考会更理想。

 

QuillBot

语言编辑效果中规中矩,识别问题和改错准确性在Grammarly之上。QuillBot的语法释疑相对完善,即对改动之处给出的语法说明在其他三者之上。

Default Alt text

16-三款工具的语法问题分析界面

QuillBot允许用户上传文档,平台会在读取文档后将内容自动转写成文本开始编辑。遗憾的是,这一功能没能如我预期保护文档格式。样本文章含多处特殊字体或符号, QuillBot都未能识别,只用空格占位。需要说明的是,GrammarlyPaperpal也没识别出特殊字符,ChatGPT则用[Variable Name]统一指代,但它们均不支持上传文档,对格式完整的预期本身也低

 

参考文献

https://www.nature.com/articles/d41586-023-02980-0

https://www.science.org/content/page/science-journals-editorial-policies#image-and-text-integrity

https://www.sciencedirect.com/science/article/abs/pii/S0951832022000102

https://www.diffchecker.com/text-compare/

https://chat.openai.com/

https://app.grammarly.com/

https://edit.paperpal.com/

https://quillbot.com/grammar-check

 

∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵∴∵

Paperpal由意得辑母公司开科思研发,汇集逾二十一年的发表支持经验,是一款意图提升研究者英语写作体验的AI工具, 集语言编辑、文本改写与生成、投稿检查三类主要功能可令各类学术体裁生色,适用于期刊投稿、学位论文、基金标书、会议讲演稿等多种内容的编辑与改写。已获诸多顶尖大学与主流出版社背书,使用者覆盖130个国家,累积好评逾60万则

 

工作逻辑兼顾语言准确性与学术性,功能设计从辅助论文投稿出发,予写作者方便及效率。

 

你将获得哪些写作便利?

校正语言——识别用词、语法、拼写、标点错误,调整遣词造句,匹配英语母语者的编辑水准。

 

写作助手——草拟提纲、总结研究亮点、提炼投稿关键词,引出思路,避免无谓卡顿。

 

稿件完备度检查——依发表标准对稿件作逾30项语言及技术评估,备注改进建议,以期刊的眼光审视欠缺。

 

句段改写——复述语句、调整句型,令文章表达与叙述逻辑趋近英语母语者思维。

 

学术出版从业者独立研发——注入论文发表途中的经验同教训,令内容贴合科研语境,维护专业属性。 

 

47日前,新用户免费享Prime会员权益,不限编辑与改写次数,解锁付费限定功能——稿件完备度筛查。

 

更多详情,欢迎前往官网页面了解。

 

 

期待学术生涯高歌猛进,发表过程一帆风顺?

来加入我们活力洋溢的在线社区吧。免费注册,无限阅览。

社交账号一键登入

已有54300名科研人员在此注册。