未被用于直接评估论文质量

慎用人工智能介入同业评议_同业_人工智能 AI快讯

  进入21世纪第二个十年,环球科研产出大幅增加。
2019年12月,美国国家科学基金会发布报告称,过去10年环球科学和工程学领域经由同行评议的期刊论文和学术会议论文每年增加约4%。
据同行评议平台“最小可揭橥单位”统计,2013—2017年环球同行评议学术期刊收到的投稿数量每年增加6.1%。
此外,由于期刊间很少共享同行评议见地,而且短缺统一的“行业标准”,遭到某家期刊退回的稿件如果被投至另一期刊,常日须要再次进行同行评议。
根据美国预印本平台“研究广场”对环球范围内12000份期刊进行的估算,这些期刊用于重复或不必要的同行评议的韶光每年高达1500万小时。
学术论文数量的显著增加,以及拒稿后的重复评议使同行评议事情压力不断上升。

  切科对表示,当前很多基于机器学习、自然措辞处理等技能的自动化学术筛核对象已被投入利用。
个中,有名度较高的工具包括:用于检测生理学同行评议论文中的统计偏差的Statcheck、自动检讨科学文稿是否符合期刊哀求的Penelope.ai、自动提取关键词以总结文稿内容的UNSILO、加拿大卫生研究院2012年引入的科研经费申请过程在线管理系统等。
不过,这些工具仍处于发展初期,也受到了一些质疑和批评。

  目前,人工智能工具未被用于直接评估论文质量,而是紧张被用于在同行评议中帮助消灭抄袭行为、检讨合规性、匹配评议员与待评议论文。
切科等人希望进一步稽核人工智能和大数据对同行评议过程的赞助浸染,尤其是要弄清在那些冗长乏味、对智力投入和专业知识哀求较低的环节中,人工智能技能将发挥何种浸染。
同时,与性别、措辞、机构等干系的偏见可能存在于同行评议过程中,用人工智能对人类决策建模或有助于揭示并减轻这些偏见。

  研究职员网络了三次国际性学术会议的资料,并将数据分为用于建立模型的演习组和用于评估模型预测能力的测试组。
接下来,他们对论文进行特色提取和特色增强。
这些特色被用于设计一个神经网络,它通过剖析论文的词频、可读性(单词长度、句子长度、词汇繁芜性等)、格式元素(可在一定程度上与研究内容分离的特色),来识别文档特色与终极的同行评议决定到底有何关联,以及这些关联有无规律可循,并据此预测一篇论文的同行评议结果。

  根据平菲尔德和英国拉夫堡大学出版与信息科学教授詹妮·弗莱(Jenny Fry)等人的研究,学术出版的质量保障体系可分为同行评议前筛查、同行评议、出版后评估三个部分。
第一部分检讨有无抄袭、格式、元数据等,第二部分评估研究的新颖性、主要性、干系性/范围、严谨/完善程度,第三部分涉及引用率、读者评论或出版后同行评议。
切科等人设计的模型包含对措辞表达质量和论证质量的稽核,也便是第一和第二部分的重合区域。

  模型预测有助提高审稿效率

  研究职员将模型预测结果与真实的同行评议决定进行对照后创造,纵然只采取词语分布、可读性、格式等比较表面化的特色来演习,机器学习系统也常常能够成功预测人类评议员的决定。
可能的缘故原由紧张有两点。
一是表面特色与同行评议结果间的关联在一定程度上是衡量论文整体质量的标志。
换言之,如果一篇论文措辞不通顺、格式混乱、让人难以读懂,在其他更本色的层面上,该论文的质量也可能较低。
如果是这样,表面特色可以作为有用的质量替代指标,编辑职员可采取人工智能工具筛查出疑似的低质量论文并直接拒稿,无须交给同行评议员。
纵然低质量稿件未被编辑直接谢绝,将它们标记出来也有助于节约同行评议员的韶光和精力。
二是论文的表面特色得分较低可能造成一种“第一印象偏见”——拼写、格式或语法缺点等相对表面化的问题给同行评议员带来负面印象,因此遭到拒稿。
如果一篇论文引用了来自科学文献代表性不敷的地区的研究,或利用了曾经被拒稿的研究中的方法,也可能使同行评议员产生负面印象。
在这种情形下,人工智能工具可以帮助作者在同行评议前识别并修正论文中的表面问题。

  研究职员表示,这次研发的人工智能工具对同行评议员和论文作者都有益处。
首先,这种工具可用于投稿前检测,第一韶光提醒作者修正表面问题,以免遭到拒稿。
只管它可能将高质量但不同平凡的笔墨或格式选择误判为缺点,但作者可以根据“警报”自行决定是否进行调度。
在同行评议前肃清表面问题,也能帮助同行评议员更多聚焦于论文的本色科学内容,避免因“第一印象偏见”而作出不恰当的决策。
其次,人工智能工具可为履历不敷的同行评议员供应参考见地,例如待评议论文的风格、措辞表达、格式在多大程度上偏离了以往的研究。
此外,虽然完备弄清同行评议过程中涉及的认知和决策机理是很困难的,但通过大数据剖析和人工智能技能来剖析人类的认知和决策过程,或可使认知和决策过程中比较表面化的部分变得清晰可见,进而揭示出表面化的成分可能造成的偏见。

  考虑三个关键的伦理风险

  研究职员提醒,由于演习数据来自过往,机器学习技能在实质上是守旧的。
利用自动工具帮忙未来决策时,须要预防偏见被复制或其他意外后果。
例如,来自历史上科学文献代表性较低的国家的论文被谢绝的概率可能更高,由于人工智能未必能充分考虑到随着韶光推移这些国家的论文质量已提高。
其余,期刊编辑方向于从高收入地区选择同行评议员。
根据“最小可揭橥单位”2018年发布的报告,经美国学者同行评议的论文占环球论文总数的32.9%,高于美国学者揭橥论文的比例(25.4%)。

  新研究表明,在设计和运用人工智能、决定它在决策中的浸染时,须要仔细考虑三个关键的伦理风险。
第一,当原始数据与它们对模型预测的影响之间的联系难以阐明时,算法不透明可能导致不信赖。
如果同行评议决策的依据不透明,作者会不信服。
运用人工智能赞助决策时应尽可能增加模型事情办法的透明性,以便对决定作出阐明并证明其正当性。
第二,模型是设计者遵照特定的代价不雅观和目标而选择的设计路径的产物,这些代价不雅观和目标将不可避免地“凝固于代码当中”。
基于过往结果的机器学习模型可能传播乃至扩大学习数据中已有的文化和组织偏见。
偏见还有可能源于技能限定或新兴的运用背景。
第三,纵然只用机器学习模型来标记有问题的论文、供应参考见地,模型对文稿的解读也可能影响同行评议员的能动性。
模型将疑似问题标记出来这一行为本身,可能使这些成分在同行评议员心中的主要性上升。

  切科对本报说,据他们不雅观察,学术出版专业职员和同行评议员目前大多反对将人工智能运用于繁芜的质量评估任务,纵然只是实行较大略的步骤。
反对的紧张缘故原由是人工智能工具还不能可靠地评估科学内容的质量,且透明性不敷,有引入偏见的风险。
我们间隔利用机器学习系统评估整篇文稿的新颖性、干系性、严谨性,还有很远的间隔,现有的自然措辞处理工具仅能理解单一句子或段落的意思。

  切科等人就未来的研究方向提出几点建议。
一是要通过实验,理解同行评议员利用人工智能工具时的行为,肃清模型旗子暗记给评议员制造的偏见。
二是要采取完全的同行评议结果(不仅是建议接管/谢绝,还包括详细见地),来更好地演习人工智能工具。
三是要扩大对“第一印象偏见”的研究范围,将更多的指标纳入考量。
四是要在不同学科背景下设计和运用可实行半自动质量评估任务的人工智能工具。
五是要探索如何借助人工智能技能评估科研经费申请。

来源:中国社会科学网-中国社会科学报 作者:王悠然

欢迎关注中国社会科学网微信"大众年夜众号 cssn_cn,获取更多学术资讯。