ArXiv将封禁上传充斥AI垃圾论文的研究人员
预印本平台ArXiv宣布新政策,将对提交明显未检查LLM生成结果(如虚构参考文献或聊天机器人遗留的“元评论”)的论文作者实施一年封禁,并要求后续提交需经同行评审会议或期刊接受。该政策旨在减少平台上的AI生成低质量内容。
文章情报
要点
- ArXiv将对提交含有LLM未检查证据(如虚构参考文献或LLM元评论)的论文作者封禁一年。
- 封禁后,该作者未来的提交必须先在知名同行评审会议或期刊发表。
- 政策仅适用于“不容置疑的证据”案例,作者可上诉。
- 此前ArXiv已限制计算机科学综述文章仅接受经同行评审的投稿。
为什么重要
这条新闻值得关注,因为ArXiv将对提交含有LLM未检查证据(如虚构参考文献或LLM元评论)的论文作者封禁一年。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
ArXiv,这个广受欢迎的预印本学术研究平台,近期出台了新措施,旨在遏制平台上充斥着AI生成低质量内容(即所谓“AI slop”)的论文数量。据ArXiv计算机科学章节主席Thomas Dietterich透露,如果一篇论文包含“不容置疑的证据,表明作者对LLM生成的结果未经检查”,例如出现虚构的参考文献或LLM留下的“元评论”,该论文的作者将被禁止向ArXiv投稿一年。不仅如此,在禁令解除后,这些作者未来的提交还需要首先在“知名的同行评审会议或期刊”上获得发表,才能再次提交至ArXiv。
Dietterich在社交平台X上详细解释了这一政策。他指出,根据ArXiv的行为准则,所有署名作者都应对论文内容负全部责任,无论这些内容是如何生成的。若生成式AI工具产生了不当语言、抄袭内容、偏见、错误、虚假引用或误导性信息,并且这些输出被纳入科学作品,责任应归咎于作者。针对此类违规行为,ArXiv已明确了处罚标准:如果提交的论文中包含不容置疑的证据,证明作者没有检查LLM生成的结果,那么该论文的可靠性将受到质疑。处罚措施包括从ArXiv封禁一年,并且后续提交必须先在信誉良好的同行评审平台获得接受。
Dietterich特别举例说明了“不容置疑的证据”的类型,例如论文中出现完全虚构的参考文献,或者保留着LLM生成的“元评论”,如“这是一份200字的摘要;您想让我做任何修改吗?”或“此表中的数据仅供说明,请用实验中的真实数字替换”等。他向404Media透露,作者可以就封禁决定提出上诉。同时,他强调这一政策仅适用于存在“不容置疑证据”的案例,并且内部流程要求首先由管理员记录问题,然后由章节主席确认后才能实施处罚。
值得注意的是,ArXiv去年就已经采取了措施来减少AI低质量内容,当时它只允许计算机科学领域的综述文章和立场论文在经过同行评审并被会议或期刊接受后才能发表。ArXiv当时表示:“大语言模型的出现使得这类内容相对容易按需大量生产,而我们收到的大多数综述文章只不过是一些带注释的参考书目,缺乏对开放研究问题的实质性讨论。”这些举措共同反映了学术界对AI滥用现象日益增长的担忧。