改善学术工作流程:引入两个AI代理以改进图表制作和同行评审
Google Cloud 的研究团队推出了两个创新的 AI 代理:PaperVizAgent 用于自动生成高质量的学术图表,ScholarPeer 用于自动进行严格的学术论文评审。这两个系统通过多代理协作和迭代优化,在各自任务上显著超越了现有基线,为科学研究流程带来了实质性改进。
学术研究正以前所未有的速度发展,而 AI 的快速进步是其主要驱动力。然而,学术研究的工作流程以严格著称,远不止构思想法和撰写论文那么简单。研究人员面临的一大挑战是如何有效地可视化他们的研究成果。虽然 AI 可以起草文本,但创建顶级会议和期刊所需的方法论示意图和精确统计图要困难得多。此外,科学界依赖同行评审来维护已发表研究的完整性,但论文提交量的指数级增长严重压垮了这一系统,导致评审疲劳和评估不一致。随着语言模型和多代理系统变得更加复杂,我们看到了它们不仅是研究对象,而且可以成为科学过程本身的积极参与者。
为此,我们引入了两个新颖的代理框架:(i) PaperVizAgent(正式名称为 PaperBanana),一个用于绘制学术图表的可视化代理;(ii) ScholarPeer,一个自动严格评估学术论文(包括内联图表)的评审代理。这些代理专为协助学术研究生命周期而设计,使科学家能够专注于创新而非行政负担。我们的评估表明,PaperVizAgent 始终生成专家级质量的图表,显著优于领先基线(GPT-Image-1.5、Nano-Banana-Pro、Paper2Any),而 ScholarPeer 则提供高度批判性、基于文献的评审,超越了最先进的自动评审系统。
PaperVizAgent:生成出版就绪的图表
PaperVizAgent 是一个自主框架,旨在从学术文本生成出版就绪的学术插图。通过弥合技术描述与视觉传达之间的差距,PaperVizAgent 允许研究人员直接从手稿中创建专业级图表。启动过程时,研究人员提供两个输入:源上下文(通常是包含研究技术细节的手稿方法部分)和沟通意图(一份描述视觉应传达内容的详细图表标题)。
PaperVizAgent 框架协调了一个由五个专门 AI 代理组成的协作团队,包括:(1) 检索器、(2) 规划器、(3) 风格设计师、(4) 可视化器和 (5) 评论家。首先,检索器和规划器代理收集参考(例如,现有文献以引用相关学术图表)并组织内容。接着,风格设计师代理综合美学指南以确保输出符合学术标准。然后,可视化器渲染图像或为统计图生成可执行的 Python 代码。最后,评论家代理根据原始文本评估输出。如果发现不一致,评论家会向可视化器代理提供有针对性的反馈,触发迭代优化循环。通过迭代优化,这个多代理系统确保最终的插图在视觉上吸引人且技术准确。
在全面实验中,PaperVizAgent 始终优于领先基线——包括直接提示、少样本提示和 Paper2Any(一种最先进的可视化方法)。该系统使用比较评分指标(0-100 分,分数越高越好)在四个关键维度上进行了严格评估:忠实度、简洁性、可读性和美学。在此评估中,我们使用了一个以人工生成图表为输入的 LLM 判断器,并将人工表现基线设为 50.0。PaperVizAgent 取得了令人印象深刻的总体得分 60.2,显著超过了所有评估基线,如 GPT-Image-1.5、Nano-Banana-Pro 和 Paper2Any。值得注意的是,它是唯一在整体评分中超过人工基线 50.0 的框架。在具体维度上,该系统在简洁性和美学方面尤为出色,在这两个类别中的得分均远高于人类阈值。它还在生成统计图方面达到了与人类竞争的结果,证明了其多才多艺。这些结果代表了自动插图的重大飞跃。
用 ScholarPeer 模拟资深评审员
ScholarPeer 是一个上下文感知、启用搜索的多代理框架,旨在通过遵循高级研究人员的工作流程来自动化和提升同行评审过程。与将评审视为简单文本生成任务的标准语言模型不同,ScholarPeer 依赖于上下文获取和主动验证的双流过程。它使用子领域历史学家代理动态构建领域叙述,该代理将评审立足于实时的网络规模文献。基线侦察员扮演对抗性审计员的角色,专门寻找作者可能遗漏的数据集或比较基线。最后,一个多方面的问答引擎严格验证论文的技术主张,确保深入且基于事实的批评。最终的评审报告包括详细摘要、优势、劣势以及对作者的问题,就像标准专家同行评审一样。
ScholarPeer 的表现展示了将主动网络搜索与多代理编排相结合用于学术评估的巨大潜力。在广泛的公共数据集上测试时,ScholarPeer 在并排评估中实现了对最先进的自动评审方法显著的胜率。更重要的是,该系统的主动验证工作流程大大缩小了 AI 生成的反馈与人类级别多样性之间的差距,产生的评审高度批判性、现实且深深植根于现有文献。
PaperVizAgent 和 ScholarPeer 是我们更广泛的 AI 辅助研究探索的一部分。通过解决出版生命周期中两个不同但同样要求严格的阶段,这些工具充当了协作伙伴,提升了科学话语的质量,并且可以与其他工具一起加速知识的传播。虽然这两个框架为学术界提供了即时而切实的好处,但它们只是我们旅程的开始。我们设想一个未来,研究人员可以访问一个丰富、互联的 AI 助手生态系统,无缝集成到科学工作流程的每一个方面,我们正在积极继续这一领域的工作。