2026-06-09站内改写1 分钟阅读更新: 2026-06-09

评估AI代理在神经科学数据到发现流水线中的案例研究

本实证研究评估了通用编码代理在果蝇光遗传学数据到发现流水线上的表现。代理可以解决单个阶段，但在缺乏预定义标准、需要科学判断时表现挣扎。端到端自动化仍超出当前能力。

来源arXiv AI作者: Kai A. Horstmann, Ethan Lin, Alice A. Robie, Jennifer J. Sun, Kristin Branson

代理型人工智能工具为自动化科学研究流水线中的软件开发瓶颈提供了一条有希望的途径，尤其是那些需要领域专家花费数天到数月构建的阶段。科学家们关心的是正确性和稳健性，而非实现细节。本文介绍了一项实证研究，评估通用编码代理在果蝇光遗传学数据到发现流水线上的表现。该研究使用的任务规模远超现有基准，数据集数量级更大，评估标准基于领域专家的标准。

研究显示，代理能够解决几个独立的流水线阶段，表明阶段级自动化是可行的。然而，通过分析代理的代码迭代，研究人员发现，当没有预定义的迭代标准时，代理最挣扎，因为它们必须运用科学判断来评估当前解决方案。这是一个关键且开放性的挑战。模仿科学实践，代理有时会尝试通过视觉检查中间输出来进行自我评估，但大多数情况下它们无法正确解读所见或据此采取行动。

正确完成端到端流水线需要将所有阶段串联成功，这超出了代理当前的能力。研究还指出了现有基准中基本未涉及的挑战，包括计算资源管理以及对大型保留数据集的泛化能力。最后，研究者提炼了构建科学任务和针对开放式问题制定严格评估标准的原则，为未来AI在科学自动化中的应用提供了方向。