2026-05-27 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

人工智能在科学中的代理实验

本文介绍了两种新颖的自主AI代理框架——DeepTS/DeepCollector和DeepScribe，它们利用混合本地-远程架构自动化科学工作流程，包括时间序列数据整理和讲座报告转换，并讨论了向知识图谱和高能物理的扩展。

来源arXiv AI作者: Judy Fox, Geoffrey Fox

近日，arXiv上发布了一篇题为《Experiments in Agentic AI for Science》的论文，详细介绍了两种用于科学工作流的自主AI代理框架。这两套系统均采用了创新的“本地身体、远程大脑”（Local Body, Remote Brain）混合架构，通过Google Colab平台运行，利用基于Python的本地协调器调用大型语言模型（LLM）云后端，从而自动化复杂的科学任务。

第一种代理名为DeepTS/DeepCollector，专注于大规模时间序列数据集的自动化整理、提取和去重。时间序列数据在气候建模、金融分析和医疗监测等领域至关重要，但人工处理耗时且易出错。DeepTS/DeepCollector通过智能数据管道，高效识别、清洗和合并不同来源的数据，显著提升数据准备的质量和效率。其核心在于利用LLM进行模式识别和数据标准化，同时结合远程数据检查机制确保数据完整性。

第二种代理DeepScribe则是一个自主演示分析器，专门将视觉密集、数学复杂的物理讲座转换为结构化科学报告。物理学讲座常包含大量图表、公式和推理过程，传统方法难以自动解析。DeepScribe借助LLM的强大理解能力，结合细粒度属性提取技术（称为Cellular RAG），从幻灯片图像和演讲音频中提取关键信息，并以清晰结构呈现。该技术通过将文档分割为细粒度属性单元，实现了更精准的信息检索与整合。

论文还展示了多项系统工程创新，如分布式并发控制，有效克服了当前AI系统在上下文长度和推理能力方面的限制。例如，在同时处理多个数据源时，分布式并发控制确保操作一致性和效率。此外，远程数据检查允许代理实时访问和验证外部数据，增强了可靠性。

最后，作者提出了DeepTS的通用化扩展，以支持深度知识图谱，并讨论了该概念方法在高能物理中的应用（DeepQCD项目）。这一研究展示了代理AI在加速科学发现方面的巨大潜力，有望改变科学家处理数据、生成报告和构建知识体系的方式。未来，这类自主代理可广泛应用于跨学科研究，推动科学工作流的全面自动化。