2026-06-11站内改写2 分钟阅读更新: 2026-06-12

当最聪明的AI还不够聪明时，Benchling如何构建智能体

Benchling，一家生命科学研发数据平台，在2025年10月推出了Benchling AI，包含一个由智能体支持的聊天界面。其AI主管Nicholas Larus-Stone与LangChain CEO Harrison Chase讨论了构建科学工作智能体的复杂性，包括使用多模型架构、生产追踪审查以及可验证科学任务的策略。

来源LangChain Blog

在最新一期的Max Agency播客中，Benchling的AI主管Nicholas Larus-Stone与LangChain联合创始人兼CEO Harrison Chase展开对话，深入探讨了在生命科学领域构建智能体所面临的独特挑战。Benchling是一家自2012年运营的研发数据平台，为生命科学公司提供存储和管理实验、样本、仪器和分析的服务。2025年10月，该公司推出了Benchling AI——一个由智能体驱动的智能层，通过聊天界面帮助科学家查找数据、设计实验和撰写报告。

Larus-Stone通过其创立的分析初创公司Sphinx Bio的收购加入Benchling。他指出，与编程智能体不同，科学工作流中的智能体必须处理可验证性较低的任务，因此他们采用了一些创新方法。

多模型架构

Benchling没有在同一模型上多次运行，而是针对同一任务调用不同提供商的模型。不同模型家族会犯不同类型的错误，因此这种多模型方法提供了更强的质量指标。如果多个模型达成一致，则表明数据质量良好；如果存在分歧，通常意味着出现了错误。Larus-Stone表示：“每个模型都会犯略有不同的错误……能够询问不同的模型提供商，我们发现这能带来更好的性能。”

生产追踪审查

在科学研究领域，评估方法有其局限性。Benchling采用结构化方法审查生产追踪日志。每周他们设有一位轮换的“消防队长”，负责标记问题并在每周的技术运营会议上讨论。对于外部信号，他们关注用户给出的“赞”和“踩”反馈。产品经理和工程师会查看特定功能的追踪记录，了解用户实际使用情况。

智能体的实际影响

Larus-Stone指出，智能体正在压缩工作流程，减少获得答案所需的实验数量。通过消除步骤间的空闲时间，节省的一天常常能变成一周。此外，智能体帮助科学家更严谨地设计实验，从而减少达到结论所需的运行次数。

其他讨论话题

对话还涉及Benchling为何在前期投入大量精力获取干净数据、如何通过模型交叉检查获得更多价值、生产追踪的重要性、AI目前在科学领域的实际应用与局限，以及为何理解LLM更接近生物学而非软件工程。Larus-Stone强调，科学智能体的构建需要一种实验性的方法，类似于科学发现本身的过程。

播客深入探讨了可验证与非可验证任务的区别、在没有干净基准时如何进行评估、上下文工程（SQL与基于文件的框架）、智能体创建和更新自身技能的记忆机制，以及为科学家提供的用户教育。他们最后讨论了智能体何时能发现新的疾病疗法，以及为什么生物学领域的微调尚未超越前沿模型。