当最聪明的AI还不够聪明时,Benchling如何构建智能体
Benchling,一家生命科学研发数据平台,在2025年10月推出了Benchling AI,包含一个由智能体支持的聊天界面。其AI主管Nicholas Larus-Stone与LangChain CEO Harrison Chase讨论了构建科学工作智能体的复杂性,包括使用多模型架构、生产追踪审查以及可验证科学任务的策略。
在最新一期的Max Agency播客中,Benchling的AI主管Nicholas Larus-Stone与LangChain联合创始人兼CEO Harrison Chase展开对话,深入探讨了在生命科学领域构建智能体所面临的独特挑战。Benchling是一家自2012年运营的研发数据平台,为生命科学公司提供存储和管理实验、样本、仪器和分析的服务。2025年10月,该公司推出了Benchling AI——一个由智能体驱动的智能层,通过聊天界面帮助科学家查找数据、设计实验和撰写报告。
Larus-Stone通过其创立的分析初创公司Sphinx Bio的收购加入Benchling。他指出,与编程智能体不同,科学工作流中的智能体必须处理可验证性较低的任务,因此他们采用了一些创新方法。
多模型架构
Benchling没有在同一模型上多次运行,而是针对同一任务调用不同提供商的模型。不同模型家族会犯不同类型的错误,因此这种多模型方法提供了更强的质量指标。如果多个模型达成一致,则表明数据质量良好;如果存在分歧,通常意味着出现了错误。Larus-Stone表示:“每个模型都会犯略有不同的错误……能够询问不同的模型提供商,我们发现这能带来更好的性能。”
生产追踪审查
在科学研究领域,评估方法有其局限性。Benchling采用结构化方法审查生产追踪日志。每周他们设有一位轮换的“消防队长”,负责标记问题并在每周的技术运营会议上讨论。对于外部信号,他们关注用户给出的“赞”和“踩”反馈。产品经理和工程师会查看特定功能的追踪记录,了解用户实际使用情况。
智能体的实际影响
Larus-Stone指出,智能体正在压缩工作流程,减少获得答案所需的实验数量。通过消除步骤间的空闲时间,节省的一天常常能变成一周。此外,智能体帮助科学家更严谨地设计实验,从而减少达到结论所需的运行次数。
其他讨论话题
对话还涉及Benchling为何在前期投入大量精力获取干净数据、如何通过模型交叉检查获得更多价值、生产追踪的重要性、AI目前在科学领域的实际应用与局限,以及为何理解LLM更接近生物学而非软件工程。Larus-Stone强调,科学智能体的构建需要一种实验性的方法,类似于科学发现本身的过程。
播客深入探讨了可验证与非可验证任务的区别、在没有干净基准时如何进行评估、上下文工程(SQL与基于文件的框架)、智能体创建和更新自身技能的记忆机制,以及为科学家提供的用户教育。他们最后讨论了智能体何时能发现新的疾病疗法,以及为什么生物学领域的微调尚未超越前沿模型。