构建可靠的自主AI系统
本文介绍了拜耳与Thoughtworks合作开发的临床前信息中心(PRINCE)平台,该平台利用自主检索增强生成(RAG)和Text-to-SQL技术,整合数十年安全研究报告,从关键字搜索演进为智能研究助手,能够回答复杂问题并起草监管文件。文章通过上下文工程和驾驭工程的视角,探讨了关键工程决策,重点突出信任、透明度和人机协作。
构建可靠的自主AI系统是一项复杂的工程挑战,尤其是在制药行业这样数据密集且对准确性要求极高的领域。拜耳公司与Thoughtworks合作开发的临床前信息中心(PRINCE)平台,为这一挑战提供了引人注目的解决方案。该平台最初是为了整合分散的临床前研究数据而设计的,这些数据通常存储在多个孤立的系统中,包括结构化的研究元数据和数十年积累的非结构化PDF报告。
PRINCE的演进经历了三个阶段:搜索、询问和执行。在搜索阶段,平台通过统一的门户整合了数千份非临床研究报告,主要利用结构化元数据实现高级过滤功能。研究者可以通过关键字和元数据筛选,快速定位相关报告,但面对复杂问题时仍显不足。随着生成式AI尤其是检索增强生成(RAG)技术的出现,PRINCE进入了询问阶段,允许研究者以自然语言提问,直接从非结构化数据中获取洞察。通过将向量化的报告存储在OpenSearch中,系统能够检索最相关的信息,并结合LLM生成上下文丰富的答案。当前执行阶段,PRINCE通过集成多代理系统,成为一个主动的研究助手,能够处理复杂查询、编排工作流程,甚至支持起草监管文件。
系统的核心架构基于LangGraph和FastAPI,利用上下文工程和驾驭工程来设计信息流动和模型管理。上下文工程决定了每个模型接收什么信息、排除什么信息,以及信息如何在研究、反思和写作等专门步骤之间传递。例如,研究者代理负责从数据库和向量存储中检索数据,反思代理验证数据的完整性和准确性,写作者代理则综合所有信息生成最终答案。驾驭工程则构建了围绕模型的框架,包括编排、工具边界、状态持久化、重试、回退、验证、反思循环、可观测性和人工审核。每个步骤的状态通过LangGraph检查点持久化到PostgreSQL,确保故障恢复时能够从断点继续。
为了确保可靠性,系统设计了多层弹性机制。如果特定LLM失败,系统会自动重试请求,并在多次尝试后回退到备用模型或平台。重试在单个LLM调用和逻辑节点级别都实现了,以便快速从临时故障中恢复。此外,代理会收到错误上下文,以便调整计划或采取替代方案。例如,如果检索步骤失败,代理可以尝试不同的查询策略或数据源。
信任是系统设计的核心原则。PRINCE通过透明度、可解释性和人机循环集成来建立信任。系统会向用户展示信息来源和推理过程,包括检索了哪些文档、模型的思考链以及答案如何生成。在关键决策点,如起草监管文件前,系统会引入人工审核,确保输出符合规范。评估和监控方面,系统采用RAGAS评估框架进行日常交通评估,并利用Langfuse进行详细跟踪和调试。评估指标包括答案的相关性、准确性和完整性,每天自动运行,以便及时发现和纠正问题。
PRINCE平台展示了AI在制药行业的变革潜力,显著提升了数据可访问性和研究效率,同时确保治理和合规性。通过从搜索到询问再到执行的演进,PRINCE为临床前研究提供了强大的工具,加速了数据驱动决策,减少了不必要的实验,最终有望加速更安全、更有效疗法的开发。拜耳的经验表明,通过精心的工程设计和迭代改进,自主AI系统可以在高风险领域实现可靠和可信的部署。