AI News HubLIVE
站内改写2 分钟阅读

AI 设计模式:打造能够验证自身工作的代理系统

本文介绍了一套用于构建可靠 AI 代理系统的设计模式,重点是通过验证来应对方差和偏差两类失败。模式分为上下文与状态、验证、编排三大类,共 17 个具体模式,旨在让概率系统接近确定性行为。

来源Hacker News AI作者: verify-ai

近日,一个名为“AI 设计模式”的项目在 Hacker News 上引发关注。该项目由一群经验丰富的 AI 工程师发起,系统性地提出了用于构建可靠 AI 代理系统的设计模式。其核心目标是通过验证让概率系统接近确定性行为,从而解决 LLM 无法通过简单的自我审查可靠地自我纠正的问题。

项目首先指出了 AI 代理系统面临的两类失败:方差失败和偏差失败。方差失败包括采样不稳定、环境状态污染、异步时序问题以及非确定性工具状态等;偏差失败则包括模型谄媚、自我审查失效、评审偏好偏差、确认偏误以及同系列模型盲点等。这些失败类型严重影响了代理系统的可靠性,而传统的 prompt 工程难以从根本上解决。

针对这些问题,项目提出了三组共 17 个模式。第一组是“上下文与状态”模式,包含 5 个具体模式:因果标签(Causal Tag)为每个事件附加稳定且可连接的标识符(必要时包含父标识符),使验证能够将观察到的效果归因于特定的代理动作,而不是从共享环境状态的时间接近性推断因果关系;宪法(Constitution)将系统的验证标准表示为显式、版本化、机器可读的数据,而非分散的 prompt 文本;护栏装饰器(Guardrail Decorator)在模型调用、工具调用或其他模型输出边界包裹策略装饰器,可以拒绝、替换、清理或转换错误,使策略驻留在模型跨越的边界代码中;状态基线(State Baseline)在验证前捕获相关环境或过程状态,使验证者能够证明动作引起了观察到的变化;轨迹光标(Trajectory Cursor)维护代理在其多步骤过程中的显式结构化记录,以及每个边界发生的事件,使验证者和下一步能读取轨迹而非从聊天历史或模型回忆中推断。

第二组是“验证”模式,包含 6 个模式:对抗框架(Adversarial Frame)以可接受性规则替换语气层面的怀疑指令,定义什么算作证据,命名常见的捷径路径加以拒绝,并将验证者的默认从“如果合理则接受”反转为“除非有可信证据否则失败”;盲预言机(Blind Oracle)根据规范、问题或独立重执行推导预期证据,而不以代理的草稿、推理轨迹或捷径历史为条件;比较器(Comparator)将验证比较表示为有限家族中的命名算子,使裁决成为(预期、观察、算子、阈值、归一化)的确定性函数;增量验证(Delta)通过断言环境状态的变化而非绝对状态来验证代理动作的成功;可执行模拟(Executable Analog)将主观的、基于语言的验证步骤转化为确定性的、可编程的执行步骤,产生独立于代理判断的二进制通过/失败信号;法官框架(Judge Harness)将 LLM 法官包裹在扰动、重复、校准和报告的结构性约束中,使单个法官裁决成为具有可见一致性和偏差控制的测量信号。

第三组是“编排”模式,包含 6 个模式:对手(Adversary)分配一个结构上独立的角色,其唯一任务是发现另一角色输出中的失败,并要求该角色发出编排者可检查的负面通道;背压(Backpressure)当下游检查失败时,将失败作为结构化的重运行上下文路由回上游,并在有限的重试预算内处理;跨家族(Cross-Family)在故意不同的模型家族上运行高影响力的生成和评估,并记录双方身份,使共享训练数据偏差和共享潜在先验无法通过验证边界而不被发现;辩论(Debate)在决策前进行有界的多角色分歧,回合顺序、轮数、阶段和共识阈值保持在编排状态中而非模型自由裁量;升级链(Escalation Chain)通过类型化、验证的交接将工作路由到更高权限或不同能力的处理者;工具适配器(Tool Adapter)在类型化边界处规范化模型发出的工具调用:派生或获取模式,调用前验证参数,以类型化参数调用工具,并返回类型化观察。

项目强调,这些模式不仅是理论,更是可直接使用的设计指南。每个模式都明确指出了它所约束的具体问题,开发者可以通过组合使用这些模式构建更加可靠、可审计的 AI 代理系统。项目网站提供了模式浏览、原则阅读以及贡献指南,吸引了社区广泛讨论。