2026-07-05 18:36 UTC+8站内改写2 分钟阅读更新: 2026-07-05 18:42 UTC+8

AI 设计模式：打造能够验证自身工作的代理系统

本文介绍了一套用于构建可靠 AI 代理系统的设计模式，重点是通过验证来应对方差和偏差两类失败。模式分为上下文与状态、验证、编排三大类，共 17 个具体模式，旨在让概率系统接近确定性行为。

来源Hacker News AI作者: verify-ai

近日，一个名为“AI 设计模式”的项目在 Hacker News 上引发关注。该项目由一群经验丰富的 AI 工程师发起，系统性地提出了用于构建可靠 AI 代理系统的设计模式。其核心目标是通过验证让概率系统接近确定性行为，从而解决 LLM 无法通过简单的自我审查可靠地自我纠正的问题。

项目首先指出了 AI 代理系统面临的两类失败：方差失败和偏差失败。方差失败包括采样不稳定、环境状态污染、异步时序问题以及非确定性工具状态等；偏差失败则包括模型谄媚、自我审查失效、评审偏好偏差、确认偏误以及同系列模型盲点等。这些失败类型严重影响了代理系统的可靠性，而传统的 prompt 工程难以从根本上解决。

针对这些问题，项目提出了三组共 17 个模式。第一组是“上下文与状态”模式，包含 5 个具体模式：因果标签（Causal Tag）为每个事件附加稳定且可连接的标识符（必要时包含父标识符），使验证能够将观察到的效果归因于特定的代理动作，而不是从共享环境状态的时间接近性推断因果关系；宪法（Constitution）将系统的验证标准表示为显式、版本化、机器可读的数据，而非分散的 prompt 文本；护栏装饰器（Guardrail Decorator）在模型调用、工具调用或其他模型输出边界包裹策略装饰器，可以拒绝、替换、清理或转换错误，使策略驻留在模型跨越的边界代码中；状态基线（State Baseline）在验证前捕获相关环境或过程状态，使验证者能够证明动作引起了观察到的变化；轨迹光标（Trajectory Cursor）维护代理在其多步骤过程中的显式结构化记录，以及每个边界发生的事件，使验证者和下一步能读取轨迹而非从聊天历史或模型回忆中推断。

第二组是“验证”模式，包含 6 个模式：对抗框架（Adversarial Frame）以可接受性规则替换语气层面的怀疑指令，定义什么算作证据，命名常见的捷径路径加以拒绝，并将验证者的默认从“如果合理则接受”反转为“除非有可信证据否则失败”；盲预言机（Blind Oracle）根据规范、问题或独立重执行推导预期证据，而不以代理的草稿、推理轨迹或捷径历史为条件；比较器（Comparator）将验证比较表示为有限家族中的命名算子，使裁决成为（预期、观察、算子、阈值、归一化）的确定性函数；增量验证（Delta）通过断言环境状态的变化而非绝对状态来验证代理动作的成功；可执行模拟（Executable Analog）将主观的、基于语言的验证步骤转化为确定性的、可编程的执行步骤，产生独立于代理判断的二进制通过/失败信号；法官框架（Judge Harness）将 LLM 法官包裹在扰动、重复、校准和报告的结构性约束中，使单个法官裁决成为具有可见一致性和偏差控制的测量信号。

第三组是“编排”模式，包含 6 个模式：对手（Adversary）分配一个结构上独立的角色，其唯一任务是发现另一角色输出中的失败，并要求该角色发出编排者可检查的负面通道；背压（Backpressure）当下游检查失败时，将失败作为结构化的重运行上下文路由回上游，并在有限的重试预算内处理；跨家族（Cross-Family）在故意不同的模型家族上运行高影响力的生成和评估，并记录双方身份，使共享训练数据偏差和共享潜在先验无法通过验证边界而不被发现；辩论（Debate）在决策前进行有界的多角色分歧，回合顺序、轮数、阶段和共识阈值保持在编排状态中而非模型自由裁量；升级链（Escalation Chain）通过类型化、验证的交接将工作路由到更高权限或不同能力的处理者；工具适配器（Tool Adapter）在类型化边界处规范化模型发出的工具调用：派生或获取模式，调用前验证参数，以类型化参数调用工具，并返回类型化观察。

项目强调，这些模式不仅是理论，更是可直接使用的设计指南。每个模式都明确指出了它所约束的具体问题，开发者可以通过组合使用这些模式构建更加可靠、可审计的 AI 代理系统。项目网站提供了模式浏览、原则阅读以及贡献指南，吸引了社区广泛讨论。