2026-07-05 06:42 UTC+8站内改写2 分钟阅读更新: 2026-07-05 07:43 UTC+8

RFC：通过原子预算预留阻止AI代理失控支出

此RFC提出了一个针对AI代理运行的实时预算决策平面，通过原子预算预留和每运行预算上限防止失控支出，并提供机器可读状态以便代理自适应调整。

来源Hacker News AI作者: iamapsrajput

AI代理的自主循环正在导致不可预测且快速增长的API成本。与普通聊天不同，代理每次迭代都会重新发送累积的上下文，到第20步时单次调用可能超过5万输入令牌。过去一年已有报告显示，开发者在周末的自主重构中花费了4200美元，一个35人的团队月账单高达8.7万美元。这些问题的根源在于现有预算系统设计上的三个空白：预算附加在错误的单位上（API密钥或用户而非运行），执行隐式且脆弱，以及代理无法感知即将达到限额。

为了解决这些问题，本RFC定义了一个运行级别的预算决策平面。其核心是原子预留机制：在每次提供商调用前，系统根据估计成本从所有相关范围（运行、用户、团队等）中原子性地预留资金，调用后根据实际消耗提交或释放。这确保了在并发情况下预算边界也得到强制执行。

设计引入了清晰的预算决策原语（允许、降级、警告、阻止），并定义了四种执行模式：advisory_estimate（仅记录）、soft_gate（软阻止）、hard_gate（硬阻止）和actuals_only（仅基于实际消耗）。推荐采用分阶段采用路径：先观察咨询数据，再允许降级，最后启用阻止。

系统还定义了机器可读的预算状态协议。每次响应都包含一组标准HTTP头（如X-Budget-Decision、X-Budget-Remaining-USD、X-Run-Id），让代理在请求被阻止之前就能感知预算压力并进行自适应调整，例如切换到更便宜的模型或缩小上下文。被阻止的请求返回402 Payment Required状态码和RFC 9457 problem-detail body，包含详细的预算状态和替代模型建议。

定价安全方面，系统采用闭包原则：如果模型价格未知，则默认不可路由，除非有显式的租户覆盖。所有账目金额以整数微美元存储，禁止浮点运算。价格表版本记录在每次决策中，确保可审计性。运行ID由服务器端绑定到认证主体，防止滥用。

总体而言，该RFC为AI代理支出控制提供了一个可测试、可演化、对代理友好的设计，填补了现有网关在运行级预算控制方面的空白。此外，设计还包括有效的输出上限计算、跨多个范围的原子事务、以及详细的降级语义，这些都将帮助工程师在实际部署中精确控制代理运行成本。