AI News HubLIVE
站内改写2 分钟阅读

RFC:通过原子预算预留阻止AI代理失控支出

此RFC提出了一个针对AI代理运行的实时预算决策平面,通过原子预算预留和每运行预算上限防止失控支出,并提供机器可读状态以便代理自适应调整。

来源Hacker News AI作者: iamapsrajput

AI代理的自主循环正在导致不可预测且快速增长的API成本。与普通聊天不同,代理每次迭代都会重新发送累积的上下文,到第20步时单次调用可能超过5万输入令牌。过去一年已有报告显示,开发者在周末的自主重构中花费了4200美元,一个35人的团队月账单高达8.7万美元。这些问题的根源在于现有预算系统设计上的三个空白:预算附加在错误的单位上(API密钥或用户而非运行),执行隐式且脆弱,以及代理无法感知即将达到限额。

为了解决这些问题,本RFC定义了一个运行级别的预算决策平面。其核心是原子预留机制:在每次提供商调用前,系统根据估计成本从所有相关范围(运行、用户、团队等)中原子性地预留资金,调用后根据实际消耗提交或释放。这确保了在并发情况下预算边界也得到强制执行。

设计引入了清晰的预算决策原语(允许、降级、警告、阻止),并定义了四种执行模式:advisory_estimate(仅记录)、soft_gate(软阻止)、hard_gate(硬阻止)和actuals_only(仅基于实际消耗)。推荐采用分阶段采用路径:先观察咨询数据,再允许降级,最后启用阻止。

系统还定义了机器可读的预算状态协议。每次响应都包含一组标准HTTP头(如X-Budget-Decision、X-Budget-Remaining-USD、X-Run-Id),让代理在请求被阻止之前就能感知预算压力并进行自适应调整,例如切换到更便宜的模型或缩小上下文。被阻止的请求返回402 Payment Required状态码和RFC 9457 problem-detail body,包含详细的预算状态和替代模型建议。

定价安全方面,系统采用闭包原则:如果模型价格未知,则默认不可路由,除非有显式的租户覆盖。所有账目金额以整数微美元存储,禁止浮点运算。价格表版本记录在每次决策中,确保可审计性。运行ID由服务器端绑定到认证主体,防止滥用。

总体而言,该RFC为AI代理支出控制提供了一个可测试、可演化、对代理友好的设计,填补了现有网关在运行级预算控制方面的空白。此外,设计还包括有效的输出上限计算、跨多个范围的原子事务、以及详细的降级语义,这些都将帮助工程师在实际部署中精确控制代理运行成本。