Beast – AI编码代理的受控输出网关
BEAST 是一个位于AI编码代理和LLM提供商之间的网关,用于强制执行输出合约、修复不符合规范的补丁,并学习哪些工具调用值得执行。通过基准测试,它能在不到400个令牌内完成100%的任务,并挽救79%的非合规供应商输出。
BEAST(Backend Enforcement and Action Safety Transformer)是一个开源的受控输出网关,专为AI编码工具设计,如Cursor、Claude Code和VS Code Copilot。它位于编码代理和LLM提供商之间,管理输入和输出。在输入侧,它通过上下文压缩、工具惰性学习和预算执行来减少令牌消耗;在输出侧,它强制每个模型响应符合名为 beast.action_intent.v1 的契约,在将任何内容写入文件系统之前进行解析和验证。如果补丁不符合规范,BEAST 会尝试本地修复和沙箱验证,成功后才提交。
BEAST 的诞生源于AI编码代理的常见问题:它们会读取整个文件而只需要三行,写入不应写入的路径,在冗余查找上浪费令牌预算,并且当提供商返回格式错误的JSON时,它们会静默失败或损坏代码。BEAST 通过拦截两侧来解决这些问题。
基准测试结果令人印象深刻。在确定性测试中(10个任务,5个通道),原始配置(无BEAST)完成了0/10个任务,而完整BEAST配置完成了10/10个任务,中位令牌仅为390个,比原始配置减少99.2%。在192个任务的实时提供商测试中,79%的原始提供商输出不符合规范,BEAST 成功挽救了所有156个任务,实现100%的端到端完成率。提供商排名显示,一些免费或非常规路由(如Puter路由的DeepSeek)通过BEAST达到了与付费提供商相当的效果。例如,LLM7在100%的任务中返回了有效的JSON,但只有10%通过了输出架构。没有输出治理,它看起来像是在工作,但实际上并非如此。NVIDIA NIM在每个任务上都未能通过输出合约,BEAST 修复并挽救了两个目标任务,实现了零静默失败。DeepInfra的观察成本约为每个经过验证、治理的代码修复0.000332美元。
BEAST 的架构包括输入侧(上下文经济、工具惰性、预算账本、断路器、工作区图、MCP代理)和输出侧(输出契约、本地验证器、补丁编译器、锚点解析器、修复引擎、沙箱验证器)。还有四层内存:L0元规则、L1洞察索引、L2工作区图、L3技能树和L4取证档案。每个模型响应都经过合约解析、锚点解析、路径验证、本地补丁编译、沙箱验证和修复循环,最后记录到Chronicle中。提供商特定的输出配置文件处理模型怪癖,例如NVIDIA NIM使用refs_only=True,HuggingFace使用repair_attempts=2。
安装简单:克隆仓库,安装依赖,启动网关。然后,将编码代理指向BEAST的API端点,即可开始治理。BEAST支持多种提供商,包括OpenAI、Anthropic和HuggingFace等,并可根据适应度图进行路由和回退。它还提供了一个操作仪表板(BEAST Cockpit)用于实时监控。BEAST不会替换LLM提供商,也不会增加明显延迟(输出治理在本地微秒级),无需GPU即可运行。所有数据(工作区图、预算账本等)都存储在本地SQLite和仅追加文件中。该项目处于活跃开发中,核心治理管道已稳定并经过基准测试,V2路线图专注于Chronicle引擎、路由卡和技能提升循环。