AI News HubLIVE
站内改写2 分鐘閱讀

Beast – AI編碼代理的受控輸出網關

BEAST 是一個位於AI編碼代理和LLM提供商之間的網關,用於強制執行輸出合約、修復不符合規範的補丁,並學習哪些工具調用值得執行。通過基準測試,它能在不到400個令牌內完成100%的任務,並挽救79%的非合規供應商輸出。

來源Hacker News AI作者: Byron230686

BEAST(Backend Enforcement and Action Safety Transformer)是一個開源的受控輸出網關,專為AI編碼工具設計,如Cursor、Claude Code和VS Code Copilot。它位於編碼代理和LLM提供商之間,管理輸入和輸出。在輸入側,它通過上下文壓縮、工具惰性學習和預算執行來減少令牌消耗;在輸出側,它強制每個模型響應符合名為 beast.action_intent.v1 的契約,在將任何內容寫入文件系統之前進行解析和驗證。如果補丁不符合規範,BEAST 會嘗試本地修復和沙箱驗證,成功後才提交。

BEAST 的誕生源於AI編碼代理的常見問題:它們會讀取整個文件而只需要三行,寫入不應寫入的路徑,在冗餘查找上浪費令牌預算,並且當提供商返回格式錯誤的JSON時,它們會靜默失敗或損壞代碼。BEAST 通過攔截兩側來解決這些問題。

基準測試結果令人印象深刻。在確定性測試中(10個任務,5個通道),原始配置(無BEAST)完成了0/10個任務,而完整BEAST配置完成了10/10個任務,中位令牌僅為390個,比原始配置減少99.2%。在192個任務的實時提供商測試中,79%的原始提供商輸出不符合規範,BEAST 成功挽救了所有156個任務,實現100%的端到端完成率。提供商排名顯示,一些免費或非常規路由(如Puter路由的DeepSeek)通過BEAST達到了與付費提供商相當的效果。例如,LLM7在100%的任務中返回了有效的JSON,但只有10%通過了輸出架構。沒有輸出治理,它看起來像是在工作,但實際上並非如此。NVIDIA NIM在每個任務上都未能通過輸出合約,BEAST 修復並挽救了兩個目標任務,實現了零靜默失敗。DeepInfra的觀察成本約為每個經過驗證、治理的代碼修復0.000332美元。

BEAST 的架構包括輸入側(上下文經濟、工具惰性、預算賬本、斷路器、工作區圖、MCP代理)和輸出側(輸出契約、本地驗證器、補丁編譯器、錨點解析器、修復引擎、沙箱驗證器)。還有四層內存:L0元規則、L1洞察索引、L2工作區圖、L3技能樹和L4取證檔案。每個模型響應都經過合約解析、錨點解析、路徑驗證、本地補丁編譯、沙箱驗證和修復循環,最後記錄到Chronicle中。提供商特定的輸出配置文件處理模型怪癖,例如NVIDIA NIM使用refs_only=True,HuggingFace使用repair_attempts=2。

安裝簡單:克隆倉庫,安裝依賴,啓動網關。然後,將編碼代理指向BEAST的API端點,即可開始治理。BEAST支持多種提供商,包括OpenAI、Anthropic和HuggingFace等,並可根據適應度圖進行路由和回退。它還提供了一個操作儀表板(BEAST Cockpit)用於實時監控。BEAST不會替換LLM提供商,也不會增加明顯延遲(輸出治理在本地微秒級),無需GPU即可運行。所有數據(工作區圖、預算賬本等)都存儲在本地SQLite和僅追加文件中。該項目處於活躍開發中,核心治理管道已穩定並經過基準測試,V2路線圖專注於Chronicle引擎、路由卡和技能提升循環。