Beast – AI編碼代理的受控輸出閘道器
BEAST 是一個位於AI編碼代理和LLM提供商之間的閘道器,用於強制執行輸出合約、修復不符合規範的補丁,並學習哪些工具呼叫值得執行。透過基準測試,它能在不到400個令牌內完成100%的任務,並挽救79%的非合規供應商輸出。
BEAST(Backend Enforcement and Action Safety Transformer)是一個開源的受控輸出閘道器,專為AI編碼工具設計,如Cursor、Claude Code和VS Code Copilot。它位於編碼代理和LLM提供商之間,管理輸入和輸出。在輸入側,它透過上下文壓縮、工具惰性學習和預算執行來減少令牌消耗;在輸出側,它強制每個模型響應符合名為 beast.action_intent.v1 的契約,在將任何內容寫入檔案系統之前進行解析和驗證。如果補丁不符合規範,BEAST 會嘗試本地修復和沙箱驗證,成功後才提交。
BEAST 的誕生源於AI編碼代理的常見問題:它們會讀取整個檔案而只需要三行,寫入不應寫入的路徑,在冗餘查詢上浪費令牌預算,並且當提供商返回格式錯誤的JSON時,它們會靜默失敗或損壞程式碼。BEAST 透過攔截兩側來解決這些問題。
基準測試結果令人印象深刻。在確定性測試中(10個任務,5個通道),原始配置(無BEAST)完成了0/10個任務,而完整BEAST配置完成了10/10個任務,中位令牌僅為390個,比原始配置減少99.2%。在192個任務的即時提供商測試中,79%的原始提供商輸出不符合規範,BEAST 成功挽救了所有156個任務,實現100%的端到端完成率。提供商排名顯示,一些免費或非常規路由(如Puter路由的DeepSeek)透過BEAST達到了與付費提供商相當的效果。例如,LLM7在100%的任務中返回了有效的JSON,但只有10%透過了輸出架構。沒有輸出治理,它看起來像是在工作,但實際上並非如此。NVIDIA NIM在每個任務上都未能透過輸出合約,BEAST 修復並挽救了兩個目標任務,實現了零靜默失敗。DeepInfra的觀察成本約為每個經過驗證、治理的程式碼修復0.000332美元。
BEAST 的架構包括輸入側(上下文經濟、工具惰性、預算賬本、斷路器、工作區圖、MCP代理)和輸出側(輸出契約、本地驗證器、補丁編譯器、錨點解析器、修復引擎、沙箱驗證器)。還有四層記憶體:L0元規則、L1洞察索引、L2工作區圖、L3技能樹和L4取證檔案。每個模型響應都經過合約解析、錨點解析、路徑驗證、本地補丁編譯、沙箱驗證和修復迴圈,最後記錄到Chronicle中。提供商特定的輸出配置檔案處理模型怪癖,例如NVIDIA NIM使用refs_only=True,HuggingFace使用repair_attempts=2。
安裝簡單:克隆倉庫,安裝依賴,啟動閘道器。然後,將編碼代理指向BEAST的API端點,即可開始治理。BEAST支援多種提供商,包括OpenAI、Anthropic和HuggingFace等,並可根據適應度圖進行路由和回退。它還提供了一個操作儀表板(BEAST Cockpit)用於即時監控。BEAST不會替換LLM提供商,也不會增加明顯延遲(輸出治理在本地微秒級),無需GPU即可執行。所有資料(工作區圖、預算賬本等)都儲存在本地SQLite和僅追加檔案中。該專案處於活躍開發中,核心治理管道已穩定並經過基準測試,V2路線圖專注於Chronicle引擎、路由卡和技能提升迴圈。