Sakana AI 推出 Sakana Fugu:一種將任務路由到可交換前沿LLM池的編排模型
Sakana AI 釋出了 Sakana Fugu,一個多智慧體編排系統,透過單個API端點將任務路由到可交換的模型池中。Fugu 和 Fugu Ultra 在編碼、推理和智慧體基準測試中領先。該系統旨在減少對單一供應商的依賴,並能在內部協調模型團隊來解決複雜問題。
Sakana AI 今天正式釋出了 Sakana Fugu,一個創新的多智慧體編排系統,它將多個前沿語言模型(LLM)整合到一個統一的 API 背後。使用者只需向一個端點傳送請求,Fugu 內部會決定如何處理:對於簡單任務,它直接解決;對於複雜問題,它則會協調一個專家模型團隊來協作完成。這種設計使得多智慧體系統的複雜性對使用者完全透明。
Fugu 本身就是一個語言模型,經過訓練能夠呼叫其他 LLM——包括它自身的遞迴例項——來組成一個動態的代理池。它自主管理模型選擇、任務委派、結果驗證和最終綜合,而不是依賴預設的工作流或角色。Sakana AI 將其視為對沖單一供應商依賴風險的一種策略。如果某個提供商限制訪問,Fugu 可以繞過該中斷,繼續使用池中的其他模型。研究團隊提到,最近對 Anthropic 的 Fable 和 Mythos 模型的出口管制是推動這一設計的動力之一。
Fugu 提供兩個版本:標準版 Fugu 和效能版 Fugu Ultra。標準版注重平衡效能與低延遲,適用於日常編碼、程式碼審查和聊天機器人等場景,並支援使用者選擇排除特定代理以滿足資料隱私和合規要求。Fugu Ultra 則針對困難的多步問題最佳化,使用固定且更深的專家模型池,不支援排除選項,當前模型 ID 為 fugu-ultra-20260615。
在基準測試方面,Fugu 和 Fugu Ultra 展現了強大的競爭力。在 11 項基準測試中,Fugu 在 10 項上取得了最高分。Fugu Ultra 在 SWE Bench Pro 上達到 73.7%,在 TerminalBench 2.1 上達到 82.1%,在 LiveCodeBench 上達到 93.2%,在 Humanity's Last Exam 上達到 50.0%。Fugu 標準版則在 SciCode、τ³ Banking 和長上下文推理中領先。唯一的例外是 MRCRv2,由 GPT 5.5 獲勝。這些成績幾乎與 Anthropic 的 Fable 5 和 Mythos Preview 持平。
在實際用例中,Fugu Ultra 展示了其能力:在 AutoResearch 中,它自主改進了小型 GPT 的訓練配方,在約 14 小時內執行了 123 個實驗;在魔方求解中,它用純 Python 編寫求解器,解決了所有 300 個測試魔方,平均步數 19.72;在日本古典假名閱讀順序任務中,它的 NED 達到 0.80,遠超基線;在盲棋對弈中,它擊敗了三個前沿模型和一個 2100 Elo 的 Stockfish 引擎;在線上交易模擬中,它在 50 周內實現平均 +19.43% 的回報率。
Fugu 的 API 相容 OpenAI 格式,無需遷移 SDK。使用者只需將現有客戶端指向控制台提供的端點即可使用。每次請求的 token 使用量和費用都會被報告,便於即時監控。
早期社群反應偏向懷疑:在分析的 12 條公開帖子中,6 條持懷疑態度,3 條支援(其中 2 條來自 Sakana AI 或其 CEO),3 條批評。主要質疑在於它是否只是一個路由器或包裝器。