2026-06-23 02:42 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 03:06 UTC+8

Sakana AI 推出 Sakana Fugu：一種將任務路由到可交換前沿LLM池的編排模型

Sakana AI 釋出了 Sakana Fugu，一個多智慧體編排系統，透過單個API端點將任務路由到可交換的模型池中。Fugu 和 Fugu Ultra 在編碼、推理和智慧體基準測試中領先。該系統旨在減少對單一供應商的依賴，並能在內部協調模型團隊來解決複雜問題。

來源MarkTechPost作者: Asif Razzaq

Sakana AI 今天正式釋出了 Sakana Fugu，一個創新的多智慧體編排系統，它將多個前沿語言模型（LLM）整合到一個統一的 API 背後。使用者只需向一個端點傳送請求，Fugu 內部會決定如何處理：對於簡單任務，它直接解決；對於複雜問題，它則會協調一個專家模型團隊來協作完成。這種設計使得多智慧體系統的複雜性對使用者完全透明。

Fugu 本身就是一個語言模型，經過訓練能夠呼叫其他 LLM——包括它自身的遞迴例項——來組成一個動態的代理池。它自主管理模型選擇、任務委派、結果驗證和最終綜合，而不是依賴預設的工作流或角色。Sakana AI 將其視為對沖單一供應商依賴風險的一種策略。如果某個提供商限制訪問，Fugu 可以繞過該中斷，繼續使用池中的其他模型。研究團隊提到，最近對 Anthropic 的 Fable 和 Mythos 模型的出口管制是推動這一設計的動力之一。

Fugu 提供兩個版本：標準版 Fugu 和效能版 Fugu Ultra。標準版注重平衡效能與低延遲，適用於日常編碼、程式碼審查和聊天機器人等場景，並支援使用者選擇排除特定代理以滿足資料隱私和合規要求。Fugu Ultra 則針對困難的多步問題最佳化，使用固定且更深的專家模型池，不支援排除選項，當前模型 ID 為 fugu-ultra-20260615。

在基準測試方面，Fugu 和 Fugu Ultra 展現了強大的競爭力。在 11 項基準測試中，Fugu 在 10 項上取得了最高分。Fugu Ultra 在 SWE Bench Pro 上達到 73.7%，在 TerminalBench 2.1 上達到 82.1%，在 LiveCodeBench 上達到 93.2%，在 Humanity's Last Exam 上達到 50.0%。Fugu 標準版則在 SciCode、τ³ Banking 和長上下文推理中領先。唯一的例外是 MRCRv2，由 GPT 5.5 獲勝。這些成績幾乎與 Anthropic 的 Fable 5 和 Mythos Preview 持平。

在實際用例中，Fugu Ultra 展示了其能力：在 AutoResearch 中，它自主改進了小型 GPT 的訓練配方，在約 14 小時內執行了 123 個實驗；在魔方求解中，它用純 Python 編寫求解器，解決了所有 300 個測試魔方，平均步數 19.72；在日本古典假名閱讀順序任務中，它的 NED 達到 0.80，遠超基線；在盲棋對弈中，它擊敗了三個前沿模型和一個 2100 Elo 的 Stockfish 引擎；在線上交易模擬中，它在 50 周內實現平均 +19.43% 的回報率。

Fugu 的 API 相容 OpenAI 格式，無需遷移 SDK。使用者只需將現有客戶端指向控制台提供的端點即可使用。每次請求的 token 使用量和費用都會被報告，便於即時監控。

早期社群反應偏向懷疑：在分析的 12 條公開帖子中，6 條持懷疑態度，3 條支援（其中 2 條來自 Sakana AI 或其 CEO），3 條批評。主要質疑在於它是否只是一個路由器或包裝器。