2026-06-22 10:08 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-22 11:02 UTC+8

Sakana Fugu：一個模型指揮所有

Sakana AI 推出 Fugu，一個透過單一API動態編排多種模型的多智慧體系統，在編碼、推理等複雜任務上達到前沿效能，且不依賴單一供應商。基於ICLR 2026論文，Fugu學習自動組合和協調專家模型，提供兩種版本：Fugu（平衡效能與延遲）和Fugu Ultra（針對高強度問題最佳化）。在多個基準測試中，Fugu模型與頂尖模型並駕齊驅，甚至超越。目前EU/EEA區域暫不可用。

來源Hacker News AI作者: Finbarr

Sakana AI 近日釋出了名為“Fugu”的多智慧體系統，旨在透過單一API動態編排多種頂級模型，以解決複雜的多步驟任務。該系統無需依賴單一供應商，而是將集體智慧直接整合到工作流程中。

Fugu的核心在於其多智慧體架構，它由一個學習型協調器驅動，能夠根據任務自動選擇和組合不同的專家模型。這使得Fugu在處理編碼、推理、數學等複雜任務時表現出色，同時降低了API的複雜性並提高了成本效益。

Fugu提供了兩種模型版本：標準版Fugu，在效能和延遲之間取得平衡，適合日常使用；以及Fugu Ultra，它協調更廣泛的專家模型池，以在困難、高風險的問題上最大化答案質量。兩者都透過OpenAI相容的API提供，使用者可以輕鬆切換。

在技術層面，Fugu基於兩篇被ICLR 2026接收的研究論文：TRINITY和Conductor。TRINITY使用輕量級進化協調器，為多個LLM分配“思考者”、“工作者”和“驗證者”角色；而Conductor則透過強化學習發現自然語言協調策略，設計智慧體之間的通訊模式和提示，從而提升整體效能。

在定量評估中，Fugu系列模型在多項工程、科學和推理基準測試中超越了公開可用的前沿模型，與Fable 5和Mythos Preview等頂尖模型不相上下。例如，在SWE-Bench Pro上，Fugu Ultra達到了73.7%，在TerminalBench 2.1上為82.1%，在GPQA-D上高達95.5%。值得注意的是，Fugu的模型池不包含那些未公開的模型，因此避免了出口管制風險。

此外，Fugu還支援靈活控制參與模型的池子，使用者可以根據資料、隱私或合規要求，選擇排除特定的提供商或模型。目前，該服務在EU/EEA區域暫不可用，因為Sakana AI正在努力達成GDPR等法規的合規性。

Fugu已在實際場景中得到應用，例如在AutoResearch實驗中，Fugu Ultra在14小時內自主執行了123次實驗，最佳化了小型GPT的訓練配方，最終實現了比基線模型更低的驗證bits-per-byte。其他案例包括古典假名書簡的閱讀順序恢復、Rubik's Cube求解器生成等，均展示了Fugu在多步驟、高質量任務上的潛力。

總體而言，Sakana Fugu代表了一種將多智慧體智慧作為服務交付的新方式，為開發者和企業提供了一種靈活、強大且符合隱私要求的AI解決方案。