Sakana Fugu:一個模型指揮所有
Sakana AI 推出 Fugu,一個透過單一API動態編排多種模型的多智慧體系統,在編碼、推理等複雜任務上達到前沿效能,且不依賴單一供應商。基於ICLR 2026論文,Fugu學習自動組合和協調專家模型,提供兩種版本:Fugu(平衡效能與延遲)和Fugu Ultra(針對高強度問題最佳化)。在多個基準測試中,Fugu模型與頂尖模型並駕齊驅,甚至超越。目前EU/EEA區域暫不可用。
Sakana AI 近日釋出了名為“Fugu”的多智慧體系統,旨在透過單一API動態編排多種頂級模型,以解決複雜的多步驟任務。該系統無需依賴單一供應商,而是將集體智慧直接整合到工作流程中。
Fugu的核心在於其多智慧體架構,它由一個學習型協調器驅動,能夠根據任務自動選擇和組合不同的專家模型。這使得Fugu在處理編碼、推理、數學等複雜任務時表現出色,同時降低了API的複雜性並提高了成本效益。
Fugu提供了兩種模型版本:標準版Fugu,在效能和延遲之間取得平衡,適合日常使用;以及Fugu Ultra,它協調更廣泛的專家模型池,以在困難、高風險的問題上最大化答案質量。兩者都透過OpenAI相容的API提供,使用者可以輕鬆切換。
在技術層面,Fugu基於兩篇被ICLR 2026接收的研究論文:TRINITY和Conductor。TRINITY使用輕量級進化協調器,為多個LLM分配“思考者”、“工作者”和“驗證者”角色;而Conductor則透過強化學習發現自然語言協調策略,設計智慧體之間的通訊模式和提示,從而提升整體效能。
在定量評估中,Fugu系列模型在多項工程、科學和推理基準測試中超越了公開可用的前沿模型,與Fable 5和Mythos Preview等頂尖模型不相上下。例如,在SWE-Bench Pro上,Fugu Ultra達到了73.7%,在TerminalBench 2.1上為82.1%,在GPQA-D上高達95.5%。值得注意的是,Fugu的模型池不包含那些未公開的模型,因此避免了出口管制風險。
此外,Fugu還支援靈活控制參與模型的池子,使用者可以根據資料、隱私或合規要求,選擇排除特定的提供商或模型。目前,該服務在EU/EEA區域暫不可用,因為Sakana AI正在努力達成GDPR等法規的合規性。
Fugu已在實際場景中得到應用,例如在AutoResearch實驗中,Fugu Ultra在14小時內自主執行了123次實驗,最佳化了小型GPT的訓練配方,最終實現了比基線模型更低的驗證bits-per-byte。其他案例包括古典假名書簡的閱讀順序恢復、Rubik's Cube求解器生成等,均展示了Fugu在多步驟、高質量任務上的潛力。
總體而言,Sakana Fugu代表了一種將多智慧體智慧作為服務交付的新方式,為開發者和企業提供了一種靈活、強大且符合隱私要求的AI解決方案。