Sakana AI 推出 Sakana Fugu:一种将任务路由到可交换前沿LLM池的编排模型
Sakana AI 发布了 Sakana Fugu,一个多智能体编排系统,通过单个API端点将任务路由到可交换的模型池中。Fugu 和 Fugu Ultra 在编码、推理和智能体基准测试中领先。该系统旨在减少对单一供应商的依赖,并能在内部协调模型团队来解决复杂问题。
Sakana AI 今天正式发布了 Sakana Fugu,一个创新的多智能体编排系统,它将多个前沿语言模型(LLM)整合到一个统一的 API 背后。用户只需向一个端点发送请求,Fugu 内部会决定如何处理:对于简单任务,它直接解决;对于复杂问题,它则会协调一个专家模型团队来协作完成。这种设计使得多智能体系统的复杂性对用户完全透明。
Fugu 本身就是一个语言模型,经过训练能够调用其他 LLM——包括它自身的递归实例——来组成一个动态的代理池。它自主管理模型选择、任务委派、结果验证和最终综合,而不是依赖预设的工作流或角色。Sakana AI 将其视为对冲单一供应商依赖风险的一种策略。如果某个提供商限制访问,Fugu 可以绕过该中断,继续使用池中的其他模型。研究团队提到,最近对 Anthropic 的 Fable 和 Mythos 模型的出口管制是推动这一设计的动力之一。
Fugu 提供两个版本:标准版 Fugu 和性能版 Fugu Ultra。标准版注重平衡性能与低延迟,适用于日常编码、代码审查和聊天机器人等场景,并支持用户选择排除特定代理以满足数据隐私和合规要求。Fugu Ultra 则针对困难的多步问题优化,使用固定且更深的专家模型池,不支持排除选项,当前模型 ID 为 fugu-ultra-20260615。
在基准测试方面,Fugu 和 Fugu Ultra 展现了强大的竞争力。在 11 项基准测试中,Fugu 在 10 项上取得了最高分。Fugu Ultra 在 SWE Bench Pro 上达到 73.7%,在 TerminalBench 2.1 上达到 82.1%,在 LiveCodeBench 上达到 93.2%,在 Humanity's Last Exam 上达到 50.0%。Fugu 标准版则在 SciCode、τ³ Banking 和长上下文推理中领先。唯一的例外是 MRCRv2,由 GPT 5.5 获胜。这些成绩几乎与 Anthropic 的 Fable 5 和 Mythos Preview 持平。
在实际用例中,Fugu Ultra 展示了其能力:在 AutoResearch 中,它自主改进了小型 GPT 的训练配方,在约 14 小时内运行了 123 个实验;在魔方求解中,它用纯 Python 编写求解器,解决了所有 300 个测试魔方,平均步数 19.72;在日本古典假名阅读顺序任务中,它的 NED 达到 0.80,远超基线;在盲棋对弈中,它击败了三个前沿模型和一个 2100 Elo 的 Stockfish 引擎;在在线交易模拟中,它在 50 周内实现平均 +19.43% 的回报率。
Fugu 的 API 兼容 OpenAI 格式,无需迁移 SDK。用户只需将现有客户端指向控制台提供的端点即可使用。每次请求的 token 使用量和费用都会被报告,便于实时监控。
早期社区反应偏向怀疑:在分析的 12 条公开帖子中,6 条持怀疑态度,3 条支持(其中 2 条来自 Sakana AI 或其 CEO),3 条批评。主要质疑在于它是否只是一个路由器或包装器。