2026-06-23 02:42 UTC+8站内改写2 分钟阅读更新: 2026-06-23 03:06 UTC+8

Sakana AI 推出 Sakana Fugu：一种将任务路由到可交换前沿LLM池的编排模型

Sakana AI 发布了 Sakana Fugu，一个多智能体编排系统，通过单个API端点将任务路由到可交换的模型池中。Fugu 和 Fugu Ultra 在编码、推理和智能体基准测试中领先。该系统旨在减少对单一供应商的依赖，并能在内部协调模型团队来解决复杂问题。

来源MarkTechPost作者: Asif Razzaq

Sakana AI 今天正式发布了 Sakana Fugu，一个创新的多智能体编排系统，它将多个前沿语言模型（LLM）整合到一个统一的 API 背后。用户只需向一个端点发送请求，Fugu 内部会决定如何处理：对于简单任务，它直接解决；对于复杂问题，它则会协调一个专家模型团队来协作完成。这种设计使得多智能体系统的复杂性对用户完全透明。

Fugu 本身就是一个语言模型，经过训练能够调用其他 LLM——包括它自身的递归实例——来组成一个动态的代理池。它自主管理模型选择、任务委派、结果验证和最终综合，而不是依赖预设的工作流或角色。Sakana AI 将其视为对冲单一供应商依赖风险的一种策略。如果某个提供商限制访问，Fugu 可以绕过该中断，继续使用池中的其他模型。研究团队提到，最近对 Anthropic 的 Fable 和 Mythos 模型的出口管制是推动这一设计的动力之一。

Fugu 提供两个版本：标准版 Fugu 和性能版 Fugu Ultra。标准版注重平衡性能与低延迟，适用于日常编码、代码审查和聊天机器人等场景，并支持用户选择排除特定代理以满足数据隐私和合规要求。Fugu Ultra 则针对困难的多步问题优化，使用固定且更深的专家模型池，不支持排除选项，当前模型 ID 为 fugu-ultra-20260615。

在基准测试方面，Fugu 和 Fugu Ultra 展现了强大的竞争力。在 11 项基准测试中，Fugu 在 10 项上取得了最高分。Fugu Ultra 在 SWE Bench Pro 上达到 73.7%，在 TerminalBench 2.1 上达到 82.1%，在 LiveCodeBench 上达到 93.2%，在 Humanity's Last Exam 上达到 50.0%。Fugu 标准版则在 SciCode、τ³ Banking 和长上下文推理中领先。唯一的例外是 MRCRv2，由 GPT 5.5 获胜。这些成绩几乎与 Anthropic 的 Fable 5 和 Mythos Preview 持平。

在实际用例中，Fugu Ultra 展示了其能力：在 AutoResearch 中，它自主改进了小型 GPT 的训练配方，在约 14 小时内运行了 123 个实验；在魔方求解中，它用纯 Python 编写求解器，解决了所有 300 个测试魔方，平均步数 19.72；在日本古典假名阅读顺序任务中，它的 NED 达到 0.80，远超基线；在盲棋对弈中，它击败了三个前沿模型和一个 2100 Elo 的 Stockfish 引擎；在在线交易模拟中，它在 50 周内实现平均 +19.43% 的回报率。

Fugu 的 API 兼容 OpenAI 格式，无需迁移 SDK。用户只需将现有客户端指向控制台提供的端点即可使用。每次请求的 token 使用量和费用都会被报告，便于实时监控。

早期社区反应偏向怀疑：在分析的 12 条公开帖子中，6 条持怀疑态度，3 条支持（其中 2 条来自 Sakana AI 或其 CEO），3 条批评。主要质疑在于它是否只是一个路由器或包装器。