2026-06-22 10:08 UTC+8站内改写2 分钟阅读更新: 2026-06-22 11:02 UTC+8

Sakana Fugu：一个模型指挥所有

Sakana AI 推出 Fugu，一个通过单一API动态编排多种模型的多智能体系统，在编码、推理等复杂任务上达到前沿性能，且不依赖单一供应商。基于ICLR 2026论文，Fugu学习自动组合和协调专家模型，提供两种版本：Fugu（平衡性能与延迟）和Fugu Ultra（针对高强度问题优化）。在多个基准测试中，Fugu模型与顶尖模型并驾齐驱，甚至超越。目前EU/EEA区域暂不可用。

来源Hacker News AI作者: Finbarr

Sakana AI 近日发布了名为“Fugu”的多智能体系统，旨在通过单一API动态编排多种顶级模型，以解决复杂的多步骤任务。该系统无需依赖单一供应商，而是将集体智能直接整合到工作流程中。

Fugu的核心在于其多智能体架构，它由一个学习型协调器驱动，能够根据任务自动选择和组合不同的专家模型。这使得Fugu在处理编码、推理、数学等复杂任务时表现出色，同时降低了API的复杂性并提高了成本效益。

Fugu提供了两种模型版本：标准版Fugu，在性能和延迟之间取得平衡，适合日常使用；以及Fugu Ultra，它协调更广泛的专家模型池，以在困难、高风险的问题上最大化答案质量。两者都通过OpenAI兼容的API提供，用户可以轻松切换。

在技术层面，Fugu基于两篇被ICLR 2026接收的研究论文：TRINITY和Conductor。TRINITY使用轻量级进化协调器，为多个LLM分配“思考者”、“工作者”和“验证者”角色；而Conductor则通过强化学习发现自然语言协调策略，设计智能体之间的通信模式和提示，从而提升整体性能。

在定量评估中，Fugu系列模型在多项工程、科学和推理基准测试中超越了公开可用的前沿模型，与Fable 5和Mythos Preview等顶尖模型不相上下。例如，在SWE-Bench Pro上，Fugu Ultra达到了73.7%，在TerminalBench 2.1上为82.1%，在GPQA-D上高达95.5%。值得注意的是，Fugu的模型池不包含那些未公开的模型，因此避免了出口管制风险。

此外，Fugu还支持灵活控制参与模型的池子，用户可以根据数据、隐私或合规要求，选择排除特定的提供商或模型。目前，该服务在EU/EEA区域暂不可用，因为Sakana AI正在努力达成GDPR等法规的合规性。

Fugu已在实际场景中得到应用，例如在AutoResearch实验中，Fugu Ultra在14小时内自主运行了123次实验，优化了小型GPT的训练配方，最终实现了比基线模型更低的验证bits-per-byte。其他案例包括古典假名书简的阅读顺序恢复、Rubik's Cube求解器生成等，均展示了Fugu在多步骤、高质量任务上的潜力。

总体而言，Sakana Fugu代表了一种将多智能体智能作为服务交付的新方式，为开发者和企业提供了一种灵活、强大且符合隐私要求的AI解决方案。