2026-06-14站内改写1 分钟阅读更新: 2026-06-14

融合模型超越前沿性能

OpenRouter推出Fusion工具，通过融合多个模型的输出结果，显著提升AI在深度研究任务中的表现。在DRACO基准测试中，Fusion面板模型组合得分超过单个前沿模型，例如Fable 5与GPT-5.5融合得分69.0%，高于Fable 5单独的65.3%。预算模型面板也接近前沿模型性能。该工具通过单一API调用并行调用多个模型，并由裁判模型合成最终答案。文章还介绍了防作弊措施和自我融合实验。

来源Hacker News AI作者: jcfrei

OpenRouter近日宣布推出Fusion，这一创新工具通过综合多个AI模型的输出结果，实现了超越单个模型能力的性能。在针对深度研究任务设计的DRACO基准测试中，Fusion展现了令人瞩目的成果。

Fusion的工作原理是，用户通过单一API调用，将任务并行发送至一个面板（panel）中的多个模型，每个模型均启用网络搜索和网页抓取功能。随后，一个裁判模型（judge model）读取所有面板响应，生成结构化分析，包括共识点、矛盾点、部分覆盖、独特见解和盲点。最后，调用模型基于该分析撰写最终答案。整个过程在服务器端运行，使得使用Fusion如同调用单个模型一样简单。

在DRACO基准测试的100个深度研究任务中，Fusion的表现显著优于单个模型。例如，Fable 5与GPT-5.5的融合组合得分69.0%，超过Fable 5单独的65.3%。一个由Gemini 3 Flash、Kimi K2.6和DeepSeek V4 Pro组成的预算面板，虽然成本仅为Fable 5的50%，却以64.7%的得分超越了GPT-5.5和Opus 4.8，并接近Fable 5的水平。这表明模型多样性与人类团队协作类似，能带来更优的复杂问题解决能力。

值得注意的是，在测试中，Fable 5因内容过滤器阻止而未能完成100个任务中的7个，因此其结果是基于93个任务计算的，与其他模型相比略有差异。此外，OpenRouter还发现，当Opus 4.8与自身配对（即两个Opus 4.8实例）时，融合得分从58.8%跃升至65.5%，说明即使模型相同，多次运行产生的不同推理路径、工具调用和源选择经过合成后也能带来显著提升。

为防止模型作弊，OpenRouter在发现面板模型可能通过搜索找到DRACO评分标准后，通过排除相关域名解决了问题。所有测试结果均在实施排除列表后产生。

目前，用户可通过OpenRouter的API直接调用Fusion（模型slug为"openrouter/fusion"），或通过聊天室（openrouter.ai/fusion）尝试预设或自定义面板。该工具旨在为需要深度研究和综合分析的场景提供更强大的AI解决方案。