融合模型超越前沿性能
OpenRouter推出Fusion工具,通过融合多个模型的输出结果,显著提升AI在深度研究任务中的表现。在DRACO基准测试中,Fusion面板模型组合得分超过单个前沿模型,例如Fable 5与GPT-5.5融合得分69.0%,高于Fable 5单独的65.3%。预算模型面板也接近前沿模型性能。该工具通过单一API调用并行调用多个模型,并由裁判模型合成最终答案。文章还介绍了防作弊措施和自我融合实验。
OpenRouter近日宣布推出Fusion,这一创新工具通过综合多个AI模型的输出结果,实现了超越单个模型能力的性能。在针对深度研究任务设计的DRACO基准测试中,Fusion展现了令人瞩目的成果。
Fusion的工作原理是,用户通过单一API调用,将任务并行发送至一个面板(panel)中的多个模型,每个模型均启用网络搜索和网页抓取功能。随后,一个裁判模型(judge model)读取所有面板响应,生成结构化分析,包括共识点、矛盾点、部分覆盖、独特见解和盲点。最后,调用模型基于该分析撰写最终答案。整个过程在服务器端运行,使得使用Fusion如同调用单个模型一样简单。
在DRACO基准测试的100个深度研究任务中,Fusion的表现显著优于单个模型。例如,Fable 5与GPT-5.5的融合组合得分69.0%,超过Fable 5单独的65.3%。一个由Gemini 3 Flash、Kimi K2.6和DeepSeek V4 Pro组成的预算面板,虽然成本仅为Fable 5的50%,却以64.7%的得分超越了GPT-5.5和Opus 4.8,并接近Fable 5的水平。这表明模型多样性与人类团队协作类似,能带来更优的复杂问题解决能力。
值得注意的是,在测试中,Fable 5因内容过滤器阻止而未能完成100个任务中的7个,因此其结果是基于93个任务计算的,与其他模型相比略有差异。此外,OpenRouter还发现,当Opus 4.8与自身配对(即两个Opus 4.8实例)时,融合得分从58.8%跃升至65.5%,说明即使模型相同,多次运行产生的不同推理路径、工具调用和源选择经过合成后也能带来显著提升。
为防止模型作弊,OpenRouter在发现面板模型可能通过搜索找到DRACO评分标准后,通过排除相关域名解决了问题。所有测试结果均在实施排除列表后产生。
目前,用户可通过OpenRouter的API直接调用Fusion(模型slug为"openrouter/fusion"),或通过聊天室(openrouter.ai/fusion)尝试预设或自定义面板。该工具旨在为需要深度研究和综合分析的场景提供更强大的AI解决方案。