2026-06-14站内改写1 分鐘閱讀更新: 2026-06-14

融合模型超越前沿性能

OpenRouter推出Fusion工具，通過融合多個模型的輸出結果，顯著提升AI在深度研究任務中的表現。在DRACO基準測試中，Fusion面板模型組合得分超過單個前沿模型，例如Fable 5與GPT-5.5融合得分69.0%，高於Fable 5單獨的65.3%。預算模型面板也接近前沿模型性能。該工具通過單一API調用並行調用多個模型，並由裁判模型合成最終答案。文章還介紹了防作弊措施和自我融合實驗。

來源Hacker News AI作者: jcfrei

OpenRouter近日宣佈推出Fusion，這一創新工具通過綜合多個AI模型的輸出結果，實現了超越單個模型能力的性能。在針對深度研究任務設計的DRACO基準測試中，Fusion展現了令人矚目的成果。

Fusion的工作原理是，用户通過單一API調用，將任務並行發送至一個面板（panel）中的多個模型，每個模型均啓用網絡搜索和網頁抓取功能。隨後，一個裁判模型（judge model）讀取所有面板響應，生成結構化分析，包括共識點、矛盾點、部分覆蓋、獨特見解和盲點。最後，調用模型基於該分析撰寫最終答案。整個過程在服務器端運行，使得使用Fusion如同調用單個模型一樣簡單。

在DRACO基準測試的100個深度研究任務中，Fusion的表現顯著優於單個模型。例如，Fable 5與GPT-5.5的融合組合得分69.0%，超過Fable 5單獨的65.3%。一個由Gemini 3 Flash、Kimi K2.6和DeepSeek V4 Pro組成的預算面板，雖然成本僅為Fable 5的50%，卻以64.7%的得分超越了GPT-5.5和Opus 4.8，並接近Fable 5的水平。這表明模型多樣性與人類團隊協作類似，能帶來更優的複雜問題解決能力。

值得注意的是，在測試中，Fable 5因內容過濾器阻止而未能完成100個任務中的7個，因此其結果是基於93個任務計算的，與其他模型相比略有差異。此外，OpenRouter還發現，當Opus 4.8與自身配對（即兩個Opus 4.8實例）時，融合得分從58.8%躍升至65.5%，説明即使模型相同，多次運行產生的不同推理路徑、工具調用和源選擇經過合成後也能帶來顯著提升。

為防止模型作弊，OpenRouter在發現面板模型可能通過搜索找到DRACO評分標準後，通過排除相關域名解決了問題。所有測試結果均在實施排除列表後產生。

目前，用户可通過OpenRouter的API直接調用Fusion（模型slug為"openrouter/fusion"），或通過聊天室（openrouter.ai/fusion）嘗試預設或自定義面板。該工具旨在為需要深度研究和綜合分析的場景提供更強大的AI解決方案。