AI News HubLIVE
站内改写1 分鐘閱讀

融合模型超越前沿性能

OpenRouter推出Fusion工具,通過融合多個模型的輸出結果,顯著提升AI在深度研究任務中的表現。在DRACO基準測試中,Fusion面板模型組合得分超過單個前沿模型,例如Fable 5與GPT-5.5融合得分69.0%,高於Fable 5單獨的65.3%。預算模型面板也接近前沿模型性能。該工具通過單一API調用並行調用多個模型,並由裁判模型合成最終答案。文章還介紹了防作弊措施和自我融合實驗。

來源Hacker News AI作者: jcfrei

OpenRouter近日宣佈推出Fusion,這一創新工具通過綜合多個AI模型的輸出結果,實現了超越單個模型能力的性能。在針對深度研究任務設計的DRACO基準測試中,Fusion展現了令人矚目的成果。

Fusion的工作原理是,用户通過單一API調用,將任務並行發送至一個面板(panel)中的多個模型,每個模型均啓用網絡搜索和網頁抓取功能。隨後,一個裁判模型(judge model)讀取所有面板響應,生成結構化分析,包括共識點、矛盾點、部分覆蓋、獨特見解和盲點。最後,調用模型基於該分析撰寫最終答案。整個過程在服務器端運行,使得使用Fusion如同調用單個模型一樣簡單。

在DRACO基準測試的100個深度研究任務中,Fusion的表現顯著優於單個模型。例如,Fable 5與GPT-5.5的融合組合得分69.0%,超過Fable 5單獨的65.3%。一個由Gemini 3 Flash、Kimi K2.6和DeepSeek V4 Pro組成的預算面板,雖然成本僅為Fable 5的50%,卻以64.7%的得分超越了GPT-5.5和Opus 4.8,並接近Fable 5的水平。這表明模型多樣性與人類團隊協作類似,能帶來更優的複雜問題解決能力。

值得注意的是,在測試中,Fable 5因內容過濾器阻止而未能完成100個任務中的7個,因此其結果是基於93個任務計算的,與其他模型相比略有差異。此外,OpenRouter還發現,當Opus 4.8與自身配對(即兩個Opus 4.8實例)時,融合得分從58.8%躍升至65.5%,説明即使模型相同,多次運行產生的不同推理路徑、工具調用和源選擇經過合成後也能帶來顯著提升。

為防止模型作弊,OpenRouter在發現面板模型可能通過搜索找到DRACO評分標準後,通過排除相關域名解決了問題。所有測試結果均在實施排除列表後產生。

目前,用户可通過OpenRouter的API直接調用Fusion(模型slug為"openrouter/fusion"),或通過聊天室(openrouter.ai/fusion)嘗試預設或自定義面板。該工具旨在為需要深度研究和綜合分析的場景提供更強大的AI解決方案。