AI News HubLIVE
站内改写2 分钟阅读

GitHub Copilot CLI 引入“橡皮鸭”模式:跨模型家族提供第二意见

GitHub Copilot CLI 推出实验性“橡皮鸭”功能,利用不同 AI 家族的模型作为独立审查者,评估代理的计划和工作,以捕捉单模型可能遗漏的错误。评估显示,Claude Sonnet 搭配橡皮鸭可缩小与 Opus 74.7% 的性能差距,尤其擅长处理多文件复杂任务。用户可选择在关键节点自动或手动触发审查。

来源GitHub AI & ML作者: Nick McKenna

GitHub 近日在 Copilot CLI 中引入了一项实验性功能——“橡皮鸭”(Rubber Duck),旨在通过跨模型家族的协作来提升编码代理的决策质量。该功能借鉴了经典的“橡皮鸭调试法”概念,但赋予了它全新的技术内涵:当主代理(例如 Claude Sonnet)制定计划或执行任务时,橡皮鸭会利用另一个 AI 模型(如 GPT-5.4)进行独立审查,找出潜在的盲点、假设问题和边际情况。

传统上,编码代理采用“计划-实施-测试-迭代”的闭环流程,但单一模型容易受到自身训练偏差的限制,在早期决策中埋下隐患。橡皮鸭的介入打破了这一局限。在测试中,GitHub 使用 SWE-Bench Pro 基准评估了该功能。结果显示,以 Claude Sonnet 为主模型并搭配 GPT-5.4 驱动的橡皮鸭,其问题解决率接近更高端的 Claude Opus,弥合了两者之间 74.7% 的性能差距。特别在涉及 3 个以上文件、需要 70 步以上处理的复杂任务中,该组合的得分比 Sonnet 基线高 3.8%,在最困难问题上提升达 4.8%。

橡皮鸭的触发机制灵活而精准。它可以在三种关键节点自动启动:制定计划后、复杂实现后、以及编写测试但尚未执行时。此外,当代理陷入循环或进展停滞时,橡皮鸭也会被动介入。用户亦可在任何时刻手动要求审查,Copilot 将调用橡皮鸭,整合反馈并显示具体更改。目前,橡皮鸭支持所有 Claude 系列模型(Opus、Sonnet、Haiku)作为主模型,而 GPT-5.4 作为审查者;GitHub 正在探索更多模型配对。

在具体案例中,橡皮鸭展现了出色的侦错能力。例如,它发现了一个会导致调度器启动即退出的架构问题,以及一个无声覆盖字典键的循环错误——该错误导致 Solr 搜索中每四次就有三次丢失了 faceted 类别。它还识别出跨文件的 Redis 键冲突,这些错误若无第二道审查很可能在部署后才暴露。

目前,橡皮鸭已作为实验功能在 GitHub Copilot CLI 中上线。用户需安装 CLI 并运行 /experimental 命令,在模型选择器中选用任意 Claude 模型并确保 GPT-5.4 访问权限即可体验。GitHub 鼓励用户通过讨论区反馈意见,以便进一步优化这一跨模型审查机制。