2026-04-07 05:53 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

GitHub Copilot CLI 引入“橡皮鸭”模式：跨模型家族提供第二意见

GitHub Copilot CLI 推出实验性“橡皮鸭”功能，利用不同 AI 家族的模型作为独立审查者，评估代理的计划和工作，以捕捉单模型可能遗漏的错误。评估显示，Claude Sonnet 搭配橡皮鸭可缩小与 Opus 74.7% 的性能差距，尤其擅长处理多文件复杂任务。用户可选择在关键节点自动或手动触发审查。

来源GitHub AI & ML作者: Nick McKenna

GitHub 近日在 Copilot CLI 中引入了一项实验性功能——“橡皮鸭”（Rubber Duck），旨在通过跨模型家族的协作来提升编码代理的决策质量。该功能借鉴了经典的“橡皮鸭调试法”概念，但赋予了它全新的技术内涵：当主代理（例如 Claude Sonnet）制定计划或执行任务时，橡皮鸭会利用另一个 AI 模型（如 GPT-5.4）进行独立审查，找出潜在的盲点、假设问题和边际情况。

传统上，编码代理采用“计划-实施-测试-迭代”的闭环流程，但单一模型容易受到自身训练偏差的限制，在早期决策中埋下隐患。橡皮鸭的介入打破了这一局限。在测试中，GitHub 使用 SWE-Bench Pro 基准评估了该功能。结果显示，以 Claude Sonnet 为主模型并搭配 GPT-5.4 驱动的橡皮鸭，其问题解决率接近更高端的 Claude Opus，弥合了两者之间 74.7% 的性能差距。特别在涉及 3 个以上文件、需要 70 步以上处理的复杂任务中，该组合的得分比 Sonnet 基线高 3.8%，在最困难问题上提升达 4.8%。

橡皮鸭的触发机制灵活而精准。它可以在三种关键节点自动启动：制定计划后、复杂实现后、以及编写测试但尚未执行时。此外，当代理陷入循环或进展停滞时，橡皮鸭也会被动介入。用户亦可在任何时刻手动要求审查，Copilot 将调用橡皮鸭，整合反馈并显示具体更改。目前，橡皮鸭支持所有 Claude 系列模型（Opus、Sonnet、Haiku）作为主模型，而 GPT-5.4 作为审查者；GitHub 正在探索更多模型配对。

在具体案例中，橡皮鸭展现了出色的侦错能力。例如，它发现了一个会导致调度器启动即退出的架构问题，以及一个无声覆盖字典键的循环错误——该错误导致 Solr 搜索中每四次就有三次丢失了 faceted 类别。它还识别出跨文件的 Redis 键冲突，这些错误若无第二道审查很可能在部署后才暴露。

目前，橡皮鸭已作为实验功能在 GitHub Copilot CLI 中上线。用户需安装 CLI 并运行 /experimental 命令，在模型选择器中选用任意 Claude 模型并确保 GPT-5.4 访问权限即可体验。GitHub 鼓励用户通过讨论区反馈意见，以便进一步优化这一跨模型审查机制。