2026-04-07 05:53 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

GitHub Copilot CLI 引入“橡皮鴨”模式：跨模型家族提供第二意見

GitHub Copilot CLI 推出實驗性“橡皮鴨”功能，利用不同 AI 家族的模型作為獨立審查者，評估代理的計劃和工作，以捕捉單模型可能遺漏的錯誤。評估顯示，Claude Sonnet 搭配橡皮鴨可縮小與 Opus 74.7% 的性能差距，尤其擅長處理多文件複雜任務。用户可選擇在關鍵節點自動或手動觸發審查。

來源GitHub AI & ML作者: Nick McKenna

GitHub 近日在 Copilot CLI 中引入了一項實驗性功能——“橡皮鴨”（Rubber Duck），旨在通過跨模型家族的協作來提升編碼代理的決策質量。該功能借鑑了經典的“橡皮鴨調試法”概念，但賦予了它全新的技術內涵：當主代理（例如 Claude Sonnet）制定計劃或執行任務時，橡皮鴨會利用另一個 AI 模型（如 GPT-5.4）進行獨立審查，找出潛在的盲點、假設問題和邊際情況。

傳統上，編碼代理採用“計劃-實施-測試-迭代”的閉環流程，但單一模型容易受到自身訓練偏差的限制，在早期決策中埋下隱患。橡皮鴨的介入打破了這一侷限。在測試中，GitHub 使用 SWE-Bench Pro 基準評估了該功能。結果顯示，以 Claude Sonnet 為主模型並搭配 GPT-5.4 驅動的橡皮鴨，其問題解決率接近更高端的 Claude Opus，彌合了兩者之間 74.7% 的性能差距。特別在涉及 3 個以上文件、需要 70 步以上處理的複雜任務中，該組合的得分比 Sonnet 基線高 3.8%，在最困難問題上提升達 4.8%。

橡皮鴨的觸發機制靈活而精準。它可以在三種關鍵節點自動啓動：制定計劃後、複雜實現後、以及編寫測試但尚未執行時。此外，當代理陷入循環或進展停滯時，橡皮鴨也會被動介入。用户亦可在任何時刻手動要求審查，Copilot 將調用橡皮鴨，整合反饋並顯示具體更改。目前，橡皮鴨支持所有 Claude 系列模型（Opus、Sonnet、Haiku）作為主模型，而 GPT-5.4 作為審查者；GitHub 正在探索更多模型配對。

在具體案例中，橡皮鴨展現了出色的偵錯能力。例如，它發現了一個會導致調度器啓動即退出的架構問題，以及一個無聲覆蓋字典鍵的循環錯誤——該錯誤導致 Solr 搜索中每四次就有三次丟失了 faceted 類別。它還識別出跨文件的 Redis 鍵衝突，這些錯誤若無第二道審查很可能在部署後才暴露。

目前，橡皮鴨已作為實驗功能在 GitHub Copilot CLI 中上線。用户需安裝 CLI 並運行 /experimental 命令，在模型選擇器中選用任意 Claude 模型並確保 GPT-5.4 訪問權限即可體驗。GitHub 鼓勵用户通過討論區反饋意見，以便進一步優化這一跨模型審查機制。