2026-04-07 05:53 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

GitHub Copilot CLI 引入“橡皮鴨”模式：跨模型家族提供第二意見

GitHub Copilot CLI 推出實驗性“橡皮鴨”功能，利用不同 AI 家族的模型作為獨立審查者，評估代理的計劃和工作，以捕捉單模型可能遺漏的錯誤。評估顯示，Claude Sonnet 搭配橡皮鴨可縮小與 Opus 74.7% 的效能差距，尤其擅長處理多檔案複雜任務。使用者可選擇在關鍵節點自動或手動觸發審查。

來源GitHub AI & ML作者: Nick McKenna

GitHub 近日在 Copilot CLI 中引入了一項實驗性功能——“橡皮鴨”（Rubber Duck），旨在透過跨模型家族的協作來提升編碼代理的決策質量。該功能借鑑了經典的“橡皮鴨除錯法”概念，但賦予了它全新的技術內涵：當主代理（例如 Claude Sonnet）制定計劃或執行任務時，橡皮鴨會利用另一個 AI 模型（如 GPT-5.4）進行獨立審查，找出潛在的盲點、假設問題和邊際情況。

傳統上，編碼代理採用“計劃-實施-測試-迭代”的閉環流程，但單一模型容易受到自身訓練偏差的限制，在早期決策中埋下隱患。橡皮鴨的介入打破了這一侷限。在測試中，GitHub 使用 SWE-Bench Pro 基準評估了該功能。結果顯示，以 Claude Sonnet 為主模型並搭配 GPT-5.4 驅動的橡皮鴨，其問題解決率接近更高階的 Claude Opus，彌合了兩者之間 74.7% 的效能差距。特別在涉及 3 個以上檔案、需要 70 步以上處理的複雜任務中，該組合的得分比 Sonnet 基線高 3.8%，在最困難問題上提升達 4.8%。

橡皮鴨的觸發機制靈活而精準。它可以在三種關鍵節點自動啟動：制定計劃後、複雜實現後、以及編寫測試但尚未執行時。此外，當代理陷入迴圈或進展停滯時，橡皮鴨也會被動介入。使用者亦可在任何時刻手動要求審查，Copilot 將呼叫橡皮鴨，整合反饋並顯示具體更改。目前，橡皮鴨支援所有 Claude 系列模型（Opus、Sonnet、Haiku）作為主模型，而 GPT-5.4 作為審查者；GitHub 正在探索更多模型配對。

在具體案例中，橡皮鴨展現了出色的偵錯能力。例如，它發現了一個會導致排程器啟動即退出的架構問題，以及一個無聲覆蓋字典鍵的迴圈錯誤——該錯誤導致 Solr 搜尋中每四次就有三次丟失了 faceted 類別。它還識別出跨檔案的 Redis 鍵衝突，這些錯誤若無第二道審查很可能在部署後才暴露。

目前，橡皮鴨已作為實驗功能在 GitHub Copilot CLI 中上線。使用者需安裝 CLI 並執行 /experimental 命令，在模型選擇器中選用任意 Claude 模型並確保 GPT-5.4 訪問許可權即可體驗。GitHub 鼓勵使用者透過討論區反饋意見，以便進一步最佳化這一跨模型審查機制。