AI News HubLIVE
站內改寫2 分鐘閱讀

GitHub Copilot CLI 引入“橡皮鴨”模式:跨模型家族提供第二意見

GitHub Copilot CLI 推出實驗性“橡皮鴨”功能,利用不同 AI 家族的模型作為獨立審查者,評估代理的計劃和工作,以捕捉單模型可能遺漏的錯誤。評估顯示,Claude Sonnet 搭配橡皮鴨可縮小與 Opus 74.7% 的效能差距,尤其擅長處理多檔案複雜任務。使用者可選擇在關鍵節點自動或手動觸發審查。

來源GitHub AI & ML作者: Nick McKenna

GitHub 近日在 Copilot CLI 中引入了一項實驗性功能——“橡皮鴨”(Rubber Duck),旨在透過跨模型家族的協作來提升編碼代理的決策質量。該功能借鑑了經典的“橡皮鴨除錯法”概念,但賦予了它全新的技術內涵:當主代理(例如 Claude Sonnet)制定計劃或執行任務時,橡皮鴨會利用另一個 AI 模型(如 GPT-5.4)進行獨立審查,找出潛在的盲點、假設問題和邊際情況。

傳統上,編碼代理採用“計劃-實施-測試-迭代”的閉環流程,但單一模型容易受到自身訓練偏差的限制,在早期決策中埋下隱患。橡皮鴨的介入打破了這一侷限。在測試中,GitHub 使用 SWE-Bench Pro 基準評估了該功能。結果顯示,以 Claude Sonnet 為主模型並搭配 GPT-5.4 驅動的橡皮鴨,其問題解決率接近更高階的 Claude Opus,彌合了兩者之間 74.7% 的效能差距。特別在涉及 3 個以上檔案、需要 70 步以上處理的複雜任務中,該組合的得分比 Sonnet 基線高 3.8%,在最困難問題上提升達 4.8%。

橡皮鴨的觸發機制靈活而精準。它可以在三種關鍵節點自動啟動:制定計劃後、複雜實現後、以及編寫測試但尚未執行時。此外,當代理陷入迴圈或進展停滯時,橡皮鴨也會被動介入。使用者亦可在任何時刻手動要求審查,Copilot 將呼叫橡皮鴨,整合反饋並顯示具體更改。目前,橡皮鴨支援所有 Claude 系列模型(Opus、Sonnet、Haiku)作為主模型,而 GPT-5.4 作為審查者;GitHub 正在探索更多模型配對。

在具體案例中,橡皮鴨展現了出色的偵錯能力。例如,它發現了一個會導致排程器啟動即退出的架構問題,以及一個無聲覆蓋字典鍵的迴圈錯誤——該錯誤導致 Solr 搜尋中每四次就有三次丟失了 faceted 類別。它還識別出跨檔案的 Redis 鍵衝突,這些錯誤若無第二道審查很可能在部署後才暴露。

目前,橡皮鴨已作為實驗功能在 GitHub Copilot CLI 中上線。使用者需安裝 CLI 並執行 /experimental 命令,在模型選擇器中選用任意 Claude 模型並確保 GPT-5.4 訪問許可權即可體驗。GitHub 鼓勵使用者透過討論區反饋意見,以便進一步最佳化這一跨模型審查機制。