AI News HubLIVE
站內改寫2 分鐘閱讀

GitHub Copilot CLI 引入“橡皮鴨”模式:跨模型家族提供第二意見

GitHub Copilot CLI 推出實驗性“橡皮鴨”功能,利用不同 AI 家族的模型作為獨立審查者,評估代理的計劃和工作,以捕捉單模型可能遺漏的錯誤。評估顯示,Claude Sonnet 搭配橡皮鴨可縮小與 Opus 74.7% 的性能差距,尤其擅長處理多文件複雜任務。用户可選擇在關鍵節點自動或手動觸發審查。

來源GitHub AI & ML作者: Nick McKenna

GitHub 近日在 Copilot CLI 中引入了一項實驗性功能——“橡皮鴨”(Rubber Duck),旨在通過跨模型家族的協作來提升編碼代理的決策質量。該功能借鑑了經典的“橡皮鴨調試法”概念,但賦予了它全新的技術內涵:當主代理(例如 Claude Sonnet)制定計劃或執行任務時,橡皮鴨會利用另一個 AI 模型(如 GPT-5.4)進行獨立審查,找出潛在的盲點、假設問題和邊際情況。

傳統上,編碼代理採用“計劃-實施-測試-迭代”的閉環流程,但單一模型容易受到自身訓練偏差的限制,在早期決策中埋下隱患。橡皮鴨的介入打破了這一侷限。在測試中,GitHub 使用 SWE-Bench Pro 基準評估了該功能。結果顯示,以 Claude Sonnet 為主模型並搭配 GPT-5.4 驅動的橡皮鴨,其問題解決率接近更高端的 Claude Opus,彌合了兩者之間 74.7% 的性能差距。特別在涉及 3 個以上文件、需要 70 步以上處理的複雜任務中,該組合的得分比 Sonnet 基線高 3.8%,在最困難問題上提升達 4.8%。

橡皮鴨的觸發機制靈活而精準。它可以在三種關鍵節點自動啓動:制定計劃後、複雜實現後、以及編寫測試但尚未執行時。此外,當代理陷入循環或進展停滯時,橡皮鴨也會被動介入。用户亦可在任何時刻手動要求審查,Copilot 將調用橡皮鴨,整合反饋並顯示具體更改。目前,橡皮鴨支持所有 Claude 系列模型(Opus、Sonnet、Haiku)作為主模型,而 GPT-5.4 作為審查者;GitHub 正在探索更多模型配對。

在具體案例中,橡皮鴨展現了出色的偵錯能力。例如,它發現了一個會導致調度器啓動即退出的架構問題,以及一個無聲覆蓋字典鍵的循環錯誤——該錯誤導致 Solr 搜索中每四次就有三次丟失了 faceted 類別。它還識別出跨文件的 Redis 鍵衝突,這些錯誤若無第二道審查很可能在部署後才暴露。

目前,橡皮鴨已作為實驗功能在 GitHub Copilot CLI 中上線。用户需安裝 CLI 並運行 /experimental 命令,在模型選擇器中選用任意 Claude 模型並確保 GPT-5.4 訪問權限即可體驗。GitHub 鼓勵用户通過討論區反饋意見,以便進一步優化這一跨模型審查機制。