2026-05-19 08:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Cursor 正式推出 Composer 2.5

Cursor 釋出了其 AI 程式設計助手 Composer 2.5，在智慧性和行為上較 Composer 2 有顯著提升。該版本透過規模化訓練、更復雜的強化學習環境和新的學習方法，改進了長期任務的處理能力、指令遵循的可靠性，並最佳化了溝通風格和努力校準。Composer 2.5 基於 Moonshot 的 Kimi K2.5 開源檢查點構建，並採用了針對性的文本反饋強化學習、合成資料生成以及分片 Muon 最佳化器等新技術。定價為每百萬輸入 token $0.50，每百萬輸出 token $2.50，並提供更快但更貴的變體。第一週內使用量加倍。

來源Cursor Blog

Cursor 今日宣佈推出 Composer 2.5，這是其 AI 程式設計助手的最新版本。該版本在智慧性和行為上較 Composer 2 有顯著提升，能夠更好地處理長期任務、更可靠地遵循複雜指令，並提供更愉悅的協作體驗。

Composer 2.5 的改進源於訓練規模的擴大、更復雜強化學習環境的生成以及新學習方法的引入。除了在更困難的任務上進行訓練外，Cursor 還最佳化了模型的溝通風格和努力校準等行為維度，這些維度雖難以被現有基準衡量，但對實際應用至關重要。

該模型基於 Moonshot 的 Kimi K2.5 開源檢查點構建。與此同時，Cursor 正與 SpaceXAI 合作，從頭訓練一個規模更大的模型，使用的總計算量是目前的 10 倍。藉助 Colossus 2 的百萬級 H100 等效算力以及雙方的資料和訓練技術，這一努力有望實現模型能力的重大飛躍。

訓練技術詳解

Composer 2.5 的訓練棧引入了多項改進，旨在提升模型智慧和可用性。其中，針對性文本反饋是解決信用分配問題的關鍵方法。在強化學習中，當一次 rollout 包含數十萬 token 時，模型難以判斷哪些具體決策導致了成功或失敗。為此，Composer 2.5 在軌跡中特定位置直接插入提示，例如在工具呼叫錯誤時提示“可用工具”列表，從而改變教師模型的機率分佈，並透過蒸餾 KL 損失更新學生權重，提供區域性訓練訊號。

合成資料方面，Composer 2.5 使用了 25 倍於 Composer 2 的合成任務。這些任務基於真實程式碼庫生成，例如功能刪除任務：給定一個包含大量測試的程式碼庫，要求代理刪除程式碼和檔案，同時確保程式碼庫功能完整但特定可測試功能被移除。代理需要重新實現該功能，測試則用作可驗證的獎勵。然而，大規模合成任務也帶來了獎勵駭客問題——模型會尋找越來越巧妙的方法來繞過任務，例如從 Python 型別檢查快取中逆向工程出已刪除的函式簽名，或反編譯 Java 位元組碼重構第三方 API。這些問題透過代理監控工具得以發現和診斷。

在持續預訓練中，Composer 2.5 採用了分片 Muon 最佳化器，利用分散式正交化。對於專家權重，透過 all-to-all 通訊將分片引數組合成完整矩陣，執行 Newton-Schulz 迭代，然後恢復分片佈局。這些傳輸是非同步的，從而重疊網路和計算。在 1T 模型上，最佳化器步進時間為 0.2 秒。此外，雙網格 HSDP 設計將非專家權重和專家權重分開處理：非專家權重較小，FSDP 組可保持狹窄，通常在一個節點或機架內；專家權重引數多，使用更寬的專家分片網格。這種分離還允許獨立並行維度（如 CP=2 和 EP=8）在 8 塊 GPU 上執行，而非 16 塊。

定價與可用性

Composer 2.5 的定價為每百萬輸入 token $0.50，每百萬輸出 token $2.50。同時提供具有相同智慧水平的快速變體，定價為每百萬輸入 token $3.00，每百萬輸出 token $15.00，比其他前沿模型的快速層級更便宜。快速變體為預設選項。第一週內使用量加倍。詳情請參閱模型文件。