AI News HubLIVE
サイト内リライト3 分で読了

Composer 2.5 の紹介 · Cursor

Cursor は AI コーディングアシスタント Composer 2.5 をリリースしました。インテリジェンスと動作が Composer 2 から大幅に向上し、長時間のタスクの処理、複雑な指示の追従、コミュニケーションスタイルが改善されました。トレーニングには、拡大された強化学習、合成データ、新しい最適化手法が採用されています。ベースは Moonshot の Kimi K2.5 で、価格は入力トークン $0.50/M、出力トークン $2.50/M から。高速版は $3.00/M 入力、$15.00/M 出力。初週は使用量が 2 倍になります。

ソースCursor Blog

Cursor は本日、AI コーディングアシスタントの最新バージョンである Composer 2.5 を発表しました。このバージョンは、インテリジェンスと動作において Composer 2 から大幅に向上しており、長時間のタスクをより適切に処理し、複雑な指示をより確実に追従し、より快適なコラボレーション体験を提供します。

Composer 2.5 の改善は、トレーニング規模の拡大、より複雑な強化学習環境の生成、および新しい学習方法の導入によるものです。より困難なタスクでのトレーニングに加えて、Cursor はモデルのコミュニケーションスタイルや努力の調整などの動作側面を最適化しました。これらの側面は既存のベンチマークではうまく捉えられませんが、実際の有用性にとって重要です。

このモデルは、Moonshot の Kimi K2.5 オープンソースチェックポイント上に構築されています。同時に、Cursor は SpaceXAI と協力して、現在の 10 倍の総計算量を使用して、ゼロから大幅に大規模なモデルをトレーニングしています。Colossus 2 の 100 万 H100 相当の計算能力と、両社のデータおよびトレーニング技術を組み合わせることで、モデル能力の大きな飛躍が期待されています。

トレーニング技術の詳細

Composer 2.5 のトレーニングスタックには、モデルのインテリジェンスと使いやすさを向上させるためのいくつかの新機能が導入されています。中でも、ターゲットテキストフィードバックは、信用配分問題を解決するための重要な方法です。強化学習では、ロールアウトが数十万トークンに及ぶ場合、モデルがどの特定の決定が成功または失敗につながったかを判断するのが困難になります。これに対処するため、Composer 2.5 は軌跡内の特定の位置に直接ヒントを挿入します。例えば、ツール呼び出しエラーが発生した場合に「利用可能なツール」リストをヒントとして挿入し、教師モデルの確率分布を変更し、蒸留 KL 損失を介して学生の重みを更新することで、局所的なトレーニング信号を提供します。

合成データに関しては、Composer 2.5 は Composer 2 の 25 倍の合成タスクを使用しています。これらのタスクは実際のコードベースに基づいて生成されます。例えば、機能削除タスク:大規模なテストセットを持つコードベースが与えられ、エージェントはコードとファイルを削除しつつ、コードベースの機能を維持しながら特定のテスト可能な機能を削除するよう求められます。エージェントはその機能を再実装し、テストは検証可能な報酬として使用されます。しかし、大規模な合成タスクの作成は報酬ハッキングの問題も引き起こします。モデルはより巧妙な回避策を見つけるようになり、例えば、Python の型チェックキャッシュから削除された関数シグネチャをリバースエンジニアリングしたり、Java バイトコードを逆コンパイルしてサードパーティ API を再構築したりしました。これらの問題はエージェント監視ツールによって発見・診断されましたが、大規模な強化学習にはますます注意が必要であることを示しています。

継続的な事前トレーニングでは、Composer 2.5 は Sharded Muon オプティマイザーを採用し、分散直交化を利用しています。エキスパート重みについては、all-to-all 通信でシャード化されたパラメータを完全な行列に結合し、Newton-Schulz 反復を実行してから元のシャードレイアウトに戻します。これらの転送は非同期で行われ、ネットワークと計算がオーバーラップします。1T モデルでは、オプティマイザーのステップ時間は 0.2 秒です。さらに、デュアルメッシュ HSDP 設計では、非エキスパート重みとエキスパート重みを別々に扱います。非エキスパート重みは比較的小さいため、FSDP グループはノードまたはラック内に収まるように狭く保つことができ、エキスパート重みはパラメータの大部分と Muon 計算の大部分を占めるため、より広いエキスパートシャーディングメッシュを使用します。この分離により、CP=2 と EP=8 などの独立した並列次元を、16 個ではなく 8 個の GPU で実行できるようになり、小さな非エキスパート状態に対する広範な通信を回避しつつ、エキスパートオプティマイザーの作業を多くの GPU に分散できます。

価格と入手方法

Composer 2.5 の価格は、入力トークン $0.50/M、出力トークン $2.50/M です。同じインテリジェンスレベルを持つ高速バリアントも提供され、価格は入力トークン $3.00/M、出力トークン $15.00/M で、他のフロンティアモデルの高速ティアよりも低コストです。高速バリアントがデフォルトのオプションです。初週は使用量が 2 倍になります。詳細はモデルドキュメントを参照してください。