2026-05-19站内改写5 分鐘閱讀更新: 2026-06-12

Cursor新模型，你怎麼還在套Kimi？馬斯克你怎麼還吆喝上了？？

Cursor發佈Composer 2.5模型，基於Kimi K2.5，通過大量後訓練和強化學習，以Opus 4.7十分之一的成本達到接近其性能。馬斯克從批評轉為支持，因SpaceXAI與Cursor達成算力合作，並獲得收購優先權。模型在多項基準測試中接近Opus 4.7，價格大幅降低。

來源量子位作者: 一水

Cursor新模型，你怎麼還在套Kimi？馬斯克你怎麼還吆喝上了？？ – 量子位

Cursor新模型，你怎麼還在套Kimi？馬斯克你怎麼還吆喝上了？？

一水 2026-05-19 14:07:48

來源：量子位

1/10成本、Opus 4.7級表現

Cursor模型更新，最新版本已來到Composer 2.5。

稍微一翻Cursor公告，兩件事挺有意思：

一是Cursor這回學老實了，新模型“套”了Kimi不再藏着掖着，連具體用了多少都標的清清楚楚。

（Cursor：Kimi打底，自家額外訓練+RL佔了85%的總算力）

二是馬斯克原地上演變臉，之前Cursor陷入“套殼風波”時他在旁邊煽風點火，現在卻十分賣力地幫忙站台：

都給我去用Cursor新模型。

網友：老馬你讓我感到陌生(doge）。

別想多了，其實這是因為Cursor和馬斯克達成了算力合作——

Composer 2.5部分訓練是在Colossus 2上完成的，以及Cursor正在和SpaceXAI合作，從零開始訓練一個規模明顯更大的模型。

好好好，新模型剛來，下一代模型的“餅”又吃上了，看來Cursor真是鉚足了勁想搞自研（具體原因下文詳聊）。

不過遠的咱是夠不着了，先看眼前這個實在的——Composer 2.5本身亮點也很足。

1/10成本、Opus 4.7級表現，而且發佈後首周還給你雙倍用量。

好傢伙，這幾個詞一甩出來，經常用模型的朋友誰不沸騰了。

但問題是，Cursor新模型真有這麼頂嗎？？

1/10成本、Opus 4.7級表現

頂不頂目前咱不好説，反正測評成績挺亮眼。

據Cursor介紹，“它更擅長在長時間運行的任務中持續工作，更可靠地遵循複雜指令，協作體驗也更加順暢”。

這些表現反映到具體數字上就是，其性能水平整體接近Claude Opus 4.7。

Terminal-Bench 2.0（終端/命令行任務）：69.3% VS 69.4%，幾乎持平；

SWE-Bench Multilingual（多語言工程問題）：79.8% VS 80.5%，差距微弱；

CursorBench v3.1（高難度編程任務）：63.2% VS 最高配64.8%，差距微弱。

能和Opus 4.7相提並論，常用模型的人都知道這裏頭的含金量了。

而且除了在更高難度的任務上訓練之外，他們還改進了模型在溝通風格和投入級別校準（什麼時候該出多大力）等行為層面的表現。

聽起來有點抽象，但Cursor表示：

這些維度很難通過現有基準充分反映，但我們發現，它們對實際使用效果非常重要。

那麼，Composer 2.5真實能力如何呢？

鑑於目前Cursor免費用户只能體驗Auto模式（雖然上架了但是選不了），所以咱先看一波網友的反饋。

先插一嘴，Composer模型速度是真快啊，甭管是哪一個版本，用起來歘歘歘的。

OK，迴歸正題。

目前一圈扒下來，感覺Composer 2.5反饋還不錯？？

Snapchat前機器學習工程師激情發帖稱，自從Composer 2發佈後，她就把絕大多數開發工作搬到了Cursor上面。

而且還甩出了一句頗有暴論味道的話：

如果你在使用AI進行開發，卻仍然默認使用成本最高的模型來完成每一項任務，那麼你80%的工作都是在浪費錢。

圖像生成初創公司LetzAI的CEO也有類似感受，他在體驗新模型幾小時後表示：

以前可能會對AI的方案挑三揀四、反覆修改，但這次因為Composer 2.5做得太好太快，自己直接“躺平認了”。

沒什麼可挑剔的，就這麼辦吧。

想必你也發現了，除了模型能力之外，他們提到了另一個重要關鍵詞：價格。

Composer 2.5的價格為每百萬輸入token 0.50美元、每百萬輸出token 2.50美元。

此外，還有一個智能水平相同但速度更快的變體，價格為每百萬輸入token 3.00美元、每百萬輸出token 15.00美元。

p.s. 與Composer 2一樣，fast是默認選項。

這個價格怎麼説呢？也就是Opus 4.7的1/10吧。

1/10成本、Opus 4.7級表現，如果效果真如測評和網友所言，那絕對是真香了。

Kimi打底，還做了這些訓練改進

那麼Composer 2.5這次是如何實現性能“飛躍”（至少是表面上）的呢？

雖説是有Kimi打底，但好歹貼的是“Cursor自研模型”的標籤，這背後多多少少總得有自研吧。

Cursor：別説我還真有。

回到模型本身，Cursor這回在訓練棧上做了不少改進，主要圍繞兩個方向：

模型智能和易用性。

具體則有三點：

第一，給RL訓練加了“定向反饋”

以前RL獎勵是基於整條軌跡算的，rollout動輒幾十萬token，模型很難知道自己究竟是哪一步搞砸了——最終獎勵只能告訴你“出問題了”，但具體錯哪兒，信號噪聲特別大。

Cursor的解法是：哪裏不對就在哪裏直接喂反饋。

舉個例子，模型在某一輪調用了一個不存在的工具，收到報錯後繼續幹別的。幾百次調用裏就這一次錯，對最終獎勵基本沒影響。

但Cursor會在出錯那一輪的上下文裏插一句“Reminder: Available tools…”並附上可用工具列表，由此得到一個新的“教師”概率分佈。

如此一來，錯誤工具的概率被壓下去，有效替代項的概率被抬上來，然後讓學生模型向這個分佈靠攏就行。

這套方法在Composer 2.5裏被用在了多種行為上，從編碼風格到溝通方式都有。

第二，合成數據規模翻了25倍

RL訓練幾輪下來，Composer已經能解決大部分訓練題了，怎麼繼續提升？

答案是動態生成更難的任務。

其中一個玩法叫“功能刪除”——給智能體一個帶測試的代碼庫，讓它刪掉某個特定功能但保證代碼庫還能跑，然後任務就是把這個功能重新實現出來，測試就是獎勵信號。

不過任務一多，獎勵作弊也跟着來了。

Cursor發現Composer 2.5會整一些離譜操作，比如逆向Python類型檢查緩存找出被刪的函數簽名，甚至反編譯Java字節碼重建第三方API。

好在都被監控工具抓到了，但也算提了個醒——大規模RL得更小心。

第三，底層訓練做了優化

Cursor用的是帶分佈式正交化的Muon，並把通信做成異步——一個任務等通信時，優化器接着推進其他任務，讓網絡和計算重疊起來。

最終在1T模型上，優化器每步只要0.2秒。

另外針對MoE模型，他們把非專家權重和專家權重的HSDP佈局拆開了：非專家權重小，FSDP組就窄一點，單節點內搞定；專家權重大，就用更寬的分片網格。

這樣彼此獨立的並行維度也能重疊，比如CP=2和EP=8可以在8個GPU上跑，而不用佔16個。

總之，從訓練信號到數據規模再到底層並行，Cursor這次是全棧都動了一遍。

One More Thing

Cursor為啥這麼拼搞自研？其實從它和Anthropic的微妙關係裏就能管中窺豹。

剛好最近看了姚順宇（不是騰訊那個）做客張小珺播客的那期節目，這位Anthropic前員工的觀察，正好能説明問題：

Cursor最早是踩着Claude的肩膀火起來的。開發者社區裏口口相傳的好用，背後很大一部分功勞來自Claude模型本身。那段時間Cursor和Anthropic是典型的“魚水關係”，一個出模型一個出產品，各賺各的錢。

但Claude Code一出來，畫風就變了。

Anthropic自己下場做編程產品，等於直接殺進了Cursor的腹地。原本的“上游供應商”瞬間變成了“正面對手”，再繼續把身家性命押在對方的API上，顯然不是個安全的選擇。

所以Cursor走上自研這條路，與其説是想成為下一個Anthropic，不如説是被推着不得不走——

模型握在自己手裏，命才在自己手裏。

説到這裏我很好奇一個問題：在自研模型成功之前，Cursor現在的模式難道真的不具有護城河嗎？

至少對我這種非專業開發者而言，聽起來好像Cursor還不錯——有多款前沿模型可選，價格還更便宜。

帶着好奇，我看到X上有人給出了一種解讀，挺有意思：

Cursor的護城河從來都不是基礎模型，而是RL訓練流程+開發者工作流數據。現在他們正在證明：只要經過足夠的微調，開源基礎模型在特定任務上也能與前沿模型相媲美。

仔細想想這話也不算太誇張。

Composer 2.5的訓練裏，85%的算力都花在了Kimi基模之外的後訓練和RL上——Kimi K2.5只是個起點，真正讓它在編程任務上能打的，是Cursor自己那套圍繞真實IDE場景做出來的訓練管線。

這個打法也解釋了為啥它能把價格壓到Opus的十分之一。因為，開源基模省掉了從零預訓練那筆最貴的錢，剩下的全砸在編程這一件事上做精細化訓練。

模型只為Cursor的IDE場景服務，沒必要為通用能力買單。

至於為啥這次牽手的是馬斯克的SpaceXAI（畢竟老馬上次表現得並不友好），邏輯貌似也不復雜。

OpenAI有Codex、Anthropic有Claude Code、Google有Gemini Code Assist，這幾家自己都在做編程產品，跟Cursor都是潛在對手，算力上指望不上。

剩下能拿出世界級算力集羣、又不跟Cursor在編程賽道正面衝突的玩家，掰着指頭數也沒幾個了——

老馬的Colossus 2剛好是現成的。

而且如果把時間線拉長看，你會發現馬斯克和Cursor之間，已經遠不只是單純的“算力合作”。

今年3月，xAI內部動盪之際，馬斯克先從Cursor挖走了兩位核心工程負責人。

緊接着4月，更大的動作來了。SpaceX宣佈與Cursor達成合作，由Colossus超算為Cursor訓練模型。

但真正關鍵的不是算力，而是協議本身。

按照網上披露的條款，SpaceX獲得了未來以600億美元收購Cursor的優先權。即便最終不收購，Cursor也需要支付100億美元“合作費”。

耐人尋味的是，據TechCrunch披露，這份協議官宣前幾小時，Cursor原本正要敲定一輪20億美元、估值500億的融資，參投方包括a16z、英偉達、Thrive等一線機構。

結果老馬一腳插進來，把這單給截胡了。

所以某種程度上而言，這其實是一次非常典型的“馬斯克式綁定”：

要麼賣給我，要麼給我100億，不管怎樣先提前把Cursor的命運鎖進了自己的版圖。

至於他前腳煽風點火、後腳賣力站台的變臉速度嘛——硅谷的故事，向來如此。

版權所有，未經授權不得以任何形式轉載及使用，違者必究。

一水

AI第一金主黃仁勳：日均花掉20億2026-05-12

黃仁勳喊話畢業生：AI不會取代你，但善用AI的人會2026-05-11

AI PPT，這次是真不用返工了2026-05-06

Anthropic出手！AI的內心獨白，曝光了2026-05-08

熱門文章

AI步入“自我進化”時代，李彥宏首提AI時代度量衡“DAA”｜Create2026百度AI開發者⼤會速覽

2026-05-13

華為雲創想者大會主題論壇議程公佈：釋放Agentic AI新佈局

2026-05-15

商湯善惠燒賣購機器人小店上海“開業”，讓機器人真正落地線下零售

2026-05-12

人手一個數據庫，Kimi背後這套AI基建到底有多能扛？

2026-05-14

林俊暘果然創業了！一個“Qwen負責人”頭銜值135億

2026-05-13

掃碼關注量子位

量子位 QbitAI 版權所有©北京極客夥伴科技有限公司京ICP備17005886號-1