Cursor新模型,你怎麼還在套Kimi?馬斯克你怎麼還吆喝上了??
Cursor釋出Composer 2.5模型,基於Kimi K2.5,透過大量後訓練和強化學習,以Opus 4.7十分之一的成本達到接近其效能。馬斯克從批評轉為支援,因SpaceXAI與Cursor達成算力合作,並獲得收購優先權。模型在多項基準測試中接近Opus 4.7,價格大幅降低。
Cursor新模型,你怎麼還在套Kimi?馬斯克你怎麼還吆喝上了?? – 量子位
Cursor新模型,你怎麼還在套Kimi?馬斯克你怎麼還吆喝上了??
一水 2026-05-19 14:07:48
來源:量子位
1/10成本、Opus 4.7級表現
Cursor模型更新,最新版本已來到Composer 2.5。
稍微一翻Cursor公告,兩件事挺有意思:
一是Cursor這回學老實了,新模型“套”了Kimi不再藏著掖著,連具體用了多少都標的清清楚楚。
(Cursor:Kimi打底,自家額外訓練+RL佔了85%的總算力)
二是馬斯克原地上演變臉,之前Cursor陷入“套殼風波”時他在旁邊煽風點火,現在卻十分賣力地幫忙站臺:
都給我去用Cursor新模型。
網友:老馬你讓我感到陌生(doge)。
別想多了,其實這是因為Cursor和馬斯克達成了算力合作——
Composer 2.5部分訓練是在Colossus 2上完成的,以及Cursor正在和SpaceXAI合作,從零開始訓練一個規模明顯更大的模型。
好好好,新模型剛來,下一代模型的“餅”又吃上了,看來Cursor真是鉚足了勁想搞自研(具體原因下文詳聊)。
不過遠的咱是夠不著了,先看眼前這個實在的——Composer 2.5本身亮點也很足。
1/10成本、Opus 4.7級表現,而且釋出後首周還給你雙倍用量。
好傢伙,這幾個詞一甩出來,經常用模型的朋友誰不沸騰了。
但問題是,Cursor新模型真有這麼頂嗎??
1/10成本、Opus 4.7級表現
頂不頂目前咱不好說,反正測評成績挺亮眼。
據Cursor介紹,“它更擅長在長時間執行的任務中持續工作,更可靠地遵循複雜指令,協作體驗也更加順暢”。
這些表現反映到具體數字上就是,其效能水平整體接近Claude Opus 4.7。
Terminal-Bench 2.0(終端/命令列任務):69.3% VS 69.4%,幾乎持平;
SWE-Bench Multilingual(多語言工程問題):79.8% VS 80.5%,差距微弱;
CursorBench v3.1(高難度程式設計任務):63.2% VS 最高配64.8%,差距微弱。
能和Opus 4.7相提並論,常用模型的人都知道這裡頭的含金量了。
而且除了在更高難度的任務上訓練之外,他們還改進了模型在溝通風格和投入級別校準(什麼時候該出多大力)等行為層面的表現。
聽起來有點抽象,但Cursor表示:
這些維度很難透過現有基準充分反映,但我們發現,它們對實際使用效果非常重要。
那麼,Composer 2.5真實能力如何呢?
鑑於目前Cursor免費使用者只能體驗Auto模式(雖然上架了但是選不了),所以咱先看一波網友的反饋。
先插一嘴,Composer模型速度是真快啊,甭管是哪一個版本,用起來歘歘歘的。
OK,迴歸正題。
目前一圈扒下來,感覺Composer 2.5反饋還不錯??
Snapchat前機器學習工程師激情發帖稱,自從Composer 2釋出後,她就把絕大多數開發工作搬到了Cursor上面。
而且還甩出了一句頗有暴論味道的話:
如果你在使用AI進行開發,卻仍然預設使用成本最高的模型來完成每一項任務,那麼你80%的工作都是在浪費錢。
影像生成初創公司LetzAI的CEO也有類似感受,他在體驗新模型幾小時後表示:
以前可能會對AI的方案挑三揀四、反覆修改,但這次因為Composer 2.5做得太好太快,自己直接“躺平認了”。
沒什麼可挑剔的,就這麼辦吧。
想必你也發現了,除了模型能力之外,他們提到了另一個重要關鍵詞:價格。
Composer 2.5的價格為每百萬輸入token 0.50美元、每百萬輸出token 2.50美元。
此外,還有一個智慧水平相同但速度更快的變體,價格為每百萬輸入token 3.00美元、每百萬輸出token 15.00美元。
p.s. 與Composer 2一樣,fast是預設選項。
這個價格怎麼說呢?也就是Opus 4.7的1/10吧。
1/10成本、Opus 4.7級表現,如果效果真如測評和網友所言,那絕對是真香了。
Kimi打底,還做了這些訓練改進
那麼Composer 2.5這次是如何實現效能“飛躍”(至少是表面上)的呢?
雖說是有Kimi打底,但好歹貼的是“Cursor自研模型”的標籤,這背後多多少少總得有自研吧。
Cursor:別說我還真有。
回到模型本身,Cursor這回在訓練棧上做了不少改進,主要圍繞兩個方向:
模型智慧和易用性。
具體則有三點:
第一,給RL訓練加了“定向反饋”
以前RL獎勵是基於整條軌跡算的,rollout動輒幾十萬token,模型很難知道自己究竟是哪一步搞砸了——最終獎勵只能告訴你“出問題了”,但具體錯哪兒,訊號噪聲特別大。
Cursor的解法是:哪裡不對就在哪裡直接喂反饋。
舉個例子,模型在某一輪呼叫了一個不存在的工具,收到報錯後繼續幹別的。幾百次呼叫裡就這一次錯,對最終獎勵基本沒影響。
但Cursor會在出錯那一輪的上下文裡插一句“Reminder: Available tools…”並附上可用工具列表,由此得到一個新的“教師”機率分佈。
如此一來,錯誤工具的機率被壓下去,有效替代項的機率被抬上來,然後讓學生模型向這個分佈靠攏就行。
這套方法在Composer 2.5裡被用在了多種行為上,從編碼風格到溝通方式都有。
第二,合成資料規模翻了25倍
RL訓練幾輪下來,Composer已經能解決大部分訓練題了,怎麼繼續提升?
答案是動態生成更難的任務。
其中一個玩法叫“功能刪除”——給智慧體一個帶測試的程式碼庫,讓它刪掉某個特定功能但保證程式碼庫還能跑,然後任務就是把這個功能重新實現出來,測試就是獎勵訊號。
不過任務一多,獎勵作弊也跟著來了。
Cursor發現Composer 2.5會整一些離譜操作,比如逆向Python型別檢查快取找出被刪的函式簽名,甚至反編譯Java位元組碼重建第三方API。
好在都被監控工具抓到了,但也算提了個醒——大規模RL得更小心。
第三,底層訓練做了最佳化
Cursor用的是帶分散式正交化的Muon,並把通訊做成非同步——一個任務等通訊時,最佳化器接著推進其他任務,讓網路和計算重疊起來。
最終在1T模型上,最佳化器每步只要0.2秒。
另外針對MoE模型,他們把非專家權重和專家權重的HSDP佈局拆開了:非專家權重小,FSDP組就窄一點,單節點內搞定;專家權重大,就用更寬的分片網格。
這樣彼此獨立的並行維度也能重疊,比如CP=2和EP=8可以在8個GPU上跑,而不用佔16個。
總之,從訓練訊號到資料規模再到底層並行,Cursor這次是全棧都動了一遍。
One More Thing
Cursor為啥這麼拼搞自研?其實從它和Anthropic的微妙關係裡就能管中窺豹。
剛好最近看了姚順宇(不是騰訊那個)做客張小珺播客的那期節目,這位Anthropic前員工的觀察,正好能說明問題:
Cursor最早是踩著Claude的肩膀火起來的。開發者社群裡口口相傳的好用,背後很大一部分功勞來自Claude模型本身。那段時間Cursor和Anthropic是典型的“魚水關係”,一個出模型一個出產品,各賺各的錢。
但Claude Code一出來,畫風就變了。
Anthropic自己下場做程式設計產品,等於直接殺進了Cursor的腹地。原本的“上游供應商”瞬間變成了“正面對手”,再繼續把身家性命押在對方的API上,顯然不是個安全的選擇。
所以Cursor走上自研這條路,與其說是想成為下一個Anthropic,不如說是被推著不得不走——
模型握在自己手裡,命才在自己手裡。
說到這裡我很好奇一個問題:在自研模型成功之前,Cursor現在的模式難道真的不具有護城河嗎?
至少對我這種非專業開發者而言,聽起來好像Cursor還不錯——有多款前沿模型可選,價格還更便宜。
帶著好奇,我看到X上有人給出了一種解讀,挺有意思:
Cursor的護城河從來都不是基礎模型,而是RL訓練流程+開發者工作流資料。現在他們正在證明:只要經過足夠的微調,開源基礎模型在特定任務上也能與前沿模型相媲美。
仔細想想這話也不算太誇張。
Composer 2.5的訓練裡,85%的算力都花在了Kimi基模之外的後訓練和RL上——Kimi K2.5只是個起點,真正讓它在程式設計任務上能打的,是Cursor自己那套圍繞真實IDE場景做出來的訓練管線。
這個打法也解釋了為啥它能把價格壓到Opus的十分之一。因為,開源基模省掉了從零預訓練那筆最貴的錢,剩下的全砸在程式設計這一件事上做精細化訓練。
模型只為Cursor的IDE場景服務,沒必要為通用能力買單。
至於為啥這次牽手的是馬斯克的SpaceXAI(畢竟老馬上次表現得並不友好),邏輯貌似也不復雜。
OpenAI有Codex、Anthropic有Claude Code、Google有Gemini Code Assist,這幾家自己都在做程式設計產品,跟Cursor都是潛在對手,算力上指望不上。
剩下能拿出世界級算力叢集、又不跟Cursor在程式設計賽道正面衝突的玩家,掰著指頭數也沒幾個了——
老馬的Colossus 2剛好是現成的。
而且如果把時間線拉長看,你會發現馬斯克和Cursor之間,已經遠不只是單純的“算力合作”。
今年3月,xAI內部動盪之際,馬斯克先從Cursor挖走了兩位核心工程負責人。
緊接著4月,更大的動作來了。SpaceX宣佈與Cursor達成合作,由Colossus超算為Cursor訓練模型。
但真正關鍵的不是算力,而是協議本身。
按照網上披露的條款,SpaceX獲得了未來以600億美元收購Cursor的優先權。即便最終不收購,Cursor也需要支付100億美元“合作費”。
耐人尋味的是,據TechCrunch披露,這份協議官宣前幾小時,Cursor原本正要敲定一輪20億美元、估值500億的融資,參投方包括a16z、輝達、Thrive等一線機構。
結果老馬一腳插進來,把這單給截胡了。
所以某種程度上而言,這其實是一次非常典型的“馬斯克式繫結”:
要麼賣給我,要麼給我100億,不管怎樣先提前把Cursor的命運鎖進了自己的版圖。
至於他前腳煽風點火、後腳賣力站臺的變臉速度嘛——矽谷的故事,向來如此。
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
一水
AI第一金主黃仁勳:日均花掉20億2026-05-12
黃仁勳喊話畢業生:AI不會取代你,但善用AI的人會2026-05-11
AI PPT,這次是真不用返工了2026-05-06
Anthropic出手!AI的內心獨白,曝光了2026-05-08
熱門文章
AI步入“自我進化”時代,李彥宏首提AI時代度量衡“DAA”|Create2026百度AI開發者⼤會速覽
2026-05-13
華為雲創想者大會主題論壇議程公佈:釋放Agentic AI新佈局
2026-05-15
商湯善惠燒賣購機器人小店上海“開業”,讓機器人真正落地線下零售
2026-05-12
人手一個資料庫,Kimi背後這套AI基建到底有多能扛?
2026-05-14
林俊暘果然創業了!一個“Qwen負責人”頭銜值135億
2026-05-13
掃碼關注量子位
量子位 QbitAI 版權所有©北京極客夥伴科技有限公司 京ICP備17005886號-1