歐洲的OpenAI和Anthropic答案:Mistral將程式設計代理推向雲端
Mistral AI釋出新模型Mistral Medium 3.5,並將其程式設計助手Vibe擴充套件至雲端執行,允許開發者在後臺執行多個代理任務。同時Le Chat新增“工作模式”,可並行處理更長任務。
文章情報
要點
- Mistral釋出128B引數的Mistral Medium 3.5模型,上下文視窗256k。
- 程式設計助手Vibe現在支援雲端執行,任務可“傳送”到雲端獨立完成。
- Le Chat新增“工作模式”,可處理會議簡報等更廣泛任務。
- Mistral強調開放權重和開發者控制,與Anthropic等對手形成差異化。
為什麼重要
這條新聞值得關注,因為Mistral釋出128B引數的Mistral Medium 3.5模型,上下文視窗256k。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
2023年成立於巴黎的Mistral AI正在挑戰AI領域的主導者,如OpenAI、Anthropic和Google。該公司已從微軟和輝達等投資者處籌集數十億美元,並以更開放的方式釋出開源權重模型。本週三,Mistral推出新模型Mistral Medium 3.5,以及將程式設計代理Vibe遷移至雲端執行的系統。Mistral Medium 3.5擁有1280億引數和256k上下文視窗,專為處理長任務設計。該模型在SWE-bench Verified等基準測試中表現出色,與Claude Sonnet、Kimi K2.5等模型競爭。Vibe助手此前僅在終端執行,現在開發者可以透過命令列或Le Chat啟動多個代理,將其“傳送”至雲端獨立沙箱環境,在後臺持續工作。Le Chat新增“工作模式”,使用者可設定更廣泛的任務,如準備會議簡報,讓系統利用連線工具並行處理。Mistral產品團隊成員Pini Wietchner表示,公司內部已使用Vibe處理大部分拉取請求,效果顯著。Mistral並非一步到位地實現自主代理,而是逐步構建元件:從2024年的Codestral(專注編碼)到Leanstral(形式驗證),再到如今的雲端代理。在基準測試方面,Mistral Medium 3.5在SWE-bench Verified上取得了具有競爭力的分數,該測試評估模型解決真實GitHub問題的能力。此外,模型在電信、零售和銀行業務的特定領域任務上也表現良好。Mistral還展示了與之前模型如Devstral 2相比的進步。公司強調,這些結果來自內部評估,在不同設定下可能有所差異。Mistral的開放權重策略允許開發者在本地或雲端自由執行模型,這與Anthropic等公司的封閉模型形成對比。在歐洲,Mistral被視為對抗美國科技巨頭的重要力量。Mistral產品團隊表示,內部已經廣泛應用Vibe處理拉取請求,證明其有效性。總之,Mistral正透過逐步構建元件的方式,將AI從需要持續監督的工具轉變為能夠自主處理複雜任務的助手,這一趨勢在整個行業日益明顯。這一舉措象徵著Mistral重視AI民主化和開發者自主權的戰略。未來,Mistral有望被更多企業和開發者採用。