AI News HubLIVE
站内改写

歐洲的OpenAI和Anthropic答案:Mistral將編程代理推向雲端

Mistral AI發佈新模型Mistral Medium 3.5,並將其編程助手Vibe擴展至雲端運行,允許開發者在後台執行多個代理任務。同時Le Chat新增“工作模式”,可並行處理更長任務。

文章情報

工程師進階

要點

  • Mistral發佈128B參數的Mistral Medium 3.5模型,上下文窗口256k。
  • 編程助手Vibe現在支持雲端運行,任務可“傳送”到雲端獨立完成。
  • Le Chat新增“工作模式”,可處理會議簡報等更廣泛任務。
  • Mistral強調開放權重和開發者控制,與Anthropic等對手形成差異化。

為甚麼重要

這條新聞值得關注,因為Mistral發佈128B參數的Mistral Medium 3.5模型,上下文窗口256k。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

2023年成立於巴黎的Mistral AI正在挑戰AI領域的主導者,如OpenAI、Anthropic和Google。該公司已從微軟和英偉達等投資者處籌集數十億美元,並以更開放的方式發佈開源權重模型。本週三,Mistral推出新模型Mistral Medium 3.5,以及將編程代理Vibe遷移至雲端運行的系統。Mistral Medium 3.5擁有1280億參數和256k上下文窗口,專為處理長任務設計。該模型在SWE-bench Verified等基準測試中表現出色,與Claude Sonnet、Kimi K2.5等模型競爭。Vibe助手此前僅在終端運行,現在開發者可以通過命令行或Le Chat啓動多個代理,將其“傳送”至雲端獨立沙箱環境,在後台持續工作。Le Chat新增“工作模式”,用户可設定更廣泛的任務,如準備會議簡報,讓系統利用連接工具並行處理。Mistral產品團隊成員Pini Wietchner表示,公司內部已使用Vibe處理大部分拉取請求,效果顯著。Mistral並非一步到位地實現自主代理,而是逐步構建組件:從2024年的Codestral(專注編碼)到Leanstral(形式驗證),再到如今的雲端代理。在基準測試方面,Mistral Medium 3.5在SWE-bench Verified上取得了具有競爭力的分數,該測試評估模型解決真實GitHub問題的能力。此外,模型在電信、零售和銀行業務的特定領域任務上也表現良好。Mistral還展示了與之前模型如Devstral 2相比的進步。公司強調,這些結果來自內部評估,在不同設置下可能有所差異。Mistral的開放權重策略允許開發者在本地或雲端自由運行模型,這與Anthropic等公司的封閉模型形成對比。在歐洲,Mistral被視為對抗美國科技巨頭的重要力量。Mistral產品團隊表示,內部已經廣泛應用Vibe處理拉取請求,證明其有效性。總之,Mistral正通過逐步構建組件的方式,將AI從需要持續監督的工具轉變為能夠自主處理複雜任務的助手,這一趨勢在整個行業日益明顯。這一舉措象徵着Mistral重視AI民主化和開發者自主權的戰略。未來,Mistral有望被更多企業和開發者採用。