Mistral AI 發佈 Leanstral 1.5:Apache-2.0 許可的 Lean 4 代碼代理模型,解決 PutnamBench 672 道問題中的 587 道
Mistral AI 發佈了 Leanstral 1.5,這是一個基於 Apache-2.0 許可的 Lean 4 代碼代理模型。該模型採用 119B 混合專家架構,每令牌激活 6.5B 參數,上下文長度 256k。它在 miniF2F 上達到 100% 準確率,解決了 PutnamBench 中 587/672 的問題,並在 FATE-H 和 FATE-X 基準測試上實現了新 SOTA。此外,它還能發現真實軟件缺陷,已在 57 個開源倉庫中識別出 5 個未報告的錯誤。
Mistral AI 今日發佈了 Leanstral 1.5,這是一款專為 Lean 4 打造的代碼代理模型,主要面向自動定理證明和證明工程。模型權重以 Apache 2.0 許可開源,同時提供了免費的 API 端點 leanstral-1-5。
Leanstral 1.5 是之前 Leanstral-2603 模型的升級版,屬於 Mistral Small 4 系列。Lean 4 是一種證明助手,能夠機械地檢查每一步邏輯,可表達完美空間等對象以及 Rust 片段的性質。
架構方面,Leanstral 1.5 採用混合專家(MoE)設計,將每個令牌路由至少數專業子網絡,從而在保持大容量的同時降低計算量。模型共有 128 個專家,每令牌激活 4 個,總參數量 119B,每令牌激活 6.5B,上下文長度 256k。輸入支持文本和圖像,輸出僅為文本。
訓練分為三個階段:中期訓練、監督微調,以及使用 CISPO 的強化學習。兩個強化學習環境塑造了模型的代理行為:在多輪環境中,模型需給定定理並嘗試證明或反駁,根據 Lean 編譯器反饋逐步迭代;在代碼代理環境中,模型在原始文件系統中工作,可編輯文件、運行 bash 命令,並使用 Lean 語言服務器實時獲取目標、錯誤和類型信息,從而完成部分證明、構建輔助引理,並通過上下文壓縮維持長任務。正確性由 Mistral 的 SafeVerify 分支驗證。
性能方面,Leanstral 1.5 在 miniF2F 驗證集和測試集上均達到 100%,解決了 PutnamBench 中 672 道問題中的 587 道。在 FATE-H 和 FATE-X 代數基準上達到新 SOTA(87% 和 34%)。在 FLTEval 上,pass@1 從 21.9 提升至 28.9,pass@8 從 31.9 提升至 43.2,且以七分之一成本超越 Opus 4.6。PutnamBench 上,Leanstral 以每問題約 4 美元的成本比 Seed-Prover 1.5 high 設置多解決 7 道問題,而後者每問題成本約 300 美元以上。測試時縮放是模型的核心特性,提高每個嘗試的令牌預算可提升性能。
實際應用中,Leanstral 證明了真實 AVL 樹的 O(log n) 時間複雜度,並發現了開源代碼中的錯誤:通過 Aeneas 將 Rust 翻譯為 Lean,自動推斷用户意圖並生成正確性屬性,在 57 個倉庫中標記了 47 個違反屬性和 11 個真實錯誤,其中 5 個先前未報告。開發團隊可使用它完成部分證明、自動生成函數正確性屬性,或通過證明/反駁推斷不變量來壓力測試 Rust 代碼。
使用方面,最簡單的途徑是 Mistral Vibe CLI,在免費計劃中啓用實驗模型即可。也支持自託管,需要 vLLM 0.24.0 及以上版本,並提供了詳細的部署命令。通過 OpenAI 兼容客户端調用,可設置 reasoning_effort 參數。此外,還支持 OpenAI 風格的函數調用和 lean-lsp-mcp 服務器集成。