2026-07-04 06:20 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-04 06:39 UTC+8

Mistral AI 發佈 Leanstral 1.5：Apache-2.0 許可的 Lean 4 代碼代理模型，解決 PutnamBench 672 道問題中的 587 道

Mistral AI 發佈了 Leanstral 1.5，這是一個基於 Apache-2.0 許可的 Lean 4 代碼代理模型。該模型採用 119B 混合專家架構，每令牌激活 6.5B 參數，上下文長度 256k。它在 miniF2F 上達到 100% 準確率，解決了 PutnamBench 中 587/672 的問題，並在 FATE-H 和 FATE-X 基準測試上實現了新 SOTA。此外，它還能發現真實軟件缺陷，已在 57 個開源倉庫中識別出 5 個未報告的錯誤。

來源MarkTechPost作者: Asif Razzaq

Mistral AI 今日發佈了 Leanstral 1.5，這是一款專為 Lean 4 打造的代碼代理模型，主要面向自動定理證明和證明工程。模型權重以 Apache 2.0 許可開源，同時提供了免費的 API 端點 leanstral-1-5。

Leanstral 1.5 是之前 Leanstral-2603 模型的升級版，屬於 Mistral Small 4 系列。Lean 4 是一種證明助手，能夠機械地檢查每一步邏輯，可表達完美空間等對象以及 Rust 片段的性質。

架構方面，Leanstral 1.5 採用混合專家（MoE）設計，將每個令牌路由至少數專業子網絡，從而在保持大容量的同時降低計算量。模型共有 128 個專家，每令牌激活 4 個，總參數量 119B，每令牌激活 6.5B，上下文長度 256k。輸入支持文本和圖像，輸出僅為文本。

訓練分為三個階段：中期訓練、監督微調，以及使用 CISPO 的強化學習。兩個強化學習環境塑造了模型的代理行為：在多輪環境中，模型需給定定理並嘗試證明或反駁，根據 Lean 編譯器反饋逐步迭代；在代碼代理環境中，模型在原始文件系統中工作，可編輯文件、運行 bash 命令，並使用 Lean 語言服務器實時獲取目標、錯誤和類型信息，從而完成部分證明、構建輔助引理，並通過上下文壓縮維持長任務。正確性由 Mistral 的 SafeVerify 分支驗證。

性能方面，Leanstral 1.5 在 miniF2F 驗證集和測試集上均達到 100%，解決了 PutnamBench 中 672 道問題中的 587 道。在 FATE-H 和 FATE-X 代數基準上達到新 SOTA（87% 和 34%）。在 FLTEval 上，pass@1 從 21.9 提升至 28.9，pass@8 從 31.9 提升至 43.2，且以七分之一成本超越 Opus 4.6。PutnamBench 上，Leanstral 以每問題約 4 美元的成本比 Seed-Prover 1.5 high 設置多解決 7 道問題，而後者每問題成本約 300 美元以上。測試時縮放是模型的核心特性，提高每個嘗試的令牌預算可提升性能。

實際應用中，Leanstral 證明了真實 AVL 樹的 O(log n) 時間複雜度，並發現了開源代碼中的錯誤：通過 Aeneas 將 Rust 翻譯為 Lean，自動推斷用户意圖並生成正確性屬性，在 57 個倉庫中標記了 47 個違反屬性和 11 個真實錯誤，其中 5 個先前未報告。開發團隊可使用它完成部分證明、自動生成函數正確性屬性，或通過證明/反駁推斷不變量來壓力測試 Rust 代碼。

使用方面，最簡單的途徑是 Mistral Vibe CLI，在免費計劃中啓用實驗模型即可。也支持自託管，需要 vLLM 0.24.0 及以上版本，並提供了詳細的部署命令。通過 OpenAI 兼容客户端調用，可設置 reasoning_effort 參數。此外，還支持 OpenAI 風格的函數調用和 lean-lsp-mcp 服務器集成。