AI News HubLIVE
站内改写2 分钟阅读

Mistral AI 发布 Leanstral 1.5:Apache-2.0 许可的 Lean 4 代码代理模型,解决 PutnamBench 672 道问题中的 587 道

Mistral AI 发布了 Leanstral 1.5,这是一个基于 Apache-2.0 许可的 Lean 4 代码代理模型。该模型采用 119B 混合专家架构,每令牌激活 6.5B 参数,上下文长度 256k。它在 miniF2F 上达到 100% 准确率,解决了 PutnamBench 中 587/672 的问题,并在 FATE-H 和 FATE-X 基准测试上实现了新 SOTA。此外,它还能发现真实软件缺陷,已在 57 个开源仓库中识别出 5 个未报告的错误。

来源MarkTechPost作者: Asif Razzaq

Mistral AI 今日发布了 Leanstral 1.5,这是一款专为 Lean 4 打造的代码代理模型,主要面向自动定理证明和证明工程。模型权重以 Apache 2.0 许可开源,同时提供了免费的 API 端点 leanstral-1-5。

Leanstral 1.5 是之前 Leanstral-2603 模型的升级版,属于 Mistral Small 4 系列。Lean 4 是一种证明助手,能够机械地检查每一步逻辑,可表达完美空间等对象以及 Rust 片段的性质。

架构方面,Leanstral 1.5 采用混合专家(MoE)设计,将每个令牌路由至少数专业子网络,从而在保持大容量的同时降低计算量。模型共有 128 个专家,每令牌激活 4 个,总参数量 119B,每令牌激活 6.5B,上下文长度 256k。输入支持文本和图像,输出仅为文本。

训练分为三个阶段:中期训练、监督微调,以及使用 CISPO 的强化学习。两个强化学习环境塑造了模型的代理行为:在多轮环境中,模型需给定定理并尝试证明或反驳,根据 Lean 编译器反馈逐步迭代;在代码代理环境中,模型在原始文件系统中工作,可编辑文件、运行 bash 命令,并使用 Lean 语言服务器实时获取目标、错误和类型信息,从而完成部分证明、构建辅助引理,并通过上下文压缩维持长任务。正确性由 Mistral 的 SafeVerify 分支验证。

性能方面,Leanstral 1.5 在 miniF2F 验证集和测试集上均达到 100%,解决了 PutnamBench 中 672 道问题中的 587 道。在 FATE-H 和 FATE-X 代数基准上达到新 SOTA(87% 和 34%)。在 FLTEval 上,pass@1 从 21.9 提升至 28.9,pass@8 从 31.9 提升至 43.2,且以七分之一成本超越 Opus 4.6。PutnamBench 上,Leanstral 以每问题约 4 美元的成本比 Seed-Prover 1.5 high 设置多解决 7 道问题,而后者每问题成本约 300 美元以上。测试时缩放是模型的核心特性,提高每个尝试的令牌预算可提升性能。

实际应用中,Leanstral 证明了真实 AVL 树的 O(log n) 时间复杂度,并发现了开源代码中的错误:通过 Aeneas 将 Rust 翻译为 Lean,自动推断用户意图并生成正确性属性,在 57 个仓库中标记了 47 个违反属性和 11 个真实错误,其中 5 个先前未报告。开发团队可使用它完成部分证明、自动生成函数正确性属性,或通过证明/反驳推断不变量来压力测试 Rust 代码。

使用方面,最简单的途径是 Mistral Vibe CLI,在免费计划中启用实验模型即可。也支持自托管,需要 vLLM 0.24.0 及以上版本,并提供了详细的部署命令。通过 OpenAI 兼容客户端调用,可设置 reasoning_effort 参数。此外,还支持 OpenAI 风格的函数调用和 lean-lsp-mcp 服务器集成。