2026-06-13 13:36 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

MiniMax M3 正式上线：长上下文 + 原生多模态，价格仅为 1/20

MiniMax 发布旗舰模型 M3，具备超 50 万 token 上下文窗口、原生多模态能力（文本、图像、视频），并采用创新的 MiniMax 稀疏注意力（MSA）架构，大幅提升推理效率。在 Fireworks 平台上，M3 价格仅为 M2.7 的 1/20，旨在为开源社区提供前沿水平的编码和智能体能力。

来源Fireworks AI Blog

MiniMax 正式发布了其旗舰模型 M3，这是开源生态系统向前迈出的重要一步。M3 集强大的智能体能力、原生多模态输入（文本、图像和视频）以及超过 500K token 的上下文窗口于一身，为开发者提供了前所未有的灵活性和性能。

在开源模型快速发展的背景下，M3 的出现具有重要意义。此前，Kimi K2.5 在 2026 年 1 月推动了原生多模态输入的发展，而 DeepSeek V4 则在 4 月将上下文窗口扩展至 1M token，但仅限于文本输入。M3 首次将长上下文扩展和多模态理解融合在一个模型中，标志着开源模型能力的重大跃升。目前，M3 支持高达 500K token 的上下文，但 MiniMax 团队正在努力在不久的将来提供完整的 1M token 窗口。

M3 的核心创新在于其 MiniMax 稀疏注意力（MSA）架构。与标准全注意力机制的指数级扩展不同，MSA 通过预过滤阶段将 KV 缓存划分为块，有效上下文覆盖率更高，从而实现了次二次方扩展。此外，MiniMax 在算子层面进行了优化，采用“KV outer gather Q”方法，使得每个 KV 块只需从内存中获取一次，从而实现了超过 4 倍于开源 Flash-Sparse-Attention 和 flash-moba 的速度提升。

在性能方面，M3 在第三方评测中表现卓越。根据 Artificial Analysis 的智能指数，M3 在所有开源模型中总体智能最高，甚至超过了包括 Opus 4.6 在内的一些闭源模型。在基准测试中，M3 在编码、推理和多模态任务上均表现出色。

M3 专为实际编码和智能体工作流而设计。MiniMax 开发了交互式用户模拟器框架，训练模型处理多轮开发场景，如澄清需求、调整解决方案、切换任务和基于中间结果迭代。这使得 M3 非常适合长时间自主协作任务，如学术论文复现、内核优化和模型微调。

在定价方面，M3 在 Fireworks 平台上的价格仅为 M2.7 的 1/20，成为极具竞争力的选择。对于已经使用 M2.7 的团队，升级到 M3 可以获得更长的上下文、智能体执行和多模态输入能力，而成本几乎不变。对于输入 token 超过 512K 的调用，将适用更高的长上下文费率，适用于全仓库代码理解和超长文档解析等任务。

开发者可以立即在 Fireworks 上通过无服务器方式使用 M3，也可以按需部署以获得最佳性能和可预测的吞吐量。MiniMax M3 的发布为开源社区带来了前沿的编码能力、长上下文支持和原生多模态理解，开启了 AI 应用的新可能性。