2026-03-30 21:02 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

最新开放模型摘要（第20期）：新机构！新模型类型！Nemotron Super、Sarvam、Cohere Transcribe等

本期摘要涵盖了多种多样且独特的开放模型，涵盖了OCR、RAG搜索、音频转录、计算机使用、代码编辑、数学定理证明等多个用例。模型来自更广泛的开放模型构建者，包括NVIDIA、Cohere、Sarvam、Mistral等，体现了行业对特定领域、低成本模型的推动。

来源Interconnects (Nathan Lambert)作者: Florian Brand

本期开放模型摘要（第20期）迎来了大量多样且独特的模型，涵盖了广泛用例和模态。通常，这些模型汇总由Qwen、DeepSeek、Kimi等大型模型主导。然而，本期的模型适用于各种不同的用例，包括光学字符识别（OCR）、RAG搜索、音频转录、计算机使用、代码编辑、数学定理证明等。同时，本月收录的模型来自更加广泛的开放模型构建者。这让我们对开放模型的未来充满希望，因为特定领域、低成本的模型被视为补充最强封闭代理的关键工具。当顶级模型占据头条时，这种广泛的行业级探索容易被忽视。阅读本期内容将提供技术上扎实、覆盖面广的行业推动具体模型方向的概述。

为了鼓励人们关注本期模型的多样性，核心部分未设置付费墙。在开放模型顶级层面相对平静的一个月里，本期确实带来了不少惊喜。

我们的精选模型

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4（来源：NVIDIA）：备受期待的NVIDIA中型模型终于到来：120B总参数，12B激活，1M上下文窗口，支持多种常用语言。此外，该模型基于LatentMoE，并在预训练中使用NVFP4，这在开放模型中尚属首次。与NVIDIA的其他产品一样，它附带了详细的技术报告、预训练和后训练数据集，并且绝大部分数据已开放发布。

cohere-transcribe-03-2026（来源：CohereLabs）：Cohere推出的语音转文本模型，基于conformer架构，与NVIDIA的Parakeet类似。支持14种语言，包括一些AIPAC语言和阿拉伯语。Cohere声称其性能超过了同尺寸的开放和封闭模型。最重要的是，该模型采用Apache 2.0许可发布！Cohere之前的开放模型采用非商业许可。

sarvam-105b（来源：sarvamai）：印度初创公司Sarvam曾在过去训练开放模型，如今其新的旗舰模型在数据集大小（12-16T tokens）和模型大小（30B-A2B，105B-10A）上全面升级。结果，它们在许多开放模型中接近甚至超越了同尺寸的模型。此次发布也展示了主权AI的重要性——与顶级开放模型相比，Sarvam模型在印度语言上更受青睐，这是其他少数国家尚未内化的。

Mistral-Small-4-119B-2603（来源：mistralai）：Mistral推出的119B-A7B模型，融合了其前几代模型，成为具备编码能力的混合推理模型。

zeta-2（来源：zed-industries）：开源代码编辑器Zed此前已开放其编辑预测模型，一年前我们曾报道过。尽管旧版本基于开放数据，新版本基于Seed-Coder-8B，使用明确选择加入数据收集的用户开源代码进行训练。

其他模型

通用模型：包括NVIDIA的gpt-oss-puzzle-88B（剪枝专家版本并替换部分全局注意力层）、allenai的Olmo-Hybrid-7B（混合注意力和门控DeltaNet）、NVIDIA的Nemotron-3-Nano-4B-BF16（压缩版本）。

多模态模型：YuanLabAI的Yuan3.0-Ultra（1T多模态模型，2.2T tokens预训练后剪枝）、美团的LongCat-Next（文本、视觉、音频输入输出）、IBM的granite-4.0-1b-speech（小型语音转文本，支持翻译音频输出）、微软的Phi-4-reasoning-vision-15B。

特殊用途模型：MiroThinker-1.7（Qwen 235B的微调版本，用于代理工作流）、tabpfn_2_6（表格预测模型更新，仅限研究和内部评估）、SAM 3.1更新、Holotron-12B（CUA代理策略模型）、LongCat-Flash-Prover（Lean4微调）、Leanstral-2603（Mistral Small 4的Lean4微调）、reka-edge-2603（机器人模型，两年后转为Apache 2.0）。

RAG模型：百度的Qianfan-OCR（Apache 2.0）、datalab-to的chandra-ocr-2（限制许可）、lightonai的Reason-ModernColBERT（SOTA检索模型，非商业许可但提供数据生成代码）、chromadb的context-1（GPT-OSS微调用于代理搜索）、小红书的dots.mocr（更新，支持SVG输出，MIT许可但附加使用限制）。

本期展现了开放模型领域的多样性和活力，从大型模型到专业应用，各方向均有突破。