AI News HubLIVE
站内改写

最新开放模型摘要(第20期):新机构!新模型类型!Nemotron Super、Sarvam、Cohere Transcribe等

本期摘要涵盖了多种多样且独特的开放模型,涵盖了OCR、RAG搜索、音频转录、计算机使用、代码编辑、数学定理证明等多个用例。模型来自更广泛的开放模型构建者,包括NVIDIA、Cohere、Sarvam、Mistral等,体现了行业对特定领域、低成本模型的推动。

文章情报

工程师进阶

要点

  • NVIDIA发布Nemotron-3-Super,120B参数,12B激活,1M上下文窗口,首个在预训练中使用NVFP4的开放模型。
  • Cohere推出Transcribe模型,基于conformer架构,支持14种语言,Apache 2.0许可。
  • 印度初创Sarvam发布105B模型,在印度语言表现上远超其他开放模型,体现主权AI重要性。
  • Mistral发布Small 4,119B-A7B混合推理模型,具备编码能力。

为什么重要

这条新闻值得关注,因为NVIDIA发布Nemotron-3-Super,120B参数,12B激活,1M上下文窗口,首个在预训练中使用NVFP4的开放模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本期开放模型摘要(第20期)迎来了大量多样且独特的模型,涵盖了广泛用例和模态。通常,这些模型汇总由Qwen、DeepSeek、Kimi等大型模型主导。然而,本期的模型适用于各种不同的用例,包括光学字符识别(OCR)、RAG搜索、音频转录、计算机使用、代码编辑、数学定理证明等。同时,本月收录的模型来自更加广泛的开放模型构建者。这让我们对开放模型的未来充满希望,因为特定领域、低成本的模型被视为补充最强封闭代理的关键工具。当顶级模型占据头条时,这种广泛的行业级探索容易被忽视。阅读本期内容将提供技术上扎实、覆盖面广的行业推动具体模型方向的概述。

为了鼓励人们关注本期模型的多样性,核心部分未设置付费墙。在开放模型顶级层面相对平静的一个月里,本期确实带来了不少惊喜。

我们的精选模型

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4(来源:NVIDIA):备受期待的NVIDIA中型模型终于到来:120B总参数,12B激活,1M上下文窗口,支持多种常用语言。此外,该模型基于LatentMoE,并在预训练中使用NVFP4,这在开放模型中尚属首次。与NVIDIA的其他产品一样,它附带了详细的技术报告、预训练和后训练数据集,并且绝大部分数据已开放发布。

cohere-transcribe-03-2026(来源:CohereLabs):Cohere推出的语音转文本模型,基于conformer架构,与NVIDIA的Parakeet类似。支持14种语言,包括一些AIPAC语言和阿拉伯语。Cohere声称其性能超过了同尺寸的开放和封闭模型。最重要的是,该模型采用Apache 2.0许可发布!Cohere之前的开放模型采用非商业许可。

sarvam-105b(来源:sarvamai):印度初创公司Sarvam曾在过去训练开放模型,如今其新的旗舰模型在数据集大小(12-16T tokens)和模型大小(30B-A2B,105B-10A)上全面升级。结果,它们在许多开放模型中接近甚至超越了同尺寸的模型。此次发布也展示了主权AI的重要性——与顶级开放模型相比,Sarvam模型在印度语言上更受青睐,这是其他少数国家尚未内化的。

Mistral-Small-4-119B-2603(来源:mistralai):Mistral推出的119B-A7B模型,融合了其前几代模型,成为具备编码能力的混合推理模型。

zeta-2(来源:zed-industries):开源代码编辑器Zed此前已开放其编辑预测模型,一年前我们曾报道过。尽管旧版本基于开放数据,新版本基于Seed-Coder-8B,使用明确选择加入数据收集的用户开源代码进行训练。

其他模型

通用模型:包括NVIDIA的gpt-oss-puzzle-88B(剪枝专家版本并替换部分全局注意力层)、allenai的Olmo-Hybrid-7B(混合注意力和门控DeltaNet)、NVIDIA的Nemotron-3-Nano-4B-BF16(压缩版本)。

多模态模型:YuanLabAI的Yuan3.0-Ultra(1T多模态模型,2.2T tokens预训练后剪枝)、美团的LongCat-Next(文本、视觉、音频输入输出)、IBM的granite-4.0-1b-speech(小型语音转文本,支持翻译音频输出)、微软的Phi-4-reasoning-vision-15B。

特殊用途模型:MiroThinker-1.7(Qwen 235B的微调版本,用于代理工作流)、tabpfn_2_6(表格预测模型更新,仅限研究和内部评估)、SAM 3.1更新、Holotron-12B(CUA代理策略模型)、LongCat-Flash-Prover(Lean4微调)、Leanstral-2603(Mistral Small 4的Lean4微调)、reka-edge-2603(机器人模型,两年后转为Apache 2.0)。

RAG模型:百度的Qianfan-OCR(Apache 2.0)、datalab-to的chandra-ocr-2(限制许可)、lightonai的Reason-ModernColBERT(SOTA检索模型,非商业许可但提供数据生成代码)、chromadb的context-1(GPT-OSS微调用于代理搜索)、小红书的dots.mocr(更新,支持SVG输出,MIT许可但附加使用限制)。

本期展现了开放模型领域的多样性和活力,从大型模型到专业应用,各方向均有突破。