2026-04-29站内改写

AINews：今日平淡无奇，但仍有几项重要发布

今天的AI新闻相对平静，但仍值得关注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首个公开模型以及DeepSeek V4的推理性能比较。代理工具逐渐成熟，新基准测试也在涌现。

文章情报

工程师进阶

要点

NVIDIA发布Nemotron 3 Nano Omni，具备256K上下文的多模态MoE模型。
vLLM v0.20引入TurboQuant、FA4 MLA预填充和新IR基础。
Poolside发布首个开源编码模型Laguna XS.2（33B总参/3B活跃参数），采用Apache 2.0许可。
DeepSeek V4推理基准显示，B300比H200快8倍。

为什么重要

这条新闻值得关注，因为NVIDIA发布Nemotron 3 Nano Omni，具备256K上下文的多模态MoE模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

今日AI新闻头条相对平淡，但依然有几项值得关注的发布。首先，NVIDIA推出了Nemotron 3 Nano Omni，这是一款开源的30B/3B多模态MoE模型，支持256K上下文，专为代理工作负载设计，能够处理文本、图像、视频、音频和文档。该模型立即在OpenRouter、LM Studio、Ollama等多个平台上架。NVIDIA表示，与同类开源多模态模型相比，其吞吐量提升约9倍。

在推理系统方面，vLLM v0.20.0发布，重点改进内存和MoE服务效率。主要特性包括TurboQuant 2位KV缓存（KV容量提升4倍）、重新启用SM90+上MLA预填充的FA4、新的vLLM IR基础、融合RMSNorm（端到端延迟降低2.1%），以及对DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平台的支持。同时，SemiAnalysis发布了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理结果，声称B300比H200快8倍。

开源模型方面，Poolside发布了其首个公开模型Laguna XS.2，这是一款33B总参/3B活跃参数的MoE编码模型，完全使用内部数据训练，采用Apache 2.0许可，能够单GPU运行。此外，Microsoft发布了TRELLIS.2，一个开源的4B参数图像转3D模型，可生成最高1536³分辨率的PBR纹理资产。

代理工具方面，Mistral推出了Workflows公开预览版，作为企业AI流程的编排层。本地代理也取得进展，Teknium声称完全离线代理已成为可能。Hermes代理框架在指令遵循和实用工作流中表现优于OpenClaw。

基准测试方面，Epoch报告GPT-5.5 Pro在Epoch Capabilities Index上达到159分，并在FrontierMath上取得新高。VibeBench提出由1000名合格软件工程师进行主观测试。研究笔记包括DeepSpeed和OpenRLHF中的bug修复，以及DeepSeek-V4论文中压缩稀疏注意力的忠实实现。