AINews:今日平淡无奇,但仍有几项重要发布
今天的AI新闻相对平静,但仍值得关注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首个公开模型以及DeepSeek V4的推理性能比较。代理工具逐渐成熟,新基准测试也在涌现。
文章情报
要点
- NVIDIA发布Nemotron 3 Nano Omni,具备256K上下文的多模态MoE模型。
- vLLM v0.20引入TurboQuant、FA4 MLA预填充和新IR基础。
- Poolside发布首个开源编码模型Laguna XS.2(33B总参/3B活跃参数),采用Apache 2.0许可。
- DeepSeek V4推理基准显示,B300比H200快8倍。
为什么重要
这条新闻值得关注,因为NVIDIA发布Nemotron 3 Nano Omni,具备256K上下文的多模态MoE模型。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
今日AI新闻头条相对平淡,但依然有几项值得关注的发布。首先,NVIDIA推出了Nemotron 3 Nano Omni,这是一款开源的30B/3B多模态MoE模型,支持256K上下文,专为代理工作负载设计,能够处理文本、图像、视频、音频和文档。该模型立即在OpenRouter、LM Studio、Ollama等多个平台上架。NVIDIA表示,与同类开源多模态模型相比,其吞吐量提升约9倍。
在推理系统方面,vLLM v0.20.0发布,重点改进内存和MoE服务效率。主要特性包括TurboQuant 2位KV缓存(KV容量提升4倍)、重新启用SM90+上MLA预填充的FA4、新的vLLM IR基础、融合RMSNorm(端到端延迟降低2.1%),以及对DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平台的支持。同时,SemiAnalysis发布了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理结果,声称B300比H200快8倍。
开源模型方面,Poolside发布了其首个公开模型Laguna XS.2,这是一款33B总参/3B活跃参数的MoE编码模型,完全使用内部数据训练,采用Apache 2.0许可,能够单GPU运行。此外,Microsoft发布了TRELLIS.2,一个开源的4B参数图像转3D模型,可生成最高1536³分辨率的PBR纹理资产。
代理工具方面,Mistral推出了Workflows公开预览版,作为企业AI流程的编排层。本地代理也取得进展,Teknium声称完全离线代理已成为可能。Hermes代理框架在指令遵循和实用工作流中表现优于OpenClaw。
基准测试方面,Epoch报告GPT-5.5 Pro在Epoch Capabilities Index上达到159分,并在FrontierMath上取得新高。VibeBench提出由1000名合格软件工程师进行主观测试。研究笔记包括DeepSpeed和OpenRLHF中的bug修复,以及DeepSeek-V4论文中压缩稀疏注意力的忠实实现。