AI News HubLIVE
站内改写

AINews:今日平淡无奇,但仍有几项重要发布

今天的AI新闻相对平静,但仍值得关注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首个公开模型以及DeepSeek V4的推理性能比较。代理工具逐渐成熟,新基准测试也在涌现。

文章情报

工程师进阶

要点

  • NVIDIA发布Nemotron 3 Nano Omni,具备256K上下文的多模态MoE模型。
  • vLLM v0.20引入TurboQuant、FA4 MLA预填充和新IR基础。
  • Poolside发布首个开源编码模型Laguna XS.2(33B总参/3B活跃参数),采用Apache 2.0许可。
  • DeepSeek V4推理基准显示,B300比H200快8倍。

为什么重要

这条新闻值得关注,因为NVIDIA发布Nemotron 3 Nano Omni,具备256K上下文的多模态MoE模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

今日AI新闻头条相对平淡,但依然有几项值得关注的发布。首先,NVIDIA推出了Nemotron 3 Nano Omni,这是一款开源的30B/3B多模态MoE模型,支持256K上下文,专为代理工作负载设计,能够处理文本、图像、视频、音频和文档。该模型立即在OpenRouter、LM Studio、Ollama等多个平台上架。NVIDIA表示,与同类开源多模态模型相比,其吞吐量提升约9倍。

在推理系统方面,vLLM v0.20.0发布,重点改进内存和MoE服务效率。主要特性包括TurboQuant 2位KV缓存(KV容量提升4倍)、重新启用SM90+上MLA预填充的FA4、新的vLLM IR基础、融合RMSNorm(端到端延迟降低2.1%),以及对DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平台的支持。同时,SemiAnalysis发布了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理结果,声称B300比H200快8倍。

开源模型方面,Poolside发布了其首个公开模型Laguna XS.2,这是一款33B总参/3B活跃参数的MoE编码模型,完全使用内部数据训练,采用Apache 2.0许可,能够单GPU运行。此外,Microsoft发布了TRELLIS.2,一个开源的4B参数图像转3D模型,可生成最高1536³分辨率的PBR纹理资产。

代理工具方面,Mistral推出了Workflows公开预览版,作为企业AI流程的编排层。本地代理也取得进展,Teknium声称完全离线代理已成为可能。Hermes代理框架在指令遵循和实用工作流中表现优于OpenClaw。

基准测试方面,Epoch报告GPT-5.5 Pro在Epoch Capabilities Index上达到159分,并在FrontierMath上取得新高。VibeBench提出由1000名合格软件工程师进行主观测试。研究笔记包括DeepSpeed和OpenRLHF中的bug修复,以及DeepSeek-V4论文中压缩稀疏注意力的忠实实现。