2026-04-29站内改写

AINews：今日平淡無奇，但仍有幾項重要釋出

今天的AI新聞相對平靜，但仍值得關注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首個公開模型以及DeepSeek V4的推理效能比較。代理工具逐漸成熟，新基準測試也在湧現。

文章情報

工程師進階

要點

NVIDIA釋出Nemotron 3 Nano Omni，具備256K上下文的多模態MoE模型。
vLLM v0.20引入TurboQuant、FA4 MLA預填充和新IR基礎。
Poolside釋出首個開源編碼模型Laguna XS.2（33B總參/3B活躍引數），採用Apache 2.0許可。
DeepSeek V4推理基準顯示，B300比H200快8倍。

為什麼重要

這條新聞值得關注，因為NVIDIA釋出Nemotron 3 Nano Omni，具備256K上下文的多模態MoE模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

今日AI新聞頭條相對平淡，但依然有幾項值得關注的釋出。首先，NVIDIA推出了Nemotron 3 Nano Omni，這是一款開源的30B/3B多模態MoE模型，支援256K上下文，專為代理工作負載設計，能夠處理文本、影像、影片、音訊和文件。該模型立即在OpenRouter、LM Studio、Ollama等多個平臺上架。NVIDIA表示，與同類開源多模態模型相比，其吞吐量提升約9倍。

在推理系統方面，vLLM v0.20.0釋出，重點改進記憶體和MoE服務效率。主要特性包括TurboQuant 2位KV快取（KV容量提升4倍）、重新啟用SM90+上MLA預填充的FA4、新的vLLM IR基礎、融合RMSNorm（端到端延遲降低2.1%），以及對DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平臺的支援。同時，SemiAnalysis釋出了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理結果，聲稱B300比H200快8倍。

開源模型方面，Poolside釋出了其首個公開模型Laguna XS.2，這是一款33B總參/3B活躍引數的MoE編碼模型，完全使用內部資料訓練，採用Apache 2.0許可，能夠單GPU執行。此外，Microsoft釋出了TRELLIS.2，一個開源的4B引數影像轉3D模型，可生成最高1536³解析度的PBR紋理資產。

代理工具方面，Mistral推出了Workflows公開預覽版，作為企業AI流程的編排層。本地代理也取得進展，Teknium聲稱完全離線代理已成為可能。Hermes代理框架在指令遵循和實用工作流中表現優於OpenClaw。

基準測試方面，Epoch報告GPT-5.5 Pro在Epoch Capabilities Index上達到159分，並在FrontierMath上取得新高。VibeBench提出由1000名合格軟體工程師進行主觀測試。研究筆記包括DeepSpeed和OpenRLHF中的bug修復，以及DeepSeek-V4論文中壓縮稀疏注意力的忠實實現。