2026-04-29站内改写

AINews：今日平淡無奇，但仍有幾項重要發佈

今天的AI新聞相對平靜，但仍值得關注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首個公開模型以及DeepSeek V4的推理性能比較。代理工具逐漸成熟，新基準測試也在湧現。

文章情報

工程師進階

要點

NVIDIA發佈Nemotron 3 Nano Omni，具備256K上下文的多模態MoE模型。
vLLM v0.20引入TurboQuant、FA4 MLA預填充和新IR基礎。
Poolside發佈首個開源編碼模型Laguna XS.2（33B總參/3B活躍參數），採用Apache 2.0許可。
DeepSeek V4推理基準顯示，B300比H200快8倍。

為甚麼重要

這條新聞值得關注，因為NVIDIA發佈Nemotron 3 Nano Omni，具備256K上下文的多模態MoE模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

今日AI新聞頭條相對平淡，但依然有幾項值得關注的發佈。首先，NVIDIA推出了Nemotron 3 Nano Omni，這是一款開源的30B/3B多模態MoE模型，支持256K上下文，專為代理工作負載設計，能夠處理文本、圖像、視頻、音頻和文檔。該模型立即在OpenRouter、LM Studio、Ollama等多個平台上架。NVIDIA表示，與同類開源多模態模型相比，其吞吐量提升約9倍。

在推理系統方面，vLLM v0.20.0發佈，重點改進內存和MoE服務效率。主要特性包括TurboQuant 2位KV緩存（KV容量提升4倍）、重新啓用SM90+上MLA預填充的FA4、新的vLLM IR基礎、融合RMSNorm（端到端延遲降低2.1%），以及對DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平台的支持。同時，SemiAnalysis發佈了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理結果，聲稱B300比H200快8倍。

開源模型方面，Poolside發佈了其首個公開模型Laguna XS.2，這是一款33B總參/3B活躍參數的MoE編碼模型，完全使用內部數據訓練，採用Apache 2.0許可，能夠單GPU運行。此外，Microsoft發佈了TRELLIS.2，一個開源的4B參數圖像轉3D模型，可生成最高1536³分辨率的PBR紋理資產。

代理工具方面，Mistral推出了Workflows公開預覽版，作為企業AI流程的編排層。本地代理也取得進展，Teknium聲稱完全離線代理已成為可能。Hermes代理框架在指令遵循和實用工作流中表現優於OpenClaw。

基準測試方面，Epoch報告GPT-5.5 Pro在Epoch Capabilities Index上達到159分，並在FrontierMath上取得新高。VibeBench提出由1000名合格軟件工程師進行主觀測試。研究筆記包括DeepSpeed和OpenRLHF中的bug修復，以及DeepSeek-V4論文中壓縮稀疏注意力的忠實實現。