AINews:今日平淡無奇,但仍有幾項重要發佈
今天的AI新聞相對平靜,但仍值得關注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首個公開模型以及DeepSeek V4的推理性能比較。代理工具逐漸成熟,新基準測試也在湧現。
文章情報
要點
- NVIDIA發佈Nemotron 3 Nano Omni,具備256K上下文的多模態MoE模型。
- vLLM v0.20引入TurboQuant、FA4 MLA預填充和新IR基礎。
- Poolside發佈首個開源編碼模型Laguna XS.2(33B總參/3B活躍參數),採用Apache 2.0許可。
- DeepSeek V4推理基準顯示,B300比H200快8倍。
為甚麼重要
這條新聞值得關注,因為NVIDIA發佈Nemotron 3 Nano Omni,具備256K上下文的多模態MoE模型。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
今日AI新聞頭條相對平淡,但依然有幾項值得關注的發佈。首先,NVIDIA推出了Nemotron 3 Nano Omni,這是一款開源的30B/3B多模態MoE模型,支持256K上下文,專為代理工作負載設計,能夠處理文本、圖像、視頻、音頻和文檔。該模型立即在OpenRouter、LM Studio、Ollama等多個平台上架。NVIDIA表示,與同類開源多模態模型相比,其吞吐量提升約9倍。
在推理系統方面,vLLM v0.20.0發佈,重點改進內存和MoE服務效率。主要特性包括TurboQuant 2位KV緩存(KV容量提升4倍)、重新啓用SM90+上MLA預填充的FA4、新的vLLM IR基礎、融合RMSNorm(端到端延遲降低2.1%),以及對DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平台的支持。同時,SemiAnalysis發佈了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理結果,聲稱B300比H200快8倍。
開源模型方面,Poolside發佈了其首個公開模型Laguna XS.2,這是一款33B總參/3B活躍參數的MoE編碼模型,完全使用內部數據訓練,採用Apache 2.0許可,能夠單GPU運行。此外,Microsoft發佈了TRELLIS.2,一個開源的4B參數圖像轉3D模型,可生成最高1536³分辨率的PBR紋理資產。
代理工具方面,Mistral推出了Workflows公開預覽版,作為企業AI流程的編排層。本地代理也取得進展,Teknium聲稱完全離線代理已成為可能。Hermes代理框架在指令遵循和實用工作流中表現優於OpenClaw。
基準測試方面,Epoch報告GPT-5.5 Pro在Epoch Capabilities Index上達到159分,並在FrontierMath上取得新高。VibeBench提出由1000名合格軟件工程師進行主觀測試。研究筆記包括DeepSpeed和OpenRLHF中的bug修復,以及DeepSeek-V4論文中壓縮稀疏注意力的忠實實現。