AI News HubLIVE
站内改写

AINews:今日平淡無奇,但仍有幾項重要釋出

今天的AI新聞相對平靜,但仍值得關注NVIDIA Nemotron 3 Nano Omni、vLLM v0.20、Poolside的首個公開模型以及DeepSeek V4的推理效能比較。代理工具逐漸成熟,新基準測試也在湧現。

文章情報

工程師進階

要點

  • NVIDIA釋出Nemotron 3 Nano Omni,具備256K上下文的多模態MoE模型。
  • vLLM v0.20引入TurboQuant、FA4 MLA預填充和新IR基礎。
  • Poolside釋出首個開源編碼模型Laguna XS.2(33B總參/3B活躍引數),採用Apache 2.0許可。
  • DeepSeek V4推理基準顯示,B300比H200快8倍。

為什麼重要

這條新聞值得關注,因為NVIDIA釋出Nemotron 3 Nano Omni,具備256K上下文的多模態MoE模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

今日AI新聞頭條相對平淡,但依然有幾項值得關注的釋出。首先,NVIDIA推出了Nemotron 3 Nano Omni,這是一款開源的30B/3B多模態MoE模型,支援256K上下文,專為代理工作負載設計,能夠處理文本、影像、影片、音訊和文件。該模型立即在OpenRouter、LM Studio、Ollama等多個平臺上架。NVIDIA表示,與同類開源多模態模型相比,其吞吐量提升約9倍。

在推理系統方面,vLLM v0.20.0釋出,重點改進記憶體和MoE服務效率。主要特性包括TurboQuant 2位KV快取(KV容量提升4倍)、重新啟用SM90+上MLA預填充的FA4、新的vLLM IR基礎、融合RMSNorm(端到端延遲降低2.1%),以及對DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU等平臺的支援。同時,SemiAnalysis釋出了DeepSeek V4 Pro在B200/B300/H200/GB200上的早期推理結果,聲稱B300比H200快8倍。

開源模型方面,Poolside釋出了其首個公開模型Laguna XS.2,這是一款33B總參/3B活躍引數的MoE編碼模型,完全使用內部資料訓練,採用Apache 2.0許可,能夠單GPU執行。此外,Microsoft釋出了TRELLIS.2,一個開源的4B引數影像轉3D模型,可生成最高1536³解析度的PBR紋理資產。

代理工具方面,Mistral推出了Workflows公開預覽版,作為企業AI流程的編排層。本地代理也取得進展,Teknium聲稱完全離線代理已成為可能。Hermes代理框架在指令遵循和實用工作流中表現優於OpenClaw。

基準測試方面,Epoch報告GPT-5.5 Pro在Epoch Capabilities Index上達到159分,並在FrontierMath上取得新高。VibeBench提出由1000名合格軟體工程師進行主觀測試。研究筆記包括DeepSpeed和OpenRLHF中的bug修復,以及DeepSeek-V4論文中壓縮稀疏注意力的忠實實現。