The Sequence 本周AI第855期:深入解析Nemotron Omni——NVIDIA为智能体打造的新多模态大脑
NVIDIA的Nemotron 3 Nano Omni是一款多模态推理模型,将视频、音频、图像和文本处理统一到单个高效模型中,用于智能体工作流,避免了分离模型带来的有损管道。
NVIDIA最近发布的Nemotron 3 Nano Omni是一款引人注目的多模态推理模型,其设计目标是将智能体的“眼睛和耳朵”整合到一个统一的感知与推理系统中。当前的多模态智能体管道通常像一台鲁布·戈德堡机器:音频输入到自动语音识别(ASR)模型,截图送入视觉语言模型(VLM),PDF渲染成图像或通过OCR提取文本,视频采样为帧,然后由语言模型拼合输出。每个模型边界都带来有损压缩,导致语音模型可能听到所说内容,但不知道说话时屏幕上显示什么;视觉模型可能看到图表,却听不到旁白;规划器只能得到一堆摘要,而非连贯的感官流。Nemotron Omni的独特之处不在于它“支持多模态”——市面上已有大量能完成图像描述、语音转录、PDF解析、视频问答和GUI点击的模型——而在于它让这众多的模态协作感觉如同一个统一的整体。该模型输入视频、音频、图像和文本,直接输出文本,避免了跨模型的信息损失。NVIDIA于2026年4月28日公布该模型,将其定位为开放的全模态推理模型,适用于计算机使用、文档智能、长音频视频理解等智能体工作流。