The Sequence 本週AI第855期:深入解析Nemotron Omni——NVIDIA為智能體打造的新多模態大腦
NVIDIA的Nemotron 3 Nano Omni是一款多模態推理模型,將視頻、音頻、圖像和文本處理統一到單個高效模型中,用於智能體工作流,避免了分離模型帶來的有損管道。
NVIDIA最近發佈的Nemotron 3 Nano Omni是一款引人注目的多模態推理模型,其設計目標是將智能體的“眼睛和耳朵”整合到一個統一的感知與推理系統中。當前的多模態智能體管道通常像一台魯布·戈德堡機器:音頻輸入到自動語音識別(ASR)模型,截圖送入視覺語言模型(VLM),PDF渲染成圖像或通過OCR提取文本,視頻採樣為幀,然後由語言模型拼合輸出。每個模型邊界都帶來有損壓縮,導致語音模型可能聽到所説內容,但不知道説話時屏幕上顯示什麼;視覺模型可能看到圖表,卻聽不到旁白;規劃器只能得到一堆摘要,而非連貫的感官流。Nemotron Omni的獨特之處不在於它“支持多模態”——市面上已有大量能完成圖像描述、語音轉錄、PDF解析、視頻問答和GUI點擊的模型——而在於它讓這眾多的模態協作感覺如同一個統一的整體。該模型輸入視頻、音頻、圖像和文本,直接輸出文本,避免了跨模型的信息損失。NVIDIA於2026年4月28日公佈該模型,將其定位為開放的全模態推理模型,適用於計算機使用、文檔智能、長音頻視頻理解等智能體工作流。