The Sequence 本週AI第855期:深入解析Nemotron Omni——NVIDIA為智慧體打造的新多模態大腦
NVIDIA的Nemotron 3 Nano Omni是一款多模態推理模型,將影片、音訊、影像和文本處理統一到單個高效模型中,用於智慧體工作流,避免了分離模型帶來的有損管道。
NVIDIA最近釋出的Nemotron 3 Nano Omni是一款引人注目的多模態推理模型,其設計目標是將智慧體的“眼睛和耳朵”整合到一個統一的感知與推理系統中。當前的多模態智慧體管道通常像一臺魯布·戈德堡機器:音訊輸入到自動語音識別(ASR)模型,截圖送入視覺語言模型(VLM),PDF渲染成影像或透過OCR提取文本,影片取樣為幀,然後由語言模型拼合輸出。每個模型邊界都帶來有失真壓縮,導致語音模型可能聽到所說內容,但不知道說話時螢幕上顯示什麼;視覺模型可能看到圖表,卻聽不到旁白;規劃器只能得到一堆摘要,而非連貫的感官流。Nemotron Omni的獨特之處不在於它“支援多模態”——市面上已有大量能完成影像描述、語音轉錄、PDF解析、影片問答和GUI點選的模型——而在於它讓這眾多的模態協作感覺如同一個統一的整體。該模型輸入影片、音訊、影像和文本,直接輸出文本,避免了跨模型的資訊損失。NVIDIA於2026年4月28日公佈該模型,將其定位為開放的全模態推理模型,適用於計算機使用、文件智慧、長音訊影片理解等智慧體工作流。