AI News HubLIVE
站内改写

最新開放模型摘要(第20期):新機構!新模型類型!Nemotron Super、Sarvam、Cohere Transcribe等

本期摘要涵蓋了多種多樣且獨特的開放模型,涵蓋了OCR、RAG搜索、音頻轉錄、計算機使用、代碼編輯、數學定理證明等多個用例。模型來自更廣泛的開放模型構建者,包括NVIDIA、Cohere、Sarvam、Mistral等,體現了行業對特定領域、低成本模型的推動。

文章情報

工程師進階

要點

  • NVIDIA發佈Nemotron-3-Super,120B參數,12B激活,1M上下文窗口,首個在預訓練中使用NVFP4的開放模型。
  • Cohere推出Transcribe模型,基於conformer架構,支持14種語言,Apache 2.0許可。
  • 印度初創Sarvam發佈105B模型,在印度語言表現上遠超其他開放模型,體現主權AI重要性。
  • Mistral發佈Small 4,119B-A7B混合推理模型,具備編碼能力。

為甚麼重要

這條新聞值得關注,因為NVIDIA發佈Nemotron-3-Super,120B參數,12B激活,1M上下文窗口,首個在預訓練中使用NVFP4的開放模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本期開放模型摘要(第20期)迎來了大量多樣且獨特的模型,涵蓋了廣泛用例和模態。通常,這些模型彙總由Qwen、DeepSeek、Kimi等大型模型主導。然而,本期的模型適用於各種不同的用例,包括光學字符識別(OCR)、RAG搜索、音頻轉錄、計算機使用、代碼編輯、數學定理證明等。同時,本月收錄的模型來自更加廣泛的開放模型構建者。這讓我們對開放模型的未來充滿希望,因為特定領域、低成本的模型被視為補充最強封閉代理的關鍵工具。當頂級模型佔據頭條時,這種廣泛的行業級探索容易被忽視。閲讀本期內容將提供技術上紮實、覆蓋面廣的行業推動具體模型方向的概述。

為了鼓勵人們關注本期模型的多樣性,核心部分未設置付費牆。在開放模型頂級層面相對平靜的一個月裏,本期確實帶來了不少驚喜。

我們的精選模型

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4(來源:NVIDIA):備受期待的NVIDIA中型模型終於到來:120B總參數,12B激活,1M上下文窗口,支持多種常用語言。此外,該模型基於LatentMoE,並在預訓練中使用NVFP4,這在開放模型中尚屬首次。與NVIDIA的其他產品一樣,它附帶了詳細的技術報告、預訓練和後訓練數據集,並且絕大部分數據已開放發佈。

cohere-transcribe-03-2026(來源:CohereLabs):Cohere推出的語音轉文本模型,基於conformer架構,與NVIDIA的Parakeet類似。支持14種語言,包括一些AIPAC語言和阿拉伯語。Cohere聲稱其性能超過了同尺寸的開放和封閉模型。最重要的是,該模型採用Apache 2.0許可發佈!Cohere之前的開放模型採用非商業許可。

sarvam-105b(來源:sarvamai):印度初創公司Sarvam曾在過去訓練開放模型,如今其新的旗艦模型在數據集大小(12-16T tokens)和模型大小(30B-A2B,105B-10A)上全面升級。結果,它們在許多開放模型中接近甚至超越了同尺寸的模型。此次發佈也展示了主權AI的重要性——與頂級開放模型相比,Sarvam模型在印度語言上更受青睞,這是其他少數國家尚未內化的。

Mistral-Small-4-119B-2603(來源:mistralai):Mistral推出的119B-A7B模型,融合了其前幾代模型,成為具備編碼能力的混合推理模型。

zeta-2(來源:zed-industries):開源代碼編輯器Zed此前已開放其編輯預測模型,一年前我們曾報道過。儘管舊版本基於開放數據,新版本基於Seed-Coder-8B,使用明確選擇加入數據收集的用户開源代碼進行訓練。

其他模型

通用模型:包括NVIDIA的gpt-oss-puzzle-88B(剪枝專家版本並替換部分全局注意力層)、allenai的Olmo-Hybrid-7B(混合注意力和門控DeltaNet)、NVIDIA的Nemotron-3-Nano-4B-BF16(壓縮版本)。

多模態模型:YuanLabAI的Yuan3.0-Ultra(1T多模態模型,2.2T tokens預訓練後剪枝)、美團的LongCat-Next(文本、視覺、音頻輸入輸出)、IBM的granite-4.0-1b-speech(小型語音轉文本,支持翻譯音頻輸出)、微軟的Phi-4-reasoning-vision-15B。

特殊用途模型:MiroThinker-1.7(Qwen 235B的微調版本,用於代理工作流)、tabpfn_2_6(表格預測模型更新,僅限研究和內部評估)、SAM 3.1更新、Holotron-12B(CUA代理策略模型)、LongCat-Flash-Prover(Lean4微調)、Leanstral-2603(Mistral Small 4的Lean4微調)、reka-edge-2603(機器人模型,兩年後轉為Apache 2.0)。

RAG模型:百度的Qianfan-OCR(Apache 2.0)、datalab-to的chandra-ocr-2(限制許可)、lightonai的Reason-ModernColBERT(SOTA檢索模型,非商業許可但提供數據生成代碼)、chromadb的context-1(GPT-OSS微調用於代理搜索)、小紅書的dots.mocr(更新,支持SVG輸出,MIT許可但附加使用限制)。

本期展現了開放模型領域的多樣性和活力,從大型模型到專業應用,各方向均有突破。