AI News HubLIVE
站内改写

最新開放模型摘要(第20期):新機構!新模型型別!Nemotron Super、Sarvam、Cohere Transcribe等

本期摘要涵蓋了多種多樣且獨特的開放模型,涵蓋了OCR、RAG搜尋、音訊轉錄、計算機使用、程式碼編輯、數學定理證明等多個用例。模型來自更廣泛的開放模型構建者,包括NVIDIA、Cohere、Sarvam、Mistral等,體現了行業對特定領域、低成本模型的推動。

文章情報

工程師進階

要點

  • NVIDIA釋出Nemotron-3-Super,120B引數,12B啟用,1M上下文視窗,首個在預訓練中使用NVFP4的開放模型。
  • Cohere推出Transcribe模型,基於conformer架構,支援14種語言,Apache 2.0許可。
  • 印度初創Sarvam釋出105B模型,在印度語言表現上遠超其他開放模型,體現主權AI重要性。
  • Mistral釋出Small 4,119B-A7B混合推理模型,具備編碼能力。

為什麼重要

這條新聞值得關注,因為NVIDIA釋出Nemotron-3-Super,120B引數,12B啟用,1M上下文視窗,首個在預訓練中使用NVFP4的開放模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本期開放模型摘要(第20期)迎來了大量多樣且獨特的模型,涵蓋了廣泛用例和模態。通常,這些模型彙總由Qwen、DeepSeek、Kimi等大型模型主導。然而,本期的模型適用於各種不同的用例,包括光學字元識別(OCR)、RAG搜尋、音訊轉錄、計算機使用、程式碼編輯、數學定理證明等。同時,本月收錄的模型來自更加廣泛的開放模型構建者。這讓我們對開放模型的未來充滿希望,因為特定領域、低成本的模型被視為補充最強封閉代理的關鍵工具。當頂級模型佔據頭條時,這種廣泛的行業級探索容易被忽視。閱讀本期內容將提供技術上紮實、覆蓋面廣的行業推動具體模型方向的概述。

為了鼓勵人們關注本期模型的多樣性,核心部分未設定付費牆。在開放模型頂級層面相對平靜的一個月裡,本期確實帶來了不少驚喜。

我們的精選模型

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4(來源:NVIDIA):備受期待的NVIDIA中型模型終於到來:120B總引數,12B啟用,1M上下文視窗,支援多種常用語言。此外,該模型基於LatentMoE,並在預訓練中使用NVFP4,這在開放模型中尚屬首次。與NVIDIA的其他產品一樣,它附帶了詳細的技術報告、預訓練和後訓練資料集,並且絕大部分資料已開放釋出。

cohere-transcribe-03-2026(來源:CohereLabs):Cohere推出的語音轉文本模型,基於conformer架構,與NVIDIA的Parakeet類似。支援14種語言,包括一些AIPAC語言和阿拉伯語。Cohere聲稱其效能超過了同尺寸的開放和封閉模型。最重要的是,該模型採用Apache 2.0許可釋出!Cohere之前的開放模型採用非商業許可。

sarvam-105b(來源:sarvamai):印度初創公司Sarvam曾在過去訓練開放模型,如今其新的旗艦模型在資料集大小(12-16T tokens)和模型大小(30B-A2B,105B-10A)上全面升級。結果,它們在許多開放模型中接近甚至超越了同尺寸的模型。此次釋出也展示了主權AI的重要性——與頂級開放模型相比,Sarvam模型在印度語言上更受青睞,這是其他少數國家尚未內化的。

Mistral-Small-4-119B-2603(來源:mistralai):Mistral推出的119B-A7B模型,融合了其前幾代模型,成為具備編碼能力的混合推理模型。

zeta-2(來源:zed-industries):開原始碼編輯器Zed此前已開放其編輯預測模型,一年前我們曾報道過。儘管舊版本基於開放資料,新版本基於Seed-Coder-8B,使用明確選擇加入資料收集的使用者開原始碼進行訓練。

其他模型

通用模型:包括NVIDIA的gpt-oss-puzzle-88B(剪枝專家版本並替換部分全域性注意力層)、allenai的Olmo-Hybrid-7B(混合注意力和門控DeltaNet)、NVIDIA的Nemotron-3-Nano-4B-BF16(壓縮版本)。

多模態模型:YuanLabAI的Yuan3.0-Ultra(1T多模態模型,2.2T tokens預訓練後剪枝)、美團的LongCat-Next(文本、視覺、音訊輸入輸出)、IBM的granite-4.0-1b-speech(小型語音轉文本,支援翻譯音訊輸出)、微軟的Phi-4-reasoning-vision-15B。

特殊用途模型:MiroThinker-1.7(Qwen 235B的微調版本,用於代理工作流)、tabpfn_2_6(表格預測模型更新,僅限研究和內部評估)、SAM 3.1更新、Holotron-12B(CUA代理策略模型)、LongCat-Flash-Prover(Lean4微調)、Leanstral-2603(Mistral Small 4的Lean4微調)、reka-edge-2603(機器人模型,兩年後轉為Apache 2.0)。

RAG模型:百度的Qianfan-OCR(Apache 2.0)、datalab-to的chandra-ocr-2(限制許可)、lightonai的Reason-ModernColBERT(SOTA檢索模型,非商業許可但提供資料生成程式碼)、chromadb的context-1(GPT-OSS微呼叫於代理搜尋)、小紅書的dots.mocr(更新,支援SVG輸出,MIT許可但附加使用限制)。

本期展現了開放模型領域的多樣性和活力,從大型模型到專業應用,各方向均有突破。