2026-03-30 21:02 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

最新開放模型摘要（第20期）：新機構！新模型型別！Nemotron Super、Sarvam、Cohere Transcribe等

本期摘要涵蓋了多種多樣且獨特的開放模型，涵蓋了OCR、RAG搜尋、音訊轉錄、計算機使用、程式碼編輯、數學定理證明等多個用例。模型來自更廣泛的開放模型構建者，包括NVIDIA、Cohere、Sarvam、Mistral等，體現了行業對特定領域、低成本模型的推動。

來源Interconnects (Nathan Lambert)作者: Florian Brand

本期開放模型摘要（第20期）迎來了大量多樣且獨特的模型，涵蓋了廣泛用例和模態。通常，這些模型彙總由Qwen、DeepSeek、Kimi等大型模型主導。然而，本期的模型適用於各種不同的用例，包括光學字元識別（OCR）、RAG搜尋、音訊轉錄、計算機使用、程式碼編輯、數學定理證明等。同時，本月收錄的模型來自更加廣泛的開放模型構建者。這讓我們對開放模型的未來充滿希望，因為特定領域、低成本的模型被視為補充最強封閉代理的關鍵工具。當頂級模型佔據頭條時，這種廣泛的行業級探索容易被忽視。閱讀本期內容將提供技術上紮實、覆蓋面廣的行業推動具體模型方向的概述。

為了鼓勵人們關注本期模型的多樣性，核心部分未設定付費牆。在開放模型頂級層面相對平靜的一個月裡，本期確實帶來了不少驚喜。

我們的精選模型

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4（來源：NVIDIA）：備受期待的NVIDIA中型模型終於到來：120B總引數，12B啟用，1M上下文視窗，支援多種常用語言。此外，該模型基於LatentMoE，並在預訓練中使用NVFP4，這在開放模型中尚屬首次。與NVIDIA的其他產品一樣，它附帶了詳細的技術報告、預訓練和後訓練資料集，並且絕大部分資料已開放釋出。

cohere-transcribe-03-2026（來源：CohereLabs）：Cohere推出的語音轉文本模型，基於conformer架構，與NVIDIA的Parakeet類似。支援14種語言，包括一些AIPAC語言和阿拉伯語。Cohere聲稱其效能超過了同尺寸的開放和封閉模型。最重要的是，該模型採用Apache 2.0許可釋出！Cohere之前的開放模型採用非商業許可。

sarvam-105b（來源：sarvamai）：印度初創公司Sarvam曾在過去訓練開放模型，如今其新的旗艦模型在資料集大小（12-16T tokens）和模型大小（30B-A2B，105B-10A）上全面升級。結果，它們在許多開放模型中接近甚至超越了同尺寸的模型。此次釋出也展示了主權AI的重要性——與頂級開放模型相比，Sarvam模型在印度語言上更受青睞，這是其他少數國家尚未內化的。

Mistral-Small-4-119B-2603（來源：mistralai）：Mistral推出的119B-A7B模型，融合了其前幾代模型，成為具備編碼能力的混合推理模型。

zeta-2（來源：zed-industries）：開原始碼編輯器Zed此前已開放其編輯預測模型，一年前我們曾報道過。儘管舊版本基於開放資料，新版本基於Seed-Coder-8B，使用明確選擇加入資料收集的使用者開原始碼進行訓練。

其他模型

通用模型：包括NVIDIA的gpt-oss-puzzle-88B（剪枝專家版本並替換部分全域性注意力層）、allenai的Olmo-Hybrid-7B（混合注意力和門控DeltaNet）、NVIDIA的Nemotron-3-Nano-4B-BF16（壓縮版本）。

多模態模型：YuanLabAI的Yuan3.0-Ultra（1T多模態模型，2.2T tokens預訓練後剪枝）、美團的LongCat-Next（文本、視覺、音訊輸入輸出）、IBM的granite-4.0-1b-speech（小型語音轉文本，支援翻譯音訊輸出）、微軟的Phi-4-reasoning-vision-15B。

特殊用途模型：MiroThinker-1.7（Qwen 235B的微調版本，用於代理工作流）、tabpfn_2_6（表格預測模型更新，僅限研究和內部評估）、SAM 3.1更新、Holotron-12B（CUA代理策略模型）、LongCat-Flash-Prover（Lean4微調）、Leanstral-2603（Mistral Small 4的Lean4微調）、reka-edge-2603（機器人模型，兩年後轉為Apache 2.0）。

RAG模型：百度的Qianfan-OCR（Apache 2.0）、datalab-to的chandra-ocr-2（限制許可）、lightonai的Reason-ModernColBERT（SOTA檢索模型，非商業許可但提供資料生成程式碼）、chromadb的context-1（GPT-OSS微呼叫於代理搜尋）、小紅書的dots.mocr（更新，支援SVG輸出，MIT許可但附加使用限制）。

本期展現了開放模型領域的多樣性和活力，從大型模型到專業應用，各方向均有突破。