AI News HubLIVE
站内改写

最新オープンアーティファクト(第20号):新しい組織!新しいタイプのモデル!Nemotron Super、Sarvam、Cohere Transcribeなど

今号は、OCR、RAG検索、音声文字起こし、コンピュータ使用、コード編集、数学定理証明など、多様なユースケースをカバーするさまざまなオープンモデルを取り上げています。NVIDIA、Cohere、Sarvam、Mistralなど、より幅広いビルダーからのモデルが含まれており、ドメイン固有でコスト効率の高いモデルへの業界の推進力を示しています。

記事インテリジェンス

エンジニア上級

要点

  • NVIDIAがNemotron-3-Superをリリース。120Bパラメータ、12Bアクティブ、100万コンテキスト、事前学習でNVFP4を初めて使用。
  • CohereのTranscribeモデルはconformerベースで14言語対応、Apache 2.0ライセンス。
  • Sarvamの105Bモデルはインド言語でオープンモデルを凌駕し、 sovereign AIの重要性を示す。
  • Mistral Small 4(119B-A7B)はコード作成能力を持つハイブリッド推論モデル。

重要な理由

このニュースが重要なのは、NVIDIAがNemotron-3-Superをリリース。120Bパラメータ、12Bアクティブ、100万コンテキスト、事前学習でNVFP4を初めて使用ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

今号の「最新オープンアーティファクト」(第20号)は、ユースケースやモダリティを横断する多種多様で独特なモデルが特徴です。通常、これらのモデルまとめはQwen、DeepSeek、Kimiなどの大規模モデルが中心ですが、今回は光学文字認識(OCR)、RAG検索、音声文字起こし、コンピュータ使用、コード編集、数学定理証明など、さまざまな用途のモデルが含まれています。さらに、今月取り上げたアーティファクトは、はるかに幅広いオープンモデルビルダーからのものです。これにより、オープンモデルの未来に大きな希望が見えます。ドメイン固有で安価なモデルが、最も強力なクローズドエージェントを補完する重要なツールとして認識されています。トップモデルが注目を集める中、この広範な業界レベルの試行錯誤は忘れられがちですが、この投稿を読むことで、業界が特定モデルを推進する多くの方向性を技術的に裏付けられた形で広くカバーできます。今後もこのような内容が期待されます。

共有

多くの人に今回の多様なモデルを見てもらうため、コア部分はペイウォールなしで公開されています。オープンモデルのトップエンドでは静かな月でしたが、今号は本当に充実していました。

アーティファクトログ

私たちのピック

NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4(nvidia):待望のNVIDIAの中規模モデルがついに登場。総パラメータ120B、アクティブ12B、100万コンテキストウィンドウ、複数の人気言語をサポート。さらに、LatentMoEベースで事前学習にNVFP4を使用した初のオープンモデルです。NVIDIAの他の製品と同様に、詳細なテクニカルレポートと事前学習・事後学習データセットが付属し、データの大部分が公開されています。

cohere-transcribe-03-2026(CohereLabs):Cohereによる音声テキスト変換モデルで、NVIDIAのParakeetと同様のconformerアーキテクチャに基づいています。14の言語(一部のAIPAC言語やアラビア語を含む)をサポート。Cohereは同サイズのオープンおよびクローズドモデルを凌駕すると主張。さらに、Apache 2.0ライセンスで公開!Cohereのこれまでのオープンモデルは非商用ライセンスでした。

sarvam-105b(sarvamai):インドのスタートアップSarvamは、過去にオープンモデルをトレーニングしてきましたが、新しいフラッグシップモデルではデータセットサイズ(12-16Tトークン)とモデルサイズ(30B-A2B、105B-10A)を大幅にスケールアップ。その結果、同サイズの多くのオープンモデルに近づくか、それを上回っています。また、このリリースは、主権AIの重要性を示しています。Sarvamモデルは、インド言語において、最先端のオープンモデルと比較してはるかに好まれています。

Mistral-Small-4-119B-2603(mistralai):Mistralによる119B-A7Bモデル。以前のモデル世代を1つに統合し、コーディング能力を備えたハイブリッド推論モデルです。

zeta-2(zed-industries):オープンソースコードエディタZedは、以前から編集予測モデルを公開しており、1年前に取り上げました。以前のバージョンはオープンデータに基づいていましたが、新しいバージョンはSeed-Coder-8Bに基づき、データ収集に明示的にオプトインしたユーザーのオープンソースコードでトレーニングされています。

モデル

汎用

gpt-oss-puzzle-88B(nvidia):GPT OSS 120Bのプルーニングされたエキスパートバージョン。一部のグローバルアテンション層をウィンドウアテンションに置き換えています。Puzzleは「推論負荷の高いワークロードの推論効率を大幅に改善し、推論予算全体で精度を維持または向上させることを目的とした、学習後ニューラルアーキテクチャ探索(NAS)フレームワーク」です。

Olmo-Hybrid-7B(allenai):ハイブリッドアテンション+GDN(ゲート付きDeltaNet)モデル。アーキテクチャとその課題についての詳細は、当社のブログ記事をご覧ください。

NVIDIA-Nemotron-3-Nano-4B-BF16(nvidia):NVIDIA-Nemotron-Nano-9B-v2の圧縮バージョンで、それ自体がNVIDIA-Nemotron-Nano-12B-v2の圧縮バージョンです。Nvidiaは、オープンモデルにおいてこの方向性を誰よりも推進しています。

マルチモーダル

Yuan3.0-Ultra(YuanLabAI):比較的知られていないYuan Labによる1Tマルチモーダルモデル。2.2Tトークンで1.5Tモデルを事前学習し、その後新しい技術でエキスパートをプルーニング。詳細はテクニカルレポートに記載。

LongCat-Next(meituan-longcat):テキスト、ビジョン、オーディオの入出力を処理できるマルチモーダルモデル。

granite-4.0-1b-speech(ibm-granite):6言語をサポートする小型音声テキスト変換モデル。翻訳用の英語オーディオ生成もサポート。

Phi-4-reasoning-vision-15B(microsoft):SigLIP-2ビジョンエンコーダを使用するPhiモデル。

特殊用途

MiroThinker-1.7(miromind-ai):エージェントワークフロー(特に研究)向けにQwen 235Bをファインチューニング。

tabpfn_2_6(Prior-Labs):人気のテーブル予測モデルのアップデート。前身よりわずかに大型化。ライセンスは研究と内部評価のみ。

sam3.1(facebook):SAM 3のアップデート。同じ制限付きライセンス。

Holotron-12B(Hcompany):CUAエージェント用のポリシーモデル。

LongCat-Flash-Prover(meituan-longcat):大規模LongCatモデルのLean4ファインチューン。

Leanstral-2603(mistralai):新しいMistral Small 4のLean4ファインチューン。

reka-edge-2603(RekaAI):ロボティクス用モデル。Cosmos-Reason2などを凌駕。非商用ライセンスは2年後にApache 2.0に変換。

RAG

Qianfan-OCR(baidu):最近優れたOCRモデルが多数登場。こちらはBaidu製でApache 2.0ライセンス。

chandra-ocr-2(datalab-to):Chandra OCRモデルのアップデート。制限付きライセンス。

Reason-ModernColBERT(lightonai):SOTA検索モデル。非商用ライセンスだが、データを再生成するコードも提供され、商用利用可能なバージョンのトレーニングが可能。

context-1(chromadb):エージェント検索用にGPT-OSSをファインチューニング。詳細なテクニカルレポート付き。Chromaのオープンモデル空間へのデビュー。Thinking MachineのTinkerでトレーニング。

dots.mocr(rednote-hilab):好評のdots.ocrモデルが更新され、SVG出力をサポート。ただし、前身と同様にMITライセンスに加えて追加の使用制限あり。

続きを読む