最新オープンアーティファクト(#21):オープンモデル大豊作!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1など。CAISIのV4評価について。
今月はオープンフロンティアラボから次々に新モデルがリリースされました。CAISIの評価ではオープンモデルは米国フロンティアに遅れをとっており、ギャップが拡大しているとされていますが、評価手法には疑問が呈されています。注目モデルとしてMiMo-V2.5-Pro、Gemma-4、Kimi-K2.6、Laguna-XS.2、DeepSeek-V4-Flashなどが紹介されています。
記事インテリジェンス
要点
- DeepSeek、Google、Moonshot AI、Xiaomiなどから複数のオープンモデルがリリース。
- CAISIの評価ではEloスコアに大きな差があるが、ベンチマーク手法に批判あり。
- 研究者の間で実際の性能差について意見が分かれる:Florianはオープンモデルがより近いと、Nathanはクローズドモデルがより先行していると考える。
- 注目モデル:MiMo-V2.5-Pro、Gemma-4、Kimi-K2.6、Laguna-XS.2、DeepSeek-V4-Flash。
重要な理由
このニュースが重要なのは、DeepSeek、Google、Moonshot AI、Xiaomiなどから複数のオープンモデルがリリースためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
今月はオープンAIモデル分野で非常に忙しい月となり、DeepSeek、Google、Moonshot AI、Xiaomi、Zhipu AIなどのオープンフロンティアラボが次々と新モデルをリリースしました。これらのリリースと同時に、オープンモデルの能力に関する再評価も行われています。
米国AI標準・イノベーションセンター(CAISI)はDeepSeek V4を評価し、オープンモデルが米国フロンティアモデルに遅れをとっており、その差は時間とともに拡大していると結論づけました。CAISIは項目応答理論(IRT)に基づくEloスコアを使用し、9つの異なるベンチマークを組み合わせました。DeepSeek V4はCTF-Archive-Diamond、PortBench、ARC-AGI-2などのベンチマークで低いスコアを記録し、全体のElo差を大きくしました。しかし、この評価手法には批判があります。ベンチマークは実際のワークフロー(Claude CodeやOpenCodeなど)ではなく、簡素化された設定を使用しているからです。実際、モデルはこれらの高度なツールを使ってトレーニングされており、ベンチマークは本当の能力を反映していない可能性があります。
著者の内部でも意見が分かれています。Florianはオープンモデルの実際の性能はクローズドモデルにより近いと考えていますが、Nathanはクローズドモデルの方がより先行していると考えています。この議論は今後のコンテンツでさらに掘り下げられる予定です。
今月の注目モデルは以下の通りです:
- **MiMo-V2.5-Pro(Xiaomi)**:1年前の初リリース以来、Xiaomiのオープンモデルは顕著な進歩を遂げました。V2.5 ProはApache 2.0ライセンスでリリースされ、ベンチマークと実使用の両方でKimi K2.6やGLM-5.1などのフラッグシップモデルに匹敵します。
- **Gemma-4(Google)**:GoogleはGemmaシリーズのアップデートをリリース。4B、9B、31Bの高密度モデルと26B-A4BのMoEモデルが含まれます。重要な変更として、Apache 2.0ライセンスに切り替え、カスタムライセンスの法的な不確実性を排除しました。
- **Kimi-K2.6(Moonshot AI)**:Kimiシリーズのアップデート。全体的な性能が向上し、長期的なタスクに焦点を当てています。オープンモデルが複数時間にわたって複雑なタスクを実行できることを示しています。
- **Laguna-XS.2(Poolside)**:初の公開コード特化モデル。33B-A3Bのサイズでローカル使用に適し、同サイズのモデルと同等の性能を発揮。ブログ記事ではコード評価におけるリワードハッキングについて詳しく解説しています。
- **DeepSeek-V4-Flash(DeepSeek)**:V3シリーズの後継。Pro(1.6T-A49B MoE)とFlash(284B-13B)の2バージョン。Flashバージョンは比較的強力な性能を示しており、注目を集めています。技術レポートでは長距離コンテキスト性能を向上させるアーキテクチャ変更が詳述されています。
その他にも、Qwen3.6-35B-A3B、LFM2.5-350M(過剰学習の典型例)、Trinity-Large-Thinking(推論モデル)、GLM-5.1(長期的タスクに焦点)などのモデルがリリースされました。