2026-06-18 17:13 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

最高のオープンソース大規模言語モデル（LLM）

DeepSeek V4 Pro、Gemma 4、GLM 5.1、GPT OSS 120B、Kimi K2.6、MiniMax M3、Nemotron 3 Ultra、Qwen 3.6 の8つのトップオープンソースLLMを比較。エージェントコーディング、長文脈推論、コスト、速度に最適なモデルを見つけます。

ソースBaseten Blog

記事インテリジェンス

エンジニア上級

要点

Kimi K2.6 は最もバランスが良く、Qwen 3.6 と GLM 5.1 はエージェントコーディングでリード。DeepSeek と Nemotron は長文脈・エンタープライズワークロードで強み。GPT OSS 120B はコストと速度で優れる。
DeepSeek V4 Pro は 100万トークンのコンテキストウィンドウを持ち、CSA と HCA により KV キャッシュメモリを標準モデルの約2%に削減。
GLM 5.1 は動的ワーキングメモリとスパース KV キャッシュ圧縮により、最大8時間の自律エージェントコーディングをサポート。
GPT OSS 120B は Baseten 上で TensorRT-LLM と EAGLE-3 投機的復号化により、毎秒650トークン以上を達成。

重要な理由

このニュースが重要なのは、Kimi K2.6 は最もバランスが良く、Qwen 3.6 と GLM 5.1 はエージェントコーディングでリード。DeepSeek と Nemotron は長文脈・エンタープライズワークロードで強み。GPT OSS 120B はコストと速度で優れるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

毎日新しいLLMが登場する中、適切なモデルを選ぶのは難しいかもしれません。コーディング、エージェントワークフロー、長文脈推論など、さまざまなタスクに応じて最適なオープンソースLLMを見つけるお手伝いをします。このブログでは、Basetenで本番稼働中のモデルの技術仕様、ベンチマーク、実際のデータを基に8つのトップオープンソースモデルを評価します。

DeepSeek V4 Pro は、エージェントコーディングと複雑なSTEM推論向けに構築された最先端のオープンソースモデルです。ハイブリッドアテンション機構により100万トークンのコンテキストウィンドウを実現。CSA（クロスレイヤー共有アテンション）は最初の層のKeyとValue行列を後続の層で再利用し、HCA（階層的チャンクアテンション）はシーケンスをチャンクに分割して近距離は精密、遠距離は粗くアテンションを取ります。これによりKVキャッシュメモリを標準モデルの約2%に削減。さらに、多様体制約ハイパーコネクション（mHC）が大規模なトレーニングを安定させます。エージェントコーディングではクローズドソースの最先端モデルに匹敵し、コストも大幅に低くなっています。

Gemma 4 はGoogle DeepMindのオープンウェイトモデルで、エンタープライズ向けファインチューニングとマルチモーダル推論に優れています。スライディングウィンドウアテンションとスパースなグローバルアテンション層を交互に配置し、計算オーバーヘッドを削減しつつ長距離推論を維持。コンテキストウィンドウはエッジで128K、クラウドで256Kまで対応。12Bモデルはオーディオ対応でコンシューマーハードウェアに最適、31Bモデルはより高性能です。

GLM 5.1 は智譜AI（Z.ai）が開発し、長時間のエージェントコーディングタスクに特化しています。256エキスパートのMoEアーキテクチャで、トークンあたり8エキスパートのみをルーティング。スパースアテンションは各層のKeyとValue行列を1つの小さな潜在行列に圧縮し、KVキャッシュサイズを大幅に削減。動的ワーキングメモリにより最大8時間の自律実行が可能で、コンテキストオーバーロードを防ぎます。

GPT OSS 120B はOpenAIのオープンウェイト推論モデルで、テキスト生成と会話AIに最適化。BasetenではTensorRT-LLMとNVIDIA DynamoによるKVキャッシュアウェアルーティング、さらにEAGLE-3投機的復号化により毎秒650トークン以上を達成。120Bモデルとしては最速クラスで、最も低コストな選択肢の一つです。

Kimi K2.6 はMoonshot AIの1兆パラメータモデルで、コーディングワークロードにおいて高い信頼性を誇ります。Kimi Codeエンジンを基盤とし、大規模コードベースを処理し、ビジュアルモックアップから直接インターフェースを構築可能。MoonVitエンコーダによりテキスト、画像、動画のマルチモーダル入力をサポート。

MiniMax M3 はフロントエンドやUI、ビジュアル推論、クリエイティブタスクで強力です。MiniMaxスパースアテンション（MSA）により100万トークンのコンテキストウィンドウをメモリコストを抑えて実現。UI生成、ビジュアルコンテキストを伴うコードレビュー、クリエイティブライティングでクリーンな成果を出力します。

Nemotron 3 Ultra はNVIDIAの550BパラメータMoEモデルで、長時間実行エージェント向けに設計。ハイブリッドMamba-Transformerアーキテクチャにより、コンテキストが増えても推論時間がほぼ一定に保たれ、長時間エージェントワークフローで最大5倍の高速化と30%のコスト削減を実現。Nano、Superと合わせて3つのモデルから構成されます。

Qwen 3.6 オープンソースファミリーは27B密モデルと35B-A3B MoEモデル（3Bアクティブパラメータ）を提供。エージェントコーディングではレポジトリレベルの推論と優れたフロントエンドワークフロー性能を発揮。両モデルともネイティブマルチモーダル対応。27Bモデルは主要コーディングベンチマークで従来の397Bオープンソースフラッグシップを凌駕します。

ベンチマークの信頼性について ベンチマークは出発点に過ぎません。ランキング上位のモデルが特定タスクで優れているとは限りません。自タスクのワークロードで評価を行い、TTFT、TPS、エンドツーエンドレイテンシなどの推論性能指標を最適化しましょう。

最適なオープンソースLLMはワークロードと最適化目標に依存します。ここで紹介したモデルはすべて現在本番環境で多くのAIアプリケーションに使用されています。