AI News HubLIVE
站内改写

オープンモデルが閾値を超えた

GLM-5やMiniMax M2.7のようなオープンウェイトモデルは、ファイル操作、ツール使用、指示追跡などのコアエージェントタスクにおいて、クローズドフロンティアモデルに匹敵する性能を、はるかに低いコストとレイテンシで達成しています。LangChainの評価では正解率がトップクローズドモデルに近く、オープンモデルが本番エージェントワークフローに実用的であることを示しています。本記事では、評価方法、結果、およびDeep Agents SDKでオープンモデルを使用する方法を詳しく説明します。

記事インテリジェンス

エンジニア上級

要点

  • オープンモデルGLM-5とMiniMax M2.7がエージェントタスクでクローズドモデルに匹敵。
  • コストとレイテンシの利点:最大20倍安く、推論が高速。
  • Deep Agents SDKで一行のコード変更でオープンモデルに切り替え可能。
  • 評価は7カテゴリをカバーし、正解率や解決率などの指標を提供。

重要な理由

このニュースが重要なのは、オープンモデルGLM-5とMiniMax M2.7がエージェントタスクでクローズドモデルに匹敵ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

ここ数週間、LangChainチームは複数のオープンウェイト大規模言語モデルについてDeep Agentsハーネス評価を実施し、初期結果ではオープンモデルがクローズドフロンティアモデルに匹敵する性能を示しています。GLM-5(z.ai)とMiniMax M2.7は、ファイル操作、ツール使用、指示追跡などのコアエージェントタスクで、Claude OpusやGPT-5.4と同等のスコアを達成しました。

オープンモデルの最大の利点はコストとレイテンシです。例えば、Claude Opus 4.6の出力価格は100万トークンあたり25ドルですが、MiniMax M2.7は1.2ドルです。日々1000万トークンを処理するアプリケーションでは、年間約8万7千ドルの差が生じます。また、オープンモデルは専用推論インフラで高速化でき、Baseten上のGLM-5の平均レイテンシは0.65秒で、Claude Opus 4.6の2.56秒を大きく下回ります。

評価はファイル操作、ツール使用、検索、会話、メモリ、要約、単体テストの7カテゴリで実施。各テストは成功アサーションと効率アサーションを定義し、正解率、解決率、ステップ比、ツールコール比の4指標を報告します。GLM-5の正解率は0.64で、Claude Opus 4.6の0.68、GPT-5.4の0.61に近似しています。ファイル操作と単体テストでは満点を獲得しました。

Deep Agents SDKでオープンモデルを使用するには、モデルパラメータを変更するだけです。例えば、GLM-5を使用するにはmodel='baseten:zai-org/GLM-5'と設定します。SDKは自動的にコンテキストウィンドウを検出し、サポートされていないモダリティを無効化し、適切なモデルIDをシステムプロンプトに注入します。また、Deep Agents CLIではランタイムモデル切り替えが可能で、セッション中にフロンティアモデルからオープンモデルに切り替えることができます。

今後の計画として、特定のオープンモデルファミリ向けのハーネスチューニングパターンの文書化や、マルチモデルサブエージェント構成(例:クローズドモデルによるオーケストレーション+オープンモデルサブエージェント)のテストが予定されています。オープンモデルはすでにエージェントワークロードに十分実用的であり、開発者はGitHub上で自身の評価を実行し、より優れたエージェントの構築に参加できます。