AI News HubLIVE
站内改写2 分で読了

AI推論の経済学

2024年にOpenAIが初の推論モデルo1をリリースして以来、推論能力は急速にAIモデルの標準となった。しかし、推論には多大な計算リソースが必要であり、テスト時計算で精度は向上するが、コストが急増する。本記事では、推論の種類、適用シナリオ、性能とコストへの影響を分析し、単純なタスクでは推論を無効にすることでコストを大幅に削減し、速度を向上できると結論付けている。

ソースCerebras Blog

2024年、OpenAIは世界初の推論モデルo1を公開し、その後DeepSeek-R1やo3が続いた。2025年には、開発元やオープンソースかどうかに関わらず、ほぼすべてのモデルが推論機能をサポートするようになった。

推論(「思考」「調理」などとも呼ばれる)は、LLMがツール使用を発見し始めた初期の段階で、能力を倍増させる要因となった。o1やo3は問題を何時間も処理し、ほぼ正確な回答を返すことができた。技術用語としては「テスト時計算(test-time compute)」と呼ばれ、出力の正確性を高めるためにコンピュータ処理時間を増やすことである。モデルは回答を出す前に、自分自身と議論し、疑問を投げかけるようなトークンを生成する。

同じ時期に、ベンチマークは飽和状態に達し、AIは構造化出力(ツール呼び出し)で向上し、フロンティアはチャットのような体験から、ユーザーに代わって行動するエージェントへと移行した。エージェントの軌跡は、モデルが迅速かつ正確にツール呼び出しを連鎖させることを重視し、推論がその妨げになることがある。モデルが長く考えるほど、ツール呼び出しのスペースが狭まり、圧縮が発生する。

この1年の進歩を考えると、推論のコストと性能への影響を判断するのは容易ではない。データによると、技術的なプロンプトではトークン消費が6倍、完了時間が7〜11倍長くなり、推論を有効にした場合の改善率は10〜20%である。

推論の種類には、インターリーブ思考(ツール呼び出しの間に思考し、次にどう行動するか決める)、適応的推論(モデルが自分で推論量を決める)、設定可能な推論(ユーザーが低・中・高を選択)がある。推論は、複雑な単一課題、パズル、数学、論理、ベンチマーク目標など、正確なステップを必要とするタスクに非常に有効である。

思考予算を増やすことでモデルの性能が向上することは間違いない。例えば、GPT-5.5ではxHighと低推論の間に約10%の差があり、低推論と推論なしの間にも約10%の差がある。これは小型のオープンウェイトモデルにも当てはまり、推論を備えたQwen-3.6-27BやGemma-4-31Bは、昨年のSOTAであるSonnet-4(推論あり)を上回る。

平均して、最大無制限の推論はコーディングとエージェントベンチマークで約20%の性能向上をもたらすが、その代わりに出力トークンが5〜10倍(高コスト)必要となる。しかし、Codex、Claude Code、Droid、Piエージェントを使った私自身の1000以上のAIセッションの分析では、約半数のプロンプトは非常に単純で、推論や複雑な知能を必要としなかった。例えば「アプリ内のxファイルを見つけて開く」「メールとカレンダーを確認して今日の予定を教えて」「このGitHubリポジトリをクローンして分析する」などである。

したがって、推論を速度またはコスト制御のトグルとして捉えるのが妥当である。AnthropicとOpenAIは、1.5〜2.5倍の高速化に対して2倍の料金を請求する。しかし、知能を20%低下させるだけで7倍の高速化が可能ならどうだろう?Qwen3.6-27Bのようなモデルでは、生成トークンの87.5%以上が推論に使われている。つまり、半分の時間は不要な7倍のコストを支払っていることになる。メモリ制約のある環境では、KVキャッシュが減り、圧縮が頻発し、性能が大幅に低下する。

推論を無効にすることで、エージェントは圧縮前に長時間実行でき、コストは85%削減される。ファイル取得、問題発見、インシデント対応、段階的更新、システムコンポーネントとしてのAI利用など、時間的制約のある作業では、20%の向上のために大きな代償を払うのは不合理である。