AI News HubLIVE
サイト内リライト6 分で読了

DeepSeek Flashがエージェント製品の経済性を覆す

DeepSeek Flashは、安価で高速なテキスト専用コード生成モデルを提供することで、開発者と大手AIラボ間の不適切な価格関係を打ち破る。エージェント構築者は高価なマルチモーダルAPIからオープンソースモデルへの切り替えが可能になり、コストを大幅に削減し、ブラウザエージェントのアーキテクチャを再構築する。

ソースHacker News AI著者: arjunchint

DeepSeek Flashの登場は、エージェント製品の経済的構造を根本から変えつつあります。長い間、開発者と大手AIラボの間には対立関係がありました。開発者はプレミアムなAPI価格を支払い、ラボはその利益を自社のアプリ、エージェントツール、消費者向けサブスクリプションに補填していました。つまり、AI IDE、ブラウザエージェント、サポートエージェント、ワークフロー製品を構築している場合、あなたはあなたを置き換えようとしている企業に資金を提供していることになります。

この不適切な取引はエージェント市場における暗黙の了解でした。最も優れたクローズドモデルを使い、税金を払い、同じラボがあなたに対抗するエージェント製品をバンドルするのを見守る。DeepSeek Flashはこの了解を打ち破ります。それは抽象的に最も賢いモデルだからではなく、エージェント製品が過剰に支払っていたまさにその部分、つまり安価で高速なテキスト専用コード生成を正確にヒットしたからです。

DeepSeek V4 Flashはオープンで安価、長いコンテキストを持ち、コードにおいて十分に強力であるため、ハーネスが再び堀になります。モデルがブラウザの作業を実行可能なコードにコンパイルできれば、推論プロバイダーはホスティングで底辺への競争を始め、非SOTAモデルの請求はオプションに見え始めます。Microsoftでさえ、エージェントの価格設定が使用量ベースの経済へ移行する中、Copilot CoworkへのDeepSeek採用を検討していると報じられています。

2年間、デフォルトのブラウザエージェントスタックは静かに馬鹿げていました。スクリーンショット→LLM→クリック→スクリーンショット→LLM→タイプ→スクリーンショット→LLM→繰り返し。このアーキテクチャはモデルを判断に使うだけでなく、ランタイムとしてもレンタルしていました。これはAPI請求には最適でしたが、エージェント製品には最悪でした。不快な真実は単純です。開発者は知能ではなくランタイムのために搾取されていたのです。大手ラボは外部のビルダーにエージェントループごとにプレミアムAPIレートを請求し、自社のファーストパーティエージェント体験を補填できました。もしエージェントが1つのワークフローを完了するのに80回のモデル呼び出しを必要としたとしても、それは価格モデルのバグではなく、ビジネスモデルそのものだったのです。

DeepSeekはそのテーブルをひっくり返します。安価なテキスト/コードモデルが一度計画を書き、ブラウザハーネスがその計画をローカルで実行できるようになると、フロンティアAPIの堀は大幅に小さくなります。モデルはワーカーである必要はなく、コンパイラになれます。これが私たちの新しいRetrieverアーキテクチャの真の解放です:DOM + ツール + 意図 -> DeepSeek Flash -> JavaScript計画 -> rtrvr.* ハーネス -> ブラウザアクション。

コードとしての計画はすべてを変えます。以前は40から100回のモデルターンを必要としたワークフローが、1回の計画呼び出しと数回の対象を絞ったセマンティック抽出、そして普通のJavaScriptが機械の速度で退屈な作業を行うだけで済むようになりました。Retrieverの場合、ホットパスをDeepSeek Flashに切り替えることで、Gemini Flashクラスのモデルから必要な実用的なブラウザエージェント性能を維持しながら、100倍以上のコスト削減を達成しました。

これは単なる安価なモデル交換ではありません。すべてのエージェントハーネス構築者にとって新たな交渉ポジションです。私たちは5つのアーキテクチャ上の賭けをしました。テキストはスクリーンショットよりもコストとキャッシュ可能性で優れている、コードはツール呼び出しのトランスクリプトよりも優れている、ハーネスが製品である、認証されたブラウザがランタイムである、スクリーンショットはフォールバックであり税金ではない。DeepSeek Flashはこのアーキテクチャをデフォルトパスとして十分に安価にしました。

エージェントを構築するすべての人への私のアドバイスは率直です:ハーネスをデフォルトでテキスト専用に書き直し、実行可能コードを介して呼び出せるようにしなさい。モデルはあなたの能力に対するプログラムを生成すべきであり、すべてのループ反復を監視すべきではありません。古いブラウザエージェントループはボトルネックです。通常のブラウザエージェントはこれを行います:while not done: 観察 = observe_page()、アクション = llm(観察、ツール、履歴)、結果 = run_tool(アクション)。これは構築は簡単ですが、実行は残酷です。ユーザーが「開いているすべてのタブから価格ページを見つけ、チームプランを抽出し、月額100ドル以上のものをシートに追加して」と依頼したとします。ツールループエージェントはループ不変量を覚えるためにモデルに支払います。コードは一回のループを書き、ブラウザがローカルで実行します。ハーネスは権限を保持します。

DeepSeekはラボの税金を打ち破ります。エージェントハーネスはホットパスに演劇的なモデルを必要としません。コンパクトな状態を読み取り、制約付きAPIに対して信頼性の高いコードを書き、すぐに邪魔にならないモデルが必要です。これがDeepSeek Flashが非常に重要である理由です。デフォルトの前提を「最も高価なマルチモーダルモデルを単位経済が痛むまで使う」から「安価なオープンコードプランナーを使い、ハーネスに実行させる」に変えます。

古い堀は「より良いモデル → より多くのツール呼び出しが成功 → プレミアムAPI価格」でした。新しい堀は「より良いハーネス → より少ないモデル呼び出し → 安価なモデルで十分」です。これは大手ラボにとって残酷な逆転です。エージェントランタイムが1つの長いLLM会話であれば、フロンティアプロバイダーがあなたのマージンを握ります。ランタイムがハーネスであり、モデルが計画のみをコンパイルする場合、価格性能比が勝ちます。最良のエージェントスタックは「すべてのステップで最大のモデルをレンタルする」から「適切なプログラムを書ける最も安いモデルを使う」へと変わります。

DeepSeek Flashはブラウザエージェントが資金を浪費していたまさにその部分でAPI税を引き下げます。これがオープンウェイトがエージェントにとって非常に重要である理由です。モデルがハーネスコードに対して十分に優れている瞬間、ホスティングはコモディティの最適化問題になります。プロバイダーはレイテンシ、バッチ処理、量子化、キャッシュ動作、地理、価格で競争し、エージェント企業はラボの製品戦略にロックインされなくなります。

キャッシュされたテキストは欠けていた乗数です。テキスト専用ブラウザエージェントには1つの正当な批判があります。安いことは自動的に速いことを意味しません。アーキテクチャが30,000トークンの平坦化されたDOMを毎ステップモデルにダンプするなら、請求書には勝ててもユーザーを失います。長いページはレイテンシ税を運びます。トークンが多いサイトはタスクが終わる前にコンテキストを燃やす可能性があります。スクリーンショットは不注意なテキストダンプよりもステップあたりコンパクトな場合があります。

だからこそ、テキスト専用の議論は「トークンはピクセルより安い」で止まってはいけません。本当の利点はテキストがキャッシュされ、スライスされ、実行され得ることです。DeepSeekのキャッシュ入力パスはここでの隠れた機能です。公式APIでは、V4 Flashキャッシュヒット入力は約100万トークンあたり0.0028ドルです。さらに重要なのは、エージェントハーネスの安定した部分はキャッシュが効く部分と正確に一致することです。スクリーンショットは同じようなクリーンなキャッシュストーリーを持ちません。スクリーンショットは不透明なピクセルの塊であり、モデルは毎回視覚的に構造を再発見しなければなりません。テキストは異なります。ページがセマンティックツリーとして表現されると、エージェントはそれをソフトウェア入力のように扱えます。

これが「テキスト専用」をより安価なプロンプト形式と「テキスト専用」を実行アーキテクチャとして区別するものです。間違ったテキスト専用エージェントは毎ターン全体のページを送ります。正しいテキスト専用エージェントはコードを生成するのに十分なページ状態を送り、安定したプレフィックスをキャッシュし、コードにDOM/アクセシビリティツリーを文字列と構造化オブジェクトとして操作させます。したがって、ステップごとのp95レイテンシだけでなく、成功した実行あたりのモデルターン数、キャッシュヒット率、ステップあたりのコンテキスト成長、タスク完了までのp95時間も測定してください。コードとしての計画はこれらすべてを改善します。なぜなら、そもそもモデルからループを除去するからです。

100倍はアーキテクチャによるものです。DeepSeekが魔法のように100倍安いわけではありません。コスト曲線は4つの乗数が同時に動くために変わります。コスト = ターン数 * コンテキストサイズ * 非キャッシュ比率 * モデル価格。私たちはワークフローをコードにコンパイルすることでターン数を減らし、DOM/テキストをスクリーンショットの代わりに使うことでコンテキストサイズを減らし、安定したテキストプレフィックスを再利用することで非キャッシュ比率を減らし、ホットパスをDeepSeek Flashに移すことでモデル価格を減らしました。古いエージェントが40から100回のモデルターンを必要とし、新しいエージェントが1回の計画呼び出しと数回のセマンティック抽出で済むタスクでは、エンドツーエンドの推論コストは約2桁減少します。速度も変わります。ツールループは本質的に逐次的ですが、コードは反復、フィルタリング、バッチ処理、リトライ、重複排除、出力書き込みをモデルに許可を求めることなく行えます。これはベンチマーク劇場よりも重要です。デモは1回のチェックアウトを完了するのに80回のモデルターンを費やすかもしれません。しかし、製品はユーザーが500行のデータを同期するたびに80回のモデルターンを費やすことはできません。