AI検索エージェントは実際にウェブを調査するのではなく、既に知っていることを確認していることが多い
GPT-5.4やKimi K2.6などの最先端AI検索エージェントは、確立されたベンチマークで実際の調査を行わず、トレーニングで得た知識を確認するためだけにウェブを使用していることが新しい研究で明らかになった。ハルビン工科大学の研究者らは、過去90日間の出来事のみを尋ねる時間ベースのベンチマーク「LiveBrowseComp」を導入し、モデルが記憶に頼れなくなるとパフォーマンスが崩壊し、既存のランキングが大きく変動することを示した。
ハルビン工科大学と小红书の研究者らによる新しい研究により、最先端のAI検索エージェントが標準的なベンチマークで実際のウェブ調査を行わず、トレーニング中に吸収した内部知識に大きく依存していることが明らかになった。研究者らはこれを「内在知識依存(IKD)」と呼んでいる。
研究チームはGPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6、DeepSeek-V4-Pro、Kimi K2.6を含む11のモデルをテストした。まず、すべての検索・ブラウジングツールを無効にしたところ、インターネットアクセスがなくてもモデルは驚くほど高いスコアを示した。MiniMax M2.5は記憶だけでBrowseCompタスクの44.5%を解決し、Kimi K2.6は中国語版BrowseComp-ZHで62%に達した。つまり、ベンチマークパフォーマンスのかなりの部分は、検索の前に既に得られている。
さらに重要なテストとして、検索インターフェースは残したまま、回答をサポートする文書を検索インデックスからすべて削除した。すると、すべてのモデルのパフォーマンスはツールなしの場合よりも低下した。MiniMax M2.5は44.5%から8.0%に低下し、Kimi-K2.6は25.5%から2.3%に落ちた。確認ヒットがない場合、検索はモデルを正しい直感から積極的に遠ざけることがわかる。検索パスの分析では、クエリの半数以上がモデル自身の推論から来ており、以前に見つけたヒットからではない。たとえ検索結果に関連する証拠が現れても、エージェントがそれを推論に組み込むのは3分の1未満である。このループはモデル主導であり、証拠主導ではない。
実際の検索行動を測定するため、研究者らはLiveBrowseCompベンチマークを構築した。335の人間作成問題からなり、各問題は作成前90日以内の少なくとも1つの事実に依存しており、その最新情報なしでは解答できない。イベントは映画データベース、ゲームディレクトリ、セキュリティ脆弱性レジストリ、地震カタログなど常に更新されるソースから取得され、世界的に有名なイベントは意図的に除外されている。LiveBrowseCompでは、すべてのモデルがクローズドブックテストで2%未満の精度に落ち込んだ。ツールを有効にしても、スコアは同じモデルのBrowseComp結果より25〜40ポイント低い。GLM 5.1はオープンソースモデルでトップだったが、LiveBrowseCompでは中位に転落。DeepSeek v3.2はBrowseCompで最下位だったが、LiveBrowseCompではトップに上昇した。これは、静的リーダーボードでの順位が、モデルの検索能力ではなく、どれだけ知っているかを示していることを示している。研究者らは、動的で時間に敏感なベンチマークをAIエージェント評価の標準とすべきだと主張し、証拠に基づく研究を報酬とするトレーニングシグナルを求めている。