2026-06-02 01:29 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

AIエージェントに目を与えたが、まったく使わなかった

AIエージェントに視覚機能を与えても、実際には使わない可能性があることが実験で示された。Claude Haiku 4.5とGooseフレームワークを用いたテストでは、エージェントは視覚ではなくレイアウトを保持するテキストツールを使って複雑な表抽出タスクを成功させた。オープン標準AVPによる記録が、高価なモデルよりも粘り強さと適切なツールの重要性を明らかにした。

ソースHacker News AI著者: pmkelly4444

ある実験で、研究チームはAIエージェントに視覚能力を与えたが、結局それは使われなかった。この実験は、強力なフレームワークに支えられた安価なAIモデルがどれだけ難しいタスクをこなせるかをテストするものだった。

使用されたのはClaude Haiku 4.5モデルで、Gooseフレームワークを装備。タスクは複雑なPDFページからの表抽出で、そのページはParseBenchから取られた2012年の計量経済学論文の7ページ目であり、4つの表が詰め込まれ、特にTable 7は2つの6x6相関行列が上下に重なったもので、レイアウトが重要であった。

チームは2つの構成をテストした。1つは組み込みのpdf_tool（テキスト読み取り）、もう1つはpdf-vision MCPサーバー（画像による視覚）である。最初の試行ではpdf_toolで試みたが、テキストが「Mar c h FB 4 - 7.309 O 9 - 1.513」のように断片化され、構造が完全に失われていた。エージェントは「すべての値が完璧に一致する」と宣言したが、実際のスコアは53%で失敗だった。この試行はわずか5回の相互作用で5セントのコストであったが、エージェントは誤りに気づいていなかった。

2回目の試行では視覚を有効にしたが、エージェントは実際には画像を一度も見ることができなかった（画像読み込み失敗）。get_page_imageは空を返し、PNGファイルを保存してコンピュータコントローラで表示しようとしたが失敗し、base64エンコードまで試みた。24回の試行と多くの失敗の後、エージェントはpdf-visionの別モード、レイアウトを保持したマークダウン形式でのエクスポートを使用。これにより表の構造が明確になり、エージェントは100%の正確さで表を再構築した。コストは33セントと最初の7倍になったが、成功を収めた。

重要な発見は、視覚能力は全く使われず、成功の鍵はレイアウトを保持するテキストツールにあったことだ。エージェントは粘り強さと適切なツールの組み合わせで勝利した。より安価なモデルでも、適切なハーネスとツールがあれば高難度タスクを達成できる。全プロセスはAgent Voyager Project（AVP）のオープン標準で記録され、各ステップの意思決定が明らかになった。例えば、エージェントはY座標から行構造を推測しようとしたが、最終的に正しいツールはマークダウンエクスポートだった。

この実験は、エージェントのパフォーマンスを評価する際、コストやスコアだけでなく、その行動の記録と理解が重要であることを示している。エージェントがどのように成功または失敗したかを理解することで、より強力で信頼性の高いAIシステムの構築につながる。