2026-06-02 00:29 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

我们给AI智能体装上眼睛，它却根本没使用它们

一项实验发现，即使为AI智能体赋予视觉能力，它可能也不会使用。使用Claude Haiku 4.5和Goose框架，智能体在表格提取任务中成功不是靠视觉，而是借助保留布局的文本工具。通过开放标准AVP记录，揭示了坚持和合适工具比昂贵模型更重要。

来源Hacker News AI作者: pmkelly4444

在一项实验中，研究团队给一个AI智能体赋予了视觉能力，但它最终却没有使用它。这项实验旨在测试较便宜的AI模型能否在强大的框架支持下完成困难任务。

实验使用了Claude Haiku 4.5模型，配备Goose框架，任务是从一页复杂的PDF中提取表格。该页面来自ParseBench，是一篇2012年计量经济学论文的第7页，包含四个表格，其中Table 7是两个6x6相关矩阵堆叠而成，布局复杂，纯文本提取效果极差。

团队测试了两种配置：一种使用内置的pdf_tool（纯文本读取），另一种使用pdf-vision MCP服务器（通过图像提供视觉能力）。第一次尝试中，智能体仅使用pdf_tool，但得到的是混乱的文本流，例如 "Mar c h FB 4 - 7.309 O 9 - 1.513" 等，毫无结构可言。尽管它自信地宣称“所有值完美匹配”，最终评分仅为53%，失败。这次尝试只用了5次交互，花费5美分，但智能体完全不知道自己错了。

第二次尝试中，启用了视觉能力，但智能体实际上从未成功看到图像——图像加载一直失败。智能体尝试了多种方法：先用get_page_image，返回空；然后尝试保存PNG文件并用计算机控制器查看，仍然不行；甚至用cat将PNG进行base64编码，希望在终端阅读。经过24次尝试和多次失败后，智能体转而使用pdf-vision的另一种模式：将页面导出为保留布局的markdown格式。这次导出成功显示了表格的完整结构，包括行和列。利用这个文本输出，智能体成功重建了表格，获得100%准确率。这次尝试花费33美分，是第一次的7倍，但成功完成了任务。

关键发现是：视觉能力并未被使用，真正起作用的是能够保留二维布局的文本工具。智能体依靠坚持和合适工具，而不是视觉。更便宜的模型在正确框架下也能完成高难度任务。整个过程通过Agent Voyager Project（AVP）的开放标准记录，揭示了每一步的决策和困惑。例如，智能体曾试图通过y坐标推断行结构，但最终正确的工具是markdown导出。

这项实验表明，衡量智能体性能时，仅看成本或分数会遗漏重要细节。真正的价值在于记录智能体的行为，理解它如何以及为何成功或失败。这为评估和提升AI智能体能力提供了重要启示：强大的框架和合适的工具比昂贵的模型本身更关键。