AI News HubLIVE
站内改写2 分钟阅读

我们给AI智能体装上眼睛,它却根本没使用它们

一项实验发现,即使为AI智能体赋予视觉能力,它可能也不会使用。使用Claude Haiku 4.5和Goose框架,智能体在表格提取任务中成功不是靠视觉,而是借助保留布局的文本工具。通过开放标准AVP记录,揭示了坚持和合适工具比昂贵模型更重要。

来源Hacker News AI作者: pmkelly4444

在一项实验中,研究团队给一个AI智能体赋予了视觉能力,但它最终却没有使用它。这项实验旨在测试较便宜的AI模型能否在强大的框架支持下完成困难任务。

实验使用了Claude Haiku 4.5模型,配备Goose框架,任务是从一页复杂的PDF中提取表格。该页面来自ParseBench,是一篇2012年计量经济学论文的第7页,包含四个表格,其中Table 7是两个6x6相关矩阵堆叠而成,布局复杂,纯文本提取效果极差。

团队测试了两种配置:一种使用内置的pdf_tool(纯文本读取),另一种使用pdf-vision MCP服务器(通过图像提供视觉能力)。第一次尝试中,智能体仅使用pdf_tool,但得到的是混乱的文本流,例如 "Mar c h FB 4 - 7.309 O 9 - 1.513" 等,毫无结构可言。尽管它自信地宣称“所有值完美匹配”,最终评分仅为53%,失败。这次尝试只用了5次交互,花费5美分,但智能体完全不知道自己错了。

第二次尝试中,启用了视觉能力,但智能体实际上从未成功看到图像——图像加载一直失败。智能体尝试了多种方法:先用get_page_image,返回空;然后尝试保存PNG文件并用计算机控制器查看,仍然不行;甚至用cat将PNG进行base64编码,希望在终端阅读。经过24次尝试和多次失败后,智能体转而使用pdf-vision的另一种模式:将页面导出为保留布局的markdown格式。这次导出成功显示了表格的完整结构,包括行和列。利用这个文本输出,智能体成功重建了表格,获得100%准确率。这次尝试花费33美分,是第一次的7倍,但成功完成了任务。

关键发现是:视觉能力并未被使用,真正起作用的是能够保留二维布局的文本工具。智能体依靠坚持和合适工具,而不是视觉。更便宜的模型在正确框架下也能完成高难度任务。整个过程通过Agent Voyager Project(AVP)的开放标准记录,揭示了每一步的决策和困惑。例如,智能体曾试图通过y坐标推断行结构,但最终正确的工具是markdown导出。

这项实验表明,衡量智能体性能时,仅看成本或分数会遗漏重要细节。真正的价值在于记录智能体的行为,理解它如何以及为何成功或失败。这为评估和提升AI智能体能力提供了重要启示:强大的框架和合适的工具比昂贵的模型本身更关键。