AI News HubLIVE
站内改写2 分鐘閱讀

我們給AI智能體裝上眼睛,它卻根本沒使用它們

一項實驗發現,即使為AI智能體賦予視覺能力,它可能也不會使用。使用Claude Haiku 4.5和Goose框架,智能體在表格提取任務中成功不是靠視覺,而是藉助保留佈局的文本工具。通過開放標準AVP記錄,揭示了堅持和合適工具比昂貴模型更重要。

來源Hacker News AI作者: pmkelly4444

在一項實驗中,研究團隊給一個AI智能體賦予了視覺能力,但它最終卻沒有使用它。這項實驗旨在測試較便宜的AI模型能否在強大的框架支持下完成困難任務。

實驗使用了Claude Haiku 4.5模型,配備Goose框架,任務是從一頁複雜的PDF中提取表格。該頁面來自ParseBench,是一篇2012年計量經濟學論文的第7頁,包含四個表格,其中Table 7是兩個6x6相關矩陣堆疊而成,佈局複雜,純文本提取效果極差。

團隊測試了兩種配置:一種使用內置的pdf_tool(純文本讀取),另一種使用pdf-vision MCP服務器(通過圖像提供視覺能力)。第一次嘗試中,智能體僅使用pdf_tool,但得到的是混亂的文本流,例如 "Mar c h FB 4 - 7.309 O 9 - 1.513" 等,毫無結構可言。儘管它自信地宣稱“所有值完美匹配”,最終評分僅為53%,失敗。這次嘗試只用了5次交互,花費5美分,但智能體完全不知道自己錯了。

第二次嘗試中,啓用了視覺能力,但智能體實際上從未成功看到圖像——圖像加載一直失敗。智能體嘗試了多種方法:先用get_page_image,返回空;然後嘗試保存PNG文件並用計算機控制器查看,仍然不行;甚至用cat將PNG進行base64編碼,希望在終端閲讀。經過24次嘗試和多次失敗後,智能體轉而使用pdf-vision的另一種模式:將頁面導出為保留佈局的markdown格式。這次導出成功顯示了表格的完整結構,包括行和列。利用這個文本輸出,智能體成功重建了表格,獲得100%準確率。這次嘗試花費33美分,是第一次的7倍,但成功完成了任務。

關鍵發現是:視覺能力並未被使用,真正起作用的是能夠保留二維佈局的文本工具。智能體依靠堅持和合適工具,而不是視覺。更便宜的模型在正確框架下也能完成高難度任務。整個過程通過Agent Voyager Project(AVP)的開放標準記錄,揭示了每一步的決策和困惑。例如,智能體曾試圖通過y座標推斷行結構,但最終正確的工具是markdown導出。

這項實驗表明,衡量智能體性能時,僅看成本或分數會遺漏重要細節。真正的價值在於記錄智能體的行為,理解它如何以及為何成功或失敗。這為評估和提升AI智能體能力提供了重要啓示:強大的框架和合適的工具比昂貴的模型本身更關鍵。