2026-06-02 00:29 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

我們給AI智能體裝上眼睛，它卻根本沒使用它們

一項實驗發現，即使為AI智能體賦予視覺能力，它可能也不會使用。使用Claude Haiku 4.5和Goose框架，智能體在表格提取任務中成功不是靠視覺，而是藉助保留佈局的文本工具。通過開放標準AVP記錄，揭示了堅持和合適工具比昂貴模型更重要。

來源Hacker News AI作者: pmkelly4444

在一項實驗中，研究團隊給一個AI智能體賦予了視覺能力，但它最終卻沒有使用它。這項實驗旨在測試較便宜的AI模型能否在強大的框架支持下完成困難任務。

實驗使用了Claude Haiku 4.5模型，配備Goose框架，任務是從一頁複雜的PDF中提取表格。該頁面來自ParseBench，是一篇2012年計量經濟學論文的第7頁，包含四個表格，其中Table 7是兩個6x6相關矩陣堆疊而成，佈局複雜，純文本提取效果極差。

團隊測試了兩種配置：一種使用內置的pdf_tool（純文本讀取），另一種使用pdf-vision MCP服務器（通過圖像提供視覺能力）。第一次嘗試中，智能體僅使用pdf_tool，但得到的是混亂的文本流，例如 "Mar c h FB 4 - 7.309 O 9 - 1.513" 等，毫無結構可言。儘管它自信地宣稱“所有值完美匹配”，最終評分僅為53%，失敗。這次嘗試只用了5次交互，花費5美分，但智能體完全不知道自己錯了。

第二次嘗試中，啓用了視覺能力，但智能體實際上從未成功看到圖像——圖像加載一直失敗。智能體嘗試了多種方法：先用get_page_image，返回空；然後嘗試保存PNG文件並用計算機控制器查看，仍然不行；甚至用cat將PNG進行base64編碼，希望在終端閲讀。經過24次嘗試和多次失敗後，智能體轉而使用pdf-vision的另一種模式：將頁面導出為保留佈局的markdown格式。這次導出成功顯示了表格的完整結構，包括行和列。利用這個文本輸出，智能體成功重建了表格，獲得100%準確率。這次嘗試花費33美分，是第一次的7倍，但成功完成了任務。

關鍵發現是：視覺能力並未被使用，真正起作用的是能夠保留二維佈局的文本工具。智能體依靠堅持和合適工具，而不是視覺。更便宜的模型在正確框架下也能完成高難度任務。整個過程通過Agent Voyager Project（AVP）的開放標準記錄，揭示了每一步的決策和困惑。例如，智能體曾試圖通過y座標推斷行結構，但最終正確的工具是markdown導出。

這項實驗表明，衡量智能體性能時，僅看成本或分數會遺漏重要細節。真正的價值在於記錄智能體的行為，理解它如何以及為何成功或失敗。這為評估和提升AI智能體能力提供了重要啓示：強大的框架和合適的工具比昂貴的模型本身更關鍵。