AI News HubLIVE
站內改寫2 分鐘閱讀

兩個AI評委給我們的智能體答案打了0.85分,但它從未打開文件

本文揭示了LLM作為評委(LLM-as-Judge)在評估智能體時的根本缺陷:評委只檢查最終答案是否匹配,而不檢查答案是否基於有效的證據路徑。通過案例展示,智能體在未檢索必要文檔的情況下仍獲得0.85高分,而基於軌跡的評分僅為0.000。文章提出使用確定性狀態契約來評估智能體行為,並分析了三種失效模式。

來源Hacker News AI作者: jflynt76

在大語言模型(LLM)作為評估評委(LLM-as-Judge)成為智能體評估默認方法的今天,一個關鍵問題被忽視了:評委只看到最終答案,卻看不到智能體是如何得出該答案的。本文通過一個具體案例,揭示了這一方法的根本缺陷。

在案例研究中,一個智能體被問及一個依賴於特定Confluence頁面內容的問題。智能體以自信且合理的語言回應,聲稱該頁面不存在,並在此基礎上給出了答案。兩個前沿的評委模型閲讀了問題和回答後,均給出了0.85的高分。然而,實際的軌跡記錄顯示,智能體從未獲取該頁面,從未檢索或搜索過它。它是在沒有進行必要搜索的情況下斷言了缺失,然後從這一未經核實的斷言出發進行推理。當根據實際軌跡和訪問策略進行評分時,該回答的得分是0.000。

這一差距並非偶然。LLM-as-Judge的提示詞明確指示模型僅檢查最終答案是否與正確答案匹配,忽略背景和推理過程。這種設計對於簡單的字符串匹配是合理的,但對於需要在世界中行動的智能體,它完全不夠。智能體可能通過幸運的猜測或虛假的斷言得到正確答案,而評委無法區分。

文章進一步分析了三種典型的失效模式:第一種是“機械完美但狀態無效”,即智能體可能正確調用工具,但使用了不可見文檔或過時工件;第二種是“缺失問題”,即智能體斷言某事物不存在,但並未進行充分搜索;第三種是“因果顛倒”,即智能體引用真實事件但推理方向錯誤。這三種失效模式都無法被LLM-as-Judge或工具調用檢查發現。

為什麼這個問題一直隱藏?因為評委模型僅憑問題和答案無法驗證工件是否在智能體的可見範圍內,它需要訪問策略、事件日誌和工件時間戳。大多數評估設置不提供這些信息。一旦提供這些結構,正確性信號就不再是評委的合理性評估,而是狀態契約本身。最終答案的正確性不足以評估智能體,因為正確性必須基於證據路徑:智能體被允許知道什麼、何時知道、搜索了什麼、引用了什麼,以及缺失或因果主張是否合理。

文章還提出了“進攻論據”:部署後構建的大多數防禦實際上是在彌補本應在部署前發現的測試缺口。如果能在部署前針對具體訪問策略進行狀態有效性測試,團隊就能確切知道智能體是否會越界,而不是堆疊多層通用防禦。

最終,文章強調在部署前進行狀態有效性測試,可以明確已知弱點,而不是通過多層通用防禦來覆蓋未知風險。寫清楚契約,再寫批准,這才是智能體評估的未來方向。