2026-06-30 09:27 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 01:35 UTC+8

基準測試智能體工具使用能力

LangChain 發佈了四個新的測試環境，用於評估大型語言模型（LLM）使用工具完成任務的能力，涉及規劃、函數調用和推理等關鍵技能。測試比較了 GPT-4、Claude 2.1、GPT-3.5 以及開源模型（如 Mistral 7b）的表現。關鍵發現包括：GPT-4 在關係數據任務中表現最佳，但在長時間軌跡中易出錯；Claude 2.1 在三個任務中與 GPT-4 相當；開源模型在多次函數組合上表現不佳；規劃能力仍是 LLM 的難點。

來源LangChain Blog

LangChain 於 2023 年 12 月 19 日發佈了四個新的測試環境，旨在標準化評估大型語言模型（LLM）在使用工具完成任務方面的表現。這些測試環境專注於代理工作流中的關鍵能力，包括規劃與任務分解、函數調用以及必要時克服預訓練偏差的能力。

四項測試任務

打字機（單一工具）：智能體需使用一個單一工具依次輸入指定單詞的每個字母。任務看似簡單，但實驗發現即使是 GPT-4 也會出錯，例如拒絕輸入“keyboard”或無法識別單詞“head”。
打字機（26 個工具）：智能體需從 26 個工具中選擇正確的工具，每個工具對應一個英文字母。該任務容易觸發模型的異常行為，導致多家模型的性能顯著下降。
關係數據：智能體需根據三張關係表中的信息回答問題。這是最接近真實應用場景的任務，需要智能體理解函數間的依賴關係。例如，要回答“Alice 是否需要帶傘？”，智能體必須依次查詢用户信息、用户位置和所在地天氣。
多宇宙數學：智能體需使用工具解決數學問題，但底層數學規則已發生微小變化，以測試模型能否克服預訓練偏差。

測試結果與關鍵發現

實驗測試了多個模型，包括 OpenAI 的 GPT-3.5 和 GPT-4（多個版本）、Anthropic 的 Claude 2.1，以及開源模型如 Mistral 7b（由 Anyscale 微調）和 Mixtral 8x7b（由 Fireworks.ai 微調）。主要結果如下：

GPT-4 在關係數據任務中表現最佳，幾乎解答了所有 20 個問題，但仍在個別案例中失敗，例如將“Frank”誤認為貓而非用户。
Claude 2.1 在三個任務中與 GPT-4 處於同一誤差範圍內，但在關係數據任務中略遜一籌。
GPT-3.5 在多宇宙數學任務中反而優於 GPT-4，這可能是因為 GPT-4 更強的預訓練偏差干擾了其對規則變化的適應能力。
開源模型的差距明顯。Mistral 7b 雖然能正確輸出工具調用格式，但難以可靠地組合兩次以上的函數調用。未來開源模型在函數調用方面的改進應重點關注函數組合能力。
規劃仍是 LLM 的軟肋。隨着任務步驟增加，失敗概率直線上升，即使對簡單任務也是如此。

評估指標

研究採用了四種指標：

正確性：與標準答案對比，使用 LLM 作為裁判。
最終環境狀態：檢查最終世界狀態是否正確。
中間步驟準確性：檢查函數調用順序是否與最優序列一致。
步驟數量比：實際步驟與期望步驟的比例。

啓示與建議

模型在訓練中獲取的超人知識未必能遷移到新任務。在部署前，必須驗證 LLM 是否擅長你需要的具體行為模式。
規劃對 LLM 仍然困難，步驟越多，失敗概率越高。
函數調用能保證 100% 的模式正確性，但不足以確保任務正確。若需微調模型用於代理，必須訓練其處理多步驟軌跡。

總體而言，這些基準測試揭示了當前 LLM 在工具使用方面的潛力與侷限，為開發者選擇模型和設計代理工作流提供了重要參考。