基準測試智能體工具使用能力
LangChain 發佈了四個新的測試環境,用於評估大型語言模型(LLM)使用工具完成任務的能力,涉及規劃、函數調用和推理等關鍵技能。測試比較了 GPT-4、Claude 2.1、GPT-3.5 以及開源模型(如 Mistral 7b)的表現。關鍵發現包括:GPT-4 在關係數據任務中表現最佳,但在長時間軌跡中易出錯;Claude 2.1 在三個任務中與 GPT-4 相當;開源模型在多次函數組合上表現不佳;規劃能力仍是 LLM 的難點。
LangChain 於 2023 年 12 月 19 日發佈了四個新的測試環境,旨在標準化評估大型語言模型(LLM)在使用工具完成任務方面的表現。這些測試環境專注於代理工作流中的關鍵能力,包括規劃與任務分解、函數調用以及必要時克服預訓練偏差的能力。
四項測試任務
- 打字機(單一工具):智能體需使用一個單一工具依次輸入指定單詞的每個字母。任務看似簡單,但實驗發現即使是 GPT-4 也會出錯,例如拒絕輸入“keyboard”或無法識別單詞“head”。
- 打字機(26 個工具):智能體需從 26 個工具中選擇正確的工具,每個工具對應一個英文字母。該任務容易觸發模型的異常行為,導致多家模型的性能顯著下降。
- 關係數據:智能體需根據三張關係表中的信息回答問題。這是最接近真實應用場景的任務,需要智能體理解函數間的依賴關係。例如,要回答“Alice 是否需要帶傘?”,智能體必須依次查詢用户信息、用户位置和所在地天氣。
- 多宇宙數學:智能體需使用工具解決數學問題,但底層數學規則已發生微小變化,以測試模型能否克服預訓練偏差。
測試結果與關鍵發現
實驗測試了多個模型,包括 OpenAI 的 GPT-3.5 和 GPT-4(多個版本)、Anthropic 的 Claude 2.1,以及開源模型如 Mistral 7b(由 Anyscale 微調)和 Mixtral 8x7b(由 Fireworks.ai 微調)。主要結果如下:
- GPT-4 在關係數據任務中表現最佳,幾乎解答了所有 20 個問題,但仍在個別案例中失敗,例如將“Frank”誤認為貓而非用户。
- Claude 2.1 在三個任務中與 GPT-4 處於同一誤差範圍內,但在關係數據任務中略遜一籌。
- GPT-3.5 在多宇宙數學任務中反而優於 GPT-4,這可能是因為 GPT-4 更強的預訓練偏差干擾了其對規則變化的適應能力。
- 開源模型的差距明顯。Mistral 7b 雖然能正確輸出工具調用格式,但難以可靠地組合兩次以上的函數調用。未來開源模型在函數調用方面的改進應重點關注函數組合能力。
- 規劃仍是 LLM 的軟肋。隨着任務步驟增加,失敗概率直線上升,即使對簡單任務也是如此。
評估指標
研究採用了四種指標:
- 正確性:與標準答案對比,使用 LLM 作為裁判。
- 最終環境狀態:檢查最終世界狀態是否正確。
- 中間步驟準確性:檢查函數調用順序是否與最優序列一致。
- 步驟數量比:實際步驟與期望步驟的比例。
啓示與建議
- 模型在訓練中獲取的超人知識未必能遷移到新任務。在部署前,必須驗證 LLM 是否擅長你需要的具體行為模式。
- 規劃對 LLM 仍然困難,步驟越多,失敗概率越高。
- 函數調用能保證 100% 的模式正確性,但不足以確保任務正確。若需微調模型用於代理,必須訓練其處理多步驟軌跡。
總體而言,這些基準測試揭示了當前 LLM 在工具使用方面的潛力與侷限,為開發者選擇模型和設計代理工作流提供了重要參考。