2026-06-30 09:27 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 01:34 UTC+8

提取基準測試：比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化數據的能力

LangChain發佈了一個新的提取基準數據集，用於評估LLM從聊天日誌中推斷結構化信息的能力。文章詳細介紹了數據集的創建過程、評估指標以及對GPT-4、Claude-2、Code Llama 2等模型的基準測試結果。實驗表明，GPT-4在多數指標上表現最佳，而開源模型在結構化輸出方面仍有挑戰。

來源LangChain Blog

兩週前，LangChain發佈了langchain-benchmarks包和一個基於LangChain文檔的問答數據集。今天，我們推出一個新的提取數據集，用於衡量LLM從聊天日誌中推斷正確結構化信息的能力。

這個新數據集提供了一個實用環境，用於測試LLM應用開發中的常見挑戰，例如分類非結構化文本、生成機器可讀信息，以及在干擾信息下處理多個任務。

本文將介紹我們如何創建該數據集，並分享一些初步的基準測試結果。

創建數據集的動機

我們希望圍繞一個真實世界的問題設計數據集模式：從聊天機器人交互中提取結構化見解。今年夏天，我們的實習生Molly幫助我們刷新了Chat LangChain（一個基於LangChain Python文檔的檢索增強生成應用）。這是一個“帶搜索引擎的LLM”，用户可以詢問“如何向代理添加記憶？”等問題，它會根據文檔中的內容給出答案。

這類項目的真正考驗是在部署之後，當你開始觀察其使用情況並進一步優化時。通常，用户不會提供明確的反饋，但他們的對話揭示了大量信息。雖然可以僅將日誌“放入LLM”進行總結，但提取結構化內容來進行監控和分析往往更有效。這可以驅動分析儀表板或微調數據收集流水線，因為結構化值容易被傳統軟件使用。

聊天提取數據集的設計目的是測試當前一批LLM從這類數據中提取和分類相關信息的能力。

創建數據集

創建數據集的主要步驟包括：確定表示結構化輸出的數據模型，用問答對進行種子化，使用LLM生成候選答案，然後人工審核結果並更新分類體系。LangChain長期提供合成數據集生成工具來幫助啓動數據，但最終版本始終需要一定程度的人工審核以確保質量。

一旦有了初始數據集，你可以將標註數據作為種子生成模型中的少量示例，以提高提供給人類審核的數據的質量。

提取模式

我們希望任務既有可處理性，又能對當前常見模型構成挑戰。我們使用一個鏈式Pydantic模型定義了模式。一個示例如下：

{ "GenerateTicket": { "question": { "toxicity": 0, "sentiment": "Neutral", "is_off_topic": false, "question_category": "Function Calling", "programming_language": "unknown" }, "response": { "response_type": "provide guidance", "confidence_level": 5, "followup_actions": [ "Check with API provider for function calling support." ] }, "issue_summary": "Function Calling Format Validation" } }

該模式具有幾個挑戰：包含較長的枚舉值，對象嵌套，每個嵌套組件中的值需要從輸入的對應部分推斷，以及結合了分類、摘要和結構化輸出生成。

評估

此基準側重於結構和分類，因此不需要使用LLM作為評判的指標。我們編寫了自定義的LangSmith評估器，測量以下內容：

結構驗證：JSON模式合規性。
分類任務：問題類別、離題性、毒性、編程語言、置信度、情感等。
整體差異：JSON編輯距離。

實驗

我們評估了gpt-4-1106-preview、claude-2、llama-v2-34b-code-instruct、llama-v2-chat-70b和yi-34b-200k-capybara。

實驗1：GPT-4與Claude-2對比。GPT-4使用工具調用API，Claude-2使用JSON模式或XSD提示。結果顯示GPT-4在所有指標上幾乎都領先，且能完美輸出JSON模式。Claude-2則存在格式不一致問題。

實驗2：開源模型基線。Yi-34b和Code Llama 2在JSON合規性上優於Llama 2 70B，但整體表現仍遠低於閉源模型。Code Llama 2在多數指標上相對更好。

實驗3：提示策略以改進模式合規性。我們測試了額外指令、鏈式思考和少量示例三種策略，發現對Code Llama 2的幫助有限。

總之，該基準突顯了當前模型在結構化提取上的差距，為未來改進提供了方向。