2026-06-30 09:27 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 01:34 UTC+8

提取基準測試：比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化資料的能力

LangChain釋出了一個新的提取基準資料集，用於評估LLM從聊天日誌中推斷結構化資訊的能力。文章詳細介紹了資料集的建立過程、評估指標以及對GPT-4、Claude-2、Code Llama 2等模型的基準測試結果。實驗表明，GPT-4在多數指標上表現最佳，而開源模型在結構化輸出方面仍有挑戰。

來源LangChain Blog

兩週前，LangChain釋出了langchain-benchmarks包和一個基於LangChain文件的問答資料集。今天，我們推出一個新的提取資料集，用於衡量LLM從聊天日誌中推斷正確結構化資訊的能力。

這個新資料集提供了一個實用環境，用於測試LLM應用開發中的常見挑戰，例如分類非結構化文本、生成機器可讀資訊，以及在干擾資訊下處理多個任務。

本文將介紹我們如何建立該資料集，並分享一些初步的基準測試結果。

建立資料集的動機

我們希望圍繞一個真實世界的問題設計資料集模式：從聊天機器人互動中提取結構化見解。今年夏天，我們的實習生Molly幫助我們重新整理了Chat LangChain（一個基於LangChain Python文件的檢索增強生成應用）。這是一個“帶搜尋引擎的LLM”，使用者可以詢問“如何向代理新增記憶？”等問題，它會根據文件中的內容給出答案。

這類專案的真正考驗是在部署之後，當你開始觀察其使用情況並進一步最佳化時。通常，使用者不會提供明確的反饋，但他們的對話揭示了大量資訊。雖然可以僅將日誌“放入LLM”進行總結，但提取結構化內容來進行監控和分析往往更有效。這可以驅動分析儀表板或微調資料收集流水線，因為結構化值容易被傳統軟體使用。

聊天提取資料集的設計目的是測試當前一批LLM從這類資料中提取和分類相關資訊的能力。

建立資料集

建立資料集的主要步驟包括：確定表示結構化輸出的資料模型，用問答對進行種子化，使用LLM生成候選答案，然後人工稽核結果並更新分類體系。LangChain長期提供合成資料集生成工具來幫助啟動資料，但最終版本始終需要一定程度的人工稽核以確保質量。

一旦有了初始資料集，你可以將標註資料作為種子生成模型中的少量示例，以提高提供給人類稽核的資料的質量。

提取模式

我們希望任務既有可處理性，又能對當前常見模型構成挑戰。我們使用一個鏈式Pydantic模型定義了模式。一個示例如下：

{ "GenerateTicket": { "question": { "toxicity": 0, "sentiment": "Neutral", "is_off_topic": false, "question_category": "Function Calling", "programming_language": "unknown" }, "response": { "response_type": "provide guidance", "confidence_level": 5, "followup_actions": [ "Check with API provider for function calling support." ] }, "issue_summary": "Function Calling Format Validation" } }

該模式具有幾個挑戰：包含較長的列舉值，物件巢狀，每個巢狀元件中的值需要從輸入的對應部分推斷，以及結合了分類、摘要和結構化輸出生成。

評估

此基準側重於結構和分類，因此不需要使用LLM作為評判的指標。我們編寫了自定義的LangSmith評估器，測量以下內容：

結構驗證：JSON模式合規性。
分類任務：問題類別、離題性、毒性、程式語言、置信度、情感等。
整體差異：JSON編輯距離。

實驗

我們評估了gpt-4-1106-preview、claude-2、llama-v2-34b-code-instruct、llama-v2-chat-70b和yi-34b-200k-capybara。

實驗1：GPT-4與Claude-2對比。GPT-4使用工具呼叫API，Claude-2使用JSON模式或XSD提示。結果顯示GPT-4在所有指標上幾乎都領先，且能完美輸出JSON模式。Claude-2則存在格式不一致問題。

實驗2：開源模型基線。Yi-34b和Code Llama 2在JSON合規性上優於Llama 2 70B，但整體表現仍遠低於閉源模型。Code Llama 2在多數指標上相對更好。

實驗3：提示策略以改進模式合規性。我們測試了額外指令、鏈式思考和少量示例三種策略，發現對Code Llama 2的幫助有限。

總之，該基準突顯了當前模型在結構化提取上的差距，為未來改進提供了方向。