AI News HubLIVE
站內改寫2 分鐘閱讀

提取基準測試:比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化資料的能力

LangChain釋出了一個新的提取基準資料集,用於評估LLM從聊天日誌中推斷結構化資訊的能力。文章詳細介紹了資料集的建立過程、評估指標以及對GPT-4、Claude-2、Code Llama 2等模型的基準測試結果。實驗表明,GPT-4在多數指標上表現最佳,而開源模型在結構化輸出方面仍有挑戰。

兩週前,LangChain釋出了langchain-benchmarks包和一個基於LangChain文件的問答資料集。今天,我們推出一個新的提取資料集,用於衡量LLM從聊天日誌中推斷正確結構化資訊的能力。

這個新資料集提供了一個實用環境,用於測試LLM應用開發中的常見挑戰,例如分類非結構化文本、生成機器可讀資訊,以及在干擾資訊下處理多個任務。

本文將介紹我們如何建立該資料集,並分享一些初步的基準測試結果。

建立資料集的動機

我們希望圍繞一個真實世界的問題設計資料集模式:從聊天機器人互動中提取結構化見解。今年夏天,我們的實習生Molly幫助我們重新整理了Chat LangChain(一個基於LangChain Python文件的檢索增強生成應用)。這是一個“帶搜尋引擎的LLM”,使用者可以詢問“如何向代理新增記憶?”等問題,它會根據文件中的內容給出答案。

這類專案的真正考驗是在部署之後,當你開始觀察其使用情況並進一步最佳化時。通常,使用者不會提供明確的反饋,但他們的對話揭示了大量資訊。雖然可以僅將日誌“放入LLM”進行總結,但提取結構化內容來進行監控和分析往往更有效。這可以驅動分析儀表板或微調資料收集流水線,因為結構化值容易被傳統軟體使用。

聊天提取資料集的設計目的是測試當前一批LLM從這類資料中提取和分類相關資訊的能力。

建立資料集

建立資料集的主要步驟包括:確定表示結構化輸出的資料模型,用問答對進行種子化,使用LLM生成候選答案,然後人工稽核結果並更新分類體系。LangChain長期提供合成資料集生成工具來幫助啟動資料,但最終版本始終需要一定程度的人工稽核以確保質量。

一旦有了初始資料集,你可以將標註資料作為種子生成模型中的少量示例,以提高提供給人類稽核的資料的質量。

提取模式

我們希望任務既有可處理性,又能對當前常見模型構成挑戰。我們使用一個鏈式Pydantic模型定義了模式。一個示例如下:

{ "GenerateTicket": { "question": { "toxicity": 0, "sentiment": "Neutral", "is_off_topic": false, "question_category": "Function Calling", "programming_language": "unknown" }, "response": { "response_type": "provide guidance", "confidence_level": 5, "followup_actions": [ "Check with API provider for function calling support." ] }, "issue_summary": "Function Calling Format Validation" } }

該模式具有幾個挑戰:包含較長的列舉值,物件巢狀,每個巢狀元件中的值需要從輸入的對應部分推斷,以及結合了分類、摘要和結構化輸出生成。

評估

此基準側重於結構和分類,因此不需要使用LLM作為評判的指標。我們編寫了自定義的LangSmith評估器,測量以下內容:

  • 結構驗證:JSON模式合規性。
  • 分類任務:問題類別、離題性、毒性、程式語言、置信度、情感等。
  • 整體差異:JSON編輯距離。

實驗

我們評估了gpt-4-1106-preview、claude-2、llama-v2-34b-code-instruct、llama-v2-chat-70b和yi-34b-200k-capybara。

實驗1:GPT-4與Claude-2對比。GPT-4使用工具呼叫API,Claude-2使用JSON模式或XSD提示。結果顯示GPT-4在所有指標上幾乎都領先,且能完美輸出JSON模式。Claude-2則存在格式不一致問題。

實驗2:開源模型基線。Yi-34b和Code Llama 2在JSON合規性上優於Llama 2 70B,但整體表現仍遠低於閉源模型。Code Llama 2在多數指標上相對更好。

實驗3:提示策略以改進模式合規性。我們測試了額外指令、鏈式思考和少量示例三種策略,發現對Code Llama 2的幫助有限。

總之,該基準突顯了當前模型在結構化提取上的差距,為未來改進提供了方向。