AI News HubLIVE
站內改寫2 分鐘閱讀

提取基準測試:比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化數據的能力

LangChain發佈了一個新的提取基準數據集,用於評估LLM從聊天日誌中推斷結構化信息的能力。文章詳細介紹了數據集的創建過程、評估指標以及對GPT-4、Claude-2、Code Llama 2等模型的基準測試結果。實驗表明,GPT-4在多數指標上表現最佳,而開源模型在結構化輸出方面仍有挑戰。

兩週前,LangChain發佈了langchain-benchmarks包和一個基於LangChain文檔的問答數據集。今天,我們推出一個新的提取數據集,用於衡量LLM從聊天日誌中推斷正確結構化信息的能力。

這個新數據集提供了一個實用環境,用於測試LLM應用開發中的常見挑戰,例如分類非結構化文本、生成機器可讀信息,以及在干擾信息下處理多個任務。

本文將介紹我們如何創建該數據集,並分享一些初步的基準測試結果。

創建數據集的動機

我們希望圍繞一個真實世界的問題設計數據集模式:從聊天機器人交互中提取結構化見解。今年夏天,我們的實習生Molly幫助我們刷新了Chat LangChain(一個基於LangChain Python文檔的檢索增強生成應用)。這是一個“帶搜索引擎的LLM”,用户可以詢問“如何向代理添加記憶?”等問題,它會根據文檔中的內容給出答案。

這類項目的真正考驗是在部署之後,當你開始觀察其使用情況並進一步優化時。通常,用户不會提供明確的反饋,但他們的對話揭示了大量信息。雖然可以僅將日誌“放入LLM”進行總結,但提取結構化內容來進行監控和分析往往更有效。這可以驅動分析儀表板或微調數據收集流水線,因為結構化值容易被傳統軟件使用。

聊天提取數據集的設計目的是測試當前一批LLM從這類數據中提取和分類相關信息的能力。

創建數據集

創建數據集的主要步驟包括:確定表示結構化輸出的數據模型,用問答對進行種子化,使用LLM生成候選答案,然後人工審核結果並更新分類體系。LangChain長期提供合成數據集生成工具來幫助啓動數據,但最終版本始終需要一定程度的人工審核以確保質量。

一旦有了初始數據集,你可以將標註數據作為種子生成模型中的少量示例,以提高提供給人類審核的數據的質量。

提取模式

我們希望任務既有可處理性,又能對當前常見模型構成挑戰。我們使用一個鏈式Pydantic模型定義了模式。一個示例如下:

{ "GenerateTicket": { "question": { "toxicity": 0, "sentiment": "Neutral", "is_off_topic": false, "question_category": "Function Calling", "programming_language": "unknown" }, "response": { "response_type": "provide guidance", "confidence_level": 5, "followup_actions": [ "Check with API provider for function calling support." ] }, "issue_summary": "Function Calling Format Validation" } }

該模式具有幾個挑戰:包含較長的枚舉值,對象嵌套,每個嵌套組件中的值需要從輸入的對應部分推斷,以及結合了分類、摘要和結構化輸出生成。

評估

此基準側重於結構和分類,因此不需要使用LLM作為評判的指標。我們編寫了自定義的LangSmith評估器,測量以下內容:

  • 結構驗證:JSON模式合規性。
  • 分類任務:問題類別、離題性、毒性、編程語言、置信度、情感等。
  • 整體差異:JSON編輯距離。

實驗

我們評估了gpt-4-1106-preview、claude-2、llama-v2-34b-code-instruct、llama-v2-chat-70b和yi-34b-200k-capybara。

實驗1:GPT-4與Claude-2對比。GPT-4使用工具調用API,Claude-2使用JSON模式或XSD提示。結果顯示GPT-4在所有指標上幾乎都領先,且能完美輸出JSON模式。Claude-2則存在格式不一致問題。

實驗2:開源模型基線。Yi-34b和Code Llama 2在JSON合規性上優於Llama 2 70B,但整體表現仍遠低於閉源模型。Code Llama 2在多數指標上相對更好。

實驗3:提示策略以改進模式合規性。我們測試了額外指令、鏈式思考和少量示例三種策略,發現對Code Llama 2的幫助有限。

總之,該基準突顯了當前模型在結構化提取上的差距,為未來改進提供了方向。